栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

Pandas数据分析工具

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

Pandas数据分析工具

一.了解pandas

1.Pandas中有两个主要的数据结构:Series(一维数据结构)和Dataframe(二维和表格型数据结构)

2.Pandas对Series对象方法的创建:

class pandas.Series(data = None,index = None,dtype = None, name = None,copy = False,fastpath = False)

data:表示传入的数据

  • index:表示索引,唯一且与数据长度相等,默认会自动创建一个从0~N的整数索引

    3.举例创建Series类对象:

     # 创建Series类对象 ser_obj = pd.Series([1, 2, 3, 4, 5])

    # 创建Series类对象,并指定索引 ser_obj = pd.Series([1, 2, 3, 4, 5],

                                                          index=['a', 'b', 'c', 'd', 'e'])

    #还可以用dict构建:

    year_data = {2001: 17.8, 2002: 20.1, 2003: 16.5}

    ser_obj2 = pd.Series(year_data)

    4. Pandas对Dataframe对象方法的创建:

    pandas.Dataframe(data = None,index = None,columns = None,
    dtype = None,copy = False )
    

    index:表示行标签,若不设置该参数,则默认会自动创建一个从0~N的整数索引columns:列标签

     5.举例创建Dataframe类对象:

    # 创建数组 demo_arr = np.array([['a', 'b', 'c'],['d', 'e', 'f']])

    # 基于数组创建Dataframe对象 df_obj = pd.Dataframe(demo_arr)

    #若为指定列索引则按照指定索引顺序进行排列:

    df_obj = pd.Dataframe(demo_arr, columns=['No1', 'No2', 'No3']) 

    #列索引返回结果为Series对象

     二.Pandas的作用

    1. Pandas中的索引都是Index类对象,又称为索引对象,该对象是不可以进行修改的,以保障数据的安全。

    2.Pandas还提供了很多Index的子类,常见的有如下几种:

    (1)Int64Index:针对整数的特殊Index对象。

    (2)MultiIndex:层次化索引,表示单个轴上的多层索引。

    (3)DatetimeIndex:存储纳秒寄时间戳。

    3.Pandas中提供了一个重要的方法是reindex(),该方法作用是对原索引和新索引进行匹配,就是新索引含有原索引的数据,而原索引数据按照新索引排序。

    如果新索引中没有原索引数据,那么程序不仅不会报错,而且会添加新的索引,并将值填充为NaN或者使用fill_vlues()填充其他值。

    4.Pandas中reindex()方法的语法格式:

    Dataframe.reindex(labels = None,index = None,
    columns = None,axis = None,method = None,
    copy = True,level = None,fill_value = nan,limit = None,tolerance = None )
    

    index:用作索引的新序列method:插值填充方式fill_value:引入缺失值时使用的替代值  limit:前向或者后向填充时的最大填充量

     5.Pandas中索引操作中Series有关索引的用法类似于NumPy数组的索引,但Series的索引值不只是整数。

    6.要想获取某个数据,既可以通过索引位置取得,也可以使用索引名称获取:

    ser_obj = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])

    ser_obj[2]  # 使用索引位置获取数据

    ser_obj['c']   # 使用索引名称获取数据

    7.若使用位置索引进行切片,则切片结果不包含结束位置,但是使用索引名称进行切片,则切片·结果是包含结束位置的:

    ser_obj[2: 4]  # 使用位置索引进行切片

    ser_obj['c': 'e']  # 使用索引名称进行切片

    8.若希望获取的是连续的数据,可以通过不连续索引实现:

     ser_obj[[0, 2, 4]]  #通过不连续位置索引获取数据集

    ser_obj[['a', 'c', 'd']]  #通过不连续索引名称获取数据集 

    9.Pandas也可以用布尔型索引 ,将布尔型的数组索引作为模板筛选数据,最后返回模板中True对应元素:

    ser_bool = ser_obj > 2  # 创建布尔型Series对象

    ser_obj[ser_bool]  # 获取结果为True的数据

     10.Pandas中Dataframe结构既包含行索引,也包含列索引。其中,行索引是通过index属性进行获取的,列索引是通过columns属性进行获取的。

    11.Pandas库中提供了操作索引的方法来访问数据,具体包括:

    loc:基于标签索引(索引名称),用于按标签选取数据。当执行切片操作时,既包含起始索引,也包含结束索引。

    iloc:基于位置索引(整数索引),用于按位置选取数据。当执行切片操作时,只包含起始索引,不包含结束索引。

    三.总结 

    这篇文章主要是 对于Pandas的数据结果分析和Pandas索引操作

    谢谢友友们观看!!!

  • 转载请注明:文章转载自 www.mshxw.com
    本文地址:https://www.mshxw.com/it/754598.html
    我们一直用心在做
    关于我们 文章归档 网站地图 联系我们

    版权所有 (c)2021-2022 MSHXW.COM

    ICP备案号:晋ICP备2021003244-6号