Pandas数据分析工具

一.了解pandas

1.Pandas中有两个主要的数据结构：Series(一维数据结构)和Dataframe(二维和表格型数据结构)

2.Pandas对Series对象方法的创建：

class pandas.Series（data = None，index = None，dtype = None， name = None，copy = False，fastpath = False）

data：表示传入的数据

index：表示索引，唯一且与数据长度相等，默认会自动创建一个从0~N的整数索引

3.举例创建Series类对象：

# 创建Series类对象 ser_obj = pd.Series([1, 2, 3, 4, 5])

# 创建Series类对象，并指定索引 ser_obj = pd.Series([1, 2, 3, 4, 5],

index=['a', 'b', 'c', 'd', 'e'])

#还可以用dict构建：

year_data = {2001: 17.8, 2002: 20.1, 2003: 16.5}

ser_obj2 = pd.Series(year_data)

4. Pandas对Dataframe对象方法的创建：

pandas.Dataframe（data = None，index = None，columns = None，
dtype = None，copy = False ）

index：表示行标签，若不设置该参数，则默认会自动创建一个从0~N的整数索引columns：列标签

5.举例创建Dataframe类对象：

# 创建数组 demo_arr = np.array([['a', 'b', 'c'],['d', 'e', 'f']])

# 基于数组创建Dataframe对象 df_obj = pd.Dataframe(demo_arr)

#若为指定列索引则按照指定索引顺序进行排列：

df_obj = pd.Dataframe(demo_arr, columns=['No1', 'No2', 'No3'])

#列索引返回结果为Series对象

二.Pandas的作用

1. Pandas中的索引都是Index类对象，又称为索引对象，该对象是不可以进行修改的，以保障数据的安全。

2.Pandas还提供了很多Index的子类，常见的有如下几种：

（1）Int64Index：针对整数的特殊Index对象。

（2）MultiIndex：层次化索引，表示单个轴上的多层索引。

（3）DatetimeIndex：存储纳秒寄时间戳。

3.Pandas中提供了一个重要的方法是reindex()，该方法作用是对原索引和新索引进行匹配，就是新索引含有原索引的数据，而原索引数据按照新索引排序。

如果新索引中没有原索引数据，那么程序不仅不会报错，而且会添加新的索引，并将值填充为NaN或者使用fill_vlues()填充其他值。

4.Pandas中reindex()方法的语法格式：

Dataframe.reindex（labels = None，index = None，
columns = None，axis = None，method = None，
copy = True，level = None，fill_value = nan，limit = None，tolerance = None ）

index：用作索引的新序列method：插值填充方式fill_value：引入缺失值时使用的替代值 limit：前向或者后向填充时的最大填充量

5.Pandas中索引操作中Series有关索引的用法类似于NumPy数组的索引，但Series的索引值不只是整数。

6.要想获取某个数据，既可以通过索引位置取得，也可以使用索引名称获取：

ser_obj = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])

ser_obj[2] # 使用索引位置获取数据

ser_obj['c'] # 使用索引名称获取数据

7.若使用位置索引进行切片，则切片结果不包含结束位置，但是使用索引名称进行切片，则切片·结果是包含结束位置的：

ser_obj[2: 4] # 使用位置索引进行切片

ser_obj['c': 'e'] # 使用索引名称进行切片

8.若希望获取的是连续的数据，可以通过不连续索引实现：

ser_obj[[0, 2, 4]] #通过不连续位置索引获取数据集

ser_obj[['a', 'c', 'd']] #通过不连续索引名称获取数据集

9.Pandas也可以用布尔型索引，将布尔型的数组索引作为模板筛选数据，最后返回模板中True对应元素：

ser_bool = ser_obj > 2 # 创建布尔型Series对象

ser_obj[ser_bool] # 获取结果为True的数据

10.Pandas中Dataframe结构既包含行索引，也包含列索引。其中，行索引是通过index属性进行获取的，列索引是通过columns属性进行获取的。

11.Pandas库中提供了操作索引的方法来访问数据，具体包括：

loc：基于标签索引（索引名称），用于按标签选取数据。当执行切片操作时，既包含起始索引，也包含结束索引。

iloc：基于位置索引（整数索引），用于按位置选取数据。当执行切片操作时，只包含起始索引，不包含结束索引。

三.总结

这篇文章主要是对于Pandas的数据结果分析和Pandas索引操作

谢谢友友们观看！！！

Pandas数据分析工具

Python相关栏目本月热门文章