一.了解pandas
1.Pandas中有两个主要的数据结构:Series(一维数据结构)和Dataframe(二维和表格型数据结构)
2.Pandas对Series对象方法的创建:
class pandas.Series(data = None,index = None,dtype = None, name = None,copy = False,fastpath = False)
data:表示传入的数据
3.举例创建Series类对象:
# 创建Series类对象 ser_obj = pd.Series([1, 2, 3, 4, 5])
# 创建Series类对象,并指定索引 ser_obj = pd.Series([1, 2, 3, 4, 5],
index=['a', 'b', 'c', 'd', 'e'])
#还可以用dict构建:
year_data = {2001: 17.8, 2002: 20.1, 2003: 16.5}
ser_obj2 = pd.Series(year_data)
4. Pandas对Dataframe对象方法的创建:
pandas.Dataframe(data = None,index = None,columns = None, dtype = None,copy = False )
index:表示行标签,若不设置该参数,则默认会自动创建一个从0~N的整数索引columns:列标签
5.举例创建Dataframe类对象:
# 创建数组 demo_arr = np.array([['a', 'b', 'c'],['d', 'e', 'f']])
# 基于数组创建Dataframe对象 df_obj = pd.Dataframe(demo_arr)
#若为指定列索引则按照指定索引顺序进行排列:
df_obj = pd.Dataframe(demo_arr, columns=['No1', 'No2', 'No3'])
#列索引返回结果为Series对象
二.Pandas的作用
1. Pandas中的索引都是Index类对象,又称为索引对象,该对象是不可以进行修改的,以保障数据的安全。
2.Pandas还提供了很多Index的子类,常见的有如下几种:
(1)Int64Index:针对整数的特殊Index对象。
(2)MultiIndex:层次化索引,表示单个轴上的多层索引。
(3)DatetimeIndex:存储纳秒寄时间戳。
3.Pandas中提供了一个重要的方法是reindex(),该方法作用是对原索引和新索引进行匹配,就是新索引含有原索引的数据,而原索引数据按照新索引排序。
如果新索引中没有原索引数据,那么程序不仅不会报错,而且会添加新的索引,并将值填充为NaN或者使用fill_vlues()填充其他值。
4.Pandas中reindex()方法的语法格式:
Dataframe.reindex(labels = None,index = None, columns = None,axis = None,method = None, copy = True,level = None,fill_value = nan,limit = None,tolerance = None )
index:用作索引的新序列method:插值填充方式fill_value:引入缺失值时使用的替代值 limit:前向或者后向填充时的最大填充量
5.Pandas中索引操作中Series有关索引的用法类似于NumPy数组的索引,但Series的索引值不只是整数。
6.要想获取某个数据,既可以通过索引位置取得,也可以使用索引名称获取:
ser_obj = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])
ser_obj[2] # 使用索引位置获取数据
ser_obj['c'] # 使用索引名称获取数据
7.若使用位置索引进行切片,则切片结果不包含结束位置,但是使用索引名称进行切片,则切片·结果是包含结束位置的:
ser_obj[2: 4] # 使用位置索引进行切片
ser_obj['c': 'e'] # 使用索引名称进行切片
8.若希望获取的是连续的数据,可以通过不连续索引实现:
ser_obj[[0, 2, 4]] #通过不连续位置索引获取数据集
ser_obj[['a', 'c', 'd']] #通过不连续索引名称获取数据集
9.Pandas也可以用布尔型索引 ,将布尔型的数组索引作为模板筛选数据,最后返回模板中True对应元素:
ser_bool = ser_obj > 2 # 创建布尔型Series对象
ser_obj[ser_bool] # 获取结果为True的数据
10.Pandas中Dataframe结构既包含行索引,也包含列索引。其中,行索引是通过index属性进行获取的,列索引是通过columns属性进行获取的。
11.Pandas库中提供了操作索引的方法来访问数据,具体包括:
loc:基于标签索引(索引名称),用于按标签选取数据。当执行切片操作时,既包含起始索引,也包含结束索引。
iloc:基于位置索引(整数索引),用于按位置选取数据。当执行切片操作时,只包含起始索引,不包含结束索引。
三.总结
这篇文章主要是 对于Pandas的数据结果分析和Pandas索引操作
谢谢友友们观看!!!



