1. Series
- Series是一个类似于一维数组的数据结构,它能够保存任何类型的数据
- 主要由一组数据和与之相关的索引两部分构成。
1.1 Series的创建
- pd.Series(data=Node,index=None,dtype=None)
- data:传入的数据,可以是ndarray,list等
- index:传入的索引,要与数据长度相等
- dtype:数据的类型
1.2 Series对象的属性
1.3 Series对象的方法
- series.sort_values(ascending=True)
- series.add(数字)
- series.sub(数字)
- 逻辑运算
- series.isin(values)
- series.apply(func)
- series.value_counts()
1.3 可以利用Series对象的索引获取数据
series[2]
2. Dataframe
2.1 Dataframe的创建
- pd.Dataframe(data=None,index=None,columns=None)
2.2 Dataframe的属性
- shape
- index
- columns
- values
- T :转置
2.3 Dataframe的实例方法
- data.head(n=5)
- data.tail(n=5)
- data.reset_index(drop=False)
- data.set_index(keys,drop=True)
- keys:列索引名称(单级索引)或列索引名称组成的列表(多级索引)
- drop:是否将指定作为索引的列删除
- data.sort_values(by,ascending=True)
- data.sort_index(ascending=True)
- data.query(查询语句字符串)
- 查询指定的行记录
- data.query("open<24 & open > 23")
- data.describe()
- 统计运算:count,mean,std,min,max
- 只针对数值类型进行统计
- data.apply(func,axis=0)
- func:自定义函数
- axis=0:默认拿到每一列进行自定义运算
2.4Dataframe关于统计的实例函数
| 函数名 | 说明 |
|---|
| sum | Sum of values |
| mean | Mean of values |
| median | Arithmetic median of values |
| min | Minimum |
| max | Maximum |
| mode | Mode |
| abs | Absolute Value |
| prod | Product of values |
| std | Bessel-corrected sample standard deviation |
| var | Unbiased variance |
| idxmax | compute the index labels with the maximum |
| idxmin | compute the index labels with the minimum |
| 函数 | 作用 |
|---|
| cumsum | 计算前1/2/3/…/n个数的和 |
| cummax | 计算前1/2/3/…/n个数的最大值 |
| cummin | 计算前1/2/3/…/n个数的最小值 |
| cumprod | 计算前1/2/3/…/n个数的积 |
2.5 Dataframe的索引操作
- data['open']['2018-02-27']
- data.loc['2018-02-27':'2018-02-22','open']
- data.iloc[:3,:5]
- data.ix[0:4,['open','close','high']]
2.6 修改某一列的值或新增某一列
- data['close']=1
- data.close=1
2.7 数据查询
- data[data['open']>23]
- data[(data["open"] > 23) & (data["open"] < 24)]
3. MultiIndex
3.1 multiIndex的创建
arrays = [[1, 1, 2, 2], ['red', 'blue', 'red', 'blue']]
pd.MultiIndex.from_arrays(arrays, names=('number', 'color'))
# 结果
MultiIndex(levels=[[1, 2], ['blue', 'red']],
codes=[[0, 0, 1, 1], [1, 0, 1, 0]],
names=['number', 'color'])
3.2 multiIndex的属性
- names:levels的名称
- levels:每个level的元祖值