import pandas as pd import numpy as np一、Series简介:一维数据对象 可以简单理解为数组(列表)以及字典的结合体
eg:
pd.Series([2,3,4,5])
0 2 1 3 2 4 3 5 dtype: int64可以看见左边一列为索引,右边一列为数据元素,事实上这个索引还可以自己指定
sr = pd.Series([1,2,3,4],index=['a','b','c','d']) sr
a 1 b 2 c 3 d 4 dtype: int64Series继承Numpy数组和python列表的特性 1.支持从列表或者数组中创建一个对象(如上面的案例所示) 2.既可以通过索引访问也可以通过下标访问
sr[1]
2
sr['b']
23.可以进行类numpy运算
# 与标量运算 sr+2
a 3 b 4 c 5 d 6 dtype: int64
# 与Series运算 sr+sr
a 2 b 4 c 6 d 8 dtype: int644.支持切片操作,与numpy类似
sr[0:2]
a 1 b 2 dtype: int645.支持numpy通用函数
sr[sr>3]
d 4 dtype: int64
np.sqrt(sr)
a 1.000000 b 1.414214 c 1.732051 d 2.000000 dtype: float64Series继承自字典的特性 1.支持直接使用字典创建Series
sr = pd.Series({'a':1,'b':2})
sr
a 1 b 2 dtype: int642.可以像字典一样判断键是否在字典里
'a' in sr
True
'c' in sr
False3.与字典的一小点区别在于遍历上
# 字典遍历输出的是键
dict = {'a':1,'b':2}
for dic in dict:
print(dic)
a b
# Series遍历输出的是值
sr = pd.Series(dict)
for i in sr:
print(i)
1 24.Series的字典特性
# 可以通过index获取Series的键,返回的Index对象与数组对象完全一样 sr.index
Index(['a', 'b'], dtype='object')
# 可以通过values获取Series的值 sr.values
array([1, 2], dtype=int64)5.综合numpy和字典的升级版索引
sr = pd.Series([1,2,3,4],index=['a','b','c','d']) sr
a 1 b 2 c 3 d 4 dtype: int64
# 既可以通过下标花式索引 sr[[0,2]]
a 1 c 3 dtype: int64
# 也可以通过键花式索引 sr[['a','c']]
a 1 c 3 dtype: int64
# 甚至可以通过键切片索引 sr['a':'c']
a 1 b 2 c 3 dtype: int64特别注意:用键索引时,是左闭右也闭的区间 二、Series令人头大的整数索引问题 引例
sr = pd.Series(np.arange(21)) sr
0 0 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 9 9 10 10 11 11 12 12 13 13 14 14 15 15 16 16 17 17 18 18 19 19 20 20 dtype: int32
sr2 = sr[10:].copy()
sr2
10 10 11 11 12 12 13 13 14 14 15 15 16 16 17 17 18 18 19 19 20 20 dtype: int32我们将sr从10切片至最后得到sr2,此时sr2的索引是整数索引但不是从0开始,那么sr2[10]代表什么呢?
sr2[10]中的10既有可能代表下标为10的元素,即20,也有可能代表键为10的元素,即10
sr2[10]
10事实上,sr2[10]代表了键10,但是这样非常容易引起歧义,并且如果想要下标获取元素十分不方便,为此我们引入了 loc 和 iloc
# loc强制告诉计算机中括号里面代表的是键 sr2.loc[10]
10
# iloc强制告诉计算机中括号里面代表的是下标 sr2.iloc[10]
20
# 对sr2进行切片操作 sr2.iloc[0:3]
10 10 11 11 12 12 dtype: int32三、Series数据对齐和运算法则 引例:
sr1 = pd.Series([12,23,34],index=['c','a','d']) sr2 = pd.Series([11,20,10],index=['d','c','a'])
sr1
c 12 a 23 d 34 dtype: int64
sr2
d 11 c 20 a 10 dtype: int64问题:执行sr1+sr2是按照下标进行加法运算呢(即最终结果为23,33,44)还是按标签(键)进行相加呢?
sr1+sr2
a 33 c 32 d 45 dtype: int64事实上,pandas在进行两个series运算时,会按键进行对齐然后再进行运算
那么,如果某个键只在其中一个Series中存在,此时进行相加会发生什么?(如下)
sr1 = pd.Series([12,23,34],index=['c','a','d']) sr2 = pd.Series([11,20,10,21],index=['d','c','a','b'])
sr1+sr2
a 33.0 b NaN c 32.0 d 45.0 dtype: float64可见,当一个键只在其中一个Series中出现一次,此时进行相加,Series由于找不到另一个Series对应的键值会返回一个NaN,也就是numpy中提到的Not a Number 灵活运算 在上面的例子中如果我们不希望返回的是NaN,而是将sr1中缺失的b对应的值在相加时默认为0,该如何操作? pandas提供了一种灵活的算术方法:add,sub,div,mul对应加减乘除,我们以add举例:
sr1 = pd.Series([12,23,34],index=['c','a','d']) sr2 = pd.Series([11,20,10,21],index=['d','c','a','b'])
# 直接执行add的效果与sr1+sr2完全一致 sr1.add(sr2)
a 33.0 b NaN c 32.0 d 45.0 dtype: float64但是我们可以为add添加一个参数fill_value,来实现我们上面的要求
sr1.add(sr2,fill_value=0)
a 33.0 b 21.0 c 32.0 d 45.0 dtype: float64四、缺失值的处理方法
sr = sr1+sr2 sr
a 33.0 b NaN c 32.0 d 45.0 dtype: float64缺失值的处理方法1:直接删除缺失值
# 引入isnull和notnull函数来判断对应键内的元素是否为空 sr.isnull()
a False b True c False d False dtype: bool
sr.notnull()
a True b False c True d True dtype: bool
# 这时可以直接使用布尔索引来得到非空简直 sr[sr.notnull()]
a 33.0 c 32.0 d 45.0 dtype: float64
# 另外pandas提供了dropna函数直接删除缺失值 sr.dropna()
a 33.0 c 32.0 d 45.0 dtype: float64缺失值的处理方法2:为缺失值填值
# fillna(x)为缺失值填入x sr.fillna(0)
a 33.0 b 0.0 c 32.0 d 45.0 dtype: float64
# 注意要将结果保存莫忘重新赋值 sr = sr.fillna(0),以上这些函数都是不会在原来的基础上更改的
# 为缺失值填入平均值 sr.fillna(sr.mean())
a 33.000000 b 36.666667 c 32.000000 d 45.000000 dtype: float64



