成为华尔街金融巨鳄第二课：学会使用Pandas-Series

成为华尔街金融巨鳄第二课： Pandas1:学会使用Pandas-Series

import pandas as pd
import numpy as np

一、Series简介：一维数据对象可以简单理解为数组（列表）以及字典的结合体

eg:

pd.Series([2,3,4,5])

0    2
1    3
2    4
3    5
dtype: int64

可以看见左边一列为索引，右边一列为数据元素，事实上这个索引还可以自己指定

sr = pd.Series([1,2,3,4],index=['a','b','c','d'])
sr

a    1
b    2
c    3
d    4
dtype: int64

Series继承Numpy数组和python列表的特性 1.支持从列表或者数组中创建一个对象（如上面的案例所示） 2.既可以通过索引访问也可以通过下标访问

sr[1]

sr['b']

3.可以进行类numpy运算

# 与标量运算
sr+2

a    3
b    4
c    5
d    6
dtype: int64

# 与Series运算
sr+sr

a    2
b    4
c    6
d    8
dtype: int64

4.支持切片操作，与numpy类似

sr[0:2]

a    1
b    2
dtype: int64

5.支持numpy通用函数

sr[sr>3]

d    4
dtype: int64

np.sqrt(sr)

a    1.000000
b    1.414214
c    1.732051
d    2.000000
dtype: float64

Series继承自字典的特性 1.支持直接使用字典创建Series

sr = pd.Series({'a':1,'b':2})
sr

a    1
b    2
dtype: int64

2.可以像字典一样判断键是否在字典里

'a' in sr

True

'c' in sr

False

3.与字典的一小点区别在于遍历上

# 字典遍历输出的是键
dict = {'a':1,'b':2}
for dic in dict:
    print(dic)

a
b

# Series遍历输出的是值
sr = pd.Series(dict)
for i in sr:
    print(i)

1
2

4.Series的字典特性

# 可以通过index获取Series的键，返回的Index对象与数组对象完全一样
sr.index

Index(['a', 'b'], dtype='object')

# 可以通过values获取Series的值
sr.values

array([1, 2], dtype=int64)

5.综合numpy和字典的升级版索引

sr = pd.Series([1,2,3,4],index=['a','b','c','d'])
sr

a    1
b    2
c    3
d    4
dtype: int64

# 既可以通过下标花式索引
sr[[0,2]]

a    1
c    3
dtype: int64

# 也可以通过键花式索引
sr[['a','c']]

a    1
c    3
dtype: int64

# 甚至可以通过键切片索引
sr['a':'c']

a    1
b    2
c    3
dtype: int64

特别注意：用键索引时，是左闭右也闭的区间二、Series令人头大的整数索引问题引例

sr = pd.Series(np.arange(21))
sr

0      0
1      1
2      2
3      3
4      4
5      5
6      6
7      7
8      8
9      9
10    10
11    11
12    12
13    13
14    14
15    15
16    16
17    17
18    18
19    19
20    20
dtype: int32

sr2 = sr[10:].copy()

sr2

10    10
11    11
12    12
13    13
14    14
15    15
16    16
17    17
18    18
19    19
20    20
dtype: int32

我们将sr从10切片至最后得到sr2，此时sr2的索引是整数索引但不是从0开始，那么sr2[10]代表什么呢？

sr2[10]中的10既有可能代表下标为10的元素，即20，也有可能代表键为10的元素，即10

sr2[10]

事实上，sr2[10]代表了键10，但是这样非常容易引起歧义，并且如果想要下标获取元素十分不方便，为此我们引入了 loc 和 iloc

# loc强制告诉计算机中括号里面代表的是键
sr2.loc[10]

# iloc强制告诉计算机中括号里面代表的是下标
sr2.iloc[10]

# 对sr2进行切片操作
sr2.iloc[0:3]

10    10
11    11
12    12
dtype: int32

三、Series数据对齐和运算法则引例：

sr1 = pd.Series([12,23,34],index=['c','a','d'])
sr2 = pd.Series([11,20,10],index=['d','c','a'])

sr1

c    12
a    23
d    34
dtype: int64

sr2

d    11
c    20
a    10
dtype: int64

问题：执行sr1+sr2是按照下标进行加法运算呢（即最终结果为23，33，44）还是按标签（键）进行相加呢？

sr1+sr2

a    33
c    32
d    45
dtype: int64

事实上，pandas在进行两个series运算时，会按键进行对齐然后再进行运算

那么，如果某个键只在其中一个Series中存在，此时进行相加会发生什么？（如下）

sr1 = pd.Series([12,23,34],index=['c','a','d'])
sr2 = pd.Series([11,20,10,21],index=['d','c','a','b'])

sr1+sr2

a    33.0
b     NaN
c    32.0
d    45.0
dtype: float64

可见，当一个键只在其中一个Series中出现一次，此时进行相加，Series由于找不到另一个Series对应的键值会返回一个NaN，也就是numpy中提到的Not a Number 灵活运算在上面的例子中如果我们不希望返回的是NaN,而是将sr1中缺失的b对应的值在相加时默认为0，该如何操作？ pandas提供了一种灵活的算术方法：add,sub,div,mul对应加减乘除，我们以add举例：

sr1 = pd.Series([12,23,34],index=['c','a','d'])
sr2 = pd.Series([11,20,10,21],index=['d','c','a','b'])

# 直接执行add的效果与sr1+sr2完全一致
sr1.add(sr2)

a    33.0
b     NaN
c    32.0
d    45.0
dtype: float64

但是我们可以为add添加一个参数fill_value,来实现我们上面的要求

sr1.add(sr2,fill_value=0)

a    33.0
b    21.0
c    32.0
d    45.0
dtype: float64

四、缺失值的处理方法

sr = sr1+sr2
sr

a    33.0
b     NaN
c    32.0
d    45.0
dtype: float64

缺失值的处理方法1：直接删除缺失值

# 引入isnull和notnull函数来判断对应键内的元素是否为空
sr.isnull()

a    False
b     True
c    False
d    False
dtype: bool

sr.notnull()

a     True
b    False
c     True
d     True
dtype: bool

# 这时可以直接使用布尔索引来得到非空简直
sr[sr.notnull()]

a    33.0
c    32.0
d    45.0
dtype: float64

# 另外pandas提供了dropna函数直接删除缺失值
sr.dropna()

a    33.0
c    32.0
d    45.0
dtype: float64

缺失值的处理方法2：为缺失值填值

# fillna(x)为缺失值填入x
sr.fillna(0)

a    33.0
b     0.0
c    32.0
d    45.0
dtype: float64

# 注意要将结果保存莫忘重新赋值 sr = sr.fillna(0)，以上这些函数都是不会在原来的基础上更改的

# 为缺失值填入平均值
sr.fillna(sr.mean())

a    33.000000
b    36.666667
c    32.000000
d    45.000000
dtype: float64

成为华尔街金融巨鳄第二课：学会使用Pandas-Series

Python相关栏目本月热门文章