一、Pandas库介绍
1.什么是Pandas?
是提供高性能、易用数据类型和分析工具的第三方库。
简单说Pandas提供了两个事情
(1) 提供了便于操作数据的数据类型
(2)提供了很多的分析函数与分析工具
2.引用import pandas as pd
Pandas是基于Numpy实现的,与Numpy和Matplotlib一同使用。
3.Pandas库的理解Pandas库主要提供了两个数据类型:Series Dataframe
Series:相当于一个一维数据类型
Dataframe:相当于一个二维到多维的数据类型
围绕这两个数据类型Pandas提供了基于上述数据类型的各类操作:基本操作、运算操作、特征类操作、关联类操作
对比Numpy与Pandas 二、Pandas库中的Series类型series类型:由一组数据及与之相关的数据索引组成
#自动索引 import pandas as pd a = pd.Series([9,8,7,6]) print(a)
#自定义索引 import pandas as pd a = pd.Series([9,8,7,6],['a','b','c','d']) print(a) print(a['b'])
Series类型可以由如下类型创建:
1.从标量值创建
import pandas as pd
s = pd.Series(25,index=['a','b','c']) #这时候为了创建 必须怎加一个index这个区域,为了告诉Series,尽管你给了一个值是25,但是要生成的数组类型是个什么样的结构,
# 就是说它是由几个元素构成的,他的标签是多少,这个时候我们必须要给出第二个参数。这就是从标量创建Series
print(s)
2.从字典创建
import pandas as pd
d = pd.Series({'a':9,'b':8,'c':7})
print(d)
import pandas as pd
s = pd.Series(25,index=['a','b','c']) #这时候为了创建 必须怎加一个index这个区域,为了告诉Series,尽管你给了一个值是25,但是要生成的数组类型是个什么样的结构,
# 就是说它是由几个元素构成的,他的标签是多少,这个时候我们必须要给出第二个参数。这就是从标量创建Series
print(s)
2.从字典创建
import pandas as pd
d = pd.Series({'a':9,'b':8,'c':7})
print(d)
用index来改变形状
3.从ndarray创建import pandas as pd import numpy as np n = pd.Series (np.arange(5)) #arange函数生成一个由五个元素生产的ndarry类型,他被转换成Series类型 print(n) #可以用np.arange给出值,并且同时给出index(即索引) m = pd.Series(np.arange(5),index=np.arange(9,4,-1)) print(m)
4.总结
Series类型可以由如下类型创建:
- Python列表,index与列表元素个数一致
- 标量值,index表达Series类型的尺寸
- Python字典,键值对中的“键”是索引,index从字典中进行选择操作
- ndarray,索引和数据都可以通过ndarray类型创建
- 其他函数,range()函数等
5.series类型的基本操作
Series类型包括index和values两部分
Series类型的操作类似ndarray类型
Series类型的操作类似Python字典类型
Series类型的操作类似ndarray类型:
- 索引方法相同,采用[]
- NumPy中运算和操作可用于Series类型
- 可以通过自定义索引的列表进行切片
- 可以通过自动索引进行切片,如果存在自定义索引,则一同被切片
Series类型的操作类似Python字典类型:
- 通过自定义索引访问
- 保留字in操作
- 使用.get()方法
三、Pandas库中的Dataframe类型
Dataframe类型由共用相同索引的一组列组成
横向的表明不同列的叫做column,纵向的叫做index。
总结Dataframe是一个表格型的数据类型,每列值类型可以不同
Dataframe既有行索引、也有列索引
Dataframe常用于表达二维数据,但可以表达多维数据
DataFram类型可以由如下类型创建: 1.从而为ndarry对象创建
表示生成一个10元素的ndarry类型,然后将它重新变为2*5维度
2.从一维ndarray对象字典创建 3.从列表类型的字典创建
import pandas as pd
d1 = {"城市":['北京','上海','广州','深圳','沈阳'],
"环比":[101.5,101.2,101.3,102.0,100.1],
"同比":[120.7,107.3,119.4,140.9,101.4],
"定基":[121.4,127.8,120.0,145.5,101.6]}
d=pd.Dataframe(d1,index=['C1','C2','C3','C4','C5'])
print(d)



