栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

Pandas库入门

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

Pandas库入门

目录

Pandas库的介绍

pandas库的理解

Pandas库的Series类型

Series类型索引

Series类型的创建

Series类型的基本操作

Series类型的对齐操作

Series类型的name属性

Series类型的修改

Pandas库的Dataframe类型

Dataframe类型的创建

Pandas库的数据类型操作

Pandas库的数据类型运算

算数运算

 比较运算


Pandas库的介绍

http://pandas.pydata.org可获得pandas代码文档以及参考代码。

Pandas是python第三方库,提供高性能易用数据类型和分析工具。

pandas库引用: import pandas as pd

Pandas基于NumPy实现,常与NumPy和Matplotlib一同使用。

pandas库的理解

两个数据类型:Series,Dataframe(Series相当于一维数据类型,Dataframe相当于二维-多维数据类型),这两个数据类型构成pandas的基础。

基于数据类型进行基本操作、运算操作、特征类操作(提取数据特征)、关联类操作(挖掘数据关联关系)。

Pandas库的Series类型

Series类型由一组数据即与之相关的数据索引组成。(数据和索引的对应关系)

Series是一维带“标签”的数组,

Series类型基本操作类似ndarray和字典,根据索引对齐

Series类型索引

Series类型的创建

Series类型可以由以下类型创建:

 

 

Series类型的基本操作

Series类型包括index和values两部分

 Series类型的操作类似ndarray类型类似

Series类型类似python字典类型

Series类型的对齐操作

Series类型有索引,是基于索引的计算,更精确不易出错;numpy是基于维度的计算。

Series类型的name属性

Series对象和索引都可以有一个名字,存储在属性.name中。

Series类型的修改

Series对象可以随时修改并即刻生效。

Pandas库的Dataframe类型

Dataframe是二维带“标签”数组,基本操作类似Series,依据行列索引获得。

Dataframe类型由共用相同索引的一组列组成。(多列数据共用1列索引)

当axis=1时,数组的变化是横向的,体现出列的增加或者减少。反之,当axis=0时,数组的变化是纵向的,体现出行的增加或减少。 

Dataframe是一个表格型的数据类型,每列值类型可以不同。

Dataframe既有行索引,也有列索引。

Dataframe常用于表达二维数据,但可以表达多维数据。

Dataframe类型的创建

从二维ndarray对象创建

从一维ndarray 对象字典创建

上下两种都是通过字典的键值对来创建Dataframe的行列数据, 每个元素(一个键值对)代表一列,其中 “键” 表示一列的索引,“值” 表示一列的数据,可以直接用列表[ ]的形式or pd.Series([ ])

从列表类型的字典创建 

例:

 dl = {'城市':['北京','上海','广州','深圳','沈阳'],
'环比':[101.5,101.2,101.3,102.0,100.1],
'同比':[120.7,127.3,119.4,140.9,101.4],
'定基':[121.4,127.8,120.0,145.5,101.6]}

d = pd.Dataframe(dl)   #d = pd.Dataframe(dl,index=['c1','c2','c3','c4','c5'])
d
Out[43]: 
   城市     环比     同比     定基
0  北京  101.5  120.7  121.4
1  上海  101.2  127.3  127.8
2  广州  101.3  119.4  120.0
3  深圳  102.0  140.9  145.5
4  沈阳  100.1  101.4  101.6
import pandas as pd

dl = {'城市':pd.Series(['北京','上海','广州','深圳','沈阳']),
'环比':pd.Series([101.5,101.2,101.3,102.0,100.1]),
'同比':pd.Series([120.7,127.3,119.4,140.9,101.4]),
'定基':pd.Series([121.4,127.8,120.0,145.5,101.6])}
#'环比':pd.Series([101.5,101.2,101.3,102.0,100.1],index=['c1','c2','c3','c4','c5']),

pd.Dataframe(dl)   

Out[51]: 
   城市     环比     同比     定基
0  北京  101.5  120.7  121.4
1  上海  101.2  127.3  127.8
2  广州  101.3  119.4  120.0
3  深圳  102.0  140.9  145.5
4  沈阳  100.1  101.4  101.6

Pandas库的数据类型操作

如何改变Series和Dataframe对象?          增加或重排:重新索引      删除:drop

.reindex( )能够改变或重排Series和Dataframe索引

 

Series索引和Dataframe索引是Index类型,Index对象是不可修改类型。

 .drop( )能够删除Series和Dataframe指定行或列索引

Pandas库的数据类型运算

算数运算

 

 比较运算

 

 总结:

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/724990.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号