数据基本处理:Numpy和Pandas
1.csv文件处理
数据导入:pd.read_csv()
df=pd.read_csv(“文件名”,sep=“分隔符”,header=0,index_col=None,encoding=“字符编码”)
数据导出:pd.to_csv()
df.to_csv(“文件名”,index=False,header=Ture)
2.txt文件处理
数据加载:np.loadtxt()
df=pd.Dataframe(np.loadtxt(‘文件名’,delimiter=‘分割符’))
注意:txt文本文件中的每一行必须含又相同数量的数据
3.excel格式数据导入与导出
数据导入:pd.read_excel()
df=read_excel(“文件名”,sheetname=‘工作簿名称’,header=0)
数据导出:pd.to_excel()
df.to_excel(目标路径,sheet_name=‘sheetname’,index=False)
数据可视化:matplotlib,plotnine,Seaborn
matplotlib常见二维图的绘制函数
| 函数 | 图表类型 |
|---|---|
| plot() | 折现图 |
| scatter() | 散点图、气泡图 |
| bar() | 柱形图、堆积柱形图 |
| barh | 条形图、堆积条形图 |
| fill_between | 面积图 |
| stackplot() | 堆积面积图、量化波形图 |
| pie() | 饼图 |
| errorbar() | 误差棒 |
| hist() | 统计直方图 |
| boxplot() | 箱形图 |
| axhline() | 垂直于X轴直线 |
| axvline() | 垂直于Y轴直线 |
| axhspan() | 垂直于X轴矩形方形 |
| axvspan() | 垂直于Y轴矩形方形 |
| text() | 在指定位置放置文件 |
| annotate() | 在指定的数据点上添加带连接线的文本标注 |
matplotlib三维图表绘制函数
| 函数 | 图表类型 |
|---|---|
| plot() | 三维曲线图 |
| scatter3D() | 三维散点图、气泡图 |
| bar3d() | 三维柱形图 |
| contour() | 三维等高线图 |
| contourf() | 三维等高面图 |
| plot_surface() | 三维曲面图 |
| plot_wireframe() | 三维网面图 |
| voxels() | 三维块状图 |
Seaborn常见图标类型参数说明
| 函数 | 图标类型 |
|---|---|
| lineplot() | 折线图,带数据标记的折线图 |
| scatterplot() | 散点图,气泡图 |
| stripplot() | 抖动散点图 |
| swarmplot() | 蜂巢图 |
| pointplot() | 带误差棒的散点图 |
| barplot() | 带误差棒的柱形图 |
| countplot() | 用于分类统计展示的柱形图 |
| boxplot() | 箱形图 |
| violinplot() | 小提琴图 |
| boxenplot() | 用于高纬数据展示的箱形图 |
| regplot() | 用于数据拟合展示的散点图 |
| distplot() | 统计直方与核密度估计的组合图 |
| heatmap() | 热力图 |
Pandas:表格处理
3种数据类型:Series,Dataframe,Panel
1.Series:本质上是一个含有索引的一维数组,是带有索引的的列表
2.Dataframe:数据框,类似于Excel电子表格
- 使用list或者ndarray对象创建Dataframe
df=pd.Dataframe([[‘a’,1,2],[‘b’,2,5],[‘c’,3,3]],columns=[‘x’,‘y’,‘z’]) - 使用字典创建Dataframe
df=pd.Dataframe({‘x’:[‘a’,‘b’,‘c’],‘y’:range(1,4),‘z’:[2,5,3]})
注意:数据框的行索引默认是从0开始
获取数据框相关信息:
- 行数或列数:df.shape / len(df)
- 列名或行名:df.columns / df.index
- 更改某列名:df.rename(columns={‘x’:‘X’},inplace=True),ps:如果缺少inplace选项,则不会更改,而是增加新列
- 查看属性信息:df.info()
- 查看前5行数据信息:df.head()
- 查看最后5行数据信息:df.tail()



