- 1、pandas数据读取 与 保存
- 2、pandas数据结构
- 3、pandas查询数据
- 4、pandas数据统计
- 5、pandas数据合并
csv,txt,tsv pd.read_csv excel pd.read_excel mysql pd.read_sql
import pandas as pd
data = pd.read_csv('C:/Users/admin/Desktop/jiang.csv')
保存
data.to_csv('C:/Users/admin/Desktop/data.csv',index=False,header=False)
2、pandas数据结构
3、pandas查询数据
查看前几行或某几行数据
data.head() '''data.head(n) 表示查看前n行数据''' data[0:23] data[1:23] '''前23行数据'''
查看数据的形状 (行数,列数) 等
data.shape
查看列名列表
data.columns
查看索引列
data.index
查看每类的数据类型
data.dtypes
查看某几列数据
data[["SEX","AGE"]]
查看某几行和某几列数据
data.loc[1:4,["SEX","AGE"]]
统计某列字段的数据分布
data['CURSMOKE'].value_counts() '''data[字段名].value_counts()'''
根据某字段去重(只保留第一字段)
data.drop_duplicates(['RANDID'])
根据某字段返回重复结果
data['RANDID'].duplicated() ''' 默认是从前向后进行重复值的查找和判断,也就是后面的条目在重复值判断中显示为True 重复为ture 否则为false '''
新增数据列
data["series"]=33
按条件查询
data['SEX']>1 '''返回ture和false '''
data.loc[data['SEX']>1,] '''定位ture的数据'''
data.loc[(data['SEX']>1)&(data['CURSMOKE']==1),] '''联合查询'''
data.query("SEX>1") '''等价于 data.loc[data['SEX']>1,] '''
data.query("SEX>1 & CURSMOKE==1") '''等价于 data.loc[(data['SEX']>1)&(data['CURSMOKE']==1),]'''
4、pandas数据统计
5、pandas数据合并
数据合并
data1 data2 data3=pd.concat([data1,data2]) pd.concat([data1,data2],ignore_index=True)



