本章主要内容数据加载及数据探索性分析,包括三个小节:
从零开始数据分析Kaggle项目—泰坦尼克号(一)
从零开始数据分析Kaggle项目—泰坦尼克号(二)
从零开始数据分析Kaggle项目—泰坦尼克号(三)
查看数据基本信息函数汇总
#总结:查看数据基本的信息方法汇总 #df.info() #打印摘要 # df.describe() # 描述性统计信息 # df.values # 数据# df.to_numpy() # 数据 (推荐) # df.shape # 形状 (行数, 列数) # df.columns # 列标签 # df.columns.values # 列标签 # df.index # 行标签 # df.index.values # 行标签 # df.head(n) # 前n行 # df.tail(n) # 尾n行 # pd.options.display.max_columns=n: # 最多显示n列 # pd.options.display.max_rows=n: # 最多显示n行 # df.memory_usage(): # 占用内存(字节B) ————————————————
删除数据
#删除列del,直接在原数据上删除
del data_pd['new_col1']
#轴向上删除用drop,drop函数会返回一个新对象,如果要修改原数据可加上参数inplace = True
data_pd.drop('c') #删除c行
data_pd.drop(['col1','new_col2'],axis=1) #利用axis = 1 或者axis = 'columns'
data_pd.drop(['col1','new_col2'],axis=1,inplace=True) #在原数据上删除
数据排序
#排序
data_pd2.sort_index() #按标签引排序
data_pd2.sort_index(axis=1) #按列标签排序
data_pd2.sort_values('c')
data_pd2.sort_values(by=['a','b']) #多个字段排序
data_pd2.sort_values(['a','b'],ascending=False) #默认升序,加上Ascending=False降序
查找数据
#查找列数据 data_pd['a'] #查找一列 data_pd[['a','b']] #查找多列 #按条件查找数据 data_pd[data_pd['a']>2] #查找a大于2的数据 data_pd[(data_pd['a']>2)&(data_pd['b']<10)] #多个条件筛选,查找a大于2和b<10的数据



