从零开始数据分析Kaggle项目——小结（四）

本章主要内容数据加载及数据探索性分析，包括三个小节：

从零开始数据分析Kaggle项目—泰坦尼克号（一）
从零开始数据分析Kaggle项目—泰坦尼克号（二）
从零开始数据分析Kaggle项目—泰坦尼克号（三）

查看数据基本信息函数汇总

#总结：查看数据基本的信息方法汇总
#df.info()          #打印摘要
# df.describe()     # 描述性统计信息
# df.values         # 数据 
# df.to_numpy()       # 数据  (推荐)
# df.shape           # 形状 (行数, 列数)
# df.columns        # 列标签 
# df.columns.values  # 列标签 
# df.index           # 行标签 
# df.index.values   # 行标签 
# df.head(n)        # 前n行
# df.tail(n)        # 尾n行
# pd.options.display.max_columns=n: # 最多显示n列
# pd.options.display.max_rows=n:    # 最多显示n行
# df.memory_usage():                # 占用内存(字节B)
————————————————

删除数据

#删除列del,直接在原数据上删除
del data_pd['new_col1']

#轴向上删除用drop,drop函数会返回一个新对象，如果要修改原数据可加上参数inplace = True
data_pd.drop('c')    #删除c行
data_pd.drop(['col1','new_col2'],axis=1)  #利用axis = 1 或者axis = 'columns'
data_pd.drop(['col1','new_col2'],axis=1,inplace=True) #在原数据上删除

数据排序

#排序
data_pd2.sort_index()  #按标签引排序
data_pd2.sort_index(axis=1)  #按列标签排序
data_pd2.sort_values('c')
data_pd2.sort_values(by=['a','b'])   #多个字段排序
data_pd2.sort_values(['a','b'],ascending=False)  #默认升序，加上Ascending=False降序

查找数据

#查找列数据
data_pd['a']  #查找一列
data_pd[['a','b']]  #查找多列

#按条件查找数据
data_pd[data_pd['a']>2]   #查找a大于2的数据
data_pd[(data_pd['a']>2)&(data_pd['b']<10)]   #多个条件筛选,查找a大于2和b<10的数据

从零开始数据分析Kaggle项目——小结（四）

Python相关栏目本月热门文章