- Dataframe
- 了解数据类型:
- 数据类型转化:
- 处理重复数据
- 缺失值处理
Dataframe是Pandas中的一种对象类型,类似于二维表格。
- pd.read_csv:参数index_col=0,表示csv文件的第0列作为索引
- Dataframe对象实例的属性(简称df)shape表示实例的形状,返回值是它的行和列;
- 实例的head方法用于显示部分样本,默认是显示前五个
- 读取excel与此方法相同。
- 另外,df.columns=dp.iloc[1] 替换df中列的名称,用第1行的值来代替
df=df[2:],保留第二行以后的内容
df.drop([11,12],axis=0,inplace=True) ,删除11,12行,并更新df(repalce)
df.reset_index(drop=True,inplace=True)
- df.shape,得到样本和特征
- df.info(),得到每个特征的数据类型,以及特征的类型
- df.dtypes 得到每个特征的数据类型
- df[‘列名’].astype(int/float,errors=‘coerce’),但是,该方法适合object类型转其他,不适合字符串转浮点数,errors=coerce,表示强制类型转换
- pd.to_numeric(列表)
例子:df[[‘列名’]]
df[列名].astype(int).astype(str),先转为整数类型,再转为字符串类型
- datatime类型:pd.to_datatime(df[[‘Month’,‘Day’,Year’]])
1.df.duplicated()方法,默认以行为单位检查是否有重复数据,结果返回bool值,bool值对应是true的位置,表示该位置重复
- 参数:subset指明特征;keep=‘last’/‘first’,遇到重复数据的时候保留哪一个;
2.df.drop_duplicates()
参数和duplicated前两个相同
inplace=‘False’/‘True’,是否修改当前数据集
- df.isna(),返回每个值是否是缺失值
- df.dropna(),对缺失数据删除
参数:axis:默认值是0,axis=1,表示删除列
how:默认为any,表示行或列中只要有缺失值,就删除;如果为all,表示都是缺失值时才删除 - df.fillna(0)用0来填充缺失值
参数:method=‘ffill’,用缺失值前面的值来填充,method=‘bfill’,用缺失值后面的值来填充
-补充方法:用特定值来补;用平均值填充(缺失值不参与运算);评估
公众号:善良的王小宁
编辑:王小宁
本文来源于老齐的《数据准备和特征工程》这本书,把书中的一下常用方法和函数记个笔记。



