栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

pandas

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

pandas

这里写目录标题
  • Dataframe
  • 了解数据类型:
  • 数据类型转化:
  • 处理重复数据
  • 缺失值处理

Dataframe

Dataframe是Pandas中的一种对象类型,类似于二维表格。

  • pd.read_csv:参数index_col=0,表示csv文件的第0列作为索引
  • Dataframe对象实例的属性(简称df)shape表示实例的形状,返回值是它的行和列;
  • 实例的head方法用于显示部分样本,默认是显示前五个
  • 读取excel与此方法相同。
  • 另外,df.columns=dp.iloc[1] 替换df中列的名称,用第1行的值来代替
    df=df[2:],保留第二行以后的内容
    df.drop([11,12],axis=0,inplace=True) ,删除11,12行,并更新df(repalce)
    df.reset_index(drop=True,inplace=True)
了解数据类型:
  • df.shape,得到样本和特征
  • df.info(),得到每个特征的数据类型,以及特征的类型
  • df.dtypes 得到每个特征的数据类型
数据类型转化:
  • df[‘列名’].astype(int/float,errors=‘coerce’),但是,该方法适合object类型转其他,不适合字符串转浮点数,errors=coerce,表示强制类型转换
  • pd.to_numeric(列表)

例子:df[[‘列名’]]
df[列名].astype(int).astype(str),先转为整数类型,再转为字符串类型

  • datatime类型:pd.to_datatime(df[[‘Month’,‘Day’,Year’]])
处理重复数据

1.df.duplicated()方法,默认以行为单位检查是否有重复数据,结果返回bool值,bool值对应是true的位置,表示该位置重复

  • 参数:subset指明特征;keep=‘last’/‘first’,遇到重复数据的时候保留哪一个;
    2.df.drop_duplicates()
    参数和duplicated前两个相同
    inplace=‘False’/‘True’,是否修改当前数据集
缺失值处理
  • df.isna(),返回每个值是否是缺失值
  • df.dropna(),对缺失数据删除
    参数:axis:默认值是0,axis=1,表示删除列
    how:默认为any,表示行或列中只要有缺失值,就删除;如果为all,表示都是缺失值时才删除
  • df.fillna(0)用0来填充缺失值
    参数:method=‘ffill’,用缺失值前面的值来填充,method=‘bfill’,用缺失值后面的值来填充
    -补充方法:用特定值来补;用平均值填充(缺失值不参与运算);评估

公众号:善良的王小宁
编辑:王小宁
本文来源于老齐的《数据准备和特征工程》这本书,把书中的一下常用方法和函数记个笔记。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/349945.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号