栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

pandas数据清洗和准备

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

pandas数据清洗和准备

目录

读取文本格式文件

7.2 处理缺失数据

7.3 移除重复数据

7.4 利用映射或函数转换数据

7.5 替换值

 7.6 重命名轴索引

 7.7 离散化与面元划分

 7.8 检测和过滤异常值

7.9 排列和随机采样

7.10 字符串对象方法

7.11 正则表达式

7.12 pandas的矢量化字符串函数

7.13 总结


读取文本格式文件

 

 

 没有表头的时候,可以设置或自定义

 

 后有换行符

 s+匹配一个或多个空白符,包括换行

 

 

每运行一次读取下十行,可以指定读取行数

 

7.2 处理缺失数据


  

 

 

 

 

   

 

7.3 移除重复数据

 检查是否重复

删除重复数据

 保留最后一个重复数据

7.4 利用映射或函数转换数据

 

 

 

7.5 替换值

 

 

 

 7.6 重命名轴索引

 reindex只能重新改已有的索引,不能换索引

 data不改变

  结合字典型对象对标签更新

 就地修改data (inplace=True)

 7.7 离散化与面元划分

 分阶段(cut、qcut)

 

 按数据大小排序

左闭右开

  

 randn科学计数法

 

 7.8 检测和过滤异常值

 

any(1)直接把一行给检测出来

 

7.9 排列和随机采样

 

 

 replace=True可以重复选择

7.10 字符串对象方法

 

7.11 正则表达式

 sub替换

 match只能查首个字符串,search找到后就不找了

7.12 pandas的矢量化字符串函数

 

NaN是浮点型数据,用split会报错,用str.就可以了

 

7.13 总结

 

 去掉yuanjia中含有NAN值得一行

 

 

 

 

 

 

 

 

 

 

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/329665.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号