目录
读取文本格式文件
7.2 处理缺失数据
7.3 移除重复数据
7.4 利用映射或函数转换数据
7.5 替换值
7.6 重命名轴索引
7.7 离散化与面元划分
7.8 检测和过滤异常值
7.9 排列和随机采样
7.10 字符串对象方法
7.11 正则表达式
7.12 pandas的矢量化字符串函数
7.13 总结
读取文本格式文件
没有表头的时候,可以设置或自定义
后有换行符
s+匹配一个或多个空白符,包括换行
每运行一次读取下十行,可以指定读取行数
7.2 处理缺失数据
7.3 移除重复数据
检查是否重复
删除重复数据
保留最后一个重复数据
7.4 利用映射或函数转换数据
7.5 替换值
7.6 重命名轴索引
reindex只能重新改已有的索引,不能换索引
data不改变
结合字典型对象对标签更新
就地修改data (inplace=True)
7.7 离散化与面元划分
分阶段(cut、qcut)
按数据大小排序
左闭右开
randn科学计数法
7.8 检测和过滤异常值
any(1)直接把一行给检测出来
7.9 排列和随机采样
replace=True可以重复选择
7.10 字符串对象方法
7.11 正则表达式
sub替换
match只能查首个字符串,search找到后就不找了
7.12 pandas的矢量化字符串函数
NaN是浮点型数据,用split会报错,用str.就可以了
7.13 总结
去掉yuanjia中含有NAN值得一行



