- 现实生活中,数据并非完美的,需要进行清洗才能进行后面的数据分析
- 数据清洗包括处理缺失值、重复值和异常值等
- 数据清洗工作占据整个数据分析项目的60%以上的时间
- 重复值一般采取删除法来处理
- 但有些重复值不能删除,例如订单明细、数据或交易明细数据等
1、查看重复值
- 首先读取数据
- 查看有哪几行是重复出现的
- df.duplicated()
- 如果不想整行整行的形式判断是否重复,而只是想取其中某几个变量进行判断
- df.duplicated(subset = ['appname','comments'],keep = 'last')
- subset的参数表示以哪几个变量进行判断
- keep = last表示出现重复值时保留最后一个,keep = first表示保留重复值中的第一个,其余重复值就判断为重复值



