栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

Python

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

Python

去除重复数据——drop_duplicates

去除指定单列或多列中的完全重复的项通过drop_duplicates()函数实现,需要利用Pandas包。

其中:

1、subset=[] 表示整个dataframe基于[]内选定列进行数据重复内容识别,可以添加多列数据进行识别。

        (1)添加一列列名时表示对选中的单列数据进行重复数据识别,

        (2)添加多列时则表示识别多列数据同时重复的情况;

2、keep='' 表示对选中的重复数据操作策略,可选择的参数为'first'、'last'和'False'三种。

        (1)'first'表示在识别的重复项中保留按照索引顺序的第一个内容,其余删除,

        (2)'last'表示在识别的重复项中保留按照索引顺序的最后一个内容,其余删除,

        (3)'False'表示删除所有重复项;

3、inplace= 表示对处理好的dataframe存储策略,可选择参数为False和True

        (1)False表示不对原始数据进行去重工作,例如示例代码中data1内容不改变,将处理结果赋予data参数中,

        (2)True表示去重工作直接在原始数据中进行操作,例如示例代码中data1中去重操作会直接在data1中进行,data不会被赋值。

data = data1.drop_duplicates(subset=['列名1','列名2'], keep='first', inplace= False)

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/848999.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号