背景:某个系统上传表,不能自动检查是否有重复值,需BA手动检查
需求:物料号为key,生成excel文件,一个sheet标出重复值,一个sheet为去掉重复值后的可上传表
关键点:很多文章都是显示重复数量,探究出了如何显示重复值
# 导入pandas包并重命名为pd
import pandas as pd
import time
# 读取Excel
data = pd.read_excel(r'C:Userszhengjy12PycharmProjects13表去重13.xls')
dataplus = pd.read_excel(r'C:Userszhengjy12PycharmProjects13表去重13 lj.xls')
newdata = data.append(dataplus)
newdata.tail()
print(newdata)
# 查看基于【service product ID】列去除重复行的数据
wp = newdata.drop_duplicates(['【service product ID】 '])
print(wp)
# 查看重复行,BA自行判断
s = newdata[newdata.duplicated(['【service product ID】 '],keep=False)==True]
print(s)
#为生成的excel添加时间标志
time = pd.datetime.now()
time = time.strftime('%Y-%m-%d-%H-%M')
#将去除重复行的数据输出到excel表中
writer = pd.ExcelWriter('./13去重后 %s.xlsx'%time)
s.to_excel(writer,sheet_name='重复值',index=True)
wp.to_excel(writer,sheet_name='去重复后',index=True)
writer.save()
觉得有帮助请点个赞~



