昨天做了shopee的一个线上测试 其中最后一道问题是使用pandas进行垃圾评论的筛选 因为时间限制 昨天并没有写完 之后又重新做了一遍 这里做个总结。
题目大意首先 题目定义 对于对于同一个用户 发送同样的评论次数超过3次 就被定义为垃圾评论。或者超过或等于2个不同用户发送同样的评论 也被定义为垃圾评论。举个例子 我们有如下的一个Dataframe。
name comment comment_id 0 frank i am ok 1 1 frank i am ok 2 2 frank i am ok 3 3 john i am fine 4 4 jonny i am fine 5 5 jj yes it is good 6
对于前3条评论 均由用户frank发出 且完全重复 因此应该被定义为垃圾评论。对于第4条和第5条评论 由两个不同的用户发出 但是内容完全重复 因此也应该被定义为垃圾评论。
思路在直接的思路就是分别筛选出两部分垃圾评论 然后进行拼接。
1.首先 先来关注单一用户的垃圾评论。即用户名 评论完全一致。我们可以对这两个列进行.groupby()操作 然后进行.count()聚合 然后筛选出count次数大于等于3次的部分。
import pandas as pd from collections import defaultdict dic defaultdict(list) dic[ name ] [ frank , frank , frank , john , jonny , jj ] dic[ comment ] [ i am ok , i am ok , i am ok , i am fine , i am fine , yes it is good ] dic[ comment_id ] [i for i in range(1,7)] # 构建dataframe df pd.Dataframe(dic) # 新建一个dataframe用于计算次数 df1 df.groupby([ name , comment ])[ comment_id ].count().reset_index(name counts ) df_part1 pd.merge(df,df1,on [ name , comment ],how left ) sub1 df_part1[df_part1.counts 3][[ name , comment ]] # 返回结果



