使用pandas解决一个spam filter问题

前言

昨天做了shopee的一个线上测试其中最后一道问题是使用pandas进行垃圾评论的筛选因为时间限制昨天并没有写完之后又重新做了一遍这里做个总结。

题目大意

首先题目定义对于对于同一个用户发送同样的评论次数超过3次就被定义为垃圾评论。或者超过或等于2个不同用户发送同样的评论也被定义为垃圾评论。举个例子我们有如下的一个Dataframe。

 name comment comment_id
0 frank i am ok 1
1 frank i am ok 2
2 frank i am ok 3
3 john i am fine 4
4 jonny i am fine 5
5 jj yes it is good 6

对于前3条评论均由用户frank发出且完全重复因此应该被定义为垃圾评论。对于第4条和第5条评论由两个不同的用户发出但是内容完全重复因此也应该被定义为垃圾评论。

思路

在直接的思路就是分别筛选出两部分垃圾评论然后进行拼接。

1.首先先来关注单一用户的垃圾评论。即用户名评论完全一致。我们可以对这两个列进行.groupby()操作然后进行.count()聚合然后筛选出count次数大于等于3次的部分。

import pandas as pd
from collections import defaultdict
dic defaultdict(list)
dic[ name ] [ frank , frank , frank , john , jonny , jj ]
dic[ comment ] [ i am ok , i am ok , i am ok , i am fine , i am fine , yes it is good ]
dic[ comment_id ] [i for i in range(1,7)]
# 构建dataframe
df pd.Dataframe(dic)
# 新建一个dataframe用于计算次数
df1 df.groupby([ name , comment ])[ comment_id ].count().reset_index(name counts )
df_part1 pd.merge(df,df1,on [ name , comment ],how left )
sub1 df_part1[df_part1.counts 3][[ name , comment ]]
# 返回结果

使用pandas解决一个spam filter问题

Python相关栏目本月热门文章