栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

使用pandas解决一个spam filter问题

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

使用pandas解决一个spam filter问题

前言

昨天做了shopee的一个线上测试 其中最后一道问题是使用pandas进行垃圾评论的筛选 因为时间限制 昨天并没有写完 之后又重新做了一遍 这里做个总结。

题目大意

首先 题目定义 对于对于同一个用户 发送同样的评论次数超过3次 就被定义为垃圾评论。或者超过或等于2个不同用户发送同样的评论 也被定义为垃圾评论。举个例子 我们有如下的一个Dataframe。

 name comment comment_id
0 frank i am ok 1
1 frank i am ok 2
2 frank i am ok 3
3 john i am fine 4
4 jonny i am fine 5
5 jj yes it is good 6

对于前3条评论 均由用户frank发出 且完全重复 因此应该被定义为垃圾评论。对于第4条和第5条评论 由两个不同的用户发出 但是内容完全重复 因此也应该被定义为垃圾评论。

思路

在直接的思路就是分别筛选出两部分垃圾评论 然后进行拼接。

1.首先 先来关注单一用户的垃圾评论。即用户名 评论完全一致。我们可以对这两个列进行.groupby()操作 然后进行.count()聚合 然后筛选出count次数大于等于3次的部分。

import pandas as pd
from collections import defaultdict
dic defaultdict(list)
dic[ name ] [ frank , frank , frank , john , jonny , jj ]
dic[ comment ] [ i am ok , i am ok , i am ok , i am fine , i am fine , yes it is good ]
dic[ comment_id ] [i for i in range(1,7)]
# 构建dataframe
df pd.Dataframe(dic)
# 新建一个dataframe用于计算次数
df1 df.groupby([ name , comment ])[ comment_id ].count().reset_index(name counts )
df_part1 pd.merge(df,df1,on [ name , comment ],how left )
sub1 df_part1[df_part1.counts 3][[ name , comment ]]
# 返回结果
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/267283.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号