栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

Python进行停用词表去重

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

Python进行停用词表去重

如果你手上有多个停用词表,一个不够,多个又重了怎么办?

当然是直接利用python进行去重,将多个停用词表里面的内容集中在一个txt文件里面之后:

利用如下代码进行去重清理:

def stopwd_reduction(infilepath, outfilepath):
    infile = open(infilepath, 'r', encoding='utf-8')
    outfile = open(outfilepath, 'w',encoding='utf-8')
    stopwordslist = []
    for str in infile.read().split('n'):
        if str not in stopwordslist:
            stopwordslist.append(str)
            outfile.write(str + 'n')


stopwd_reduction(r'D:停用词.txt', r'D:停用词新.txt')
#此处前者代表综合之后的源停用词文件路径,后者代表去重之后的停用词表存放路径
#此处的r代表绝对路径,r'D:停用词.txt'等效于'D:/停用词.txt'等效于'D:\停用词.txt'

即可完成清理操作。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/339180.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号