栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

R语言txt文件自定义词云图

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

R语言txt文件自定义词云图

在R语言中获取txt文件文本,并进行词频统计,然后自定义词云图。

先获取txt文本
wordfreqs = read.table("E:\Python实训\哔哩哔哩弹幕爬取\dan_mu.txt"
                       ,encoding = "UTF-8")

这是事先用python爬虫准备好的B站番剧(排球少年)弹幕文本(当然也可以先自定义文本进行测试)。

停止词
readLines("E:\数据处理\PyDataPreprocessing-master\Files\NLPIR_stopwords.txt"
          )

work <- worker(stop_word = "E:\数据处理\PyDataPreprocessing-master\Files\NLPIR_stopwords.txt"
)

这也是准备好的停止词词库,用于帮助jiebaR更好的统计词频

统计词频
seg <- segment(wordfreqs[,1],work)

seg <- freq(seg)  //用于统计词频 
 
seg <- seg[order(-seg[,2]),]  // 让它倒序排序 

seg <- seg[1:100,c(1,2)]  // 限制输出词的数量,只输出100个。
词云图

最后就是用自己选取的图片进行制作词云图了,就是用wordcloud2,然后更换词库就行了。
记得图片要选取黑白尽量分明的,方便R语言识别。

wordcloud2(seg,size = 1,figPath = "D:\Picture\飛心\Hinata.jpg")

完整代码如下。

效果如图

结语
好了,自定义的词云图就制作成功了,最后需要注意的就是停止词的引用,以及在统计词频,排序输出时的理解,这样一来就大功告成了。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/348523.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号