栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

从文本内容生成标签

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

从文本内容生成标签

一种方法是提取文档中出现频率比您偶然期望的单词高的单词。例如,在大量文档中说“马尔科夫”一词几乎从未见过。但是,在同一收藏集中的特定文档中,Markov经常出现。这表明Markov可能是与文档关联的很好的关键字或标记。

为了识别这样的关键字,您可以使用关键字和文档的逐点相互信息。由给出

PMI(term,doc) = log [ P(term, doc) / (P(term)*P(doc))]
。这将大致告诉您,在大型文档中遇到该术语时,您对特定文档中的术语感到惊讶的程度是多少(或更多)。

要确定与文档相关联的5个最佳关键字,您只需按其在文档中的PMI得分对术语进行排序,然后选择得分最高的5个。

从我对这个问题的回答中借用的NLTK搭配方法介绍了如何使用n-
gram PMI在大约7行代码中提取有趣的多字表达式,例如:

import nltkfrom nltk.collocations import *bigram_measures = nltk.collocations.BigramAssocMeasures()# change this to read in your datafinder = BigramCollocationFinder.from_words(   nltk.corpus.genesis.words('english-web.txt'))# only bigrams that appear 3+ timesfinder.apply_freq_filter(3)# return the 5 n-grams with the highest PMIfinder.nbest(bigram_measures.pmi, 5)


转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/650780.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号