栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

Scikit学习TfidfVectorizer:如何获得tf-idf得分最高的前n个词

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

Scikit学习TfidfVectorizer:如何获得tf-idf得分最高的前n个词

您必须做一点点的歌舞才能将矩阵转换为numpy数组,但这应该可以满足您的需求:

feature_array = np.array(tfidf.get_feature_names())tfidf_sorting = np.argsort(response.toarray()).flatten()[::-1]n = 3top_n = feature_array[tfidf_sorting][:n]

这给了我:

array([u'fruit', u'travellers', u'jupiter'],   dtype='<U13')

argsort
电话确实是有用的,这里有它的文档。我们必须这样做,
[::-1]
因为
argsort
仅支持从小到大的排序。我们呼吁
flatten
将维数减少到1d,以便可以使用排序后的索引来索引1d特征数组。请注意,
flatten
仅当您一次测试一个文档时,包含to的调用才起作用。

另外,从另一个角度来说,您的意思是

tfs =tfidf.fit_transform(t.split("nn"))
吗?否则,多行字符串中的每个术语都将被视为“文档”。使用
nn
代替意味着我们实际上正在查看4个文档(每行一个),这在您考虑tfidf时更有意义。



转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/624668.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号