Scikit学习TfidfVectorizer：如何获得tf-idf得分最高的前n个词

面试问答更新时间：2026-05-22 03:51:56 发布时间：1631天前 IT归档最新发布模块sitemap 名妆网法律咨询聚返吧英语巴士网伯小乐网商动力

您必须做一点点的歌舞才能将矩阵转换为numpy数组，但这应该可以满足您的需求：

feature_array = np.array(tfidf.get_feature_names())tfidf_sorting = np.argsort(response.toarray()).flatten()[::-1]n = 3top_n = feature_array[tfidf_sorting][:n]

这给了我：

array([u'fruit', u'travellers', u'jupiter'],   dtype='<U13')

该

argsort

电话确实是有用的，这里有它的文档。我们必须这样做，

[::-1]

因为

argsort

仅支持从小到大的排序。我们呼吁

flatten

将维数减少到1d，以便可以使用排序后的索引来索引1d特征数组。请注意，

flatten

仅当您一次测试一个文档时，包含to的调用才起作用。

另外，从另一个角度来说，您的意思是

tfs =tfidf.fit_transform(t.split("nn"))

吗？否则，多行字符串中的每个术语都将被视为“文档”。使用

nn

代替意味着我们实际上正在查看4个文档（每行一个），这在您考虑tfidf时更有意义。

转载请注明：文章转载自 www.mshxw.com

本文地址：https://www.mshxw.com/it/624668.html

上一篇 Google Groups API添加成员

下一篇事件循环已经在运行

面试问答相关栏目本月热门文章

关于我们文章归档网站地图联系我们