如何使用Scikit Learn CountVectorizer获得语料库中的单词频率？

面试问答更新时间：2026-06-04 13:53:11 发布时间：1630天前 IT归档最新发布模块sitemap 名妆网法律咨询聚返吧英语巴士网伯小乐网商动力

cv.vocabulary_

在这种情况下，是dict，其中键是您找到的单词（功能），值是索引，这就是为什么它们是

0, 1, 2,3

。看起来与您的计数很相似，很不幸：)

您需要使用该

cv_fit

对象来获取计数

from sklearn.feature_extraction.text import CountVectorizertexts=["dog cat fish","dog cat cat","fish bird", 'bird']cv = CountVectorizer()cv_fit=cv.fit_transform(texts)print(cv.get_feature_names())print(cv_fit.toarray())#['bird', 'cat', 'dog', 'fish']#[[0 1 1 1]# [0 2 1 0]# [1 0 0 1]# [1 0 0 0]]

数组中的每一行都是原始文档（字符串）之一，每一列都是要素（单词），元素是该特定单词和文档的计数。您会看到，如果对每一列求和，则会得到正确的数字

print(cv_fit.toarray().sum(axis=0))#[2 3 2 2]

不过，老实说，我建议您使用

collections.Counter

NLTK或其他东西，除非您有特定的理由使用scikit-learn，因为它会更简单。

转载请注明：文章转载自 www.mshxw.com

本文地址：https://www.mshxw.com/it/668464.html

上一篇熊猫：数事

下一篇 ValueError：无法将字符串转换为float：id

面试问答相关栏目本月热门文章

关于我们文章归档网站地图联系我们