栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

CountVectorizer删除仅出现一次的功能

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

CountVectorizer删除仅出现一次的功能

因此,在没有实际看到的源代码的情况下很难说

setup_data
,但是我对这里发生的事情有相当不错的猜测。
sklearn
遵循
fit_transform
格式,表示有两个阶段,特别
fit
是和
transform

在的例子

CountVectorizer
fit
阶段有效地创建的词汇,和
transform
步将您输入的文本插入的词汇空间。

我的猜测是,您要同时调用

fit
两个数据集而不是一个,
CountVectorizer
如果您希望结果一致,则需要在两个数据集上使用相同的“适合”版本。例如:

model = CountVectorizer()transformed_train = model.fit_transform(train_corpus)transformed_test = model.transform(test_corpus)

再说一次,这只能是一个猜测,直到您发布该

setup_data
函数为止,但是在看到这一点之前,我猜您正在做这样的事情:

model = CountVectorizer()transformed_train = model.fit_transform(train_corpus)transformed_test = model.fit_transform(test_corpus)

可以有效地为制作新的词汇表

test_corpus
,这两种情况下的词汇长度都不会令人惊讶。



转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/648194.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号