因此,在没有实际看到的源代码的情况下很难说
setup_data,但是我对这里发生的事情有相当不错的猜测。
sklearn遵循
fit_transform格式,表示有两个阶段,特别
fit是和
transform。
在的例子
CountVectorizer的
fit阶段有效地创建的词汇,和
transform步将您输入的文本插入的词汇空间。
我的猜测是,您要同时调用
fit两个数据集而不是一个,
CountVectorizer如果您希望结果一致,则需要在两个数据集上使用相同的“适合”版本。例如:
model = CountVectorizer()transformed_train = model.fit_transform(train_corpus)transformed_test = model.transform(test_corpus)
再说一次,这只能是一个猜测,直到您发布该
setup_data函数为止,但是在看到这一点之前,我猜您正在做这样的事情:
model = CountVectorizer()transformed_train = model.fit_transform(train_corpus)transformed_test = model.fit_transform(test_corpus)
可以有效地为制作新的词汇表
test_corpus,这两种情况下的词汇长度都不会令人惊讶。



