Scikit-Learn的管道：通过了稀疏矩阵，但是需要密集数据

面试问答更新时间：2026-05-21 12:21:23 发布时间：1627天前 IT归档最新发布模块sitemap 名妆网法律咨询聚返吧英语巴士网伯小乐网商动力

不幸的是，这两个是不兼容的。A

CountVectorizer

产生一个稀疏矩阵，RandomForestClassifier需要一个密集矩阵。可以使用进行转换

X.todense()

。这样做会大大增加您的内存占用量。

以下是基于http://zacstewart.com/2014/08/05/pipelines-of-featureunions-of-
pipelines.html
进行此操作的示例代码，可让您

.todense()

在管道阶段进行调用。

class DenseTransformer(TransformerMixin):    def fit(self, X, y=None, **fit_params):        return self    def transform(self, X, y=None, **fit_params):        return X.todense()

一旦有了

DenseTransformer

，就可以将其添加为管道步骤。

pipeline = Pipeline([     ('vectorizer', CountVectorizer()),      ('to_dense', DenseTransformer()),      ('classifier', RandomForestClassifier())])

另一种选择是使用用于稀疏数据的分类器，例如

LinearSVC

。

from sklearn.svm import LinearSVCpipeline = Pipeline([('vectorizer', CountVectorizer()), ('classifier', LinearSVC())])

转载请注明：文章转载自 www.mshxw.com

本文地址：https://www.mshxw.com/it/639986.html

上一篇 Python：PyQt弹出窗口

下一篇 Flask-SQLAlchemy如何删除单个表中的所有行

面试问答相关栏目本月热门文章

关于我们文章归档网站地图联系我们