栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

Scikit-Learn的管道:通过了稀疏矩阵,但是需要密集数据

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

Scikit-Learn的管道:通过了稀疏矩阵,但是需要密集数据

不幸的是,这两个是不兼容的。A

CountVectorizer
产生一个稀疏矩阵,RandomForestClassifier需要一个密集矩阵。可以使用进行转换
X.todense()
。这样做会大大增加您的内存占用量。

以下是基于http://zacstewart.com/2014/08/05/pipelines-of-featureunions-of-
pipelines.html
进行此操作的示例代码,可让您

.todense()
在管道阶段进行调用。

class DenseTransformer(TransformerMixin):    def fit(self, X, y=None, **fit_params):        return self    def transform(self, X, y=None, **fit_params):        return X.todense()

一旦有了

DenseTransformer
,就可以将其添加为管道步骤。

pipeline = Pipeline([     ('vectorizer', CountVectorizer()),      ('to_dense', DenseTransformer()),      ('classifier', RandomForestClassifier())])

另一种选择是使用用于稀疏数据的分类器,例如

LinearSVC

from sklearn.svm import LinearSVCpipeline = Pipeline([('vectorizer', CountVectorizer()), ('classifier', LinearSVC())])


转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/639986.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号