栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

带有TfidfVectorizer的ColumnTransformer产生“空词汇”错误

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

带有TfidfVectorizer的ColumnTransformer产生“空词汇”错误

那是因为您提供的是

["a"]
而不是
"a"
in
ColumnTransformer
。根据文档:

标量字符串或整数应在转换器期望X像一维数组(矢量)的情况下使用,否则会将二维数组传递给转换器。

现在,

TfidfVectorizer
需要一个字符串迭代器作为输入(因此是一维字符串数组)。但是,由于您要以的形式发送列名列表
ColumnTransformer
(即使该列表仅包含一个列),因此它将是二维数组,并将传递给
TfidfVectorizer
。因此,错误。

更改为:

clmn = ColumnTransformer([("tfidf", tfidf, "a")],   remainder="passthrough")

为了获得更多理解,请尝试使用以上内容从pandas Dataframe中选择数据。在执行以下操作时,请检查返回数据的格式(dtype,形状):

dataset['a']vsdataset[['a']]

更新 :@SergeyBushmanov,关于您对其他答案的评论,我认为您在误解文档。如果要在两列上执行tfidf,则需要传递两个转换器。像这样:

tfidf_1 = TfidfVectorizer(min_df=0)tfidf_2 = TfidfVectorizer(min_df=0)clmn = ColumnTransformer([("tfidf_1", tfidf_1, "a"),     ("tfidf_2", tfidf_2, "b")   ],   remainder="passthrough")


转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/651970.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号