栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

sklearn DecisionTreeClassifier可以真正使用分类数据吗?

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

sklearn DecisionTreeClassifier可以真正使用分类数据吗?

好吧,我很惊讶,但事实证明,sklearn的决策树确实无法处理分类数据。从2015年6月开始,这个问题(#4899)出现了Github问题,但是它仍然是开放的(我建议您快速浏览一下该线程,因为有些评论非常有趣)。

正如您在此处所做的那样,将分类变量编码为整数的问题在于,它对它们强加了一个 顺序 ,根据情况的不同,该 顺序
可能有意义,也可能没有意义。例如,你可以编码

['low', 'medium', 'high']
[0, 1, 2]
,因为
'low' <'medium' < 'high'
(我们称这些分类变量 序数
),但你仍然隐含作出额外的(也可能是不希望的)假设之间的距离
'low'
'medium'
与之间的距离相同
'medium'
,并
'high'
(在没有影响决策树,但很重要,例如在k-
nn和聚类中)。但是这种方法在诸如
['red','green','blue']
或的情况下完全失败了
['male','female']
,因为我们不能要求它们之间有任何有意义的相对顺序。

因此,对于非常规分类变量,正确编码它们以供sklearn决策树使用的方法是使用

OneHotEnprer
模块。用户指南的“编码分类功能”部分也可能会有所帮助。



转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/669285.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号