对于scikit-learn中的哪些算法,必须将其转换为虚拟变量?对于那些不是的算法,它不会受到伤害,对吗?
sklearn中的所有算法(基于树的方法除外)都需要对名义分类变量进行一热编码(也称为伪变量)。
对基数非常大的分类特征使用伪变量可能会损害基于树的方法,尤其是通过在特征拆分采样器中引入偏差的随机树方法。基于树的方法倾向于使用分类特征的基本整数编码合理地很好地工作。

对于scikit-learn中的哪些算法,必须将其转换为虚拟变量?对于那些不是的算法,它不会受到伤害,对吗?
sklearn中的所有算法(基于树的方法除外)都需要对名义分类变量进行一热编码(也称为伪变量)。
对基数非常大的分类特征使用伪变量可能会损害基于树的方法,尤其是通过在特征拆分采样器中引入偏差的随机树方法。基于树的方法倾向于使用分类特征的基本整数编码合理地很好地工作。