栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

【Datawhale决策树与集成学习】PartA 决策树

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

【Datawhale决策树与集成学习】PartA 决策树

1.ID3树算法、C4.5树算法和CART算法之间有何异同?
引用李航老师的统计学系方法总结:
ID3算法核心在决策树上各个结点上应用信息增益准则选择特征,递归建立决策树;
而C4.5是对ID3的改进,用信息增益比选择特征;
CART决策树,对回归树用mse最小准则,对分类树用基尼指数最小化准则,进行特征选择。
关于三个算法
特征选择的策略不同。
相同的地方:都是递归构造决策树

2.什么是信息增益?它衡量了什么指标?它有什么缺陷?
信息增益information gain是指在得知特征X的信息而是的类Y的信息的不确定定减少的程度。它偏向于频数多的特征,由此c4.5引入信息增益比来选择特征。

3.sklearn决策树中的random_state参数控制了哪些步骤的随机性?
在sklearn的CART实现中,一共有6个控制预剪枝策略的参数,它们分别是最大树深度max_depth、节点分裂的最小样本数min_samples_split、叶节点最小样本数min_samples_leaf、节点样本权重和与所有样本权重和之比的最小比例min_weight_fraction_leaf、最大叶节点总数max_leaf_nodes以及之前提到的分裂阈值min_impurity_decrease。

4.决策树如何处理连续变量和缺失变量?
处理连续变量可以把连续变量划分区间
缺失值的处理:https://blog.csdn.net/qq_35649945/article/details/96633602

5.基尼指数是什么?CART为什么引入它?
基尼系数反应这不确定性,CART将熵中的log在=1p=1处利用一阶泰勒展开,基尼系数定义为熵的线性近似

6.树的预剪枝和后剪枝?如何操作?
剪枝为来防止过拟合,未完待续

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/326732.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号