【Datawhale决策树与集成学习】PartA 决策树

1.ID3树算法、C4.5树算法和CART算法之间有何异同？
引用李航老师的统计学系方法总结：
ID3算法核心在决策树上各个结点上应用信息增益准则选择特征，递归建立决策树；
而C4.5是对ID3的改进，用信息增益比选择特征；
CART决策树，对回归树用mse最小准则，对分类树用基尼指数最小化准则，进行特征选择。
关于三个算法
特征选择的策略不同。
相同的地方：都是递归构造决策树

2.什么是信息增益？它衡量了什么指标？它有什么缺陷？
信息增益information gain是指在得知特征X的信息而是的类Y的信息的不确定定减少的程度。它偏向于频数多的特征，由此c4.5引入信息增益比来选择特征。

3.sklearn决策树中的random_state参数控制了哪些步骤的随机性？
在sklearn的CART实现中，一共有6个控制预剪枝策略的参数，它们分别是最大树深度max_depth、节点分裂的最小样本数min_samples_split、叶节点最小样本数min_samples_leaf、节点样本权重和与所有样本权重和之比的最小比例min_weight_fraction_leaf、最大叶节点总数max_leaf_nodes以及之前提到的分裂阈值min_impurity_decrease。

4.决策树如何处理连续变量和缺失变量？
处理连续变量可以把连续变量划分区间
缺失值的处理：https://blog.csdn.net/qq_35649945/article/details/96633602

5.基尼指数是什么？CART为什么引入它？
基尼系数反应这不确定性，CART将熵中的log在=1p=1处利用一阶泰勒展开，基尼系数定义为熵的线性近似

6.树的预剪枝和后剪枝？如何操作？
剪枝为来防止过拟合，未完待续

【Datawhale决策树与集成学习】PartA 决策树

Python相关栏目本月热门文章