5003笔记 Statistic Chapter9-Tree and Ensemble methods

R1,R2,R3就是leaf node页节点。internal node内节点，就是判断的条件。

决策树的评价指标是RSS，对于决策树来说，我们如何找他的预测值呢？对于回归树而言，我们会通过recursive binary splitting和greedy algorithm

树其实用的是贪心算法Greedy Algorithm，所以它只是在当前分叉时候，做最好的决策，而不是选择将来更好的结果的切分，不同于动态规划。

所以回归树的计算量是巨大的。

Gini index表示k的类别的离散程度。Gini越小越好，节点越纯。

缺点：1）与我们讨论的其他一些回归和分类方法相比，树的预测精度不高。2）容易过拟合。

为了防止过拟合，决策树不能通过正则项，所以可以通过ensemble方法。

我们通过bootstrap产生了很多数据集，然后每个数据集构建一颗决策树。当新的样本数据来进行预测的时候，我们就把新的样本放入所有的树中，最后去一个平均值作为回归树的预测值。如果是分类问题，最后就用voting的方法。

OOB(out of bag) error estimation 包外误差估计：
2/3用于训练，1/3用于测试。

随机森林（有时）通过一个小的调整来消除树木的相关性，从而改善了袋装树木。这减少了平均树木时的方差。

Boosting的工作方式类似Bagging，只是树是按顺序生长的：每棵树都是使用以前生长的树的信息生长的。

Boosting的树特征比较少，训练速度快。并且去提升表现不好的f(x)。收缩参数λ进一步减慢了这一过程，允许更多不同形状的树木修正残差。

每一次新的预测结果要加上之前的预测结果乘一个系数lambada。

老师说比重怎么来的，不用管

算法没有使用引导样本（替换），而是对训练集的一小部分进行采样。

随机森林的学习器一般比较复杂，而boosting学习器很弱，有时只是一个stump树墩。

随机森林和boosting是最先进的监督学习方法之一。然而，他们的结果可能很难解释。

5003笔记 Statistic Chapter9-Tree and Ensemble methods

Python相关栏目本月热门文章