栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

5003笔记 Statistic Chapter9-Tree and Ensemble methods

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

5003笔记 Statistic Chapter9-Tree and Ensemble methods






R1,R2,R3就是leaf node页节点。internal node内节点,就是判断的条件。

决策树的评价指标是RSS,对于决策树来说,我们如何找他的预测值呢?对于回归树而言,我们会通过recursive binary splitting和greedy algorithm



树其实用的是贪心算法Greedy Algorithm,所以它只是在当前分叉时候,做最好的决策,而不是选择将来更好的结果的切分,不同于动态规划。



所以回归树的计算量是巨大的。




Gini index表示k的类别的离散程度。Gini越小越好,节点越纯。




缺点:1)与我们讨论的其他一些回归和分类方法相比,树的预测精度不高。2)容易过拟合。

为了防止过拟合,决策树不能通过正则项,所以可以通过ensemble方法。




我们通过bootstrap产生了很多数据集,然后每个数据集构建一颗决策树。当新的样本数据来进行预测的时候,我们就把新的样本放入所有的树中,最后去一个平均值作为回归树的预测值。如果是分类问题,最后就用voting的方法。

OOB(out of bag) error estimation 包外误差估计:
2/3用于训练,1/3用于测试。

随机森林(有时)通过一个小的调整来消除树木的相关性,从而改善了袋装树木。这减少了平均树木时的方差。


Boosting的工作方式类似Bagging,只是树是按顺序生长的:每棵树都是使用以前生长的树的信息生长的。

Boosting的树特征比较少,训练速度快。并且去提升表现不好的f(x)。收缩参数λ进一步减慢了这一过程,允许更多不同形状的树木修正残差。

每一次新的预测结果要加上之前的预测结果乘一个系数lambada。




老师说比重怎么来的,不用管

算法没有使用引导样本(替换),而是对训练集的一小部分进行采样。



随机森林的学习器一般比较复杂,而boosting学习器很弱,有时只是一个stump树墩。

随机森林和boosting是最先进的监督学习方法之一。然而,他们的结果可能很难解释。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/580831.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号