实用工具小学数学练习字帖生成在线画板函数绘制拼音字母表在线词典黄历查询中国历史 Excel函数模拟请求 json格式化

栏目分类:

子分类:

名师互学网

名师互学网用户登录

快速导航

当前搜索

当前分类

前沿技术软件开发系统运维产品运营生活办公面试经验考试题库

实用工具

学习工具小学数学练习字帖生成在线画板函数绘制拼音字母表在线词典黄历查询亲戚关系计算安全期计算中国历史 Excel函数模拟请求 json格式化浏览器指纹

名师互学网 > IT > 软件开发 > 后端开发 > Python

集成学习——Bagging与随机森林

Python 更新时间：2026-05-21 17:31:06 发布时间：1863天前 IT归档最新发布模块sitemap 名妆网法律咨询聚返吧英语巴士网伯小乐网商动力

【数据集划分Strategy】
留出法

交叉验证法

自助法

留出法
在保证样本类别均衡(正类和负类)的情况下，将数据集划分为：训练集和测试集，一般常见的做法是将大约 $\frac{2}{3} frac{2}{3}$ 32~ $\frac{4}{5} frac{4}{5}$ 54的样本用于训练，剩余样本用于测试。举例：有1000个样本，其中500个正类，500个负类，使用“分层采样”方法，保证训练集和测试集中正类、负类样本数量1：1，若采用 $\frac{4}{5} frac{4}{5}$ 54的比例，则训练集有800个样本，其中正类、负类各400个，测试集，正类、负类各100个。

交叉验证法
先将数据集 $D D$ D划分为 $k k$ k个大小相似的互斥子集，即
$D = D_{1} \cup D_{2} \cup \dots \cup D_{k}, D_{i} \cap D_{j} = \emptyset D=D_1 cup D_2 cup cdots cup D_k, D_i cap D_j=emptyset$ D=D1∪D2∪⋯∪Dk,Di∩Dj=∅
每个子集 $D_{i} D_i$ Di都尽可能保持数据分布的一致性，即从 $D D$ D中通过分层采样得到。然后，每次用 $k - 1 k-1$ k−1个子集的并集作为训练集，余下的那个子集作为测试集；这样就可获得 $k k$ k组训练/测试集，从而可进行 $k k$ k次训练和测试，最红返回的是这 $k k$ k个测试结果的均值。

自助法
给定包含 $m m$ m个样本的数据集 $D D$ D,我们对它进行采样产生数据集 $\overset{´}{D} acute{D}$ D´:每次随即从 $D D$ D中挑选一个样本，将其拷贝放入 $\overset{´}{D} acute{D}$ D´，然后再将该样本放回初始数据集 $D D$ D中，使得该样本在下次采样时仍有可能被采到；这个过程重复执行 $m m$ m次后，我们就得到了包含 $m m$ m个样本的数据集 $\overset{´}{D} acute{D}$ D´，这就是自助采样的结果。显然， $D D$ D中
有一部分样本会在 $\overset{´}{D} acute{D}$ D´中多次出现，而领一部分样本不出现。样本在 $m m$ m次采样中始终不被采到的概率是 $(1 - \frac{1}{m})^{m} (1-frac{1}{m})^m$ (1−m1)m，取极限得到：
$\lim_{m \to \infty} {(1 - \frac{1}{m})}^{m} ↣ \frac{1}{e} \approx 0.368 lim_{mto infty}left(1- frac{1}{m}right)^m rightarrowtail frac{1}{e} thickapprox 0.368$ m→∞lim(1−m1)m↣e1≈0.368
之所以在这里介绍这些内容，是因为bagging集成算法中用到了自助采样法（自助法）,所以才会有了这部分内容。

【Bagging】
Bagging是并行式集成学习算法最著名的代表。对数据集的划分，采用自助采样法，通过 $T T$ T次采样得到 $T T$ T个训练集和测试集，基于每个采样集（训练集）训练出一个基学习器，再将这些基学习器进行结合。这就是Bagging的基本流程，在对 $T T$ T个基学习器进行组合的时候，通常对分类任务使用简单投票法，对回归任务使用简单平均法。
算法流程图如下：

包外估计
自助采样法为Bagging算法提供了估计模型泛化性能的方法，即包外估计。由于每个基学习器只是用了初始训练集中约63.2%的样本，剩下约36.8%的样本可用作验证集来对泛化性能进行“包外估计”。为此需记录每个基学习器所使用的训练样本，不妨设 $D_{t} D_t$ Dt表示 $h_{t} h_t$ ht实际使用的训练样本集，令 $H^{o o b} (x) H^{oob}(x)$ Hoob(x)表示对样本 $x x$ x的包外预测，则仅考虑那些未使用 $x x$ x训练的基学习器在 $x x$ x上的预测，有
$H^{o o b} (x) = {argmax}_{y \in γ} \sum_{t = 1}^{T} I (h_{t} (x) = y) \cdot I (x \notin D_{t}) H^{oob}(x)=underset{yin gamma}{arg max}sum_{t=1}^{T}I(h_t(x)=y) cdot I(x notin D_t)$ Hoob(x)=y∈γarg maxt=1∑TI(ht(x)=y)⋅I(x∉Dt)
则Bagging泛化误差的包外估计为：
$ϵ^{o o b} = \frac{1}{∣ D ∣} \sum_{(x, y) \in D} I (H^{o o b} (x) \neq y) epsilon^{oob}=frac{1}{|D|}sum_{(x,y)in D}I(H^{oob}(x)neq y)$ ϵoob=∣D∣1(x,y)∈D∑I(Hoob(x)≠y)
从偏差-方差的角度看，Bagging主要关注降低方差，Boosting主要关注减低偏差。

【随机森林】
随机森林是Bagging的一个扩展变体，简称RF。是在Bagging的基础之上，进一步引入了随机属性选择，即在决策树的训练过程中，引入了随机属性选择，增加了基学习器的多样性。
具体做法如下：传统决策树在选择划分属性时是在当前节点的属性集合（假定有 $d d$ d个属性）中选择一个最优属性；而RF，对基决策树的每个结点，先从该结点的属性集合中随机选择一个包含 $k k$ k个属性的子集，然后再从这个子集中选择一个最优属性用于划分。这里的参数 $k k$ k控制了随机性的引入程度：若 $k = d k=d$ k=d，则基决策树的构建与传统决策树相同；若令 $k = 1 k=1$ k=1,则是随机选择一个属性用于划分；一般情况下，推荐值 $k = \log_{2} d k=log_2d$ k=log2d。
具体的代码实现，可以使用scikit-learn工具进行实现，代码可以参考【机器学习】决策树——决策树的两种实现方式（Python版）

【集成学习——结合策略】
在集成学习中，对于训练出来的基学习器我们一般采用以下三种方式进行组合：平均法，投票法，学习法（Stacking典型代表）
这部分内容，请参考：
【机器学习－西瓜书】八、集成学习：结合策略；多样性；总结
机器学习集成学习的结合策略之stacking学习法

转载请注明：文章转载自 www.mshxw.com

本文地址：https://www.mshxw.com/it/220800.html

上一篇程序人生：“自学Python，如何拿下了月薪15k的工作”

下一篇 Python实用技法第26篇：定义实现最短匹配的正则表达式

Python相关栏目本月热门文章

热门相关搜索

路由器设置木托盘宝塔面板儿童python教程心情低落朋友圈 vim 双一流学科专升本我的学校日记学校西点培训学校汽修学校情书化妆学校塔沟武校异形模板西南大学排名最精辟人生短句 6步教你追回被骗的钱南昌大学排名清朝十二帝北京印刷学院排名北方工业大学排名北京航空航天大学排名首都经济贸易大学排名中国传媒大学排名首都师范大学排名中国地质大学(北京)排名北京信息科技大学排名中央民族大学排名北京舞蹈学院排名北京电影学院排名中国戏曲学院排名河北政法职业学院排名河北经贸大学排名天津中德应用技术大学排名天津医学高等专科学校排名天津美术学院排名天津音乐学院排名天津工业大学排名北京工业大学耿丹学院排名北京警察学院排名天津科技大学排名北京邮电大学(宏福校区)排名北京网络职业学院排名北京大学医学部排名河北科技大学排名河北地质大学排名河北体育学院排名

关于我们文章归档网站地图联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号：晋ICP备2021003244-6号