2021_Python

CART决策树

CART (Classification and Regression Trees)与C4.5算法是非常相似的但是CART支持预测连续的值回归不断通过对连续值的划分循环划分最终选出最优质值。CART构建二叉树而C4.5则不一定。

CART用训练集和交叉验证集不断地评估决策树的性能来修剪决策树从而使训练误差和测试误差达到一个很好地平衡点。 ————————————————

3 如何停止分裂

以下几种情况会停止决策树子节点的构建

当前节点所有样本属于同一个类别无需划分

当前属性集为空或者所有样本取值相同无法划分

当前节点包含的样本集合为空不能划分

当前节点样本数量少于指定数量

4. 如何实现决策树

scikit-learn中决策树相关API

 span style background-color:#f8f8f8 span style color:#333333 span style color:#aa5500 # 模型 /span 
 span style color:#000000 model /span span style color:#000000 st /span . span style color:#000000 DecisionTreeRegressor /span ( span style color:#000000 max_depth /span span style color:#116644 4 /span )   span style color:#aa5500 # 决策树回归器     可用于特征值的提取 /span 
 span style color:#aa5500 # 训练 /span 
 span style color:#000000 model /span . span style color:#000000 fit /span ( span style color:#000000 train_x /span , span style color:#000000 train_y /span )
 span style color:#aa5500 # 预测 /span 
 span style color:#000000 pre_test_y /span span style color:#000000 model /span . span style color:#000000 predict /span ( span style color:#000000 test_x /span ) /span /span

【案例】波士顿房价预测

数据集介绍

该数据集为一个开放房价数据集包含506笔样本每个样本包含13个特征和1个标签具体如下所示

代码实现

 span style background-color:#f8f8f8 span style color:#333333 span style color:#aa5500 # 决策树回归示例 /span 
 span style color:#aa5500 # 使用决策树预测波士顿房价 /span 
 span style color:#770088 import /span span style color:#000000 sklearn /span . span style color:#000000 datasets /span span style color:#770088 as /span span style color:#000000 sd /span 
 span style color:#770088 import /span span style color:#000000 sklearn /span . span style color:#000000 utils /span span style color:#770088 as /span span style color:#000000 su /span 
 span style color:#770088 import /span span style color:#000000 sklearn /span . span style color:#000000 tree /span span style color:#770088 as /span span style color:#000000 st /span 
 span style color:#770088 import /span span style color:#000000 sklearn /span . span style color:#000000 ensemble /span span style color:#770088 as /span span style color:#000000 se /span 
 span style color:#770088 import /span span style color:#000000 sklearn /span . span style color:#000000 metrics /span span style color:#770088 as /span span style color:#000000 sm /span 
 span style color:#000000 boston /span span style color:#000000 sd /span . span style color:#000000 load_boston /span ()   span style color:#aa5500 # 加载boston地区房价数据 /span 
 span style color:#3300aa print /span ( span style color:#000000 boston /span . span style color:#000000 feature_names /span )
 span style color:#3300aa print /span ( span style color:#000000 boston /span . span style color:#000000 data /span . span style color:#000000 shape /span )
 span style color:#3300aa print /span ( span style color:#000000 boston /span . span style color:#000000 target /span . span style color:#000000 shape /span )
 span style color:#000000 random_seed /span span style color:#116644 7 /span   span style color:#aa5500 # 随机种子 计算随机值 相同的随机种子得到的随机值一样 /span 
 span style color:#000000 x /span , span style color:#000000 y /span span style color:#000000 su /span . span style color:#000000 shuffle /span ( span style color:#000000 boston /span . span style color:#000000 data /span , span style color:#000000 boston /span . span style color:#000000 target /span , span style color:#000000 random_state /span span style color:#000000 random_seed /span )
 span style color:#aa5500 # 计算训练数据的数量 /span 
 span style color:#000000 train_size /span span style color:#3300aa int /span ( span style color:#3300aa len /span ( span style color:#000000 x /span ) span style color:#981a1a * /span span style color:#116644 0.8 /span ) span style color:#aa5500 # 以boston.data中80%的数据作为训练数据 /span 
 span style color:#aa5500 # 构建训练数据、测试数据 /span 
 span style color:#000000 train_x /span span style color:#000000 x /span [: span style color:#000000 train_size /span ]   span style color:#aa5500 # 训练输入, x前面80%的数据 /span 
 span style color:#000000 test_x /span span style color:#000000 x /span [ span style color:#000000 train_size /span :]   span style color:#aa5500 # 测试输入, x后面20%的数据 /span 
 span style color:#000000 train_y /span span style color:#000000 y /span [: span style color:#000000 train_size /span ]   span style color:#aa5500 # 训练输出 /span 
 span style color:#000000 test_y /span span style color:#000000 y /span [ span style color:#000000 train_size /span :]   span style color:#aa5500 # 测试输出 /span 
 span style color:#aa5500 ######## 单棵树进行预测 ######## /span 
 span style color:#aa5500 # 模型 /span 
 span style color:#000000 model /span span style color:#000000 st /span . span style color:#000000 DecisionTreeRegressor /span ( span style color:#000000 max_depth /span span style color:#116644 4 /span )   span style color:#aa5500 # 决策回归器 /span 
 span style color:#aa5500 # 训练 /span 
 span style color:#000000 model /span . span style color:#000000 fit /span ( span style color:#000000 train_x /span , span style color:#000000 train_y /span )
 span style color:#aa5500 # 预测 /span 
 span style color:#000000 pre_test_y /span span style color:#000000 model /span . span style color:#000000 predict /span ( span style color:#000000 test_x /span )
 span style color:#aa5500 # 打印预测输出和实际输出的R2值 /span 
 span style color:#3300aa print /span ( span style color:#000000 sm /span . span style color:#000000 r2_score /span ( span style color:#000000 test_y /span , span style color:#000000 pre_test_y /span )) /span /span

执行结果

 span style background-color:#f8f8f8 span style color:#333333 [ span style color:#aa1111 CRIM /span span style color:#aa1111 ZN /span span style color:#aa1111 INDUS /span span style color:#aa1111 CHAS /span span style color:#aa1111 NOX /span span style color:#aa1111 RM /span span style color:#aa1111 AGE /span span style color:#aa1111 DIS /span span style color:#aa1111 RAD /span span style color:#aa1111 TAX /span span style color:#aa1111 PTRATIO /span 
 span style color:#aa1111 B /span span style color:#aa1111 LSTAT /span ]
( span style color:#116644 506 /span , span style color:#116644 13 /span )
( span style color:#116644 506 /span ,)
 span style color:#116644 0.8202560889408634 /span /span /span

特征重要性

作为决策树模型训练过程中的副产品根据每个特征划分子表前后信息熵减少量就标志了该特征的重要程度此即为该特征重要性的指标。训练后得到的模型对象提供了属性feature_importances_来存储每个特征的重要性。是一串数值可以排序获取它的索引后通过feature_names[sorted_index]获取特征名在工程应用上可以对决策树做一些优化不必让每一个特征都参与子表划分而只选择其中较重要的或者说影响因素较大的的特征作为子表划分依据。特征重要性的评价指标就是根据该特征划分子表后所带来的信息熵减少量熵减越大的就越重要也就越优先参与子表的划分。

在上述示例中加入如下代码

 span style background-color:#f8f8f8 span style color:#333333 span style color:#770088 import /span span style color:#000000 matplotlib /span . span style color:#000000 pyplot /span span style color:#770088 as /span span style color:#000000 mp /span 
 span style color:#770088 import /span span style color:#000000 numpy /span span style color:#770088 as /span span style color:#000000 np /span 
 span style color:#000000 fi /span span style color:#000000 model /span . span style color:#000000 feature_importances_ /span   span style color:#aa5500 # 获取特征重要性 得到的是值 /span 
 span style color:#3300aa print /span ( span style color:#aa1111 fi: /span , span style color:#000000 fi /span )
 span style color:#aa5500 # 特征重要性可视化 /span 
 span style color:#000000 mp /span . span style color:#000000 figure /span ( span style color:#aa1111 Feature importances /span , span style color:#000000 facecolor /span span style color:#aa1111 lightgray /span )
 span style color:#000000 mp /span . span style color:#000000 plot /span ()
 span style color:#000000 mp /span . span style color:#000000 title /span ( span style color:#aa1111 DT Feature /span , span style color:#000000 fontsize /span span style color:#116644 16 /span )
 span style color:#000000 mp /span . span style color:#000000 ylabel /span ( span style color:#aa1111 Feature importances /span , span style color:#000000 fontsize /span span style color:#116644 14 /span )
 span style color:#000000 mp /span . span style color:#000000 grid /span ( span style color:#000000 linestyle /span span style color:#aa1111 : /span , span style color:#000000 axis /span span style color:#116644 1 /span )
 span style color:#000000 x /span span style color:#000000 np /span . span style color:#000000 arange /span ( span style color:#000000 fi /span . span style color:#000000 size /span )
 span style color:#000000 sorted_idx /span span style color:#000000 fi /span . span style color:#000000 argsort /span ()[:: span style color:#981a1a - /span span style color:#116644 1 /span ]   span style color:#aa5500 # 重要性排序(倒序) 得到的是排序的index /span 
 span style color:#000000 fi /span span style color:#000000 fi /span [ span style color:#000000 sorted_idx /span ]   span style color:#aa5500 # 根据排序索引重新排特征值 /span 
 span style color:#000000 mp /span . span style color:#000000 xticks /span ( span style color:#000000 x /span , span style color:#000000 boston /span . span style color:#000000 feature_names /span [ span style color:#000000 sorted_idx /span ]) span style color:#aa5500 #这里是获取名字 /span 
 span style color:#000000 mp /span . span style color:#000000 bar /span ( span style color:#000000 x /span , span style color:#000000 fi /span , span style color:#116644 0.4 /span , span style color:#000000 color /span span style color:#aa1111 dodgerblue /span , span style color:#000000 label /span span style color:#aa1111 DT Feature importances /span )
 span style color:#000000 mp /span . span style color:#000000 legend /span ()
 span style color:#000000 mp /span . span style color:#000000 tight_layout /span ()
 span style color:#000000 mp /span . span style color:#000000 show /span () /span /span

执行结果

5. 决策树的剪枝

剪枝 pruning 是决策树学习算法对付“过拟合”的主要手段. 在决策树学习中为了尽可能正确分类训练样本节点划分过程将不断重复有时会造成决策树分支过多这时就可能因训练样本学的“太好了” 以至于把训练集本身的一些特点当做数据所具有的一般性质而导致过拟合. 因此可通过主动去掉一些分支来降低过拟合风险.

1 预剪枝. 决策树生成过程中对每个节点在划分前进行评估若当前节点不能带来决策树泛化性能的提升则停止划分并将当前节点标记为叶子节点.

#先预算生成节点的信息增益来确定要不要剪枝。占用内存较少。

2 后剪枝. 先训练为一颗完整的决策树然后自低向上对非叶子节点进行考察若将该节点对应的子树替换为叶节点能带来决策树泛化能力提升则将该子树替换为叶节点.

#生成完整的决策树之后再计算每个节点根据实际的信息增益来确定剪枝。这种方式更加靠谱但是它的计算量非常大。

二、集成学习与随机森林 1. 集成学习

集成学习 ensemble learning 通过构建并合并多个模型来完成学习任务从而获得比单一学习模型更显著优越的泛化性能简言之集成学习就是利用模型的“集体智慧” 提升预测的准确率. 根据单个模型方式集成学习可以分为两大类

个体间存在强依赖关系必须串行生成的序列化方法其代表为Boosting算法

个体之间不存在强依赖关系可同时生成的并行化方法代表是Bagging和随机森林算法.

2. Boosting 1 什么是Boosting

Boosting 直译为推进、提升是一族可以将弱学习器提升为强学习器的算法其工作原理是

先训练出一个初始模型

根据模型的表现进行调整使得模型预测错误的数据获得更多的关注再重新训练下一个模型通过权重使得错误样本得到更多的关注使错误样本在下一轮训练中得到更多的关注

不断重复第二步直到模型数量达到预先设定的数目T 最终将这T个模型加权结合.

AdaBoosting是Boosting算法族中最著名的算法它根据每次训练集之中每个样本的分类是否正确以及上次的总体分类的准确率来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练最后将每次训练得到的分类器最后融合起来作为最后的决策分类器。

2 实现Boosting

sklearn中 AdaBoosting相关API

 span style background-color:#f8f8f8 span style color:#333333 span style color:#770088 import /span span style color:#000000 sklearn /span . span style color:#000000 tree /span span style color:#770088 as /span span style color:#000000 st /span   span style color:#aa5500 #决策树 /span 
 span style color:#770088 import /span span style color:#000000 sklearn /span . span style color:#000000 ensemble /span span style color:#770088 as /span span style color:#000000 se /span   span style color:#aa5500 #随机森林 /span 
 span style color:#aa5500 # model: 决策树模型 单个模型 基学习器 /span 
 span style color:#000000 model /span span style color:#000000 st /span . span style color:#000000 DecisionTreeRegressor /span ( span style color:#000000 max_depth /span span style color:#116644 4 /span )
 span style color:#aa5500 # n_estimators 构建400棵不同权重的决策树 训练模型 /span 
 span style color:#000000 model /span span style color:#000000 se /span . span style color:#000000 AdaBoostRegressor /span ( span style color:#000000 model /span , span style color:#aa5500 # 单模型 /span 
                             span style color:#000000 n_estimators /span span style color:#116644 400 /span , span style color:#aa5500 # 决策树数量 /span 
                             span style color:#000000 random_state /span span style color:#116644 7 /span ) span style color:#aa5500 # 随机种子 /span 
 span style color:#aa5500 # 训练模型 /span 
 span style color:#000000 model /span . span style color:#000000 fit /span ( span style color:#000000 train_x /span , span style color:#000000 train_y /span )
 span style color:#aa5500 # 测试模型 /span 
 span style color:#000000 pred_test_y /span span style color:#000000 model /span . span style color:#000000 predict /span ( span style color:#000000 test_x /span ) /span /span

代码

 span style background-color:#f8f8f8 span style color:#333333 span style color:#aa5500 # AdaBoosting示例 /span 
 span style color:#aa5500 # 使用AdaBoosting预测波士顿房价 /span 
 span style color:#770088 import /span span style color:#000000 sklearn /span . span style color:#000000 datasets /span span style color:#770088 as /span span style color:#000000 sd /span 
 span style color:#770088 import /span span style color:#000000 sklearn /span . span style color:#000000 utils /span span style color:#770088 as /span span style color:#000000 su /span 
 span style color:#770088 import /span span style color:#000000 sklearn /span . span style color:#000000 tree /span span style color:#770088 as /span span style color:#000000 st /span 
 span style color:#770088 import /span span style color:#000000 sklearn /span . span style color:#000000 ensemble /span span style color:#770088 as /span span style color:#000000 se /span 
 span style color:#770088 import /span span style color:#000000 sklearn /span . span style color:#000000 metrics /span span style color:#770088 as /span span style color:#000000 sm /span 
 span style color:#000000 boston /span span style color:#000000 sd /span . span style color:#000000 load_boston /span ()   span style color:#aa5500 # 加载boston地区房价数据 /span 
 span style color:#3300aa print /span ( span style color:#000000 boston /span . span style color:#000000 feature_names /span )
 span style color:#3300aa print /span ( span style color:#000000 boston /span . span style color:#000000 data /span . span style color:#000000 shape /span )
 span style color:#3300aa print /span ( span style color:#000000 boston /span . span style color:#000000 target /span . span style color:#000000 shape /span )
 span style color:#000000 random_seed /span span style color:#116644 7 /span   span style color:#aa5500 # 随机种子 计算随机值 相同的随机种子得到的随机值一样 /span 
 span style color:#000000 x /span , span style color:#000000 y /span span style color:#000000 su /span . span style color:#000000 shuffle /span ( span style color:#000000 boston /span . span style color:#000000 data /span , span style color:#000000 boston /span . span style color:#000000 target /span , span style color:#000000 random_state /span span style color:#000000 random_seed /span )
 span style color:#aa5500 # 计算训练数据的数量 /span 
 span style color:#000000 train_size /span span style color:#3300aa int /span ( span style color:#3300aa len /span ( span style color:#000000 x /span ) span style color:#981a1a * /span span style color:#116644 0.8 /span ) span style color:#aa5500 # 以boston.data中80%的数据作为训练数据 /span 
 span style color:#aa5500 # 构建训练数据、测试数据 /span 
 span style color:#000000 train_x /span span style color:#000000 x /span [: span style color:#000000 train_size /span ]   span style color:#aa5500 # 训练输入, x前面80%的数据 /span 
 span style color:#000000 test_x /span span style color:#000000 x /span [ span style color:#000000 train_size /span :]   span style color:#aa5500 # 测试输入, x后面20%的数据 /span 
 span style color:#000000 train_y /span span style color:#000000 y /span [: span style color:#000000 train_size /span ]   span style color:#aa5500 # 训练输出 /span 
 span style color:#000000 test_y /span span style color:#000000 y /span [ span style color:#000000 train_size /span :]   span style color:#aa5500 # 测试输出 /span 
 span style color:#000000 model2 /span span style color:#000000 se /span . span style color:#000000 AdaBoostRegressor /span ( span style color:#000000 st /span . span style color:#000000 DecisionTreeRegressor /span ( span style color:#000000 max_depth /span span style color:#116644 4 /span ),
                               span style color:#000000 n_estimators /span span style color:#116644 400 /span ,   span style color:#aa5500 # 决策树数量 /span 
                               span style color:#000000 random_state /span span style color:#000000 random_seed /span ) span style color:#aa5500 # 随机种子 /span 
 span style color:#aa5500 # 训练 /span 
 span style color:#000000 model2 /span . span style color:#000000 fit /span ( span style color:#000000 train_x /span , span style color:#000000 train_y /span )
 span style color:#aa5500 # 预测 /span 
 span style color:#000000 pre_test_y2 /span span style color:#000000 model2 /span . span style color:#000000 predict /span ( span style color:#000000 test_x /span )
 span style color:#aa5500 # 打印预测输出和实际输出的R2值 /span 
 span style color:#3300aa print /span ( span style color:#000000 sm /span . span style color:#000000 r2_score /span ( span style color:#000000 test_y /span , span style color:#000000 pre_test_y2 /span )) /span /span

执行结果

 span style background-color:#f8f8f8 span style color:#333333 [ CRIM ZN INDUS CHAS NOX RM AGE DIS RAD TAX PTRATIO 
 B LSTAT ]
(506, 13)
(506,)
0.9068598725149652 /span /span

可以看到通过AdaBoosting算法回归模型获得了更高的R2值.

3. 随机森林 1 什么是随机森林

随机森林 Random Forest 简称RF 是专门为决策树分类器设计的一种集成方法是Bagging法的一种拓展它是指每次构建决策树模型时不仅随机选择部分样本而且还随机选择部分特征来构建多棵决策树. 这样不仅规避了强势样本对预测结果的影响而且也削弱了强势特征的影响使模型具有更强的泛化能力.

随机森林简单、容易实现、计算开销小在很多现实任务中展现出强大的性能被誉为“代表集成学习技术水平的方法”.

2 如何实现随机森林

sklearn中随机森林相关API

 span style background-color:#f8f8f8 span style color:#333333 import sklearn.ensemble as se
model se.RandomForestRegressor(
 max_depth, # 决策树最大深度
 n_estimators, # 决策树数量
 min_samples_split)# 子表中最小样本数 若小于这个数字 则不再继续向下拆分 /span /span

以下是利用随机森林实现波士顿房价预测的代码

 span style background-color:#f8f8f8 span style color:#333333 # 使用随机森林预测波士顿房价
import sklearn.datasets as sd
import sklearn.utils as su
import sklearn.tree as st
import sklearn.ensemble as se
import sklearn.metrics as sm
boston sd.load_boston() # 加载boston地区房价数据
print(boston.feature_names)
print(boston.data.shape)
print(boston.target.shape)
random_seed 7 # 随机种子 计算随机值 相同的随机种子得到的随机值一样
x, y su.shuffle(boston.data, boston.target, random_state random_seed)
# 计算训练数据的数量
train_size int(len(x) * 0.8) # 以boston.data中80%的数据作为训练数据
# 构建训练数据、测试数据
train_x x[:train_size] # 训练输入, x前面80%的数据
test_x x[train_size:] # 测试输入, x后面20%的数据
train_y y[:train_size] # 训练输出
test_y y[train_size:] # 测试输出
# 创建随机森林回归器 并进行训练
model se.RandomForestRegressor(max_depth 10, # 最大深度
 n_estimators 1000, # 树数量
 min_samples_split 2) # 最小样本数量 小于该数就不再划分子节点
model.fit(train_x, train_y) # 训练
# 基于统计数据的特征重要性
fi_dy model.feature_importances_
# print(fi_dy)
pre_test_y model.predict(test_x)
print(sm.r2_score(test_y, pre_test_y)) # 打印r2得分 /span /span

打印输出

 span style background-color:#f8f8f8 span style color:#333333 [ CRIM ZN INDUS CHAS NOX RM AGE DIS RAD TAX PTRATIO 
 B LSTAT ]
(506, 13)
(506,)
0.9271955403309159 /span /span

三、总结

1 什么是决策树利用样本特征进行决策归类将具有相同属性的样本划入一个子节点

2 决策树的用途用作分类器、回归器

3 如何构建决策树根据信息熵增益构建不同的决策树的算法不一样有ID3-- 信息商增益 C4.5-- 增益率 CART决策树--- 基尼系数

4 什么情况下使用决策树实用性较广课用于一般回归、分类问题

5 决策树优化集成学习、随机森林

四、练习

1 有一批水果如下图所以按照形状进行分类将长条形、椭圆形各划分到不同子节点中计算划分后的信息增益.

2 一批样本包含A和B两个类别计算当A类别比率依次占0%, 10%, 20%, ..., 100%时这批样本信息熵值并以占比作为x轴数值、信息熵作为y轴数值绘制图像.

2021

Python相关栏目本月热门文章