栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

机器学习------Sklearn之决策树

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

机器学习------Sklearn之决策树

sklearn的基本建模流程:

1. 实例化,建立评估模型对象

2. 通过模型接口训练模型

3. 通过模型接口提取需要的信息

from sklearn import tree

clf = tree.DecisionTreeClassifier()             #实例化
clf = clf.fit(X_train,y_train)                  #用训练集数据训练模型
result = clf.score(X_test,y_test)               #导入测试集,从接口调用需要的信息
决策树 1. 分类树
class sklearn.tree. DecisionTreeClassifier ( criterion=’gini’ , splitter=’best’ , max_depth=None , min_samples_split=2 , min_samples_leaf=1 , min_weight_fraction_leaf=0.0 , max_features=None , random_state=None , max_leaf_nodes=Nonemin_impurity_decrease=0.0 , min_impurity_split=None , class_weight=None , presort=False )
1.1. 模块:sklearn.tree
from sklearn import tree
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
1.2. 决策树的建立(以load_wine数据集为例)
x_train,x_test,y_train,y_test=train_test_split(wine.data,wine.target,test_size=0.3)

##实例化
clf = tree.DecisionTreeClassifier(criterion="entropy"
                                  ,random_state=30
                                  ,splitter="random")
clf = clf.fit(x_train,y_train)
score = clf.score(x_test,y_test)

##可视化
import graphviz
dot_data = tree.export_graphviz(clf
                                ,feature_names=wine.feature_names
                                ,class_names=["琴酒","雪莉","贝尔莫德"]
                                ,filled=True,rounded=True)
graph = graphviz.Source(dot_data)
graph


##查看特征的贡献
clf.feature_importances_
##把特征进行匹配
[*zip(feature_name,clf.feature_importances_)]
1.3. 重要参数

1.3.1 criterion

        用来决定决策树的不纯度的衡量指标,有两种取值

        entropy:信息熵 / 信息增益

        gini :基尼系数

        默认情况下会选择基尼系数

        信息熵计算会慢一点,对不纯度更敏感,用信息熵为标准时生成的决策树会更精细,更贴近训练集,也更容易过拟合。主要取决于数据。数据噪音很大的时候用gini系数。

1.3.2 random_state

        决策树内部实际上自带有随机化的过程,在建立决策树的时候,并不会选择全部的特征进行建树,而是会选择其中的一部分,因此需要通过random_state规定这个随机过程的方式。

        可以通过设置random_state的参数进行多次测试,选出score最大的树。

1.3.3 splitter

        也是用来控制决策树中的随机选项的,有两个值

        "best":选择更重要的特征进行分枝

        "random":随机进行分枝

        用random的时候树会更深,更加随机,也是对抗过拟合的一种方式。

1.3.4 剪枝参数---核心问题

        1. max_depth : 限制树的最大深度,建议从3开始尝试

        2. min_samples_leaf & min_samples_split

       min_samples_leaf: 规定每个叶子节点必须含有的最少样本数,那么如果分出来的节点达不到最小样本数要求,就不会进行划分。

例: **如在此树中,从上一个节点(49个样本)到下面分节点(左:46个样本,右:3个样本)的过程中,如果设置min_samples_leaf为5,则右边的分枝无法满足条件。

         min_samples_split: 规定所有训练数据的最少样本数,即中间节点包含的最少样本的数量。

        3. max_features & min_impurity_decrease 

        max_features:强制减少可以使用的特征数量,但这样的方法会限制决策树对数据的学习,因为强行减少了数据的信息量。

        min_impurity_decrease:限制信息熵增益,即如果分层后的信息熵增益不够大,就放弃分类,也是提前结束分类的方法。

1.3.5 目标权重参数

        用来解决样本不平衡的问题:class_weight & min_weight_fraction_leaf

1.3.6 如何确定最优的剪枝参数?

        使用超参数曲线的方法。

        可以使用matplotlib通过循环的方法画曲线。

1.4 重要属性和接口

        主要用的有四个:fit   score   apply   predict

        fit: 模型训练接口

        score: 分类效果的评判指标

        apply:输入为x_test,即clf.apply(x_test),返回每个样本对应的叶节点的索引 

        predict: 输入为x_test,即clf.predict(x_test),返回对于每个样本的预测结果

2. 回归树
class sklearn.tree.DecisionTreeRegressor ( criterion=’mse’ , splitter=’best’ , max_depth=None , min_samples_split=2 , min_samples_leaf=1 , min_weight_fraction_leaf=0.0 , max_features=None , random_state=None , max_leaf_nodes=None , min_impurity_decrease=0.0 , min_impurity_split=None , presort=False )
回归树是怎么工作的 2.1 交叉验证

        交叉验证是观察模型稳定性的一种方法,我们将数据划分为n份,依次使用其中一份作为测试集,其他n-1份作为训练集,多次计算模型的精确度来评估模型的平均准确程度。

2.1 重要参数

2.1.1  criterion

        支持的标准有三种:mse、friedman_mse、mae

        mse:均方误差,父节点和叶子节点之间的均方误差的差额将作为特征选择的标准,通过使用叶子节点的均值来最小化L2损失。

        friedman_mse:费尔德曼均方误差。

        mae:绝对平均误差,使用叶节点的中值来最小化L1损失。

        要注意回归树的score接口返回的是,而不是MSE。

                                         

        u是残差平方和,v是总平方和,N是样本量,i是每一个数据样本。可见,可以为正或为负,而均方误差永远为正。sklearn中使用的是负均方误差。

回归树案例:正弦曲线

import numpy as np
import matplotlib.pyplot as plt
from sklearn.tree import DecisionTreeRegression

##创建带有噪点的正弦数据
rng = np.random.RandomState(1)  ##创建随机数种子
x = np.sort(5 * rng.rand(80,1),axis=0)   ##生成0~5之间的80个随机数,并从小到大排序
y = np.sin(x).ravel()   ##生成正弦数据
y[::5] += 3*(0.5-rng.rand(16))   ##在y上加入噪声数据

##创建回归模型
regression1 = DecisionTreeRegression(max_depth=3)  ##3层回归
regression2 = DecisionTreeRegression(max_depth=5)  ##5层回归
regression1.fit(x,y)
regression2.fit(x,y)   ##模型训练

##模型结果测试
x_test = rng.rand(0,5,0.01)[:,np.newaxis]  ##创建测试数据集,要进行升维操作
y_1 = regression1.predict(x_test)
y_2 = regression2.predict(x_test)

##画图展示结果
plt.figure(figsize=(20,8),dpi=80)
plt.scatter(x,y,s=20,edgecolors='black',c='darkorange',label='raw data')
plt.plot(x_test,y_1,color="cornflowerblue",label="max_depth=2", linewidth=2)
plt.plot(x_test, y_2, color="yellowgreen", label="max_depth=5", linewidth=2)
plt.xlabel("data")
plt.ylabel("target")
plt.title("Decision Tree Regression")
plt.legend()
plt.show()

 实例:泰坦尼克幸存者预测

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/1038026.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号