栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

03年属啥_03式自动步枪?

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

03年属啥_03式自动步枪?

使用决策树预测隐形眼镜类型 1、实验描述

使用Python编程,输入为隐形眼镜数据集,计算所有可能的特征的信息增益,选择最优的特征值划分数据集,进而递归地构建决策树。其中为了更加直观地呈现决策树,使用Matplotlib编程将决策树可视化。最后,根据训练好的决策树执行分类,预测患者需要佩戴的隐性眼镜类型。

实验时长: 60分钟

主要步骤:

使用Python选择最优特征递归构建决策树

决策树的可视化

使用决策树执行分类预测

2、实验环境

Anaconda 4.3.30

Python 3.6.6

Numpy 1.13.1

Matplotlib 2.2.2

scikit-learn 0.18.2

graphviz 2.30.1

3、相关技能

Python编程

Matplotlib编程

决策树构建

决策树可视化

4、相关知识点

决策树的原理

决策树(decision
tree)是一种基本的分类与回归方法,是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。决策树可以看作一个if-then规则的集合:由决策树的根结点到叶结点的每一条路径构建一条规则;路径上内部结点的特征对应着规则的条件,而叶结点的类对应着规则的结论。

使用决策树预测需要以下过程:收集数据、准备整理数据、分析数据、训练算法构造决策树、测试算法、使用算法。

决策树的构建

特征选择:特征选择在于选取对训练数据具有分类能力的特征,决定用哪个特征来划分特征空间,可以提高决策树学习的效率。通常特征选择的标准是信息增益或信息增益比。信息增益指的是划分数据集之后信息发生的变化,通过经验熵和条件熵,计算每个特征值划分数据集获得的信息增益,获得信息增益最高的特征就是最好的选择。特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差,即:g(D,A)=H(D)-
H(D|A)。

决策树的生成和修剪:使用C4.5、ID3、CART等算法,基于最好的属性值划分数据集,递归地构建决策树,直到不能继续下去为止。但这样产生的树往往对训练数据的分类很准确,但对未知的测试数据的分类却没有那么准确,即出现过拟合现象。针对这一问题,考虑决策树的复杂度,对已生成的决策树进行修剪简化。

决策树可视化

通过Python编程构建的决策树不够清晰直观,可以使用强大的Matplotlib绘制决策树。可视化需要用到的函数:

getNumLeafs——获取决策树叶子结点的数目

getTreeDepth——获取决策树的层数

plotNode——绘制结点

plotMidText——标注有向边属性值

plotTree——绘制决策树

createPlot——创建绘制面板

使用决策树分类预测

依靠原始数据集构造好的决策树,可以对实际数据进行分类预测。执行数据分类时,需要决策树以及用于构造树的标签向量。然后,程序比较测试数据与决策树上的数值,递归执行该过程直到进入叶子结点,最后将测试数据定义为叶子结点所属的类型,完成对数据的预测。

5、实现效果

隐性眼镜分类问题决策树可视化结果如下图:

图 1
6、实验步骤

6.1进入/home/zkpk/pycharm-2017.3.5/bin目录,切换到root用户,输入密码(zkpk)

[zkpk@localhost tgz]$ cd ~/pycharm-2017.3.5/bin
[zkpk@localhost bin]$ su root

图2

修改hosts文件,在/etc/hosts文件末添加一行0.0.0.0
account.jetbrains.com,注意account前面有一个空格(按I键,添加以下内容后按Esc键,输入:wq,再按Enter键即可保存退出)。修改完成后使用exit命令退出root权限。

[root@localhost bin]# vi /etc/hosts
0.0.0.0 account.jetbrains.com

在/home/zkpk/pycharm-2017.3.5/bin目录下,使用./pycharm.sh命令打开Pycharm,点击create
new project创建工程DecisionTree,在工程下创建sklearn_dctree.py并设置Python
Interpreter。

图 3

图 4

6.2复制home/zkpk/experiment/experiment3文件下的隐性眼镜数据lenses.txt到工程目录下。隐形眼镜数据的四个特征分别为:
age(年龄)、prescript(症状)、astigmatic(是否散光)、tearRate(眼泪数量) 。隐形眼镜类别有三类(最后一列):硬材质(hard)、软材质(soft)、不适合佩戴隐形眼镜(no
lenses) 。

图 5

图 6

6.3本实验需用到绘图工具Graphviz。已预先安装在实验环境上,检查安装配置是否成功,打开terminal,输入
dot –version,显示如下配置成功:

1

图 7

6.4重启Pycharm编辑器,打开sklearn_dctree.py文件,import相关model

from sklearn.preprocessing import LabelEncoder, oneHotEncoder
from sklearn.externals.six import StringIO
from sklearn import tree
import pandas as pd
import numpy as np
import pydotplus

图 8

6.5读入隐性眼镜数据。得到lenses 和lenses_target列表:

with open('lenses.txt', 'r') as fr:                            #加载文件
   lenses = [inst.strip().split('t') for inst in fr.readlines()]    #处理文件
   lenses_target = []                                        #提取每组数据的类别,保存在列表里
   for each in lenses:
       lenses_target.append(each[-1])

图 9

6.6处理数据,读特征标签,建立lenses_dict字典,key为每个标签名,值为lenses数据在该标签上的取值。再将字典转为pandas
Dataframe格式,方便后续处理。

lensesLabels = ['age', 'prescript', 'astigmatic', 'tearRate']         #特征标签
lenses_list = []                                          #保存lenses数据的临时列表
lenses_dict = {}                                          #保存lenses数据的字典,用于生成pandas
for each_label in lensesLabels:                                  #提取信息,生成字典
   for each in lenses:
       lenses_list.append(each[lensesLabels.index(each_label)])
   lenses_dict[each_label] = lenses_list
   lenses_list = []
# print(lenses_dict)                                          #打印字典信息
lenses_pd = pd.Dataframe(lenses_dict)              
le = LabelEncoder()                                        #创建LabelEncoder()对象,用于序列化
for col in lenses_pd.columns:                                #序列化
   lenses_pd[col] = le.fit_transform(lenses_pd[col])

图 10

6.7创建决策树,将处理好的数据训练决策树。

clf = tree.DecisionTreeClassifier(max_depth = 4)                   #创建DecisionTreeClassifier()类
clf = clf.fit(lenses_pd.values.tolist(), lenses_target)       

图 11

6.8用graphviz绘制决策树,并保存决策树为pdf格式。

dot_data = StringIO()
tree.export_graphviz(clf, out_file = dot_data,                   #绘制决策树
               feature_names = lenses_pd.keys(),
               class_names = clf.classes_,
               filled=True, rounded=True,
               special_characters=True)
graph = pydotplus.graph_from_dot_data(dot_data.getvalue())
graph.write_pdf("tree.pdf")      

图 12

6.9运行程序。点击右键,选择‘run sklearn_dctree’。

图 13

6.10结果隐性眼镜分类问题决策树可视化结果如下图:

图 14
7、参考答案

代码清单DecisionTree.sklearn_dctree.py:

图 15

代码清单DecisionTree.sklearn_dctree.py:

图 16
8、总结

完成本实验可掌握决策树的构造,如何计算信息熵,选择最优数据集特征,并使用sklearn创造决策树并绘制保存决策树。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/786739.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号