栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

机器学习之路2

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

机器学习之路2

sklearn数据集

首先安装sklearn:

pip install Scikit-learn

在pycharm中导入sklearn:

import sklearn

可以使用sklearn.datasets.load_来导入规模较小的数据集,并且其返回值的类型是datasets.base.Bunch(字典格式)

使用sklearn来加载鸢尾花的数据集

#导入鸢尾花的数据集
from sklearn.datasets import load_iris
def datasets_demo():
    #获取数据集
    iris = load_iris()
    #查看鸢尾花数据集
    print("鸢尾花数据集:n",iris)
    print("鸢尾花数据集描述:n", iris['DESCR'])
    print("查看数据集特征值的名字:n", iris.feature_names)
    print('查看特征值:n',iris.data,iris.data.shape)
数据集的划分

机器学习一般的数据集会划分为两个部分:

训练数据:用于训练,构建模型。

测试数据:在模型检验时使用,用于评估模型是否有效。

划分比例:(一般情况下)

训练集:70%---80%

测试集:30%---20%

划分API:

sklearn.model_selection.train_test_split

划分鸢尾花数据集

def datasets_demo():
    #获取数据集
    iris = load_iris()
    #数据集的划分(训练集和测试集的划分)
    #参数依次是:特征值,目标值,测试集的范围(测试集占数据集的多少),随机数种子
    #返回值的顺序:训练集的特征值,测试集的特征值,训练集的目标值,测试集的目标值
    x_train,x_test,y_train,y_test = train_test_split(iris.data,iris.target,test_size=0.2,random_state=22)
    print('训练集的特征值:n',x_train,x_train.shape)
    return None

 可以看到原数据集的大小事150*4

经过划分之后训练集的大小是

 训练集的大小是120*4

即150*0.2=30

30*4大小的数据集被划分成了测试集

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/344411.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号