机器学习之路2

sklearn数据集

首先安装sklearn：

pip install Scikit-learn

在pycharm中导入sklearn：

import sklearn

可以使用sklearn.datasets.load_来导入规模较小的数据集，并且其返回值的类型是datasets.base.Bunch(字典格式)

使用sklearn来加载鸢尾花的数据集

#导入鸢尾花的数据集
from sklearn.datasets import load_iris
def datasets_demo():
    #获取数据集
    iris = load_iris()
    #查看鸢尾花数据集
    print("鸢尾花数据集:n",iris)
    print("鸢尾花数据集描述:n", iris['DESCR'])
    print("查看数据集特征值的名字:n", iris.feature_names)
    print('查看特征值：n',iris.data,iris.data.shape)

数据集的划分

机器学习一般的数据集会划分为两个部分：

训练数据：用于训练，构建模型。

测试数据：在模型检验时使用，用于评估模型是否有效。

划分比例：（一般情况下）

训练集：70%---80%

测试集：30%---20%

划分API:

sklearn.model_selection.train_test_split

划分鸢尾花数据集

def datasets_demo():
    #获取数据集
    iris = load_iris()
    #数据集的划分（训练集和测试集的划分）
    #参数依次是：特征值，目标值，测试集的范围(测试集占数据集的多少),随机数种子
    #返回值的顺序:训练集的特征值，测试集的特征值，训练集的目标值，测试集的目标值
    x_train,x_test,y_train,y_test = train_test_split(iris.data,iris.target,test_size=0.2,random_state=22)
    print('训练集的特征值:n',x_train,x_train.shape)
    return None

可以看到原数据集的大小事150*4

经过划分之后训练集的大小是

训练集的大小是120*4

即150*0.2=30

30*4大小的数据集被划分成了测试集

机器学习之路2

Python相关栏目本月热门文章