2021-10-03_Python

2021-10-03

机器学习3

scikit-learn数据集API介绍
数据集
- sklearn.datasets
- 获取数据集返回的类型
- sklearn分类数据集
- 数据集进行分割
转换器与预估器
分类算法
- K-近邻算法
- - 数据的处理
  - 实例流程
  - 优缺点

scikit-learn数据集API介绍数据集 sklearn.datasets

获取数据集返回的类型

sklearn分类数据集

import sklearn.datasets
ll=sklearn.datasets.load_iris()
print("特征值",ll.data)
print("目标值",ll.target)
print("描述",ll.DESCR)

import sklearn.datasets
ll=sklearn.datasets.load_digits()
print("特征值",ll.data)
print("目标值",ll.target)
print("描述",ll.DESCR)

数据集进行分割

import sklearn.datasets
ll=sklearn.datasets.load_boston()
print("特征值",ll.data)
print("目标值",ll.target)
print("描述",ll.DESCR)

import sklearn.datasets
ll=sklearn.datasets.load_diabetes()
print("特征值",ll.data)
print("目标值",ll.target)
print("描述",ll.DESCR)

转换器与预估器

在sklearn中，估计器包括分类器和回归器，是一类实现了算法的API
1、用于分类的估计器
·sklearn.neighbors k-近邻算法
·sklearn.naive_bayes 贝叶斯
·sklearn.linear_model.LogisticRegression 逻辑回归
2、用于回归的估计器
·sklearn.linear_model.LinearRegression 线性回归
·sklearn.linear_model.Ridge 岭回归

估计器的工作流程

分类算法 K-近邻算法

定义：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。
两个样本的距离可以通过向量法（又称欧式距离）算出

数据的处理

1、缩小数据集范围
Dataframe.query()
2、处理日期数据
pd.to_datetime
pd.DatetimeIndex
3、增加分割的日期数据
4、删除没用的日期数据
pd.drop
5、将签到位置少于n个的用户删除
place_count=data.groupby(‘place_id’).aggregate(np.count_nonzero)
tf=place_count[place_count.row_id>3].reset_index()
data=data[data[‘place_id’].isin(tf.place_id)]

实例流程

1、数据集的处理
2、分割数据集
3、对数据集进行标准化
4、估计器流程进行分类预测

优缺点

2021-10-03

Python相关栏目本月热门文章