推荐系统算法

一丶监督学习

概述:
通过已有的数据结果,分析训练出一个预测模型,使模型能够对任意给定的输入，对其相应的输出做出一个好的预测。即: 根据训练集训练出模型, 再根据测试集对结果预测.

1.回归模型 1.1线性回归

概念: 一般用于求一个变量随着另一个变量的变化而变化的情况

多元线性回归:
现实生活中, 一个变量所受的影响往往不只是会受另一种的变化,而是会受到多种情况的影响,这就需要使用多元线性回归

求解的两种方式: 最小二乘法和梯度下降法

2.分类模型 2.1 k近邻

核心思路:
在训练集中数据和标签已知的情况下，输入测试数据，将测试数据的特征与训练集中对应的特征进行相互比较，找到训练集中与之最为相似的前K个数据, 则该测试数据对应的类别就是K个数据中出现次数最多的那个分类

a）计算测试数据与各个训练数据之间的距离；
b）按照距离的递增关系进行排序；
c）选取距离最小的K个点；
d）确定前K个点所在类别的出现频率；
e）返回前K个点中出现频率最高的类别作为测试数据的预测分类。

2.2 逻辑斯蒂回归

为什么使用逻辑斯蒂回归?
答: 线性回归健壮性不够, 一旦出现"噪声"数据,就会出现错误;还有一些比较严谨的数据判断:是否为恶性肿瘤问题等

逻辑斯蒂回归图解示例:

二丶非监督学习

概述:
直接对数据进行建造模型。没有给定事先标记过的训练范例，所用的数据没有属性或标签这一概念。事先不知道输入数据对应的输出结果是什么。

1.聚类 1.1 k均值

核心思路: 由用户指定k个初始质心点,来当作聚类的类别,进行重复迭代.
1.先选取k个初始质心点
2. 求得各个数据到各个质心点的距离
3. 将本条数据, 离的最近的质心点,当作类别
4. 求出这个类别的所有点的均值,然后继续进行迭代

2.降维