NLP入门｜《统计学习方法》学习（一）

导读

近期学习了《统计学习方法》一书的第一章，有几个值得关注的知识点在此mark一下。
声明：以下截图来自书本以及b站课程（up主：简博士）。

一、统计学习的分类 1. 监督学习

监督学习的应用：

分类问题、标注问题和回归问题。

2. 无监督学习

3. 强化学习

二、监督学习的三要素——模型、策略、算法 1. 策略

1）损失函数：度量模型一次预测的好坏，记作L(Y,f(X))；
2）风险函数：度量平均意义下模型预测的好坏，即对损失函数求期望；
3）经验函数：模型f(X)关于训练集的平均损失。

2. 损失函数

1）0-1损失函数：针对分类问题【输出非连续变量】
2）平方损失函数/绝对损失函数：针对回归问题【输入输出为连续变量】
3）对数损失函数：针对概率模型

3. 监督学习的两个基本策略

1）经验风险最小化：是在样本容量N足够大的条件下，若N不够大则可能过拟合。

2）结构风险最小化：平衡了经验风险和模型复杂度。

三、生成模型和判别模型 1. 生成模型定义：

由数据学习联合分布概率P(X,Y)，然后求出P(Y|X)作为预测模型，即生成模型。

注意：

输入和输出变量均为随机变量

典型的生成模型：

朴素贝叶斯法、隐马尔可夫模型。

2. 判别模型定义：

由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测模型，即判别模型。

注意：

输入和输出变量不需要为随机变量

典型的生成模型：

k近邻法、感知机、决策树等。

四、总结

《统计学习方法》第二版这本书的第一章相是提纲挈领的一章，主要是搭建起了监督学习和无监督学习的框架，并介绍了其中可能用到的一些方法和工具。
第一章学习完结撒花，但是总的来说学习速度较慢，效率较低，所以希望可以再接再厉，加快一些速率！