栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

NLP入门|《统计学习方法》学习(一)

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

NLP入门|《统计学习方法》学习(一)

导读

近期学习了《统计学习方法》一书的第一章,有几个值得关注的知识点在此mark一下。
声明:以下截图来自书本以及b站课程(up主:简博士)。

一、统计学习的分类 1. 监督学习

监督学习的应用:

分类问题、标注问题和回归问题。

2. 无监督学习

3. 强化学习

二、监督学习的三要素——模型、策略、算法 1. 策略

1)损失函数:度量模型一次预测的好坏,记作L(Y,f(X));
2)风险函数:度量平均意义下模型预测的好坏,即对损失函数求期望;
3)经验函数:模型f(X)关于训练集的平均损失。

2. 损失函数

1)0-1损失函数:针对分类问题【输出非连续变量】
2)平方损失函数/绝对损失函数:针对回归问题【输入输出为连续变量】
3)对数损失函数:针对概率模型

3. 监督学习的两个基本策略

1)经验风险最小化: 是在样本容量N足够大的条件下,若N不够大则可能过拟合。

2)结构风险最小化: 平衡了经验风险和模型复杂度。

三、生成模型和判别模型 1. 生成模型 定义:

由数据学习联合分布概率P(X,Y),然后求出P(Y|X)作为预测模型,即生成模型。

注意:

输入和输出变量均为随机变量

典型的生成模型:

朴素贝叶斯法、隐马尔可夫模型。

2. 判别模型 定义:

由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测模型,即判别模型。

注意:

输入和输出变量不需要为随机变量

典型的生成模型:

k近邻法、感知机、决策树等。

四、总结

《统计学习方法》第二版这本书的第一章相是提纲挈领的一章,主要是搭建起了监督学习和无监督学习的框架,并介绍了其中可能用到的一些方法和工具。
第一章学习完结撒花,但是总的来说学习速度较慢,效率较低,所以希望可以再接再厉,加快一些速率!

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/725128.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号