栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

统计学习导论 - 基于R的应用 学习笔记1

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

统计学习导论 - 基于R的应用 学习笔记1

统计学习导论 - 基于R的应用 学习笔记 Chapter 1 导论 统计学习是什么:

关于估计ƒ的一系列方法
Y=f(x)+ξ
f:X 提供给 Y 的系统信息,是 x 的函数
ξ:随机误差项;均值为0,且与 X 独立

统计学习的目的:
  • prediction 预测:预测ƒ

通过现有的输入集 X ,获取输出 Y

Ŷ =f̂ (X)
f̂ 表示f 的预测, Ŷ 表示 Y 的预测值。

在这个式子中,f̂ 是黑箱。表示一般意义下,如果该黑箱能够提供准确的预测 Y, 则并不十分追求 f 的准确形式。

Ŷ 作为 Y 的预测,精确度取决于两个量:可约误差、不可约误差ξ

ξ 包含了对预测 Y 有用但却不可直接观测的变量信息:由于没有测量它们,所以 f 不能使用这些变量去预测。

例如:某个病人不良反应的风险也许会在一天内很不一样,比如药物的药效本身在设计上随着一天内服药环境的温度和湿度的不同而不同,或者风险与病人当天服药的情绪状态有关。

  • inference 推断:Y和X的关系

哪些预测变量与响应变量有关? 通常情况下用于预测的变量中只有一小部分与 Y 充分有关,从一大组可能的变量中根据应用的需要识别一些重要的预测因子是很有必要的。
响应变量与每个预测变量之间的关系是什么?
Y 与每个预测变量的关系能否用一个线性方程概括,还是它们的关系需要更复杂的形式?

统计学习的方法 学习方法 learning method
  • 参数法 parametric methods (pre-determined structure)
    Step 1:
    假设模型形式,如:线形回归模型。估计模型被简化为估计一组参数ß
    Step 2:
    用训练数据拟合模型
    缺点:选定模型与真实ƒ不一致
    改进:选择光滑(flexible)模型拟合不同形式的函数ƒ;但拟合光滑度更强的模型需要更多的参数估计。并可能出现过拟合现象。
  • 非参数法 non-parametric methods (flexible)
    优点:精确拟合
    缺点:需要样本量大

监督学习 supervised learning:
对每一个预测变量 predictor 观测值 xi 都有对应的相应变量 response 的观测 yi,如:线形回归

  • 回归 regression & 分类 classification (Y的类型不同)
    回归:Y is continuous/numerical, X is continuous/categorical
    分类:Y is categorical, X is continuous/categorical

无监督学习 unsupervised learning:
只有预测变量的观测向量 xi ,这些变量没有对应的响应变量 yi 与之对应,如:clustering

数据分类

classical approach : training data
modern approach: training data to build model + test/validation data to access the model performance

Chapter 2 统计学习 模型评价 Quality of Fit 回归模型的评价,均方误差 MSE (mean squared error)

yi - 真实值 ,ƒ^(xi) - 预测值,(真实值-预测值)平方的均值

在应用中不在意是否 f̂ (xi)≈yi ,而是关心一个新的观测点 (x0,y0) ,是否有 f̂ (x0)≈y0 ;所以,选择的标准的是使得 测试均方误差 Test MSE 最小,而不一定是训练均方误差最小。一般情况下,一个模型的训练均方误差最小时,并不能保证模型的测试均方误差同时会很小。两者之间更像是 U 型的关系。模型光滑度高,测试均方误差高

  • 自由度:描述曲线光滑度的量。
    当拟合函数的光滑度增加时,训练均方误差单调递减,但测试均方误差成 U 型分布
  • 过拟合
    当所建的模型产生一个较小的训练均方误差Training MSE,但却得到一个较大的测试均方误差 Test MST,该模型就是过拟合了。
  • 偏差 Bias 和方差 Variance
    偏差:The error that is introduced by modeling a real life problem by a much simpler model
    预测值和真实值的差值
    模型光滑度高,偏差小
    方差:how much your estimate for ƒ would change by if you had a different training data set
    用不同的训练集估计ƒ,估计函数的改变量
    模型光滑度高,方差大
    偏差-方差权衡 trade-off:模型选择的两个指标负相关。模型复杂(光滑度高),偏差小,方差大,expected test MSE增减不一定

    要使test mse最小,就要使得bias^2 + var 最小
分类模型的评价,错误率 Error Rate


I(yi≠yi^) 表示一个示性变量indicator function
当 yi≠yi^ 时,值等于1;否则等于0

  • 贝叶斯错误率
    如果我们知道真实数据的概率分布,那么就可以实现最低的可能错误率
    但是在现实问题中,贝叶斯错误率无法精确计算
  • KNN分类器
    Step 1: 给一个正整数 K 和一个观测值x0
    Step 2: 从训练集中找出 K 个最靠近x0 的点集开始,用N0表示这个K个点的集合
    Step 3: 对集合中每个类别j 分别估计它的条件概率
    Step 4: 最后运用贝叶斯方法将测试的观测值x0分到概率最大的类中
    ** k小,模型光滑度高**

K的选择对获得KNN分类器有根本性的影响。
K = 1 时,决策边界很不规则;此时bias最低,但var往往很大;
K = 100 时,模型的光滑性减弱, 得到一个接近线性的决策边界;

关系图

  • training error is always declins
  • test error will decline as reductions in bias dominate, while starting to increase as increase in variance dominate
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/275992.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号