关于估计ƒ的一系列方法
Y=f(x)+ξ
f:X 提供给 Y 的系统信息,是 x 的函数
ξ:随机误差项;均值为0,且与 X 独立
- prediction 预测:预测ƒ
通过现有的输入集 X ,获取输出 Y
Ŷ =f̂ (X)
f̂ 表示f 的预测, Ŷ 表示 Y 的预测值。
在这个式子中,f̂ 是黑箱。表示一般意义下,如果该黑箱能够提供准确的预测 Y, 则并不十分追求 f 的准确形式。
Ŷ 作为 Y 的预测,精确度取决于两个量:可约误差、不可约误差ξ
ξ 包含了对预测 Y 有用但却不可直接观测的变量信息:由于没有测量它们,所以 f 不能使用这些变量去预测。
例如:某个病人不良反应的风险也许会在一天内很不一样,比如药物的药效本身在设计上随着一天内服药环境的温度和湿度的不同而不同,或者风险与病人当天服药的情绪状态有关。
- inference 推断:Y和X的关系
哪些预测变量与响应变量有关? 通常情况下用于预测的变量中只有一小部分与 Y 充分有关,从一大组可能的变量中根据应用的需要识别一些重要的预测因子是很有必要的。
响应变量与每个预测变量之间的关系是什么?
Y 与每个预测变量的关系能否用一个线性方程概括,还是它们的关系需要更复杂的形式?
- 参数法 parametric methods (pre-determined structure)
Step 1:
假设模型形式,如:线形回归模型。估计模型被简化为估计一组参数ß
Step 2:
用训练数据拟合模型
缺点:选定模型与真实ƒ不一致
改进:选择光滑(flexible)模型拟合不同形式的函数ƒ;但拟合光滑度更强的模型需要更多的参数估计。并可能出现过拟合现象。 - 非参数法 non-parametric methods (flexible)
优点:精确拟合
缺点:需要样本量大
监督学习 supervised learning:
对每一个预测变量 predictor 观测值 xi 都有对应的相应变量 response 的观测 yi,如:线形回归
- 回归 regression & 分类 classification (Y的类型不同)
回归:Y is continuous/numerical, X is continuous/categorical
分类:Y is categorical, X is continuous/categorical
无监督学习 unsupervised learning:
只有预测变量的观测向量 xi ,这些变量没有对应的响应变量 yi 与之对应,如:clustering
classical approach : training data
modern approach: training data to build model + test/validation data to access the model performance
yi - 真实值 ,ƒ^(xi) - 预测值,(真实值-预测值)平方的均值
在应用中不在意是否 f̂ (xi)≈yi ,而是关心一个新的观测点 (x0,y0) ,是否有 f̂ (x0)≈y0 ;所以,选择的标准的是使得 测试均方误差 Test MSE 最小,而不一定是训练均方误差最小。一般情况下,一个模型的训练均方误差最小时,并不能保证模型的测试均方误差同时会很小。两者之间更像是 U 型的关系。模型光滑度高,测试均方误差高
- 自由度:描述曲线光滑度的量。
当拟合函数的光滑度增加时,训练均方误差单调递减,但测试均方误差成 U 型分布 - 过拟合
当所建的模型产生一个较小的训练均方误差Training MSE,但却得到一个较大的测试均方误差 Test MST,该模型就是过拟合了。 - 偏差 Bias 和方差 Variance
偏差:The error that is introduced by modeling a real life problem by a much simpler model
预测值和真实值的差值
模型光滑度高,偏差小
方差:how much your estimate for ƒ would change by if you had a different training data set
用不同的训练集估计ƒ,估计函数的改变量
模型光滑度高,方差大
偏差-方差权衡 trade-off:模型选择的两个指标负相关。模型复杂(光滑度高),偏差小,方差大,expected test MSE增减不一定
要使test mse最小,就要使得bias^2 + var 最小
I(yi≠yi^) 表示一个示性变量indicator function
当 yi≠yi^ 时,值等于1;否则等于0
- 贝叶斯错误率
如果我们知道真实数据的概率分布,那么就可以实现最低的可能错误率
但是在现实问题中,贝叶斯错误率无法精确计算 - KNN分类器
Step 1: 给一个正整数 K 和一个观测值x0
Step 2: 从训练集中找出 K 个最靠近x0 的点集开始,用N0表示这个K个点的集合
Step 3: 对集合中每个类别j 分别估计它的条件概率
Step 4: 最后运用贝叶斯方法将测试的观测值x0分到概率最大的类中
** k小,模型光滑度高**
K的选择对获得KNN分类器有根本性的影响。
K = 1 时,决策边界很不规则;此时bias最低,但var往往很大;
K = 100 时,模型的光滑性减弱, 得到一个接近线性的决策边界;
- training error is always declins
- test error will decline as reductions in bias dominate, while starting to increase as increase in variance dominate



