栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

频率派和贝叶斯派

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

频率派和贝叶斯派

摘要: 频率派和贝叶斯派的区别和联系。

【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】
我的网站:潮汐朝夕的生活实验室
我的公众号:潮汐朝夕
我的知乎:潮汐朝夕
我的github:FennelDumplings
我的leetcode:FennelDumplings


在机器学习中,我们把概率引入进来是比较自然的事情,本文我们探讨一下频率派和贝叶斯派的区别和联系。

问题抽象

X = ( x 1 , x 2 , . . . , x N ) N × p T X = (x_{1}, x_{2}, ..., x_{N})^{T}_{N times p} X=(x1​,x2​,...,xN​)N×pT​ 为数据,N 个样本,每个样本有 p 个特征。展开如下

[ x 11 x 12 . . . x 1 p x 21 x 22 . . . x 2 p . . . x N 1 x N 2 . . . x N p ] N × p begin{bmatrix} x_{11} & x_{12} & ... & x_{1p} \ x_{21} & x_{22} & ... & x_{2p} \ ... \ x_{N1} & x_{N2} & ... & x_{Np} \ end{bmatrix}_{N times p} ⎣⎢⎢⎡​x11​x21​...xN1​​x12​x22​xN2​​.........​x1p​x2p​xNp​​⎦⎥⎥⎤​N×p​

假设数据服从概率模型 p ( x ∣ θ ) p(x|theta) p(x∣θ), θ theta θ 为参数,如下

x ∼ p ( x ∣ θ ) x sim p(x|theta) x∼p(x∣θ)

假设每个样本 x i x_{i} xi​ 都是 i.i.d. 且服从 p ( x i ∣ θ ) p(x_{i}|theta) p(xi​∣θ),于是

P ( X ∣ θ ) = ∏ i = 1 N p ( x i ∣ θ ) P(X|theta) = prodlimits_{i=1}limits^{N}p(x_{i}|theta) P(X∣θ)=i=1∏N​p(xi​∣θ)

频率派

频率派认为参数 θ theta θ 是未知的常量,数据是随机变量,通过数据对参数进行估计,最常用的是最大似然估计

θ M L E = a r g max ⁡ θ log ⁡ P ( X ∣ θ ) theta_{MLE} = argmaxlimits_{theta}log P(X|theta) θMLE​=argθmax​logP(X∣θ)

其中

L ( θ ) = log ⁡ P ( X ∣ θ ) = ∑ i = 1 N log ⁡ p ( x i ∣ θ ) mathscr{L}(theta) = log P(X|theta) = sumlimits_{i=1}limits^{N}log p(x_{i}|theta) L(θ)=logP(X∣θ)=i=1∑N​logp(xi​∣θ)

贝叶斯派

贝叶斯派认为参数 θ theta θ 是随机变量,服从某个分布,称为先验分布

θ ∼ p ( θ ) theta sim p(theta) θ∼p(θ)

通过贝叶斯定理,把参数的先验和后验用似然联系起来。

p ( θ ∣ X ) = P ( X ∣ θ ) p ( θ ) P ( X ) p(theta|X) = frac{P(X|theta)p(theta)}{P(X)} p(θ∣X)=P(X)P(X∣θ)p(θ)​

其中 P ( X ∣ θ ) P(X|theta) P(X∣θ) 为似然, p ( θ ) p(theta) p(θ) 为先验, P ( X ) P(X) P(X) 为一个积分,如下

∫ θ P ( X ∣ θ ) p ( θ ) d θ int_{theta}P(X|theta)p(theta)dtheta ∫θ​P(X∣θ)p(θ)dθ

要进行参数估计的化,我们可以引入最大后验概率估计 MAP,它与最大似然概率是类似的

θ M A P = a r g max ⁡ θ P ( θ ∣ X ) = a r g max ⁡ θ P ( X ∣ θ ) p ( θ ) theta_{MAP} = argmaxlimits_{theta} P(theta|X) = argmaxlimits_{theta} P(X|theta)p(theta) θMAP​=argθmax​P(θ∣X)=argθmax​P(X∣θ)p(θ)

MAP 仅仅是进行参数估计,还不是标准的贝叶斯方法。

标准的贝叶斯方法要求贝叶斯估计,也就是要实打实的求出后验分布 p ( θ ∣ X ) p(theta|X) p(θ∣X)。

有了后验分布之后,我们就可以引入贝叶斯预测:已知 N 个数据 X,来了一个新数据 x ~ widetilde{x} x ,求 p ( x ∣ X ) p(x|X) p(x∣X)

此时 X, x ~ widetilde{x} x , θ theta θ 的关系如下

X → θ → x ~ X rightarrow theta rightarrow widetilde{x} X→θ→x

这样 X 和 x ~ widetilde{x} x 的关系就解构成了 X 与 θ theta θ 的关系和 θ theta θ 与 x ~ widetilde{x} x 的关系,于是可以通过边缘概率展开

p ( x ~ ∣ X ) = ∫ θ p ( x ~ , θ ∣ X ) d θ = ∫ θ p ( x ~ ∣ θ , X ) p ( θ ∣ X ) d θ = ∫ θ p ( x ~ ∣ θ ) p ( θ ∣ X ) d θ begin{aligned} p(widetilde{x}|X) &= int_{theta}p(widetilde{x},theta|X)dtheta \ &= int_{theta}p(widetilde{x}|theta, X)p(theta|X)dtheta \ &= int_{theta}p(widetilde{x}|theta)p(theta|X)dtheta \ end{aligned} p(x ∣X)​=∫θ​p(x ,θ∣X)dθ=∫θ​p(x ∣θ,X)p(θ∣X)dθ=∫θ​p(x ∣θ)p(θ∣X)dθ​

上面的最后一步推导用到了 x 和 X 满足 i.i.d. 的条件,具体推导如下

p ( x ~ ∣ θ , X ) = p ( x ~ , θ , X ) p ( θ , X ) = p ( x ~ , X ∣ θ ) p ( θ ) p ( θ , X ) = p ( x ~ ∣ θ ) p ( X ∣ θ ) p ( θ ) p ( θ , X ) = p ( x ~ ∣ θ ) begin{aligned} p(widetilde{x}|theta, X) &= frac{p(widetilde{x}, theta, X)}{p(theta, X)} \ &= frac{p(widetilde{x}, X|theta)p(theta)}{p(theta, X)} \ &= frac{p(widetilde{x}|theta)p(X|theta)p(theta)}{p(theta, X)} \ &= p(widetilde{x}|theta) \ end{aligned} p(x ∣θ,X)​=p(θ,X)p(x ,θ,X)​=p(θ,X)p(x ,X∣θ)p(θ)​=p(θ,X)p(x ∣θ)p(X∣θ)p(θ)​=p(x ∣θ)​

我们可以看到贝叶斯预测要求的积分中是需要后验分布 p ( θ ∣ X ) p(theta|X) p(θ∣X) 的。

这个积分是要在整个参数空间中积分的,计算非常复杂,因此又引申出很多新的计算方法。

总结

从贝叶斯角度发展出的模型是概率图模型,本质上是求积分,解析解求不出来可以用数值解,例如 MCMC。

从频率派的角度发展出的模型是统计机器学习,本质上是优化问题,要先设计模型(概率/非概率,生成/判别),然后设计 loss 函数,最后设计优化算法。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/879611.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号