摘要: 频率派和贝叶斯派的区别和联系。【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】
我的网站:潮汐朝夕的生活实验室
我的公众号:潮汐朝夕
我的知乎:潮汐朝夕
我的github:FennelDumplings
我的leetcode:FennelDumplings
在机器学习中,我们把概率引入进来是比较自然的事情,本文我们探讨一下频率派和贝叶斯派的区别和联系。
问题抽象X = ( x 1 , x 2 , . . . , x N ) N × p T X = (x_{1}, x_{2}, ..., x_{N})^{T}_{N times p} X=(x1,x2,...,xN)N×pT 为数据,N 个样本,每个样本有 p 个特征。展开如下
[ x 11 x 12 . . . x 1 p x 21 x 22 . . . x 2 p . . . x N 1 x N 2 . . . x N p ] N × p begin{bmatrix} x_{11} & x_{12} & ... & x_{1p} \ x_{21} & x_{22} & ... & x_{2p} \ ... \ x_{N1} & x_{N2} & ... & x_{Np} \ end{bmatrix}_{N times p} ⎣⎢⎢⎡x11x21...xN1x12x22xN2.........x1px2pxNp⎦⎥⎥⎤N×p
假设数据服从概率模型 p ( x ∣ θ ) p(x|theta) p(x∣θ), θ theta θ 为参数,如下
x ∼ p ( x ∣ θ ) x sim p(x|theta) x∼p(x∣θ)
假设每个样本 x i x_{i} xi 都是 i.i.d. 且服从 p ( x i ∣ θ ) p(x_{i}|theta) p(xi∣θ),于是
P ( X ∣ θ ) = ∏ i = 1 N p ( x i ∣ θ ) P(X|theta) = prodlimits_{i=1}limits^{N}p(x_{i}|theta) P(X∣θ)=i=1∏Np(xi∣θ)
频率派频率派认为参数 θ theta θ 是未知的常量,数据是随机变量,通过数据对参数进行估计,最常用的是最大似然估计
θ M L E = a r g max θ log P ( X ∣ θ ) theta_{MLE} = argmaxlimits_{theta}log P(X|theta) θMLE=argθmaxlogP(X∣θ)
其中
L ( θ ) = log P ( X ∣ θ ) = ∑ i = 1 N log p ( x i ∣ θ ) mathscr{L}(theta) = log P(X|theta) = sumlimits_{i=1}limits^{N}log p(x_{i}|theta) L(θ)=logP(X∣θ)=i=1∑Nlogp(xi∣θ)
贝叶斯派贝叶斯派认为参数 θ theta θ 是随机变量,服从某个分布,称为先验分布
θ ∼ p ( θ ) theta sim p(theta) θ∼p(θ)
通过贝叶斯定理,把参数的先验和后验用似然联系起来。
p ( θ ∣ X ) = P ( X ∣ θ ) p ( θ ) P ( X ) p(theta|X) = frac{P(X|theta)p(theta)}{P(X)} p(θ∣X)=P(X)P(X∣θ)p(θ)
其中 P ( X ∣ θ ) P(X|theta) P(X∣θ) 为似然, p ( θ ) p(theta) p(θ) 为先验, P ( X ) P(X) P(X) 为一个积分,如下
∫ θ P ( X ∣ θ ) p ( θ ) d θ int_{theta}P(X|theta)p(theta)dtheta ∫θP(X∣θ)p(θ)dθ
要进行参数估计的化,我们可以引入最大后验概率估计 MAP,它与最大似然概率是类似的
θ M A P = a r g max θ P ( θ ∣ X ) = a r g max θ P ( X ∣ θ ) p ( θ ) theta_{MAP} = argmaxlimits_{theta} P(theta|X) = argmaxlimits_{theta} P(X|theta)p(theta) θMAP=argθmaxP(θ∣X)=argθmaxP(X∣θ)p(θ)
MAP 仅仅是进行参数估计,还不是标准的贝叶斯方法。
标准的贝叶斯方法要求贝叶斯估计,也就是要实打实的求出后验分布 p ( θ ∣ X ) p(theta|X) p(θ∣X)。
有了后验分布之后,我们就可以引入贝叶斯预测:已知 N 个数据 X,来了一个新数据 x ~ widetilde{x} x ,求 p ( x ∣ X ) p(x|X) p(x∣X)
此时 X, x ~ widetilde{x} x , θ theta θ 的关系如下
X → θ → x ~ X rightarrow theta rightarrow widetilde{x} X→θ→x
这样 X 和 x ~ widetilde{x} x 的关系就解构成了 X 与 θ theta θ 的关系和 θ theta θ 与 x ~ widetilde{x} x 的关系,于是可以通过边缘概率展开
p ( x ~ ∣ X ) = ∫ θ p ( x ~ , θ ∣ X ) d θ = ∫ θ p ( x ~ ∣ θ , X ) p ( θ ∣ X ) d θ = ∫ θ p ( x ~ ∣ θ ) p ( θ ∣ X ) d θ begin{aligned} p(widetilde{x}|X) &= int_{theta}p(widetilde{x},theta|X)dtheta \ &= int_{theta}p(widetilde{x}|theta, X)p(theta|X)dtheta \ &= int_{theta}p(widetilde{x}|theta)p(theta|X)dtheta \ end{aligned} p(x ∣X)=∫θp(x ,θ∣X)dθ=∫θp(x ∣θ,X)p(θ∣X)dθ=∫θp(x ∣θ)p(θ∣X)dθ
上面的最后一步推导用到了 x 和 X 满足 i.i.d. 的条件,具体推导如下
p ( x ~ ∣ θ , X ) = p ( x ~ , θ , X ) p ( θ , X ) = p ( x ~ , X ∣ θ ) p ( θ ) p ( θ , X ) = p ( x ~ ∣ θ ) p ( X ∣ θ ) p ( θ ) p ( θ , X ) = p ( x ~ ∣ θ ) begin{aligned} p(widetilde{x}|theta, X) &= frac{p(widetilde{x}, theta, X)}{p(theta, X)} \ &= frac{p(widetilde{x}, X|theta)p(theta)}{p(theta, X)} \ &= frac{p(widetilde{x}|theta)p(X|theta)p(theta)}{p(theta, X)} \ &= p(widetilde{x}|theta) \ end{aligned} p(x ∣θ,X)=p(θ,X)p(x ,θ,X)=p(θ,X)p(x ,X∣θ)p(θ)=p(θ,X)p(x ∣θ)p(X∣θ)p(θ)=p(x ∣θ)
我们可以看到贝叶斯预测要求的积分中是需要后验分布 p ( θ ∣ X ) p(theta|X) p(θ∣X) 的。
这个积分是要在整个参数空间中积分的,计算非常复杂,因此又引申出很多新的计算方法。
总结从贝叶斯角度发展出的模型是概率图模型,本质上是求积分,解析解求不出来可以用数值解,例如 MCMC。
从频率派的角度发展出的模型是统计机器学习,本质上是优化问题,要先设计模型(概率/非概率,生成/判别),然后设计 loss 函数,最后设计优化算法。



