频率派和贝叶斯派

摘要: 频率派和贝叶斯派的区别和联系。
【对数据分析、人工智能、金融科技、风控服务感兴趣的同学，欢迎关注我哈，阅读更多原创文章】
我的网站：潮汐朝夕的生活实验室
我的公众号：潮汐朝夕
我的知乎：潮汐朝夕
我的github：FennelDumplings
我的leetcode：FennelDumplings

在机器学习中，我们把概率引入进来是比较自然的事情，本文我们探讨一下频率派和贝叶斯派的区别和联系。

问题抽象

X = ( x 1 , x 2 , . . . , x N ) N × p T X = (x_{1}, x_{2}, ..., x_{N})^{T}_{N times p} X=(x1,x2,...,xN)N×pT 为数据，N 个样本，每个样本有 p 个特征。展开如下

[ x 11 x 12 . . . x 1 p x 21 x 22 . . . x 2 p . . . x N 1 x N 2 . . . x N p ] N × p begin{bmatrix} x_{11} & x_{12} & ... & x_{1p} \ x_{21} & x_{22} & ... & x_{2p} \ ... \ x_{N1} & x_{N2} & ... & x_{Np} \ end{bmatrix}_{N times p} ⎣⎢⎢⎡x11x21...xN1x12x22xN2.........x1px2pxNp⎦⎥⎥⎤N×p

假设数据服从概率模型 p ( x ∣ θ ) p(x|theta) p(x∣θ)， θ theta θ 为参数，如下

x ∼ p ( x ∣ θ ) x sim p(x|theta) x∼p(x∣θ)

假设每个样本 x i x_{i} xi 都是 i.i.d. 且服从 p ( x i ∣ θ ) p(x_{i}|theta) p(xi∣θ)，于是

P ( X ∣ θ ) = ∏ i = 1 N p ( x i ∣ θ ) P(X|theta) = prodlimits_{i=1}limits^{N}p(x_{i}|theta) P(X∣θ)=i=1∏Np(xi∣θ)

频率派

频率派认为参数 θ theta θ 是未知的常量，数据是随机变量，通过数据对参数进行估计，最常用的是最大似然估计

θ M L E = a r g max ⁡ θ log ⁡ P ( X ∣ θ ) theta_{MLE} = argmaxlimits_{theta}log P(X|theta) θMLE=argθmaxlogP(X∣θ)

其中

L ( θ ) = log ⁡ P ( X ∣ θ ) = ∑ i = 1 N log ⁡ p ( x i ∣ θ ) mathscr{L}(theta) = log P(X|theta) = sumlimits_{i=1}limits^{N}log p(x_{i}|theta) L(θ)=logP(X∣θ)=i=1∑Nlogp(xi∣θ)

贝叶斯派

贝叶斯派认为参数 θ theta θ 是随机变量，服从某个分布，称为先验分布

θ ∼ p ( θ ) theta sim p(theta) θ∼p(θ)

通过贝叶斯定理，把参数的先验和后验用似然联系起来。

p ( θ ∣ X ) = P ( X ∣ θ ) p ( θ ) P ( X ) p(theta|X) = frac{P(X|theta)p(theta)}{P(X)} p(θ∣X)=P(X)P(X∣θ)p(θ)

其中 P ( X ∣ θ ) P(X|theta) P(X∣θ) 为似然， p ( θ ) p(theta) p(θ) 为先验， P ( X ) P(X) P(X) 为一个积分，如下

∫ θ P ( X ∣ θ ) p ( θ ) d θ int_{theta}P(X|theta)p(theta)dtheta ∫θP(X∣θ)p(θ)dθ

要进行参数估计的化，我们可以引入最大后验概率估计 MAP，它与最大似然概率是类似的

θ M A P = a r g max ⁡ θ P ( θ ∣ X ) = a r g max ⁡ θ P ( X ∣ θ ) p ( θ ) theta_{MAP} = argmaxlimits_{theta} P(theta|X) = argmaxlimits_{theta} P(X|theta)p(theta) θMAP=argθmaxP(θ∣X)=argθmaxP(X∣θ)p(θ)

MAP 仅仅是进行参数估计，还不是标准的贝叶斯方法。

标准的贝叶斯方法要求贝叶斯估计，也就是要实打实的求出后验分布 p ( θ ∣ X ) p(theta|X) p(θ∣X)。

有了后验分布之后，我们就可以引入贝叶斯预测：已知 N 个数据 X，来了一个新数据 x ~ widetilde{x} x ，求 p ( x ∣ X ) p(x|X) p(x∣X)

此时 X, x ~ widetilde{x} x , θ theta θ 的关系如下

X → θ → x ~ X rightarrow theta rightarrow widetilde{x} X→θ→x

这样 X 和 x ~ widetilde{x} x 的关系就解构成了 X 与 θ theta θ 的关系和 θ theta θ 与 x ~ widetilde{x} x 的关系，于是可以通过边缘概率展开

p ( x ~ ∣ X ) = ∫ θ p ( x ~ , θ ∣ X ) d θ = ∫ θ p ( x ~ ∣ θ , X ) p ( θ ∣ X ) d θ = ∫ θ p ( x ~ ∣ θ ) p ( θ ∣ X ) d θ begin{aligned} p(widetilde{x}|X) &= int_{theta}p(widetilde{x},theta|X)dtheta \ &= int_{theta}p(widetilde{x}|theta, X)p(theta|X)dtheta \ &= int_{theta}p(widetilde{x}|theta)p(theta|X)dtheta \ end{aligned} p(x ∣X)=∫θp(x ,θ∣X)dθ=∫θp(x ∣θ,X)p(θ∣X)dθ=∫θp(x ∣θ)p(θ∣X)dθ

上面的最后一步推导用到了 x 和 X 满足 i.i.d. 的条件，具体推导如下

p ( x ~ ∣ θ , X ) = p ( x ~ , θ , X ) p ( θ , X ) = p ( x ~ , X ∣ θ ) p ( θ ) p ( θ , X ) = p ( x ~ ∣ θ ) p ( X ∣ θ ) p ( θ ) p ( θ , X ) = p ( x ~ ∣ θ ) begin{aligned} p(widetilde{x}|theta, X) &= frac{p(widetilde{x}, theta, X)}{p(theta, X)} \ &= frac{p(widetilde{x}, X|theta)p(theta)}{p(theta, X)} \ &= frac{p(widetilde{x}|theta)p(X|theta)p(theta)}{p(theta, X)} \ &= p(widetilde{x}|theta) \ end{aligned} p(x ∣θ,X)=p(θ,X)p(x ,θ,X)=p(θ,X)p(x ,X∣θ)p(θ)=p(θ,X)p(x ∣θ)p(X∣θ)p(θ)=p(x ∣θ)

我们可以看到贝叶斯预测要求的积分中是需要后验分布 p ( θ ∣ X ) p(theta|X) p(θ∣X) 的。

这个积分是要在整个参数空间中积分的，计算非常复杂，因此又引申出很多新的计算方法。

总结

从贝叶斯角度发展出的模型是概率图模型，本质上是求积分，解析解求不出来可以用数值解，例如 MCMC。

从频率派的角度发展出的模型是统计机器学习，本质上是优化问题，要先设计模型(概率/非概率，生成/判别)，然后设计 loss 函数，最后设计优化算法。

频率派和贝叶斯派

Python相关栏目本月热门文章