- 主要思想:给定数据D(可能是一个映射input->output),模型中哪些参数W最有可能产生这种数据D(可能指input在W的作用下生成output的概率
P
(
o
u
t
p
u
t
∣
i
n
p
u
t
;
W
)
P(output|input;W)
P(output∣input;W)) ?->希望参数W代表最大化的
P
(
W
∣
D
)
P(W|D)
P(W∣D)->贝叶斯定理:
P ( W ∣ D ) = P ( D ∣ W ) P ( W ) P ( D ) = L i k e l i h o o d × P r i o r n o r m a l i z i n g c o n s t a n t P ( D ) 是 标 准 化 常 量 ; 我 们 认 为 所 有 W 的 概 率 都 是 相 等 的 ( 先 验 平 坦 ) , 故 将 P ( W ) 视 为 常 数 m a x P ( W ∣ D ) = m a x P ( D ∣ W ) ⟹ M a x i m u m L i k e l i h o o d ( 极 大 似 然 ) 通 俗 的 讲 , 实 际 存 在 各 种 参 数 W , 每 种 参 数 的 概 率 都 是 一 样 的 : P ( W ) 由 参 数 W 产 生 数 据 D 的 概 率 是 已 知 的 : P ( D ∣ W ) 于 是 数 据 D 的 概 率 也 是 “ 已 知 ” 的 : ∑ ( P ( D ∣ W ) P ( W ) ) 对 于 数 据 D , 可 以 由 多 个 W 生 成 , 每 个 W 各 具 产 生 数 据 D 的 “ 贡 献 度 ” : P ( W ∣ D ) 现 在 已 知 D , 要 求 具 有 能 够 产 生 数 据 D 的 最 大 可 能 性 的 参 数 W , 即 “ 最 大 贡 献 度 ” m a x P ( W ∣ D ) P(W|D)=frac{P(D|W)P(W)}{P(D)}=frac{Likelihoodtimes Prior}{normalizing constant}\ P(D)是标准化常量;我们认为所有W的概率都是相等的(先验平坦),故将P(W)视为常数\ max P(W|D)=max P(D|W) \ implies Maximum Likelihood(极大似然)\ 通俗的讲,实际存在各种参数W,每种参数的概率都是一样的:P(W)\ 由参数W产生数据D的概率是已知的:P(D|W)\ 于是数据D的概率也是“已知”的:sum_{}^{} (P(D|W)P(W))\ 对于数据D,可以由多个W生成,每个W各具产生数据D的“贡献度”:P(W|D) \ 现在已知D,要求具有能够产生数据D的最大可能性的参数W,即“最大贡献度”max P(W|D)\ P(W∣D)=P(D)P(D∣W)P(W)=normalizing constantLikelihood×PriorP(D)是标准化常量;我们认为所有W的概率都是相等的(先验平坦),故将P(W)视为常数max P(W∣D)=max P(D∣W)⟹Maximum Likelihood(极大似然)通俗的讲,实际存在各种参数W,每种参数的概率都是一样的:P(W)由参数W产生数据D的概率是已知的:P(D∣W)于是数据D的概率也是“已知”的:∑(P(D∣W)P(W))对于数据D,可以由多个W生成,每个W各具产生数据D的“贡献度”:P(W∣D)现在已知D,要求具有能够产生数据D的最大可能性的参数W,即“最大贡献度”max P(W∣D) - 举例(高斯分布)
- 高斯分布
p ( x ∣ μ , σ ) = 1 2 π σ 2 e − ( x − μ ) 2 2 σ 2 p(x|mu,sigma)=frac{1}{sqrt{2pisigma^2}}e^{-frac{(x-mu)^2}{2sigma^2}} p(x∣μ,σ)=2πσ2 1e−2σ2(x−μ)2 - 假设N个数据点独立同分布,则数据的似然函数为
L = ∏ i = 1 n p ( x ( i ) ) = 1 2 π σ 2 N ∏ i = 1 N e − ( x ( i ) − μ ) 2 2 σ 2 L=prod_{i=1}^np(x^{(i)})=frac{1}{sqrt{2pisigma^2}^N}prod_{i=1}^Ne^{-frac{(x^{(i)}-mu)^2}{2sigma^2}} L=i=1∏np(x(i))=2πσ2 N1i=1∏Ne−2σ2(x(i)−μ)2 - 选择参数,最大化似然函数,即选择最大化生成这些数据可能性的参数->最小化负对数似然
( μ , σ ) = arg max μ , σ ln ∏ i = 1 N p ( x ( i ) ) = arg min μ , σ − ln ∏ i = 1 N p ( x ( i ) ) = arg min μ , σ − ∑ i = 1 N ln p ( x ( i ) ) = arg min μ , σ − ∑ i = 1 N ( − ln 2 π σ 2 + ( − ( x ( i ) − μ ) 2 2 σ 2 ) ) = arg min μ , σ ∑ i = 1 N ( x ( i ) − μ ) 2 2 σ 2 + N ln 2 π σ 2 begin{aligned} (mu,sigma)&=argmax_{mu,sigma} lnprod_{i=1}^Np(x^{(i)})\ &=argmin_{mu,sigma}-lnprod_{i=1}^Np(x^{(i)})\ &=argmin_{mu,sigma} -sum_{i=1}^{N} ln p(x^{(i)})\ &=argmin_{mu,sigma} -sum_{i=1}^{N} (-ln sqrt{2pisigma^2}+(-frac{(x^{(i)}-mu)^2}{2sigma^2}))\ &=argmin_{mu,sigma} sum_{i=1}^{N} frac{(x^{(i)}-mu)^2}{2sigma^2}+Nlnsqrt{2pisigma^2} end{aligned} (μ,σ)=μ,σargmaxlni=1∏Np(x(i))=μ,σargmin−lni=1∏Np(x(i))=μ,σargmin−i=1∑Nlnp(x(i))=μ,σargmin−i=1∑N(−ln2πσ2 +(−2σ2(x(i)−μ)2))=μ,σargmini=1∑N2σ2(x(i)−μ)2+Nln2πσ2
- 高斯分布
- 术语
- L:似然函数
- ln L:对数似然函数
- -ln L:负对数似然函数(也称为误差)
- 似然函数
L = ∏ i = 1 N p ( x ( i ) , y ( i ) ) = ∏ i = 1 N p ( y ( i ) ∣ x ( i ) ) p ( x ( i ) ) 其 中 , y 为 输 出 , x 为 输 入 L=prod_{i=1}^{N}p(x^{(i)},y^{(i)})=prod_{i=1}^{N}p(y^{(i)}|x^{(i)})p(x^{(i)})\ 其中,y为输出,x为输入 L=i=1∏Np(x(i),y(i))=i=1∏Np(y(i)∣x(i))p(x(i))其中,y为输出,x为输入 - 负对数似然
− ln L = − ∑ i = 1 N ( ln p ( y ( i ) ∣ x ( i ) ) + ln p ( x ( i ) ) ) 由 于 是 对 从 x 到 y 的 映 射 建 模 , 所 以 第 二 项 与 参 数 无 关 , 可 以 忽 略 -ln L=-sum_{i=1}^{N}(ln p(y^{(i)}|x^{(i)})+ln p(x^{(i)}))\ 由于是对从x到y的映射建模,所以第二项与参数无关,可以忽略 −lnL=−i=1∑N(lnp(y(i)∣x(i))+lnp(x(i)))由于是对从x到y的映射建模,所以第二项与参数无关,可以忽略 - 极大似然与线性回归
- 输入输出为线性函数关系:
y
(
i
)
=
f
(
x
(
i
)
;
w
)
+
ϵ
(
i
)
y^{(i)}=f(mathbf{x}^{(i)};mathbf{w})+epsilon^{(i)}
y(i)=f(x(i);w)+ϵ(i),其中
ϵ
(
i
)
epsilon^{(i)}
ϵ(i)为误差项(未建模效应的捕获,随机噪声),服从均值为0,误差为
σ
2
sigma^2
σ2(与
w
mathbf{w}
w无关的值)的高斯分布,且独立同分布,则:
p ( ϵ ( i ) ) = 1 2 π σ 2 e − ( ϵ ( i ) ) 2 2 σ 2 p ( y ( i ) − f ( x ( i ) ; w ) ) = 1 2 π σ 2 e − ( y ( i ) − f ( x ( i ) ; w ) ) 2 2 σ 2 p ( y ( i ) ∣ x ( i ) ; w ) = 1 2 π σ 2 e − ( y ( i ) − f ( x ( i ) ; w ) ) 2 2 σ 2 p(epsilon^{(i)})=frac{1}{sqrt{2pisigma^2}}e^{-frac{(epsilon^{(i)})^2}{2sigma^2}}\ p(y^{(i)}-f(mathbf{x}^{(i)};mathbf{w}))=frac{1}{sqrt{2pisigma^2}}e^{-frac{(y^{(i)}-f(mathbf{x}^{(i)};mathbf{w}))^2}{2sigma^2}}\ p(y^{(i)}|mathbf{x}^{(i)};mathbf{w})=frac{1}{sqrt{2pisigma^2}}e^{-frac{(y^{(i)}-f(mathbf{x}^{(i)};mathbf{w}))^2}{2sigma^2}} p(ϵ(i))=2πσ2 1e−2σ2(ϵ(i))2p(y(i)−f(x(i);w))=2πσ2 1e−2σ2(y(i)−f(x(i);w))2p(y(i)∣x(i);w)=2πσ2 1e−2σ2(y(i)−f(x(i);w))2 - 由上式可得给定 x ( i ) mathbf{x}^{(i)} x(i)以 w mathbf{w} w为参数结果为 y ( i ) y^{(i)} y(i)的概率服从高斯分布-> y ( i ) ∣ x ( i ) ; w ∼ N ( f ( x ( i ) ; w ) , σ 2 ) y^{(i)}|mathbf{x}^{(i)};mathbf{w}sim N(f(mathbf{x}^{(i)};mathbf{w}),sigma^2) y(i)∣x(i);w∼N(f(x(i);w),σ2)
- 所有数据上的似然函数为:
L = ∏ i = 1 N p ( y ( i ) ∣ x ( i ) ; w ) = 1 2 π σ 2 N ∏ i = 1 N e − ( y ( i ) − f ( x ( i ) ; w ) ) 2 2 σ 2 L=prod_{i=1}^Np(y^{(i)}|mathbf{x}^{(i)};mathbf{w})=frac{1}{sqrt{2pisigma^2}^N}prod_{i=1}^Ne^{-frac{(y^{(i)}-f(mathbf{x}^{(i)};mathbf{w}))^2}{2sigma^2}}\ L=i=1∏Np(y(i)∣x(i);w)=2πσ2 N1i=1∏Ne−2σ2(y(i)−f(x(i);w))2 - 负对数似然函数或误差为:
E = − ln 1 2 π σ 2 N ∏ i = 1 N e − ( y ( i ) − f ( x ( i ) ; w ) ) 2 2 σ 2 = 1 2 σ 2 ∑ i = 1 N ( y ( i ) − f ( x ( i ) ; w ) ) 2 + ln ( 2 π σ 2 N ) 第 二 项 和 1 2 σ 2 可 以 去 掉 ⟹ ∑ i = 1 N ( y ( i ) − f ( x ( i ) ; w ) ) 2 begin{aligned} E&=-ln frac{1}{sqrt{2pisigma^2}^N}prod_{i=1}^{N}e^{-frac{(y^{(i)}-f(mathbf{x}^{(i)};mathbf{w}))^2}{2sigma^2}}\ &=frac{1}{2sigma^2}sum_{i=1}^{N} (y^{(i)}-f(mathbf{x}^{(i)};mathbf{w}))^2+ln(sqrt{2pisigma^2}^N)\ &第二项和frac{1}{2sigma^2}可以去掉 implies sum_{i=1}^{N} (y^{(i)}-f(mathbf{x}^{(i)};mathbf{w}))^2\ end{aligned} E=−ln2πσ2 N1i=1∏Ne−2σ2(y(i)−f(x(i);w))2=2σ21i=1∑N(y(i)−f(x(i);w))2+ln(2πσ2 N)第二项和2σ21可以去掉⟹i=1∑N(y(i)−f(x(i);w))2
- 输入输出为线性函数关系:
y
(
i
)
=
f
(
x
(
i
)
;
w
)
+
ϵ
(
i
)
y^{(i)}=f(mathbf{x}^{(i)};mathbf{w})+epsilon^{(i)}
y(i)=f(x(i);w)+ϵ(i),其中
ϵ
(
i
)
epsilon^{(i)}
ϵ(i)为误差项(未建模效应的捕获,随机噪声),服从均值为0,误差为
σ
2
sigma^2
σ2(与
w
mathbf{w}
w无关的值)的高斯分布,且独立同分布,则:
- 二分类–逻辑回归
- 似然函数(假设数据服从伯努利分布(高斯分布也行,结果类似上文))
假 设 一 个 样 本 输 出 类 别 1 的 概 率 为 y ^ ( i ) , 则 输 出 类 别 2 的 概 率 为 1 − y ^ ( i ) 令 y ( i ) = 1 代 表 类 别 1 , y ( i ) = 0 代 表 类 别 2 , 则 所 有 数 据 的 似 然 函 数 为 L = ∏ i = 1 N p ( y ( i ) ∣ x ( i ) ; w ) = ∏ i = 1 N ( y ^ ( i ) ) y ( i ) ( 1 − y ^ ( i ) ) ( 1 − y ( i ) ) 假设一个样本输出类别1的概率为hat{y}^{(i)},则输出类别2的概率为1-hat{y}^{(i)}\ 令y^{(i)}=1代表类别1,y^{(i)}=0代表类别2,则所有数据的似然函数为\ L=prod_{i=1}^{N} p(y^{(i)}|mathbf{x}^{(i)};mathbf{w}) =prod_{i=1}^{N} (hat{y}^{(i)})^{y^{(i)}}(1-hat{y}^{(i)})^{(1-y^{(i)})} 假设一个样本输出类别1的概率为y^(i),则输出类别2的概率为1−y^(i)令y(i)=1代表类别1,y(i)=0代表类别2,则所有数据的似然函数为L=i=1∏Np(y(i)∣x(i);w)=i=1∏N(y^(i))y(i)(1−y^(i))(1−y(i)) - 负对数似然(交叉熵出现)
− ln L = − ln ∏ i = 1 N ( y ^ ( i ) ) y ( i ) ( 1 − y ^ ( i ) ) ( 1 − y ( i ) ) = − ∑ i = 1 N ln ( ( y ^ ( i ) ) y ( i ) ( 1 − y ^ ( i ) ) ( 1 − y ( i ) ) ) = − ∑ i = 1 N y ( i ) ln ( ( y ^ ( i ) ) + ( 1 − y ( i ) ) ln ( 1 − y ^ ( i ) ) ) begin{aligned} -ln L&=-ln prod_{i=1}^{N} (hat{y}^{(i)})^{y^{(i)}}(1-hat{y}^{(i)})^{(1-y^{(i)})}\ & =-sum_{i=1}^{N} ln ((hat{y}^{(i)})^{y^{(i)}}(1-hat{y}^{(i)})^{(1-y^{(i)})})\ &=-sum_{i=1}^{N} y^{(i)}ln ((hat{y}^{(i)})+{(1-y^{(i)})}ln(1-hat{y}^{(i)}))\ end{aligned} −lnL=−lni=1∏N(y^(i))y(i)(1−y^(i))(1−y(i))=−i=1∑Nln((y^(i))y(i)(1−y^(i))(1−y(i)))=−i=1∑Ny(i)ln((y^(i))+(1−y(i))ln(1−y^(i)))
- 似然函数(假设数据服从伯努利分布(高斯分布也行,结果类似上文))
- 多分类–Softmax
- 似然函数
L = ∏ i = 1 N p ( y ( i ) ∣ x ( i ) ; w ) = ∏ i = 1 N ∏ j = 1 C ( y ^ j ( i ) ) y i ( i ) 其 中 C 为 类 别 数 L=prod_{i=1}^{N}p(y^{(i)}|mathbf{x}^{(i)};mathbf{w})=prod_{i=1}^{N}prod_{j=1}^{C}(hat{y}_j^{(i)})^{y_i^{(i)}}\ 其中C为类别数 L=i=1∏Np(y(i)∣x(i);w)=i=1∏Nj=1∏C(y^j(i))yi(i)其中C为类别数 - 负对数似然
− ln L = − ln ∏ i = 1 N p ( y ( i ) ∣ x ( i ) ; w ) = − ln ∏ i = 1 N ∏ j = 1 C ( y ^ j ( i ) ) y i ( i ) = − ∑ i = 1 N ∑ j = 1 C y i ( i ) ln y ^ j ( i ) begin{aligned} -ln L&=-lnprod_{i=1}^{N}p(y^{(i)}|mathbf{x}^{(i)};mathbf{w})=-lnprod_{i=1}^{N}prod_{j=1}^{C}(hat{y}_j^{(i)})^{y_i^{(i)}}\ &=-sum_{i=1}^{N}sum_{j=1}^{C}{y_i^{(i)}}ln hat{y}_j^{(i)} end{aligned} −lnL=−lni=1∏Np(y(i)∣x(i);w)=−lni=1∏Nj=1∏C(y^j(i))yi(i)=−i=1∑Nj=1∑Cyi(i)lny^j(i)
- 似然函数
⋆ star ⋆最小化负对数似然实际上是最小化交叉熵损失



