损失函数理论基础

极大似然

主要思想：给定数据D（可能是一个映射input->output），模型中哪些参数W最有可能产生这种数据D（可能指input在W的作用下生成output的概率 P ( o u t p u t ∣ i n p u t ; W ) P(output|input;W) P(output∣input;W)) ？->希望参数W代表最大化的 P ( W ∣ D ) P(W|D) P(W∣D)->贝叶斯定理：
P ( W ∣ D ) = P ( D ∣ W ) P ( W ) P ( D ) = L i k e l i h o o d × P r i o r n o r m a l i z i n g c o n s t a n t P ( D ) 是标准化常量；我们认为所有 W 的概率都是相等的（先验平坦），故将 P ( W ) 视为常数 m a x P ( W ∣ D ) = m a x P ( D ∣ W ) ⟹ M a x i m u m L i k e l i h o o d （极大似然）通俗的讲，实际存在各种参数 W ，每种参数的概率都是一样的： P ( W ) 由参数 W 产生数据 D 的概率是已知的： P ( D ∣ W ) 于是数据 D 的概率也是 “ 已知 ” 的： ∑ ( P ( D ∣ W ) P ( W ) ) 对于数据 D ，可以由多个 W 生成，每个 W 各具产生数据 D 的 “ 贡献度 ” ： P ( W ∣ D ) 现在已知 D ，要求具有能够产生数据 D 的最大可能性的参数 W ，即 “ 最大贡献度 ” m a x P ( W ∣ D ) P(W|D)=frac{P(D|W)P(W)}{P(D)}=frac{Likelihoodtimes Prior}{normalizing constant}\ P(D)是标准化常量；我们认为所有W的概率都是相等的（先验平坦），故将P(W)视为常数\ max P(W|D)=max P(D|W) \ implies Maximum Likelihood（极大似然）\ 通俗的讲，实际存在各种参数W，每种参数的概率都是一样的：P(W)\ 由参数W产生数据D的概率是已知的：P(D|W)\ 于是数据D的概率也是“已知”的：sum_{}^{} (P(D|W)P(W))\ 对于数据D，可以由多个W生成，每个W各具产生数据D的“贡献度”：P(W|D) \ 现在已知D，要求具有能够产生数据D的最大可能性的参数W，即“最大贡献度”max P(W|D)\ P(W∣D)=P(D)P(D∣W)P(W)=normalizing constantLikelihood×PriorP(D)是标准化常量；我们认为所有W的概率都是相等的（先验平坦），故将P(W)视为常数max P(W∣D)=max P(D∣W)⟹Maximum Likelihood（极大似然）通俗的讲，实际存在各种参数W，每种参数的概率都是一样的：P(W)由参数W产生数据D的概率是已知的：P(D∣W)于是数据D的概率也是“已知”的：∑(P(D∣W)P(W))对于数据D，可以由多个W生成，每个W各具产生数据D的“贡献度”：P(W∣D)现在已知D，要求具有能够产生数据D的最大可能性的参数W，即“最大贡献度”max P(W∣D)
举例（高斯分布）
1. 高斯分布
  p ( x ∣ μ , σ ) = 1 2 π σ 2 e − ( x − μ ) 2 2 σ 2 p(x|mu,sigma)=frac{1}{sqrt{2pisigma^2}}e^{-frac{(x-mu)^2}{2sigma^2}} p(x∣μ,σ)=2πσ2 1e−2σ2(x−μ)2
2. 假设N个数据点独立同分布，则数据的似然函数为
  L = ∏ i = 1 n p ( x ( i ) ) = 1 2 π σ 2 N ∏ i = 1 N e − ( x ( i ) − μ ) 2 2 σ 2 L=prod_{i=1}^np(x^{(i)})=frac{1}{sqrt{2pisigma^2}^N}prod_{i=1}^Ne^{-frac{(x^{(i)}-mu)^2}{2sigma^2}} L=i=1∏np(x(i))=2πσ2 N1i=1∏Ne−2σ2(x(i)−μ)2
3. 选择参数，最大化似然函数，即选择最大化生成这些数据可能性的参数->最小化负对数似然
  ( μ , σ ) = arg max ⁡ μ , σ ln ⁡ ∏ i = 1 N p ( x ( i ) ) = arg min ⁡ μ , σ − ln ⁡ ∏ i = 1 N p ( x ( i ) ) = arg min ⁡ μ , σ − ∑ i = 1 N ln ⁡ p ( x ( i ) ) = arg min ⁡ μ , σ − ∑ i = 1 N ( − ln ⁡ 2 π σ 2 + ( − ( x ( i ) − μ ) 2 2 σ 2 ) ) = arg min ⁡ μ , σ ∑ i = 1 N ( x ( i ) − μ ) 2 2 σ 2 + N ln ⁡ 2 π σ 2 begin{aligned} (mu,sigma)&=argmax_{mu,sigma} lnprod_{i=1}^Np(x^{(i)})\ &=argmin_{mu,sigma}-lnprod_{i=1}^Np(x^{(i)})\ &=argmin_{mu,sigma} -sum_{i=1}^{N} ln p(x^{(i)})\ &=argmin_{mu,sigma} -sum_{i=1}^{N} (-ln sqrt{2pisigma^2}+(-frac{(x^{(i)}-mu)^2}{2sigma^2}))\ &=argmin_{mu,sigma} sum_{i=1}^{N} frac{(x^{(i)}-mu)^2}{2sigma^2}+Nlnsqrt{2pisigma^2} end{aligned} (μ,σ)=μ,σargmaxlni=1∏Np(x(i))=μ,σargmin−lni=1∏Np(x(i))=μ,σargmin−i=1∑Nlnp(x(i))=μ,σargmin−i=1∑N(−ln2πσ2 +(−2σ2(x(i)−μ)2))=μ,σargmini=1∑N2σ2(x(i)−μ)2+Nln2πσ2
术语
1. L：似然函数
2. ln L：对数似然函数
3. -ln L：负对数似然函数（也称为误差）

误差平方和SSE

似然函数
L = ∏ i = 1 N p ( x ( i ) , y ( i ) ) = ∏ i = 1 N p ( y ( i ) ∣ x ( i ) ) p ( x ( i ) ) 其中， y 为输出， x 为输入 L=prod_{i=1}^{N}p(x^{(i)},y^{(i)})=prod_{i=1}^{N}p(y^{(i)}|x^{(i)})p(x^{(i)})\ 其中，y为输出，x为输入 L=i=1∏Np(x(i),y(i))=i=1∏Np(y(i)∣x(i))p(x(i))其中，y为输出，x为输入
负对数似然
− ln ⁡ L = − ∑ i = 1 N ( ln ⁡ p ( y ( i ) ∣ x ( i ) ) + ln ⁡ p ( x ( i ) ) ) 由于是对从 x 到 y 的映射建模，所以第二项与参数无关，可以忽略 -ln L=-sum_{i=1}^{N}(ln p(y^{(i)}|x^{(i)})+ln p(x^{(i)}))\ 由于是对从x到y的映射建模，所以第二项与参数无关，可以忽略 −lnL=−i=1∑N(lnp(y(i)∣x(i))+lnp(x(i)))由于是对从x到y的映射建模，所以第二项与参数无关，可以忽略
极大似然与线性回归
1. 输入输出为线性函数关系： y ( i ) = f ( x ( i ) ; w ) + ϵ ( i ) y^{(i)}=f(mathbf{x}^{(i)};mathbf{w})+epsilon^{(i)} y(i)=f(x(i);w)+ϵ(i)，其中 ϵ ( i ) epsilon^{(i)} ϵ(i)为误差项（未建模效应的捕获，随机噪声），服从均值为0，误差为 σ 2 sigma^2 σ2（与 w mathbf{w} w无关的值）的高斯分布，且独立同分布，则：
  p ( ϵ ( i ) ) = 1 2 π σ 2 e − ( ϵ ( i ) ) 2 2 σ 2 p ( y ( i ) − f ( x ( i ) ; w ) ) = 1 2 π σ 2 e − ( y ( i ) − f ( x ( i ) ; w ) ) 2 2 σ 2 p ( y ( i ) ∣ x ( i ) ; w ) = 1 2 π σ 2 e − ( y ( i ) − f ( x ( i ) ; w ) ) 2 2 σ 2 p(epsilon^{(i)})=frac{1}{sqrt{2pisigma^2}}e^{-frac{(epsilon^{(i)})^2}{2sigma^2}}\ p(y^{(i)}-f(mathbf{x}^{(i)};mathbf{w}))=frac{1}{sqrt{2pisigma^2}}e^{-frac{(y^{(i)}-f(mathbf{x}^{(i)};mathbf{w}))^2}{2sigma^2}}\ p(y^{(i)}|mathbf{x}^{(i)};mathbf{w})=frac{1}{sqrt{2pisigma^2}}e^{-frac{(y^{(i)}-f(mathbf{x}^{(i)};mathbf{w}))^2}{2sigma^2}} p(ϵ(i))=2πσ2 1e−2σ2(ϵ(i))2p(y(i)−f(x(i);w))=2πσ2 1e−2σ2(y(i)−f(x(i);w))2p(y(i)∣x(i);w)=2πσ2 1e−2σ2(y(i)−f(x(i);w))2
2. 由上式可得给定 x ( i ) mathbf{x}^{(i)} x(i)以 w mathbf{w} w为参数结果为 y ( i ) y^{(i)} y(i)的概率服从高斯分布-> y ( i ) ∣ x ( i ) ; w ∼ N ( f ( x ( i ) ; w ) , σ 2 ) y^{(i)}|mathbf{x}^{(i)};mathbf{w}sim N(f(mathbf{x}^{(i)};mathbf{w}),sigma^2) y(i)∣x(i);w∼N(f(x(i);w),σ2)
3. 所有数据上的似然函数为：
  L = ∏ i = 1 N p ( y ( i ) ∣ x ( i ) ; w ) = 1 2 π σ 2 N ∏ i = 1 N e − ( y ( i ) − f ( x ( i ) ; w ) ) 2 2 σ 2 L=prod_{i=1}^Np(y^{(i)}|mathbf{x}^{(i)};mathbf{w})=frac{1}{sqrt{2pisigma^2}^N}prod_{i=1}^Ne^{-frac{(y^{(i)}-f(mathbf{x}^{(i)};mathbf{w}))^2}{2sigma^2}}\ L=i=1∏Np(y(i)∣x(i);w)=2πσ2 N1i=1∏Ne−2σ2(y(i)−f(x(i);w))2
4. 负对数似然函数或误差为：
  E = − ln ⁡ 1 2 π σ 2 N ∏ i = 1 N e − ( y ( i ) − f ( x ( i ) ; w ) ) 2 2 σ 2 = 1 2 σ 2 ∑ i = 1 N ( y ( i ) − f ( x ( i ) ; w ) ) 2 + ln ⁡ ( 2 π σ 2 N ) 第二项和 1 2 σ 2 可以去掉 ⟹ ∑ i = 1 N ( y ( i ) − f ( x ( i ) ; w ) ) 2 begin{aligned} E&=-ln frac{1}{sqrt{2pisigma^2}^N}prod_{i=1}^{N}e^{-frac{(y^{(i)}-f(mathbf{x}^{(i)};mathbf{w}))^2}{2sigma^2}}\ &=frac{1}{2sigma^2}sum_{i=1}^{N} (y^{(i)}-f(mathbf{x}^{(i)};mathbf{w}))^2+ln(sqrt{2pisigma^2}^N)\ &第二项和frac{1}{2sigma^2}可以去掉 implies sum_{i=1}^{N} (y^{(i)}-f(mathbf{x}^{(i)};mathbf{w}))^2\ end{aligned} E=−ln2πσ2 N1i=1∏Ne−2σ2(y(i)−f(x(i);w))2=2σ21i=1∑N(y(i)−f(x(i);w))2+ln(2πσ2 N)第二项和2σ21可以去掉⟹i=1∑N(y(i)−f(x(i);w))2

交叉熵

二分类–逻辑回归
1. 似然函数（假设数据服从伯努利分布（高斯分布也行，结果类似上文））
  假设一个样本输出类别 1 的概率为 y ^ ( i ) ，则输出类别 2 的概率为 1 − y ^ ( i ) 令 y ( i ) = 1 代表类别 1 ， y ( i ) = 0 代表类别 2 ，则所有数据的似然函数为 L = ∏ i = 1 N p ( y ( i ) ∣ x ( i ) ; w ) = ∏ i = 1 N ( y ^ ( i ) ) y ( i ) ( 1 − y ^ ( i ) ) ( 1 − y ( i ) ) 假设一个样本输出类别1的概率为hat{y}^{(i)}，则输出类别2的概率为1-hat{y}^{(i)}\ 令y^{(i)}=1代表类别1，y^{(i)}=0代表类别2，则所有数据的似然函数为\ L=prod_{i=1}^{N} p(y^{(i)}|mathbf{x}^{(i)};mathbf{w}) =prod_{i=1}^{N} (hat{y}^{(i)})^{y^{(i)}}(1-hat{y}^{(i)})^{(1-y^{(i)})} 假设一个样本输出类别1的概率为y^(i)，则输出类别2的概率为1−y^(i)令y(i)=1代表类别1，y(i)=0代表类别2，则所有数据的似然函数为L=i=1∏Np(y(i)∣x(i);w)=i=1∏N(y^(i))y(i)(1−y^(i))(1−y(i))
2. 负对数似然（交叉熵出现）
  − ln ⁡ L = − ln ⁡ ∏ i = 1 N ( y ^ ( i ) ) y ( i ) ( 1 − y ^ ( i ) ) ( 1 − y ( i ) ) = − ∑ i = 1 N ln ⁡ ( ( y ^ ( i ) ) y ( i ) ( 1 − y ^ ( i ) ) ( 1 − y ( i ) ) ) = − ∑ i = 1 N y ( i ) ln ⁡ ( ( y ^ ( i ) ) + ( 1 − y ( i ) ) ln ⁡ ( 1 − y ^ ( i ) ) ) begin{aligned} -ln L&=-ln prod_{i=1}^{N} (hat{y}^{(i)})^{y^{(i)}}(1-hat{y}^{(i)})^{(1-y^{(i)})}\ & =-sum_{i=1}^{N} ln ((hat{y}^{(i)})^{y^{(i)}}(1-hat{y}^{(i)})^{(1-y^{(i)})})\ &=-sum_{i=1}^{N} y^{(i)}ln ((hat{y}^{(i)})+{(1-y^{(i)})}ln(1-hat{y}^{(i)}))\ end{aligned} −lnL=−lni=1∏N(y^(i))y(i)(1−y^(i))(1−y(i))=−i=1∑Nln((y^(i))y(i)(1−y^(i))(1−y(i)))=−i=1∑Ny(i)ln((y^(i))+(1−y(i))ln(1−y^(i)))
多分类–Softmax
1. 似然函数
  L = ∏ i = 1 N p ( y ( i ) ∣ x ( i ) ; w ) = ∏ i = 1 N ∏ j = 1 C ( y ^ j ( i ) ) y i ( i ) 其中 C 为类别数 L=prod_{i=1}^{N}p(y^{(i)}|mathbf{x}^{(i)};mathbf{w})=prod_{i=1}^{N}prod_{j=1}^{C}(hat{y}_j^{(i)})^{y_i^{(i)}}\ 其中C为类别数 L=i=1∏Np(y(i)∣x(i);w)=i=1∏Nj=1∏C(y^j(i))yi(i)其中C为类别数
2. 负对数似然
  − ln ⁡ L = − ln ⁡ ∏ i = 1 N p ( y ( i ) ∣ x ( i ) ; w ) = − ln ⁡ ∏ i = 1 N ∏ j = 1 C ( y ^ j ( i ) ) y i ( i ) = − ∑ i = 1 N ∑ j = 1 C y i ( i ) ln ⁡ y ^ j ( i ) begin{aligned} -ln L&=-lnprod_{i=1}^{N}p(y^{(i)}|mathbf{x}^{(i)};mathbf{w})=-lnprod_{i=1}^{N}prod_{j=1}^{C}(hat{y}_j^{(i)})^{y_i^{(i)}}\ &=-sum_{i=1}^{N}sum_{j=1}^{C}{y_i^{(i)}}ln hat{y}_j^{(i)} end{aligned} −lnL=−lni=1∏Np(y(i)∣x(i);w)=−lni=1∏Nj=1∏C(y^j(i))yi(i)=−i=1∑Nj=1∑Cyi(i)lny^j(i)

⋆ star ⋆最小化负对数似然实际上是最小化交叉熵损失

损失函数理论基础

Python相关栏目本月热门文章