栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

损失函数理论基础

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

损失函数理论基础

极大似然
  1. 主要思想:给定数据D(可能是一个映射input->output),模型中哪些参数W最有可能产生这种数据D(可能指input在W的作用下生成output的概率 P ( o u t p u t ∣ i n p u t ; W ) P(output|input;W) P(output∣input;W)) ?->希望参数W代表最大化的 P ( W ∣ D ) P(W|D) P(W∣D)->贝叶斯定理:
    P ( W ∣ D ) = P ( D ∣ W ) P ( W ) P ( D ) = L i k e l i h o o d × P r i o r n o r m a l i z i n g   c o n s t a n t P ( D ) 是 标 准 化 常 量 ; 我 们 认 为 所 有 W 的 概 率 都 是 相 等 的 ( 先 验 平 坦 ) , 故 将 P ( W ) 视 为 常 数 m a x   P ( W ∣ D ) = m a x   P ( D ∣ W )    ⟹    M a x i m u m   L i k e l i h o o d ( 极 大 似 然 ) 通 俗 的 讲 , 实 际 存 在 各 种 参 数 W , 每 种 参 数 的 概 率 都 是 一 样 的 : P ( W ) 由 参 数 W 产 生 数 据 D 的 概 率 是 已 知 的 : P ( D ∣ W ) 于 是 数 据 D 的 概 率 也 是 “ 已 知 ” 的 : ∑ ( P ( D ∣ W ) P ( W ) ) 对 于 数 据 D , 可 以 由 多 个 W 生 成 , 每 个 W 各 具 产 生 数 据 D 的 “ 贡 献 度 ” : P ( W ∣ D ) 现 在 已 知 D , 要 求 具 有 能 够 产 生 数 据 D 的 最 大 可 能 性 的 参 数 W , 即 “ 最 大 贡 献 度 ” m a x   P ( W ∣ D ) P(W|D)=frac{P(D|W)P(W)}{P(D)}=frac{Likelihoodtimes Prior}{normalizing constant}\ P(D)是标准化常量;我们认为所有W的概率都是相等的(先验平坦),故将P(W)视为常数\ max P(W|D)=max P(D|W) \ implies Maximum Likelihood(极大似然)\ 通俗的讲,实际存在各种参数W,每种参数的概率都是一样的:P(W)\ 由参数W产生数据D的概率是已知的:P(D|W)\ 于是数据D的概率也是“已知”的:sum_{}^{} (P(D|W)P(W))\ 对于数据D,可以由多个W生成,每个W各具产生数据D的“贡献度”:P(W|D) \ 现在已知D,要求具有能够产生数据D的最大可能性的参数W,即“最大贡献度”max P(W|D)\ P(W∣D)=P(D)P(D∣W)P(W)​=normalizing constantLikelihood×Prior​P(D)是标准化常量;我们认为所有W的概率都是相等的(先验平坦),故将P(W)视为常数max P(W∣D)=max P(D∣W)⟹Maximum Likelihood(极大似然)通俗的讲,实际存在各种参数W,每种参数的概率都是一样的:P(W)由参数W产生数据D的概率是已知的:P(D∣W)于是数据D的概率也是“已知”的:∑​(P(D∣W)P(W))对于数据D,可以由多个W生成,每个W各具产生数据D的“贡献度”:P(W∣D)现在已知D,要求具有能够产生数据D的最大可能性的参数W,即“最大贡献度”max P(W∣D)
  2. 举例(高斯分布)
    1. 高斯分布
      p ( x ∣ μ , σ ) = 1 2 π σ 2 e − ( x − μ ) 2 2 σ 2 p(x|mu,sigma)=frac{1}{sqrt{2pisigma^2}}e^{-frac{(x-mu)^2}{2sigma^2}} p(x∣μ,σ)=2πσ2 ​1​e−2σ2(x−μ)2​
    2. 假设N个数据点独立同分布,则数据的似然函数为
      L = ∏ i = 1 n p ( x ( i ) ) = 1 2 π σ 2 N ∏ i = 1 N e − ( x ( i ) − μ ) 2 2 σ 2 L=prod_{i=1}^np(x^{(i)})=frac{1}{sqrt{2pisigma^2}^N}prod_{i=1}^Ne^{-frac{(x^{(i)}-mu)^2}{2sigma^2}} L=i=1∏n​p(x(i))=2πσ2 ​N1​i=1∏N​e−2σ2(x(i)−μ)2​
    3. 选择参数,最大化似然函数,即选择最大化生成这些数据可能性的参数->最小化负对数似然
      ( μ , σ ) = arg max ⁡ μ , σ ln ⁡ ∏ i = 1 N p ( x ( i ) ) = arg min ⁡ μ , σ − ln ⁡ ∏ i = 1 N p ( x ( i ) ) = arg min ⁡ μ , σ − ∑ i = 1 N ln ⁡ p ( x ( i ) ) = arg min ⁡ μ , σ − ∑ i = 1 N ( − ln ⁡ 2 π σ 2 + ( − ( x ( i ) − μ ) 2 2 σ 2 ) ) = arg min ⁡ μ , σ ∑ i = 1 N ( x ( i ) − μ ) 2 2 σ 2 + N ln ⁡ 2 π σ 2 begin{aligned} (mu,sigma)&=argmax_{mu,sigma} lnprod_{i=1}^Np(x^{(i)})\ &=argmin_{mu,sigma}-lnprod_{i=1}^Np(x^{(i)})\ &=argmin_{mu,sigma} -sum_{i=1}^{N} ln p(x^{(i)})\ &=argmin_{mu,sigma} -sum_{i=1}^{N} (-ln sqrt{2pisigma^2}+(-frac{(x^{(i)}-mu)^2}{2sigma^2}))\ &=argmin_{mu,sigma} sum_{i=1}^{N} frac{(x^{(i)}-mu)^2}{2sigma^2}+Nlnsqrt{2pisigma^2} end{aligned} (μ,σ)​=μ,σargmax​lni=1∏N​p(x(i))=μ,σargmin​−lni=1∏N​p(x(i))=μ,σargmin​−i=1∑N​lnp(x(i))=μ,σargmin​−i=1∑N​(−ln2πσ2 ​+(−2σ2(x(i)−μ)2​))=μ,σargmin​i=1∑N​2σ2(x(i)−μ)2​+Nln2πσ2 ​​
  3. 术语
    1. L:似然函数
    2. ln L:对数似然函数
    3. -ln L:负对数似然函数(也称为误差)
误差平方和SSE
  1. 似然函数
    L = ∏ i = 1 N p ( x ( i ) , y ( i ) ) = ∏ i = 1 N p ( y ( i ) ∣ x ( i ) ) p ( x ( i ) ) 其 中 , y 为 输 出 , x 为 输 入 L=prod_{i=1}^{N}p(x^{(i)},y^{(i)})=prod_{i=1}^{N}p(y^{(i)}|x^{(i)})p(x^{(i)})\ 其中,y为输出,x为输入 L=i=1∏N​p(x(i),y(i))=i=1∏N​p(y(i)∣x(i))p(x(i))其中,y为输出,x为输入
  2. 负对数似然
    − ln ⁡ L = − ∑ i = 1 N ( ln ⁡ p ( y ( i ) ∣ x ( i ) ) + ln ⁡ p ( x ( i ) ) ) 由 于 是 对 从 x 到 y 的 映 射 建 模 , 所 以 第 二 项 与 参 数 无 关 , 可 以 忽 略 -ln L=-sum_{i=1}^{N}(ln p(y^{(i)}|x^{(i)})+ln p(x^{(i)}))\ 由于是对从x到y的映射建模,所以第二项与参数无关,可以忽略 −lnL=−i=1∑N​(lnp(y(i)∣x(i))+lnp(x(i)))由于是对从x到y的映射建模,所以第二项与参数无关,可以忽略
  3. 极大似然与线性回归
    1. 输入输出为线性函数关系: y ( i ) = f ( x ( i ) ; w ) + ϵ ( i ) y^{(i)}=f(mathbf{x}^{(i)};mathbf{w})+epsilon^{(i)} y(i)=f(x(i);w)+ϵ(i),其中 ϵ ( i ) epsilon^{(i)} ϵ(i)为误差项(未建模效应的捕获,随机噪声),服从均值为0,误差为 σ 2 sigma^2 σ2(与 w mathbf{w} w无关的值)的高斯分布,且独立同分布,则:
      p ( ϵ ( i ) ) = 1 2 π σ 2 e − ( ϵ ( i ) ) 2 2 σ 2 p ( y ( i ) − f ( x ( i ) ; w ) ) = 1 2 π σ 2 e − ( y ( i ) − f ( x ( i ) ; w ) ) 2 2 σ 2 p ( y ( i ) ∣ x ( i ) ; w ) = 1 2 π σ 2 e − ( y ( i ) − f ( x ( i ) ; w ) ) 2 2 σ 2 p(epsilon^{(i)})=frac{1}{sqrt{2pisigma^2}}e^{-frac{(epsilon^{(i)})^2}{2sigma^2}}\ p(y^{(i)}-f(mathbf{x}^{(i)};mathbf{w}))=frac{1}{sqrt{2pisigma^2}}e^{-frac{(y^{(i)}-f(mathbf{x}^{(i)};mathbf{w}))^2}{2sigma^2}}\ p(y^{(i)}|mathbf{x}^{(i)};mathbf{w})=frac{1}{sqrt{2pisigma^2}}e^{-frac{(y^{(i)}-f(mathbf{x}^{(i)};mathbf{w}))^2}{2sigma^2}} p(ϵ(i))=2πσ2 ​1​e−2σ2(ϵ(i))2​p(y(i)−f(x(i);w))=2πσ2 ​1​e−2σ2(y(i)−f(x(i);w))2​p(y(i)∣x(i);w)=2πσ2 ​1​e−2σ2(y(i)−f(x(i);w))2​
    2. 由上式可得给定 x ( i ) mathbf{x}^{(i)} x(i)以 w mathbf{w} w为参数结果为 y ( i ) y^{(i)} y(i)的概率服从高斯分布-> y ( i ) ∣ x ( i ) ; w ∼ N ( f ( x ( i ) ; w ) , σ 2 ) y^{(i)}|mathbf{x}^{(i)};mathbf{w}sim N(f(mathbf{x}^{(i)};mathbf{w}),sigma^2) y(i)∣x(i);w∼N(f(x(i);w),σ2)
    3. 所有数据上的似然函数为:
      L = ∏ i = 1 N p ( y ( i ) ∣ x ( i ) ; w ) = 1 2 π σ 2 N ∏ i = 1 N e − ( y ( i ) − f ( x ( i ) ; w ) ) 2 2 σ 2 L=prod_{i=1}^Np(y^{(i)}|mathbf{x}^{(i)};mathbf{w})=frac{1}{sqrt{2pisigma^2}^N}prod_{i=1}^Ne^{-frac{(y^{(i)}-f(mathbf{x}^{(i)};mathbf{w}))^2}{2sigma^2}}\ L=i=1∏N​p(y(i)∣x(i);w)=2πσ2 ​N1​i=1∏N​e−2σ2(y(i)−f(x(i);w))2​
    4. 负对数似然函数或误差为:
      E = − ln ⁡ 1 2 π σ 2 N ∏ i = 1 N e − ( y ( i ) − f ( x ( i ) ; w ) ) 2 2 σ 2 = 1 2 σ 2 ∑ i = 1 N ( y ( i ) − f ( x ( i ) ; w ) ) 2 + ln ⁡ ( 2 π σ 2 N ) 第 二 项 和 1 2 σ 2 可 以 去 掉    ⟹    ∑ i = 1 N ( y ( i ) − f ( x ( i ) ; w ) ) 2 begin{aligned} E&=-ln frac{1}{sqrt{2pisigma^2}^N}prod_{i=1}^{N}e^{-frac{(y^{(i)}-f(mathbf{x}^{(i)};mathbf{w}))^2}{2sigma^2}}\ &=frac{1}{2sigma^2}sum_{i=1}^{N} (y^{(i)}-f(mathbf{x}^{(i)};mathbf{w}))^2+ln(sqrt{2pisigma^2}^N)\ &第二项和frac{1}{2sigma^2}可以去掉 implies sum_{i=1}^{N} (y^{(i)}-f(mathbf{x}^{(i)};mathbf{w}))^2\ end{aligned} E​=−ln2πσ2 ​N1​i=1∏N​e−2σ2(y(i)−f(x(i);w))2​=2σ21​i=1∑N​(y(i)−f(x(i);w))2+ln(2πσ2 ​N)第二项和2σ21​可以去掉⟹i=1∑N​(y(i)−f(x(i);w))2​
交叉熵
  1. 二分类–逻辑回归
    1. 似然函数(假设数据服从伯努利分布(高斯分布也行,结果类似上文))
      假 设 一 个 样 本 输 出 类 别 1 的 概 率 为 y ^ ( i ) , 则 输 出 类 别 2 的 概 率 为 1 − y ^ ( i ) 令 y ( i ) = 1 代 表 类 别 1 , y ( i ) = 0 代 表 类 别 2 , 则 所 有 数 据 的 似 然 函 数 为 L = ∏ i = 1 N p ( y ( i ) ∣ x ( i ) ; w ) = ∏ i = 1 N ( y ^ ( i ) ) y ( i ) ( 1 − y ^ ( i ) ) ( 1 − y ( i ) ) 假设一个样本输出类别1的概率为hat{y}^{(i)},则输出类别2的概率为1-hat{y}^{(i)}\ 令y^{(i)}=1代表类别1,y^{(i)}=0代表类别2,则所有数据的似然函数为\ L=prod_{i=1}^{N} p(y^{(i)}|mathbf{x}^{(i)};mathbf{w}) =prod_{i=1}^{N} (hat{y}^{(i)})^{y^{(i)}}(1-hat{y}^{(i)})^{(1-y^{(i)})} 假设一个样本输出类别1的概率为y^​(i),则输出类别2的概率为1−y^​(i)令y(i)=1代表类别1,y(i)=0代表类别2,则所有数据的似然函数为L=i=1∏N​p(y(i)∣x(i);w)=i=1∏N​(y^​(i))y(i)(1−y^​(i))(1−y(i))
    2. 负对数似然(交叉熵出现)
      − ln ⁡ L = − ln ⁡ ∏ i = 1 N ( y ^ ( i ) ) y ( i ) ( 1 − y ^ ( i ) ) ( 1 − y ( i ) ) = − ∑ i = 1 N ln ⁡ ( ( y ^ ( i ) ) y ( i ) ( 1 − y ^ ( i ) ) ( 1 − y ( i ) ) ) = − ∑ i = 1 N y ( i ) ln ⁡ ( ( y ^ ( i ) ) + ( 1 − y ( i ) ) ln ⁡ ( 1 − y ^ ( i ) ) ) begin{aligned} -ln L&=-ln prod_{i=1}^{N} (hat{y}^{(i)})^{y^{(i)}}(1-hat{y}^{(i)})^{(1-y^{(i)})}\ & =-sum_{i=1}^{N} ln ((hat{y}^{(i)})^{y^{(i)}}(1-hat{y}^{(i)})^{(1-y^{(i)})})\ &=-sum_{i=1}^{N} y^{(i)}ln ((hat{y}^{(i)})+{(1-y^{(i)})}ln(1-hat{y}^{(i)}))\ end{aligned} −lnL​=−lni=1∏N​(y^​(i))y(i)(1−y^​(i))(1−y(i))=−i=1∑N​ln((y^​(i))y(i)(1−y^​(i))(1−y(i)))=−i=1∑N​y(i)ln((y^​(i))+(1−y(i))ln(1−y^​(i)))​
  2. 多分类–Softmax
    1. 似然函数
      L = ∏ i = 1 N p ( y ( i ) ∣ x ( i ) ; w ) = ∏ i = 1 N ∏ j = 1 C ( y ^ j ( i ) ) y i ( i ) 其 中 C 为 类 别 数 L=prod_{i=1}^{N}p(y^{(i)}|mathbf{x}^{(i)};mathbf{w})=prod_{i=1}^{N}prod_{j=1}^{C}(hat{y}_j^{(i)})^{y_i^{(i)}}\ 其中C为类别数 L=i=1∏N​p(y(i)∣x(i);w)=i=1∏N​j=1∏C​(y^​j(i)​)yi(i)​其中C为类别数
    2. 负对数似然
      − ln ⁡ L = − ln ⁡ ∏ i = 1 N p ( y ( i ) ∣ x ( i ) ; w ) = − ln ⁡ ∏ i = 1 N ∏ j = 1 C ( y ^ j ( i ) ) y i ( i ) = − ∑ i = 1 N ∑ j = 1 C y i ( i ) ln ⁡ y ^ j ( i ) begin{aligned} -ln L&=-lnprod_{i=1}^{N}p(y^{(i)}|mathbf{x}^{(i)};mathbf{w})=-lnprod_{i=1}^{N}prod_{j=1}^{C}(hat{y}_j^{(i)})^{y_i^{(i)}}\ &=-sum_{i=1}^{N}sum_{j=1}^{C}{y_i^{(i)}}ln hat{y}_j^{(i)} end{aligned} −lnL​=−lni=1∏N​p(y(i)∣x(i);w)=−lni=1∏N​j=1∏C​(y^​j(i)​)yi(i)​=−i=1∑N​j=1∑C​yi(i)​lny^​j(i)​​

⋆ star ⋆最小化负对数似然实际上是最小化交叉熵损失

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/269129.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号