栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

Adversarial Visual Robustness by Causal Intervention个人理解

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

Adversarial Visual Robustness by Causal Intervention个人理解

Adversarial Visual Robustness by Causal Intervention
符号含义
R工具变量,视网膜采样
C混杂因子
X输入特征
Y预测结果
ϵ epsilon ϵ扰动
N样本数量
r采样次数
解决问题

对抗学习的稳定性问题、应对针对混淆梯度的攻击

传统的对抗学习训练:

max ⁡ δ ∈ D ϵ P ( Y = y ˉ ∣ X = x + δ ) ∝ ∑ i y ^ i ln ⁡ e f i ( x + δ ) ∑ j e f j ( x + δ ) begin{aligned} displaystyle max_{delta in D_epsilon}P(Y=bar{y}|X=x+delta) propto sum_i hat{y}_i ln frac{e^{f_i(x+delta)}}{sum_j e^{f_j(x+delta)}} end{aligned} δ∈Dϵ​max​P(Y=yˉ​∣X=x+δ)∝i∑​y^​i​ln∑j​efj​(x+δ)efi​(x+δ)​​

对其他方法的因果图分析

X到Y的因果路径(我们期望得到的)存在混杂因子C,因此会有CXY的因果图

对抗攻击的过程是使得无法通过X来得到正确的Y(我们期望的X->Y)的过程,这相当于阻断X到Y的因果路径

对抗训练(公式1)生成训练样本的过程和对抗攻击的方法如出一辙,对抗训练防止了混杂因子对Y的影响,因此阻断了C到Y的因故路径

数据增强的过程,通过将训练样本线性的结合起来,增强了深度神经网络的稳定性,使得C对Y的因果效应正比于扰动的大小,弱化了C->Y的因果路径,但是数据增强不能应对所有的混杂因子

生成式分类通过生成器来生成属于y=i的可以代表x的 x i x_i xi​,然后通过预测 x i x_i xi​属于y的概率选取最高来预测Y,这种操作弱化了C->X的因果路径。但是这样影响了因果特征且不适合大数据集。

去噪声通过在网络之前和在网络内系统层面去除了混杂因子C对X和Y的影响,但是会遇到混淆梯度(由防御引起的,使攻击者难以基于梯度优化生成对抗样本)的问题。

认证防御中最典型的也是与因果干预相关的是随机平滑,它通过引入高斯噪声 ϵ , ( ϵ ≫ C + δ ) epsilon,(epsilon gg C+delta) ϵ,(ϵ≫C+δ)来盖过混淆因子的效应,弱化了C->X与C->Y的因果路径,但是没有生物学依据且无法应对针对混淆梯度的攻击

因果优化

因为 max ⁡ δ ∈ D ϵ P ( Y ∣ X ) ∝ w x y x + w c y c max_{delta in D_epsilon}P(Y|X) propto w_{xy}x+w_{cy}c maxδ∈Dϵ​​P(Y∣X)∝wxy​x+wcy​c
且c的取值服从 N ( 0 , 1 ) N(0,1) N(0,1)的正态分布

max ⁡ δ ∈ D ϵ P ( Y ∣ d o ( X = x ) ) ∝ w x y x + w c y ∑ c c ⋅ p ( c ) = w x y x + w c y ⋅ 0 = w x y x = w r x − 1 w r y x begin{aligned} displaystyle max_{delta in D_epsilon}P(Y|do(X=x)) &propto w_{xy}x+w_{cy} sum_c c cdot p(c)\ &=w_{xy}x + w_{cy} cdot 0 \ &=w_{xy}x \ &=w_{rx}^{-1}w_{ry}x end{aligned} δ∈Dϵ​max​P(Y∣do(X=x))​∝wxy​x+wcy​c∑​c⋅p(c)=wxy​x+wcy​⋅0=wxy​x=wrx−1​wry​x​
这里作者提出了grx与gry的计算方式,然而最后实验证明无法应对针对混淆梯度攻击。不够在论文里的公式、在代码里的公式、在最新论文里的公式都不太一样。
x r = g r x ( x , r ) = r ⊙ 1 N ∑ i R e L U ( [ x + ϵ i ∣ x + ϵ i ∣ d t ; ϵ ^ i − x ∣ ϵ ^ i − x ∣ d t ] ) begin{aligned} x_r&=g_{rx}(x,r)\ &= r odot frac{1}{N} sum_i ReLU([frac{x+epsilon_i}{|x+epsilon_i|_{dt}};frac{hat{epsilon}_i-x}{|hat{epsilon}_i-x|_{dt}}]) end{aligned} xr​​=grx​(x,r)=r⊙N1​i∑​ReLU([∣x+ϵi​∣dt​x+ϵi​​;∣ϵ^i​−x∣dt​ϵ^i​−x​])​

x r = f ( x , r ) = 1 N ∑ i ( r ⊙ R e L U ( x + ϵ i ) ) begin{aligned} x_r&=f(x,r)\ &=frac{1}{N} sum_i( r odot ReLU(x+epsilon_i)) end{aligned} xr​​=f(x,r)=N1​i∑​(r⊙ReLU(x+ϵi​))​

x r = [ f i n ( x , r ) ; f o u t ( x , r ) ] = [ ∑ i = 1 N ( m a s k 1 + 1 e − 5 R e L u ( x + r a n d × ( 0.75 + i 2 N r ) ) ) ∑ i = 1 N ( m a s k 1 + 1 e − 5 R e L u ( 1 − x + r a n d × ( 0.75 + i 2 N r ) ) ) ] begin{aligned} x_r&=[f_{in}(x,r);f_{out}(x,r)]\ &= begin{bmatrix}sum_{i=1}^{N}left(displaystyle frac{mask}{1+ displaystyle frac{1e-5}{ReLu(x+displaystyle rand times(0.75+frac{i}{2Nr}))}}right)\sum_{i=1}^{N}left( displaystyle frac{mask}{1+ displaystyle frac{1e-5}{ReLu(1-x+displaystyle rand times(0.75+frac{i}{2Nr}))}}right)end{bmatrix} end{aligned} xr​​=[fin​(x,r);fout​(x,r)]=⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎡​∑i=1N​⎝⎜⎜⎜⎜⎜⎛​1+ReLu(x+rand×(0.75+2Nri​))1e−5​mask​⎠⎟⎟⎟⎟⎟⎞​∑i=1N​⎝⎜⎜⎜⎜⎜⎛​1+ReLu(1−x+rand×(0.75+2Nri​))1e−5​mask​⎠⎟⎟⎟⎟⎟⎞​​⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎤​​
对于代码和原论文有
P ( Y ) = g r x − 1 ( g r y ( x , r ) ) ≈ 1 T r ∑ r g r y ( x r ) displaystyle P(Y)=g_{rx}^{-1}(g_{ry}(x,r)) approx frac{1}{T_r} sum_r g_{ry}(x_r) P(Y)=grx−1​(gry​(x,r))≈Tr​1​r∑​gry​(xr​)
对于新论文有
Y = w x y x r + w c y c ≈ α r Y [ d o ( X = x ) ] + w c y c displaystyle Y=w_{xy}x_r+w_{cy}c approx alpha_r Y[do(X=x)]+w_{cy}c Y=wxy​xr​+wcy​c≈αr​Y[do(X=x)]+wcy​c
Loss原论文使用了AVC
min ⁡ A V C r ( g r y ( x , r ) ) = min ⁡ lim ⁡ T r → ∞ 1 T r ∑ r ( g r y ( x , r ) − 1 T r ∑ r g r y ( x , r ) ) 2 = min ⁡ lim ⁡ T r → ∞ 1 T r ∑ r ∥ h ( x , r ) − 1 T r ∑ r h ( x , r ) ∥ 1 begin{aligned} min A V C_{r}left(g_{r y}(x, r)right) &= min lim _{T_{r} rightarrow infty} frac{1}{T_{r}} sum_{r}left(g_{r y}(x, r)-frac{1}{T_{r}} sum_{r} g_{r y}(x, r)right)^{2} \ &= min lim _{T_{r} rightarrow infty} frac{1}{T_{r}} sum_{r}left|h(x, r)-frac{1}{T_{r}} sum_{r} h(x, r)right|_{1} end{aligned} minAVCr​(gry​(x,r))​=minTr​→∞lim​Tr​1​r∑​(gry​(x,r)−Tr​1​r∑​gry​(x,r))2=minTr​→∞lim​Tr​1​r∑​∥∥∥∥∥​h(x,r)−Tr​1​r∑​h(x,r)∥∥∥∥∥​1​​
新论文Loss(工具变量,通过设置r的取值来获取 Y [ d o ( X = x ) ] Y[do(X=x)] Y[do(X=x)]
L A L L = L C E + β L C i i V = L C E + β ∑ r i ≠ r j ∥ α r j Y [ X = x r i ] − α r i Y [ X = x r j ] ∥ begin{aligned} L_{ALL}&=L_{CE}+beta L_{CiiV}\ &=L_{CE}+beta sum_{r_i ne r_j} begin{Vmatrix} alpha_{r_j}Y[X=x_{r_i}]-alpha_{r_i}Y[X=x_{r_j}] end{Vmatrix} end{aligned} LALL​​=LCE​+βLCiiV​=LCE​+βri​​=rj​∑​∥∥​αrj​​Y[X=xri​​]−αri​​Y[X=xrj​​]​∥∥​​

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/321972.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号