- Sigmoid
- Tanh
- Relu
- Leaky Relu
- 总结
输入是非常小的负数,输出为0;
输入时非常大的正数,输出为1;
相当于对输出进行了归一化
不足:
1)深层神经网络在更新参数时,需要从输出层到输入层逐层进行链式求导。但是sigmoid的导数的输出时0-0.25,会造成梯度消失,使得参数无法继续更新。
2)希望输入每层神经网络的特征是以0为均值的小数值,但是sigmoid处理后的数据都是整数会使收敛变慢。
3)sigmoid运算存在幂运算,计算复杂度大、训练时间长。
优势:输出值为0均值
不足:依旧存在梯度消失和幂运算问题
优势:在正区间内,解决了梯度消失问题,训练速度快
不足:
1)输出不是以0为均值会使收敛变慢
2)送入激活函数为负数时,输出为0,反向传播得到的梯度是零,导致参数无法更新,造成神经元死亡。可以通过改进随机初始化,避免负数送入神经元/通过设置更小的学习率,减小学习参数的巨大变化避免训练中产生过多负数特征。
为了解决负区间梯度为0引起神经元死亡问题而设计的。
通过引入一个固定的斜率a使得leaky relu负区间不再恒等于0
北大TF教程



