参数初始化,uniform均匀分布初始化,normal高斯分布初始化数据预处理,进行归一化,有几种常用方法梯度归一,算出来的梯度除以minibatch size 还有梯度裁剪,限制梯度上限,dropout防过拟合,一般sgd,选择0.1的学习了,衰减型的,激活函数选择relu,还有使用batch normalization 对每一层计算出来的特征归一化

参数初始化,uniform均匀分布初始化,normal高斯分布初始化数据预处理,进行归一化,有几种常用方法梯度归一,算出来的梯度除以minibatch size 还有梯度裁剪,限制梯度上限,dropout防过拟合,一般sgd,选择0.1的学习了,衰减型的,激活函数选择relu,还有使用batch normalization 对每一层计算出来的特征归一化