10.13
※ 累积BP算法与标准BP算法区别:
一般来说标准BP算法只针对单个样例进行参数更新,而累积BP算法是在读取所有训练样本后,针对累计误差进行参数更新。累积BP的参数更新频率很慢,且当误差下降到一定程度后,误差再次下降将变得困难。而标准BP在大数据集上往往会获得更好的解。
随机梯度下降和标准梯度下降
1、标准梯度下降是在权值更新前对所有样例汇总误差,而随机梯度下降的权值是通过考查某个训练样例来更新的。
2、在标准梯度下降中,权值更新的每一步对多个样例求和,需要更多的计算。
3、标准梯度下降,由于使用真正的梯度,标准梯度下降对于每一次权值更新经常使用比随机梯度下降大的步长。
因此累积BP和标准BP及随机梯度下降和标准梯度下降的思想十分类似。
※启发式算法可以这样定义:一个基于直观或经验构造的算法,在可接受的花费(指计算时间和空间)下给出待解决组合优化问题每一个实例的一个可行解,该可行解与最优解的偏离程度一般不能被预计。现阶段,启发式算法以仿自然体算法为主,主要有遗传算法、蚁群算法等。 启发式算法理论上尚缺乏保障。
※跳出神经网络局部最优解的一些方法
1.随机初始化
2.使用模拟退火机制:有一定概率接受比当前解更差的结果
3.随机梯度下降法的思想:在计算梯度时加入了随机因素
※ART网络很有意思:可进行增量学习或在线学习
比较好地缓解了竞争型学习中的“可塑性-稳定性窘境”:可塑性——能学习新知识,稳定性——在学习新知识时要保持对旧知识的记忆
※为何要引入一些激活函数
如果不引入激活函数,那么多层感知机的作用相当于单层感知机,没有升级。因此期望引入一些非线性函数,对隐藏变量使用按元素运算的非线性函数进行变换,然后在作为下一个全连接层的输入,该非线性函数即被称为激活函数。常见的有:ReLU函数——只保留正数元素,并将负数元素清零,sigmoid
※多层感知机就是含有至少一个隐藏层的由全连接层组成的神经网络,且每个隐藏层的输出通过激活函数进行变换。
10.15
※某参数的权重衰减等价于某参数的正则化
※epoch和batch size 超参数的含义



