梯度下降法有三种不同的形式:批量梯度下降(Batch Gradient Descent)、随机梯度下降(Stochastic Gradient Descent)以及小批量梯度下降(Mini-Batch Gradient Descent)。
批量梯度下法(BGD): 每迭代一步,都要用到训练集所有的数据,它得到的是一个全局最优解,但是如果m(数据量)很大,那么这种方法的迭代速度会较低。
随机梯度下降(SGD) : 通过每个样本来迭代更新一次,如果样本量很大的情况,那么可能只用其中部分样本,就已经迭代到最优解了, 但是, SGD伴随的一个问题是噪音较BGD要多, 使得SGD并不是每次迭代都向着整体最优化方向。
小批量梯度梯度下降(Mini-Batch Gradient Descent): 小批量梯度下降和随机梯度下降两种方法中取折中, 每次从所有训练数据中取一个子集(mini-batch)用于计算梯度。



