批处理模式与随机梯度下降法

批处理模式与随机梯度下降法

January 3, 2023

Content #

当可用的训练样本有多个时，样本的使用模式就分为两种。

一种是批处理模式（batch processing），即计算出在每个样本上目标函数的梯度，再将不同样本的梯度进行求和，求和的结果作为本次更新中目标函数的梯度。在批处理模式中，每次更新都要遍历训练集中所有的样本，因而运算量较大。

另一种模式叫做随机梯度下降法（stochastic gradient descent），它在每次更新中只使用一个样本，下一次更新再使用另外一个样本，在不断迭代的更新过程中实现对所有样本的遍历。有趣的是，事实表明当训练集的规模较大时，随机梯度下降法的性能更佳。

Viewpoints #

From #

04 数学基础 | 不畏浮云遮望眼：最优化方法

Links #