24 深度学习中的优化挑战 —— 局部最优 vs 鞍点 vs 平稳段
24 深度学习中的优化挑战 —— 局部最优 vs 鞍点 vs 平稳段
一、传统观点 vs 现代认知
1. 早期担忧:陷入“极差”的局部最优
- 在低维空间(如二维参数空间 $W_1, W_2$)中,损失函数 $J(W_1, W_2)$ 的可视化图像常显示多个局部最小值(local minima)。
- 直觉认为:梯度下降等优化算法可能被困在这些局部最优中,无法到达全局最优(global minimum)。
❌ 但这一直觉在高维深度学习场景中是误导性的。
二、高维空间中的真实情况:鞍点主导
2.1 高维空间的几何特性
- 神经网络通常有成千上万甚至百万级参数(例如 $d = 20,000$ 维)。
- 在如此高维空间中,一个梯度为零的点(即 $\nabla J(\mathbf{W}) = \mathbf{0}$)几乎不可能是局部最小值。
2.2 为什么?
- 局部最小值要求:所有方向上的二阶导数(Hessian 矩阵的特征值)都为正(即函数在所有方向都向上弯曲)。
- 而在高维空间中,Hessian 矩阵的特征值有正有负的概率远高于全为正。
- 因此,绝大多数梯度为零的点实际上是鞍点(saddle points)。
✅ 结论:在高维深度学习中,局部最优极少出现,鞍点才是常态。
2.3 鞍点的定义与几何形象
- 鞍点:某点处梯度为零($\nabla J = \mathbf{0}$),但既非局部最小也非局部最大。
- 在某些方向上函数向上弯曲(凸),另一些方向向下弯曲(凹)。
- 类比:马鞍形状 —— 沿马背方向下凹,沿横向方向上凸。
数学表达:
\[\nabla J(\mathbf{W}^*) = \mathbf{0}, \quad \text{但 Hessian } \mathbf{H} = \nabla^2 J(\mathbf{W}^*) \text{ 既有正特征值,也有负特征值}\]三、真正的问题:平稳段(Plateaus)
3.1 什么是平稳段?
平稳段是指损失函数曲面中梯度接近于零的大片区域,即:
\[\|\nabla J(\mathbf{W})\| \approx 0 \quad \text{在较大区域内成立}\]此时优化算法(如标准梯度下降)更新非常缓慢:
\[\mathbf{W}_{t+1} = \mathbf{W}_t - \alpha \nabla J(\mathbf{W}_t) \approx \mathbf{W}_t\]
3.2 为什么平稳段更危险?
- 不像鞍点(可通过微小扰动逃离),平稳段会导致长时间停滞,训练效率极低。
- 尤其在深层网络中,梯度消失现象会加剧平稳段问题。
四、解决方案:先进优化算法
为应对平稳段导致的学习缓慢,现代优化器引入动量(momentum)或自适应学习率机制:
| 算法 | 核心思想 | 如何帮助走出平稳段 |
|---|---|---|
| Momentum | 引入速度项,累积历史梯度方向 | 抑制振荡,加速穿越平坦区域 |
| RMSprop | 对每个参数自适应调整学习率,基于梯度平方的滑动平均 | 在梯度小的方向增大步长 |
| Adam | 结合 Momentum + RMSprop | 同时利用动量和自适应学习率,高效穿越平稳段 |
更新公式示例(Adam):
\[\begin{aligned} \mathbf{m}_t &= \beta_1 \mathbf{m}_{t-1} + (1 - \beta_1) \nabla J(\mathbf{W}_t) \\ \mathbf{v}_t &= \beta_2 \mathbf{v}_{t-1} + (1 - \beta_2) (\nabla J(\mathbf{W}_t))^2 \\ \hat{\mathbf{m}}_t &= \frac{\mathbf{m}_t}{1 - \beta_1^t}, \quad \hat{\mathbf{v}}_t = \frac{\mathbf{v}_t}{1 - \beta_2^t} \\ \mathbf{W}_{t+1} &= \mathbf{W}_t - \alpha \frac{\hat{\mathbf{m}}_t}{\sqrt{\hat{\mathbf{v}}_t} + \epsilon} \end{aligned}\]✅ 关键优势:即使在梯度接近零的平稳段,这些算法也能通过历史信息或自适应机制维持有效更新,显著加速收敛。
五、核心结论总结
局部最优不是深度学习的主要障碍
- 在高维参数空间中,局部最小值出现概率极低(指数级小,如 $2^{-d}$)。
- 绝大多数临界点($\nabla J = 0$)是鞍点。
真正的挑战是平稳段
- 导致梯度接近零,学习极其缓慢。
- 是实际训练中更常见、更棘手的问题。
先进优化器至关重要
- Momentum、RMSprop、Adam 等能有效缓解平稳段问题。
- 推荐在实践中优先使用 Adam 作为默认优化器。
警惕低维直觉的误导
- 人类对二维/三维函数的可视化直觉不适用于高维深度学习。
- 高维空间的几何性质截然不同,需依赖理论与实验而非想象。
六、延伸思考(供进阶学习)
- Hessian 矩阵谱分析:研究损失函数在临界点附近的曲率分布。
- 梯度噪声的作用:随机梯度下降(SGD)中的噪声有助于逃离鞍点。
- 损失景观(Loss Landscape):近年研究发现,过参数化网络的损失面往往“宽而平”,有利于泛化。
本文由作者按照 CC BY 4.0 进行授权