24 深度学习中的优化挑战 —— 局部最优 vs 鞍点 vs 平稳段

发表于 2026/01/06 更新于 2026/01/05

作者 Leon Yi

6 分钟阅读

一、传统观点 vs 现代认知

1. 早期担忧：陷入“极差”的局部最优

在低维空间（如二维参数空间 $W_1, W_2$）中，损失函数 $J(W_1, W_2)$ 的可视化图像常显示多个局部最小值（local minima）。
直觉认为：梯度下降等优化算法可能被困在这些局部最优中，无法到达全局最优（global minimum）。

❌ 但这一直觉在高维深度学习场景中是误导性的。

二、高维空间中的真实情况：鞍点主导

2.1 高维空间的几何特性

神经网络通常有成千上万甚至百万级参数（例如 $d = 20,000$ 维）。
在如此高维空间中，一个梯度为零的点（即 $\nabla J(\mathbf{W}) = \mathbf{0}$）几乎不可能是局部最小值。

2.2 为什么？

局部最小值要求：所有方向上的二阶导数（Hessian 矩阵的特征值）都为正（即函数在所有方向都向上弯曲）。
而在高维空间中，Hessian 矩阵的特征值有正有负的概率远高于全为正。
因此，绝大多数梯度为零的点实际上是鞍点（saddle points）。

✅ 结论：在高维深度学习中，局部最优极少出现，鞍点才是常态。

2.3 鞍点的定义与几何形象

鞍点：某点处梯度为零（$\nabla J = \mathbf{0}$），但既非局部最小也非局部最大。
在某些方向上函数向上弯曲（凸），另一些方向向下弯曲（凹）。
类比：马鞍形状 —— 沿马背方向下凹，沿横向方向上凸。

　　数学表达：

\[\nabla J(\mathbf{W}^*) = \mathbf{0}, \quad \text{但 Hessian } \mathbf{H} = \nabla^2 J(\mathbf{W}^*) \text{ 既有正特征值，也有负特征值}\]

三、真正的问题：平稳段（Plateaus）

3.1 什么是平稳段？

平稳段是指损失函数曲面中梯度接近于零的大片区域，即：
\[\|\nabla J(\mathbf{W})\| \approx 0 \quad \text{在较大区域内成立}\]
此时优化算法（如标准梯度下降）更新非常缓慢：
\[\mathbf{W}_{t+1} = \mathbf{W}_t - \alpha \nabla J(\mathbf{W}_t) \approx \mathbf{W}_t\]

3.2 为什么平稳段更危险？

不像鞍点（可通过微小扰动逃离），平稳段会导致长时间停滞，训练效率极低。
尤其在深层网络中，梯度消失现象会加剧平稳段问题。

四、解决方案：先进优化算法

　　为应对平稳段导致的学习缓慢，现代优化器引入动量（momentum）或自适应学习率机制：

算法	核心思想	如何帮助走出平稳段
Momentum	引入速度项，累积历史梯度方向	抑制振荡，加速穿越平坦区域
RMSprop	对每个参数自适应调整学习率，基于梯度平方的滑动平均	在梯度小的方向增大步长
Adam	结合 Momentum + RMSprop	同时利用动量和自适应学习率，高效穿越平稳段

　　更新公式示例（Adam）：

\[\begin{aligned} \mathbf{m}_t &= \beta_1 \mathbf{m}_{t-1} + (1 - \beta_1) \nabla J(\mathbf{W}_t) \\ \mathbf{v}_t &= \beta_2 \mathbf{v}_{t-1} + (1 - \beta_2) (\nabla J(\mathbf{W}_t))^2 \\ \hat{\mathbf{m}}_t &= \frac{\mathbf{m}_t}{1 - \beta_1^t}, \quad \hat{\mathbf{v}}_t = \frac{\mathbf{v}_t}{1 - \beta_2^t} \\ \mathbf{W}_{t+1} &= \mathbf{W}_t - \alpha \frac{\hat{\mathbf{m}}_t}{\sqrt{\hat{\mathbf{v}}_t} + \epsilon} \end{aligned}\]

✅ 关键优势：即使在梯度接近零的平稳段，这些算法也能通过历史信息或自适应机制维持有效更新，显著加速收敛。

五、核心结论总结

局部最优不是深度学习的主要障碍
- 在高维参数空间中，局部最小值出现概率极低（指数级小，如 $2^{-d}$）。
- 绝大多数临界点（$\nabla J = 0$）是鞍点。
真正的挑战是平稳段
- 导致梯度接近零，学习极其缓慢。
- 是实际训练中更常见、更棘手的问题。
先进优化器至关重要
- Momentum、RMSprop、Adam 等能有效缓解平稳段问题。
- 推荐在实践中优先使用 Adam 作为默认优化器。
警惕低维直觉的误导
- 人类对二维/三维函数的可视化直觉不适用于高维深度学习。
- 高维空间的几何性质截然不同，需依赖理论与实验而非想象。

六、延伸思考（供进阶学习）

Hessian 矩阵谱分析：研究损失函数在临界点附近的曲率分布。
梯度噪声的作用：随机梯度下降（SGD）中的噪声有助于逃离鞍点。
损失景观（Loss Landscape）：近年研究发现，过参数化网络的损失面往往“宽而平”，有利于泛化。

改进深度神经网络

本文由作者按照 CC BY 4.0 进行授权