22 Adam 优化算法（Adam Optimization Algorithm）

发表于 2026-01-02 本文字数： 1k 阅读时长 ≈ 4 分钟

　　在深度学习的发展历程中，许多研究人员提出了新的优化算法，但大多数仅在特定问题上表现良好，缺乏泛化能力。因此，社区对新优化算法持谨慎态度。

　　而 Adam（Adaptive Moment Estimation） 是少数被广泛验证、适用于多种神经网络架构的有效优化算法之一。它结合了：

　　从而实现了快速且稳定的训练效果。

🔍 推荐理由：Adam 被广泛使用，性能稳定，是训练神经网络时的首选优化器之一。

🧠 Adam 算法原理

　　Adam 是一种自适应学习率的优化算法，其核心思想是：

同时计算梯度的一阶矩（均值）和二阶矩（未中心化的方差），并利用这两个估计来动态调整每个参数的学习率。

Vdw = 0      # 动量项（一阶矩）
Sdw = 0      # RMSProp 项（二阶矩）
Vdb = 0
Sdb = 0

计算当前 mini-batch 的梯度

$$
dw, db \leftarrow \frac{\partial J}{\partial w}, \frac{\partial J}{\partial b}
$$
更新动量项（一阶矩估计）——类似 Momentum

$$
v_{dw} = \beta_1 v_{dw} + (1 - \beta_1) dw
$$

$$
v_{db} = \beta_1 v_{db} + (1 - \beta_1) db
$$
更新 RMSProp 项（二阶矩估计）

$$
s_{dw} = \beta_2 s_{dw} + (1 - \beta_2) dw^2
$$

$$
s_{db} = \beta_2 s_{db} + (1 - \beta_2) db^2
$$

⚠️ 注意：dw² 表示逐元素平方（element-wise squaring）
偏差校正（Bias Correction）
由于初始时刻 v 和 s 都为 0，导致前几轮估计有偏，需进行校正：

$$
v_{dw}^{\text{corrected}} = \frac{v_{dw}}{1 - \beta_1^T}
$$

$$
v_{db}^{\text{corrected}} = \frac{v_{db}}{1 - \beta_1^T}
$$

$$
s_{dw}^{\text{corrected}} = \frac{s_{dw}}{1 - \beta_2^T}
$$

$$
s_{db}^{\text{corrected}} = \frac{s_{db}}{1 - \beta_2^T}
$$
参数更新

$$
w := w - \alpha \cdot \frac{v_{dw}^{\text{corrected}}}{\sqrt{s_{dw}^{\text{corrected}}} + \epsilon}
$$

$$
b := b - \alpha \cdot \frac{v_{db}^{\text{corrected}}}{\sqrt{s_{db}^{\text{corrected}}} + \epsilon}
$$

✅ 实践建议：

$\beta_1$、$\beta_2$、$\epsilon$ 通常使用默认值。

只需调整 $\alpha$ 即可获得良好效果。

很少有人手动调节 $\beta_1$、$\beta_2$ 或 $\epsilon$。

　　因此：

$$
\text{Adam} = \text{Adaptive Moment Estimation}
$$

💡 注：虽然名字叫 Adam，但与研究者 Adam Coates 无关（只是巧合）。

方法	是否包含动量	是否自适应学习率	是否需要调参多
SGD	❌	❌	✅（需调 α）
Momentum	✅	❌	✅
RMSProp	❌	✅	✅
Adam	✅	✅	❌（基本用默认）

✅ Adam = Momentum + RMSProp 的融合体，兼具两者优点。

Adam 是一种结合动量和自适应学习率的高效优化算法，通过估计梯度的一阶和二阶矩实现快速收敛，是现代深度学习中最常用、最可靠的优化器之一。

　　✅ 推荐你在实践中优先尝试 Adam，配合合理的学习率调度（后续视频将讲“学习率衰减”），可显著提升训练效率。

　　‍