30 Batch Normalization 为何有效？

发表于 2026/01/06 更新于 2026/01/05

作者 Leon Yi

6 分钟阅读

　　在传统神经网络中，我们常对输入特征 $x$ 进行归一化（如减去均值、除以标准差），使其具有相近的尺度（例如均值为 0，方差为 1），从而加速优化过程。
Batch Norm 将这一思想推广到每一层的隐藏单元（即中间激活值），使得每一层的输入分布更稳定。

✅ 关键点：不仅输入 $x$ 需要归一化，隐藏层的激活值 $a^{[l]}$ 或线性输出 $z^{[l]}$ 同样受益于归一化。

对每一层的线性输出 $z^{[l]}$（即 $z^{[l]} = W^{[l]} a^{[l-1]} + b^{[l]}$）进行归一化：
\[\hat{z}_i^{[l]} = \frac{z_i^{[l]} - \mu_{\text{batch}}}{\sqrt{\sigma_{\text{batch}}^2 + \epsilon}}\]
其中：
- $\mu_{\text{batch}} = \frac{1}{m} \sum_{i=1}^m z_i^{[l]}$ 是当前 mini-batch 的均值，
- $\sigma_{\text{batch}}^2 = \frac{1}{m} \sum_{i=1}^m (z_i^{[l]} - \mu_{\text{batch}})^2$ 是方差，
- $\epsilon$ 是数值稳定小常数（如 $10^{-8}$）。
然后通过可学习的仿射变换恢复表达能力：
\[\tilde{z}_i^{[l]} = \gamma^{[l]} \hat{z}_i^{[l]} + \beta^{[l]}\]
其中 $\gamma^{[l]}$ 和 $\beta^{[l]}$ 是可训练参数，允许网络自主决定是否需要非标准化的分布（例如均值非 0、方差非 1）。

✅ 效果：即使前层参数更新导致 $z^{[l]}$ 变化，其归一化后的 $\hat{z}^{[l]}$ 仍保持稳定的均值和方差，从而减弱层间耦合，使每层能更独立地学习。

⚠️ 注意：
若使用更大的 batch size（如 512），统计噪声减小 → 正则化效果减弱。
不要将 Batch Norm 主要用作正则化手段！它的主要目的是加速训练和提升稳定性。
可与 Dropout 联合使用，以获得更强的正则化。

训练时：对每个 mini-batch 单独计算 $\mu_{\text{batch}}, \sigma_{\text{batch}}$。
推理时（测试/预测）：
- 无法使用 mini-batch（可能只输入单个样本）。
- 需使用训练期间累积的全局统计量（如指数移动平均 EMA）：
  \[\mu_{\text{pop}} = \text{EMA of } \mu_{\text{batch}}, \quad \sigma_{\text{pop}}^2 = \text{EMA of } \sigma_{\text{batch}}^2\]
- 推理时归一化使用 $\mu_{\text{pop}}, \sigma_{\text{pop}}^2$，确保输出确定性。

✅ 这是实现 Batch Norm 时必须处理的关键工程细节！

原因	说明
1. 加速训练	通过归一化隐藏层激活值，使优化 landscape 更平滑，梯度更稳定，允许使用更高学习率。
2. 缓解内部协变量偏移	减少前层参数更新对后层输入分布的影响，使各层学习更独立、更高效。
3. 轻微正则化	mini-batch 统计噪声带来类似 Dropout 的泛化提升（副作用，非主要目的）。

归一化：
\[\hat{z}_i^{[l]} = \frac{z_i^{[l]} - \mu_B}{\sqrt{\sigma_B^2 + \epsilon}}, \quad \mu_B = \frac{1}{m} \sum_{i=1}^m z_i^{[l]}, \quad \sigma_B^2 = \frac{1}{m} \sum_{i=1}^m (z_i^{[l]} - \mu_B)^2\]
缩放与平移：
\[\tilde{z}_i^{[l]} = \gamma^{[l]} \hat{z}_i^{[l]} + \beta^{[l]}\]
推理时使用总体统计量：
\[\tilde{z}_i^{[l]} = \gamma^{[l]} \frac{z_i^{[l]} - \mu_{\text{pop}}}{\sqrt{\sigma_{\text{pop}}^2 + \epsilon}} + \beta^{[l]}\]

本文由作者按照 CC BY 4.0 进行授权

热门标签