DevDino 🦖

28 归一化网络的激活函数（Normalizing activations in a network）

发表于 2026-01-05 本文字数： 1k 阅读时长 ≈ 4 分钟

1. 动机：为什么需要归一化？

在训练浅层模型（如 Logistic 回归）时，对输入特征 $x$ 进行归一化（减均值、除标准差）能显著加速收敛。
- 原因：使损失函数的等高线更“圆”，优化路径更直接。
在深度神经网络中，每一层的输入实际上是前一层的激活输出（如 $a^{[l-1]}$ 或 $z^{[l-1]}$）。
随着网络加深，内部协变量偏移（Internal Covariate Shift） 问题出现：
- 每一层的输入分布会随着前层参数更新而不断变化，导致训练不稳定、收敛慢。
核心思想：不仅归一化输入 $x$，还对每一隐藏层的中间激活值进行归一化，从而稳定训练过程。

阅读全文 »

27 超参数调优的两种策略 —— “熊猫方式” vs. “鱼子酱方式”

发表于 2026-01-05 本文字数： 1.1k 阅读时长 ≈ 4 分钟

一、核心思想

　　在深度学习实践中，超参数的选择对模型性能至关重要。由于超参数空间庞大且非凸，无法通过梯度下降直接优化，因此需要系统性地进行搜索。吴恩达在此节中强调了组织超参数搜索过程的两种主流策略，并指出其适用场景取决于可用计算资源。

阅读全文 »

26 为超参数选择合适的采样尺度（Scale）

发表于 2026-01-05 本文字数： 996 阅读时长 ≈ 4 分钟

一、核心思想

超参数不应在原始线性空间中均匀随机采样，而应根据其对模型性能的影响敏感度，选择合适的尺度（scale） 进行采样，例如：

阅读全文 »

25 超参数调试（Hyperparameter Tuning）

发表于 2026-01-05 本文字数： 950 阅读时长 ≈ 3 分钟

一、为什么需要超参数调试？

　　在深度学习中，模型性能高度依赖于超参数（hyperparameters）的选择。这些参数不能通过训练自动学习，必须由开发者手动设定或通过搜索策略优化。

阅读全文 »

24 深度学习中的优化挑战 —— 局部最优 vs 鞍点 vs 平稳段

发表于 2026-01-05 本文字数： 1.2k 阅读时长 ≈ 4 分钟

一、传统观点 vs 现代认知

1. 早期担忧：陷入“极差”的局部最优

阅读全文 »