DevDino 🦖

我曾七次鄙视自己的灵魂

1. 动机:为什么需要归一化?

  • 在训练浅层模型(如 Logistic 回归)时,对输入特征 $x$ 进行归一化(减均值、除标准差)能显著加速收敛。

    • 原因:使损失函数的等高线更“圆”,优化路径更直接。
  • 在深度神经网络中,每一层的输入实际上是前一层的激活输出(如 $a^{[l-1]}$ 或 $z^{[l-1]}$)。

  • 随着网络加深,内部协变量偏移(Internal Covariate Shift) 问题出现:

    • 每一层的输入分布会随着前层参数更新而不断变化,导致训练不稳定、收敛慢。
  • 核心思想:不仅归一化输入 $x$,还对每一隐藏层的中间激活值进行归一化,从而稳定训练过程。

阅读全文 »

一、核心思想

  在深度学习实践中,超参数的选择对模型性能至关重要。由于超参数空间庞大且非凸,无法通过梯度下降直接优化,因此需要系统性地进行搜索。吴恩达在此节中强调了组织超参数搜索过程的两种主流策略,并指出其适用场景取决于可用计算资源

阅读全文 »

一、为什么需要超参数调试?

  在深度学习中,模型性能高度依赖于超参数(hyperparameters)的选择。这些参数不能通过训练自动学习,必须由开发者手动设定或通过搜索策略优化。

阅读全文 »