28 归一化网络的激活函数（Normalizing activations in a network）

1. 动机：为什么需要归一化？在训练浅层模型（如 Logistic 回归）时，对输入特征 $x$ 进行归一化（减均值、除标准差）能显著加速收敛。原因：使损失函数的等高线更“圆”，优化路径更直接。在深度神经网络中，每一层的输入实际上是前一层的激活输出（如 $a^{[l-1]}$ 或 $z^{[l-1]}$）。随...

2026/01/06 改进深度神经网络

27 超参数调优的两种策略 —— “熊猫方式” vs. “鱼子酱方式”

一、核心思想　　在深度学习实践中，超参数的选择对模型性能至关重要。由于超参数空间庞大且非凸，无法通过梯度下降直接优化，因此需要系统性地进行搜索。吴恩达在此节中强调了组织超参数搜索过程的两种主流策略，并指出其适用场景取决于可用计算资源。二、关键观点提炼 1. 跨领域迁移超参数经验深度学习各子领域（如计算机视觉、语音识别、NLP）之间存在大量方法互鉴。 ...

2026/01/06 改进深度神经网络

26 为超参数选择合适的采样尺度（Scale）

一、核心思想超参数不应在原始线性空间中均匀随机采样，而应根据其对模型性能的影响敏感度，选择合适的尺度（scale）进行采样，例如：对数尺度（log scale）用于学习率 $\alpha$ 反向对数尺度（通过 $1 - \beta$）用于动量参数 $\beta$ 　　这样可以更均匀地分配搜索资源，避免在不敏感区域浪费计算，在敏感区域覆盖不足。二、不同超...

2026/01/06 改进深度神经网络

25 超参数调试（Hyperparameter Tuning）

一、为什么需要超参数调试？　　在深度学习中，模型性能高度依赖于超参数（hyperparameters）的选择。这些参数不能通过训练自动学习，必须由开发者手动设定或通过搜索策略优化。　　常见的超参数包括：学习率（learning rate）：$\alpha$ 动量参数（Momentum）：$\beta$ Adam 优化器参数：$\beta_1, \beta_2, \v...

2026/01/06 改进深度神经网络

24 深度学习中的优化挑战 —— 局部最优 vs 鞍点 vs 平稳段

一、传统观点 vs 现代认知 1. 早期担忧：陷入“极差”的局部最优在低维空间（如二维参数空间 $W_1, W_2$）中，损失函数 $J(W_1, W_2)$ 的可视化图像常显示多个局部最小值（local minima）。直觉认为：梯度下降等优化算法可能被困在这些局部最优中，无法到达全局最优（global minimum）。 ❌ 但这一直觉在高维深度学习场景中是误...

2026/01/06 改进深度神经网络

23 学习率衰减（Learning Rate Decay）

一、为什么要使用学习率衰减？　　在使用 Mini-batch 梯度下降法时： Mini-batch 的样本数量较小（如 64 或 128），导致梯度估计存在噪声（noise）；若使用固定学习率 $\alpha$，优化过程会在最优值附近持续震荡，无法精确收敛；如果随训练进程逐渐减小学习率，初期快速下降，后期精细调整，可使参数更稳定地收敛到最小值附近。 ...

2026/01/06 改进深度神经网络

22 Adam 优化算法（Adam Optimization Algorithm）

✅ 简介　　在深度学习的发展历程中，许多研究人员提出了新的优化算法，但大多数仅在特定问题上表现良好，缺乏泛化能力。因此，社区对新优化算法持谨慎态度。　　而 Adam（Adaptive Moment Estimation）是少数被广泛验证、适用于多种神经网络架构的有效优化算法之一。它结合了：动量法（Momentum） RMSProp 　　从而实现了快速且稳定的训练...

2026/01/02 改进深度神经网络

21 RMSprop（Root Mean Square Propagation）优化算法

🧠 RMSprop 算法详解总结一、问题背景：梯度下降中的震荡问题　　在标准（小批量）梯度下降中，若损失函数在某些参数方向上曲率大（如垂直方向），而在另一些方向上曲率小（如水平方向），会导致：垂直方向：梯度大 → 更新步长过大 → 出现剧烈震荡；水平方向：梯度小 → 更新缓慢 → 收敛速度慢。　　目标：抑制震荡方向的更新幅度，加速平缓方向的学习。二、RM...

2026/01/02 改进深度神经网络

20 动量梯度下降法（Gradient Descent with Momentum）

🧠 一、动机：为什么需要动量？　　标准梯度下降在优化具有“狭长椭圆”等高线的损失函数时，会出现剧烈振荡（尤其在垂直方向），导致：收敛速度慢；无法使用较大的学习率（否则会发散）。目标：希望在垂直方向减速（抑制振荡），在水平方向加速（快速逼近最小值）。 ⚙️ 二、动量法的核心思想对梯度进行指数加权平均（Exponentially Weighted...

2026/01/02 改进深度神经网络

19 指数加权平均中的偏差修正（Bias Correction in Exponentially Weighted Averages）

一、背景：什么是指数加权平均？　　在优化算法（如 Momentum、RMSProp、Adam）中，我们经常使用指数加权平均（Exponentially Weighted Average, EWA）来平滑序列数据（例如梯度、温度等）。　　其递推公式为： [v_t = \beta v_{t-1} + (1 - \beta) \theta_t] 　　其中： $v_t$：第...

2026/01/02 改进深度神经网络

28 归一化网络的激活函数（Normalizing activations in a network）

27 超参数调优的两种策略 —— “熊猫方式” vs. “鱼子酱方式”

26 为超参数选择合适的采样尺度（Scale）

25 超参数调试（Hyperparameter Tuning）

24 深度学习中的优化挑战 —— 局部最优 vs 鞍点 vs 平稳段

23 学习率衰减（Learning Rate Decay）

22 Adam 优化算法（Adam Optimization Algorithm）

21 RMSprop（Root Mean Square Propagation） 优化算法

20 动量梯度下降法（Gradient Descent with Momentum）

19 指数加权平均中的偏差修正（Bias Correction in Exponentially Weighted Averages）

热门标签

21 RMSprop（Root Mean Square Propagation）优化算法