28 归一化网络的激活函数(Normalizing activations in a network)
1. 动机:为什么需要归一化? 在训练浅层模型(如 Logistic 回归)时,对输入特征 $x$ 进行归一化(减均值、除标准差)能显著加速收敛。 原因:使损失函数的等高线更“圆”,优化路径更直接。 在深度神经网络中,每一层的输入实际上是前一层的激活输出(如 $a^{[l-1]}$ 或 $z^{[l-1]}$)。 随...
1. 动机:为什么需要归一化? 在训练浅层模型(如 Logistic 回归)时,对输入特征 $x$ 进行归一化(减均值、除标准差)能显著加速收敛。 原因:使损失函数的等高线更“圆”,优化路径更直接。 在深度神经网络中,每一层的输入实际上是前一层的激活输出(如 $a^{[l-1]}$ 或 $z^{[l-1]}$)。 随...
一、核心思想 在深度学习实践中,超参数的选择对模型性能至关重要。由于超参数空间庞大且非凸,无法通过梯度下降直接优化,因此需要系统性地进行搜索。吴恩达在此节中强调了组织超参数搜索过程的两种主流策略,并指出其适用场景取决于可用计算资源。 二、关键观点提炼 1. 跨领域迁移超参数经验 深度学习各子领域(如计算机视觉、语音识别、NLP)之间存在大量方法互鉴。 ...
一、核心思想 超参数不应在原始线性空间中均匀随机采样,而应根据其对模型性能的影响敏感度,选择合适的尺度(scale) 进行采样,例如: 对数尺度(log scale)用于学习率 $\alpha$ 反向对数尺度(通过 $1 - \beta$)用于动量参数 $\beta$ 这样可以更均匀地分配搜索资源,避免在不敏感区域浪费计算,在敏感区域覆盖不足。 二、不同超...
一、为什么需要超参数调试? 在深度学习中,模型性能高度依赖于超参数(hyperparameters)的选择。这些参数不能通过训练自动学习,必须由开发者手动设定或通过搜索策略优化。 常见的超参数包括: 学习率(learning rate):$\alpha$ 动量参数(Momentum):$\beta$ Adam 优化器参数:$\beta_1, \beta_2, \v...
一、传统观点 vs 现代认知 1. 早期担忧:陷入“极差”的局部最优 在低维空间(如二维参数空间 $W_1, W_2$)中,损失函数 $J(W_1, W_2)$ 的可视化图像常显示多个局部最小值(local minima)。 直觉认为:梯度下降等优化算法可能被困在这些局部最优中,无法到达全局最优(global minimum)。 ❌ 但这一直觉在高维深度学习场景中是误...
一、为什么要使用学习率衰减? 在使用 Mini-batch 梯度下降法 时: Mini-batch 的样本数量较小(如 64 或 128),导致梯度估计存在 噪声(noise) ; 若使用 固定学习率 $\alpha$,优化过程会在最优值附近 持续震荡,无法精确收敛; 如果 随训练进程逐渐减小学习率,初期快速下降,后期精细调整,可使参数更稳定地收敛到最小值附近。 ...
✅ 简介 在深度学习的发展历程中,许多研究人员提出了新的优化算法,但大多数仅在特定问题上表现良好,缺乏泛化能力。因此,社区对新优化算法持谨慎态度。 而 Adam(Adaptive Moment Estimation) 是少数被广泛验证、适用于多种神经网络架构的有效优化算法之一。它结合了: 动量法(Momentum) RMSProp 从而实现了快速且稳定的训练...
🧠 RMSprop 算法详解总结 一、问题背景:梯度下降中的震荡问题 在标准(小批量)梯度下降中,若损失函数在某些参数方向上曲率大(如垂直方向),而在另一些方向上曲率小(如水平方向),会导致: 垂直方向:梯度大 → 更新步长过大 → 出现剧烈震荡; 水平方向:梯度小 → 更新缓慢 → 收敛速度慢。 目标:抑制震荡方向的更新幅度,加速平缓方向的学习。 二、RM...
🧠 一、动机:为什么需要动量? 标准梯度下降在优化具有“狭长椭圆”等高线的损失函数时,会出现剧烈振荡(尤其在垂直方向),导致: 收敛速度慢; 无法使用较大的学习率(否则会发散)。 目标:希望在垂直方向减速(抑制振荡),在水平方向加速(快速逼近最小值)。 ⚙️ 二、动量法的核心思想 对梯度进行指数加权平均(Exponentially Weighted...
一、背景:什么是指数加权平均? 在优化算法(如 Momentum、RMSProp、Adam)中,我们经常使用 指数加权平均(Exponentially Weighted Average, EWA) 来平滑序列数据(例如梯度、温度等)。 其递推公式为: [v_t = \beta v_{t-1} + (1 - \beta) \theta_t] 其中: $v_t$:第...