23 学习率衰减(Learning Rate Decay)
一、为什么要使用学习率衰减? 在使用 Mini-batch 梯度下降法 时: Mini-batch 的样本数量较小(如 64 或 128),导致梯度估计存在 噪声(noise) ; 若使用 固定学习率 $\alpha$,优化过程会在最优值附近 持续震荡,无法精确收敛; 如果 随训练进程逐渐减小学习率,初期快速下降,后期精细调整,可使参数更稳定地收敛到最小值附近。 ...
一、为什么要使用学习率衰减? 在使用 Mini-batch 梯度下降法 时: Mini-batch 的样本数量较小(如 64 或 128),导致梯度估计存在 噪声(noise) ; 若使用 固定学习率 $\alpha$,优化过程会在最优值附近 持续震荡,无法精确收敛; 如果 随训练进程逐渐减小学习率,初期快速下降,后期精细调整,可使参数更稳定地收敛到最小值附近。 ...
✅ 简介 在深度学习的发展历程中,许多研究人员提出了新的优化算法,但大多数仅在特定问题上表现良好,缺乏泛化能力。因此,社区对新优化算法持谨慎态度。 而 Adam(Adaptive Moment Estimation) 是少数被广泛验证、适用于多种神经网络架构的有效优化算法之一。它结合了: 动量法(Momentum) RMSProp 从而实现了快速且稳定的训练...
🧠 RMSprop 算法详解总结 一、问题背景:梯度下降中的震荡问题 在标准(小批量)梯度下降中,若损失函数在某些参数方向上曲率大(如垂直方向),而在另一些方向上曲率小(如水平方向),会导致: 垂直方向:梯度大 → 更新步长过大 → 出现剧烈震荡; 水平方向:梯度小 → 更新缓慢 → 收敛速度慢。 目标:抑制震荡方向的更新幅度,加速平缓方向的学习。 二、RM...
🧠 一、动机:为什么需要动量? 标准梯度下降在优化具有“狭长椭圆”等高线的损失函数时,会出现剧烈振荡(尤其在垂直方向),导致: 收敛速度慢; 无法使用较大的学习率(否则会发散)。 目标:希望在垂直方向减速(抑制振荡),在水平方向加速(快速逼近最小值)。 ⚙️ 二、动量法的核心思想 对梯度进行指数加权平均(Exponentially Weighted...
一、背景:什么是指数加权平均? 在优化算法(如 Momentum、RMSProp、Adam)中,我们经常使用 指数加权平均(Exponentially Weighted Average, EWA) 来平滑序列数据(例如梯度、温度等)。 其递推公式为: [v_t = \beta v_{t-1} + (1 - \beta) \theta_t] 其中: $v_t$:第...
一、什么是指数加权平均? 指数加权平均是一种高效计算时间序列数据滑动平均值的方法,广泛应用于深度学习中的优化算法(如 Momentum、RMSProp、Adam 等)。 其核心思想是:对近期数据赋予更高权重,对远期数据赋予指数衰减的权重。 二、核心公式 指数加权平均的递推公式为: [v_t = \beta v_{t-1} + (1 - \beta) \theta_t...
目的:为后续学习更高效的优化算法(如 Momentum、Adam)打下基础。 别名:在统计学中也称为 指数加权滑动平均(Exponentially Weighted Moving Average, EWMA) 。 一、问题背景:从伦敦气温数据说起 假设我们有一年(365 天)伦敦每日气温数据 $\theta_1, \theta_2, \dots, \theta_{365}$(...
一、背景:为什么需要 Mini-batch Gradient Descent? 在训练大型神经网络时,直接使用 Batch Gradient Descent(全批量梯度下降) 或 Stochastic Gradient Descent(随机梯度下降) 都存在明显缺点: Batch GD:每次更新需遍历整个训练集,计算慢,尤其当训练样本数 $m$ 很大时; SGD:每次只...
一、背景与动机 深度学习通常在大规模数据集上训练神经网络。若使用全批量梯度下降(Batch Gradient Descent) ,每次参数更新需遍历全部 $m$ 个训练样本: [\theta := \theta - \alpha \nabla_\theta J(\theta; X, Y)] 其中 $X \in \mathbb{R}^{n_x \times m}$,$Y \in ...
一、Yoshua Bengio 的学术起源 启蒙:少年时期受科幻小说启发,对人工智能产生兴趣。 1985年:进入研究生阶段,开始阅读神经网络论文,被“联结主义”(connectionism)思想吸引——即智能源于大量简单单元(神经元)的分布式协同,而非传统AI中的符号逻辑或“祖母细胞”(grandmother cell)式表示。 早期研究方向: ...