23 学习率衰减（Learning Rate Decay）

一、为什么要使用学习率衰减？　　在使用 Mini-batch 梯度下降法时： Mini-batch 的样本数量较小（如 64 或 128），导致梯度估计存在噪声（noise）；若使用固定学习率 $\alpha$，优化过程会在最优值附近持续震荡，无法精确收敛；如果随训练进程逐渐减小学习率，初期快速下降，后期精细调整，可使参数更稳定地收敛到最小值附近。 ...

2026/01/06 改进深度神经网络

22 Adam 优化算法（Adam Optimization Algorithm）

✅ 简介　　在深度学习的发展历程中，许多研究人员提出了新的优化算法，但大多数仅在特定问题上表现良好，缺乏泛化能力。因此，社区对新优化算法持谨慎态度。　　而 Adam（Adaptive Moment Estimation）是少数被广泛验证、适用于多种神经网络架构的有效优化算法之一。它结合了：动量法（Momentum） RMSProp 　　从而实现了快速且稳定的训练...

2026/01/02 改进深度神经网络

21 RMSprop（Root Mean Square Propagation）优化算法

🧠 RMSprop 算法详解总结一、问题背景：梯度下降中的震荡问题　　在标准（小批量）梯度下降中，若损失函数在某些参数方向上曲率大（如垂直方向），而在另一些方向上曲率小（如水平方向），会导致：垂直方向：梯度大 → 更新步长过大 → 出现剧烈震荡；水平方向：梯度小 → 更新缓慢 → 收敛速度慢。　　目标：抑制震荡方向的更新幅度，加速平缓方向的学习。二、RM...

2026/01/02 改进深度神经网络

20 动量梯度下降法（Gradient Descent with Momentum）

🧠 一、动机：为什么需要动量？　　标准梯度下降在优化具有“狭长椭圆”等高线的损失函数时，会出现剧烈振荡（尤其在垂直方向），导致：收敛速度慢；无法使用较大的学习率（否则会发散）。目标：希望在垂直方向减速（抑制振荡），在水平方向加速（快速逼近最小值）。 ⚙️ 二、动量法的核心思想对梯度进行指数加权平均（Exponentially Weighted...

2026/01/02 改进深度神经网络

19 指数加权平均中的偏差修正（Bias Correction in Exponentially Weighted Averages）

一、背景：什么是指数加权平均？　　在优化算法（如 Momentum、RMSProp、Adam）中，我们经常使用指数加权平均（Exponentially Weighted Average, EWA）来平滑序列数据（例如梯度、温度等）。　　其递推公式为： [v_t = \beta v_{t-1} + (1 - \beta) \theta_t] 　　其中： $v_t$：第...

2026/01/02 改进深度神经网络

18 了解指数加权平均

一、什么是指数加权平均？　　指数加权平均是一种高效计算时间序列数据滑动平均值的方法，广泛应用于深度学习中的优化算法（如 Momentum、RMSProp、Adam 等）。　　其核心思想是：对近期数据赋予更高权重，对远期数据赋予指数衰减的权重。二、核心公式　　指数加权平均的递推公式为： [v_t = \beta v_{t-1} + (1 - \beta) \theta_t...

2026/01/02 改进深度神经网络

17 指数加权平均（Exponentially Weighted Averages）

目的：为后续学习更高效的优化算法（如 Momentum、Adam）打下基础。别名：在统计学中也称为指数加权滑动平均（Exponentially Weighted Moving Average, EWMA）。一、问题背景：从伦敦气温数据说起假设我们有一年（365 天）伦敦每日气温数据 $\theta_1, \theta_2, \dots, \theta_{365}$（...

2026/01/02 改进深度神经网络

16 了解小批量梯度下降法

一、背景：为什么需要 Mini-batch Gradient Descent？　　在训练大型神经网络时，直接使用 Batch Gradient Descent（全批量梯度下降）或 Stochastic Gradient Descent（随机梯度下降）都存在明显缺点： Batch GD：每次更新需遍历整个训练集，计算慢，尤其当训练样本数 $m$ 很大时； SGD：每次只...

2026/01/02 改进深度神经网络

15 优化算法 —— Mini-batch Gradient Descent（小批量梯度下降）

一、背景与动机　　深度学习通常在大规模数据集上训练神经网络。若使用全批量梯度下降（Batch Gradient Descent），每次参数更新需遍历全部 $m$ 个训练样本： [\theta := \theta - \alpha \nabla_\theta J(\theta; X, Y)] 　　其中 $X \in \mathbb{R}^{n_x \times m}$，$Y \in ...

2026/01/02 改进深度神经网络

约书亚·本吉奥访谈

一、Yoshua Bengio 的学术起源启蒙：少年时期受科幻小说启发，对人工智能产生兴趣。 1985年：进入研究生阶段，开始阅读神经网络论文，被“联结主义”（connectionism）思想吸引——即智能源于大量简单单元（神经元）的分布式协同，而非传统AI中的符号逻辑或“祖母细胞”（grandmother cell）式表示。早期研究方向： ...

2026/01/02 改进深度神经网络

23 学习率衰减（Learning Rate Decay）

22 Adam 优化算法（Adam Optimization Algorithm）

21 RMSprop（Root Mean Square Propagation） 优化算法

20 动量梯度下降法（Gradient Descent with Momentum）

19 指数加权平均中的偏差修正（Bias Correction in Exponentially Weighted Averages）

18 了解指数加权平均

17 指数加权平均（Exponentially Weighted Averages）

16 了解小批量梯度下降法

15 优化算法 —— Mini-batch Gradient Descent（小批量梯度下降）

约书亚·本吉奥访谈

热门标签

21 RMSprop（Root Mean Square Propagation）优化算法