18 了解指数加权平均
一、什么是指数加权平均? 指数加权平均是一种高效计算时间序列数据滑动平均值的方法,广泛应用于深度学习中的优化算法(如 Momentum、RMSProp、Adam 等)。 其核心思想是:对近期数据赋予更高权重,对远期数据赋予指数衰减的权重。 二、核心公式 指数加权平均的递推公式为: [v_t = \beta v_{t-1} + (1 - \beta) \theta_t...
一、什么是指数加权平均? 指数加权平均是一种高效计算时间序列数据滑动平均值的方法,广泛应用于深度学习中的优化算法(如 Momentum、RMSProp、Adam 等)。 其核心思想是:对近期数据赋予更高权重,对远期数据赋予指数衰减的权重。 二、核心公式 指数加权平均的递推公式为: [v_t = \beta v_{t-1} + (1 - \beta) \theta_t...
目的:为后续学习更高效的优化算法(如 Momentum、Adam)打下基础。 别名:在统计学中也称为 指数加权滑动平均(Exponentially Weighted Moving Average, EWMA) 。 一、问题背景:从伦敦气温数据说起 假设我们有一年(365 天)伦敦每日气温数据 $\theta_1, \theta_2, \dots, \theta_{365}$(...
一、背景:为什么需要 Mini-batch Gradient Descent? 在训练大型神经网络时,直接使用 Batch Gradient Descent(全批量梯度下降) 或 Stochastic Gradient Descent(随机梯度下降) 都存在明显缺点: Batch GD:每次更新需遍历整个训练集,计算慢,尤其当训练样本数 $m$ 很大时; SGD:每次只...
一、背景与动机 深度学习通常在大规模数据集上训练神经网络。若使用全批量梯度下降(Batch Gradient Descent) ,每次参数更新需遍历全部 $m$ 个训练样本: [\theta := \theta - \alpha \nabla_\theta J(\theta; X, Y)] 其中 $X \in \mathbb{R}^{n_x \times m}$,$Y \in ...
一、Yoshua Bengio 的学术起源 启蒙:少年时期受科幻小说启发,对人工智能产生兴趣。 1985年:进入研究生阶段,开始阅读神经网络论文,被“联结主义”(connectionism)思想吸引——即智能源于大量简单单元(神经元)的分布式协同,而非传统AI中的符号逻辑或“祖母细胞”(grandmother cell)式表示。 早期研究方向: ...
🧪 梯度检查(Gradient Checking)实现要点总结 梯度检查是验证神经网络反向传播(Backpropagation)实现是否正确的关键调试工具。它通过数值微分近似计算梯度,并与反向传播得到的解析梯度进行比较。以下是实际应用中的核心注意事项: 1️⃣ 仅用于调试,不要在训练中使用 原因:数值梯度计算非常耗时。 对于参数向量 $\theta$ ...
一、目的与意义 梯度检查是一种验证反向传播(Backpropagation)实现是否正确的重要调试技术。 在手动推导或编码计算梯度时,极易引入细微错误。 梯度检查通过数值微分近似真实梯度,并与反向传播计算出的解析梯度进行比对,从而发现 bug。 吴恩达强调: “它帮我节省了大量时间,多次发现反向传播中的错误。” 二、基本思想 神经网络的参数包括所有权重 $...
🎯 课程核心目标 本节旨在讲解如何通过数值方法近似计算梯度,为后续的 梯度检验(Gradient Checking) 打下基础。梯度检验是一种验证反向传播(Backpropagation)实现是否正确的关键技术。 🔢 1. 背景:为什么需要数值近似梯度? 在实现反向传播时,容易因索引错误、符号错误或链式法则应用不当而引入 bug。 数值近似提供了一种独立于解析梯度的...
🧠 课程核心目标 解决深度神经网络训练中的 梯度消失(vanishing gradients) 和 梯度爆炸(exploding gradients) 问题。 虽然权重初始化不能完全消除该问题,但合理的初始化策略能显著缓解,从而提升训练稳定性和收敛速度。 🔍 1. 单神经元示例分析 考虑一个单神经元模型: 输入:$x_1, x_2, \dots, x_n$(共 ...
🔍 1. 问题背景 在训练非常深的神经网络(如 L = 100+ 层)时,会出现以下现象: 梯度爆炸(Exploding Gradients) :梯度值变得极大(甚至趋于无穷),导致参数更新剧烈、训练不稳定。 梯度消失(Vanishing Gradients) :梯度值变得极小(接近 0),导致参数几乎不更新,训练停滞。 这两类问题统称为 “梯度不稳定” ,是早...