18 了解指数加权平均

一、什么是指数加权平均？　　指数加权平均是一种高效计算时间序列数据滑动平均值的方法，广泛应用于深度学习中的优化算法（如 Momentum、RMSProp、Adam 等）。　　其核心思想是：对近期数据赋予更高权重，对远期数据赋予指数衰减的权重。二、核心公式　　指数加权平均的递推公式为： [v_t = \beta v_{t-1} + (1 - \beta) \theta_t...

2026/01/02 改进深度神经网络

17 指数加权平均（Exponentially Weighted Averages）

目的：为后续学习更高效的优化算法（如 Momentum、Adam）打下基础。别名：在统计学中也称为指数加权滑动平均（Exponentially Weighted Moving Average, EWMA）。一、问题背景：从伦敦气温数据说起假设我们有一年（365 天）伦敦每日气温数据 $\theta_1, \theta_2, \dots, \theta_{365}$（...

2026/01/02 改进深度神经网络

16 了解小批量梯度下降法

一、背景：为什么需要 Mini-batch Gradient Descent？　　在训练大型神经网络时，直接使用 Batch Gradient Descent（全批量梯度下降）或 Stochastic Gradient Descent（随机梯度下降）都存在明显缺点： Batch GD：每次更新需遍历整个训练集，计算慢，尤其当训练样本数 $m$ 很大时； SGD：每次只...

2026/01/02 改进深度神经网络

15 优化算法 —— Mini-batch Gradient Descent（小批量梯度下降）

一、背景与动机　　深度学习通常在大规模数据集上训练神经网络。若使用全批量梯度下降（Batch Gradient Descent），每次参数更新需遍历全部 $m$ 个训练样本： [\theta := \theta - \alpha \nabla_\theta J(\theta; X, Y)] 　　其中 $X \in \mathbb{R}^{n_x \times m}$，$Y \in ...

2026/01/02 改进深度神经网络

约书亚·本吉奥访谈

一、Yoshua Bengio 的学术起源启蒙：少年时期受科幻小说启发，对人工智能产生兴趣。 1985年：进入研究生阶段，开始阅读神经网络论文，被“联结主义”（connectionism）思想吸引——即智能源于大量简单单元（神经元）的分布式协同，而非传统AI中的符号逻辑或“祖母细胞”（grandmother cell）式表示。早期研究方向： ...

2026/01/02 改进深度神经网络

14 梯度检查（Gradient Checking）实现要点

🧪 梯度检查（Gradient Checking）实现要点总结　　梯度检查是验证神经网络反向传播（Backpropagation）实现是否正确的关键调试工具。它通过数值微分近似计算梯度，并与反向传播得到的解析梯度进行比较。以下是实际应用中的核心注意事项： 1️⃣ 仅用于调试，不要在训练中使用原因：数值梯度计算非常耗时。对于参数向量 $\theta$ ...

2026/01/02 改进深度神经网络

13 梯度检查（Gradient Checking）

一、目的与意义　　梯度检查是一种验证反向传播（Backpropagation）实现是否正确的重要调试技术。在手动推导或编码计算梯度时，极易引入细微错误。梯度检查通过数值微分近似真实梯度，并与反向传播计算出的解析梯度进行比对，从而发现 bug。吴恩达强调： “它帮我节省了大量时间，多次发现反向传播中的错误。” 二、基本思想　　神经网络的参数包括所有权重 $...

2026/01/02 改进深度神经网络

12 梯度的数值近似（Numerical Approximation of Gradients）

🎯 课程核心目标　　本节旨在讲解如何通过数值方法近似计算梯度，为后续的梯度检验（Gradient Checking）打下基础。梯度检验是一种验证反向传播（Backpropagation）实现是否正确的关键技术。 🔢 1. 背景：为什么需要数值近似梯度？在实现反向传播时，容易因索引错误、符号错误或链式法则应用不当而引入 bug。数值近似提供了一种独立于解析梯度的...

2026/01/02 改进深度神经网络

11 深度神经网络的权重初始化（Weight Initialization for Deep Networks）

🧠 课程核心目标　　解决深度神经网络训练中的梯度消失（vanishing gradients）和梯度爆炸（exploding gradients）问题。虽然权重初始化不能完全消除该问题，但合理的初始化策略能显著缓解，从而提升训练稳定性和收敛速度。 🔍 1. 单神经元示例分析　　考虑一个单神经元模型：输入：$x_1, x_2, \dots, x_n$（共 ...

2026/01/02 改进深度神经网络

10 梯度消失与梯度爆炸问题（Vanishing ／ Exploding Gradients）

🔍 1. 问题背景　　在训练非常深的神经网络（如 L = 100+ 层）时，会出现以下现象：梯度爆炸（Exploding Gradients）：梯度值变得极大（甚至趋于无穷），导致参数更新剧烈、训练不稳定。梯度消失（Vanishing Gradients）：梯度值变得极小（接近 0），导致参数几乎不更新，训练停滞。这两类问题统称为 “梯度不稳定” ，是早...

2026/01/02 改进深度神经网络

18 了解指数加权平均

17 指数加权平均（Exponentially Weighted Averages）

16 了解小批量梯度下降法

15 优化算法 —— Mini-batch Gradient Descent（小批量梯度下降）

约书亚·本吉奥访谈

14 梯度检查（Gradient Checking）实现要点

13 梯度检查（Gradient Checking）

12 梯度的数值近似（Numerical Approximation of Gradients）

11 深度神经网络的权重初始化（Weight Initialization for Deep Networks）

10 梯度消失与梯度爆炸问题（Vanishing ／ Exploding Gradients）

热门标签