Leon Yi

14 梯度检查(Gradient Checking)实现要点

🧪 梯度检查(Gradient Checking)实现要点总结   梯度检查是验证神经网络反向传播(Backpropagation)实现是否正确的关键调试工具。它通过数值微分近似计算梯度,并与反向传播得到的解析梯度进行比较。以下是实际应用中的核心注意事项: 1️⃣ 仅用于调试,不要在训练中使用 原因:数值梯度计算非常耗时。 对于参数向量 $\theta$ ...

13 梯度检查(Gradient Checking)

一、目的与意义   梯度检查是一种验证反向传播(Backpropagation)实现是否正确的重要调试技术。 在手动推导或编码计算梯度时,极易引入细微错误。 梯度检查通过数值微分近似真实梯度,并与反向传播计算出的解析梯度进行比对,从而发现 bug。 吴恩达强调: “它帮我节省了大量时间,多次发现反向传播中的错误。” 二、基本思想   神经网络的参数包括所有权重 $...

12 梯度的数值近似(Numerical Approximation of Gradients)

🎯 课程核心目标   本节旨在讲解如何通过数值方法近似计算梯度,为后续的 梯度检验(Gradient Checking) 打下基础。梯度检验是一种验证反向传播(Backpropagation)实现是否正确的关键技术。 🔢 1. 背景:为什么需要数值近似梯度? 在实现反向传播时,容易因索引错误、符号错误或链式法则应用不当而引入 bug。 数值近似提供了一种独立于解析梯度的...

11 深度神经网络的权重初始化(Weight Initialization for Deep Networks)

🧠 课程核心目标   解决深度神经网络训练中的 梯度消失(vanishing gradients) 和 梯度爆炸(exploding gradients) 问题。 虽然权重初始化不能完全消除该问题,但合理的初始化策略能显著缓解,从而提升训练稳定性和收敛速度。 🔍 1. 单神经元示例分析   考虑一个单神经元模型: 输入:$x_1, x_2, \dots, x_n$(共 ...

10 梯度消失与梯度爆炸问题(Vanishing / Exploding Gradients)

🔍 1. 问题背景   在训练非常深的神经网络(如 L = 100+ 层)时,会出现以下现象: 梯度爆炸(Exploding Gradients) :梯度值变得极大(甚至趋于无穷),导致参数更新剧烈、训练不稳定。 梯度消失(Vanishing Gradients) :梯度值变得极小(接近 0),导致参数几乎不更新,训练停滞。 这两类问题统称为 “梯度不稳定” ,是早...

08 神经网络中的其他正则化方法

除了 L2 正则化和 Dropout,还有哪些技术可以有效减少过拟合? 一、数据增强(Data Augmentation) ✅ 核心思想   在无法获取更多真实训练数据的情况下,通过对现有数据进行合理的变换,人工“制造”出新的训练样本,从而扩充训练集,提升模型泛化能力。 🔍 适用场景 图像任务(如图像分类) 光学字符识别(OCR) 📌 常见操作(以图像为例) ...

06 Dropout 正则化

1. 核心思想   Dropout 是一种在训练阶段随机“关闭”神经网络中一部分神经元的正则化技术,以减少过拟合。其本质是: 对每个训练样本,临时从网络中移除一部分神经元(连同其连接),从而训练一个“稀疏”的子网络;不同样本对应不同的子网络,最终模型相当于对大量子网络的集成。 2. Inverted Dropout 实现步骤(推荐方法)   设当前处理第 $l$ 层,保留...

05 为什么正则化能减少过拟合?

🧠 一、核心问题:为什么正则化能减少过拟合? 过拟合的本质 在训练大型/深层神经网络时,模型具有极强的拟合能力(高方差),容易在训练集上表现极好,但在验证/测试集上泛化能力差。 正则化通过限制模型复杂度,使其更“简单”,从而提升泛化性能。 📐 二、L2 正则化(权重衰减)的基本形式   原始损失函数(无正则化): [J(W, b) = \frac{1}{m} \su...