14 梯度检查(Gradient Checking)实现要点
🧪 梯度检查(Gradient Checking)实现要点总结 梯度检查是验证神经网络反向传播(Backpropagation)实现是否正确的关键调试工具。它通过数值微分近似计算梯度,并与反向传播得到的解析梯度进行比较。以下是实际应用中的核心注意事项: 1️⃣ 仅用于调试,不要在训练中使用 原因:数值梯度计算非常耗时。 对于参数向量 $\theta$ ...
🧪 梯度检查(Gradient Checking)实现要点总结 梯度检查是验证神经网络反向传播(Backpropagation)实现是否正确的关键调试工具。它通过数值微分近似计算梯度,并与反向传播得到的解析梯度进行比较。以下是实际应用中的核心注意事项: 1️⃣ 仅用于调试,不要在训练中使用 原因:数值梯度计算非常耗时。 对于参数向量 $\theta$ ...
一、目的与意义 梯度检查是一种验证反向传播(Backpropagation)实现是否正确的重要调试技术。 在手动推导或编码计算梯度时,极易引入细微错误。 梯度检查通过数值微分近似真实梯度,并与反向传播计算出的解析梯度进行比对,从而发现 bug。 吴恩达强调: “它帮我节省了大量时间,多次发现反向传播中的错误。” 二、基本思想 神经网络的参数包括所有权重 $...
🎯 课程核心目标 本节旨在讲解如何通过数值方法近似计算梯度,为后续的 梯度检验(Gradient Checking) 打下基础。梯度检验是一种验证反向传播(Backpropagation)实现是否正确的关键技术。 🔢 1. 背景:为什么需要数值近似梯度? 在实现反向传播时,容易因索引错误、符号错误或链式法则应用不当而引入 bug。 数值近似提供了一种独立于解析梯度的...
🧠 课程核心目标 解决深度神经网络训练中的 梯度消失(vanishing gradients) 和 梯度爆炸(exploding gradients) 问题。 虽然权重初始化不能完全消除该问题,但合理的初始化策略能显著缓解,从而提升训练稳定性和收敛速度。 🔍 1. 单神经元示例分析 考虑一个单神经元模型: 输入:$x_1, x_2, \dots, x_n$(共 ...
🔍 1. 问题背景 在训练非常深的神经网络(如 L = 100+ 层)时,会出现以下现象: 梯度爆炸(Exploding Gradients) :梯度值变得极大(甚至趋于无穷),导致参数更新剧烈、训练不稳定。 梯度消失(Vanishing Gradients) :梯度值变得极小(接近 0),导致参数几乎不更新,训练停滞。 这两类问题统称为 “梯度不稳定” ,是早...
一、为什么要归一化输入? 在训练神经网络时,如果输入特征的尺度(scale)差异很大(例如一个特征范围是 $[0, 1]$,另一个是 $[1, 1000]$),会导致: 代价函数(Cost Function)形状非常“细长” (elongated bowl),等高线呈椭圆形; 梯度下降(Gradient Descent)会来回震荡,收敛速度慢; 需要使用很小的学习率,否...
除了 L2 正则化和 Dropout,还有哪些技术可以有效减少过拟合? 一、数据增强(Data Augmentation) ✅ 核心思想 在无法获取更多真实训练数据的情况下,通过对现有数据进行合理的变换,人工“制造”出新的训练样本,从而扩充训练集,提升模型泛化能力。 🔍 适用场景 图像任务(如图像分类) 光学字符识别(OCR) 📌 常见操作(以图像为例) ...
🧠 Dropout 详解:防止神经网络过拟合的强大正则化方法 一、什么是 Dropout? Dropout 是一种在训练过程中随机“关闭”(即设为0)神经网络中部分神经元的正则化技术。 在每次前向传播时,每个神经元以概率 $1 - p$ 被“丢弃”(即输出置零),其中 $p$ 称为 keep probability(保留概率) 。 测试/推理阶段不使用 Dropout,而...
1. 核心思想 Dropout 是一种在训练阶段随机“关闭”神经网络中一部分神经元的正则化技术,以减少过拟合。其本质是: 对每个训练样本,临时从网络中移除一部分神经元(连同其连接),从而训练一个“稀疏”的子网络;不同样本对应不同的子网络,最终模型相当于对大量子网络的集成。 2. Inverted Dropout 实现步骤(推荐方法) 设当前处理第 $l$ 层,保留...
🧠 一、核心问题:为什么正则化能减少过拟合? 过拟合的本质 在训练大型/深层神经网络时,模型具有极强的拟合能力(高方差),容易在训练集上表现极好,但在验证/测试集上泛化能力差。 正则化通过限制模型复杂度,使其更“简单”,从而提升泛化性能。 📐 二、L2 正则化(权重衰减)的基本形式 原始损失函数(无正则化): [J(W, b) = \frac{1}{m} \su...