14 梯度检查（Gradient Checking）实现要点

🧪 梯度检查（Gradient Checking）实现要点总结　　梯度检查是验证神经网络反向传播（Backpropagation）实现是否正确的关键调试工具。它通过数值微分近似计算梯度，并与反向传播得到的解析梯度进行比较。以下是实际应用中的核心注意事项： 1️⃣ 仅用于调试，不要在训练中使用原因：数值梯度计算非常耗时。对于参数向量 $\theta$ ...

2026/01/02 改进深度神经网络

13 梯度检查（Gradient Checking）

一、目的与意义　　梯度检查是一种验证反向传播（Backpropagation）实现是否正确的重要调试技术。在手动推导或编码计算梯度时，极易引入细微错误。梯度检查通过数值微分近似真实梯度，并与反向传播计算出的解析梯度进行比对，从而发现 bug。吴恩达强调： “它帮我节省了大量时间，多次发现反向传播中的错误。” 二、基本思想　　神经网络的参数包括所有权重 $...

2026/01/02 改进深度神经网络

12 梯度的数值近似（Numerical Approximation of Gradients）

🎯 课程核心目标　　本节旨在讲解如何通过数值方法近似计算梯度，为后续的梯度检验（Gradient Checking）打下基础。梯度检验是一种验证反向传播（Backpropagation）实现是否正确的关键技术。 🔢 1. 背景：为什么需要数值近似梯度？在实现反向传播时，容易因索引错误、符号错误或链式法则应用不当而引入 bug。数值近似提供了一种独立于解析梯度的...

2026/01/02 改进深度神经网络

11 深度神经网络的权重初始化（Weight Initialization for Deep Networks）

🧠 课程核心目标　　解决深度神经网络训练中的梯度消失（vanishing gradients）和梯度爆炸（exploding gradients）问题。虽然权重初始化不能完全消除该问题，但合理的初始化策略能显著缓解，从而提升训练稳定性和收敛速度。 🔍 1. 单神经元示例分析　　考虑一个单神经元模型：输入：$x_1, x_2, \dots, x_n$（共 ...

2026/01/02 改进深度神经网络

10 梯度消失与梯度爆炸问题（Vanishing ／ Exploding Gradients）

🔍 1. 问题背景　　在训练非常深的神经网络（如 L = 100+ 层）时，会出现以下现象：梯度爆炸（Exploding Gradients）：梯度值变得极大（甚至趋于无穷），导致参数更新剧烈、训练不稳定。梯度消失（Vanishing Gradients）：梯度值变得极小（接近 0），导致参数几乎不更新，训练停滞。这两类问题统称为 “梯度不稳定” ，是早...

2026/01/02 改进深度神经网络

09 输入归一化（Normalizing Inputs）

一、为什么要归一化输入？　　在训练神经网络时，如果输入特征的尺度（scale）差异很大（例如一个特征范围是 $[0, 1]$，另一个是 $[1, 1000]$），会导致：代价函数（Cost Function）形状非常“细长” （elongated bowl），等高线呈椭圆形；梯度下降（Gradient Descent）会来回震荡，收敛速度慢；需要使用很小的学习率，否...

2026/01/02 改进深度神经网络

08 神经网络中的其他正则化方法

除了 L2 正则化和 Dropout，还有哪些技术可以有效减少过拟合？一、数据增强（Data Augmentation） ✅ 核心思想　　在无法获取更多真实训练数据的情况下，通过对现有数据进行合理的变换，人工“制造”出新的训练样本，从而扩充训练集，提升模型泛化能力。 🔍 适用场景图像任务（如图像分类）光学字符识别（OCR） 📌 常见操作（以图像为例） ...

2026/01/02 改进深度神经网络

07 了解 Drop out

🧠 Dropout 详解：防止神经网络过拟合的强大正则化方法一、什么是 Dropout？　　Dropout 是一种在训练过程中随机“关闭”（即设为0）神经网络中部分神经元的正则化技术。在每次前向传播时，每个神经元以概率 $1 - p$ 被“丢弃”（即输出置零），其中 $p$ 称为 keep probability（保留概率）。测试/推理阶段不使用 Dropout，而...

2026/01/02 改进深度神经网络

06 Dropout 正则化

1. 核心思想　　Dropout 是一种在训练阶段随机“关闭”神经网络中一部分神经元的正则化技术，以减少过拟合。其本质是：对每个训练样本，临时从网络中移除一部分神经元（连同其连接），从而训练一个“稀疏”的子网络；不同样本对应不同的子网络，最终模型相当于对大量子网络的集成。 2. Inverted Dropout 实现步骤（推荐方法）　　设当前处理第 $l$ 层，保留...

2025/12/27 改进深度神经网络

05 为什么正则化能减少过拟合？

🧠 一、核心问题：为什么正则化能减少过拟合？过拟合的本质在训练大型/深层神经网络时，模型具有极强的拟合能力（高方差），容易在训练集上表现极好，但在验证/测试集上泛化能力差。正则化通过限制模型复杂度，使其更“简单”，从而提升泛化性能。 📐 二、L2 正则化（权重衰减）的基本形式　　原始损失函数（无正则化）： [J(W, b) = \frac{1}{m} \su...

2025/12/27 改进深度神经网络

14 梯度检查（Gradient Checking）实现要点

13 梯度检查（Gradient Checking）

12 梯度的数值近似（Numerical Approximation of Gradients）

11 深度神经网络的权重初始化（Weight Initialization for Deep Networks）

10 梯度消失与梯度爆炸问题（Vanishing ／ Exploding Gradients）

09 输入归一化（Normalizing Inputs）

08 神经网络中的其他正则化方法

07 了解 Drop out

06 Dropout 正则化

05 为什么正则化能减少过拟合？

热门标签