33 训练一个使用了 Softmax 的分类器

🧠 一、Softmax 激活函数回顾　　Softmax 是用于多分类任务（$C \geq 2$）的输出层激活函数，将线性输出 $z^{[L]} \in \mathbb{R}^C$ 转换为概率分布： [a^{[L]} = \text{Softmax}(z^{[L]}) = \frac{e^{z^{[L]}}}{\sum_{j=1}^C e^{z_j^{[L]}}}] 其中 $a^...

2026/01/06 改进深度神经网络

32 Softmax 回归

一、问题背景：从二分类到多分类 Logistic 回归适用于二分类（输出为 0 或 1）。当面对 $C$ 个类别（$C \geq 2$）的分类任务时（如猫、狗、小鸡、“其他”），需要使用 Softmax 回归——这是 Logistic 回归在多分类场景下的自然推广。 💡 类别编号通常为 $0, 1, 2, \dots, C-1$。例如 $C=4$ 时，类别为 {0: ...

2026/01/06 改进深度神经网络

31 测试时的 Batch Normalization（Batch Norm at Test Time）

一、背景与动机训练阶段：Batch Norm 对每个 mini-batch 中的激活值 $z^{(i)}$ 进行归一化，依赖该 batch 的均值 $\mu$ 和方差 $\sigma^2$。测试阶段问题：测试时通常逐样本推理（batch size = 1）；单个样本无法计算有意义的均值和方差；因此不能直接使用训练...

2026/01/06 改进深度神经网络

30 Batch Normalization 为何有效？

一、直观理解：对隐藏层激活值进行归一化，加速训练　　在传统神经网络中，我们常对输入特征 $x$ 进行归一化（如减去均值、除以标准差），使其具有相近的尺度（例如均值为 0，方差为 1），从而加速优化过程。 Batch Norm 将这一思想推广到每一层的隐藏单元（即中间激活值），使得每一层的输入分布更稳定。 ✅ 关键点：不仅输入 $x$ 需要归一化，隐藏层的激活值 $a^{[l]}$...

2026/01/06 改进深度神经网络

29 将 Batch Norm 拟合进神经网络（Fitting Batch Norm into a Neural Network）

一、核心思想　　Batch Normalization（BN）是在神经网络的每一层中，在计算线性输出 $z^{[l]}$ 之后、激活函数 $g^{[l]}$ 之前，对 $z^{[l]}$ 进行归一化处理，从而加速训练、提升稳定性并减少对初始化的敏感性。关键位置：BN 插入在 $z^{[l]} = W^{[l]} a^{[l-1]} + b^{[l]}$ 和 $a^{[l]}...

2026/01/06 改进深度神经网络

28 归一化网络的激活函数（Normalizing activations in a network）

1. 动机：为什么需要归一化？在训练浅层模型（如 Logistic 回归）时，对输入特征 $x$ 进行归一化（减均值、除标准差）能显著加速收敛。原因：使损失函数的等高线更“圆”，优化路径更直接。在深度神经网络中，每一层的输入实际上是前一层的激活输出（如 $a^{[l-1]}$ 或 $z^{[l-1]}$）。随...

2026/01/06 改进深度神经网络

27 超参数调优的两种策略 —— “熊猫方式” vs. “鱼子酱方式”

一、核心思想　　在深度学习实践中，超参数的选择对模型性能至关重要。由于超参数空间庞大且非凸，无法通过梯度下降直接优化，因此需要系统性地进行搜索。吴恩达在此节中强调了组织超参数搜索过程的两种主流策略，并指出其适用场景取决于可用计算资源。二、关键观点提炼 1. 跨领域迁移超参数经验深度学习各子领域（如计算机视觉、语音识别、NLP）之间存在大量方法互鉴。 ...

2026/01/06 改进深度神经网络

26 为超参数选择合适的采样尺度（Scale）

一、核心思想超参数不应在原始线性空间中均匀随机采样，而应根据其对模型性能的影响敏感度，选择合适的尺度（scale）进行采样，例如：对数尺度（log scale）用于学习率 $\alpha$ 反向对数尺度（通过 $1 - \beta$）用于动量参数 $\beta$ 　　这样可以更均匀地分配搜索资源，避免在不敏感区域浪费计算，在敏感区域覆盖不足。二、不同超...

2026/01/06 改进深度神经网络

25 超参数调试（Hyperparameter Tuning）

一、为什么需要超参数调试？　　在深度学习中，模型性能高度依赖于超参数（hyperparameters）的选择。这些参数不能通过训练自动学习，必须由开发者手动设定或通过搜索策略优化。　　常见的超参数包括：学习率（learning rate）：$\alpha$ 动量参数（Momentum）：$\beta$ Adam 优化器参数：$\beta_1, \beta_2, \v...

2026/01/06 改进深度神经网络

24 深度学习中的优化挑战 —— 局部最优 vs 鞍点 vs 平稳段

一、传统观点 vs 现代认知 1. 早期担忧：陷入“极差”的局部最优在低维空间（如二维参数空间 $W_1, W_2$）中，损失函数 $J(W_1, W_2)$ 的可视化图像常显示多个局部最小值（local minima）。直觉认为：梯度下降等优化算法可能被困在这些局部最优中，无法到达全局最优（global minimum）。 ❌ 但这一直觉在高维深度学习场景中是误...

2026/01/06 改进深度神经网络

33 训练一个使用了 Softmax 的分类器

32 Softmax 回归

31 测试时的 Batch Normalization（Batch Norm at Test Time）

30 Batch Normalization 为何有效？

29 将 Batch Norm 拟合进神经网络（Fitting Batch Norm into a Neural Network）

28 归一化网络的激活函数（Normalizing activations in a network）

27 超参数调优的两种策略 —— “熊猫方式” vs. “鱼子酱方式”

26 为超参数选择合适的采样尺度（Scale）

25 超参数调试（Hyperparameter Tuning）

24 深度学习中的优化挑战 —— 局部最优 vs 鞍点 vs 平稳段

热门标签