Leon Yi

30 Batch Normalization 为何有效?

一、直观理解:对隐藏层激活值进行归一化,加速训练   在传统神经网络中,我们常对输入特征 $x$ 进行归一化(如减去均值、除以标准差),使其具有相近的尺度(例如均值为 0,方差为 1),从而加速优化过程。 Batch Norm 将这一思想推广到每一层的隐藏单元(即中间激活值),使得每一层的输入分布更稳定。 ✅ 关键点:不仅输入 $x$ 需要归一化,隐藏层的激活值 $a^{[l]}$...

27 超参数调优的两种策略 —— “熊猫方式” vs. “鱼子酱方式”

一、核心思想   在深度学习实践中,超参数的选择对模型性能至关重要。由于超参数空间庞大且非凸,无法通过梯度下降直接优化,因此需要系统性地进行搜索。吴恩达在此节中强调了组织超参数搜索过程的两种主流策略,并指出其适用场景取决于可用计算资源。 二、关键观点提炼 1. 跨领域迁移超参数经验 深度学习各子领域(如计算机视觉、语音识别、NLP)之间存在大量方法互鉴。 ...

26 为超参数选择合适的采样尺度(Scale)

一、核心思想 超参数不应在原始线性空间中均匀随机采样,而应根据其对模型性能的影响敏感度,选择合适的尺度(scale) 进行采样,例如: 对数尺度(log scale)用于学习率 $\alpha$ 反向对数尺度(通过 $1 - \beta$)用于动量参数 $\beta$   这样可以更均匀地分配搜索资源,避免在不敏感区域浪费计算,在敏感区域覆盖不足。 二、不同超...

24 深度学习中的优化挑战 —— 局部最优 vs 鞍点 vs 平稳段

一、传统观点 vs 现代认知 1. 早期担忧:陷入“极差”的局部最优 在低维空间(如二维参数空间 $W_1, W_2$)中,损失函数 $J(W_1, W_2)$ 的可视化图像常显示多个局部最小值(local minima)。 直觉认为:梯度下降等优化算法可能被困在这些局部最优中,无法到达全局最优(global minimum)。 ❌ 但这一直觉在高维深度学习场景中是误...