DevDino 🦖

我曾七次鄙视自己的灵魂

🧠 一、Softmax 激活函数回顾

  Softmax 是用于多分类任务($C \geq 2$)的输出层激活函数,将线性输出 $z^{[L]} \in \mathbb{R}^C$ 转换为概率分布:

阅读全文 »

一、问题背景:从二分类到多分类

  • Logistic 回归适用于二分类(输出为 0 或 1)。
  • 当面对 $C$ 个类别($C \geq 2$)的分类任务时(如猫、狗、小鸡、“其他”),需要使用 Softmax 回归——这是 Logistic 回归在多分类场景下的自然推广。
阅读全文 »

一、背景与动机

  • 训练阶段:Batch Norm 对每个 mini-batch 中的激活值 $z^{(i)}$ 进行归一化,依赖该 batch 的均值 $\mu$ 和方差 $\sigma^2$。

  • 测试阶段问题

    • 测试时通常逐样本推理(batch size = 1);
    • 单个样本无法计算有意义的均值和方差;
    • 因此不能直接使用训练时的 batch-wise 统计量。
阅读全文 »

一、直观理解:对隐藏层激活值进行归一化,加速训练

  在传统神经网络中,我们常对输入特征 $x$ 进行归一化(如减去均值、除以标准差),使其具有相近的尺度(例如均值为 0,方差为 1),从而加速优化过程
Batch Norm 将这一思想推广到每一层的隐藏单元(即中间激活值),使得每一层的输入分布更稳定。

阅读全文 »