文章

01 为什么要进行实例探究?(Why look at case studies?)

01 为什么要进行实例探究?(Why look at case studies?)

01 为什么要进行实例探究?(Why look at case studies?)

一、为什么要研究 CNN 实例?(Why Look at Case Studies?)

核心目的:

  • 从实践中学习架构设计思想:虽然我们已经掌握了 CNN 的基本构件(卷积层、池化层、全连接层等),但如何将它们有效组合以解决实际问题,才是关键。
  • 迁移能力:在计算机视觉任务中表现优异的网络架构(如识别猫狗、人脸)往往具有良好的泛化能力,可迁移到其他任务(如自动驾驶、医学影像分析)。
  • 提升科研素养:通过分析经典论文中的网络结构,你能逐步读懂前沿 CV 论文,理解其创新点与工程技巧。

类比:就像程序员通过阅读开源项目代码来提升编程能力一样,研究经典 CNN 案例是掌握深度学习架构设计的“最佳实践”。


二、经典 CNN 架构概览

课程将依次讲解以下五个里程碑式网络:

网络名称年份贡献/特点
LeNet-51998首个成功应用于手写数字识别的 CNN,奠定基本范式
AlexNet2012引爆深度学习热潮,首次在 ImageNet 大规模数据集上取得突破
VGGNet2014使用小卷积核堆叠,证明“深度”比“宽度”更重要
ResNet2015提出残差连接,成功训练超深网络(152 层)
Inception (GoogLeNet)2014多尺度并行卷积,高效利用计算资源

三、各网络核心思想与公式(KaTeX 兼容)

1. LeNet-5(Yann LeCun, 1998)

  • 应用场景:MNIST 手写数字识别(32×32 灰度图)
  • 结构流程

    \[\text{Input} \rightarrow \text{Conv} \rightarrow \text{AvgPool} \rightarrow \text{Conv} \rightarrow \text{AvgPool} \rightarrow \text{FC} \rightarrow \text{FC} \rightarrow \text{Output}\]
  • 意义:首次验证 CNN 在图像任务中的可行性,确立“卷积 + 池化 + 全连接”基本范式。

2. AlexNet(Krizhevsky et al., 2012)

  • 关键创新

    • ReLU 激活函数:替代 Sigmoid/Tanh,缓解梯度消失

      \[f(x) = \max(0, x)\]
    • Dropout:训练时以概率 $p$ 随机置零神经元,防止过拟合
    • 数据增强:随机裁剪、水平翻转扩充训练集
    • GPU 并行训练:首次大规模使用 GPU 加速
  • 结构:5 卷积层 + 3 全连接层,输入尺寸 227×227×3

在 ImageNet ILSVRC-2012 中 Top-5 错误率降至 15.3% (第二名 26.2%),引爆深度学习革命。


3. VGGNet(Simonyan & Zisserman, 2014)

  • 核心思想用多个 3×3 小卷积核堆叠代替大卷积核

    • 两个 3×3 卷积 ≈ 一个 5×5 卷积,但参数更少、非线性更强
    • 三个 3×3 卷积 ≈ 一个 7×7 卷积
  • 参数效率

    • 7×7 卷积(64 通道):$7^2 \times 64 \times 64 = 200,704$
    • 三个 3×3 卷积:$3 \times (3^2 \times 64 \times 64) = 110,592$(减少近一半)
  • 代表模型:VGG-16(16 层)、VGG-19(19 层)
  • 影响:证明“更深的网络”能带来更好性能,成为后续研究的标准 backbone。

4. ResNet(He et al., 2015)

  • 问题背景:网络加深后出现退化问题(degradation)——准确率饱和甚至下降
  • 解决方案残差连接(Residual Connection)

    • 引入“恒等映射”路径,让网络学习残差函数 $F(x)$ 而非原始映射 $H(x)$
    • 基本单元(残差块):

      \[y = F(x, \{W_i\}) + x\]

      其中 $F(x)$ 是若干卷积层的堆叠,$x$ 是输入(通过 shortcut 直接相加)

    • 若 $F(x) \to 0$,则 $y \to x$,网络自动退化为恒等映射,避免性能下降
  • 成果:成功训练 152 层 ResNet,在 ImageNet 上错误率仅 3.6%

残差思想已成为现代深度网络(如 Transformer)的标配。


5. Inception Network(GoogLeNet, Szegedy et al., 2014)

  • 核心理念多尺度特征提取 + 计算效率优化
  • Inception 模块:并行使用不同尺寸卷积核(1×1, 3×3, 5×5)和池化,然后拼接输出

    • 引入 1×1 卷积进行通道降维,大幅减少计算量

      • 例如:先用 1×1 卷积将 256 通道压缩到 64,再做 3×3 卷积
  • 优势

    • 同时捕获局部与全局信息
    • 参数少、速度快、精度高
  • 结构深度:22 层(含辅助分类器)

四、学习建议与迁移价值

对非 CV 领域从业者的启示:

  • 模块化设计思想:如 ResNet 的 skip connection 可用于 NLP(如 Transformer 中的残差连接)
  • 计算效率意识:Inception 的多分支+降维策略启发了轻量化模型设计(如 MobileNet)
  • 实验驱动创新:这些网络都是通过大量实验验证得出的工程智慧,而非纯理论推导

如何应用到你的项目?

  1. 直接迁移:使用预训练的 VGG/ResNet 作为特征提取器(迁移学习)
  2. 借鉴结构:在你的任务中引入残差连接或多尺度模块
  3. 复现论文:动手实现这些网络,理解其训练细节(如学习率调度、数据增强)

五、总结

“看案例不是为了复制,而是为了理解设计哲学。”

通过研究 LeNet → AlexNet → VGG → ResNet → Inception 的演进脉络,你将掌握:

  • 如何平衡网络深度训练稳定性
  • 如何提升计算效率而不牺牲性能
  • 如何构建可扩展、可迁移的深度架构

这些思想超越了计算机视觉本身,是构建任何深度学习系统的核心能力。

本文由作者按照 CC BY 4.0 进行授权