01 为什么要进行实例探究？（Why look at case studies?）

发表于 2026/01/21 更新于 2026/01/21

作者 Leon Yi

7 分钟阅读

一、为什么要研究 CNN 实例？（Why Look at Case Studies?）

核心目的：

从实践中学习架构设计思想：虽然我们已经掌握了 CNN 的基本构件（卷积层、池化层、全连接层等），但如何将它们有效组合以解决实际问题，才是关键。
迁移能力：在计算机视觉任务中表现优异的网络架构（如识别猫狗、人脸）往往具有良好的泛化能力，可迁移到其他任务（如自动驾驶、医学影像分析）。
提升科研素养：通过分析经典论文中的网络结构，你能逐步读懂前沿 CV 论文，理解其创新点与工程技巧。

类比：就像程序员通过阅读开源项目代码来提升编程能力一样，研究经典 CNN 案例是掌握深度学习架构设计的“最佳实践”。

二、经典 CNN 架构概览

课程将依次讲解以下五个里程碑式网络：

网络名称	年份	贡献/特点
LeNet-5	1998	首个成功应用于手写数字识别的 CNN，奠定基本范式
AlexNet	2012	引爆深度学习热潮，首次在 ImageNet 大规模数据集上取得突破
VGGNet	2014	使用小卷积核堆叠，证明“深度”比“宽度”更重要
ResNet	2015	提出残差连接，成功训练超深网络（152 层）
Inception (GoogLeNet)	2014	多尺度并行卷积，高效利用计算资源

三、各网络核心思想与公式（KaTeX 兼容）

1. LeNet-5（Yann LeCun, 1998）

应用场景：MNIST 手写数字识别（32×32 灰度图）
结构流程：
\[\text{Input} \rightarrow \text{Conv} \rightarrow \text{AvgPool} \rightarrow \text{Conv} \rightarrow \text{AvgPool} \rightarrow \text{FC} \rightarrow \text{FC} \rightarrow \text{Output}\]
意义：首次验证 CNN 在图像任务中的可行性，确立“卷积 + 池化 + 全连接”基本范式。

2. AlexNet（Krizhevsky et al., 2012）

关键创新：
- ReLU 激活函数：替代 Sigmoid/Tanh，缓解梯度消失
  \[f(x) = \max(0, x)\]
- Dropout：训练时以概率 $p$ 随机置零神经元，防止过拟合
- 数据增强：随机裁剪、水平翻转扩充训练集
- GPU 并行训练：首次大规模使用 GPU 加速
结构：5 卷积层 + 3 全连接层，输入尺寸 227×227×3

在 ImageNet ILSVRC-2012 中 Top-5 错误率降至 15.3% （第二名 26.2%），引爆深度学习革命。

3. VGGNet（Simonyan & Zisserman, 2014）

核心思想：用多个 3×3 小卷积核堆叠代替大卷积核
- 两个 3×3 卷积 ≈ 一个 5×5 卷积，但参数更少、非线性更强
- 三个 3×3 卷积 ≈ 一个 7×7 卷积
参数效率：
- 7×7 卷积（64 通道）：$7^2 \times 64 \times 64 = 200,704$
- 三个 3×3 卷积：$3 \times (3^2 \times 64 \times 64) = 110,592$（减少近一半）
代表模型：VGG-16（16 层）、VGG-19（19 层）
影响：证明“更深的网络”能带来更好性能，成为后续研究的标准 backbone。

4. ResNet（He et al., 2015）

问题背景：网络加深后出现退化问题（degradation）——准确率饱和甚至下降
解决方案：残差连接（Residual Connection）
- 引入“恒等映射”路径，让网络学习残差函数 $F(x)$ 而非原始映射 $H(x)$
- 基本单元（残差块）：
  \[y = F(x, \{W_i\}) + x\]
  其中 $F(x)$ 是若干卷积层的堆叠，$x$ 是输入（通过 shortcut 直接相加）
- 若 $F(x) \to 0$，则 $y \to x$，网络自动退化为恒等映射，避免性能下降
成果：成功训练 152 层 ResNet，在 ImageNet 上错误率仅 3.6%

残差思想已成为现代深度网络（如 Transformer）的标配。

5. Inception Network（GoogLeNet, Szegedy et al., 2014）

核心理念：多尺度特征提取 + 计算效率优化
Inception 模块：并行使用不同尺寸卷积核（1×1, 3×3, 5×5）和池化，然后拼接输出
- 引入 1×1 卷积进行通道降维，大幅减少计算量
  - 例如：先用 1×1 卷积将 256 通道压缩到 64，再做 3×3 卷积
优势：
- 同时捕获局部与全局信息
- 参数少、速度快、精度高
结构深度：22 层（含辅助分类器）

四、学习建议与迁移价值

对非 CV 领域从业者的启示：

模块化设计思想：如 ResNet 的 skip connection 可用于 NLP（如 Transformer 中的残差连接）
计算效率意识：Inception 的多分支+降维策略启发了轻量化模型设计（如 MobileNet）
实验驱动创新：这些网络都是通过大量实验验证得出的工程智慧，而非纯理论推导

如何应用到你的项目？

直接迁移：使用预训练的 VGG/ResNet 作为特征提取器（迁移学习）
借鉴结构：在你的任务中引入残差连接或多尺度模块
复现论文：动手实现这些网络，理解其训练细节（如学习率调度、数据增强）

五、总结

“看案例不是为了复制，而是为了理解设计哲学。”

通过研究 LeNet → AlexNet → VGG → ResNet → Inception 的演进脉络，你将掌握：

如何平衡网络深度与训练稳定性
如何提升计算效率而不牺牲性能
如何构建可扩展、可迁移的深度架构

这些思想超越了计算机视觉本身，是构建任何深度学习系统的核心能力。

卷积神经网络

本文由作者按照 CC BY 4.0 进行授权

01 为什么要进行实例探究？（Why look at case studies?）

一、为什么要研究 CNN 实例？（Why Look at Case Studies?）

核心目的：

二、经典 CNN 架构概览

三、各网络核心思想与公式（KaTeX 兼容）

1. LeNet-5（Yann LeCun, 1998）

2. AlexNet（Krizhevsky et al., 2012）

3. VGGNet（Simonyan & Zisserman, 2014）

4. ResNet（He et al., 2015）

5. Inception Network（GoogLeNet, Szegedy et al., 2014）

四、学习建议与迁移价值

对非 CV 领域从业者的启示：

如何应用到你的项目？

五、总结

热门标签