01 为什么要进行实例探究?(Why look at case studies?)
01 为什么要进行实例探究?(Why look at case studies?)
01 为什么要进行实例探究?(Why look at case studies?)
一、为什么要研究 CNN 实例?(Why Look at Case Studies?)
核心目的:
- 从实践中学习架构设计思想:虽然我们已经掌握了 CNN 的基本构件(卷积层、池化层、全连接层等),但如何将它们有效组合以解决实际问题,才是关键。
- 迁移能力:在计算机视觉任务中表现优异的网络架构(如识别猫狗、人脸)往往具有良好的泛化能力,可迁移到其他任务(如自动驾驶、医学影像分析)。
- 提升科研素养:通过分析经典论文中的网络结构,你能逐步读懂前沿 CV 论文,理解其创新点与工程技巧。
类比:就像程序员通过阅读开源项目代码来提升编程能力一样,研究经典 CNN 案例是掌握深度学习架构设计的“最佳实践”。
二、经典 CNN 架构概览
课程将依次讲解以下五个里程碑式网络:
| 网络名称 | 年份 | 贡献/特点 |
|---|---|---|
| LeNet-5 | 1998 | 首个成功应用于手写数字识别的 CNN,奠定基本范式 |
| AlexNet | 2012 | 引爆深度学习热潮,首次在 ImageNet 大规模数据集上取得突破 |
| VGGNet | 2014 | 使用小卷积核堆叠,证明“深度”比“宽度”更重要 |
| ResNet | 2015 | 提出残差连接,成功训练超深网络(152 层) |
| Inception (GoogLeNet) | 2014 | 多尺度并行卷积,高效利用计算资源 |
三、各网络核心思想与公式(KaTeX 兼容)
1. LeNet-5(Yann LeCun, 1998)
- 应用场景:MNIST 手写数字识别(32×32 灰度图)
结构流程:
\[\text{Input} \rightarrow \text{Conv} \rightarrow \text{AvgPool} \rightarrow \text{Conv} \rightarrow \text{AvgPool} \rightarrow \text{FC} \rightarrow \text{FC} \rightarrow \text{Output}\]- 意义:首次验证 CNN 在图像任务中的可行性,确立“卷积 + 池化 + 全连接”基本范式。
2. AlexNet(Krizhevsky et al., 2012)
关键创新:
ReLU 激活函数:替代 Sigmoid/Tanh,缓解梯度消失
\[f(x) = \max(0, x)\]- Dropout:训练时以概率 $p$ 随机置零神经元,防止过拟合
- 数据增强:随机裁剪、水平翻转扩充训练集
- GPU 并行训练:首次大规模使用 GPU 加速
结构:5 卷积层 + 3 全连接层,输入尺寸 227×227×3
在 ImageNet ILSVRC-2012 中 Top-5 错误率降至 15.3% (第二名 26.2%),引爆深度学习革命。
3. VGGNet(Simonyan & Zisserman, 2014)
核心思想:用多个 3×3 小卷积核堆叠代替大卷积核
- 两个 3×3 卷积 ≈ 一个 5×5 卷积,但参数更少、非线性更强
- 三个 3×3 卷积 ≈ 一个 7×7 卷积
参数效率:
- 7×7 卷积(64 通道):$7^2 \times 64 \times 64 = 200,704$
- 三个 3×3 卷积:$3 \times (3^2 \times 64 \times 64) = 110,592$(减少近一半)
- 代表模型:VGG-16(16 层)、VGG-19(19 层)
- 影响:证明“更深的网络”能带来更好性能,成为后续研究的标准 backbone。
4. ResNet(He et al., 2015)
- 问题背景:网络加深后出现退化问题(degradation)——准确率饱和甚至下降
解决方案:残差连接(Residual Connection)
- 引入“恒等映射”路径,让网络学习残差函数 $F(x)$ 而非原始映射 $H(x)$
基本单元(残差块):
\[y = F(x, \{W_i\}) + x\]其中 $F(x)$ 是若干卷积层的堆叠,$x$ 是输入(通过 shortcut 直接相加)
- 若 $F(x) \to 0$,则 $y \to x$,网络自动退化为恒等映射,避免性能下降
- 成果:成功训练 152 层 ResNet,在 ImageNet 上错误率仅 3.6%
残差思想已成为现代深度网络(如 Transformer)的标配。
5. Inception Network(GoogLeNet, Szegedy et al., 2014)
- 核心理念:多尺度特征提取 + 计算效率优化
Inception 模块:并行使用不同尺寸卷积核(1×1, 3×3, 5×5)和池化,然后拼接输出
引入 1×1 卷积进行通道降维,大幅减少计算量
- 例如:先用 1×1 卷积将 256 通道压缩到 64,再做 3×3 卷积
优势:
- 同时捕获局部与全局信息
- 参数少、速度快、精度高
- 结构深度:22 层(含辅助分类器)
四、学习建议与迁移价值
对非 CV 领域从业者的启示:
- 模块化设计思想:如 ResNet 的 skip connection 可用于 NLP(如 Transformer 中的残差连接)
- 计算效率意识:Inception 的多分支+降维策略启发了轻量化模型设计(如 MobileNet)
- 实验驱动创新:这些网络都是通过大量实验验证得出的工程智慧,而非纯理论推导
如何应用到你的项目?
- 直接迁移:使用预训练的 VGG/ResNet 作为特征提取器(迁移学习)
- 借鉴结构:在你的任务中引入残差连接或多尺度模块
- 复现论文:动手实现这些网络,理解其训练细节(如学习率调度、数据增强)
五、总结
“看案例不是为了复制,而是为了理解设计哲学。”
通过研究 LeNet → AlexNet → VGG → ResNet → Inception 的演进脉络,你将掌握:
- 如何平衡网络深度与训练稳定性
- 如何提升计算效率而不牺牲性能
- 如何构建可扩展、可迁移的深度架构
这些思想超越了计算机视觉本身,是构建任何深度学习系统的核心能力。
本文由作者按照 CC BY 4.0 进行授权