09 计算机视觉现状（The state of computer vision）

发表于 2026/01/26 更新于 2026/01/26

作者 Leon Yi

6 分钟阅读

🧠 一、核心观点概览

计算机视觉（Computer Vision, CV）是深度学习最成功的应用领域之一，但与其他领域（如语音识别、NLP）相比，它具有以下特点：

数据量	算法策略	特点
大量数据	简单模型 + 自动学习	少手工特征，靠大模型从数据中学习一切
少量数据	复杂手工工程	需精心设计特征、网络结构、正则化等

关键洞察：
当标签数据 $D = {(x^{(i)}, y^{(i)})}_{i=1}^N$ 较小时，模型泛化能力受限，必须引入先验知识（prior knowledge），而这种先验常通过手工工程实现。

任务复杂度高
- 图像识别（Image Classification）：输入为像素矩阵 $x \in \mathbb{R}^{H \times W \times C}$，输出类别 $y \in {1, 2, …, K}$。
- 目标检测（Object Detection）：需同时预测类别和边界框 $(y, b_x, b_y, b_w, b_h)$，标注成本更高 → 数据更少。
有效数据不足
即使 ImageNet 有 1400 万张图，对细粒度任务或特定领域（如医疗影像）仍远远不够。
架构创新驱动性能提升
因数据有限，研究者通过设计更优网络结构（如 ResNet、Inception）来弥补数据不足：
\[\text{Performance} \approx f(\text{Architecture}, \text{Data}, \text{Optimization})\]
当 Data 固定时，提升 Architecture 成为主要手段。

在大规模数据集（如 ImageNet）上预训练模型 $f_{\theta_{\text{pre}}}$
在目标任务小数据集上微调（fine-tune）部分或全部参数：
\[\theta^* = \arg\min_{\theta} \sum_{i=1}^{N_{\text{small}}} \mathcal{L}(f_{\theta}(x^{(i)}), y^{(i)})\]
其中 $N_{\text{small}} \ll N_{\text{ImageNet}}$

✅ 优势：避免从零训练，节省计算资源，提升小样本性能。
💡 建议：优先使用开源预训练模型（如 ResNet50 from fchollet/deep-learning-models）。

技巧	描述	是否适合生产
模型集成（Ensemble）	训练多个独立模型，平均输出：$\hat{y} = \frac{1}{M} \sum_{m=1}^{M} f_{\theta_m}(x)$	❌ 否（计算开销大，延迟高）
测试时多裁剪（Multi-crop at test time）	对单张图生成多个裁剪/翻转版本（如 10-crop），平均预测结果	⚠️ 谨慎（增加 10 倍推理时间）

📌 重要提醒：
这些方法在 ImageNet Top-1/Top-5 Accuracy 等 benchmark 上可提升 1–2%，但极少用于线上服务系统，除非有极高算力预算。

ResNet 原文：
He, K., Zhang, X., Ren, S., & Sun, J. (2015). Deep Residual Learning for Image Recognition. arXiv:1512.03385
代码实现：
François Chollet 的 ResNet50 实现：
https://github.com/fchollet/deep-learning-models/blob/master/resnet50.py
关键概念：
- Benchmark：标准化性能评估平台（如 ImageNet、COCO）
- Hand-engineering：人工设计特征或结构（vs. end-to-end learning）

“当你有很多数据时，让数据说话；当你没有很多数据时，让专家说话。”
—— Andrew Ng

“在计算机视觉中，一个好架构的价值，往往超过十倍的数据。”（在小数据场景下）

本文由作者按照 CC BY 4.0 进行授权

技巧	描述	是否适合生产
模型集成（Ensemble）	训练多个独立模型，平均输出：\(\hat{y} = \frac{1}{M} \sum_{m=1}^{M} f_{\theta_m}(x)\)	❌ 否（计算开销大，延迟高）
测试时多裁剪（Multi-crop at test time）	对单张图生成多个裁剪/翻转版本（如 10-crop），平均预测结果	⚠️ 谨慎（增加 10 倍推理时间）