01 计算机视觉（Computer vision）

发表于 2026/01/18 更新于 2026/01/18

作者 Leon Yi

4 分钟阅读

计算机视觉与深度学习

计算机视觉领域的发展得益于深度学习技术的进步，这使得许多之前难以实现的应用成为可能。例如，自动驾驶汽车能够识别行人和其它车辆并避开它们；人脸识别技术提高了手机解锁的安全性和便捷性。

应用案例

图片分类（Image Classification） ：给定一张大小为 $64 \times 64$ 的图片，训练模型识别图中的物体是否为猫。该过程涉及到处理一个特征向量维度为 $n = 64 \times 64 \times 3 = 12288$ 的数据。
目标检测（Object Detection） ：在无人驾驶等场景中，不仅需要识别图像中的物体，还需要确定这些物体的位置以便于进行规避操作。此任务通常通过框选图像中的物体来实现位置的确定。
风格迁移（Style Transfer） ：利用神经网络将一张图片的内容与另一张图片的风格相结合，创造出具有新艺术风格的图片。这个过程涉及到了解和应用卷积神经网络的能力。

数据输入挑战

处理大尺寸图片时面临的主要挑战是输入数据量的巨大。以一张 $1000 \times 1000$ 像素的图片为例，其特征向量维度达到了 $1000 \times 1000 \times 3 = 3,000,000$。使用传统的全连接网络处理如此庞大的数据量会导致参数数量剧增，比如第一个隐藏层有 $1000$ 个单元时，权重矩阵的大小将是 $1000 \times 3,000,000$，即 $3$ 亿个参数。这样的规模对内存和计算资源提出了极高的要求，并且容易导致过拟合问题。

卷积运算的重要性

为了有效处理高维度的数据输入，同时保持对大尺寸图片的良好处理能力，卷积神经网络（CNN）被广泛应用。相比于全连接网络，CNN通过局部连接和权值共享显著减少了模型参数的数量，使得处理大规模图像数据变得可行。下一节课将会深入讲解卷积运算的概念，以及如何通过边缘检测等实例理解卷积操作的本质。

总结

本节课程主要介绍了计算机视觉领域的几个重要应用场景，包括图片分类、目标检测和风格迁移，并指出了处理高维度图像数据时面临的挑战及解决方案。重点在于理解为什么以及如何使用卷积神经网络来解决这些问题。

卷积神经网络

本文由作者按照 CC BY 4.0 进行授权

01 计算机视觉（Computer vision）

计算机视觉与深度学习

应用案例

数据输入挑战

卷积运算的重要性

总结

热门标签