01 目标定位(Object Localization)
01 目标定位(Object Localization) 🎯 一、任务定义:从图像分类到目标定位 1. 图像分类(Image Classification) 输入:一张图像 $x$ 输出:类别标签 $y \in {1, 2, …, C}$(如:行人、汽车、摩托车、背景) 模型结构:CNN → 全连接层 → Softmax 输出形式:概率分布 $\hat{y} = [\...
01 目标定位(Object Localization) 🎯 一、任务定义:从图像分类到目标定位 1. 图像分类(Image Classification) 输入:一张图像 $x$ 输出:类别标签 $y \in {1, 2, …, C}$(如:行人、汽车、摩托车、背景) 模型结构:CNN → 全连接层 → Softmax 输出形式:概率分布 $\hat{y} = [\...
09 计算机视觉现状(The state of computer vision) 🧠 一、核心观点概览 计算机视觉(Computer Vision, CV)是深度学习最成功的应用领域之一,但与其他领域(如语音识别、NLP)相比,它具有以下特点: 数据相对稀缺:即使有百万级图像数据集,对于高复杂度任务(如目标检测)仍显不足。 高度依赖手工工程(Hand-engineering)...
08 数据增强(Data Augmentation) 一、为什么需要数据增强? 在计算机视觉任务中,模型通常需要从原始像素值(如 $x \in \mathbb{R}^{H \times W \times 3}$)中学习复杂的映射关系以识别图像内容。然而: 数据稀缺是计算机视觉的主要瓶颈; 相比其他机器学习领域,CV 对数据量极度敏感; 即使使用迁移学习(Transfer ...
07 迁移学习(Transfer Learning) 迁移学习(Transfer Learning)是深度学习,尤其是计算机视觉(Computer Vision)领域中极为重要且高效的技术。其核心思想是:利用在大规模数据集上预训练好的模型权重,作为新任务模型的初始化参数,从而显著提升小数据集上的训练效果与收敛速度。 一、迁移学习的基本原理 1.1 为什么使用迁移学习? 数据...
06 Inception 网络 1. 核心构建单元:Inception 模块 Inception 网络的核心在于其基础模块的设计,该模块旨在解决卷积层中卷积核尺寸选择的难题。它通过并行组合多种尺寸的卷积核和池化层,让网络在训练过程中自动学习不同尺度特征的重要性。 多分支并行结构:一个标准的Inception模块包含四个并行的分支: 1×1 卷积层...
05 谷歌 Inception 网络简介(Inception network motivation) Inception网络核心思想与架构解析 Inception网络(也称GoogLeNet)的核心动机在于解决传统卷积神经网络设计中的一个核心难题:人工选择卷积核尺寸(1×1, 3×3, 5×5)或池化层的决策困境。Inception模块通过一种巧妙的并行架构,让网络自行决定在每一层需要什...
04 网络中的网络(Network in Network, NiN) 1. 核心概念:1×1 卷积的本质 初看 1×1 卷积似乎仅是对单像素点的操作,但在多通道特征图中,它实际上是在通道维度上进行的线性组合。 单通道情况 若输入为单通道图像(例如 6×6×1),1×1 卷积确实等价于对每个像素进行标量乘法,作用有限。 计算公式为: \[\text{Output}...
03 残差网络(ResNets)——深度神经网络的突破 🌟 课程核心目标 本节旨在解决深度神经网络训练中的梯度消失与梯度爆炸问题,通过引入“跳跃连接”(Skip Connection)构建残差网络(Residual Networks, ResNets) ,使得网络可以训练得更深、更稳定、性能更强。 🔍 一、传统神经网络的局限性 ❌ 问题:深度网络难以训练 随着网络层数增加,会出...
02 经典神经网络(Classic Networks) 课程总结 本节课程介绍了深度学习发展史中三个具有里程碑意义的经典卷积神经网络(CNN)结构:LeNet-5、AlexNet 和 VGG-16。这些模型为现代计算机视觉奠定了基础,理解它们的结构、设计思想和历史背景对于深入掌握深度学习至关重要。 🎯 课程目标 理解 LeNet-5、AlexNet、VGG-16 的整体架构...
01 为什么要进行实例探究?(Why look at case studies?) 一、为什么要研究 CNN 实例?(Why Look at Case Studies?) 核心目的: 从实践中学习架构设计思想:虽然我们已经掌握了 CNN 的基本构件(卷积层、池化层、全连接层等),但如何将它们有效组合以解决实际问题,才是关键。 迁移能力:在计算机视觉任务中表现优异的网络架构(如...