06 交并比(Intersection over Union, IoU)
06 交并比(Intersection over Union, IoU) 一、IoU 的定义与作用 在目标检测(Object Detection) 任务中,不仅要识别出图像中是否存在某个物体,还需要精确定位其位置,通常用边界框(Bounding Box) 表示。为了衡量预测边界框与真实边界框(Ground Truth)之间的定位精度,引入了 交并比(IoU) 这一指标。 IoU...
06 交并比(Intersection over Union, IoU) 一、IoU 的定义与作用 在目标检测(Object Detection) 任务中,不仅要识别出图像中是否存在某个物体,还需要精确定位其位置,通常用边界框(Bounding Box) 表示。为了衡量预测边界框与真实边界框(Ground Truth)之间的定位精度,引入了 交并比(IoU) 这一指标。 IoU...
05 Bounding Box预测(YOLO算法基础) 📘 课程主题:YOLO 算法基础 —— 单次检测实现精准边界框预测 一、背景与动机 滑动窗口法的问题: 使用离散窗口位置进行分类,无法输出任意形状/位置的边界框。 边界框受限于窗口大小和步长,精度低。 无法处理非正方形目标(如横向延伸的汽车)。 ...
04 滑动窗口的卷积实现(Convolutional Implementation of Sliding Windows) 一、背景:传统滑动窗口方法的问题 在目标检测任务中,传统滑动窗口方法的做法是: 将输入图像划分为多个固定大小(如 $14 \times 14$)的子区域; 对每个子区域单独送入一个训练好的分类 CNN; 输出该区域是否包含目标(如行人、汽车等)及其类...
03 目标检测(Object Detection) 一、课程目标 本节旨在讲解如何构建一个 基于滑动窗口(Sliding Window)的卷积神经网络目标检测系统,从基础的图像分类与定位任务出发,逐步过渡到多目标检测场景。 二、前置知识回顾 在进入目标检测前,课程已覆盖两个相关任务: 图像分类(Image Classification) :判断图像中是否包含某类物体(如“...
02 特征点检测 1. 概述 特征点检测是利用神经网络在图像中定位特定对象的关键点的过程。这些关键点可以用于识别和描述对象的特征,如人脸、人体姿态等。通过训练神经网络输出这些特征点的坐标值,我们可以实现对目标对象的精确定位和分析。 2. 基本概念与应用实例 对象定位:通过神经网络输出四个参数 $(b_x, b_y, b_h, b_w)$,给出图片中对象的边界框。 ...
01 目标定位(Object Localization) 🎯 一、任务定义:从图像分类到目标定位 1. 图像分类(Image Classification) 输入:一张图像 $x$ 输出:类别标签 $y \in {1, 2, …, C}$(如:行人、汽车、摩托车、背景) 模型结构:CNN → 全连接层 → Softmax 输出形式:概率分布 $\hat{y} = [\...
09 计算机视觉现状(The state of computer vision) 🧠 一、核心观点概览 计算机视觉(Computer Vision, CV)是深度学习最成功的应用领域之一,但与其他领域(如语音识别、NLP)相比,它具有以下特点: 数据相对稀缺:即使有百万级图像数据集,对于高复杂度任务(如目标检测)仍显不足。 高度依赖手工工程(Hand-engineering)...
08 数据增强(Data Augmentation) 一、为什么需要数据增强? 在计算机视觉任务中,模型通常需要从原始像素值(如 $x \in \mathbb{R}^{H \times W \times 3}$)中学习复杂的映射关系以识别图像内容。然而: 数据稀缺是计算机视觉的主要瓶颈; 相比其他机器学习领域,CV 对数据量极度敏感; 即使使用迁移学习(Transfer ...
07 迁移学习(Transfer Learning) 迁移学习(Transfer Learning)是深度学习,尤其是计算机视觉(Computer Vision)领域中极为重要且高效的技术。其核心思想是:利用在大规模数据集上预训练好的模型权重,作为新任务模型的初始化参数,从而显著提升小数据集上的训练效果与收敛速度。 一、迁移学习的基本原理 1.1 为什么使用迁移学习? 数据...
06 Inception 网络 1. 核心构建单元:Inception 模块 Inception 网络的核心在于其基础模块的设计,该模块旨在解决卷积层中卷积核尺寸选择的难题。它通过并行组合多种尺寸的卷积核和池化层,让网络在训练过程中自动学习不同尺度特征的重要性。 多分支并行结构:一个标准的Inception模块包含四个并行的分支: 1×1 卷积层...