Leon Yi

10 候选区域(Region Proposals, Optional)

10 候选区域(Region Proposals, Optional) 🧠 一、核心思想:从滑动窗口到候选区域 1. 滑动窗口法的问题 传统方法:在图像上使用固定大小的滑动窗口,对每个窗口运行分类器(如 CNN),判断是否包含目标(如车辆、行人等)。 主要缺点: 计算冗余:大量窗口覆盖的是“空背景”区域(如天空、道路),无实际目标,却仍需运行...

08 Anchor Boxes(锚框)

08 Anchor Boxes(锚框) 一、问题背景 在基础的目标检测方法(如 YOLO v1)中,每个网格单元(grid cell)只能预测 一个对象。 但现实中,多个对象的中心点可能落在同一个网格内,例如一张图中行人与汽车的中心几乎重合。 ❗ 问题:若一个格子中存在多个对象,则无法同时检测它们。 二、Anchor Box 的核心思想 为解决上述问题,引入 Ancho...

07 非极大值抑制(Non-Max Suppression, NMS)

07 非极大值抑制(Non-Max Suppression, NMS) 一、问题背景 在基于网格(grid cell)的对象检测算法(如 YOLO)中,每个网格单元都会独立预测是否存在目标及其边界框(bounding box)。 但由于目标可能跨越多个网格,多个相邻网格可能都预测了同一个目标,导致对同一对象产生多个重复的检测结果。 💡 目标:确保每个真实对象只被检测一次。 ...

04 滑动窗口的卷积实现(Convolutional Implementation of Sliding Windows)

04 滑动窗口的卷积实现(Convolutional Implementation of Sliding Windows) 一、背景:传统滑动窗口方法的问题 在目标检测任务中,传统滑动窗口方法的做法是: 将输入图像划分为多个固定大小(如 $14 \times 14$)的子区域; 对每个子区域单独送入一个训练好的分类 CNN; 输出该区域是否包含目标(如行人、汽车等)及其类...

03 目标检测(Object Detection)

03 目标检测(Object Detection) 一、课程目标 本节旨在讲解如何构建一个 基于滑动窗口(Sliding Window)的卷积神经网络目标检测系统,从基础的图像分类与定位任务出发,逐步过渡到多目标检测场景。 二、前置知识回顾 在进入目标检测前,课程已覆盖两个相关任务: 图像分类(Image Classification) :判断图像中是否包含某类物体(如“...

02 特征点检测

02 特征点检测 1. 概述 特征点检测是利用神经网络在图像中定位特定对象的关键点的过程。这些关键点可以用于识别和描述对象的特征,如人脸、人体姿态等。通过训练神经网络输出这些特征点的坐标值,我们可以实现对目标对象的精确定位和分析。 2. 基本概念与应用实例 对象定位:通过神经网络输出四个参数 $(b_x, b_y, b_h, b_w)$,给出图片中对象的边界框。 ...