01 什么是人脸识别?(What is face recognition?)
01 什么是人脸识别?(What is face recognition?) 一、课程背景与目标 本节是卷积神经网络(CNN)课程的最后一周的开篇。 目标:介绍 CNN 的两个重要应用: 人脸识别(Face Recognition) 神经风格迁移(Neural Style Transfer) 本节聚焦于人脸识别系...
01 什么是人脸识别?(What is face recognition?) 一、课程背景与目标 本节是卷积神经网络(CNN)课程的最后一周的开篇。 目标:介绍 CNN 的两个重要应用: 人脸识别(Face Recognition) 神经风格迁移(Neural Style Transfer) 本节聚焦于人脸识别系...
10 候选区域(Region Proposals, Optional) 🧠 一、核心思想:从滑动窗口到候选区域 1. 滑动窗口法的问题 传统方法:在图像上使用固定大小的滑动窗口,对每个窗口运行分类器(如 CNN),判断是否包含目标(如车辆、行人等)。 主要缺点: 计算冗余:大量窗口覆盖的是“空背景”区域(如天空、道路),无实际目标,却仍需运行...
09 YOLO 算法(Putting it together: YOLO algorithm) 🧠 一、YOLO 算法整体思想 YOLO(You Only Look Once)是一种单阶段(one-stage)目标检测算法,其核心思想是: 将目标检测问题转化为回归问题:给定一张图像,通过一个卷积神经网络直接预测出所有目标的边界框(bounding box)及其类别概率。 YO...
08 Anchor Boxes(锚框) 一、问题背景 在基础的目标检测方法(如 YOLO v1)中,每个网格单元(grid cell)只能预测 一个对象。 但现实中,多个对象的中心点可能落在同一个网格内,例如一张图中行人与汽车的中心几乎重合。 ❗ 问题:若一个格子中存在多个对象,则无法同时检测它们。 二、Anchor Box 的核心思想 为解决上述问题,引入 Ancho...
07 非极大值抑制(Non-Max Suppression, NMS) 一、问题背景 在基于网格(grid cell)的对象检测算法(如 YOLO)中,每个网格单元都会独立预测是否存在目标及其边界框(bounding box)。 但由于目标可能跨越多个网格,多个相邻网格可能都预测了同一个目标,导致对同一对象产生多个重复的检测结果。 💡 目标:确保每个真实对象只被检测一次。 ...
06 交并比(Intersection over Union, IoU) 一、IoU 的定义与作用 在目标检测(Object Detection) 任务中,不仅要识别出图像中是否存在某个物体,还需要精确定位其位置,通常用边界框(Bounding Box) 表示。为了衡量预测边界框与真实边界框(Ground Truth)之间的定位精度,引入了 交并比(IoU) 这一指标。 IoU...
05 Bounding Box预测(YOLO算法基础) 📘 课程主题:YOLO 算法基础 —— 单次检测实现精准边界框预测 一、背景与动机 滑动窗口法的问题: 使用离散窗口位置进行分类,无法输出任意形状/位置的边界框。 边界框受限于窗口大小和步长,精度低。 无法处理非正方形目标(如横向延伸的汽车)。 ...
04 滑动窗口的卷积实现(Convolutional Implementation of Sliding Windows) 一、背景:传统滑动窗口方法的问题 在目标检测任务中,传统滑动窗口方法的做法是: 将输入图像划分为多个固定大小(如 $14 \times 14$)的子区域; 对每个子区域单独送入一个训练好的分类 CNN; 输出该区域是否包含目标(如行人、汽车等)及其类...
03 目标检测(Object Detection) 一、课程目标 本节旨在讲解如何构建一个 基于滑动窗口(Sliding Window)的卷积神经网络目标检测系统,从基础的图像分类与定位任务出发,逐步过渡到多目标检测场景。 二、前置知识回顾 在进入目标检测前,课程已覆盖两个相关任务: 图像分类(Image Classification) :判断图像中是否包含某类物体(如“...
02 特征点检测 1. 概述 特征点检测是利用神经网络在图像中定位特定对象的关键点的过程。这些关键点可以用于识别和描述对象的特征,如人脸、人体姿态等。通过训练神经网络输出这些特征点的坐标值,我们可以实现对目标对象的精确定位和分析。 2. 基本概念与应用实例 对象定位:通过神经网络输出四个参数 $(b_x, b_y, b_h, b_w)$,给出图片中对象的边界框。 ...