11 一维到三维推广(1D and 3D generalizations of models)
11 一维到三维推广(1D and 3D generalizations of models) 一、核心思想 卷积神经网络(ConvNets)最初为处理 2D 图像 而设计,但其核心机制——局部感受野 + 权重共享 + 平移不变性——具有高度通用性,可自然推广至 1D 时间序列 和 3D 体数据(如医学影像、视频) 。 关键洞察:卷积操作的本质是 滑动窗口特征检测器,维度只是输入...
11 一维到三维推广(1D and 3D generalizations of models) 一、核心思想 卷积神经网络(ConvNets)最初为处理 2D 图像 而设计,但其核心机制——局部感受野 + 权重共享 + 平移不变性——具有高度通用性,可自然推广至 1D 时间序列 和 3D 体数据(如医学影像、视频) 。 关键洞察:卷积操作的本质是 滑动窗口特征检测器,维度只是输入...
10 风格损失函数(Style Cost Function) 🎨 一、什么是图像的“风格”? 在神经风格迁移(Neural Style Transfer)中,“风格”并不是指颜色或构图等直观概念,而是通过卷积神经网络(CNN)某一层的特征激活之间的统计相关性来定义的。 图像经过 CNN 某一层后,会得到一个三维激活张量: \[a^{[l]} \in \mathbb{R...
09 内容代价函数(Content Cost Function) 一、背景:风格迁移的总代价函数结构 在神经风格迁移(Neural Style Transfer) 任务中,目标是生成一张既保留内容图像(content image)语义内容,又具有风格图像(style image)艺术风格的新图像。 为此,总代价函数由两部分组成: [J(G) = \alpha \cdot J_{\te...
08 代价函数(Cost function) 一、问题定义 给定: 一张内容图像 $C$ 一张风格图像 $S$ 目标:生成一张新图像 $G$,使其: 内容上接近 $C$ 风格上接近 $S$ 这就是神经风格迁移(Neural Style Transfer) 的核心任务。 二、整体策略:优化生成图像 $G$ 我们不训练一个神经网络去“生成”图像,而是:...
07 CNN特征可视化(What are deep ConvNets learning?) 一、核心问题:深度卷积神经网络到底在学什么? 深度卷积神经网络(ConvNets)通过多层非线性变换从原始图像中自动提取特征。理解每一层学到的内容,有助于: 解释模型行为 调试网络结构 构建高级应用(如神经风格迁移) 本节通过特征可视化方法,揭示不同深度隐藏单元所响应的图像模式...
06 神经风格迁移 什么是神经风格迁移? 神经风格迁移是一种利用深度学习技术将一张图片的内容与另一张图片的风格结合起来生成新的图像的技术。该技术的核心在于使用卷积神经网络(CNN)来提取并结合内容图像和风格图像中的特征。 主要概念 内容图像 $C$:你想要保留其主要内容的图像。 风格图像 $S$:你希望应用到内容图像上的风格来源图像。 生成图像 $G$:通过算法处理后得...
05 人脸验证与二分类 一、核心思想 将 人脸验证(Face Verification) 问题转化为一个 监督学习的二分类任务: 输入:一对人脸图像 $(x^{(1)}, x^{(2)})$ 输出:标签 $y \in {0, 1}$ $y = 1$:两张图是同一个人 $y = 0$:两张图是不同人 这与 Tr...
04 Triplet 损失 🧠 一、Triplet 损失的核心思想 Triplet 损失是一种用于度量学习(Metric Learning) 的损失函数,特别适用于人脸识别等需要学习“相似性”的任务。 目标:训练一个神经网络,使其对同一个人的两张人脸图像生成相近的编码(embedding) ,而对不同人的图像生成相距较远的编码。 实现方式:通过构造三元组(Tripl...
03 Siamese 网络(用于人脸识别) 一、核心思想 Siamese 网络是一种双分支结构的神经网络,用于衡量两个输入之间的相似度。在人脸识别任务中,其目标是: 若两张人脸属于同一人,则它们的编码应相近;若属于不同人,则编码应相距较远。 二、网络结构 输入:两张人脸图像 $x^{(1)}$ 和 $x^{(2)}$ 使用同一个卷积神经网络(共享参数)分别处理...
02 One-Shot Learning(一次性学习) 一、问题背景 在人脸识别的实际应用场景中,常常面临 “一次性学习(One-shot learning)” 的挑战: 每个身份(如员工)在数据库中仅有一张参考图像; 系统需要仅凭这一张图像,就能识别出新输入的人脸是否属于该身份; 若使用传统分类方法(如 Softmax 分类器),则: ...