06 三维卷积(Convolutions over Volumes)
06 三维卷积(Convolutions over Volumes)
06 三维卷积(Convolutions over Volumes)
🧠 三维卷积(Convolutions over Volumes)课程总结
一、动机:从二维卷积到三维卷积
- 二维卷积适用于灰度图像(单通道),输入为 $H \times W$。
- 彩色图像通常是 RGB 三通道,表示为 $H \times W \times C$,其中 $C=3$。
- 为了在彩色图像上进行卷积操作,滤波器(filter)也必须是三维的,即具有相同的通道数。
✅ 关键点:滤波器的通道数必须与输入图像的通道数一致。
二、三维卷积的定义与计算过程
1. 输入与滤波器维度
输入体积(Input Volume):
\[H_{\text{in}} \times W_{\text{in}} \times C_{\text{in}}\]滤波器(Filter / Kernel):
\[f \times f \times C_{\text{in}}\]其中 $f$ 是滤波器的空间尺寸(如 3×3),$C_{\text{in}}$ 是输入通道数。
🔗 约束条件:滤波器的通道数 $C_{\text{in}}$ 必须等于输入的通道数。
2. 卷积操作
- 将滤波器在输入体积上滑动(通常步幅 $s=1$,无 padding)。
在每个位置,对 所有通道 的对应元素做逐元素相乘再求和:
\[\text{Output}(i,j) = \sum_{c=1}^{C_{\text{in}}} \sum_{m=0}^{f-1} \sum_{n=0}^{f-1} X[i+m, j+n, c] \cdot W[m, n, c]\]其中:
- $X$ 是输入体积,
- $W$ 是滤波器权重,
- 输出是一个标量(单通道)。
\[H_{\text{out}} \times W_{\text{out}} = (H_{\text{in}} - f + 1) \times (W_{\text{in}} - f + 1)\]📌 结果:单个滤波器输出一个 二维特征图(feature map) ,尺寸为:
三、多滤波器卷积 → 输出多通道特征图
1. 使用多个滤波器
- 若使用 $K$ 个不同的 $f \times f \times C_{\text{in}}$ 滤波器,
- 则会得到 $K$ 个 $H_{\text{out}} \times W_{\text{out}}$ 的特征图,
将它们堆叠起来,形成输出体积:
\[H_{\text{out}} \times W_{\text{out}} \times K\]
✅ 输出通道数 = 滤波器数量 $K$
2. 示例
- 输入:$6 \times 6 \times 3$
- 滤波器:两个 $3 \times 3 \times 3$(如一个检测垂直边缘,一个检测水平边缘)
- 输出:$(6 - 3 + 1) \times (6 - 3 + 1) \times 2 = 4 \times 4 \times 2$
四、滤波器的设计与功能
特定通道检测:
\[W[:, :, \text{red}] = \begin{bmatrix} -1 & 0 & 1 \\ -1 & 0 & 1 \\ -1 & 0 & 1 \end{bmatrix}, \quad W[:, :, \text{green}] = W[:, :, \text{blue}] = \mathbf{0}\]
若只关心红色通道的边缘,可设:跨通道通用检测:
所有通道使用相同边缘检测核,可检测任意颜色通道中的边界。
💡 滤波器参数决定其检测的特征类型(边缘、纹理、颜色等)。
五、维度总结(无 padding,步幅 $s=1$)
给定:
- 输入:$H_{\text{in}} \times W_{\text{in}} \times C_{\text{in}}$
- 滤波器:$f \times f \times C_{\text{in}}$,共 $K$ 个
则输出体积为:
\[H_{\text{out}} \times W_{\text{out}} \times C_{\text{out}} = (H_{\text{in}} - f + 1) \times (W_{\text{in}} - f + 1) \times K\]\[H_{\text{out}} = \left\lfloor \frac{H_{\text{in}} + 2p - f}{s} \right\rfloor + 1\]📝 注:若使用 padding $p$ 和步幅 $s$,则:
(宽度同理)
六、术语澄清:通道 vs 深度
- 通道(Channels) :指 RGB 或特征图的第三维,表示不同特征或颜色信息。
- 深度(Depth) :在部分文献中等同于“通道数”,但易与“网络深度”混淆。
- 本课程建议:统一使用 “通道” 描述第三维。
七、核心思想总结
| 概念 | 说明 |
|---|---|
| 三维输入 | 彩色图像或前一层的多通道特征图 |
| 三维滤波器 | 空间尺寸 × 通道数,通道数必须匹配输入 |
| 单滤波器输出 | 一个二维特征图 |
| 多滤波器输出 | 多个特征图堆叠 → 三维输出体积 |
| 输出通道数 | 等于滤波器数量 $K$ |
| 功能灵活性 | 通过设计滤波器权重,可检测任意空间+通道特征 |
八、后续应用
- 三维卷积是卷积神经网络(CNN) 中卷积层的基础。
- 通过堆叠多个卷积层,网络可自动学习从低级(边缘)到高级(物体部件)的特征表示。
- 每一层的输出通道数由该层滤波器数量决定,是超参数之一。
本文由作者按照 CC BY 4.0 进行授权