06 三维卷积（Convolutions over Volumes）

发表于 2026/01/18 更新于 2026/01/18

作者 Leon Yi

5 分钟阅读

🧠 三维卷积（Convolutions over Volumes）课程总结

一、动机：从二维卷积到三维卷积

二维卷积适用于灰度图像（单通道），输入为 $H \times W$。
彩色图像通常是 RGB 三通道，表示为 $H \times W \times C$，其中 $C=3$。
为了在彩色图像上进行卷积操作，滤波器（filter）也必须是三维的，即具有相同的通道数。

✅ 关键点：滤波器的通道数必须与输入图像的通道数一致。

二、三维卷积的定义与计算过程

1. 输入与滤波器维度

输入体积（Input Volume）：
\[H_{\text{in}} \times W_{\text{in}} \times C_{\text{in}}\]
滤波器（Filter / Kernel）：
\[f \times f \times C_{\text{in}}\]
其中 $f$ 是滤波器的空间尺寸（如 3×3），$C_{\text{in}}$ 是输入通道数。

🔗 约束条件：滤波器的通道数 $C_{\text{in}}$ 必须等于输入的通道数。

2. 卷积操作

将滤波器在输入体积上滑动（通常步幅 $s=1$，无 padding）。
在每个位置，对 所有通道 的对应元素做逐元素相乘再求和：
\[\text{Output}(i,j) = \sum_{c=1}^{C_{\text{in}}} \sum_{m=0}^{f-1} \sum_{n=0}^{f-1} X[i+m, j+n, c] \cdot W[m, n, c]\]
其中：
- $X$ 是输入体积，
- $W$ 是滤波器权重，
- 输出是一个标量（单通道）。

📌 结果：单个滤波器输出一个 二维特征图（feature map） ，尺寸为：

\[H_{\text{out}} \times W_{\text{out}} = (H_{\text{in}} - f + 1) \times (W_{\text{in}} - f + 1)\]

三、多滤波器卷积 → 输出多通道特征图

1. 使用多个滤波器

若使用 $K$ 个不同的 $f \times f \times C_{\text{in}}$ 滤波器，
则会得到 $K$ 个 $H_{\text{out}} \times W_{\text{out}}$ 的特征图，
将它们堆叠起来，形成输出体积：
\[H_{\text{out}} \times W_{\text{out}} \times K\]

✅ 输出通道数 = 滤波器数量 $K$

2. 示例

输入：$6 \times 6 \times 3$
滤波器：两个 $3 \times 3 \times 3$（如一个检测垂直边缘，一个检测水平边缘）
输出：$(6 - 3 + 1) \times (6 - 3 + 1) \times 2 = 4 \times 4 \times 2$

四、滤波器的设计与功能

特定通道检测：
若只关心红色通道的边缘，可设：
\[W[:, :, \text{red}] = \begin{bmatrix} -1 & 0 & 1 \\ -1 & 0 & 1 \\ -1 & 0 & 1 \end{bmatrix}, \quad W[:, :, \text{green}] = W[:, :, \text{blue}] = \mathbf{0}\]
跨通道通用检测：
所有通道使用相同边缘检测核，可检测任意颜色通道中的边界。

💡 滤波器参数决定其检测的特征类型（边缘、纹理、颜色等）。

五、维度总结（无 padding，步幅 $s=1$）

给定：

输入：$H_{\text{in}} \times W_{\text{in}} \times C_{\text{in}}$
滤波器：$f \times f \times C_{\text{in}}$，共 $K$ 个

则输出体积为：

\[H_{\text{out}} \times W_{\text{out}} \times C_{\text{out}} = (H_{\text{in}} - f + 1) \times (W_{\text{in}} - f + 1) \times K\]

📝 注：若使用 padding $p$ 和步幅 $s$，则：

\[H_{\text{out}} = \left\lfloor \frac{H_{\text{in}} + 2p - f}{s} \right\rfloor + 1\]

（宽度同理）

六、术语澄清：通道 vs 深度

通道（Channels） ：指 RGB 或特征图的第三维，表示不同特征或颜色信息。
深度（Depth） ：在部分文献中等同于“通道数”，但易与“网络深度”混淆。
本课程建议：统一使用 “通道” 描述第三维。

七、核心思想总结

概念	说明
三维输入	彩色图像或前一层的多通道特征图
三维滤波器	空间尺寸 × 通道数，通道数必须匹配输入
单滤波器输出	一个二维特征图
多滤波器输出	多个特征图堆叠 → 三维输出体积
输出通道数	等于滤波器数量 $K$
功能灵活性	通过设计滤波器权重，可检测任意空间+通道特征

八、后续应用

三维卷积是卷积神经网络（CNN） 中卷积层的基础。
通过堆叠多个卷积层，网络可自动学习从低级（边缘）到高级（物体部件）的特征表示。
每一层的输出通道数由该层滤波器数量决定，是超参数之一。

卷积神经网络

本文由作者按照 CC BY 4.0 进行授权

06 三维卷积（Convolutions over Volumes）

🧠 三维卷积（Convolutions over Volumes）课程总结

一、动机：从二维卷积到三维卷积

二、三维卷积的定义与计算过程

1. 输入与滤波器维度

2. 卷积操作

三、多滤波器卷积 → 输出多通道特征图

1. 使用多个滤波器

2. 示例

四、滤波器的设计与功能

五、维度总结（无 padding，步幅 $s=1$）

六、术语澄清：通道 vs 深度

七、核心思想总结

八、后续应用

热门标签