10 风格损失函数（Style Cost Function）

发表于 2026/02/08 更新于 2026/02/08

作者 Leon Yi

4 分钟阅读

🎨 一、什么是图像的“风格”？

在神经风格迁移（Neural Style Transfer）中，“风格”并不是指颜色或构图等直观概念，而是通过卷积神经网络（CNN）某一层的特征激活之间的统计相关性来定义的。

图像经过 CNN 某一层后，会得到一个三维激活张量：
\[a^{[l]} \in \mathbb{R}^{n_H^{[l]} \times n_W^{[l]} \times n_C^{[l]}}\]
其中：
- $n_H^{[l]}$：高度
- $n_W^{[l]}$：宽度
- $n_C^{[l]}$：通道数（即该层的滤波器数量）
风格 = 不同通道之间激活值的共现模式（correlation）
例如：如果某个区域同时有“垂直纹理”和“橙色”，那么这两个特征对应的通道就会高度相关。

为了量化这种相关性，我们引入风格矩阵（Style Matrix） ，也称为 Gram 矩阵。

设 $a_{i,j,k}^{[l]!(X)}$ 表示图像 $X$ 在第 $l$ 层、位置 $(i,j)$、通道 $k$ 的激活值。

则风格矩阵 $G^{[l]!(X)}$ 是一个 $n_C^{[l]} \times n_C^{[l]}$ 的矩阵，其元素为：

\[G^{[l]\!(X)}_{k,k'} = \sum_{i=1}^{n_H^{[l]}} \sum_{j=1}^{n_W^{[l]}} a_{i,j,k}^{[l]\!(X)} \cdot a_{i,j,k'}^{[l]\!(X)}\]

✅ 注意：这不是标准协方差，因为没有减去均值，而是直接计算内积。但它能有效捕捉通道间的共激活强度。

目标：让生成图像 $G$ 的风格尽可能接近风格参考图像 $S$。

\[J_{\text{style}}^{[l]}(S, G) = \frac{1}{4 \cdot (n_C^{[l]})^2 \cdot (n_H^{[l]} n_W^{[l]})^2} \left\| G^{[l]\!(S)} - G^{[l]\!(G)} \right\|_F^2\]

其中：

💡 实践中，常省略复杂归一化，仅用超参数 $\lambda$ 控制权重。

单一卷积层只能捕捉特定尺度的风格（如浅层捕捉纹理，深层捕捉全局结构）。因此，通常组合多个层的风格损失：

\[J_{\text{style}}(S, G) = \sum_{l} \lambda^{[l]} \cdot J_{\text{style}}^{[l]}(S, G)\]

✅ 同时使用浅层（细节纹理）和深层（抽象风格）效果更佳。

神经风格迁移的总损失 = 内容损失 + 风格损失：

\[J(G) = \alpha \cdot J_{\text{content}}(C, G) + \beta \cdot J_{\text{style}}(S, G)\]

通过梯度下降法（如 L-BFGS）直接优化像素值 $G$，使 $J(G)$ 最小化。

本文由作者按照 CC BY 4.0 进行授权