文章

09 池化层(Pooling Layers)

09 池化层(Pooling Layers)

池化层的作用

  • 缩减模型大小:通过减少特征图的空间维度,使得后续计算更加高效。
  • 提高计算速度:减少了需要处理的数据量,加快了训练和推理过程。
  • 增加特征的鲁棒性:通过提取区域内的重要信息(如最大值或平均值),使网络对输入的小幅度变化更不敏感。

最大池化(Max Pooling)

  • 工作原理:将输入拆分为多个区域,并从每个区域中选择最大值作为输出。例如,对于一个 $4 \times 4$ 的输入矩阵和一个 $2 \times 2$ 的过滤器,步幅为2,输出将是 $2 \times 2$ 矩阵。
  • 超参数

    • 过滤器大小 ($f$)
    • 步幅 ($s$)
  • 公式:输出尺寸计算公式为 $\left \lfloor \frac{n + 2p - f}{s} \right \rfloor + 1$,其中 $n$ 是输入的高度/宽度,$p$ 是填充(padding),在大多数情况下 $p=0$。
  • 特点:无需学习参数,因为它是固定运算。

平均池化(Average Pooling)

  • 工作原理:与最大池化类似,但选取的是每个区域的平均值而非最大值。
  • 应用:较少使用,但在某些深度神经网络中用于最后几层来压缩特征表示,例如将 $7 \times 7 \times 1000$ 压缩至 $1 \times 1 \times 1000$。

关键点

  • 超参数选择:常用的设置是 $f = 2, s = 2$,这会将高度和宽度减半;也可以选择其他值如 $f = 3, s = 1$。
  • Padding:虽然可以添加padding,但在最大池化中很少使用,通常 $p = 0$。
  • 通道处理:每个输入通道独立进行池化操作,输出通道数与输入相同。

总结

池化层是一个静态属性的计算层,没有需要学习的参数。它主要通过调整输入数据的空间尺度来影响模型的性能和效率。最大池化由于其简单性和有效性,在实际应用中比平均池化更为普遍。理解池化层的工作机制及其超参数的选择对设计高效的卷积神经网络至关重要。

本文由作者按照 CC BY 4.0 进行授权