08 循环神经网络（RNN）梯度消失问题

发表于 2026/03/08 更新于 2026/03/08

作者 Leon Yi

4 分钟阅读

　　基本的 RNN 模型在处理长序列数据时，难以捕获长期依赖关系。

案例说明：
- 句子 A：”The cat, which already ate …, was full.”（单数 cat 对应 was）
- 句子 B：”The cats, which ate …, were full.”（复数 cats 对应 were）
- 难点：主语（cat/cats）与谓语动词（was/were）之间可能隔着很长的从句。基本 RNN 很难记住序列开头的信息（单复数状态）并传递到序列末尾以决定输出。

　　RNN 在时间上展开后，相当于一个非常深的神经网络（例如处理 1000 个时间步，相当于 1000 层深的网络）。

　　虽然梯度消失是主要矛盾，但梯度也可能呈指数级上升。

现象：参数值变得极大，导致数值溢出，出现 NaN（Not a Number）。
特点：容易被发现（因为程序会报错或参数崩溃）。
解决方案：梯度修剪（Gradient Clipping）
- 原理：设定一个阈值 $\nu$。如果梯度向量 $g$ 的范数 $|g|$ 超过该阈值，则按比例缩放梯度。
- 公式：
  \[g_{new} = \begin{cases} g & \text{if } \|g\| \leq \nu \\ \frac{\nu}{\|g\|} g & \text{if } \|g\| > \nu \end{cases}\]
- 这是一种鲁棒且有效的解决方法。

对比：
- 梯度爆炸：容易发现，可通过梯度修剪解决。
- 梯度消失：更难察觉且棘手，导致网络无法学习长期依赖，是基本 RNN 的主要缺陷。
后续方案：
- 为了解决梯度消失问题，课程接下来将介绍 GRU（Gated Recurrent Unit，门控循环单元） 和 LSTM（Long Short-Term Memory） 。
- 这些变体通过引入“门控”机制，有效地控制信息的流动，使得梯度能够更稳定地反向传播，从而捕获长距离依赖。

　　关键结论：基本 RNN 由于深层网络的反向传播特性，面临严重的梯度消失问题，导致其不擅长处理长序列中的长期依赖；而梯度爆炸虽存在但易于通过裁剪解决。改进模型（如 GRU/LSTM）是解决此问题的关键。

本文由作者按照 CC BY 4.0 进行授权

热门标签