DevDino 🦖

我曾七次鄙视自己的灵魂

1. 构建深层 RNN 的动机

  标准的 RNN(单层隐藏层)在处理非常复杂的函数时能力有限。类似于深度前馈神经网络通过堆叠多个隐藏层来提取更高级的特征,RNN 也可以通过在时间步上堆叠多个循环层来构建深层 RNN,以学习更复杂的序列模式。

阅读全文 »

1. 动机与背景

  在标准的单向 RNN(包括标准 RNN、GRU 或 LSTM 单元)中,序列中某一点 $t$ 的预测 $\hat{y}^{\langle t \rangle}$ 仅依赖于该点之前的输入信息 $(x^{\langle 1 \rangle}, \dots, x^{\langle t \rangle})$。

阅读全文 »

1. LSTM 的核心思想

  LSTM 是由 Sepp Hochreiter 和 Jurgen Schmidhuber 提出的一种改进型 RNN 单元,旨在解决传统 RNN 中的梯度消失问题,从而能够学习序列中非常长期的依赖关系。它通过引入“门控机制”来控制信息的流动,比 GRU 更加强大和通用。

阅读全文 »