04 通过时间的反向传播(Backpropagation Through Time, BPTT)
1. 核心概念
前向传播 (Forward Propagation) :
- 方向:从左到右(时间步 $t$ 从 $1$ 增加到 $T_x$)。
- 过程:利用输入序列 $x^{(1)}, x^{(2)}, \dots, x^{(T_x)}$ 和共享参数 $W_{ax}, W_{aa}, b_a$,依次计算每个时间步的激活值 $a^{(t)}$。
- 输出计算:利用激活值 $a^{(t)}$ 和参数 $W_{ya}, b_y$ 计算预测值 $\hat{y}^{(t)}$。
- 特点:所有时间步共享同一组参数,当前时刻的激活值依赖于上一时刻的激活值。
反向传播 (Backward Propagation) :
- 方向:从右到左(时间步 $t$ 从 $T_x$ 递减到 $1$),即“时间倒流”。
- 目的:计算损失函数相对于各参数的梯度,以便使用梯度下降法更新参数。
- 命名由来:因为计算方向与时间流逝方向相反,仿佛穿越时光,故称为“通过时间的反向传播” (BPTT)。