DevDino 🦖

09 GRU（门控循环单元，Gated Recurrent Unit）

发表于 2026-03-08 本文字数： 1.1k 阅读时长 ≈ 4 分钟

1. 核心动机

　　传统 RNN 在处理长序列时，难以保留早期的信息（如句子开头的主语单复数），导致梯度消失。GRU 通过引入门控机制（Gating Mechanism） ，让网络学会决定何时更新记忆、何时保留旧记忆，从而有效缓解这一问题。

阅读全文 »

08 循环神经网络（RNN）梯度消失问题

发表于 2026-03-08 本文字数： 758 阅读时长 ≈ 3 分钟

1. 核心问题：长期依赖（Long-Term Dependencies）

　　基本的 RNN 模型在处理长序列数据时，难以捕获长期依赖关系。

阅读全文 »

07 新序列采样（Sampling novel sequences）

发表于 2026-03-08 本文字数： 1k 阅读时长 ≈ 4 分钟

1. 新序列采样的基本流程

　　采样的目的是从模型学习到的概率分布 $P(y^{\langle t \rangle} | y^{\langle 1 \rangle}, \dots, y^{\langle t-1 \rangle})$ 中生成新的单词或字符序列。

阅读全文 »

06 使用循环神经网络（RNN）构建语言模型

发表于 2026-03-08 本文字数： 862 阅读时长 ≈ 3 分钟

1. 语言模型的定义与作用

定义：语言模型用于计算一个特定句子（文本序列）出现的概率 $P(y^{<1>}, y^{<2>}, \dots, y^{})$。
应用场景：
- 语音识别：区分发音相似但意义不同的词（如 “pear” vs “pair”）。系统会选择概率更高的句子。
  - 例如：$P(\text{“apple and pear salad”}) \gg P(\text{“apple and pair salad”})$。
- 机器翻译：帮助生成最自然、概率最高的目标语言句子。

阅读全文 »

05 不同类型的循环神经网络（Different types of RNNs）

发表于 2026-03-08 本文字数： 1.1k 阅读时长 ≈ 4 分钟

这份笔记总结了吴恩达深度学习课程中关于不同类型的循环神经网络（RNN）结构的核心内容。根据输入序列长度（$T_x$）与输出序列长度（$T_y$）的关系，RNN 可以分为以下五种主要架构：

1. 一对一 (One-to-One)

阅读全文 »