DevDino 🦖

我曾七次鄙视自己的灵魂

1. 核心动机

  传统 RNN 在处理长序列时,难以保留早期的信息(如句子开头的主语单复数),导致梯度消失。GRU 通过引入门控机制(Gating Mechanism) ,让网络学会决定何时更新记忆、何时保留旧记忆,从而有效缓解这一问题。

阅读全文 »

1. 新序列采样的基本流程

  采样的目的是从模型学习到的概率分布 $P(y^{\langle t \rangle} | y^{\langle 1 \rangle}, \dots, y^{\langle t-1 \rangle})$ 中生成新的单词或字符序列。

阅读全文 »

1. 语言模型的定义与作用

  • 定义:语言模型用于计算一个特定句子(文本序列)出现的概率 $P(y^{<1>}, y^{<2>}, \dots, y^{})$。

  • 应用场景

    • 语音识别:区分发音相似但意义不同的词(如 “pear” vs “pair”)。系统会选择概率更高的句子。

      • 例如:$P(\text{“apple and pear salad”}) \gg P(\text{“apple and pair salad”})$。
    • 机器翻译:帮助生成最自然、概率最高的目标语言句子。

阅读全文 »

这份笔记总结了吴恩达深度学习课程中关于不同类型的循环神经网络(RNN)结构的核心内容。根据输入序列长度($T_x$)与输出序列长度($T_y$)的关系,RNN 可以分为以下五种主要架构:

1. 一对一 (One-to-One)

阅读全文 »