02 使用词嵌入(Using Word Embeddings)
这一节在讲什么 这节课讲的是: 词嵌入不是只拿来“看着很高级”,而是真的能帮助下游 NLP 任务泛化。 课程重点用命名实体识别(NER)说明这一点,并把它解释成一种迁移学习。 课程里的任务例子:识别人名 句子: [\text{Sally Johnson is an orange farmer.}] 模型需要判断 Sally Johnson 是不是人名。 ...
这一节在讲什么 这节课讲的是: 词嵌入不是只拿来“看着很高级”,而是真的能帮助下游 NLP 任务泛化。 课程重点用命名实体识别(NER)说明这一点,并把它解释成一种迁移学习。 课程里的任务例子:识别人名 句子: [\text{Sally Johnson is an orange farmer.}] 模型需要判断 Sally Johnson 是不是人名。 ...
这一节在讲什么 这节课回答的是一个最基础的问题: 计算机到底怎么表示一个单词? 课程先讲了传统的 one-hot 表示为什么不够好,再引出更强的表示方法:词嵌入(word embedding)。 传统方法:one-hot 向量 假设词表有 10000 个词。 如果 man 在词表中的编号是 5391,那么它可以表示成: [O_{5391}] 如果 ...
1. 构建深层 RNN 的动机 标准的 RNN(单层隐藏层)在处理非常复杂的函数时能力有限。类似于深度前馈神经网络通过堆叠多个隐藏层来提取更高级的特征,RNN 也可以通过在时间步上堆叠多个循环层来构建深层 RNN,以学习更复杂的序列模式。 2. 符号定义与结构 在深层 RNN 中,激活值不仅随时间 $t$ 变化,还随层数 $l$ 变化。 符号表示:用 $a^{[l]\l...
1. 动机与背景 在标准的单向 RNN(包括标准 RNN、GRU 或 LSTM 单元)中,序列中某一点 $t$ 的预测 $\hat{y}^{\langle t \rangle}$ 仅依赖于该点之前的输入信息 $(x^{\langle 1 \rangle}, \dots, x^{\langle t \rangle})$。 局限性:在某些任务中(如命名实体识别),仅靠前文...
1. LSTM 的核心思想 LSTM 是由 Sepp Hochreiter 和 Jurgen Schmidhuber 提出的一种改进型 RNN 单元,旨在解决传统 RNN 中的梯度消失问题,从而能够学习序列中非常长期的依赖关系。它通过引入“门控机制”来控制信息的流动,比 GRU 更加强大和通用。 2. LSTM 的主要公式与结构 LSTM 的核心在于对记忆细胞(Cell Sta...
1. 核心动机 传统 RNN 在处理长序列时,难以保留早期的信息(如句子开头的主语单复数),导致梯度消失。GRU 通过引入门控机制(Gating Mechanism) ,让网络学会决定何时更新记忆、何时保留旧记忆,从而有效缓解这一问题。 2. 关键变量与符号 $a^{\langle t \rangle}$:时间步 $t$ 的激活值(输出)。 $c^{\langle t \...
1. 核心问题:长期依赖(Long-Term Dependencies) 基本的 RNN 模型在处理长序列数据时,难以捕获长期依赖关系。 案例说明: 句子 A:”The cat, which already ate …, was full.”(单数 cat 对应 was) 句子 B:”The cats, which ate …, w...
1. 新序列采样的基本流程 采样的目的是从模型学习到的概率分布 $P(y^{\langle t \rangle} y^{\langle 1 \rangle}, \dots, y^{\langle t-1 \rangle})$ 中生成新的单词或字符序列。 初始化: 在第一个时间步 $t=...
1. 语言模型的定义与作用 定义:语言模型用于计算一个特定句子(文本序列)出现的概率 $P(y^{<1>}, y^{<2>}, \dots, y^{})$。 应用场景: 语音识别:区分发音相似但意义不同的词(如 “pear” vs “pair”)。系统会选择概率更高的句子。 ...
这份笔记总结了吴恩达深度学习课程中关于不同类型的循环神经网络(RNN)结构的核心内容。根据输入序列长度($T_x$)与输出序列长度($T_y$)的关系,RNN 可以分为以下五种主要架构: 1. 一对一 (One-to-One) 结构特点:输入数量等于输出数量,且通常为单个值($T_x = 1, T_y = 1$)。 描述:这是最标准的传统神经网络结构,不涉及序列处理。 示意...