09 GRU(门控循环单元,Gated Recurrent Unit)
1. 核心动机 传统 RNN 在处理长序列时,难以保留早期的信息(如句子开头的主语单复数),导致梯度消失。GRU 通过引入门控机制(Gating Mechanism) ,让网络学会决定何时更新记忆、何时保留旧记忆,从而有效缓解这一问题。 2. 关键变量与符号 $a^{\langle t \rangle}$:时间步 $t$ 的激活值(输出)。 $c^{\langle t \...
1. 核心动机 传统 RNN 在处理长序列时,难以保留早期的信息(如句子开头的主语单复数),导致梯度消失。GRU 通过引入门控机制(Gating Mechanism) ,让网络学会决定何时更新记忆、何时保留旧记忆,从而有效缓解这一问题。 2. 关键变量与符号 $a^{\langle t \rangle}$:时间步 $t$ 的激活值(输出)。 $c^{\langle t \...
1. 核心问题:长期依赖(Long-Term Dependencies) 基本的 RNN 模型在处理长序列数据时,难以捕获长期依赖关系。 案例说明: 句子 A:”The cat, which already ate …, was full.”(单数 cat 对应 was) 句子 B:”The cats, which ate …, w...
1. 新序列采样的基本流程 采样的目的是从模型学习到的概率分布 $P(y^{\langle t \rangle} y^{\langle 1 \rangle}, \dots, y^{\langle t-1 \rangle})$ 中生成新的单词或字符序列。 初始化: 在第一个时间步 $t=...
1. 语言模型的定义与作用 定义:语言模型用于计算一个特定句子(文本序列)出现的概率 $P(y^{<1>}, y^{<2>}, \dots, y^{})$。 应用场景: 语音识别:区分发音相似但意义不同的词(如 “pear” vs “pair”)。系统会选择概率更高的句子。 ...
这份笔记总结了吴恩达深度学习课程中关于不同类型的循环神经网络(RNN)结构的核心内容。根据输入序列长度($T_x$)与输出序列长度($T_y$)的关系,RNN 可以分为以下五种主要架构: 1. 一对一 (One-to-One) 结构特点:输入数量等于输出数量,且通常为单个值($T_x = 1, T_y = 1$)。 描述:这是最标准的传统神经网络结构,不涉及序列处理。 示意...
1. 核心概念 前向传播 (Forward Propagation) : 方向:从左到右(时间步 $t$ 从 $1$ 增加到 $T_x$)。 过程:利用输入序列 $x^{(1)}, x^{(2)}, \dots, x^{(T_x)}$ 和共享参数 $W_{ax}, W_{aa}, b_a$,依次计算每个时间步的激活值 $a^{(t)}$。...
1. 为什么标准神经网络不适合序列数据? 尝试使用标准全连接神经网络处理序列数据(如命名实体识别)存在两个主要缺陷: 输入/输出长度不固定:不同句子的单词数量不同,标准网络难以处理变长输入。即使通过填充(Padding)统一长度,也不是最优的表达方式。 无法共享特征:标准网络在不同位置学到的特征无法共享。例如,如果在位置1学到了“Harry”是人名,网络无法自动将在位置5出...
1. 任务背景:命名实体识别 (NER) 目标:建立一个序列模型,输入一个句子,输出每个单词是否属于人名(或其他实体如公司、地点等)。 示例:输入 “Harry Potter and Hermione Granger invented a new spell.”,模型需识别出 “Harry Potter” 和 “Hermione Granger” 是人名。 输出形式:最简单的...
1. 核心概念 序列模型是深度学习中极具变革性的技术,特别适用于处理序列数据。传统的神经网络难以有效处理具有时间依赖性或顺序结构的数据,而循环神经网络(RNN)等序列模型在此类任务中表现卓越。 2. 典型应用场景 笔记列举了七个主要的应用领域,展示了输入 $x$ 和输出 $y$ 的不同组合形式: 语音识别 (Speech Recognition) ...
摘要:你是否注意过,当电脑上挂着微信时,网页登录不再需要掏出手机扫码,而是直接弹出一个“微信快捷登录”的按钮?这背后并非魔法,而是一场浏览器与本地客户端之间精妙的“密谋”。本文将深入源码,拆解这一体验背后的技术原理。 引言:从“扫码”到“一键”的体验跃迁 曾几何时,PC 端网页登录微信生态的唯一方式就是:打开网页 -> 掏出手机 -> 微信扫码 -> 手机确认...