09 GRU（门控循环单元，Gated Recurrent Unit）

1. 核心动机　　传统 RNN 在处理长序列时，难以保留早期的信息（如句子开头的主语单复数），导致梯度消失。GRU 通过引入门控机制（Gating Mechanism），让网络学会决定何时更新记忆、何时保留旧记忆，从而有效缓解这一问题。 2. 关键变量与符号 $a^{\langle t \rangle}$：时间步 $t$ 的激活值（输出）。 $c^{\langle t \...

2026/03/08 循环序列模型

08 循环神经网络（RNN）梯度消失问题

1. 核心问题：长期依赖（Long-Term Dependencies）　　基本的 RNN 模型在处理长序列数据时，难以捕获长期依赖关系。案例说明：句子 A：”The cat, which already ate …, was full.”（单数 cat 对应 was）句子 B：”The cats, which ate …, w...

2026/03/08 循环序列模型

07 新序列采样（Sampling novel sequences）

1. 新序列采样的基本流程　　采样的目的是从模型学习到的概率分布 $P(y^{\langle t \rangle} y^{\langle 1 \rangle}, \dots, y^{\langle t-1 \rangle})$ 中生成新的单词或字符序列。初始化：在第一个时间步 $t=...

2026/03/08 循环序列模型

06 使用循环神经网络（RNN）构建语言模型

1. 语言模型的定义与作用定义：语言模型用于计算一个特定句子（文本序列）出现的概率 $P(y^{<1>}, y^{<2>}, \dots, y^{})$。应用场景：语音识别：区分发音相似但意义不同的词（如 “pear” vs “pair”）。系统会选择概率更高的句子。 ...

2026/03/08 循环序列模型

05 不同类型的循环神经网络（Different types of RNNs）

这份笔记总结了吴恩达深度学习课程中关于不同类型的循环神经网络（RNN）结构的核心内容。根据输入序列长度（$T_x$）与输出序列长度（$T_y$）的关系，RNN 可以分为以下五种主要架构： 1. 一对一 (One-to-One) 结构特点：输入数量等于输出数量，且通常为单个值（$T_x = 1, T_y = 1$）。描述：这是最标准的传统神经网络结构，不涉及序列处理。示意...

2026/03/08 循环序列模型

04 通过时间的反向传播（Backpropagation Through Time, BPTT）

1. 核心概念前向传播 (Forward Propagation) ：方向：从左到右（时间步 $t$ 从 $1$ 增加到 $T_x$）。过程：利用输入序列 $x^{(1)}, x^{(2)}, \dots, x^{(T_x)}$ 和共享参数 $W_{ax}, W_{aa}, b_a$，依次计算每个时间步的激活值 $a^{(t)}$。...

2026/03/08 循环序列模型

03 循环神经网络模型（Recurrent Neural Network Model）

1. 为什么标准神经网络不适合序列数据？　　尝试使用标准全连接神经网络处理序列数据（如命名实体识别）存在两个主要缺陷：输入/输出长度不固定：不同句子的单词数量不同，标准网络难以处理变长输入。即使通过填充（Padding）统一长度，也不是最优的表达方式。无法共享特征：标准网络在不同位置学到的特征无法共享。例如，如果在位置1学到了“Harry”是人名，网络无法自动将在位置5出...

2026/03/08 循环序列模型

02 数学符号（Notation）

1. 任务背景：命名实体识别 (NER) 目标：建立一个序列模型，输入一个句子，输出每个单词是否属于人名（或其他实体如公司、地点等）。示例：输入 “Harry Potter and Hermione Granger invented a new spell.”，模型需识别出 “Harry Potter” 和 “Hermione Granger” 是人名。输出形式：最简单的...

2026/03/08 循环序列模型

01 为什么选择序列模型？（Why Sequence Models?）

1. 核心概念　　序列模型是深度学习中极具变革性的技术，特别适用于处理序列数据。传统的神经网络难以有效处理具有时间依赖性或顺序结构的数据，而循环神经网络（RNN）等序列模型在此类任务中表现卓越。 2. 典型应用场景　　笔记列举了七个主要的应用领域，展示了输入 $x$ 和输出 $y$ 的不同组合形式：语音识别 (Speech Recognition) ...

2026/03/08 循环序列模型

揭秘微信“快捷登录”：为什么你不用扫码就能直接登录？

摘要：你是否注意过，当电脑上挂着微信时，网页登录不再需要掏出手机扫码，而是直接弹出一个“微信快捷登录”的按钮？这背后并非魔法，而是一场浏览器与本地客户端之间精妙的“密谋”。本文将深入源码，拆解这一体验背后的技术原理。引言：从“扫码”到“一键”的体验跃迁　　曾几何时，PC 端网页登录微信生态的唯一方式就是：打开网页 -> 掏出手机 -> 微信扫码 -> 手机确认...

2026/03/01

09 GRU（门控循环单元，Gated Recurrent Unit）

08 循环神经网络（RNN）梯度消失问题

07 新序列采样（Sampling novel sequences）

06 使用循环神经网络（RNN）构建语言模型

05 不同类型的循环神经网络（Different types of RNNs）

04 通过时间的反向传播（Backpropagation Through Time, BPTT）

03 循环神经网络模型（Recurrent Neural Network Model）

02 数学符号（Notation）

01 为什么选择序列模型？（Why Sequence Models?）

揭秘微信“快捷登录”：为什么你不用扫码就能直接登录？

热门标签