01 为什么选择序列模型?(Why Sequence Models?)
01 为什么选择序列模型?(Why Sequence Models?)
1. 核心概念
序列模型是深度学习中极具变革性的技术,特别适用于处理序列数据。传统的神经网络难以有效处理具有时间依赖性或顺序结构的数据,而循环神经网络(RNN)等序列模型在此类任务中表现卓越。
2. 典型应用场景
笔记列举了七个主要的应用领域,展示了输入 $x$ 和输出 $y$ 的不同组合形式:
语音识别 (Speech Recognition)
- 输入:音频片段序列 $x$。
- 输出:对应的文字记录序列 $y$。
- 特点:输入和输出均为序列。
音乐生成 (Music Generation)
- 输入:可以是空集 $\emptyset$,或者是一个整数(代表风格或起始音符)。
- 输出:生成的音乐序列 $y$。
- 特点:仅输出为序列(One-to-Many 或 Zero-to-Many)。
情感分类 (Sentiment Classification)
- 输入:文本评论序列 $x$(例如:”There is nothing to like in this movie.”)。
- 输出:星级评分(标量,非序列)$y$。
- 特点:仅输入为序列(Many-to-One)。
DNA 序列分析 (DNA Sequence Analysis)
- 输入:由 ${A, C, G, T}$ 组成的 DNA 序列 $x$。
- 输出:标记序列 $y$(指示哪些部分匹配特定蛋白质)。
- 特点:输入和输出均为序列,且长度通常相同。
机器翻译 (Machine Translation)
- 输入:源语言句子序列 $x$(例如法语)。
- 输出:目标语言翻译序列 $y$(例如英语)。
- 特点:输入和输出均为序列,但长度通常不同。
视频行为识别 (Video Activity Recognition)
- 输入:视频帧序列 $x$。
- 输出:识别出的行为标签 $y$。
- 特点:仅输入为序列(Many-to-One)。
命名实体识别 (Named Entity Recognition, NER)
- 输入:句子序列 $x$。
- 输出:人名标记序列 $y$。
- 特点:输入和输出均为序列,长度相同。
3. 序列问题的类型归纳
上述所有问题均属于监督学习,利用标注数据 $(x, y)$ 进行训练。根据输入 $x$ 和输出 $y$ 是否为序列,可以将问题分为以下几类:
序列到序列 (Sequence-to-Sequence) :
- 输入 $x$ 和输出 $y$ 都是序列。
长度关系:
- 长度可能不同:如机器翻译 ($T_x \neq T_y$)。
- 长度可能相同:如 DNA 分析、命名实体识别 ($T_x = T_y$)。
序列到标量 (Sequence-to-One) :
- 只有输入 $x$ 是序列,输出 $y$ 是单个值(如情感分类、视频行为识别)。
标量/空到序列 (One/Zero-to-Sequence) :
- 只有输出 $y$ 是序列,输入 $x$ 是单个值或空集(如音乐生成)。
4. 结论
由于序列问题存在多种多样的结构(输入输出是否为序列、长度是否一致),我们需要学习不同的序列模型架构来适应这些具体情况。接下来的课程将定义描述这些序列问题所需的数学符号。
本文由作者按照 CC BY 4.0 进行授权