01 为什么选择序列模型？（Why Sequence Models?）

发表于 2026/03/08 更新于 2026/03/08

作者 Leon Yi

4 分钟阅读

　　序列模型是深度学习中极具变革性的技术，特别适用于处理序列数据。传统的神经网络难以有效处理具有时间依赖性或顺序结构的数据，而循环神经网络（RNN）等序列模型在此类任务中表现卓越。

　　笔记列举了七个主要的应用领域，展示了输入 $x$ 和输出 $y$ 的不同组合形式：

语音识别 (Speech Recognition)
- 输入：音频片段序列 $x$。
- 输出：对应的文字记录序列 $y$。
- 特点：输入和输出均为序列。
音乐生成 (Music Generation)
- 输入：可以是空集 $\emptyset$，或者是一个整数（代表风格或起始音符）。
- 输出：生成的音乐序列 $y$。
- 特点：仅输出为序列（One-to-Many 或 Zero-to-Many）。
情感分类 (Sentiment Classification)
- 输入：文本评论序列 $x$（例如：”There is nothing to like in this movie.”）。
- 输出：星级评分（标量，非序列）$y$。
- 特点：仅输入为序列（Many-to-One）。
DNA 序列分析 (DNA Sequence Analysis)
- 输入：由 ${A, C, G, T}$ 组成的 DNA 序列 $x$。
- 输出：标记序列 $y$（指示哪些部分匹配特定蛋白质）。
- 特点：输入和输出均为序列，且长度通常相同。
机器翻译 (Machine Translation)
- 输入：源语言句子序列 $x$（例如法语）。
- 输出：目标语言翻译序列 $y$（例如英语）。
- 特点：输入和输出均为序列，但长度通常不同。
视频行为识别 (Video Activity Recognition)
- 输入：视频帧序列 $x$。
- 输出：识别出的行为标签 $y$。
- 特点：仅输入为序列（Many-to-One）。
命名实体识别 (Named Entity Recognition, NER)
- 输入：句子序列 $x$。
- 输出：人名标记序列 $y$。
- 特点：输入和输出均为序列，长度相同。

　　上述所有问题均属于监督学习，利用标注数据 $(x, y)$ 进行训练。根据输入 $x$ 和输出 $y$ 是否为序列，可以将问题分为以下几类：

序列到序列 (Sequence-to-Sequence) ：
- 输入 $x$ 和输出 $y$ 都是序列。
- 长度关系：
  - 长度可能不同：如机器翻译 ($T_x \neq T_y$)。
  - 长度可能相同：如 DNA 分析、命名实体识别 ($T_x = T_y$)。
序列到标量 (Sequence-to-One) ：
- 只有输入 $x$ 是序列，输出 $y$ 是单个值（如情感分类、视频行为识别）。
标量/空到序列 (One/Zero-to-Sequence) ：
- 只有输出 $y$ 是序列，输入 $x$ 是单个值或空集（如音乐生成）。

　　由于序列问题存在多种多样的结构（输入输出是否为序列、长度是否一致），我们需要学习不同的序列模型架构来适应这些具体情况。接下来的课程将定义描述这些序列问题所需的数学符号。

本文由作者按照 CC BY 4.0 进行授权

热门标签