文章

01 为什么选择序列模型?(Why Sequence Models?)

01 为什么选择序列模型?(Why Sequence Models?)

1. 核心概念

  序列模型是深度学习中极具变革性的技术,特别适用于处理序列数据。传统的神经网络难以有效处理具有时间依赖性或顺序结构的数据,而循环神经网络(RNN)等序列模型在此类任务中表现卓越。

2. 典型应用场景

  笔记列举了七个主要的应用领域,展示了输入 $x$ 和输出 $y$ 的不同组合形式:

  • 语音识别 (Speech Recognition)

    • 输入:音频片段序列 $x$。
    • 输出:对应的文字记录序列 $y$。
    • 特点:输入和输出均为序列。
  • 音乐生成 (Music Generation)

    • 输入:可以是空集 $\emptyset$,或者是一个整数(代表风格或起始音符)。
    • 输出:生成的音乐序列 $y$。
    • 特点:仅输出为序列(One-to-Many 或 Zero-to-Many)。
  • 情感分类 (Sentiment Classification)

    • 输入:文本评论序列 $x$(例如:”There is nothing to like in this movie.”)。
    • 输出:星级评分(标量,非序列)$y$。
    • 特点:仅输入为序列(Many-to-One)。
  • DNA 序列分析 (DNA Sequence Analysis)

    • 输入:由 ${A, C, G, T}$ 组成的 DNA 序列 $x$。
    • 输出:标记序列 $y$(指示哪些部分匹配特定蛋白质)。
    • 特点:输入和输出均为序列,且长度通常相同。
  • 机器翻译 (Machine Translation)

    • 输入:源语言句子序列 $x$(例如法语)。
    • 输出:目标语言翻译序列 $y$(例如英语)。
    • 特点:输入和输出均为序列,但长度通常不同。
  • 视频行为识别 (Video Activity Recognition)

    • 输入:视频帧序列 $x$。
    • 输出:识别出的行为标签 $y$。
    • 特点:仅输入为序列(Many-to-One)。
  • 命名实体识别 (Named Entity Recognition, NER)

    • 输入:句子序列 $x$。
    • 输出:人名标记序列 $y$。
    • 特点:输入和输出均为序列,长度相同。

3. 序列问题的类型归纳

  上述所有问题均属于监督学习,利用标注数据 $(x, y)$ 进行训练。根据输入 $x$ 和输出 $y$ 是否为序列,可以将问题分为以下几类:

  1. 序列到序列 (Sequence-to-Sequence)

    • 输入 $x$ 和输出 $y$ 都是序列。
    • 长度关系

      • 长度可能不同:如机器翻译 ($T_x \neq T_y$)。
      • 长度可能相同:如 DNA 分析、命名实体识别 ($T_x = T_y$)。
  2. 序列到标量 (Sequence-to-One)

    • 只有输入 $x$ 是序列,输出 $y$ 是单个值(如情感分类、视频行为识别)。
  3. 标量/空到序列 (One/Zero-to-Sequence)

    • 只有输出 $y$ 是序列,输入 $x$ 是单个值或空集(如音乐生成)。

4. 结论

  由于序列问题存在多种多样的结构(输入输出是否为序列、长度是否一致),我们需要学习不同的序列模型架构来适应这些具体情况。接下来的课程将定义描述这些序列问题所需的数学符号。

本文由作者按照 CC BY 4.0 进行授权