05 集束搜索误差分析

发表于 2026/03/17 更新于 2026/03/17

作者 Leon Yi

9 分钟阅读

05 集束搜索误差分析

1. 核心背景：为什么需要这个分析？

　　在机器翻译中，系统通常由两个主要部分组成：

RNN 模型（序列到序列模型） ：负责“理解”和“生成”。它计算每一个可能句子的概率（可能性）。我们可以把它想象成一个评分员，它给每个句子打分，分数越高代表它认为这个句子越好。
集束搜索算法（Beam Search） ：负责“寻找”。因为可能的句子组合太多（天文数字），它无法遍历所有句子，所以它是一种近似搜索算法。它的任务是尽量找到那个让 RNN 模型打分最高的句子。

　　痛点：
当翻译结果出错时（比如把“简九月去非洲”翻译成了“简去年九月去了非洲”），我们不知道是谁的锅：

是 RNN 模型 太笨，给正确的句子打了低分？
还是 集束搜索算法 太懒，没找到那个高分的正确句子？

　　如果不确定原因就盲目行动（比如盲目增加训练数据或盲目增大搜索宽度 $B$），往往浪费时间且效果不佳。因此，我们需要一套方法来“断案”。

2. 具体案例演示

　　让我们通过文档中的具体例子来理解这个过程。

原始法语句子：Jane visite l'Afrique en septembre
人工正确翻译（黄金标准，记为 $y^*$ ）：
Jane visits Africa in September
评价：这是一个完美的翻译。
算法实际输出的翻译（记为 $\hat{y}$ ）：
Jane visited Africa last September
评价：这是一个糟糕的翻译，因为它改变了原意（增加了“last/去年”）。

　　现在，我们要判断：为什么模型输出了 $\hat{y}$ 而不是 $y^*$？

3. 详细推导：如何“断案”？

　　我们要比较的是 RNN 模型 对这两个句子的“评分”（即条件概率）。

定义符号

$P(y^* x)$：RNN 模型认为正确句子 $y^*$ 出现的概率。
$P(\hat{y} x)$：RNN 模型认为错误句子 $\hat{y}$ 出现的概率。
$x$：输入的源句子（法语）。

核心逻辑推导

　　集束搜索算法的任务是：找到一个句子，使得 **$P(y

x)$** 最大化。

　　我们将 $P(y^*

x)$ 和 $P(\hat{y}

x)$ 进行比较，只会出现两种情况：

情况一：$P(y^* | x) > P(\hat{y} | x)$

现象：RNN 模型明明给正确句子 $y^*$ 打的分数（概率）高于错误句子 $\hat{y}$。
推理：
- 既然正确句子的分数更高，按理说搜索算法应该选中它。
- 但是，最终输出的却是分数较低的 $\hat{y}$。
- 这说明搜索算法失败了，它没能找到那个分数最高的句子。
结论：集束搜索算法（Beam Search）出错了。
- 解决办法：尝试增大集束宽度 $B$（让搜索更仔细），或者优化搜索策略。

情况二：$P(y^* | x) \leq P(\hat{y} | x)$

现象：RNN 模型给正确句子 $y^*$ 打的分数 低于或等于 错误句子 $\hat{y}$。
推理：
- 在 RNN 模型眼里，$\hat{y}$ 比 $y^*$ 更像是一个好句子（概率更大）。
- 集束搜索算法忠实地执行了任务，它找到了模型认为概率最大的句子（即 $\hat{y}$）。
- 问题在于模型本身的“价值观”歪了，它错误地认为错误的翻译更好。
结论：RNN 模型出错了。
- 解决办法：增大集束宽度 $B$ 没用（因为搜索已经找到了模型眼中的“最佳”）。你需要改进模型本身，例如：增加正则化、获取更多训练数据、尝试不同的网络结构等。

注：如果在实际应用中使用了长度归一化（Length Normalization） ，上述比较的不是原始概率 $P(y x)$，而是经过长度惩罚后的目标函数值。但逻辑完全一致。

4. 误差分析的执行步骤

　　在实际操作中，我们不能只看一个例子，而要遍历整个开发集（Development Set） 中所有翻译错误的案例。

　　操作流程：

筛选错误：找出所有算法输出 $\hat{y}$ 不如人工翻译 $y^*$ 好的样本。
计算概率：对每个错误样本，用当前的 RNN 模型分别计算 $P(y^* x)$ 和 $P(\hat{y} x)$。
归类原因：
- 若 $P(y^* x) > P(\hat{y} x)$ $\rightarrow$ 标记为 B (Beam Search 出错)。
- 若 $P(y^* x) \leq P(\hat{y} x)$ $\rightarrow$ 标记为 R (RNN 模型出错)。
统计比例：统计所有错误中，标记为 B 和 R 的比例。

　　举例统计表：

错误样本编号	$P(y^* \| x)$	$P(\hat{y} \| x)$	比较结果	归因
样本 1	$2 \times 10^{-10}$	$1 \times 10^{-10}$	$y^* > \hat{y}$	B (搜索算法锅)
样本 2	$1 \times 10^{-12}$	$5 \times 10^{-12}$	$y^* < \hat{y}$	R (模型锅)
…	…	…	…	…

5. 总结与决策指南

　　通过这个分析，你可以清楚地知道该把时间花在哪里：

如果大部分错误归因为 B（集束搜索） ：
- 说明模型其实挺聪明的，知道正确答案，只是搜索算法没找出来。
- 行动：值得花时间增大集束宽度 $B$ 或改进搜索算法。
如果大部分错误归因为 R（RNN 模型） ：
- 说明搜索算法已经很努力找到了模型认为最好的答案，但模型本身判断力不行。
- 行动：增大 $B$ 无效。你应该去改进 RNN 模型（如：更多数据、正则化、换架构等）。

核心要点回顾（小白版）

分工明确：RNN 负责“打分”，集束搜索负责“找最高分”。
判断准则：
- 正确答案分数高却没被选中 $\rightarrow$ 搜索算法没尽力（需调大 $B$）。
- 正确答案分数低导致没被选中 $\rightarrow$ RNN 模型眼瞎（需练模型）。
不要盲目：不要还没分析就直接去调参数或加数据，先用这个方法算一下，看看主要是谁的锅，再对症下药。

序列模型与注意力机制

本文由作者按照 CC BY 4.0 进行授权