Leon Yi

07 注意力模型直观理解(Attention Model Intuition)

这一节在讲什么   这一节先不急着上公式,而是讲一个核心直觉: 人在翻译长句子时,不会先把整句死记硬背下来,再一次性吐出来;人是看一部分,翻一部分。   注意力模型就是把这个想法交给神经网络。 为什么基础 seq2seq 对长句子吃力   基础编码器-解码器的做法是: 编码器把整句都读完 把整句信息压成一个固定长度向量 解码器再靠这个向量生成整句翻译  ...

06 BLEU 得分(Bleu Score)

这一节在讲什么   机器翻译有一个麻烦: 同一句法语,可能有好几种都正确的英文翻译。   所以不能像分类任务那样,只看“是否完全等于标准答案”。   BLEU 就是为了解决这个问题而设计的自动评价指标。 为什么机器翻译不好评估   课程里的例子:   法语句子: [\text{Le chat est sur le tapis}]   参考翻译 1: [\text{...

05 集束搜索误差分析

1. 核心背景:为什么需要这个分析?   在机器翻译中,系统通常由两个主要部分组成: RNN 模型(序列到序列模型) :负责“理解”和“生成”。它计算每一个可能句子的概率(可能性)。我们可以把它想象成一个评分员,它给每个句子打分,分数越高代表它认为这个句子越好。 集束搜索算法(Beam Search) :负责“寻找”。因为可能的句子组合太多(天文数字),它无法遍历所有句子,所以...

03 集束搜索(Beam Search)

这一节在讲什么   这一节正式讲 Beam Search。它解决的问题是: 不可能把所有翻译句子都试一遍,那就只保留“目前最有希望”的少数候选。 先说核心思想   束搜索不是每一步只留 1 条路,而是留 $B$ 条路。   这里的 $B$ 叫做束宽(beam width)。 如果 $B=1$,那就退化成贪心搜索 如果 $B=3$,每一步保留 3 个最有希望的部分...

02 选择最可能的句子(Picking the Most Likely Sentence)

这一节在讲什么   这一节要解决一个很关键的问题: 模型已经学会“给某个翻译打概率”了,但怎么真正挑出“最好的翻译”?   这一步不是训练问题,而是“搜索问题”。 机器翻译其实是条件语言模型   普通语言模型学的是: [P(y)]   也就是一句话本身出现的概率。   而机器翻译学的是: [P(y \mid x)]   意思是:给定输入法语句子 $x$,某个英语句...

10 词嵌入除偏(Debiasing Word Embeddings)

这一节在讲什么   这一节讲一个非常重要、也非常现实的问题: 词嵌入会学到人类文本中的偏见。   而如果这些嵌入再被用到招聘、录取、贷款、司法等系统里,问题会非常严重。 课程里的警示例子   论文里曾发现,一些词向量会表现出这样的类比: Man : Computer Programmer Woman : Homemaker   或者: Father ...

08 GloVe 词向量(GloVe Word Vectors)

这一节在讲什么   这一节讲另一种经典词向量算法:GloVe。   它和 Word2Vec 的不同点在于: 它更直接利用“词与词共现次数”这个全局统计信息。 GloVe 的直觉   设: [X_{ij}]   表示单词 $i$ 和单词 $j$ 在语料中彼此接近时的共现次数。   如果两个词经常出现在相近位置,说明它们有更强关系。   所以 GloVe 想做的是: ...