07 注意力模型直观理解(Attention Model Intuition)
这一节在讲什么 这一节先不急着上公式,而是讲一个核心直觉: 人在翻译长句子时,不会先把整句死记硬背下来,再一次性吐出来;人是看一部分,翻一部分。 注意力模型就是把这个想法交给神经网络。 为什么基础 seq2seq 对长句子吃力 基础编码器-解码器的做法是: 编码器把整句都读完 把整句信息压成一个固定长度向量 解码器再靠这个向量生成整句翻译 ...
这一节在讲什么 这一节先不急着上公式,而是讲一个核心直觉: 人在翻译长句子时,不会先把整句死记硬背下来,再一次性吐出来;人是看一部分,翻一部分。 注意力模型就是把这个想法交给神经网络。 为什么基础 seq2seq 对长句子吃力 基础编码器-解码器的做法是: 编码器把整句都读完 把整句信息压成一个固定长度向量 解码器再靠这个向量生成整句翻译 ...
这一节在讲什么 机器翻译有一个麻烦: 同一句法语,可能有好几种都正确的英文翻译。 所以不能像分类任务那样,只看“是否完全等于标准答案”。 BLEU 就是为了解决这个问题而设计的自动评价指标。 为什么机器翻译不好评估 课程里的例子: 法语句子: [\text{Le chat est sur le tapis}] 参考翻译 1: [\text{...
1. 核心背景:为什么需要这个分析? 在机器翻译中,系统通常由两个主要部分组成: RNN 模型(序列到序列模型) :负责“理解”和“生成”。它计算每一个可能句子的概率(可能性)。我们可以把它想象成一个评分员,它给每个句子打分,分数越高代表它认为这个句子越好。 集束搜索算法(Beam Search) :负责“寻找”。因为可能的句子组合太多(天文数字),它无法遍历所有句子,所以...
这一节在讲什么 上一节已经知道束搜索怎么跑了,这一节讲两个实战里非常重要的改进: 用 log 概率代替原始概率连乘 用长度归一化,避免模型偏爱短句子 为什么不能直接乘概率 整句概率是: [P(y\mid x)=\prod_{t=1}^{T_y} P(y^{\langle t \rangle} \mid x, y^{\langle 1:t-1 \rangle})]...
这一节在讲什么 这一节正式讲 Beam Search。它解决的问题是: 不可能把所有翻译句子都试一遍,那就只保留“目前最有希望”的少数候选。 先说核心思想 束搜索不是每一步只留 1 条路,而是留 $B$ 条路。 这里的 $B$ 叫做束宽(beam width)。 如果 $B=1$,那就退化成贪心搜索 如果 $B=3$,每一步保留 3 个最有希望的部分...
这一节在讲什么 这一节要解决一个很关键的问题: 模型已经学会“给某个翻译打概率”了,但怎么真正挑出“最好的翻译”? 这一步不是训练问题,而是“搜索问题”。 机器翻译其实是条件语言模型 普通语言模型学的是: [P(y)] 也就是一句话本身出现的概率。 而机器翻译学的是: [P(y \mid x)] 意思是:给定输入法语句子 $x$,某个英语句...
这一节在讲什么 这一节讲的是最基础的 seq2seq,也就是“输入一个序列,输出另一个序列”。最典型的例子就是: 输入法语句子:Jane visite l'Afrique en septembre. 输出英语句子:Jane is visiting Africa in September. 课程想说明的是:只要你能把输入句子先“压缩理解”成一个向量,再让另一个网络根据...
这一节在讲什么 这一节讲一个非常重要、也非常现实的问题: 词嵌入会学到人类文本中的偏见。 而如果这些嵌入再被用到招聘、录取、贷款、司法等系统里,问题会非常严重。 课程里的警示例子 论文里曾发现,一些词向量会表现出这样的类比: Man : Computer Programmer Woman : Homemaker 或者: Father ...
这一节在讲什么 这节课讲词嵌入在一个非常实用的任务里的应用:情感分类。 任务形式是: 输入一段文本 输出这段文本表达的是正面、负面还是几星评价 课程里的例子 例如餐馆评论: The dessert is excellent. -> 四星 Service was quite slow. -> 两星 Good for a quick ...
这一节在讲什么 这一节讲另一种经典词向量算法:GloVe。 它和 Word2Vec 的不同点在于: 它更直接利用“词与词共现次数”这个全局统计信息。 GloVe 的直觉 设: [X_{ij}] 表示单词 $i$ 和单词 $j$ 在语料中彼此接近时的共现次数。 如果两个词经常出现在相近位置,说明它们有更强关系。 所以 GloVe 想做的是: ...