Leon Yi

02 选择最可能的句子(Picking the Most Likely Sentence)

这一节在讲什么   这一节要解决一个很关键的问题: 模型已经学会“给某个翻译打概率”了,但怎么真正挑出“最好的翻译”?   这一步不是训练问题,而是“搜索问题”。 机器翻译其实是条件语言模型   普通语言模型学的是: [P(y)]   也就是一句话本身出现的概率。   而机器翻译学的是: [P(y \mid x)]   意思是:给定输入法语句子 $x$,某个英语句...

10 词嵌入除偏(Debiasing Word Embeddings)

这一节在讲什么   这一节讲一个非常重要、也非常现实的问题: 词嵌入会学到人类文本中的偏见。   而如果这些嵌入再被用到招聘、录取、贷款、司法等系统里,问题会非常严重。 课程里的警示例子   论文里曾发现,一些词向量会表现出这样的类比: Man : Computer Programmer Woman : Homemaker   或者: Father ...

08 GloVe 词向量(GloVe Word Vectors)

这一节在讲什么   这一节讲另一种经典词向量算法:GloVe。   它和 Word2Vec 的不同点在于: 它更直接利用“词与词共现次数”这个全局统计信息。 GloVe 的直觉   设: [X_{ij}]   表示单词 $i$ 和单词 $j$ 在语料中彼此接近时的共现次数。   如果两个词经常出现在相近位置,说明它们有更强关系。   所以 GloVe 想做的是: ...

07 负采样(Negative Sampling)

这一节在讲什么   这一节讲怎么解决上一节 Word2Vec 的最大问题: softmax 太慢。   办法就是把“大词表多分类”改造成“少量二分类”,这就是负采样。 核心思路   与其问: “orange 的附近到底是哪一个词?”   不如改成问: “orange 和 juice 这两个词,是不是一对真的邻近词?”   这就从一个巨大的多分类问题,...

05 学习词嵌入(Learning Word Embeddings)

这一节在讲什么   这一节开始讲: 词嵌入到底怎么学出来?   课程先从一个“预测下一个词”的神经语言模型讲起,因为这个思路最容易理解。 基本想法:用语言模型逼出好词向量   例子: [\text{I want a glass of orange ___}]   希望模型预测出最后的词: [\text{juice}]   如果要把这个任务做好,模型就会被迫学会: ...