07 注意力模型直观理解（Attention Model Intuition）

这一节在讲什么　　这一节先不急着上公式，而是讲一个核心直觉：人在翻译长句子时，不会先把整句死记硬背下来，再一次性吐出来；人是看一部分，翻一部分。　　注意力模型就是把这个想法交给神经网络。为什么基础 seq2seq 对长句子吃力　　基础编码器-解码器的做法是：编码器把整句都读完把整句信息压成一个固定长度向量解码器再靠这个向量生成整句翻译　...

2026/03/17 序列模型与注意力机制

06 BLEU 得分（Bleu Score）

这一节在讲什么　　机器翻译有一个麻烦：同一句法语，可能有好几种都正确的英文翻译。　　所以不能像分类任务那样，只看“是否完全等于标准答案”。　　BLEU 就是为了解决这个问题而设计的自动评价指标。为什么机器翻译不好评估　　课程里的例子：　　法语句子： [\text{Le chat est sur le tapis}] 　　参考翻译 1： [\text{...

2026/03/17 序列模型与注意力机制

05 集束搜索误差分析

1. 核心背景：为什么需要这个分析？　　在机器翻译中，系统通常由两个主要部分组成： RNN 模型（序列到序列模型）：负责“理解”和“生成”。它计算每一个可能句子的概率（可能性）。我们可以把它想象成一个评分员，它给每个句子打分，分数越高代表它认为这个句子越好。集束搜索算法（Beam Search）：负责“寻找”。因为可能的句子组合太多（天文数字），它无法遍历所有句子，所以...

2026/03/17 序列模型与注意力机制

04 改进集束搜索（Refinements to Beam Search）

这一节在讲什么　　上一节已经知道束搜索怎么跑了，这一节讲两个实战里非常重要的改进：用 log 概率代替原始概率连乘用长度归一化，避免模型偏爱短句子为什么不能直接乘概率　　整句概率是： [P(y\mid x)=\prod_{t=1}^{T_y} P(y^{\langle t \rangle} \mid x, y^{\langle 1:t-1 \rangle})]...

2026/03/17 序列模型与注意力机制

03 集束搜索（Beam Search）

这一节在讲什么　　这一节正式讲 Beam Search。它解决的问题是：不可能把所有翻译句子都试一遍，那就只保留“目前最有希望”的少数候选。先说核心思想　　束搜索不是每一步只留 1 条路，而是留 $B$ 条路。　　这里的 $B$ 叫做束宽（beam width）。如果 $B=1$，那就退化成贪心搜索如果 $B=3$，每一步保留 3 个最有希望的部分...

2026/03/17 序列模型与注意力机制

02 选择最可能的句子（Picking the Most Likely Sentence）

这一节在讲什么　　这一节要解决一个很关键的问题：模型已经学会“给某个翻译打概率”了，但怎么真正挑出“最好的翻译”？　　这一步不是训练问题，而是“搜索问题”。机器翻译其实是条件语言模型　　普通语言模型学的是： [P(y)] 　　也就是一句话本身出现的概率。　　而机器翻译学的是： [P(y \mid x)] 　　意思是：给定输入法语句子 $x$，某个英语句...

2026/03/17 序列模型与注意力机制

01 基础模型（Basic Models）

这一节在讲什么　　这一节讲的是最基础的 seq2seq，也就是“输入一个序列，输出另一个序列”。最典型的例子就是：输入法语句子：Jane visite l'Afrique en septembre. 输出英语句子：Jane is visiting Africa in September. 　　课程想说明的是：只要你能把输入句子先“压缩理解”成一个向量，再让另一个网络根据...

2026/03/17 序列模型与注意力机制

10 词嵌入除偏（Debiasing Word Embeddings）

这一节在讲什么　　这一节讲一个非常重要、也非常现实的问题：词嵌入会学到人类文本中的偏见。　　而如果这些嵌入再被用到招聘、录取、贷款、司法等系统里，问题会非常严重。课程里的警示例子　　论文里曾发现，一些词向量会表现出这样的类比： Man : Computer Programmer Woman : Homemaker 　　或者： Father ...

2026/03/17 自然语言处理与词嵌入

09 情感分类（Sentiment Classification）

这一节在讲什么　　这节课讲词嵌入在一个非常实用的任务里的应用：情感分类。　　任务形式是：输入一段文本输出这段文本表达的是正面、负面还是几星评价课程里的例子　　例如餐馆评论： The dessert is excellent. -> 四星 Service was quite slow. -> 两星 Good for a quick ...

2026/03/17 自然语言处理与词嵌入

08 GloVe 词向量（GloVe Word Vectors）

这一节在讲什么　　这一节讲另一种经典词向量算法：GloVe。　　它和 Word2Vec 的不同点在于：它更直接利用“词与词共现次数”这个全局统计信息。 GloVe 的直觉　　设： [X_{ij}] 　　表示单词 $i$ 和单词 $j$ 在语料中彼此接近时的共现次数。　　如果两个词经常出现在相近位置，说明它们有更强关系。　　所以 GloVe 想做的是： ...

2026/03/17 自然语言处理与词嵌入

07 注意力模型直观理解（Attention Model Intuition）

06 BLEU 得分（Bleu Score）

05 集束搜索误差分析

04 改进集束搜索（Refinements to Beam Search）

03 集束搜索（Beam Search）

02 选择最可能的句子（Picking the Most Likely Sentence）

01 基础模型（Basic Models）

10 词嵌入除偏（Debiasing Word Embeddings）

09 情感分类（Sentiment Classification）

08 GloVe 词向量（GloVe Word Vectors）

热门标签