10 词嵌入除偏（Debiasing Word Embeddings）

发表于 2026/03/17 更新于 2026/03/17

作者 Leon Yi

6 分钟阅读

这一节在讲什么

　　这一节讲一个非常重要、也非常现实的问题：

词嵌入会学到人类文本中的偏见。

　　而如果这些嵌入再被用到招聘、录取、贷款、司法等系统里，问题会非常严重。

课程里的警示例子

　　论文里曾发现，一些词向量会表现出这样的类比：

Man : Computer Programmer
Woman : Homemaker

　　或者：

Father : Doctor
Mother : Nurse

　　这不是算法“凭空产生偏见”，
而是它把训练语料中已有的社会偏见学进来了。

课程想解决什么

　　不是把所有性别信息都删掉。

　　因为像下面这些词，本来定义里就有性别：

grandmother
grandfather
boy
girl
he
she

　　真正想处理的是像这些词：

doctor
babysitter
programmer

　　它们本不该在职业意义上带有性别偏置。

课程里的三步法

第一步：找出偏见方向（bias axis）

　　例如性别方向，可以通过多组差向量平均得到：

\[e_{\text{he}} - e_{\text{she}}, \quad e_{\text{male}} - e_{\text{female}}, \dots\]

　　把这些方向综合起来，得到一个偏见方向 $g$。

　　直觉上：

这个方向就是“从更女性到更男性”的那条轴。

第二步：中和（neutralize）

　　对那些本应中性的词，比如：

doctor
babysitter

　　把它们在偏见方向 $g$ 上的投影去掉。

　　如果词向量是 $e$，概念上可以写成：

\[e^{\text{debiased}} = e - \mathrm{Proj}_{g}(e)\]

　　意思就是：

去掉它在性别轴上的分量
保留其他语义信息

　　这样 doctor 就不再被明显推向男性或女性一侧。

第三步：均衡（equalize）

　　对本来就成对出现、而且区别只应体现在性别上的词，
例如：

grandmother / grandfather
boy / girl
actor / actress

　　希望它们满足：

对中性词如 doctor、babysitter 的距离对称
除了性别轴方向外，其余部分尽量一致

　　课程后面给出了一套公式来完成这件事。

课程给出的均衡步骤公式

　　对一对词 $w_1, w_2$：

　　先取均值：

\[\mu = \frac{e_{w1}+e_{w2}}{2}\]

　　再把均值拆成偏见方向部分和垂直部分：

\[\mu_B\] \[\mu_{\perp} = \mu - \mu_B\]

　　然后把两个词重新摆放到：

共享同一个中性部分 $\mu_{\perp}$
在偏见轴上对称分布

　　课程原文给了更完整的计算式：

\[\mu = \frac{e_{w1}+e_{w2}}{2}\] \[\mu_{\perp} = \mu - \mu_B\] \[e_1 = e_{w1B} + \mu_{\perp}\] \[e_2 = e_{w2B} + \mu_{\perp}\]

　　你可以把它理解成：

先把共同的中性部分留下，再把两词沿性别方向对称拉开。

小白怎么理解“中和”和“均衡”

中和

　　适用于本来就不该带有性别倾向的词。

　　做法：

把它在偏见方向上的分量抹掉。

均衡

　　适用于本来就成对存在、且只该在性别上不同的词。

　　做法：

让它们关于中性子空间对称。

一个很重要的现实提醒

　　课程也很坦诚：

这不是已经被彻底解决的问题
这仍然是活跃研究领域
去偏并不等于绝对公平

　　但至少，这提供了一套明确可操作的起点。

这一节最该记住的公式

偏见方向上的中和直觉

\[e^{\text{debiased}} = e - \mathrm{Proj}_{g}(e)\]

均衡第一步

\[\mu = \frac{e_{w1}+e_{w2}}{2}\]

分解均值

\[\mu_{\perp} = \mu - \mu_B\]

均衡后的词向量

\[e_1 = e_{w1B} + \mu_{\perp}\] \[e_2 = e_{w2B} + \mu_{\perp}\]

这一节最该记住的要点

要点 1：词嵌入会学到训练文本中的社会偏见

　　这不是理论问题，而是真实会发生。

要点 2：不是所有性别信息都该删除

　　有些词本来定义上就带性别。

要点 3：中和适用于中性词

　　去掉偏见方向分量。

要点 4：均衡适用于成对词

　　让词对在中性子空间周围保持对称。

要点 5：去偏仍是开放研究问题

　　没有一劳永逸的最终方案。

这一节一句话总结

　　词嵌入除偏的核心思路，是先找出偏见方向，再对本该中立的词做中和、对本该成对对称的词做均衡，从而尽量减少模型把社会偏见继续放大的风险。

自然语言处理与词嵌入

本文由作者按照 CC BY 4.0 进行授权