10 词嵌入除偏(Debiasing Word Embeddings)
这一节在讲什么
这一节讲一个非常重要、也非常现实的问题:
词嵌入会学到人类文本中的偏见。
而如果这些嵌入再被用到招聘、录取、贷款、司法等系统里,问题会非常严重。
课程里的警示例子
论文里曾发现,一些词向量会表现出这样的类比:
Man : Computer ProgrammerWoman : Homemaker
或者:
Father : DoctorMother : Nurse
这不是算法“凭空产生偏见”,
而是它把训练语料中已有的社会偏见学进来了。
课程想解决什么
不是把所有性别信息都删掉。
因为像下面这些词,本来定义里就有性别:
grandmothergrandfatherboygirlheshe
真正想处理的是像这些词:
doctorbabysitterprogrammer
它们本不该在职业意义上带有性别偏置。
课程里的三步法
第一步:找出偏见方向(bias axis)
例如性别方向,可以通过多组差向量平均得到:
\[e_{\text{he}} - e_{\text{she}}, \quad e_{\text{male}} - e_{\text{female}}, \dots\]把这些方向综合起来,得到一个偏见方向 $g$。
直觉上:
这个方向就是“从更女性到更男性”的那条轴。
第二步:中和(neutralize)
对那些本应中性的词,比如:
doctorbabysitter
把它们在偏见方向 $g$ 上的投影去掉。
如果词向量是 $e$,概念上可以写成:
\[e^{\text{debiased}} = e - \mathrm{Proj}_{g}(e)\]意思就是:
- 去掉它在性别轴上的分量
- 保留其他语义信息
这样 doctor 就不再被明显推向男性或女性一侧。
第三步:均衡(equalize)
对本来就成对出现、而且区别只应体现在性别上的词,
例如:
grandmother/grandfatherboy/girlactor/actress
希望它们满足:
- 对中性词如
doctor、babysitter的距离对称 - 除了性别轴方向外,其余部分尽量一致
课程后面给出了一套公式来完成这件事。
课程给出的均衡步骤公式
对一对词 $w_1, w_2$:
先取均值:
\[\mu = \frac{e_{w1}+e_{w2}}{2}\]再把均值拆成偏见方向部分和垂直部分:
\[\mu_B\] \[\mu_{\perp} = \mu - \mu_B\]然后把两个词重新摆放到:
- 共享同一个中性部分 $\mu_{\perp}$
- 在偏见轴上对称分布
课程原文给了更完整的计算式:
\[\mu = \frac{e_{w1}+e_{w2}}{2}\] \[\mu_{\perp} = \mu - \mu_B\] \[e_1 = e_{w1B} + \mu_{\perp}\] \[e_2 = e_{w2B} + \mu_{\perp}\]你可以把它理解成:
先把共同的中性部分留下,再把两词沿性别方向对称拉开。
小白怎么理解“中和”和“均衡”
中和
适用于本来就不该带有性别倾向的词。
做法:
把它在偏见方向上的分量抹掉。
均衡
适用于本来就成对存在、且只该在性别上不同的词。
做法:
让它们关于中性子空间对称。
一个很重要的现实提醒
课程也很坦诚:
- 这不是已经被彻底解决的问题
- 这仍然是活跃研究领域
- 去偏并不等于绝对公平
但至少,这提供了一套明确可操作的起点。
这一节最该记住的公式
偏见方向上的中和直觉
\[e^{\text{debiased}} = e - \mathrm{Proj}_{g}(e)\]均衡第一步
\[\mu = \frac{e_{w1}+e_{w2}}{2}\]分解均值
\[\mu_{\perp} = \mu - \mu_B\]均衡后的词向量
\[e_1 = e_{w1B} + \mu_{\perp}\] \[e_2 = e_{w2B} + \mu_{\perp}\]这一节最该记住的要点
要点 1:词嵌入会学到训练文本中的社会偏见
这不是理论问题,而是真实会发生。
要点 2:不是所有性别信息都该删除
有些词本来定义上就带性别。
要点 3:中和适用于中性词
去掉偏见方向分量。
要点 4:均衡适用于成对词
让词对在中性子空间周围保持对称。
要点 5:去偏仍是开放研究问题
没有一劳永逸的最终方案。
这一节一句话总结
词嵌入除偏的核心思路,是先找出偏见方向,再对本该中立的词做中和、对本该成对对称的词做均衡,从而尽量减少模型把社会偏见继续放大的风险。