10 词嵌入除偏(Debiasing Word Embeddings)
这一节在讲什么
这一节讲一个非常重要、也非常现实的问题:
词嵌入会学到人类文本中的偏见。
而如果这些嵌入再被用到招聘、录取、贷款、司法等系统里,问题会非常严重。
课程里的警示例子
论文里曾发现,一些词向量会表现出这样的类比:
-
Man : Computer Programmer -
Woman : Homemaker
或者:
-
Father : Doctor -
Mother : Nurse
这不是算法“凭空产生偏见”,
而是它把训练语料中已有的社会偏见学进来了。
课程想解决什么
不是把所有性别信息都删掉。
因为像下面这些词,本来定义里就有性别:
-
grandmother -
grandfather -
boy -
girl -
he -
she
真正想处理的是像这些词:
-
doctor -
babysitter -
programmer
它们本不该在职业意义上带有性别偏置。
课程里的三步法
第一步:找出偏见方向(bias axis)
例如性别方向,可以通过多组差向量平均得到:
$$
e_{\text{he}} - e_{\text{she}}, \quad e_{\text{male}} - e_{\text{female}}, \dots
$$
把这些方向综合起来,得到一个偏见方向 $g$。
直觉上:
这个方向就是“从更女性到更男性”的那条轴。
第二步:中和(neutralize)
对那些本应中性的词,比如:
-
doctor -
babysitter
把它们在偏见方向 $g$ 上的投影去掉。
如果词向量是 $e$,概念上可以写成:
$$
e^{\text{debiased}} = e - \mathrm{Proj}_{g}(e)
$$
意思就是:
- 去掉它在性别轴上的分量
- 保留其他语义信息
这样 doctor 就不再被明显推向男性或女性一侧。
第三步:均衡(equalize)
对本来就成对出现、而且区别只应体现在性别上的词,
例如:
-
grandmother /grandfather -
boy /girl -
actor /actress
希望它们满足:
- 对中性词如
doctor、babysitter的距离对称 - 除了性别轴方向外,其余部分尽量一致
课程后面给出了一套公式来完成这件事。
课程给出的均衡步骤公式
对一对词 $w_1, w_2$:
先取均值:
$$
\mu = \frac{e_{w1}+e_{w2}}{2}
$$
再把均值拆成偏见方向部分和垂直部分:
$$
\mu_B
$$
$$
\mu_{\perp} = \mu - \mu_B
$$
然后把两个词重新摆放到:
- 共享同一个中性部分 $\mu_{\perp}$
- 在偏见轴上对称分布
课程原文给了更完整的计算式:
$$
\mu = \frac{e_{w1}+e_{w2}}{2}
$$
$$
\mu_{\perp} = \mu - \mu_B
$$
$$
e_1 = e_{w1B} + \mu_{\perp}
$$
$$
e_2 = e_{w2B} + \mu_{\perp}
$$
你可以把它理解成:
先把共同的中性部分留下,再把两词沿性别方向对称拉开。
小白怎么理解“中和”和“均衡”
中和
适用于本来就不该带有性别倾向的词。
做法:
把它在偏见方向上的分量抹掉。
均衡
适用于本来就成对存在、且只该在性别上不同的词。
做法:
让它们关于中性子空间对称。
一个很重要的现实提醒
课程也很坦诚:
- 这不是已经被彻底解决的问题
- 这仍然是活跃研究领域
- 去偏并不等于绝对公平
但至少,这提供了一套明确可操作的起点。
这一节最该记住的公式
偏见方向上的中和直觉
$$
e^{\text{debiased}} = e - \mathrm{Proj}_{g}(e)
$$
均衡第一步
$$
\mu = \frac{e_{w1}+e_{w2}}{2}
$$
分解均值
$$
\mu_{\perp} = \mu - \mu_B
$$
均衡后的词向量
$$
e_1 = e_{w1B} + \mu_{\perp}
$$
$$
e_2 = e_{w2B} + \mu_{\perp}
$$
这一节最该记住的要点
要点 1:词嵌入会学到训练文本中的社会偏见
这不是理论问题,而是真实会发生。
要点 2:不是所有性别信息都该删除
有些词本来定义上就带性别。
要点 3:中和适用于中性词
去掉偏见方向分量。
要点 4:均衡适用于成对词
让词对在中性子空间周围保持对称。
要点 5:去偏仍是开放研究问题
没有一劳永逸的最终方案。
这一节一句话总结
词嵌入除偏的核心思路,是先找出偏见方向,再对本该中立的词做中和、对本该成对对称的词做均衡,从而尽量减少模型把社会偏见继续放大的风险。