文章

10 词嵌入除偏(Debiasing Word Embeddings)

10 词嵌入除偏(Debiasing Word Embeddings)

这一节在讲什么

  这一节讲一个非常重要、也非常现实的问题:

词嵌入会学到人类文本中的偏见。

  而如果这些嵌入再被用到招聘、录取、贷款、司法等系统里,问题会非常严重。

课程里的警示例子

  论文里曾发现,一些词向量会表现出这样的类比:

  • Man : Computer Programmer
  • Woman : Homemaker

  或者:

  • Father : Doctor
  • Mother : Nurse

  这不是算法“凭空产生偏见”,
而是它把训练语料中已有的社会偏见学进来了。

课程想解决什么

  不是把所有性别信息都删掉。

  因为像下面这些词,本来定义里就有性别:

  • grandmother
  • grandfather
  • boy
  • girl
  • he
  • she

  真正想处理的是像这些词:

  • doctor
  • babysitter
  • programmer

  它们本不该在职业意义上带有性别偏置。

课程里的三步法

第一步:找出偏见方向(bias axis)

  例如性别方向,可以通过多组差向量平均得到:

\[e_{\text{he}} - e_{\text{she}}, \quad e_{\text{male}} - e_{\text{female}}, \dots\]

  把这些方向综合起来,得到一个偏见方向 $g$。

  直觉上:

这个方向就是“从更女性到更男性”的那条轴。

第二步:中和(neutralize)

  对那些本应中性的词,比如:

  • doctor
  • babysitter

  把它们在偏见方向 $g$ 上的投影去掉。

  如果词向量是 $e$,概念上可以写成:

\[e^{\text{debiased}} = e - \mathrm{Proj}_{g}(e)\]

  意思就是:

  • 去掉它在性别轴上的分量
  • 保留其他语义信息

  这样 doctor 就不再被明显推向男性或女性一侧。

第三步:均衡(equalize)

  对本来就成对出现、而且区别只应体现在性别上的词,
例如:

  • grandmother / grandfather
  • boy / girl
  • actor / actress

  希望它们满足:

  • 对中性词如 doctorbabysitter 的距离对称
  • 除了性别轴方向外,其余部分尽量一致

  课程后面给出了一套公式来完成这件事。

课程给出的均衡步骤公式

  对一对词 $w_1, w_2$:

  先取均值:

\[\mu = \frac{e_{w1}+e_{w2}}{2}\]

  再把均值拆成偏见方向部分和垂直部分:

\[\mu_B\] \[\mu_{\perp} = \mu - \mu_B\]

  然后把两个词重新摆放到:

  • 共享同一个中性部分 $\mu_{\perp}$
  • 在偏见轴上对称分布

  课程原文给了更完整的计算式:

\[\mu = \frac{e_{w1}+e_{w2}}{2}\] \[\mu_{\perp} = \mu - \mu_B\] \[e_1 = e_{w1B} + \mu_{\perp}\] \[e_2 = e_{w2B} + \mu_{\perp}\]

  你可以把它理解成:

先把共同的中性部分留下,再把两词沿性别方向对称拉开。

小白怎么理解“中和”和“均衡”

中和

  适用于本来就不该带有性别倾向的词。

  做法:

把它在偏见方向上的分量抹掉。

均衡

  适用于本来就成对存在、且只该在性别上不同的词。

  做法:

让它们关于中性子空间对称。

一个很重要的现实提醒

  课程也很坦诚:

  • 这不是已经被彻底解决的问题
  • 这仍然是活跃研究领域
  • 去偏并不等于绝对公平

  但至少,这提供了一套明确可操作的起点。

这一节最该记住的公式

偏见方向上的中和直觉

\[e^{\text{debiased}} = e - \mathrm{Proj}_{g}(e)\]

均衡第一步

\[\mu = \frac{e_{w1}+e_{w2}}{2}\]

分解均值

\[\mu_{\perp} = \mu - \mu_B\]

均衡后的词向量

\[e_1 = e_{w1B} + \mu_{\perp}\] \[e_2 = e_{w2B} + \mu_{\perp}\]

这一节最该记住的要点

要点 1:词嵌入会学到训练文本中的社会偏见

  这不是理论问题,而是真实会发生。

要点 2:不是所有性别信息都该删除

  有些词本来定义上就带性别。

要点 3:中和适用于中性词

  去掉偏见方向分量。

要点 4:均衡适用于成对词

  让词对在中性子空间周围保持对称。

要点 5:去偏仍是开放研究问题

  没有一劳永逸的最终方案。

这一节一句话总结

  词嵌入除偏的核心思路,是先找出偏见方向,再对本该中立的词做中和、对本该成对对称的词做均衡,从而尽量减少模型把社会偏见继续放大的风险。

本文由作者按照 CC BY 4.0 进行授权