算法的公平性,为什么总是难以衡量?

全文共3852字,预计学习时长12分钟

来源:Pexels

算法公平性的对话已经成为社会道德的一面放大镜。

 

算法的偏差反映了社会混乱的过去。所有被删除的偏差可能仍潜伏在数据中,等着重新出现的机会,这在一定程度上是因为,人们无意间把这些偏差编入了软件,而算法会放大这些偏差。

 

从表面上看,算法偏差似乎是一个可以用计量经济学和统计学方法解决的工程问题。然而,想要确保一个公正、公平而又合乎伦理的结果,不仅仅要面对来自数据科学的挑战。由于设置人工智能学习程序需要人工干预,因此需要巨大的责任和坚韧的信念,以设置出最为公平的程序。

 

2016年,谷歌相册将两名非裔美国人的照片归类为“大猩猩”。

 

两年后,谷歌对该事件的回应仅仅是将单词“大猩猩”从其分类数据库中删除。

 

2016年数据显示,亚马逊为欧美消费者提供的“当天送达”服务并不均衡。在佛罗里达州,基于再犯风险推荐拘留和假释的算法在非裔美国人中错误率更高,即本不会再次犯罪的非裔美国人更容易被算法误判为推荐拘留。

 

在将中性词汇翻译成有性别区分的代词时,谷歌的word2vec神经网络翻译体现出性别刻板印象,比如“医生”(或“老板”、“金融家”等)常译为“他”,而“护士”(或“家庭主妇”、“保姆”等)则译为“她”。

这些问题是由一系列原因导致的。

 

一些问题由潜在的社会根源引起;如果机器学习算法所处理的数据是由有偏见的人构建的,则得到的算法也有失偏颇。一些问题的出现仅仅是统计学上的假象;如果训练机器学习算法找到最适合大众的算法,则不适用这种算法的少数群体获得的分类和推荐适配性较差。还有一些问题的产生是以上两种原因的结合:戴着有色眼镜的人训练出带有偏见的算法,基于这些算法提出的建议加剧了不合理的刻板印象。如,对贫穷社区更严厉的治安管制使这些社区犯罪报告的数量增加,进而导致警务分析建议向这些社区分配更多警力,陷入糟糕的恶循环。

 

问题在于,当前对于算法公平性没有明确的定义和保障措施。关于算法公平性的讨论已经成为了社会道德的放大镜。如何定义和衡量公平的争论也反映出当今世界对于道德的讨论延伸到了更广泛范围。

 

如今,关于如何定义和衡量算法公平的争论反映了正在进行的更广泛的道德对话。

 

近期采访了斯坦福大学计算政策实验室的执行理事Sharad Goel。采访就其在算法公平性方面开展的部分应用工作进行了讨论,尤其是有关算法公平概念争论的三种观点各自的优缺点。此文对这部分进行了简化,专业人士可阅读这篇文章以了解对此更全面的描述。

来源:Pexels

公平的三个概念

应禁用某些群体标签。

该观点认为,算法在进行预测时不应把某些受保护类别考虑在内。例如,算法不应基于种族或性别对贷款资格或再次犯罪进行预测。这种实现公平的方法简单易懂,但存在两个主要问题:

 

1、区分受保护类别的可接受和不可接受代称。即使算法中已经消除了受保护类别,由其解释的统计方差也会倾向于使用其他可用变量。例如,虽然申请贷款不会受种族因素影响,但与种族紧密相关的邮政编码会在模型中占据更高的预测比重,掩盖了歧视。实际上,邮政编码成为了新的种族变量。判断哪些代称是受保护类别的不合理代替,哪些又是可接受的、不同的变量是富有挑战性和争议的工作。这种模糊的界限引发了另一个问题,即“某些标签”是禁用的。

2、社会(有时是个人)成本高昂。受保护类别常常对需要采用算法预测的行为产生深远影响。众所周知,由于事实上保险赔付给男性的较多,所以男性司机的保险费更高。设计算法时排除性别因素将降低男性保险费,而增加女性的保险费用。是否应该在风险算法中消除性别因素,从而使女性支出比她们实际承担风险更高的费用的做法存在争议。简言之,尽管这样可能创造精确的平等,但似乎忽略了比例公平的标志。一些人认为这种方法实际上是不公平的。

更高的风险体现在刑事司法环境中。从预测再犯的算法中移除受保护类别如性别、种族会降低算法效率,意味着更多实际犯罪风险较低的人被拘押,而风险较高的人被释放。后果是整体犯罪率升高,尤其是在犯罪率已经上升的社区。需要记住的是,大多数暴力罪行发生在已经认识的人之间。因此,当算法效率降低时,已经发生过暴行的社区可能会经历更多的二次暴行(尽管如此,仍不允许在算法中使用受保护类别)。

大多数人(包括法律)认为,当没有明确正当的理由时,基于受保护类别的决定在道德上应该受到谴责。困难在于,使用这些受保护类别似乎能有效削减有害结果。权衡之下,一些人采用其他方法来定义算法公平。有没有一种方法可以在保证公平的同时使预测准确度最大化(允许包含有意义的受保护类别)呢?

在不同群体中,算法性能应表现一致。

与忽略种族、性别等受保护类别(如排除肤色或性别)相反,这种实现公平的方式认为算法的性能指标在所有受保护的类别中应该相同。例如,判断白人罪犯和黑人罪犯再犯风险高低的算法,其预测误差值应该相等。虽然这种方法没有忽略肤色的方法直观,但至少在理论上使得算法预测更高效,并且可以避免判断哪些代称(如邮政编码作为种族的原始代替变量)可以包含在算法内而哪些不可以。

尽管如此,这种方法仍不完美。

要弄清原因,很重要的一点是要理解不同群体代表着有不同平均得分、偏差、倾斜、峰度等指标的人群。(如上图所示,设想使用同一截止阈值让算法对每个群体曲线执行相同操作)。一般谈到公平时,我们希望不论属于哪个群体,所有人都能遵守统一标准。但如果对不同人群使用同一截止阈值,不同人群的预测能力和错误率很可能不同——这只是统计原理所产生的结果。如果政策法规强迫企业在受保护群体采用具有同样性能的算法,就相当于变相激励企业和机构在统计技巧和员工保密协议的作用下产生歧视。

企业和机构一般有两种选择:1、通过在代码上做手脚,降低算法质量和效率,使得算法在不同群体间的性能相等(这个选择带来了之前讨论的潜在危险,如释放有高风险再犯率的罪犯)。2、对不同群体采取不同的算法阈值,使不同群体(性别、种族、性取向等)的截止阈值不同。但很明显,这似乎违背了公平理念,并且通常违背道德甚至违法(除了一个明显的例外,如平权行动)。对不同群体强制算法性能平等化的负面影响不仅停留在理论上,甚至已经被记录下来,如对黑人和白人公民再犯风险评分的数据库以及预测警方在这些人群中发现违禁品可能性的数据库。

 

算法分数在不同群体成员之间应该有相同的意义。

实现算法公平的第三种方法是确保算法的分数在受保护的类别中具有相同的意义(例如一位女性在保险申请上得到的风险评估分数为X,那么她的保险金额应该和同样分数的男性持平)。表面上看,这种方法似乎达到了期望,似乎是公平的。但问题是它不能在存在故意歧视行为时保证公平,因此基于这种公平定义的算法规则仍会让模糊歧视钻了空。模糊歧视包括两种情况:

1、通过控制指标在算法截止阈值附近波动,代替变量(如代替种族的邮政编码)仍会对群体进行不公正划分。例如,将贷款违约风险较高的个人与风险较低的个人配对,从而将受保护类别的风险评分任意控制在在截止阈值附近。这本质上可归结为算法红线。

 

 

2、如前所述,不同群体对应不同的统计风险曲线。如果组内量化指标是离散的(比如,使用“高”、“中”、“低”的标签来替代一个人的具体分数),那么实际风险曲线的差别可以掩盖不同的群体界限,同时维持了受保护类别(种族、性别等)中具有高风险标签的个人以相似的比率再次犯罪、违约和撞车的假象。例如,在上图中,基于每个人在组内的百分位数,为他们标注“高”、“中”、“低”风险将产生不同的群体的有效截止阈值,同时标签为“高”风险的受保护群体,其算法性能可能保持潜在的一致。

B2C企业似乎很少使用这些技术,它们通常会因为歧视而遭受利益损失,但B2B企业则有此动机。例如,广告匹配公司有动机去推动特定群体超过或低于截止阈值,以证明广告目标是基于受保护的类别。政治运动或者游说团体也很容易被这些方法所吸引,以在战略子团体间左右公众意见,同时留下一些“面包屑”,并且是令人费解的“面包屑”(breadcrumbs)。(如果美国议员不理解Facebook的商业模式,我相信他们也不能很好的理解这个问题。)

挑战

来源:Pexels

每种定义算法公平性的方法都有其优缺点。最令人头疼的不是每种方法都存在缺点,而是这些方法之间基本不能兼容。

在将受保护类别作为检测公平的基准线的同时不能忽视其自身。不能一方面要求相似的风险分数在群体间出现相似的结果,另一方面又要求相似的算法错误率。定义算法公平的竞争仍在进行,但是道德心理学背景促使不少人暂停了这项工作。

业界无法就“什么是公平”达成共识,把算法公平看作一种数学、计算机科学问题未免太过乐观。问题不在于去解决某个复杂的数据魔方,而在于试图在只能捕捉阴影的洞穴墙壁上展示柏拉图式完美的公平形式。很难预测最终哪种解决方案会被采用,以及这些方案与监管和经济激励相互作用的成本。

算法公平的核心说到底,应是社会道德问题。

推荐阅读专题

留言 点赞 发个朋友圈

我们一起分享AI学习与发展的干货

编译组:贺宇、鲍诗娴

相关链接:

https://hackernoon.com/why-algorithmic-fairness-is-elusive-sf7v323b

如需转载,请后台留言,遵守转载规范

推荐文章阅读

ACL2018论文集50篇解读

EMNLP2017论文集28篇论文解读

2018年AI三大顶会中国学术成果全链接

ACL2017 论文集:34篇解读干货全在这里

10篇AAAI2017经典论文回顾

长按识别二维码可添加关注

读芯君爱你