亚马逊AI被曝性别歧视,你咋不上天呢?
原文来自:人民币交易与研究(Trading_CNY)
作者: 路闻卓立
亚马逊近日表示,它曾使用过一种基于机器学习的招聘工具,帮HR们分担压力,但最终因为这个新引擎并不“喜欢”女性而被迫中止。
图/Reuters
据路透社报道,亚马逊的一个团队自2014年开始一直在建立计算机程序,审查求职者们的简历,以机械化地寻找所需的人才。这个实验性的招聘工具会使用人工智能为求职者提供一星到五星的打分,就像购物者对亚马逊的商品打分那样。
但在2015年,亚马逊开始意识到新系统并未以性别中立的方式评定软件开发等技术性岗位的求职者。工程师们经过调查发现,AI程序偏爱男性应聘者,是因为AI深度学习的样本来自于Amazon公司过去10年内收到的所有简历。而这些简历中,原本男性申请者就偏多,并且最终录取的员工中也是男性居多。
美国顶尖科技公司中男性人数远超过女性,尤其体现在技术性岗位,图/Reuters
因此AI在深度学习的过程中形成了一种认知,那就是男性应聘者比女性更优秀。基于这种认知,AI给男性应聘者的简历评分更高。知情人士称,算法对包含“妇女”这个词的简历偏见严重,甚至降低了两所女子大学毕业生的评级。
亚马逊的工程师们针对这一现象,修改了AI程序的代码,使得对这些特定属性保持中立性,但这无法保证算法不会通过其他标准对应聘者的简历再分类,并产生歧视。亚马逊最终在去年年初解散了这一团队,现在招聘人员仅仅会将这个招聘工具作为一个参考。
事实上,AI在应用中产生歧视已经不是个例。MIT媒体实验室研究员Joy Buolamwini与微软科学家Timnit Gebru在合作的一篇研究论文《性别图谱:商用性别分类技术中的种族准确率差异》中,选择了微软、IBM 和旷视(Face++)三家的人脸识别 API,对它们进行性别判定的人脸识别功能测试。
测试结果发现,所有的分类器在识别男性人脸上的表现要优于女性人脸(8.1%-20.6%的错误差别),所有分类器在肤色较白的人脸上表现优于肤色较深的人脸(11.8%-19.2%的错误差别),这意味着AI不仅“学会了”人类的性别歧视(sexist),还“学会了”种族歧视(racist)。用计算机行业的一句习语来说,就是“废料进,废品出(Garbage in, garbage out, GIGO)”。
据世界经济论坛的《2018未来就业报告》,随着人工智能在逐渐在取代人类的工作,未来五年内机器将覆盖全球42%的工作任务。2017年对美国HR的调查显示,55%的HR人为AI将成为他们工作的常规部分。
在这一未来趋势下,如何确保算法的公平性(Fairness)、问责性(Accountability)、透明性(Transparency),会是AI研发者面对的一个难题。
黑匣子与信息茧房
机器学习中的深度学习技术已经在多个领域成为主流,它就像人类的一面镜子,去模仿人类的行为方式或者是思考方式。但就像我们不知道自主意识是如何产生的,深度学习的算法就是个黑匣子,因此不能给我们提供问责性和透明性。算法工程师可能依据人类的红灯停绿灯行、礼让行人等教会了算法如何自动驾驶,但这辆车要是突然撞到了电线杆上,就是工程师也无法理解的了。
笔者则认为信息传播中的一个效应,信息茧房(information Cocoons)可以部分套用到机器学习中。信息茧房意味着,在信息传播中,因公众自身的信息需求并非全方位的,公众只注意自己选择的东西和使自己愉悦的通讯领域,久而久之,会将自身桎梏于像蚕茧一般的“茧房”中。
微博等社交媒体就是一个典型的信息茧房,这一后果就是形成群体极化。这一群体极化来自于用户的选择性心理、意见领袖带来的“回音室”效应、意见趋同小团体的网络巴尔干化等。一个猜想是,黑匣子中的思考,是否也是极化的结果,这将原本只是客观事实的样本数据,通过对相似信息的不断归类趋同,演化成了歧视。
美国国防部的研究部门已经在开发更容易解释如何做出决定的机器学习模型,Alphabet、IBM以及毕马威等公司也在研究工具,来解释他们的AI工具做出决策的原因。但这可能还是不够的,因为每个人对公平、透明度这些的标准不同。
“算法透明度本身并不是目的,”Data&Society研究员Madeleine Clare Elish称,“有必要问的是:为谁透明,因为什么而透明?不能仅仅是为了透明度而透明。”
AI能实现真正的公平吗
目前,没有国家在算法决策的透明度方面立法,决定公民到底该知道多少信息的权利。欧盟发布的通用数据保护条例(GDPR)中给出了所谓的“解释权”,旨在用户能够更好的让公司收集和保留其个人数据。
总的来说,公平是相对的,它是一个价值判断而不是一个事实判断,这与社会环境等各方面都有关系,下面将从两个点来阐释如何去尽可能的实现公平,以及体现可解释性与透明性。
牛津互联网研究所助理教授Sandra Wachter在一篇文章中提出一个概念,称算法应该为人们提供“反事实解释(counterfactual explanations)”,即披露如何提供最小的变化就能做出反事实的决策。
例如,计算贷款审批的算法不仅可以解释为何你被拒绝,还可以解释采取哪些措施可以扭转决策。提供反事实解释不需要公布代码,因此研究人员也无需知道算法是怎么“想的”。反事实解释将有助于推断机器学习算法是否存在偏见,如果解释中提出被告人的种族或性别因素,那无疑是由偏见的。
哈佛大学博士后Berk Ustun提出了反事实解释的变体,他认为算法应该被构建为提供“追索(Recourse)”,即人们能够切实可行地修改算法决策结果的能力。例如,建议在求职前获得大学学位相对于在求职前改变性别年龄。Utsun认为,追索权是研究人员实际可以测试的东西,而解释并不总是有用。
不过,追索权和解释还不足以实现完全公平,因为算法会为富人、年轻人或男人提供更多可实现的追索权。“创造一个更具包容性和弹性的社会的目标,实际上可能会受到更难获得社会资源的算法的阻碍,”卡内基梅隆大学博士、此论文的另一作者Alex Spangher称。
这里到我们的第二个点,因为难以存在真正的技术中立,在中立、公平等的判断上我们仍需要价值的判断,且主要是社会价值。社会需要决定哪些数据应该被允许推断算法。在某些情况下,反歧视法可能会阻止使用种族或性别等类别,但不会阻止以邮编的大小分类。
但是在这种情况下,仍然需要注意一种情况,即特征的刻板印象。果壳网文章《当AI学会性别歧视》里提到一个案例,有一位研究人员的研究内容是辨认场景复杂生活照,她发现,男人被认成女人的图片有一些共同点——都是站在厨房里,或者在做家务。
图/Zhao, Jieyu, et al. "Men also likeshopping: Reducing gender bias amplification using corpus-level constraints." arXiv preprint arXiv:1707.09457 (2017).
这是因为机器从大数据里得到的认知就是女人和某些特定元素相关,以现有的价值判断标准你很难说这是不是歧视。
再升级到环境上,AI会的判断可能是一个预言,加深了刻板印象。ProPublica在2016年的一项调查中发现,名为CPMPAS的计算机程序旨在评估犯罪分子再次犯罪的风险。该项目认为一名曾短暂偷走一辆儿童滑板车18岁的黑人女孩比一名两次入室抢劫的41岁白人男子更容易再次犯罪。
这反映了一个问题,即个人会被环境评判,例如“你的父母有人进过监狱吗?”、“你的熟人中有多少人非法吸毒?”等等。
若想实现依照社会价值做出反歧视的预防性工作,可能是个很大的工作量。因为歧视并非是肤色、性别等单一变量实现的,它是由多种多样的人类文化决定的。(完)