AI概念一年比一年火!对于普罗大众来讲,现阶段能够接触到的“人工智能”还十分有限,或许人脸识别算是一个。但对这项技术稍有了解的朋友应该或多或少听过,因为训练数据类型的关系,人脸识别系统常常会出现种种误差,甚至种族歧视之类的道德型偏见也不在少数。
迄今为止,人脸识别系统存在问题的原因有很多,现在被认为最重要的是它们往往表现出对某些人口群体和性别的偏见。
而来自于麻省理工学院、巴塞罗那加泰罗尼亚大学(Universitat Oberta de Catalunya)和马德里自治大学(Universidad Autonoma de Madrid)的研究人员的一项新研究探讨了另一个迄今为止较少受到关注的问题方面:对某些面部表情的偏见。
(论文链接:https://www.arxiv-vanity.com/papers/2011.08809/ )
研究人员称,表情对人脸识别系统的影响“至少”与戴围巾、帽子、假发或眼镜的影响一样大,而且人脸识别系统在这方面是用高度偏差的数据集进行训练的。
越来越多的证据表明,人脸识别容易受到有害的、普遍的偏见的影响。科罗拉多大学博尔德分校的研究人员去年秋天发表的一篇论文表明,亚马逊、Clarifai、微软和其他公司的人工智能对“顺性别”男性和女性的准确率保持在95%以上,但有38%的时候会将跨性别男性误认成女性。
「顺性别(Cisgender),跨性别的反义词,通常是用来形容对自己的生理特征和生理性别完全接受,甚至喜爱的人,也可以指顺应自己的生理性别的意思。」
2019年,算法正义联盟(Algorithmic Justice League,AJL)创始人 Joy Buolamwini与AI Now研究所研究员Deborah Raji合作,发布了Gender Shades项目,对亚马逊、IBM、Face++和微软等公司的面部识别进行审核。
Gender Shades项目
Gender Shades项目和美国国家标准与技术研究所(NIST)对主要厂商系统的独立基准测试表明,人脸识别技术表现出种族和性别偏见,并提出目前的人脸识别程序可能可能极不准确,误判率超过96%。
在研究过程中,研究人员使用三种不同的领先的人脸识别模型进行了实验,这些模型都是在开源数据库上训练出来的,包括VGGFace2(一个数据集,涵盖了9100多人的300多万张图像)和MS1M-ArcFace(拥有8.5万人的580多万张图像)。他们将其与四种语料库进行了基准测试,具体来说:
【情感的复合表情(The Compound Facial Expression of Emotion),其中包含230人在实验室控制环境下拍摄的照片;
扩展的Cohn-Kanade(CK+),这是训练和评估人脸表情识别系统最广泛使用的数据库之一,包含123个人的593张照片序列;
CelebA,是一个大规模的人脸属性数据集,包括1万名名人的20万张图片;
MS-Celeb-1M,微软在2016年发布的一个公开的人脸识别基准和数据集,包含100万名名人的近1,000万张图片。】
正如研究人员所指出的,像大多数机器学习模型一样,人脸识别模型需要大量的数据才能达到基准水平的准确性,所以学术界和企业长期以来一直从网络、电影和社交媒体等资源中搜罗面部照片,以解决模型训练数据稀缺的问题。
但事实证明,这些数据来源通常是不平衡的,因为一些面部表情比其他表情更不常见。例如,人们在Facebook、Twitter和Instagram上分享的快乐的面孔往往多于悲伤的面孔。
为了按表情对他们四个基准语料库中的图像进行分类,研究人员使用了Affectiva的软件,该软件可以识别多达7种面部表情:6种基本情绪加上中性的面部表情。
他们发现,在所有数据集中,“中性”图像的比例超过了60%,在MS-Celeb-1M中达到了83.7%。第二常见的面部表情是“开心”;在所有数据集中,约90%的图像显示的是一个“中性”或“开心”的人。
至于其他5种面部表情,“惊讶”和“厌恶”很少超过6%,而“悲伤”、“恐惧”和“愤怒”的代表性非常低(通常低于1%)。
结果也因性别而异。在VGGFace2中,“快乐”的女性数量几乎是“快乐”男性的两倍。
“在数据集中,某些面部表情的显著表现不足,产生了......缺点,”研究人员在一篇描述他们工作的论文中写道。“一方面,模型使用高度偏差的数据进行训练,导致异质性表现。另一方面,技术只针对主流表情进行评估,而主流表达方式隐藏了某些特定面部表情图像的真实表现......此外,性别偏见很重要,因为它可能会导致两种性别的不同表现。”
研究人员接下来进行了一项分析,以确定CelebA等示例集中的面部表情偏差可能会对人脸识别系统的预测产生多大影响。在上述三种算法中,表现出“中性”或“快乐”表情的人脸表现更好,而这些表情是训练数据库中最常见的表情。
该研究结果表明,面部表情的差异无法欺骗系统,使系统误将一个人识别为其他人。然而,他们也暗示,面部表情的偏差会导致一个系统的“真实”比较分数(衡量算法在同一张脸的图像之间的分辨能力的分数)之间的差异高达40%以上。
研究人员只使用Affectiva的软件对情绪进行分类,这可能会在他们的实验过程中引入意外的偏见,而且他们没有测试任何商业部署的系统,如亚马逊的Rekognition、谷歌云的Vision API或微软Azure的Face API。
尽管如此,他们主张在未来的人脸识别数据库中减少面部表情偏差,并进一步发展适用于现有数据库和已经在有问题的数据集上训练过的模型的偏见减少方法。
“用于开发和评估人脸识别系统的人脸数据库缺乏面部表情的多样性,除了其他缺点之外,还代表了由此产生的系统的安全漏洞,”研究人员写道。“面部表情的微小变化很容易误导围绕这些有偏见的数据库开发的人脸识别系统。面部表情会影响人脸识别系统计算出的匹配得分。这种效应可能被用作一种可能的漏洞,从而降低匹配的可能性。”