尽管技术本身是中立的,但在人工智能(AI)的开发过程中,难免会引入一些人类的偏见。为了减少这方面的偏差,IBM 研究院刚刚打造了一套更加多样化的“百万人脸数据集”。近年来,随着智能手机的普及,面部识别已经在许多领域得到了广泛的运用。然而在一些测试中,某些看似很优秀的 AI,竟然也会败下阵来。
(图自:IBM Research)
鉴于不少情况与某些肤色或年龄相关,IBM 研究院希望进一步消除这方面的偏差。
显然,这是一个多层次的问题,很大程度上归咎于 开发 人员和创建者没有深思熟虑。
此外,如果没有包罗万象的人脸数据集,AI 也难免在训练过程中有失偏颇。
凭借全新的“百万多样性人脸数据集”,AI 开发者将能够充分考虑到多样性的面部特征(DiF)。论文解释称:
为使面部识别能够按照要求执行(既公平又准确),训练用的数据,必须提供足够的平衡和覆盖。
它应该足够大、且多样化,以便了解更多类型的面部固有差异。图像必须反映我们在世界中看到的面部特征的多样性。
据悉,这批面孔来自一套更加庞大的 1 亿图像数据集(Flickr 创作共用)。
通过运行另一套机器学习系统,并找到尽可能多的到面孔。然后将它们隔离并裁剪,再开始真正的工作。
这些集合可被其它机器学习算法所摄取,因此需要多样化、且准确的标记。
(图自:IBM Research)
DiF 数据集中包含了一百万张面孔,且每个都附有元数据,以描述眼间距和额头等特征。
结合上述多种措施,系统可用于匹配图像与个人的‘面部印记’,但仍需考虑算法是否对某个种族群体是否合适。
有鉴于此,IBM 团队整理了一套修订版本,不仅包括了简单的内容,还描述了各措施之间的关联 —— 比如眼睛上方和鼻子下方区域的比例、肤色、对比度、以及着色类型。
此外,用户的年龄也可被自动估计。人们被要求标记男性或女性的面部,并猜测其年龄。
当然,这里肯定会存在一定的偏差,但与其它任何公开的面部识别训练数据集相比,所有这些都可以在更广义的尺度上去理解。
带领这项研究的 IBM 研究员 John R. Smith 在一封电子邮件中称:
在文化和生物学上,种族之间的界限并不明显。我们选择专注于能够可靠测定的编码方案,为多样性分析提供一定规模的支持。