我们可能需要摆脱人类思维的局限性
1956年夏天,10名科学家在达特茅斯学院会面,并发明了人工智能。来自数学、工程、心理学、经济学和政治学等领域的研究人员聚集在一起,看看人工智能能否如此准确地描述学习和人类思维,以便用机器复制。仅仅十年后,这些科学家为机器人学、自然语言处理和计算机视觉的戏剧性突破做出了贡献。
尽管自那以后已经过去了很多时间,但机器人学、自然语言处理和计算机视觉仍然是迄今为止最热门的研究领域之一。可以说,我们专注于教人工智能像人一样移动,像人一样说话,像人一样看。
这样做的理由很清楚:有了人工智能,我们希望机器可以像人一样行为、阅读法律合同或购买东西等任务。我们希望这些任务比人类更快、更安全、更彻底地完成。这样,当机器承担我们生活中无聊的任务时,人类将有更多的时间进行有趣的活动。
然而,研究人员越来越认识到,人工智能在模仿人类思维时,可能会遗传人类偏见。这个问题体现在亚马逊的招聘算法和美国政府的COMPAS算法中,前者以歧视妇女而闻名,后者不成比例地惩罚黑人。无数其他例子进一步说明了人工智能中的偏见问题。
在这两种情况下,问题都始于一个有缺陷的数据集。亚马逊的大多数员工都是男性,许多被监禁的人都是黑人。尽管这些统计数据是普遍存在的文化偏见的结果,但该算法无法知道这一点。相反,它得出结论,它应该复制它提供的数据,这加剧了数据中包含的偏见。
手动修复可以消除这些偏见,但它们带有风险。如果不正确实施,善意的修复可能会使一些偏见变得更糟,甚至引入新的偏见。然而,人工智能算法的最新发展使这些偏见越来越不重要。工程师应该接受这些新发现。新方法限制了偏见污染结果的风险,无论是来自数据集还是工程师本身。此外,新兴技术意味着工程师自己需要减少对人工智能的干扰,消除更无聊和重复的任务。
当人类知识成为王者时
想象一下以下场景:您有一组来自不同行各业的人,跟踪他们是否感染了新冠病毒。无论是医生、护士还是药剂师,人类都输入了COVID/无COVID标签。医疗保健提供商可能有兴趣预测新条目是否可能已经感染了新冠病毒。
监督机器学习在解决此类问题时非常有用。算法可以吸收所有数据,并开始了解不同的变量,如一个人的职业、总收入、家庭状况、种族或邮政编码,如何影响他们是否感染了疾玻例如,该算法可以估计三名来自纽约孩子的拉丁裔护士已经感染新冠病毒的可能性。因此,她的疫苗接种日期或保险费可能会被调整,以便通过有效分配有限的资源来拯救更多生命。
这个过程乍一看听起来非常有用,但有陷阱。例如,医疗保健提供商可能给数据点贴错了标签,导致数据集错误,并最终导致不可靠的结论。这种类型的错误在上述就业市场和监禁系统中尤其具有破坏性。
监督机器学习似乎是解决许多问题的理想方法。但人类太参与数据制作过程了,以至于无法使其成为灵丹妙药。在一个仍然遭受种族和性别不平等的世界里,人类偏见普遍存在,具有破坏性。依赖如此多的人类参与的人工智能总是有纳入这些偏见的风险。
当数据是王者时
幸运的是,还有另一种解决方案可以抛开人造标签,只处理至少在某种程度上客观的数据。在COVID预测器的例子中,消除人造COVID/无COVID标签可能是有意义的。首先,由于人为错误,数据可能是错误的。另一个主要问题是数据可能不完整。社会经济地位较低的人获得诊断资源的机会往往较少,这意味着他们可能已经感染了新冠病毒,但从未检测呈阳性。这种缺失可能会使数据集倾斜。
因此,为了使结果对保险公司或疫苗供应商来说更可靠,消除标签可能是有用的。现在,一个不受监督的机器学习模型将进行集群,例如按邮政编码或个人职业进行集群。这样,一个人可以得到几个不同的组。然后,模型可以轻松地为其中一个组分配一个新条目。
之后,您可以将这些分组数据与其他更可靠的数据相匹配,如地理区域或专业内的超额死亡率。这样,人们就有可能知道某人是否感染了新冠病毒,无论有些人可能比其他人更容易获得检测。
当然,这仍然需要一些手工工作,因为数据科学家需要将分组数据与超额死亡率数据匹配起来。尽管如此,对保险公司或疫苗供应商来说,结果可能要可靠得多。
送机器去赏金狩猎
同样,这一切都很好,但你仍然把固定疫苗数据或保险单留给过程另一端的人。就疫苗而言,负责人可能会决定稍后为有色人种接种疫苗,因为他们往往较少使用医疗保健系统,从而降低医院生病时超车的可能性。不用说,这将是一项基于种族主义假设的不公平政策。
让决策权由机器决定可以帮助规避决策者根深蒂固的偏见。这是强化学习背后的概念。您提供的数据集与以前相同,没有人造标签,因为它们可能会扭曲结果。您还向它提供了一些关于保险单或疫苗如何工作的信息。最后,您选择几个关键目标,如不过度使用医院资源、社会公平等。
在强化学习中,如果机器找到符合关键目标的保险单或疫苗日期,它将获得奖励。通过对数据集的培训,它找到了优化这些目标的政策或疫苗日期。
这一进程进一步消除了人工数据输入或决策的必要性。虽然它仍然远非完美,但这种模式不仅可以更快、更容易地做出重要决定,还可以更公平、更自由地摆脱人类偏见。
进一步减少人类偏见
任何数据科学家都会告诉你,并非所有机器学习模型无论是监督的、非监督的还是强化的都非常适合每个问题。例如,保险公司可能希望获得一个人是否感染了新冠病毒的概率,但希望自己制定保单。这改变了问题,使强化学习变得不合适。
幸运的是,即使对模型的选择有限,也有几种常见的做法在很大程度上有助于实现公正的结果。这些大多根植于数据集。
首先,当您有理由怀疑特定数据点可能受到现有不平等的不当影响时,盲目不可靠的数据是明智的。例如,由于我们知道COVID/无COVID标签可能出于各种原因不准确,将其排除在外可能会导致更准确的结果。
然而,这种策略不应该与令人眼花缭乱的敏感数据相混淆。例如,人们可以选择盲目种族数据,以避免歧视。然而,这可能弊大于利,因为机器可能会学习一些邮政编码和保险单的知识。在许多情况下,邮政编码与种族密切相关。结果是,一名来自纽约的拉丁裔护士和一名来自俄亥俄州的白人护士,他们拥有原本相同的数据,最终可能会获得不同的保险单,这最终可能会不公平。
为了确保这种情况不会发生,你可以为比赛数据添加权重。机器学习模型可能会很快得出结论,拉丁裔人感染新冠病毒的频率更高。因此,它可能会要求这部分人口提供更高的保险费,以补偿这一风险。通过给予拉丁裔比白人稍微好一点的体重,我们可以赔偿,以至于拉丁裔和一名白人护士最终确实得到了相同的保险单。
然而,人们应该谨慎使用加权方法,因为它很容易为小组倾斜结果。例如,想象一下,在我们的新冠病毒数据集中,只有少数美洲原住民。碰巧,所有这些美洲原住民碰巧都是出租车司机。该模型可能在数据集的其他地方就出租车司机及其最佳医疗保险得出了一些结论。如果对美洲原住民的重量被夸大了,那么新的美洲原住民最终可能会获得出租车司机的政策,尽管他们可能有不同的职业。
手动消除不完美模型中的偏见极其棘手,需要大量的测试、常识和人类体面。此外,这只是一个临时解决方案。从长远来看,我们应该放下人类的干预和随之而来的偏见。相反,我们应该接受这样一个事实,即如果机器独自一人,有正确的目标,它们就不会像人类那么可怕和不公平。
以人为本的人工智能很棒,但我们不应该忘记人类有缺陷
让人工智能像人一样移动、说话和思考是一个光荣的目标。但人类也说和想可怕的事情,特别是对弱势群体。让一组人类数据科学家过滤掉人类偏见和无知的所有来源是一项太大的任务,特别是如果团队本身不够多样化的话。
另一方面,机器并没有在一个种族和经济差异的社会中成长起来。他们只是拿任何可用的数据,并做任何他们应该做的事情。当然,如果数据集不好或有缺陷的人类干预太多,它们可能会产生不良产出。但数据集中的许多缺陷可以通过更好的模型来弥补。
在这个时候,人工智能是强大的,但仍然经常带有人类偏见。以人为本的人工智能不会消失,因为人工智能可以夺走人类之手的平凡任务太多。但我们不应该忘记,如果我们离开机器去做他们的事情,我们通常可以取得更好的结果。