曹建峰腾讯研究院高级研究员
原文标题为《大模型背景下的人机对齐》,刊发在《中国社会科学报》
随着人工智能大模型的能力日益强大,如何让其行为和目标同人类的价值、偏好、意图之间实现协调一致,即人机对齐(human-AI alignment)问题,变得越发重要。
目前,人机对齐已成为人工智能领域的重要发展方向。在大模型加速发展引发了有效加速(e/acc)还是有效对齐(e/a)的发展理念之争的背景下,人们需要更加负责任地发展与应用人工智能技术,而人机对齐(包括人工智能价值对齐)方面的技术演进和治理探索,将推动人工智能领域的负责任创新,使人类与人工智能走向和谐共存、有效协作的美好未来。
重要性与必要性近年来,随着大模型的加速发展,相关的人工智能安全风险和控制问题引发了全球关注。以大模型为代表的新兴技术,不断推动人工智能迈向新的前沿。但这也在一定程度上引发了人们对人工智能未来可能导致极端风险的担忧。除了重要数据及隐私泄露、算法歧视及不透明、虚假信息等伦理问题,未来更加强大且通用的人工智能模型是否可能导致灾难性风险或极端风险的问题也受到了更多关注。具体而言,不同于以往的任何技术,当前以及未来的人工智能技术主要会在三个核心维度给个人和社会带来新的风险与挑战。
一是决策让渡风险。在经济社会活动维度,人工智能和机器人会在越来越多的人类事务中辅助甚至替代人类进行决策,这种决策让渡会带来新的风险,如技术性失业、人工智能安全等。甚至还需要考虑有一些决策和人类事务是否应外包给人工智能。
二是情感替代风险。在人际/人机关系维度,人工智能和机器人已经并将持续深度介入人类情感领域,给人们提供情感陪伴价值,但却可能影响到人际交往,产生情感替代风险,导致人与人之间的真实联系被削弱甚至被取代。这种新型人机关系的伦理边界应如何确定?一个重要的原则是,人机交互必须促进人类联系和社会团结真实的人类联系在智能时代将是弥足珍贵的。
三是人类增强风险。在人类自身发展维度,人工智能、脑机接口等技术可能推动人类社会进入所谓的“后人类时代”。此类技术或被用于增强、改造人类自身,未来人机深度融合后,人的身体、大脑、智力等都有可能被人工智能改造,届时人会变成什么?这种人类增强是否会带来新形式的人类不平等?在这几个维度之外,还有技术滥用、恶用的风险(如深度伪造技术的恶性使用),人工智能消耗大量能源对环境和可持续发展的挑战,人工智能技术失控、威胁人类生存等灾难性风险(以及由此引发的加速派与对齐派的发展理念分歧),等等。因此,人工智能领域的负责任创新变得越发重要且必要。
在此背景下,随着大模型能力的持续提升以及日益通用化,如何让大模型的行为和目标与人类的价值、偏好、伦理道德、意图和目标等相一致,成为大模型发展的重要内容。人机对齐是人工智能安全和伦理领域的一个新概念,其主要目的是将人工智能大模型打造成安全、真诚、有用、无害的智能助手,避免在与人的交互过程中造成潜在的负面影响或危害,如输出有害内容、带来幻觉、造成歧视等。要而言之,人机对齐包含双重含义,一方面是人工智能对齐人类,主要涉及创建安全、符合伦理的人工智能系统;另一方面是人类对齐人工智能,核心是确保人们负责任地使用、部署人工智能系统。
在大模型背景下,人机对齐对于确保人类与人工智能交互过程中的安全与信任至关重要。现在的聊天机器人等大模型应用之所以能够游刃有余地应对用户的各种提问,而不至于产生太大负面影响,在很大程度上归功于人机对齐方面的技术和治理实践。可以说,人机对齐是大模型可用性和安全性的重要基础和必要保障。
实现路径在实践中,目前产业界将人机对齐作为人工智能大模型安全治理的重要思路,并在技术上取得了可观的效果,很大程度上保障了大模型开发、部署和使用中的安全与信任。人机对齐是大模型开发和训练过程中的一个重要环节,在技术上目前主要有两种人机对齐方法:
一种是自下而上的思路,即人类反馈强化学习的对齐方法,需要用价值对齐的数据集对模型进行精调,并由人类训练员对模型的输出进行评分,以便通过强化学习让模型学习人类的价值和偏好。在技术上,人类反馈的强化学习包括初始模型训练、收集人类反馈、强化学习、迭代过程等步骤。
另一种是自上而下的思路,即原则型人工智能的对齐方法,核心是把一套伦理原则输入给模型,并通过技术方法让模型对自己的输出进行判断或评分,以使其输出符合这些原则。例如,OpenAI公司采取了人类反馈强化学习的对齐方法,Anthropic公司采取了原则型人工智能的对齐方法。这些人机对齐方法殊途同归,都致力于将大模型打造成为安全、真诚、有用、无害的智能助手。
此外,产业界还在探索对抗测试(如红队测试)、模型安全评估、可解释人工智能方法、伦理审查、第三方服务等多元化的安全和治理措施,共同保障人工智能领域的负责任创新。此外,值得一提的是,对于可能具有灾难性风险的人工智能模型和将来可能出现的超级人工智能,一些人工智能企业在探索专门的安全机制(如OpenAI的“预备”团队、Anthropic公司的负责任扩展政策),其核心思路是对新研发的更先进模型进行系统性评估,只有在模型的风险低于一定的安全风险阈值时才会对外推出,否则将暂缓推出直至安全风险得到缓解。人工智能企业通过在人机对齐上的相关探索和举措,可以建立起人工智能产品的市场竞争力,同时这些企业将人机对齐作为保障未来更强大的人工智能模型安全、有益的核心要素,积极开展前沿探索。
可以说,包括人工智能价值对齐在内的人机对齐理念和实践,是当前人工智能大模型发展应用的必由之路,可以帮助解决人工智能大模型商业应用过程中面临的很多难题。通过人机对齐的理念和实践,人工智能开发者可以构建更加安全、有用、可信且符合伦理的人工智能系统。可以预见,未来人工智能大模型会在更多场景中辅助人类甚至替代人类,人机对齐将是当前和未来的人工智能大模型以及未来可能出现的通用人工智能的必由之路。这既关乎信任,也关乎控制,更关乎未来人工智能的安全发展,因为人机对齐对于应对未来更加强大的人工智能模型的涌现风险至关重要。
总之,考虑到人机对齐在解决大模型的安全和信任问题上所扮演的重要角色实现安全与创新的有效平衡,人工智能领域的相关政策需要积极支持与鼓励探索大模型领域人机对齐的技术手段和管理措施,推动形成政策指南、行业标准、技术规范等,以保障人工智能的向善发展。