将GPT-4安全性提升26%以上，北大团队提出AI对齐新范式，能充当大模型的“补丁”-人工智能动态-人工智能实验室AiLab-中国人工智能网-Powered by AiLab.cn

将GPT-4安全性提升26%以上，北大团队提出AI对齐新范式，能充当大模型的“补丁”

来源：互联网发布日期：2024-03-12 13:47:41 浏览：5873次

导读：我们提出对齐器这种对齐新范式之后，获得了许多业界公司的广泛关注。发布仅一个月，多家科技公司已经开始使用这款对齐器的训练范式，来进行多场景的下游应用对齐任务。对齐器的模型轻量、训练高效及对大模型参数无感的特性，使其有望成为大模型对齐领域中的...

“我们提出对齐器这种对齐新范式之后，获得了许多业界公司的广泛关注。发布仅一个月，多家科技公司已经开始使用这款对齐器的训练范式，来进行多场景的下游应用对齐任务。

对齐器的模型轻量、训练高效及对大模型参数无感的特性，使其有望成为大模型对齐领域中的新的替代者。”北京大学人工智能研究院杨耀东研究员表示。

将GPT-4安全性提升26%以上，北大团队提出AI对齐新范式，能充当大模型的“补丁”

图 | 杨耀东（来源：资料图）

对齐器（Aligner），实际是一种全新的大语言模型对齐范式。这种范式基于“将未对齐答案与对齐答案之间的残差进行修正”这一洞见，具有高效性和可扩展性。

将GPT-4安全性提升26%以上，北大团队提出AI对齐新范式，能充当大模型的“补丁”

（来源：arXiv）

就应用前景来说：

其一，作为人类反馈的强化学习（RLHF，Reinforcement Learning with Human Feedback）的替代方案，对齐器充当了大语言模型的智能外挂与补叮

在目前的对齐场景中，业界和学界普遍在对话结束时，来提供人类的标注监督信号。

但是，这种稀疏的奖励机制增加了 RLHF 的不稳定性，进而增加了对齐的难度。

而对齐器通过学习修正错误的回答，确保大模型稳定、高效地输出与人类意图价值相相符的内容。

其二，对齐器是 AI 安全与治理的有效手段。轻量且高效的对齐器，能为政府和第三方机构（比如非营利组织、非政府组织）审计和监管 AI 提供潜在的可行的解决方法。

无需巨大的算力储备和和对大模型参数的访问需求，监管机构就可以实现高效的对齐，发布符合要求的对齐器。

其三，对齐器是价值对齐的执行路径。如何保持大模型等人工智能系统与人类的价值观（如公平、正义、善良等）一致，并有效应对伦理和价值问题，构成了价值对齐的主要挑战。

而对齐器为实现价值对齐提供了一个可行的方案：利用外挂的对齐模块来承载价值对齐功能，对大模型的决策和输出进行额外的“价值修正”。

将GPT-4安全性提升26%以上，北大团队提出AI对齐新范式，能充当大模型的“补丁”

（来源：arXiv）

AI 对齐中的 ResNet 时刻

据介绍，自 21 世纪以来，大规模神经网络的发展开始变得举步维艰，多层神经网络的叠加也往往以梯度爆炸、或梯度消失收尾。许多研究者倾尽计算力反复地调整架构，但始终没有取得良好的效果。

此时，ResNet 的出现如同“普罗米修斯的圣火”照亮了深度网络的训练。通过依靠残差学习的思想，在网络架构中添加残差恒等映射块，让神经网络的层数得以大规模扩展，梯度爆炸问题也由此引刃而解。

在通用模型的时代之下，随着 AI 系统的愈发强大，如何确保 AI 系统与人类的价值和意图相一致（即 AI 对齐），成为 AI 研究者的重要关心议题。

然而，当下采用的对齐方法比如 RLHF，往往存在复现难、人类奖励信号不一致、强化学习调参复杂且无法微调 API-Based 模型（例如 GPT-4/Claude）等困难。

AI 对齐研究者们基于原有的对齐范式做出了许多优化调整，包括更改架构、算法优化等，但却往往收效甚微。

在对齐领域深耕的经验，杨耀东课题组做下这样一个预判：一定存在一种高效、且能节省参数的对齐方法。

该团队认为：已有的对齐范式陷入了一个局部鞍点，即人们通过各种训练技巧，期望大模型能够生成和人类对齐的回答，满足“Helpful Harmless Honest”的 3H 标准，但是这种做法会损失模型原有的性能。

然而，换一个视角来看，让大模型修正“未对齐的回答”，比直接让大模型生成“对齐的回答”要更加容易。

不过，随之而来的问题便是：大模型具备修正回答的能力吗？

“答案是：不一定，因为现有的基于提示词的 few-short 方法一方面会对大模型的推理能力提出要求，另一方面会占用大模型宝贵的上下文空间。”

实际上，让大模型学习“从未对齐回答的分布迁移到已对齐回答的分布”，比让大模型直接学习“从问题到对已齐回答的映射”要更简单。

这其中是一种残差学习的思想，它类似于神经网络中的经典工作 ResNet 的思路。

首次将残差学习概念用于大模型对齐

为此，杨耀东团队首次将 ResNet 中残差学习的理念用于大模型对齐，提出了对齐器即一种通过学习未对齐和对齐答案间的残差，来显著优化对齐效果的高效范式。

对齐器的工作原理在于：在前置模型外挂一个模型，然后让外挂模型直接学习“未对齐回答和对齐回答”之间的修正残差。

实验中，课题组不断优化训练技巧、调整模型架构，在不同尺寸的数据集上训练了不同规模的对齐器。

一款 7B 参数的对齐器，只需经历一次训练，就能同时将 11 种大模型的帮助性和安全性平均提高 21.9% 和 23.8%。

这些模型涵盖了闭源模型、开源模型、安全性对齐模型、非安全性对齐模型。其中，这款对齐器能将 GPT-4 的帮助性提升 17.5%、无害性提升 26.9%。

研究中，该团队还测试了对齐器用于价值对齐的可能性：团队使用 Empathetic Dialogue 数据集微调了 7B 和 13B 模型的对齐器，以提高它们的共情能力。

经过微调之后，Aligner-7B 和 Aligner-13B 能将 GPT-4 输出的共情能力提升 50% 以上。

超级对齐：弱到强泛化的一种新路径

超级对齐主要解决的问题是如何让强模型向弱模型对齐。遥想未来当模型能力超过人类以后，人类该如何提供有效的监督信号。

在超对齐方面，课题组此前一直在深挖“可扩展监督”和“弱至强泛化”的阶越性实现。

令人惊喜的是，对于实现“弱到强泛化和可扩展监督”这一目标，对齐器也能提供一种更加新颖的方案。

将GPT-4安全性提升26%以上，北大团队提出AI对齐新范式，能充当大模型的“补丁”

（来源：arXiv）

总的来说，与 OpenAI 这种“直接训练巨人”的范式相比，本次提出的对齐器，好比一个“站在巨人肩膀上的监督者”，它能够基于强模型的输出进行修改，从而为强模型的训练提供更精准的标签。

日前，相关论文以《对齐器：通过弱至强校正实现有效调整》（Aligner: Achieving Efficient Alignment through Weak-to-Strong Correction）为题发在 arXiv[1]。

全文由北京大学 AI 安全与治理中心作为唯一单位完成，其中吉嘉铭、陈博远是第一作者，杨耀东担任通讯作者。

将GPT-4安全性提升26%以上，北大团队提出AI对齐新范式，能充当大模型的“补丁”

（来源： https://aligner2024.github.io）

将把对齐器用于 Sora、Pika 等文生视频大模型

在后续计划上，课题组主要有以下打算：

第一，发布轻量级及多样化版本的对齐器，例如 0.5B、1.8B、2B 模型，进一步验证修正范式在小模型上的效果。

此外，将开发基于 token-level 和 sentence-level 的对齐器，以增强模型的输出效率和推理能力。

第二，开发基于混合专家架构和流式化处理的对齐器。通过专项化训练并高效集成多个对齐器，课题组将开发流式化和混合专家架构的对齐器。

预计这种方法能够实现多维度、多价值的高效对齐，为业界和学界提供实现多重价值和需求融合的可行方案。

第三，将对齐器思想融入到训练过程中。通过将其融入前置模型架构，并针对相关参数层进行专项训练，实现局部微调和全局对齐。这种做法旨在减轻后续的对齐压力，并提高预训练模型的安全性和通用性。

第四，开发 plus 版本对齐器，包括开发针对代码、数学、音乐等领域的对齐器，并将开发个性化的定制对齐器，以满足特定用户的需求。

第五，将对齐器扩展到更多场景。随着 Pika、Sora 等大模型的流行，文生图和文生视频领域受到关注。

当前，这些模型生成的视频和图片有时仍存在物理规律不符和光暗处理不自然的问题。

通过将对齐器应用于此，可以对生成内容进行微调，提高最终输出的质量，使其更贴近真实场景。

第六，利用对齐器辅助实现可扩展监督。即将对齐器作为辅助人类提供奖励信号的助手，从而为复杂场景提供更精确的奖励监督信号，帮助解决超对齐（Super Alignment）的问题。

课题组 AI 对齐全面性综述被 NIST 引用

另据悉，该课题组多年来深挖 AI 安全与治理，致力于 AI 对齐领域的研究。深耕大模型的对齐领域，杨耀东课题组已经开源了百万级安全对齐偏好数据集 BeaverTails、大模型的安全对齐算法 SafeRLHF，相关论文分别发表在 NeurIPS 2023 和 ICLR 2024 （亮点论文），所研发的技术已被多个开源模型采纳。

同时，课题组还撰写了业内首个人工智能对齐的综述论文“AI Alignment: A Comprehensive Survey”[2]，并配套了资源网站（www.alignmentsurvey.com）。

在上述论文中，他们将 AI 对齐目标总结为 RICE 原则：鲁棒性（Robustness）、可解释性（Interpretability）、可控性（Controllability）、道德性（Ethicality），全面地概括了 AI 齐的未来方向和核心板块。

在该综述中，该团队首次提出了对齐循环的概念，将 AI 对齐分为前向对齐和后向对齐两个重要组成部分。

前向对齐，关注于从反馈中学习和在分布偏移条件下的学习，目的是通过对齐训练，初步构建出具有一定对齐性的 AI 系统。

后向对齐，则着重于全周期的对齐保障和治理，旨在对 AI 系统的对齐性进行评估和管理。此外，在后向对齐过程中获得的经验和对齐需求，也能为更新对齐目标带来帮助。

在论文“AI Alignment: A Comprehensive Survey”上线以后，美国商务部国家标准技术研究所（National Institute of Standards and Technology, NIST）在其可信赖和负责任的人工智能研究项目中，采纳了上述论文中所提出的对齐循环框架。

具体地，在 NIST 的论文《对抗性机器学习：攻击与缓解的分类和术语》（Adversarial Machine Learning: A Taxonomy and Terminology of Attacks and Mitigations）中，引用了该团队的前向对齐和后向对齐概念，阐述了 AI 对齐的核心步骤与流程。

而在未来，课题组仍将继续耕耘 AI 对齐，助力强人工智能与人类意图价值对齐研究的发展。

参考资料：

1.https://arxiv.org/abs/2402.02416

2.https://arxiv.org/abs/2310.19852

运营/排版：何晨龙

相关热词： GPT-4 安全性提升 26% 以上北大团队提出对

将GPT-4安全性提升26%以上，北大团队提出AI对齐新范式，能充当大模型的“补丁”
来源：互联网发布日期：2024-03-12 13:47:41 浏览：5873次

相关内容

AiLab云推荐

最新资讯

本月热点

热门排行

推荐内容

在线客服

热门栏目HotCates

关于我们

版权声明

将GPT-4安全性提升26%以上，北大团队提出AI对齐新范式，能充当大模型的“补丁” 来源：互联网 发布日期：2024-03-12 13:47:41 浏览：5873次

相关内容

AiLab云推荐

最新资讯

本月热点

热门排行

推荐内容

在线客服

热门栏目HotCates

关于我们

版权声明

将GPT-4安全性提升26%以上，北大团队提出AI对齐新范式，能充当大模型的“补丁”
来源：互联网发布日期：2024-03-12 13:47:41 浏览：5873次