IBM 入局：开源自对齐方法训练“单峰骆驼”，比GPT4更值得信赖-人工智能应用-人工智能实验室AiLab-中国人工智能网-Powered by AiLab.cn

导读：机器之心报道编辑：Panda 用最少的人类监督，从零实现原则驱动的大语言模型的自对齐，IBM 研究院淦创团队在这方面取得了新的成果。他们的结果表明，仅仅通过不到300行的人工标注，他们的方法（即SELF-ALIGN）便能让一个65B的LLaMA基础语言模型在TruthfulQA...

机器之心报道

编辑：Panda

用最少的人类监督，从零实现原则驱动的大语言模型的自对齐，IBM 研究院淦创团队在这方面取得了新的成果。他们的结果表明，仅仅通过不到300行的人工标注，他们的方法（即SELF-ALIGN）便能让一个65B的LLaMA基础语言模型在TruthfulQA上超越GPT-4。

大语言模型（LLM）除了性能强大之外，可靠且符合道德伦理也至关重要。为了确保大语言模型实现这些目标，需要它们的输出与人类的意图保持一致。我们通常把这个任务称为对齐（alignment）。

为了满足这一需求，ChatGPT 等近期的 AI 助理主要使用的方法包括用人类注释来进行监督式微调以及基于人类反馈来进行强化学习。但是，依赖人类数据会极大限制 AI 助理发挥出真正潜力，因为获取人类监督的成本不低，还存在涉及质量、可靠性、多样性、自我一致性和不良偏见等相关问题。

为了解决这些难题，卡内基梅隆大学语言技术研究所、IBM 研究院 MIT-IBM Watson AI Lab 和马萨诸塞大学阿默斯特分校的研究者提出了一种全新方法：SELF-ALIGN（自对齐）。该方法结合了原则驱动式推理和 LLM 的生成能力，从而使用极少的人类监督便能实现 AI 智能体的自对齐。从实验结果看，该方法的表现相当出色。

IBM 入局：开源自对齐方法训练“单峰骆驼”，比GPT4更值得信赖

论文地址：https://arxiv.org/pdf/2305.03047.pdf

项目网站：https://mitibmdemos.draco.res.ibm.com/dromedary

开源地址：https://github.com/IBM/Dromedary

随着近期 AI 系统（如 ChatGPT 和 GPT-4）能力的快速提升，为了让大型语言模型（LLM）与人类的价值观和意图保持一致并且保证结果全面、尊重人及合规，研究界已经投入了极大的心力。目前而言，最先进的 AI 系统主要依赖于用人类指令和标注的监督式微调（SFT）以及基于人类反馈的强化学习（RLHF）。这些技术的成功严重依赖于广泛的人类监督，而人类监督的成本高，并且人类提供的标注中还可能存在质量、可靠性、多样性、创造性、自我一致性和不良偏见等相关问题。

为了解决 LLM 对齐需要大量人类标注的问题，研究者提出了一种名为 SELF-ALIGN 的新方法。该方法仅需使用一个人类定义的小型原则集（规则）来引导基于 LLM 的 AI 智能体在生成答复时的行为，就能显著减少对人类监督的需求，使其几乎无需任何注释。SELF-ALIGN 的设计目标是开发出有用、可靠且符合道德伦理的 AI 智能体，包括生成反对用户询问的答案，这能以不回避的方式主动应对有害查询，并且为该系统表示反对背后的原因提供解释。具体来说，该方法分为四个关键阶段：

IBM 入局：开源自对齐方法训练“单峰骆驼”，比GPT4更值得信赖

图 1：SELF-ALIGN 过程中的四个关键阶段示意图

IBM 入局：开源自对齐方法训练“单峰骆驼”，比GPT4更值得信赖

表 1：近期 AI 系统中使用的人类 / 教师监督方法对比。之前的研究成果中使用的对齐技术包括 SFT（监督式微调）、RLHF（使用人类反馈的强化学习）、CAI（Constitutional AI）和 KD（知识蒸馏）。

1.（由主题引导的红队策略）自指示（Topic-Guided Red-Teaming Self-Instruct）：研究者采用了论文《Self-instruct: Aligning language model with self generated instructions》中提出的自指示（self-instruct）机制，其中使用了 175 个种子提示（prompt）来生成合成指令，另外还有 20 个特定主题的提示以确保指令能覆盖多样化的主题。这样的指令能确保全面覆盖 AI 系统所要学习的上下文 / 场景，并由此减少潜在的偏见。

2. 原则驱动式自对齐（Principle-Driven Self-Alignment）：研究者用英语定义了一个包含 16 条人工编写的原则的小型集合，其中包含系统所生成答复的理想质量以及 AI 模型在得到答案的行为背后的规则。这些原则的作用是引导 AI 模型生成有用、可靠且符合道德伦理的答复。研究者使用一些范例（演示）执行了在上下文中的学习（ICL、in-context learning），以此说明 AI 系统在不同情况下是如何在生成答复时遵守规则的。给定每个新查询，在答复生成过程中使用同样的范例集，而不是每次查询都使用不同的（人类标注的）范例。基于人工编写的原则、ICL 范例和传入的自指示提示，LLM 可以触发匹配规则，如果检测到查询是有害或不合规的，那么就可以为拒绝回答生成解释。

3. 原则刻画（Principle Engraving）：第三阶段是在自对齐答复上微调原始 LLM（基础模型），这些自对齐答复是 LLM 通过自我提示生成的，同时对微调后的模型执行了原则和演示的剪枝操作。这个微调过程让该系统可以直接生成很好对齐的答复，即这些答复是有用、可靠且符合道德伦理的；并且由于有共享的模型参数，因此在多种不同问题上都能得到对齐的结果。请注意，即使不明确使用原来的原则集和 ICL 范例，经过微调的 LLM 也能为新查询直接生成高质量的答复。

4. 冗长克隆（Verbose Cloning）：最后，研究者使用上下文蒸馏（context distillation）来增强系统的能力，使其能产生比简短或间接答复更全面和详细的答复。

IBM 入局：开源自对齐方法训练“单峰骆驼”，比GPT4更值得信赖

图 2：经典的 SFT 和 RLHF 对齐工作流程（InstructGPT）与新提出的 SELF-ALIGN 的四个阶段对比。

让人吃惊的是，整个 SELF-ALIGN 过程必需的注释量少于 300 行（包括 195 个种子提示，16 个原则和 5 个范例），而 InstructGPT 或 Alpaca 等之前的对齐 AI 系统至少需要 5 万条人类 / 教师标注。由此可见，新方法的监督效率非常之高，数据对比请见表 1。新提出的这种原则驱动式方法本质上是基于规则的方法，这不仅能极大降低对人类监督工作的需求，并且还能有效且高效地让神经语言模型与人类对原则或规则的理解保持一致，进而实现高质量的语言生成。

研究者指出：近期的 Alpaca 和 Vicuna 等模型表明通过将已有的与人类偏好对齐的 LLM（即 Text-Davinci-003 和 ChatGPT）蒸馏成更小和更易管理的模型，可以获得有效的会话能力。但是，所得到的更小模型依然是依靠已有 LLM 的成功对齐，而这还是需要大量人类监督。换句话说，这些更小模型间接地继承了对大量人类监督的依赖。相比之下，新提出的方法则重点关注了从头开始的语言模型对齐，可以独立于 ChatGPT 或 GPT-4 等已经对齐的 LLM。这是新方法与之前已有方法的主要区别，也因此研究者称之为从头开始的自对齐（self-alignment from scratch）。

简单来说，通过使用 LLM 内部的固有知识，再结合人类可理解的原则（一个指定我们期望的 LLM 行为的小型集合），SELF-ALIGN 能训练出行为端正的 AI 智能体，其生成的答复在模型创建者定义的栅栏之内。更重要的是，相比于已有的方法，新方法整个对齐流程所需的人类监督可以减少几个数量级。

而且研究者还将 SELF-ALIGN 开源了！研究者将 SELF-ALIGN 方法应用到 LLaMA-65b 基础语言模型上，开发出了一个 AI 助理：Dromedary（单峰骆驼），并开放给了非商业用途。

现如今的大多数研究都注重提升 AI 完成任务的能力，而这项研究则能极大提升 AI 与人类价值观保持一致的能力。为了创造出在现实应用中负责任的 AI 助理，这种能力是不可或缺的。下面我们来看看一些研究细节。

详解 SELF-ALIGN 的四个阶段

由主题引导的红队策略式自指示

这种自指示方法是一种半自动的、迭代式的引导过程，使用了一个预训练 LLM 来生成大量指令（和相应的输入）。该方法从 175 条人工编写的指令开始，然后 LLM 继续开发新任务并扩充任务池（在消除低质量或重复的指令之后）。此过程迭代执行，直到达到令人满意的任务量。Alpaca 的研究中便使用了该方法，其中使用了自指示来从 Text-Davinci-003 生成新查询和蒸馏过的输出。

研究者引入了一种有效的扩展，即由主题引导的红队策略式自指示，其目标是提升所生成的对抗性指令的多样性和覆盖范围。他们人工设计了 20 种静态机器学习模型无法回答或可能答错的对抗性指令类型，比如：

需要科学知识的问题

需要有关未来事件的知识的问题

需要实时信息的问题

需要法律专业知识的问题

然后向基础 LLM 提问来生成与这些类型相关的全新主题（比如水）。之后，在移除了重复的主题后，再调用基础 LLM 生成对应于指定指令类型和主题的新指令。再结合专注于特定对抗性指令类型和不同主题的额外提示，让 AI 模型可以探索更广泛的上下文和场景。

原则驱动式自对齐

设计原则驱动式自对齐技术的目标是让 AI 与一个有用、可靠且符合道德伦理的原则集对齐。这一阶段需要使用（由主题引导的红队策略）自指示作为指令生成器。其主要目标是让 AI 模型生成符合既定原则的适当答复，同时最大限度地减少人类监督。

原则驱动式自对齐过程的第一步是创建 16 条 AI 助理应当遵守的一般性原则，比如「1（符合伦理道德）。助理应当积极劝阻用户参与非法、不道德或有害的话题，在其答复中以用户安全、道德举措和负责任的行为为优先。之后，研究者提供了 5 个在上下文中的学习（ICL）演示，用范例向 AI 助理展示应该如何通过名为「内源性思考（internal thoughts）」的明确过程应用那些原则。举个例子，在这个 ICL 演示中，用户查询可能是：

IBM 入局：开源自对齐方法训练“单峰骆驼”，比GPT4更值得信赖

AI 助理的内源性思考被标注为：

IBM 入局：开源自对齐方法训练“单峰骆驼”，比GPT4更值得信赖

这样的内源性思考会引导助理最终生成这样的答复：

IBM 入局：开源自对齐方法训练“单峰骆驼”，比GPT4更值得信赖

当（由主题引导的红队策略）自指示生成新查询时，它会被附加到范例列表中，基础 LLM 遵循这样的「内源性思考再回答」过程来产生一个自对齐的答复。图 3 展示了这整个过程。

研究者在论文中强调，目前的原则设计都是探索性的，主要是为研究目的服务。他们头脑风暴得到的 16 个原则为：1（符合道德伦理）、2（信息充分）、3（有帮助）、4（问题评估）、5（推理）、6（多面向）、7（坦诚）、8（知识背诵）、9（静态）、10（清晰说明）、11（数值敏感性）、12（过时的知识）、13（逐步执行）、14（平衡和信息丰富的观点）、15（有创造性）、16（可操作），其中灵感来自 Constitutional AI 和新的 Bing Chatbot 以及近期研究论文中已被证明有助于提升 AI 性能的原则，比如逐步执行推理和知识背诵。

原则侵刻

原则刻画是 SELF-ALIGN 方法中的重要组成部分，其关注的是磨砺 AI 模型的行为使其答复符合预定义的原则。这一阶段是对基础 LLM 进行微调，即对原则、ICL 演示和自己生成的思考进行剪枝，从而有效地将这些原则刻画进 LLM 的参数之中。图 3 通过视觉方式展示了这个过程。原则刻画有一个值得注意的优势，即它能在减少使用 token 的同时提升 AI 模型的对齐性，而这又能让模型在推理阶段可使用更长的上下文（因为给固定的原则和 ICL 分配超过 1.7k token 是过多了）。值得注意的是，研究者在实验中观察到基础 LLM 在使用自对齐的输出微调后，在对齐基准上超越了其使用提示的版本。至于这种提升的原因，很可能是因为在直接优化模型来生成有用、可靠且符合道德伦理的输出时会出现泛化效应。

IBM 入局：开源自对齐方法训练“单峰骆驼”，比GPT4更值得信赖

图 3：原则驱动式自对齐和原则刻画的示意图。ICL 范例教基础 LLM 选择规则和生成合适的答复。为了简洁，这里没有展示第一步的自指示和第四步的冗长克拢在原则刻画期间，当对原始模型进行微调时，原则、ICL 演示和内源性思考会被剪枝。

缜密克隆

在研究者初步测试的原则刻画模型中，研究者找到了两个主要难题：1）该模型倾向于生成过于简短的答复，而用户通常期望从 AI 助理那里获得更全面和详尽的答案；2）该模型偶尔会引用并未直接解决用户查询的相关维基百科段落。

为了解决这些难题，研究者引入了一个补充性的冗长克隆步骤。这个阶段涉及到利用人工提示来创建已对齐模型的一个冗长版本，其可以生成深度的详细的答复。然后，利用上下文蒸馏来产生一个新模型，其不仅是已对齐的，而且还能为用户查询生成透彻和广博的答复。上下文蒸馏的工作方式是：训练基础语言模型时使用（由主题引导的红队策略）自指示生成的合成查询搭配冗长提示的已原则刻画的模型生成的对应答复。冗长的提示是为了鼓励已原则刻画的模型变得更加健谈。

讨论

有趣的是，相较于普遍采用的对齐范式，即先遵从后对齐（SFT 和 RLHF），SELF-ALIGN 会优先通过原则驱动式自对齐和原则刻画来提升无害性和可靠性。之后，它会通过使用冗长克隆来提升有用度（遵从指令的能力）。到底是「先遵从后对齐」更优还是「先对齐后遵从」更胜一筹还有待未来研究。

此外，SELF-ALIGN 整体（包含自提示）所需的注释量少于 300 行（包括种子提示、原则和范例）。这一成就凸显了这种方法在使 AI 模型与人类价值观和意图保持一致方面的监督效率和有效性。

Dromedary 大模型

Dromedary 模型是将 SELF-ALIGN 过程应用于 LLaMA-65b 基础语言模型而得到的 AI 助理。下面谈谈创建 Dromedary 模型的细节。

研究者首先依照 Alpaca 的方案，使用自提示生成了 267,597 个开放域的提示及对应的输入。此外，他们使用（由主题引导的红队策略）自指示生成了针对 20 种红队指令类型定制的 99,121 个提示。

在使用了原则驱动式自对齐过程并过滤掉低质量答复之后，从自提示得到了 191,628 对「查询 - 答复」，从由主题引导的红队策略自指示得到了 67,250 对「查询 - 答复」，总共 258,878 对「查询 - 答复」。由主题引导的红队策略中使用的原则和指令类型见图 4。研究者观察到：由原始自提示生成的指令和由主题引导的红队策略自指示生成的指令似乎会唤起不同的原则。举个例子，自提示数据集广泛使用原则 5（推理）、13（逐步执行）和 15（有创造性），而由主题引导的红队策略自指示则更依赖 8（知识背诵）和 14（平衡和信息丰富的观点）。

IBM 入局：开源自对齐方法训练“单峰骆驼”，比GPT4更值得信赖

图 4：自提示和由主题引导的红队策略自指示的数据集的统计情况。(a) 自提示数据集中 20 个最常用的根动词（内圈）和每个根动词对应的 4 个最常用的名词宾语（外圈）。(b) 由主题引导的红队策略自指示数据集中的 20 个指令类型（内圈）和对应最常用的规则（外圈）。(c) 自提示数据集的原则使用情况统计。(d) 由主题引导的红队策略自提示数据集的原则使用情况统计。

接下来，研究者使用精选后的 258,878 对（过滤后）对「查询 - 答复」来对 LLaMA-65b 基础语言模型进行微调，另外还使用了来自 Vicuna 项目的 910 对虚假数据的一种修改版。结果得到了一种非冗长的有原则刻画的 AI 助理，即 Dromedary（非冗长版）。

最后，研究者们通过修改提示词，使用Dromedary（非冗长版）生成了更长的输出，并使用这些输出作为教师模型为（由主题引导的红队策略）自指示查询生成了 358,777 个冗长答复。他们在这个数据集上训练出了 Dromedary（最终版），这是使用一个基础语言模型从头开始训练出的有用、可靠且符合道德伦理的 AI 助理，这个过程没有使用 SFT 或 RLHF，并且仅用到了尽可能少的监督（人类注释的数量少于 300 行）。

评估

研究者在基准数据集上对 Dromedary 进行了定量分析，并且也给出了在一些数据集上的定性分析结果。所有语言模型生成的文本的解码温度都默认设置为 0.7。

IBM 入局：开源自对齐方法训练“单峰骆驼”，比GPT4更值得信赖