“深思熟虑”的 AI：OpenAI 提出全新安全对齐方法-企业新闻-人工智能实验室AiLab-中国人工智能网-Powered by AiLab.cn

“深思熟虑”的 AI：OpenAI 提出全新安全对齐方法

来源：互联网发布日期：2024-12-25 19:43:37 浏览：364次

导读：IT之家 12 月 25 日消息，OpenAI 的研究人员提出了一种名为“深思熟虑的对齐”（Deliberative Alignment）的新方法，以提升 AI 模型安全性，并已在 o 系列模型中取得显著成效。项目背景如何确保大语言模型（LLMs）遵守明确的道德和安全准则，目前存在诸多挑战。监督微调（SFT）和来自人类反馈的强化学习（RLHF）等现有对齐技术都存在局限性，有被操纵的风险，可能会产生有害内 ......

IT之家 12 月 25 日消息，OpenAI 的研究人员提出了一种名为“深思熟虑的对齐”（Deliberative Alignment）的新方法，以提升 AI 模型安全性，并已在 o 系列模型中取得显著成效。

项目背景如何确保大语言模型（LLMs）遵守明确的道德和安全准则，目前存在诸多挑战。监督微调（SFT）和来自人类反馈的强化学习（RLHF）等现有对齐技术都存在局限性，有被操纵的风险，可能会产生有害内容、拒绝合法请求或难以处理不熟悉的场景等问题。

这些问题通常源于当前安全培训的弊端，也就是模型从数据间接推断标准，而非明确地学习，通常缺乏考虑复杂提示的能力，从而限制了它们在微妙或对抗性情况下的有效性。

深思熟虑的对齐（Deliberative Alignment）IT之家注：该方法直接教授模型安全规范，并训练它们在生成响应之前推理这些准则进，将安全原则融入推理过程中。

“深思熟虑”的 AI：OpenAI 提出全新安全对齐方法

整个过程分为两个阶段，第一阶段，监督微调（SFT）训练模型参考并推理安全规范，使用从基础模型生成的数据集。第二阶段，强化学习（RL）使用奖励模型，根据安全基准评估性能，进一步完善模型的推理。

不同于依赖人工标注数据的方法，“深思熟虑的对齐”使用模型生成的数据和思维链（CoT）推理，降低了安全训练的资源需求。

OpenAI 的 o1 模型已部署该技术，在抵抗越狱提示方面表现出色，在 StrongREJECT 基准测试中得分为 0.88，显著高于 GPT-4o 的 0.37；此外该技术还可以减少误拒，在 XSTest 数据集的良性提示中，o1 模型的准确率高达 93%。

“深思熟虑”的 AI：OpenAI 提出全新安全对齐方法

“深思熟虑的对齐”通过训练模型明确推理安全策略，它为复杂的伦理挑战提供了可扩展且可解释的解决方案。

“深思熟虑”的 AI：OpenAI 提出全新安全对齐方法

参考

相关热词： openai 深思熟虑的对齐 alignment 模型安全性

“深思熟虑”的 AI：OpenAI 提出全新安全对齐方法
来源：互联网发布日期：2024-12-25 19:43:37 浏览：364次

相关内容

AiLab云推荐

最新资讯

本月热点

热门排行

推荐内容

在线客服

热门栏目HotCates

关于我们

版权声明

“深思熟虑”的 AI：OpenAI 提出全新安全对齐方法 来源：互联网 发布日期：2024-12-25 19:43:37 浏览：364次

相关内容

AiLab云推荐

最新资讯

本月热点

热门排行

推荐内容

在线客服

热门栏目HotCates

关于我们

版权声明

“深思熟虑”的 AI：OpenAI 提出全新安全对齐方法
来源：互联网发布日期：2024-12-25 19:43:37 浏览：364次