OpenAI o1 模型 PlanBench 规划能力实测：准确率 97.8%-人工智能动态-人工智能实验室AiLab-中国人工智能网-Powered by AiLab.cn

OpenAI o1 模型 PlanBench 规划能力实测：准确率 97.8%

来源：互联网发布日期：2024-09-25 20:09:51 浏览：542次

导读：IT之家 9 月 25 日消息，来自亚利桑那州立大学的科研团队利用 PlanBench 基准，测试了 OpenAI o1 模型的规划能力。研究结果表明 o1 模型取得了长足的进步，但仍然存在很大的局限性。 PlanBench 基准简介PlanBench 开发于 2022 年，用于评估人工智能系统的...

IT之家 9 月 25 日消息，来自亚利桑那州立大学的科研团队利用 PlanBench 基准，测试了 OpenAI o1 模型的规划能力。研究结果表明 o1 模型取得了长足的进步，但仍然存在很大的局限性。

PlanBench 基准简介PlanBench 开发于 2022 年，用于评估人工智能系统的规划能力，包括 600 个来自 Blocksworld 领域的任务，其中积木必须按照特定顺序堆叠。

OpenAI o1 模型成绩在 Blocksworld 任务中，OpenAI 的 o1 模型准确率达到 97.8%，大大超过了之前的最佳语言模型 LLaMA 3.1 405B（准确率为 62.6%）。

在更具挑战性的“Mystery Blocksworld”加密版本中，传统模型几乎全部失败，而 OpenAI 的 o1 模型准确率达到 52.8%。IT之家附上报告图片如下：

研究人员还测试了一种新的随机变体，以排除 o1 的性能可能源于其训练集中的基准数据。在这次测试中，O1 的准确率降至 37.3%，但仍远远超过了得分接近零的其它模型。

规划步骤越多，性能下降越明显随着任务越来越复杂，o1 的表现也急剧下降。在需要 20 到 40 个规划步骤的问题上，o1 在较简单测试中的准确率从 97.8% 下降到只有 23.63%。

该模型在识别无法解决的任务方面也很吃力，只有 27% 的时间能够正确识别。在 54% 的情况下，它错误地生成了完整但不可能完成的计划。

“Quantum improvement”，但并非突破性虽然 o1 在基准性能上实现了“量子改进”（Quantum improvement），但它并不能保证解决方案的正确性。如快速向下算法等经典的规划算法，可以在更短的计算时间内实现完美的准确性。

研究还强调了 o1 的高资源消耗，运行这些测试需要花费近 1900 美元，而经典算法在标准计算机上运行几乎不需要任何成本。

研究人员强调，对人工智能系统进行公平比较必须考虑准确性、效率、成本和可靠性。他们的研究结果表明，虽然像 o1 这样的人工智能模型在复杂推理任务方面取得了进步，但这些能力还不够强大。

由媒体TheDecoder 使用 Midjourney 生成

相关热词： OpenAI 模型 PlanBench 规划能力实测准

OpenAI o1 模型 PlanBench 规划能力实测：准确率 97.8%
来源：互联网发布日期：2024-09-25 20:09:51 浏览：542次

相关内容

AiLab云推荐

最新资讯

本月热点

热门排行

推荐内容

在线客服

热门栏目HotCates

关于我们

版权声明

OpenAI o1 模型 PlanBench 规划能力实测：准确率 97.8% 来源：互联网 发布日期：2024-09-25 20:09:51 浏览：542次