展会信息港展会大全

当前位置：人工智能实验室> 人工智能应用 > OpenAI展示了新模型o3，大模型能力更接近AGI了

OpenAI展示了新模型o3，大模型能力更接近AGI了
来源：互联网发布日期：2024-12-24 08:01:13 浏览：343次

导读：当地时间周五，OpenAI在为期12个工作日的新品发布活动的最后一天展示了o1模型的下一代o3，并表示该模型有o3版本和精简版o3-mini。OpenAI CEO山姆奥尔特曼（Sam Altman）强调了o3在推理、编码能力方面的提升，并表示o3模型不会立即推出，OpenAI会在1月底前正式推出o3 mini，并在之后推出完整版的o3。山姆奥尔特曼表示，o3是一个非常聪明的模型。OpenAI总裁Greg Brockman（格雷格 ......

OpenAI展示了新模型o3，大模型能力更接近AGI了

当地时间周五，OpenAI在为期12个工作日的新品发布活动的最后一天展示了o1模型的下一代o3，并表示该模型有o3版本和精简版o3-mini。OpenAI CEO山姆奥尔特曼（Sam Altman）强调了o3在推理、编码能力方面的提升，并表示o3模型不会立即推出，OpenAI会在1月底前正式推出o3 mini，并在之后推出完整版的o3。

山姆奥尔特曼表示，o3是一个非常聪明的模型。OpenAI总裁Greg Brockman（格雷格布鲁克曼）表示，公司最新的o3模型取得了突破，o3版本和o3-mini版本正在提供给研究人员进行安全测试。

据OpenAI介绍，公司将在确保新模型的可靠性和安全性后再提供给更广泛的用户使用，OpenAI强调了公司会专注于使AI系统与人类的价值观和社会利益保持一致。在命名方面，OpenAI之所以不起名o2而是起名o3，是因为有英国电信运营商名为O2。

OpenAI在今年9月已推出了o1模型，该模型可深思熟虑后回答问题，可处理需要复杂推理的任务。o1在国际数学奥林匹克竞赛（IMO）的资格考试中得分83%，对比之下，GPT-4o仅正确解决了13%的问题。在此基础上，据OpenAI评估，o3在软件工程、编写代码、掌握人类博士级别科学知识能力等方面强于o1。

据OpenAI给出的SWE-bench Verified代码生成评估基准，在软件工程的能力测评中，o3的准确度得分71.7，超过得分48.9的o1和41.3的o1 preview。在编程网站Codeforces的竞争性代码测评中，o3得分2727，对比之下，o1、o1 preview得分分别为1891和1258。在2024年AIME数学竞赛题目测试中，o3的准确度得分为96.7，超过o1和o1 preview的得分83.3和56.7。在衡量模型在博士级别科学问题上表现的GPQA Diamond测试中，o3得分87.7，超过o1的78和o1 preview的78.3。

而在以100%为最高分的ARC-AGI评估中，o1系列得分在8%~32%之间，o3最低得分75.7%、最高得分87.5%，表现明显好于o1系列。ARC-AGI是用来测试AI模型对困难数学和逻辑问题推理能力的基准测试。ARC Prize 基金会总裁Greg Kamradt表示，能成功击败ARC-AGI的AI系统将代表通往通用人工智能的重要里程碑。OpenAI表示，o3在ARC-AGI评估中获得了破纪录的分数，o3的最高分数也达到了代表人类水平的门槛85%，o3在某些条件下可以接近实现AGI（通用人工智能）。

OpenAI展示了新模型o3，大模型能力更接近AGI了

成本上看，ARC Prize基金会创始人FranoisChollet则在测试报告中表示，模型通用性需要付出高昂成本，o3 在低计算量模式下完成每个ARC-AGI任务需要 17~20 美元，高计算量模式下完成每个任务需要数千美元，模型的性价比在接下来的几个月和几年里将有所提高。

在OpenAI推出o1系列模型后，OpenAI的一些竞争对手也在部署这种偏重推理的模型。本月早些时候，谷歌发布了旗舰模型Gemini的新版本，该新版本在思考、记忆、计划等方面能力有所提升。业内另外一些企业也在参考o1的长思维链推理路径优化自身的模型，有大模型业内人士向记者表示，这种路径可以降低大模型的错误率，未来也有可能用于解决重大科学问题。

(本文来自第一财经)

相关热词： openai 通用人工智能模型山姆奥尔特曼 arc

上一篇：AI大牛解析o3技术路线！大模型下一步技术路线已现端倪？

下一篇：2024，芯片创业最大收获是什么

相关内容

AiLab云推荐

最新资讯

本月热点

热门排行

机构看衰、专家批评项目艰难，大语言模型会不会成为即将破碎的AI泡沫？

阅读量：7393

人工智能对材料科学研究有哪些深远影响？谢建新院士分享

阅读量：6521

这个会议一天提及AI 500次，最后的结论是什么？

阅读量：6301

OpenAI 罕见开源！低调发布的新研究，一出来就被碰瓷

阅读量：6095

AI攻占诺奖背后：新的技术革命成为社会进步发展的重要引擎

阅读量：5448

机构看衰、专家批评项目艰难，大语言模型会不会成为即将破碎的AI泡沫？

阅读量：5338

推荐内容

展开

热门栏目HotCates

关于我们

人工智能实验室（AiLab：Artificial Intelligence Laboratory）中国人工智能领域的专业媒体平台，始于2010年的中国AI创业先行者，专注人工智能、机器人、无人驾驶、可穿戴、模式识别、物联网、云计算等新兴技术信息资讯，是人工智能爱好者学习和交流平台，是一群梦想者与实践者的网络家园！

版权声明

本站部分文章来源于互联网以及网友投稿，本站只负责对文章进行整理、排版、编辑，是出于知识传递之目的，并不意味着赞同其观点或证实其内容的真实性。如果您有什么意见或建议，请联系E-mail：kefu#ailab.cn(将#换成@)！

Copyright © 2010-2025 AiLab Team. 人工智能实验室版权所有关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港