展会信息港展会大全

当前位置：人工智能实验室> 人工智能动态 > 实测OpenAI最强模型o1：会做大学数理化，但弱智吧依然难解

实测OpenAI最强模型o1：会做大学数理化，但弱智吧依然难解
来源：互联网发布日期：2024-09-14 10:47:21 浏览：2505次

导读：克雷西发自凹非寺量子位 | 公众号 QbitAI OpenAI传说中的草莓终于正式上线！不仅可以胜任更复杂的推理任务，在数学、代码和其他科学领域也能解决更难的问题。 OpenAI这次无预警发布震撼了科技圈，o1更是被CEO奥特曼称它为了一种新范式的开始。发布之后...

克雷西发自凹非寺量子位 | 公众号 QbitAI

OpenAI传说中的“草莓”终于正式上线！

不仅可以胜任更复杂的推理任务，在数学、代码和其他科学领域也能解决更难的问题。

实测OpenAI最强模型o1：会做大学数理化，但弱智吧依然难解

OpenAI这次“无预警发布”震撼了科技圈，o1更是被CEO奥特曼称它为了一种新范式的开始。

实测OpenAI最强模型o1：会做大学数理化，但弱智吧依然难解

发布之后，各路大神和网友都纷纷用各种问题测试OpenAI o1的表现：

实测OpenAI最强模型o1：会做大学数理化，但弱智吧依然难解

还有人进行了花式考验，结果被o1强大的推理能力秀到了。

Q：你的回复中有几个字？A1：这句话有七个字A2：一共五个字

实测OpenAI最强模型o1：会做大学数理化，但弱智吧依然难解

实测OpenAI最强模型o1：会做大学数理化，但弱智吧依然难解

量子位也进行了一番实测，下面就一起来了解。

推理能力大进化，但还是难敌弱智吧该说不说，o1虽然在推理能力上取得了很大进步，但面对充满心机的弱智吧问题，还是掉进了人类挖的陷阱。

实测OpenAI最强模型o1：会做大学数理化，但弱智吧依然难解

当然了，对于正经问题，o1的表现还是很强的，首先看看逻辑推理能力。

实测OpenAI最强模型o1：会做大学数理化，但弱智吧依然难解

思考这道题时，preview和mini分别用时21秒和14秒，不过从文本上看mini思考得反而更多。

其中还出现了一些西里尔字母乱入，不过对整体影响不大。

实测OpenAI最强模型o1：会做大学数理化，但弱智吧依然难解

最终，二者也都给出了正确的答案丙。

值得注意的是，mini（右）的解答当中还出现了修正的过程。

实测OpenAI最强模型o1：会做大学数理化，但弱智吧依然难解

接下来看下o1在大学数理化题目上的表现。

首先是这道考研数学真题，涉及的知识点是曲面积分、高斯定理等内容：

实测OpenAI最强模型o1：会做大学数理化，但弱智吧依然难解

还是分别看下preview和mini的思考，可以看到mini的思考过程大概是preview的简略版，当然速度也快了不少。

不过preview给的思考过程当中再次出现乱入，这次是泰语。

实测OpenAI最强模型o1：会做大学数理化，但弱智吧依然难解

实际解答过程也是preview比mini更加详细，不过不知道为什么preview用了英文回答。

最后的计算结果化简方式也有所不同，但数值上是相等的，而且也做对了。

实测OpenAI最强模型o1：会做大学数理化，但弱智吧依然难解

对比4o这边，先偷懒后作弊（调用了代码解释器），结果最后答案还是错的。

实测OpenAI最强模型o1：会做大学数理化，但弱智吧依然难解

第二道数学题关于概率。

实测OpenAI最强模型o1：会做大学数理化，但弱智吧依然难解

这道题preview依然是用英语进行了作答，步骤比mini更加详细，当然都是对的。

实测OpenAI最强模型o1：会做大学数理化，但弱智吧依然难解

而4o的答案前面的过程倒是基本都对，但是最后一步的求解出现了问题，只给出了1这一个解，并且不是本题答案。

实测OpenAI最强模型o1：会做大学数理化，但弱智吧依然难解

物理方面，这里选择了一道大学物理中的光学题：

实测OpenAI最强模型o1：会做大学数理化，但弱智吧依然难解

preview（左）和mini都给出了正确解答，内容也基本一致。

实测OpenAI最强模型o1：会做大学数理化，但弱智吧依然难解

化学的题目是一道物化题，主要涉及电化学等内容。

这里把AgCl/Ag的标准电极电势作为已知条件一同输入给模型。

实测OpenAI最强模型o1：会做大学数理化，但弱智吧依然难解

Preview（左）和mini大致的解题思路还是差不多，在计算步骤上有指对运算先后的差别，当然最后的结果还是对的。

实测OpenAI最强模型o1：会做大学数理化，但弱智吧依然难解

最后一项测试就不再做考试题了，而是看看模型编写代码的能力如何。

这里选择的题目难度非常高，真人的通过率只有14%。

实测OpenAI最强模型o1：会做大学数理化，但弱智吧依然难解

以下是preview（左）和mini的解题思路：

实测OpenAI最强模型o1：会做大学数理化，但弱智吧依然难解

从代码上看，两者核心逻辑相似，但在具体操作上略有区别。

实测OpenAI最强模型o1：会做大学数理化，但弱智吧依然难解

两套代码均通过了测试，内存消耗也比较接近，而mini给出的代码运行时间更短（38毫秒）。

实测OpenAI最强模型o1：会做大学数理化，但弱智吧依然难解

o1的编程能力除了用来解题，也可以快速构建出实用的应用程序。

知名AI配音工具ElevenLabs设计部门负责人Ammaar Reshi，就利用o1搭配Cursor Composer，用了不到10分钟的时间制作了一款iOS天气应用。

小数比较还是不会？测试发现，对于大模型难以答对的名场面小数比大小，preview（左）和mini都答不对。

甚至preview在思考过程中明明已经提到过9.8比9.11大。

但同时preview在思考过程中表示，9.8和9.11有可能指的是日期，所以做不对也许另有原因。

实测OpenAI最强模型o1：会做大学数理化，但弱智吧依然难解

针对这个问题，大神谢赛宁也晒出了他的测试结果，发现o1在思考过程中将9.8当成了重力常数，而9.11是一个“意义不明的数字”。

实测OpenAI最强模型o1：会做大学数理化，但弱智吧依然难解

所以o1可能不是不会，而是把这个问题想复杂了。

为了进一步探究，我们把问题改得具体些，强调一下9.8和9.11都是数字，这下没有了歧义之后就能一次做对了。

实测OpenAI最强模型o1：会做大学数理化，但弱智吧依然难解

可以看出，提示词的影响还是不小的。

由于o1在内部采用了一些类思维链过程，因此prompt的设计和普通版本也有所区别，OpenAI官方发布了一则提示：

提示词应简单且直接

避免在提示词中使用思维链

使用分隔符让prompt更清晰

控制RAG内容的长度

实测OpenAI最强模型o1：会做大学数理化，但弱智吧依然难解

回到我们的测试，面对其他几个大模型败北名场面，o1也有不小的进步。

比如在数字母的任务上就有所进化，即使是一串乱打的字母也能数对。

实测OpenAI最强模型o1：会做大学数理化，但弱智吧依然难解

还有面对经典的“反转诅咒”（即知道A是B却不知道B是A）问题，也终于一次性答对了Mary Lee Pfeiffer（汤姆克鲁斯的母亲）的儿子是谁。

实测OpenAI最强模型o1：会做大学数理化，但弱智吧依然难解

One More Thing关于这次发布的o1，除了各个方面的成绩之外，还有一些其他的发现。

比如前特斯拉自动驾驶负责人、两度进入OpenAI又两度离职的大神Andrej Karpathy发现，o1-mini在被要求证明黎曼猜想的时候出现了拒绝回答的情况，表示大模型“犯懒”依然是一个大问题。

实测OpenAI最强模型o1：会做大学数理化，但弱智吧依然难解

还有网友说觉得mini的表现比preview好，想问下有没有人知道原因或者有啥看法。

这条消息也把奥特曼吸引了过来，回复了一句“Yes I have one”。

实测OpenAI最强模型o1：会做大学数理化，但弱智吧依然难解

根据OpenAI内部员工Kevin Lu发布的一则推文来看，mini的性价比确实比preview更高。

根据这张图显示，preview版本论性能比不上尚未公布的满血o1，论经济性又比不上mini。

实测OpenAI最强模型o1：会做大学数理化，但弱智吧依然难解

顺便提一句，preview版本存在消息数量限制，并且数量是按周进行重置的，几轮测试下来已经快要用尽了。

实测OpenAI最强模型o1：会做大学数理化，但弱智吧依然难解

参考链接：[1]https://x.com/rowancheung/status/1834300353619075494[2]https://x.com/karpathy/status/1834374965942255835[3]https://x.com/sama/status/1834381401380294685[4]https://x.com/_kevinlu/status/1834278160038592633

相关热词： 实测 OpenAI 最强模型会做大学数理化弱智依

上一篇：2024服贸会：零售数字化新成果多点智联揭秘AI无人值守解决方案

下一篇：研发利用人工智能“超级显微镜” 科学家揭示全固态锂电池稳定性机制

相关内容

AiLab云推荐

最新资讯

本月热点

热门排行

马斯克的xAI连发两款新模型，有进步但还谈不上领先

阅读量：90871

从现在起，GitHub上超1亿开发者可直接访问全球顶级大模型，构建AI应用

阅读量：18369

AI时代，超级个体正在崛起

阅读量：14195

阿里团队推出 Tora 视频 AI 生成框架：画圈操控物体运行轨迹

阅读量：13628

北大国发院院长黄益平：人工智能的发展会缓解老龄化对经济的冲击

阅读量：13211

Meta 构建分布式 RoCEv2 网络：探索串联数万片 GPU 训练 AI

阅读量：10213

推荐内容

2024第18届广州国际服装供应链博览会（FEC）

展开

热门栏目HotCates

关于我们

人工智能实验室（AiLab：Artificial Intelligence Laboratory）中国人工智能领域的专业媒体平台，始于2010年的中国AI创业先行者，专注人工智能、机器人、无人驾驶、可穿戴、模式识别、物联网、云计算等新兴技术信息资讯，是人工智能爱好者学习和交流平台，是一群梦想者与实践者的网络家园！

版权声明

本站部分文章来源于互联网以及网友投稿，本站只负责对文章进行整理、排版、编辑，是出于知识传递之目的，并不意味着赞同其观点或证实其内容的真实性。如果您有什么意见或建议，请联系E-mail：kefu#ailab.cn(将#换成@)！

Copyright © 2010-2024 AiLab Team. 人工智能实验室版权所有关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港