科技新闻讯 9月13日消息,据国外媒体报道,美国当地时间周四,OpenAI推出了名为OpenAI o1的新人工智能模型,这也是其首个具有“推理”能力的大模型,它能通过类似人类的推理过程来逐步分析问题,直至得出正确结论。
OpenAI o1有o1-preview和o1-mini两个版本,仅支持文本,向所有ChatGPT的Plus和Team用户推出,并在API中向Tier 5开发者推出。根据OpenAI官网的评测,这款模型尤其擅长处理数学和代码问题,甚至在物理、生物和化学问题基准测试中的准确度超过了人类博士水平。
此外,OpenAI o1在物理、化学、数学、逻辑等多维度的基准测试中,水平均超过了GPT-4o:
(GPT-4o和01基准测试对比,来源:OpenAI)
比博士还聪明的OpenAI o1,调动了全球的AI名人好奇心,除了OpenAI的多位高管,英伟达高级科学家Jim Fan、纽约大学教授、美国知名AI学者加里马库斯(Gary Marcus)、卡内基梅隆大学计算机科学博士生詹姆斯坎贝尔(James Campbell)等纷纷一睹为快,并在X上表达自己的看法。
我们汇总了全球11位关注AI的知名企业家、科学家的看法,有意思的是,整体的评价态度基本分为两个阵营:
一个阵营以OpenAI的高管和研究员为代表,他们大多数都给了“好评”,认为新模型开启了新一轮的AI技术范式,帮助大模型走向更复杂的推理时代;而在OpenAI之外的多数“编外人士”,给出的评价相对克制,虽然没有否定OpenAI o1的创新,但他们认为新模型的能力还没有被充分测试,并且它距离AGI依旧很遥远。
“好评”阵营:OpenAI o1打开了新的技术范式在OpenAI发布OpenAI o1预览版及其极速版OpenAI o1-mini之后,该公司多位高管以及研究人员发帖,认为新模型将AI推向更复杂的推理时代。
OpenAI首席执行官山姆奥特曼(Sam Altman):OpenAI o1是我们迄今为止最强大的人工智能模型。尽管它并非尽善尽美,仍带有一定的缺陷与局限性,但初次体验便足以令人印象深刻。更重要的是,这也预示一个新范式的诞生人工智能已迈入能够进行广泛而复杂推理的新时代。
OpenAI总裁格雷格布罗克曼(Greg Brockman):OpenAI o1是我们首个通过强化学习进行训练的模型,它在回答问题之前会进行深思熟虑。这是一个充满巨大机遇的新模型,无论在数量(推理度量已有显著提升)还是质量(通过简单英语“阅读模型的思维”,忠实的思维链让模型变得更可解释)上,都有明显改进。
这项技术仍处于早期阶段,带来了新的安全机会,我们正在积极探索,包括可靠性、幻觉问题以及对抗性攻击的鲁棒性。
思维链作者、OpenAI研究员Jason Wei:OpenAI o1是一个在给出最终答案之前会进行思考的模型,它不仅仅通过提示来训练思维链,而是通过强化学习让模型更好地完成思考过程。
在深度学习的历史上,我们一直在扩展训练计算,但思维链是一种自适应计算方式,也能在推理时进行扩展。
虽然OpenAI o1在AIME和GPQA的测试中显得很强大,但不一定能直接转化为用户可以感受到的效果。即使对科学工作者来说,找出GPT-4不如OpenAI o1的提示并不容易,但一旦找到,你会觉得非常惊奇。我们都需要找到更具挑战性的提示。
人工智能用人类语言模拟思维链在很多方面表现出色。这个模型能像人类一样处理问题,比如将复杂的步骤拆解成简单的步骤、识别并纠正错误,以及尝试不同的方法。
这个领域已经被完全重新定义了。
OpenAI研究员马克斯施瓦泽(Max Schwarzer):我一直认为,你不需要一个GPT-6级的基础模型来实现人类水平的推理能力,强化学习才是通往AGI的关键。今天,我们有了证明OpenAI o1。
作为OpenAI创始成员之一,前特斯拉AI高级总监安德烈卡帕西(Andrej Karpathy)的评论画风格外不同,他吐槽了模型的“懒惰”问题:OpenAI o1-mini一直拒绝为我解决黎曼假设(Riemann Hypothesis),模型的“懒惰”仍然是一个主要问题。
英伟达高级研究科学家Jim Fan和卡内基梅隆大学计算机科学博士生詹姆斯坎贝尔(James Campbell)虽然不是OpenAI工作人员,也给了好评。
英伟达高级研究科学家Jim Fan: 这可能是自2022年原始Chinchilla缩放定律以来,大语言模型研究中最重要的进展。关键在于两个曲线的协同作用,而不是单一曲线。人们通过延伸训练缩放定律来预测大语言模型能力将陷入停滞,却未曾预见到推理缩放才是真正打破收益递减的关键。
我在2月份曾提到,任何自我提升的大语言模型算法都没能在三轮之后取得显著进展。没有人能在大语言模型领域重现AlphaGo的成功,在这个领域,更多的计算能力将可达到超越人类的水平。不过,现在我们翻开了新的一页。
博士生坎贝尔 VS 奥特曼:卡内基梅隆大学计算机科学博士生詹姆斯坎贝尔(James Campbell)发帖,展示了OpenAI o1预览版在美国数学邀请赛(AIME)上的表现,显示其解答了83%的问题。相较之下,GPT - 4o仅解答出13%的问题。坎贝尔写道:“一切都结束了!” 对此,OpenAI首席执行官山姆奥特曼(Sam Altman)回复称:“我们还会回来的!”
“中差评”阵营:买家需谨慎,它并没有那么聪明HuggingFace首席执行官兼联合创始人克莱门特德兰吉(Clement Delangue):再一次,人工智能系统并不是在“思考”,而是在“处理”和“运行预测”就像谷歌或电脑一样。这种技术往往给人一种错误的印象,让你觉得这些系统像人类一样智能,但这只是廉价的宣传和营销策略,让你觉得它们比实际情况更聪明。
纽约大学教授、美国知名AI学者加里马库斯(Gary Marcus):OpenAI关于GPT的新模型确实令人印象深刻,但是:
1. 它不是AGI(通用人工智能),而且距离这个目标还很远。
2.仔细阅读并理解其中的细节。关于它如何工作的细节并不多,已测试的内容也没有全面披露。它与GPT-4的其余部分并未完全整合。(为什么?)
3.完整的新模型并未向付费订阅者发布,只推出了一个迷你版和预览版。因此,业界还未能对其进行充分测试。
4.报告显示,OpenAI o1在许多领域表现良好,但在某些方面旧模型表现更佳。它并不是一个全面超越旧模型的神奇改进。
5.我们不清楚具体的训练内容,但即使是一些基础任务,如井字棋(tic-tac-toe),也存在问题。
6.OpenAI夸大了它在法律考试上的成功,经过仔细审查,这些说法经不起推敲。科学审查需要时间,目前这些结果尚未经过同行评审。
7.它声称能在几秒钟内完成的任务,若给它一个月时间,可能会让人惊讶。但如果给它一个高度专业化的任务,比如编写复杂的软件代码,它可能会令人失望,因为OpenAI希望你认为它无所不能。
8. 买家需谨慎。
沃顿商学院管理学教授伊森莫里克(Ethan Mollick) :我已经用了1个月的“草莓”(OpenAI o1),它在许多方面都很惊人,但也有些限制。也许最重要的是,这是一个信号,表明了未来事情的发展方向。
新的人工智能模型被称为“o1-预览”(为什么人工智能公司总是这么不擅长命名?),它在解决问题之前会先“思考”一下问题。这使得它能够解决那些需要计划和迭代的复杂问题,比如新颖的数学或科学难题。事实上,它在解决极其困难的物理问题上,现在甚至可以超过人类的博士专家。
需要明确的是,“o1-预览”并不是在所有方面都表现得更好。例如,它并不比GPT-4o更强。但对于需要规划的任务,表现却非常好。例如,我给它下达了这样的指令:参考下面的论文,考虑老师和学生的观点,弄清楚如何使用多个代理和生成式AI构建一个教学模拟器。编写代码并详细说明你的方法。然后我把我们论文的全文贴了上去,唯一的提示是要构建完整的代码。你可以看到下面系统生成的结果。
评估这些复杂的输出确实很困难,因此展示草莓模型的收益(以及局限性)最简单的方法是用一个游戏:填字游戏。我从一个非常难的填字游戏中提取了8条线索,并将其翻译成文本(因为我还不能看到图像)。不妨自己尝试一下这个谜题,我敢打赌你会觉得它很有挑战性。
填字游戏对大语言模型来说显得尤其棘手,因为它们需要反复试错:尝试并排除许多相互关联的答案。而大语言模型无法做到这一点,因为它们每次只能在其答案中添加一个Token。例如,当我把这个谜题给Claude时,它首先给出的答案是“STAR”(错误的),然后用这个错误的答案尝试解答剩下的谜题,最后甚至连答案都猜不出来。没有规划过程,它只能不断尝试。
但如果我把这个谜题给草莓会怎样呢?这个模型首先“思考”了整整108秒(大多数问题能在更短时间内解决)。你可以看到它的思路,下面是一个样本(还有很多我没包括),这些思路非常启发人值得花时间读一读。
大语言模型会反复迭代,创造和排除想法,结果通常相当出色。然而,“o1-预览”似乎还是基于GPT-4o,有点过于字面化,难以破解这个较难的谜题。例如,“星系团”并不是指真正的星系,而是三星Galaxy手机(这也让我困惑)答案是“应用程序”。在决定是否为COMA(一个真实的星系团)之前,它一直在尝试实际的星系名称。因此,剩下的结果虽然有创意,但不完全正确,也不符合规则。
为了尝试更进一步,我决定给它一个提示:“1向下是APPS。”人工智能又花了一分钟。再次,在它的思维样本中(见左边),你可以看到它如何迭代想法。最终,它给出的答案完全正确,解决了所有难题的提示,尽管它确实生成了一个新线索这不是我给它的谜题。
所以,如果没有“草莓”,“o1-预览”所做的事情是不可能实现的,但它仍然不是完美的:错误和幻觉仍然存在,且它仍受限于GPT-4o作为底层模型的“智能”。自从有了新模型,我没停止用Claude来评论我的帖子,Claude在风格上仍然表现更好,但我确实停止用它处理任何复杂的计划或问题解决任务。“o1-预览”在这些领域代表了巨大的飞跃。
使用“o1-预览”意味着面临人工智能的范式变化。计划成了一种代理形式,人工智能在没有我们帮助的情况下自己得出解决方案。可以看出,人工智能做了大量的思考,产生了完整的结果,作为人类伙伴的角色感觉被削弱了。人工智能会自主完成任务,然后给出答案。当然,我可以通过分析它的推理找出错误,但我不再感觉自己与人工智能的输出有联系,也不再觉得自己在解决方案的形成中扮演重要角色。这不一定是坏事,但确实是一种改变。
随着这些系统不断升级,逐渐走向真正的自主代理,我们需要弄清楚如何保持在这个循环中既要捕捉错误,又要掌握我们试图解决问题的核心。“o1-预览”展示了可能前所未见的人工智能功能,即使它目前存在一些局限性。这给我们留下了一个关键问题:随着人工智能的发展,我们如何与它更好地合作?这是“o1-预览”目前还无法解决的问题。
和很多人直接的褒贬观点不同,作为对话式搜索引擎Perplexity CEO,阿拉温德斯里尼瓦斯(Aravind Srinivas)试图“猜测”OpenAI o1模型的原理。他不认为“草莓”所给出的答案是经由反复批判性反馈精心提炼的结果,而且认为单纯依赖大型语言模型来得出答案并不足够可靠。他建议,将代码执行融入其中,并结合从知识图谱中直接提取的事实,这一做法在实际应用中可能更为有效。
总体而言,OpenAI o1的“思考”时间更长、更擅长处理标准化程度更高的“理科”问题了,这对科学领域的发展来说是一件好事。但除了是非分明的逻辑推理问题,世界上所存在的更多问题,都是没有标准答案的,对芸芸众生而言,一千个人眼中有一千个哈姆雷特,如果大模型能为人类解决这类非标问题,或许才能接近真正的AGI。(编译/金鹿 编辑/可君、周小燕)