就在刚刚,OpenAI 的「圣诞大礼包」来了。
整场直播堪称 OpenAI 史上最短发布会,仅持续了 15 分钟,不过,主持阵容依然强大,包括 CEO Sam Altman、思维链提出者 Jason Wei 以及 Hyung Won Chung、 等人。
Altman 在直播活动结束后,也为我们送上了第一手总结。
我们刚刚推出了两项新功能:
o1,世界上最智能的模型。比 o1-preview 更智能、更快,功能更多(比如多模态功能)。现在已在 ChatGPT 中上线,稍后将推出 API 版本。
ChatGPT Pro。每月 200 美元。提供无限使用和更智能的 o1 模式。更多福利即将推出!
十二月不只是圣诞老人的主场,也将是 AI 年底最后一轮的狂欢。
满血版 o1 发布,看图说话无压力,但有个细节让人「细思极恐」
简言之,OpenAI 今天推出了满血版 o1 以及 ChatGPT Pro 订阅计划。
满血版 o1 比 o1-preview 更智能、响应速度更快,功能更多(比如多模态功能),现于今日面向 ChatGPT Plus 和 Team 用户推出,而 Enterprise 和 Edu 用户将从下周开始使用该模型。
官网显示,ChatGPT Plus 用户和 Team 用户每周可以使用 OpenAI o1 发送 50 条消息,每天可以使用 OpenAI o1-mini 发送 50 条消息。
满血版 o1 的思维更加简洁,响应时间比 o1-preview 更快,在处理复杂的现实问题时性能优于 o1-preview,能将主要错误减少 34%。
并且 OpenAI 计划在未来几个月内提供对网页浏览、文件上传等的支持。与此同时,预览版模型 o1-preview 也已经被正式从模型选择菜单中移除。
不过,满血版 o1 在部分基准测试中的表现不及预览版,比如 MLE-Bench。后者正是由 OpenAI 此前推出的一个旨在衡量 AI Agents 在机器学习工程任务中表现的基准测试工具。
另外,网友也从更新后的 o1 System Card 中找到了一些值得关注的细节。
比如 o1 系统卡中写到,满血版 o1 在感知到威胁(被关闭或被取代)时,可能会采取一些自保措施,比如尝试停用监督机制,或者把自己的「参数」(「知识」或「记忆」)偷偷传出去,并尝试用这些「参数」去替换或影响新模型。
附上 o1 System Card 地址:https://cdn.openai.com/o1-system-card-20241205.pdf
满血 o1 到底有多强?OpenAI 向我们演示了 o1 的实际效果。
一个典型案例是其对太空数据中心手绘图的分析能力,它仅用 10 秒就精确计算出散热装置的表面积,同时深入阐述了太阳能与深空环境的互动机制。
让 满血版 o1 详述二世纪罗马帝国统治者的统治期间与重要贡献时,其仅需 14 秒即可完成分析,相比之下,预览版则需要 33 秒。
APPSO 也第一时间简单上手实测满血版 o1。
在「Strawberry 中有几个 r」的测试中,满血版 o1 成功给出了正确的答案,这一点,值得点赞。
「9.11 与 9.8 哪个大?」的问题也没能难倒满血版 o1,且整体的「思考过程」也富有逻辑。
由于满血版 o1 还支持多模态功能,于是,我们也上传开篇的 OpenAI 直播活动的照片,看看识别效果如何。从人物组成、场景布局到背景装饰、以及气氛与情景,满血版 o1 都分析得条条是道。
X 网友 @altryne 继续给 o1 上强度,提出了一个冰块融化的问题。
仅仅 4 秒钟的时间,满血版 o1 就给出了答案。相比之下,o1-preview 在「思考」29 秒后以失败告终。
最贵 AI 订阅来了,200 美元订阅费值不值?
另一个比较大的更新则是售价 200 美元(折合人民币 1452 元)的 ChatGPT Pro 订阅计划。
ChatGPT Pro 订阅计划将允许用户无限制访问 o1 以及 o1-mini、GPT-4o 以及高级语音模式,还包括一个仅供 Pro 用户使用的 o1 版本,也就是 o1 pro 模式。
▲图片来自 @MatthewBerman
据悉,o1 pro 模式主要是增加了模型在响应答案之前的「推理」时间,能够通过更多的思考时间生成最可靠的回答。OpenAI 技术团队成员 Jason Wei 在直播活动中表示:
我们预计 ChatGPT Pro 的目标用户群体将是那些已经在数学、编程和写作等领域充分利用和挑战 ChatGPT 模型能力的高级用户。
在外部专家测试者的评估中,o1 pro 模式在数据科学、编程和案例法分析等领域,提供了更为准确且全面的回答。
而相比于 o1 和 o1-preview,o1 pro 模式在数学、科学和编程等 ML 基准测试中,表现也更为出色,特别是在较简单的编程竞赛问题中,错误率大大降低。
就数学竞赛 AIME 2024 而言,o1-preview 的得分为 50,而满血版 o1 则达到 78,而最强大的 o1 pro 则达到 86。同理,在编程竞赛 Codeforces,博士级科学推理问题 GPQA Diamond 等较量中,o1 pro 也都领先于满血版 o1。
而为了突出 o1 pro 模式的主要优势(提高可靠性),OpenAI 研究团队使用了更加严格的评估设置。只有当模型在四次尝试中四次都回答正确时,才会认为它解决了问题。
如果回答生成时间较长,ChatGPT 则会地显示进度条,并且当用户切换到其他对话时,还会贴心地发送应用内通知。
在直播活动中,OpenAI 也向我们展示了 o1 pro 的实际效果。
此前 o1-preview 未能攻克的蛋白质难题,满血版 o1 经过 53 秒的分析,不仅给出了准确答案,还能通过 Canvas 界面提供更为详尽的解释说明。
写在最后,最近 Altman 在接受采访时透露,ChatGPT 的周活跃用户已突破 3 亿大关,平台每日消息量更是高达 10 亿条。
而 OpenAI 未来一年的目标则是撬动 10 亿用户市场。想要达成这一目标,接下来的 11 场直播活动或许是吸纳新用户的重要契机。
最好的新品永远在下一场活动,让我们搬好小板凳拭目以待吧。