地表最强大模型,来了!
新模型o1有多强?!
没有任何预兆,OpenAI扔出了王炸新模型OpenAI o1!
目前,o1开放了两个版本:预览版o1-preview和迷你版o1-mini。
o1-preview官方介绍:
o1-mini官方介绍:
新模型最大的两个特点,一是会花更多的时间思考,二是在数学、编程、科学等复杂推理问题上的效果强的逆天!
在一段演示视频中,用户输入问题后,o1模型进行了长达39秒的思考,随后给出了高质量的正确答案。
在数学竞赛中,gpt4o的准确率仅为13.4,o1-preview达到了56.7,而尚未公开的o1模型正式版取得了83.3的水准!是gpt4o效果的6倍!(AIME为美国高中数学竞赛,旨在选拔最聪明的学生,o1模型的水平可跻身全国前500名学生的水平,成绩超过了美国数学奥林匹克的分数线。)
在编程竞赛中,gpt4o的采纳率仅为11%,o1-preview为62%,o1正式版为89%!是gpt-4o效果的8倍!
在博士水平的科学问题上,o1-preview与o1正式版的准确率均为78左右,超越了人类专家的水平(69.7),更是大幅超越了gpt4o(56.1)。
在其他大模型常规测试中,o1模型的水平,也均大幅超越gpt4o。
如此强大的新模型,势必会造成公众对于其被滥用与犯罪等危险行为上的恐慌。对此,OpenAI表示:在安全性上,当用户企图绕过安全规则“越狱”时,gpt4o的阻拦得分仅为22,而o1-preview的得分高达84。
在价格上,o1-preview的输入价格为$15/百万tokens,输出价格为$60/百万tokens,o1-mini在价格上比o1-preview优惠了80%,甚至比gpt4o还便宜一些。
人类在通往AGI的道路上,更近了一步!
在过去的6个月中,各家主流模型的能力愈加趋同,让人不禁怀疑,这是否就是生成式AI的极限?怀疑的声音、资本对泡沫的担忧,此起彼伏。
o1的出现,给了AI界一剂强心针!我已经预感到了新一轮AI军备竞赛的狂热程度!
过去一年多的时间里,中国对AI新技术的追赶速度惊人。当时Sora发布,国内悲观的声音弥漫一时,而国内只用了4个月,就推出了快手可灵、智谱清影等一系列足以媲美Sora的AI视频模型。
我很期待国内大模型能力追平OpenAI o1的时刻!
智谱、阿里、百度、MiniMax……加油啊!