王小川评OpenAI o1：国内大模型达到相似水准，需要9个月-人工智能动态-人工智能实验室AiLab-中国人工智能网-Powered by AiLab.cn

导读：划重点 01OpenAI发布的新模型o1以强化学习为基础，关注语言为核心的思维链，提高泛化性。 02王小川认为，o1不代表范式转弯，而是范式升级，将原来的模型作为组件之一。 03除此之外，他还预测代码将成为大模型下一步的核心能力，大模型通过写代码解决更多问题...

划重点

01OpenAI发布的新模型o1以强化学习为基础，关注语言为核心的思维链，提高泛化性。

02王小川认为，o1不代表范式转弯，而是范式升级，将原来的模型作为组件之一。

03除此之外，他还预测代码将成为大模型下一步的核心能力，大模型通过写代码解决更多问题。

04目前，百川智能在医疗场景上取得突破，计划继续深化医疗领域的应用。

05尽管大模型创业竞争激烈，王小川仍认为至少有一家创业公司能在这个领域生存。

以上内容由腾讯混元大模型生成，仅供参考

王小川评OpenAI o1：国内大模型达到相似水准，需要9个月

主笔：张小

编辑：石丁

出品：科技新闻《潜望》

2024年9月，OpenAI预热已久的“Strawberry”（草莓）项目终于问世，它重置命名模式，没有沿用原有的GPT命名，而是取名为o1模型业界认为，o1代表了AGI范式的一次大转移或者大升级。

在靠语言模型预训练的Scaling Law这个经典物理规律遇到瓶颈后，包括OpenAI在内的多家硅谷明星公司，已经把它们的资源重心押宝在一条新路径上：强化学习。o1的发布把以强化学习为基础的后训练，推到了焦点中心。

百川智能创始人兼CEO王小川很早就开始在公开演讲中谈论强化学习。他曾说，大模型代表快思考，它叫“学”；强化学习是慢思考，叫“思”。“学”和“思”两个系统最终会走向融合。

在o1发布后，王小川在第一时间接受了我们的访谈。关于o1和强化学习，他有一些核心观点：

1、o1不代表范式转弯，而是范式升级，OpenAI摸到了一条从快思考走向慢思考的道路；

2、o1的关注重点在于两点：从以语言为核心走向思维链，更强调思维链（CoT，"Chain of Thought"）；把思考过程和给出结果，分两阶段运行，能够增加泛化性；

3、除了数学和代码，AI医生是可以用强化学习提升的领域；

4、另外，他做了一个预言：代码会变成大模型下一步的核心能力，大模型通过写代码解决更多问题甚至是自身思考过程，未来几年将从强化学习范式走向写代码来解决问题的新范式。

以下为王小川的访谈节眩（为了方便阅读，作者做了一些文本优化）

o1摸到了一条从快思考走向慢思考的道路

科技新闻《潜望》：关于OpenAI做强化学习的经过，你了解哪些事实？

王小川：之前在Sam Altman被宫斗下课的时候，我理解并不是狗血的事。

它的董事会是又聪明、也挺正直的人，不会犯傻。有的人要么蠢，要么坏。但这些人既不蠢，也不坏。纷争背后一定有某些大家没发现的事。

在之前一周，我听到当时他们一个核心的人传出来：NoamBrown，之前是DeepMind做强化的一个大神加入OpenAI，并且号称跟其他朋友讲，他们有一些突破性的事情了。一周后，Sam Altman又出了点事。

前后是两个事。第一个，被宫斗，一定是技术上大家没看到的东西在内部有质疑，说Sam Altman比较激进，他对安全性（认识）不足，把安全重要性放在技术突破后面。有些突破性的技术可能不安全，但他有点无所谓，想尽快把技术突破做下去。恰巧Noam说他们有技术突破，而Noam代表强化学习。

两个放一块，去年底我们推论出，OpenAI强化学习有一些突破了。

科技新闻《潜望》：今年初OpenAI发Sora，你们技术同事想跟进，被你摁死了。这次o1呢？

王小川：这个技术范式核心是语言模型，然后走向强化学习这是智能提升的两个阶段。

当做Sora时，它既不是语言学习，也不是强化学习，就不在提升智力方向里，而是另一个独立产品。因此做Sora，从技术上并不代表智能的提升，场景上也不是百川所追求的。我当时认为，有同学这么想，属于“技术没想明白，场景也没想明白”。

去年4月百川下场的时候，就在强调强化学习，以及强调多模态不是智能提升方向。

我们说大模型是“读万卷书”，强化学习是“行万里路”。大模型本身叫“学而不思则罔”，它会读很多书，但内心偏混乱。单独强化学习有一个典型作品，是AlphaGo。我相信AlphaGo是对人工智能的启蒙，它是强化学习特别是自我博弈的一个典型代表。这个技术，之前DeepMind一直沿着这个路子走，走到后来发现它叫“思而不学则殆”，停在一个问题里面走不出来了。

因此，这两个技术都有自己的局限性。

在人工智能发展史上DeepMind有很多成果，像AlphaGo、AlphaZero，甚至一点数据都不用。只是很不幸，OpenAI从语言里面把通用智能往前走了一步，就是用学习的方法，用思考的方法。这种技术（学习和思考）早晚会合璧。

科技新闻《潜望》：有评论说“相比GPT-4o，o1模型向前迈了一步，却又退了两步”，你怎么看？

王小川：我不认为它叫进一步、退两步，也不叫转弯，就是范式升级了。

快思考是慢思考诞生的一个过程。先得有快思考，才能有慢思考，它不是转弯的过程。而是，怎么用大模型的快思考，之后能够让它学会慢思考，是一个进阶。

我沿用DIKW的模型DIKW指的是从Data到Information到Knowledge最后到Wisdom，四步走。之前的搜索是Information这层，帮你获得信息。到了大模型LLM之后就到了Knowledge这层，它有知识、有沟通、有快思考。而今天有了这么一个慢思考，它已经从Knowledge进化到了有Wisdom的雏形，真的开始有智能。

因此它是范式升级，把原来的模型作为组件之一，不只是用今天这么一个强化学习服务于大模型。大模型是它的一个组件了，这是一个大的跨越。

总结来说，既不是转弯，也不是进退，而是摸到了一条走向慢思考的道路。

科技新闻《潜望》：为什么我们需要一个能慢思考的AI？它能帮我们解决哪些事？

王小川：智能本身一定是思考的过程。无人驾驶做端到端，在端到端里面也需要能一步、两步、三步去想。就像我们做几何定理证明题，求解一定得有思路。当你有思考过程，就是一个慢思考。所以，智能本身需要有多步的思考。

大多数比较复杂一点的问题，不管是代码问题，还是数据、逻辑问题，或者咱们日常想解决的事，都得分步骤解析，而不是一拍脑袋就有快思考结果。

除了文学写作，可以用快思考写诗，一鼓作气做完了；大多数时候需要有多步，需要慢思考。

科技新闻《潜望》：o1隐藏了思维过程，甚至有人破解o1的思维链会被警告要封号，OpenAI为什么这么做？

王小川：之前做大模型，各家用它的数据做蒸馏，能够迅速接近它。OpenAI毕竟是一个商业公司，不是一个公益型公司。一旦公开，大家不仅仿效它的逻辑，更容易争夺它的数据；不仅破解它的算法，而且是它的数据获龋

这会让别人家进步变得很快。也说明，这个技术本身独有性是有限的。

因此，封锁是一个竞争策略。

从以语言为核心走向思维链，

分两阶段运行增加泛化性

这两句把强化学习的精髓讲完了

科技新闻《潜望》：我们应该怎么看待o1，是一个过渡性的产品形态吗？

王小川：o1有点像当年GPT-3的发布，离最后3.5和4突破性有距离。但是3发布在业内就已经很震撼了。

科技新闻《潜望》：我前几天和一个前OpenAI研究员（边塞科技创始人、清华叉院信息研究院助理教授吴翼）聊，他的研究方向是强化学习。他说，现在相当于从阶段一进入到阶段二。之前pre-training（预训练）能挖的金矿越来越少，大家意识到以强化学习为基础的post-training（后训练）是第二个大金矿，就让迈向AGI的梯子多了几节。

王小川：这个理解完全一样。

科技新闻《潜望》：在你看来，OpenAI o1应该关注哪些要点？

王小川：第一，它坚持以语言为中心，又叫语言中轴。

之前大家多少觉得多模态是智力。但你看OpenAI上多模态帮助不大，现在还是语言为核心，甚至更进一步，从语言为核心走向CoT（"Chain of Thought"，思维链），更强调思维链了。因此语言在中间承载思考的时候变成一个多步的思考。

第二，它把思考过程和给结果，分成了两个步骤，这样对思考过程能够更好进行一个泛化。

比如说解数学题的时候，你可能是学会一个思路，就能解好多题。因此并不是他在追求这个题解对了的一个结果，而追求解题过程是对的。分成两个阶段之后，能把CoT变成一个能泛化到从你解一个数学题，到解更多题，甚至到其他领域共性能力提升。

因此，核心关注语言为核心的CoT，以及分两阶段的运行能增加泛化性这两句话有很大信息量，已经把强化学习的精髓讲完了。

科技新闻《潜望》：能不能介绍一下“强化学习”这个概念？

王小川：“强化学习”跟之前“监督学习”的区别是：监督学习你要告诉它解题过程是什么，它依葫芦画瓢；强化学习是不告诉它过程，只是判断你做得对不对。

就像教小孩，你说你要做个事，一二三怎么做，小孩可能学得快，但他并没有“知其所以然”。但是如果他做对了，你说对；他做错了，你说错，这个小孩的学习要自己花心思找方法。这就是“强化学习”跟“监督学习”的本质区别。

大模型为什么特别强调强化学习呢？大模型本质是把全天下最优质的语言来做训练，我们说是“一个压缩的过程”。压缩过程是一个在原有数据“分布内”的一种智能，它的思考能力是不会超过你原始数据的。

但我们知道，单看智能是跳出原来的框架去想事。数学上叫“分布外”，大模型叫“分布内”，就在探索以前未知的事。所以这个时候需要创造环境，让你在这个环境互动当中，环境的反馈能给原来数据语言之外的内容，能提升你的解题问题或者智力。

从“分布内”走向“分布外”，这是智力必须的过程。所以用强化学习就变成了必须的事。

科技新闻《潜望》：这里面包含哪些关键技术原理，复刻它难吗？

王小川：有很多数据和工程问题要做。复刻它本身，如果你蒸馏它会变得很简单；但复刻起来的时候，对于你的算力，对于你的专家来标注这个系统，都还是有蛮多挑战。

比复刻个GPT-4会变得更难一些。

科技新闻《潜望》：还是需要专家、需要人工？

王小川：我觉得需要的，也需要人教它。

科技新闻《潜望》：Self-play RL（自博弈强化学习）能让人工更少吗？

王小川：肯定会。计算机领域有句话是这么说的：求解一个问题比验证一个问题更难。找问题答案比判断答案对不对更难。

你走迷宫，找到那条出路是难的，但要验证这个迷宫走得对不对、是不是走通了、有没有撞墙，是简单的。或者做几何定理证明题，你求解它难，但你找到求解过程后，让另一个人验证求解过程有没有bug是简单的。

我们很愿意用强化学习，其中重要的是，我并不知道怎么解这个题，但我能验证你解得对不对。这个情况下能使整个系统的能力得到很大提升，也降低标注数据本身的难度，或者同等标注数据的难度，它就能解更复杂的题目，这是中间的核心逻辑。

科技新闻《潜望》：强化学习能实现泛化性吗？它能够带来通用智力水平的提升吗？

王小川：强化学习之前的泛化性是不好的。AlphaGo之前就做得不好。

今天OpenAI基于这两件事，我觉得把强化学习做得挺好。第一，它局限在数学、代码，这个局部领域有足够大的突破。也说明这两个领域里有足够好的数据来验证它。比如数学题做得对不对？一个程序是否能编译通过？运行完了跟你想要的结果一不一样？所以，在没有泛化性和绝对答案的情况下，它做得特别好。

第二，它的泛化性来自于之前把它分为两阶段，就是把CoT和后面的执行过程分开了。因此，就像之前训练代码训练了之后，整个系统逻辑能力提升了一样。之前咱们也讲了GPT-3.5这两个版本合在一起之后，逻辑性提升来自于代码的学习。现在也是一样，其他场景的泛化性来自于对于数学和代码的CoT本身掌握得更好了，这个CoT能泛化到其他思考环节去。

科技新闻《潜望》：之前大家对GPT-4有一个诟病是数理能力比较差，o1变成了数学、编程方面的偏才，未来会出现更多专注于特定领域的模型吗？

王小川：我不觉得它是偏才，现在就是一个“文科也不错、理科一下子变得特别强”的模型。

至少OpenAI代表的路线图是通用的道路，会逐步把这样一个领域拓展开。并不代表以OpenAI自己积累的数据闭环就能做到全知全能。在各个领域使用的时候，专业领域的数据会扮演很重要的角色。

科技新闻《潜望》：做一个o1需要多少的算力、数据，有没有一个预估？

王小川：可能跟做个GPT-4差不多。

科技新闻《潜望》：o1 + GPT-4o会出现什么？

王小川：不需要合并。现在叫o1，已经版本重置了。

合并本身不难，即便包含不了，分两个调用也行。

科技新闻《潜望》：o1只是新范式的第一步，之后它会怎么演变？

王小川：它的算力继续增加、训练效率提升，以及如何在领域数据中更好地能去使用，还有大量可挖掘的内容。

往下有几个事可能会发生：第一，领域的更好的泛化能力，就是找到范式把领域知识给做起来，是一个要突破的事。

第二个，再往下，我可以做个预言：未来代码会扮演更重要的角色。

以前代码是帮助提高逻辑能力，或者帮助程序员辅助写代码。我认为未来代码会变成大模型下一步的核心能力。

也就是说，大模型通过写代码能够去解决更多的问题，解决自身的思考过程，从强化学习范式还会走向写代码来解决问题这个新范式这在未来几年内会实现。

走出大厂射程，

大模型“六小龙”至少能活一家

科技新闻《潜望》：百川在强化学习这条路上是怎么做的？

王小川：百川一直挺重视强化学习，去年就成立这样一个团队。OpenAI是走在我们前面，这个得承认。

我们在Baichuan3 发布做了一个实验，用强化学习训练诗词。做强化学习之前要靠金标准，是在能绝对判断对错的地方训练，所以通常要做理科任务，数学、代码是可以做的。文科上没有对错判断的标准，写得好不好挺难让机器校对。所以，我们想在文科里是否也有一个Reward Model（奖励模型），于是想到用唐诗和宋词。

尤其是宋词，大家写起来比较难，它的字数、平仄、韵律、对仗有很多要求。但是要求反而是一种规则。当时我们在训练模型的时候，不是说让机器仿照人这么写诗词，而是让机器写诗词之后，我们用一个程序模型来判断诗词写得是否符合字数、平仄、韵律和对仗。预训练时就做了这样一个实验，取得了不错效果，代表我们在这方面之前就有积累和思考。

再往下，除了数学和代码以外，我们认为医生是蛮好的可以用强化学习提升的领域。医疗在很多问题上是有标准答案的。比如一个病人，综合症状他到底有什么样的病？或者该做什么检验、检查，该开什么药？这些地方是有答案的。

如果仿照医生的CoT再来验证答案对不对，这样能使模型的功力大涨。因为医生解释，不是光看医学院的书，读完就会了。他在临床中间一辈子可能看几万个病人，得到自己的提升。医生是在病人的互动中得到提升的，很多数据被记录下来。

因此，强化学习用来做医疗是一个特别好的应用方法，使医疗的可行性和质量得到很大提升。

科技新闻《潜望》：为什么你们当时做实验选择在诗词领域，是一个文科领域，而没有选择像数学、编程这种理科领域？

王小川：容易上手。

你在做任何突破的时候都有挑战，因为它本身文科就好，只是文科上的不足是诗词，因此用它来做验证，比在当时做数学和代码更容易上手做实验。

科技新闻《潜望》：Reward Model怎么设计？

王小川：我们首先是会有程序能够判定，比如说这样一首诗词，这种字数。比如通过词牌名大概100多首，每个词牌名的格式我们有数据分析。并且平仄，一声、二声、三声、四声，还有韵律、押韵，都可以用程序校验，我们当时就已经写了Reward Model。先是有一个规则的判定，再把它泛化成一个模型这个路线图比较接近o1的做法。

但没有它做得更完整。o1特别好，有CoT的过程，我们当时不带CoT。

科技新闻《潜望》：今天看到o1以后，你能复现出哪些技术路径，从中改进你们的做法？

王小川：我们更强调CoT了，原来中间没有CoT这一步，直接从输入到答案。

有CoT之后第一，我们做医疗的时候会找医生的思考路径，这样更快提升它的能力，就是有CoT的过程，而不只是完整的端到端；第二，有CoT之后泛化能力也会得到很大提升，只要思路对，答案就对。

科技新闻《潜望》：做了一年多强化学习，有没有积累更多关于强化学习的know-how？

王小川：强化学习一部分是从环境中学到新东西，一部分我发现它会激活原有一些能力。比如在写诗词，我们让它学会了字数、平仄和韵律，结果大模型自己就把对仗输出了本来还没教它学对仗呢。

这就说明，它潜藏着记忆和能力，可以激活出来。所以在强化里，一方面是面向未来的范式，一方面它跟以前的强化学习逻辑也不完全一样。

科技新闻《潜望》：但这几个月AI有点变冷，o1能够重振大家对于AI的信心吗？

王小川：我不太关心外界环境，确实也听说外界在变冷，大家觉得比较迷茫，技术突破变慢，或者没找到应用场景。

然而对于百川，一开始就明确了我们的应用场景是在知识领域里造顾问，尤其是造医生。场景很清晰，离结果更近了，而不是开辟新大陆。

科技新闻《潜望》：国内的公司现在达到GPT-4水平了吗？

王小川：在接近吧。

科技新闻《潜望》：复刻o1的时间周期相比GPT-4怎样？

王小川：会比做GPT-4快一些，难归难，但毕竟随着国内也好、美国也好这么多开源项目产生，不管大厂还是创业公司进入，资本的充裕度和人才的集中度已经比刚开始发布GPT-3.5或GPT-4之后市场的人才储备、资金储备多了很多。

在一两个月时间里，有一些接近他们的模型就开始会出现了，会很快。

科技新闻《潜望》：你说国内还是国外？

王小川：都有可能。GPT-4比如用18个月，o1可能做到它那样也许9个月。起步有一个样子出来，可能1-2个月就有了。要达到一样的高度需要花力气。

科技新闻《潜望》：关于o1你有哪些想要知道但不知道的事？

王小川：挺多不知道，比如它拥有多少算力，有多少领域专家。

科技新闻《潜望》：o1可见上限是什么？

王小川：我认为可能在未来两三年内，这个范式会跑出它的结果，跟GPT-3.5到4是一样的。

剩下的就是代码可能会扮演更重要的角色机器自己写代码，代码运行完了，生成一个神经元网络，甚至把神经元网络和它的模型再融合到一块去。

我认为未来还有新的范式会产生。

但是那一步做完了，我觉得AGI就接近了。

科技新闻《潜望》：你们接下来准备怎么做？

王小川：一方面美国领先的地方要跟进，另一方面坚定在医疗场景上突破。

科技新闻《潜望》：你说去年是为了赶上这个时代火车，一个快速rush的状态，今年呢？

王小川：我们去年不敢大声提医疗，我讲“医疗是大模型皇冠上的明珠”，大家不太理解这个场景的可行性。大家会问商业模式、伦理问题。

去年只造一个轮子，模型赶快入常今年开始，我们开始真正的双轮驱动，“超级模型”+“超级应用”。而且是一个“水涨船高的应用”，不只是“沿途下蛋的模式”。

水涨船高的应用，什么意思？就是模型越大，我这个领域能做得更好；而不是模型大到一个阶段就跟我领域没关系了。“沿途下蛋”的意思就是我下了个蛋，就放那，模型再好，你就下个新的蛋。这种情况下，你的蛋越来越多，你自己就会被拖累了。

因此，先做个广告模型放那儿，再做个客服模型放到那儿这种情况不叫水涨船高，随着模型大就被淹掉的状态。而说到医疗，模型越大，这个行业可能存活率越大，这叫水涨船高。

科技新闻《潜望》：也就是说，假设模型能力特别强以后什么场景可以应用。

王小川：对。但是，模型在一般场景下，我也能进入。模型越大，这个场景就越受益，可以找这样一个场景。

科技新闻《潜望》：进去以后等着呗。

王小川：当然得努力工作了。

等着也对，模型越好，这个场景就越受益。

科技新闻《潜望》：模型和应用两条腿，你现在对哪一条腿更满意？

王小川：都在初始状态。

未来这两个也有关系，你的场景越清楚，对模型要求越细化。

科技新闻《潜望》：在医疗场景最终我们能看见的形态是什么？它好像不会是一个Super App，挺难想象的。

王小川：以前是App，就是叫PMF（产品市场契合点），我去发现需求，去满足需求，去创造需求。这是以前的逻辑。我去年提了TPF（技术产品契合度），我们从需求驱动开始变成供给驱动，供给驱动就是这个需求已经现实存在，只是供给不足，我把它造出来，就有市常我更多地强调技术和产品匹配度。

大模型一个很大的逻辑是在“造人”，在造数字员工，因为它会语言，会思考，会沟通，而且学的是人类之前遗留下来的知识和经验，所以它不是在造计算器、造车这种逻辑它是在造人。我们把造医生当成重点突破。

如果从产品形态看，你就是造了一个能够用的医生，前期是从全科、儿科入手，未来会走向专科的医生，到最后走向生命的数学模型。这是下一个阶段，从智能模型走向生命模型，这是远期目标。在机器智能模型里，它像智能人一样，就是个医生。

科技新闻《潜望》：人类跟它的交互界面会是什么？

王小川：靠自然语言的交互。

有可能你是个App，有可能是医院里一个终端设备，但最后它的交互是靠语言进行。语言或者视觉，跟人一样。

科技新闻《潜望》：在产品上什么时候百川让大家看到一个大的突破？

王小川：今年内吧。今年开始可能能接触到一点了，算是与人对话的。

科技新闻《潜望》：你上次说会造三个人，除了医生，另两个人你现在怎么想？

王小川：更通用的顾问我们也会做。

娱乐我们降低了。娱乐的目的是造虚拟世界，时间还没有到。所以我们现在可以等一等，先把通用的顾问和医生造出来。

我们想的娱乐不是跟你聊天的一个东西，而是造一个能够去创造世界、一个叙事的故事。这里缺少足够多的数据和资源训练它。

科技新闻《潜望》：聊天机器人这个市场现在是一个红海，终局会是什么样？

王小川：它是不是个市场都不知道，就别说叫红海市场了。

科技新闻《潜望》：大模型创业“六小龙”能活几家？

王小川：至少活一家吧。

科技新闻《潜望》：怎么看字节和大模型创业公司的竞争？

王小川：字节就饱和式攻击嘛，在一种共识里，字节是会发展非常快。但一定有比他们更高的认知，他们看不到的东西，或者他们组织能力做不到的事，才会有创业公司生存的机会。

走出大厂的射程，在这个射程内你是没什么好活的。

王小川评OpenAI o1：国内大模型达到相似水准，需要9个月
来源：互联网发布日期：2024-09-26 20:24:03 浏览：3679次

相关内容

AiLab云推荐

最新资讯

本月热点

热门排行

推荐内容

在线客服

热门栏目HotCates

关于我们

版权声明

王小川评OpenAI o1：国内大模型达到相似水准，需要9个月 来源：互联网 发布日期：2024-09-26 20:24:03 浏览：3679次