对话创新工场CTO王咏刚：国产大模型评分超越GPT？其实不靠谱-人物报道-人工智能实验室AiLab-中国人工智能网-Powered by AiLab.cn

导读：《AI未来指北》栏目由腾讯科技推出，邀约全球业内专家、创业者、投资人，探讨AI领域的技术发展、商业模式、应用场景、及治理挑战。腾讯科技文 / 李海丹 2023年已走完了大半，各大科技公司在大模型上的比拼还在继续。在上半年，大语言模型给入局者们提供了...

对话创新工场CTO王咏刚：国产大模型评分超越GPT？其实不靠谱

《AI未来指北》栏目由科技新闻推出，邀约全球业内专家、创业者、投资人，探讨AI领域的技术发展、商业模式、应用场景、及治理挑战。

科技新闻文 / 李海丹

2023年已走完了大半，各大科技公司在大模型上的比拼还在继续。

在上半年，大语言模型给入局者们提供了前所未有的机会，开启了一场“百模大战”。不论是科技巨头还是创业公司都纷纷投身进常而时隔数月，经过新一轮的淘汰赛，中国大模型赛道的竞备赛已进入到“高手竞逐”阶段。

在这场对决中，主要分为两大阵营：

一边是凭借大模型，崛起的AI独角兽。以OpenAI为首，一直保持着惊人的产品发布速度，在这个领域中一家独大，并且已经逐步走入下一个大模型的阶段多模态大模型的争夺赛。OpenAI近期更新了多模态进展，发布了DALL-E3并解禁了GPT的多模态能力，将与谷歌等科技巨头们开启一场多模态较量。

另一边是以科技巨头为主。国外的巨头争霸可谓是愈加猛烈，近期Meta发布了多模态AI大模型AnyMAL，谷歌也公布了大语言模型Gemini，计划于今年秋季和用户见面。在国内，各自的产品已悉数纷纷亮相百度的“文心一言”、百川智能的“百川大模型”、华为盘古大模型等陆续开放上线。虽然大模型已经百花齐放，但是国内的这波入场者仍在追赶的路上。

面对如此之多的大模型，市场如何判断大模型的含金量？国内的大模型和OpenAI的技术差距还有多远？即将展开的多模态大战中，谁将胜负？本期《AI未来指北》科技新闻专访了创新工场CTO兼人工智能工程院执行院长王咏刚，有以下核心观点：

① 目前国内还没有模型可以比肩GPT-4的水平，想要超越OpenAI和谷歌是很难的，最难以追赶的是整个模型训练架构中，对工程技巧的理解，主要体现在训练数据、模型架构和训练优化三个方面。

② 目前多模态领域非常火热的生成式任务，暂时还比较难纳入到大语言模型的核心架构里。统一的多模态大模型如GPT-4，主要还在努力完成多模态理解和跨模态信息迁移这两方面的工作。

③ 未来超级AI的竞争大概还是会在OpenAI、Google、微软、Meta这些巨头间展开。谷歌和OpenAI的多模态大战中，其决战胜负取决于一年内的产品化速度。

④ 对于大模型，有一个新的研究方向叫“AI for Science"希望AI可以帮助科学家更好的认知这个世界，AI能够最终可以实现自我改进、自我设计和自我演化。

｜以下为文字精华版，在不改变原意的前提下有删减调整：

01 大模型不同的工程技巧带来差距，市场打榜评分目前并不靠谱

科技新闻：国内各大语言模型的都在陆续推出，您认为目前整体的技术水平是如何的？我们和Open AI、谷歌等公司的技术差距还有多大？

王咏刚：目前国内开发的大型模型，很多通过可用的接口，展现了各个不同方向的应用能力。但整体来看，目前还没有模型可以比肩GPT-4的水平，今年国内达到这个水平可能有一定的难度。

不过，要达到GPT-4的标准能力并不需要很长时间，可能一年到一年半的周期，大多数技术含量较高的团队都可以达到GPT-4的水平。个人判断GPT-4中不存在一些非常难以逾越的技术障碍，它更多是资金和工程实践中反复迭代，核心是需要一些时间和数据规模的积累。

但如果我们要超越OpenAI是很难的，其中最难以追赶的是整个模型训练架构中，对工程技巧的理解。这些工程技巧是OpenAI团队通过大量的反复迭代和实验积累所得到的经验。即使是GPT的核心算法的发明者Google团队也没有完全掌握所有这些经验，因此在产品方面，Google的表现可能相对较弱。总的来说，这些工程经验并不存在一个科研上完全不可逾越的鸿沟，但它们需要时间的积累和打磨。

另外我们也需要关注的是，虽然行业中大家都在强调模型的数据之“大”，但人工智能的模型和规模已经开始达到不容易控制的阶段，那么现在我们再去扩展数据的规模，比如从百亿参数扩展到万亿参数，这种路径是否还可以达到理想的结果，我们训练AI的这条路径是否还可行或者可以得到正向提高，这是一个特别大的挑战。在未来，可能会分化出3-4种不同的技术路径来竞争，我们才能得出哪种路径可以训练出人类想要的AI。

科技新闻：您刚提到关于工程技巧方面的差距可以详细说一下吗，有哪些核心的影响因素？

王咏刚：具体来说，主要体现在训练数据、模型架构和训练优化三个方面：

训练数据方面：比如Llama 2的开源，大家在这个基础架构上的改进尝试越来越多。我们发现，训练数据的质量对模型输出的质量影响非常大。如何选择、清洗、准备训练数据集，实际上已经成为同类大语言模型之间，能力差异的一个核心因素。例如很多团队已经发现，如果能在版权许可的范围内使用大量图书内容做训练，由此得到的大语言模型的推理能力，会比仅用网页文本做训练的模型强。

模型架构方面：如果有人在互联网上公开了有关GPT-4模型架构设计的一些信息（即GPT4的架构是混合专家模型MoE），虽然很难证实这些描述的真伪，但从行内人看来，这些信息里的不少关键点是符合技术逻辑的。当我们为了不断推进模型的推理能力，试着建立一个数万亿参数的复杂结构时，类似MoE的模型架构肯定是一个优先选项。但是如何顺利设计和运行一个MoE架构，这里面有大量复杂的工程问题。超参数的数量非常多，很多影响模型架构的超参数选择，并没有理论上非常直截了当的计算或优化算法，不得不依赖于反复的工程实验。

训练优化方面：目前的大语言模型已经把显卡集群的使用推到了一个前所未有的水平，未来的多模态单一模型会需要更多的显卡。而如何管理一个复杂架构模型在许多块显卡上的整个训练过程，这是一个非常深的专业话题。把一个复杂的Transformer模型拆解开，静态或动态部署在多块显卡上，并追求最高的运行效率，这可能是过去数十年计算机领域处理过的最复杂的并行计算问题之一。像微软的DeepSpeed和创业项目ColossalAI这样的训练优化工具，它们自身就是庞大的工程项目，有大量复杂的代码逻辑。

科技新闻：目前，很多大模型都标榜在得分上有数项超越了GPT-3.5乃至GPT-4，这是否能说明这些大模型的水平？

王咏刚：虽然科研界已经制定了一些称为基准的评估标准，但这些标准通常只能评估特定任务子集上的表现。科研界对模型智能程度和帮助程度的评判与普通人的感知可能不一致科研界更注重技术指标，而普通人更关注模型在实际工作中的帮助程度。

因此，有些模型可能在排行榜上位列前茅，但在实际使用中表现笨拙、不理想；而有些模型可能在某些方面的涌现能力做得不错，使用体验非常好却排在靠后的位置。对于大型模型的评估目前还没有一个严格且公认的标准。如果非要进行比较的话，我们可以参考GPT-3.5的水平进行对比，其实仍存在差异。

02 多模态面对两方面挑战，理想的AI能够实现自我演进

科技新闻：技术积累差距既然短时间内很难突破，我们如果要更快赶超可能需要靠创新，您认为大语言模型的下个突破会在哪些方向？

王咏刚：从发展形式来看，未来的通用智能一定是多模态智能。未来的技术方向将从单一的文本和语言文字发展到声音、光学、电子、三维视频、图形动画等多模态世界，这是一个基本的判断。在这个发展路径上，AI将不断进步，以更好地理解和应用多模态信息。

目前有一个新的研究方向，我们叫“AI for Science"（为打造科学界的AI，或者说打造辅助科研的AI），就是当有逻辑的AI被训练出来后，希望AI可以帮助科学家更好地认知这个世界，这是一个非常有趣的探索方向，这也与多模态的发展紧密相关，AI需要了解、学习和感受捕捉到的信息，再帮助科学家们发现问题。据了解，这个方向OpenAI和谷歌应该都在研究中，但目前还在较为初级的发展阶段。

能够不断进步的AI必然是在真实的世界环境中获得知识、吸收人类反馈的，并且一个自我演化的AI肯定会需要多模态能力的支撑。我们身边的真实世界是一个多模态的世界。比如如果想让一个超级AI学会自动驾驶，那光让AI去学习交通规则的文字信息肯定是不够的，只有让这个AI亲自在虚拟路面环境中学习驾驶，从虚拟环境的2D、3D世界里得到图像、视频、3D方位、物理碰撞事件等反馈信息，这个AI才有可能在驾驶技能上不断提高。

总的来说，我们希望能够最终可以真正做出一个可以自我改进、自我设计和自我演化的AI，这可能是很多科研工作者，梦寐以求的一个局面。如果一旦这方面有进展，会是一个特别有趣的未来。

科技新闻：您认为现在主流的多模态实现有哪些技术路径？哪类在行业之中被认为是更有前景的路径？

王咏刚：目前多模态领域非常火热的生成式任务，暂时还比较难纳入到大语言模型的核心架构里。新近发布的ChatGPT与Dall-3的组合，类似在两个模型之间做的工程连接，用ChatGPT的强大语言能力生成专用于Dall-3的文本提示，然后再交给Dall-3完成最终的图片生成任务。

视频生成是非常有趣也拥有巨大应用前景的热点。视频生成的基本思路仍然是使用Diffusion架构，训练大量视频数据。但模型结构的设计、训练数据的选择仍会显著影响最终的模型效果。例如，Pika Labs最新发布的文生视频算法，在很多方面都给我们带来了惊喜，效果在很多方面要比Runway的Gen-2好。一些从视频原始信息提取的高层次信息，如人物骨骼动作、场景深度等，也可以被不同模型架构巧妙使用，解决特定问题。

3D领域有更大的算法设计空间。Google的DreamFusion是目前的主流文生3D算法基于2D图片生成算法得到的先验信息，在3D隐含场中将随机初始空间逐渐训练成3D模型的完整表示。zero-1-to-3是在这个算法路径上的一次重大改进，利用3D数据集生成的带有准确相机参数的图片提高2D先验信息的各向一致性，把文生3D的质量一下子提高了一个数量级。但因为3D生成任务的复杂性，其他文生3D的思路，如直接基于3D模型做训练，或针对特定领域的3D模型做Mesh优化和Texture生成，也都是目前3D领域的活跃技术方向。

科技新闻：刚您提到了多模态智能的发展趋势，最近OpenAI和谷歌也在竞争和抢发多模态大模型。从单一转向多形式到多模态信息的融合中，会面对哪些挑战？

王咏刚：目前多模态AI的技术进展状态，像极了2017年前后的NLP领域。2017年是Google提出Transformer技术的时间，也是NLP科研领域百花齐放，多路径同时迭代，上下游任务各自突破的时代。

GPT在自然语言处理领域取得了巨大的突破，达到了一个平台级的高度。这是一个非常重要的进展，但这并不意味着终结，而是迈向了多模态的未来。在GPT等模型的发展方面，我们采用了一种核心算法，即Google提出的Transformer模型。

目前，最新的研究者开始将Transformer模型应用于多模态领域，用于对图像、视频、动画序列和声音等进行编码。这一方法在许多科研方向上取得了出色的结果。甚至有科学家提出只使用Transformer技术，将混合的图片、视频、3D动画、文本和声音等综合训练数据训练成一个单一模型，也就是所谓的“多模态单模型”，这成为一些科学家追求的方向。

统一的多模态大模型如GPT-4，主要还在努力完成多模态理解和跨模态信息迁移这两方面的工作。例如，GPT-4可以理解图片中的语义信息，可以识别出一张图片为什么可笑，主要是将图片的embedding信息和文本的embedding信息在一个统一的高维空间内做对齐并做联合推理。目前GPT的多模态能力还比较初级，离实际的场景应用还有一定的距离。

这里主要有两个方面需要我们思考，分别是对多模态信息的编码表达，以及跨模态思考：

首先，在处理简单的文本信息时，我们使用GPT可以处理。比如我们可以将文本转化为类似于ABCD或12345的编码序列，这样的编码序列相对容易处理。然而，对于图像、视频和三维世界等多模态领域的任务，如何进行编码是需要解决的一个问题。如果我们无法良好地表示每种多模态信息，以使AI能够轻松理解，很显然我们也无法让AI在多模态世界中进行思考。

跨模态思考方面，就是当我们对不同形式的信息已经学会了表达，但如何用AI自动将它们正确地连接起来，这是一个非常有趣的问题。如果能够正确连接起来，并结合之前提到的统一编码能力，AI的逻辑推理就可以在不同模态之间进行。

03 多模态竞争取决于产品化速度，新入局玩家机会渺茫

科技新闻：目前谷歌和OpenAI在较量新一轮的多模态竞争, 您认为在这个领域会呈现怎样的竞争趋势？这里是否会产生新的机会？

王咏刚：世界范围内，超级AI的竞争，大概还是会在OpenAI、Google、微软、Meta这些巨头间展开，还有Anthropic的Claude有一定竞争力。至于目前竞争最为激烈的OpenAI和Google谁会胜出，可能取决于OpenAI后面一年内的产品化速度OpenAI是否能在技术领先Google半步的时间窗口内，迅速将领先技术打造成大众普遍接受，几乎每人每天都会使用的产品。实际上，美国使用ChatGPT的人数目前还远少于使用Google搜索的人。这是OpenAI的最大劣势。

国内的超级大模型大概会在3-4家互联网巨头和3-4家头部创业团队的充分竞争中逐渐完成市场布局。新入局的通用大模型创业者，机会渺茫。B2B业务领域内的专用大模型、可私有部署的大模型，会呈现百花齐放的局面，竞争既会异常残酷，又很难形成赢家通吃的格局。

科技新闻：从年初GPT的火爆到现在，十个多月的时间，入场大模型的玩家越来越多，您感受到国内创业市场的竞争环境是如何的？

王咏刚：在大语言型模型创业是一件非常激动人心的事情，不论是在国内还是国外，这个领域发展十分迅速，我唯一担忧点是自己的时间不够用。

目前有很多人选择从事大模型的创业，他们相信这些创业项目将有不同的资源和未来的发展路径。不过，大家需要相对冷静地对待这个行业未来的发展，技术的进步需要一个漫长的过程。目前的大型模型仍然没有达到我们期望的智能水平，没人能准确预测能达到满意水平的时间。因此，在更长的时间尺度上，我们应该保持开放的心态，并积极拥抱这些创新技术。

科技新闻：目前中国公开发布的AI大模型数量已近百个，令人眼花缭乱，创新工场作为投资机构，如何判断一个大语言模型的能力和“含金量”？

王咏刚：直观的来看，一个大模型越“聪明”，它的含金量就越高。比如说这个模型是否具备像某个年龄段小孩的智慧，能够与人进行对话、推理和思考，并且可以解决问题，这是衡量它含金量的一个重要指标。

从科研角度来看，目前市面上的大模型有两种主要类型：一种是从零开始构建一个标准模型，该模型的能力与GPT-3.5或GPT-4相当；另一种是基于现有的开源模型或开源数据，在此基础上进行增量学习或进一步技术调整，得到适用于特定用途的模型。

从科研和未来平台主导权角度看，前者含金量更强。虽然目前创业公司很多，但从头开始训练一个大模型的团队，在全球都是相对较少的，训练一个大模型所需的技术难度、计算资源和资金要求非常高。目前领先的大语言模型公司，它们的融资额往往在数十亿美元甚至数百亿美元级别。

反过来说，从商业角度或产品开发角度来看，含金量则变成了另一个问题，含金量最高的模型是最能够满足用户需求的模型。例如考虑一个完全私有领域的情况，该领域需要解决的是专用领域的数据，因为专用领域的数据往往是封闭的，甚至大模型产品如GPT或Google的Bard可能都没有接触过。在这种情况下，引入GPT这样的大型模型显然不合适。相比之下，基于一个相对较小的开源模型、假设协议允许的话，将领域数据集合到该模型中进行增强训练，可能得到领域相关的含金量最高的结果。因此，从科研和商业两个角度来评估并选择最合适的模型。

科技新闻：从投资人的角度看，您认为大语言模型的行业价值主要体现在哪些方向？

王咏刚：从创业市场来看，新一代AI技术驱动的公司，可以大致分为基础模型层、架构层和应用层。

目前，基础模型层维度，大语言模型的创业公司融资热度很高，但除了大语言模型，基础模型层还涉及多模态模型和其他技术模型层，这些领域的创业者都有机会拥抱技术趋势和商业落地的更多可能；架构层则需要关注如何更好地发挥基础模型层的价值，将其应用到实际场景中，包括编程框架、训练框架和推理框架、相关的云服务等，这些领域具有良好的创业潜力；在应用层，可以大致分为企业端和非专业端（个人或普通用户）的应用，也可以分别被称为是B2B端和B2C端，我们也在关注其中的产品逻辑和技术应用。

从投资机会来说，在基础模型层方面，就大语言模型而言，中国已经进入到了“百模大战”的赛马赛程的中后段，能真正跑出来的公司预计屈指可数，因此是一个风险与收益同样都很巨大的赛道。相对而言，中间（架构层）与应用层的投资机会可能会更多，我们可探索B端和C端应用的细分赛道的未来投资机会。

对话创新工场CTO王咏刚：国产大模型评分超越GPT？其实不靠谱

书籍《AI我知道》王咏刚著

对话创新工场CTO王咏刚：国产大模型评分超越GPT？其实不靠谱
来源：互联网发布日期：2023-10-11 19:29:05 浏览：4527次

相关内容

AiLab云推荐

最新资讯

本月热点

热门排行

推荐内容

在线客服

热门栏目HotCates

关于我们

版权声明

对话创新工场CTO王咏刚：国产大模型评分超越GPT？其实不靠谱 来源：互联网 发布日期：2023-10-11 19:29:05 浏览：4527次