当前位置：人工智能实验室> 人工智能动态 > 生成式AI下一年，从大众亢奋走向大众建造

生成式AI下一年，从大众亢奋走向大众建造
来源：互联网发布日期：2023-12-08 10:07:48 浏览：2756次

导读：一年前发布的ChatGPT，犹如一道闪电，划开了一个智能大发现的时代。我们用IT技术上的重大转折点来比喻ChatGPT带来的影响，如world wide web时刻，iPhone时刻；以及类比为人机交互的重要突破点，如从图形界面到自然语言界面。但是这一次却很不一样。人类与机...

一年前发布的ChatGPT，犹如一道闪电，划开了一个智能大发现的时代。

我们用IT技术上的重大转折点来比喻ChatGPT带来的影响，如world wide web时刻，iPhone时刻；以及类比为人机交互的重要突破点，如从图形界面到自然语言界面。但是这一次却很不一样。人类与机器的关系，进入了关键阶段。

机器的自主性越来越强，人类追求与机器之间简单丝滑的体验，而正欢呼着把最复杂精密的过程，如编程和数学，交给智能体。以后人类动口不动手不动脑，实际上是让机器去接管技术。

在过去的一年，生成式人工智能圈内圈外，处于大发现的亢奋中。虽然主要处于技术的试验阶段和展示阶段，但是数亿用户的参与前所未有。从科技巨头到初创企业，都试图建立起新的企业组织，把研究与产品结合起来，但其中多数还处于产品化和规模化之前的阶段。

3月份发布的GPT-4，能通过美国最重要的学术和专业考试，并且在许多考试中，得分达到甚至超过人类平均水平。这也意味着，它可能替代许多人类的工作。OpenAI出具的一份研究报告，称之为能引发产业革命的“通用技术”，将影响80%的就业市常尤其是白领的就业，从程序员到设计师，可能受到较大冲击。

微软也发布了一份一百多页的测试报告，称GPT-4已经开始闪烁通用人工智能的“火花”。通用人工智能（AGI）这个概念引发了巨大的争议。“深度学习”之父辛顿、图灵奖获得者本吉奥，以及OpenAI等AI初创企业，都认为实现AGI的时间，将会大幅度提前。他们甚至提出超级智能的实现，人类如果不准备好的话，可能会面临“生存威胁”。

AGI的门槛似乎也越来越低。英伟达CEO黄仁勋认为5年可以实现，马斯克则认为3年就就行，可以写出比JK罗琳更好的小说。为此，OpenAI的苏茨克沃，准备着要在2027年前研发出“超级对齐”的技术。

2023是大模型军备竞赛的一年。中美已经控制了世界上80%的大模型，其背后是庞大的算力和基础设施。科技巨头投资初创企业，或者自己研发大模型。它在一定意义上变成了微软、谷歌、亚马逊之间的云计算对决。对初创大模型企业的巨额投资，也被戏称为是一种“云洗钱”，这些投资中的大部分其实并非现金，而是云计算服务，让这些巨头在资本市场上以AI的名义，实现更大的价值。

对生成式AI的投资，大部分都流入了通向英伟达银行账户的管道，用来采购GPU。在一场技术革命中，一家公司垄断其中最重要的基础技术和产品，史上非常罕见。硅谷的企业炫耀囤积的GPU，并以此来吸引人才，因为多数最好的AI研究人员，都习惯于在英伟达的软硬件平台上工作。在大模型的热潮中，英伟达的市值超过万亿美元，不仅成为全球最大的半导体企业，还一举成为一家科技巨头企业（Big Tech）。

生成式AI下一年，从大众亢奋走向大众建造

这一次与以往不同的地方，还在于生成式AI最重要功能，仍然处于早期阶段，而早期用户的规模，已经迅速膨胀到数以亿计。人们一边对憧憬它，一边恐惧它；一边骂它胡说八道，一边津津乐道。一个小的功能展示，就被社交媒体群起尖叫为“炸裂”。在社交媒体时代，人们以追剧的心态，参与到生成式AI的成长过程中。

AI科学家们在寻找更好的办法，来对付大模型产生的“幻觉”。大模型讲话很有套路，但往往经不起推敲。你看它在自信地预测出一个个单词，但不知不觉中，就会被较长的上下文和较复杂的任务搞得自乱阵脚。通过指令和提示中的思维链和思维树机制，可以让大模型的推理更靠谱一些。研究也发现，大模型所产生的智能，受到其训练数据集的限制，从外部检索更多的知识，越来越成为大模型记忆的重要补充。此外，语言也被认为是智能的来源之一，而不是全部。智能的学习与推理过程，也需要与物理世界互动，才能真正产生通用智能。

另外，随着对大模型“涌现”机制的深入了解，人们在相信规模法则的同时，发现目前的架构，并没有让算力和数据发挥最大效应。随着对大模型的研究越来越深入，计算效率也越来越重要。给定一组设计和超参数，以及一个固定的测试损失目标，衡量达到该测试损失所需计算量，就可以得到计算效率指标。一个更高效的模型需要较少的GPU，而效率较低的模型则需要更多，也就是更高的成本及能耗。

在领先的AI实验室那里，包括OpenAI和Anthropic这些领先AI初创企业，对“算力乘数”（compute multiplier）的追求，被看成是其秘密配方之一。他们的研究人员在努力发现新的神经网络架构，其中一个目标，是以同样的算力，取得比Transformer更好的测试损失。其他的方法包括数据集的数量与质量，新的优化算法，以及对超参数的调整，等等。

GPT-4及后来的GPT-4-Turbo，依然是公认的最好的大模型。选取中国与美国的测评榜单对照来看，到了年底，中国的大模型似乎已经赶上并有部分超越了GPT-3.5，而赶上GPT-4，要等到2024年了。

生成式AI下一年，从大众亢奋走向大众建造

Meta发布了Llama2开源大模型，以及开源模型数量的剧增，在闭源和商业大模型之外开创了一个活跃的新生态。尽管经过调优，开源模型在个别功能上可以媲美甚至超过GPT-4，但在综合指标上仍然落后。今年，中国训练出的大模型数量上超过美国，总数已近二百个，其中许多是开源的行业的垂直模型。

2023年，尽管生成式人工智能的风险融资大幅度增加，但如果去除几家科技巨头的投资，总金额仍然未能超过2021年。多数资金都用来建立生成式AI的基础设施，提升大模型的学习能力，迅速降低成本，让智能像电力一样部署，接通到各行各业，以及人们的生活、娱乐和学习中。

生成式AI下一年，从大众亢奋走向大众建造

在这方面，闭源和开源的大模型都在加快部署。OpenAI在11月初的开发者大会上推出了工具和商店，用户可以定制GPT。去中心化的开源大模型，在建立生态和推广方面具有天然的优势，它也迫使少数更先进的闭源大模型不断降低其服务价格。

大模型的通用性，让它可以产生无穷无尽的应用场景。如果说它已经压缩了人类所有的知识，理论上讲，只要人类可能所处的场景，都有可能产生它的应用。微软的研究表明，对大模型进行提示工程所展示出来的医学知识，甚至超过了再用专业的医疗知识进行的精调，这为超级智能的价值提供了新的证据。所以，大模型在具体场景实现“grounding”（落地）的潜力，给人以无尽的想象空间。

与以往不同的是，大量的研究展示在大众面前，它会加快从实验室走向产品应用和规模化，也需要一种新的企业组织方式，来推动这一创新过程。生成式AI的初创公司中，研究团队与产品团队融为一体，OpenAI和Anthropic的治理模式前所未有，而Midjourney 依靠10人初创团队就获得了独角兽的估值，最近的文生视频公司Pika，仅4人团队就已经融资了5500万美元。

大模型最终也要部署到终端设备上，才能成为名符其实的通用技术。芯片正在迅速为AI计算改变架构，用来产生更好的token/sec（每秒处理数据量）指标。大模型正在成为笔记本电脑和手机新的操作系统。上百亿参数的模型已经部署到手机上，我们可以期待包括GPT-4在内的上千亿参数的模型部署到笔记本电脑上。更多的AI原生硬件正在得以发明，如可穿戴、AR/VR等。

开源与闭源大模型之争，正如移动时代的安卓与IOS。在微软CEO纳德拉看来，移动时代是美妙的，它实现了服务的普遍消费，但它并没有转化为服务的普遍创造。

“（生成式AI）不仅仅是一种消费导向的事物。这不是关于精英创造。这是关于大众化创造。我非常非常希望我们将开始看到更广泛的生产力增益。”

2024年，我们期待看到生成式AI从大规模实验阶段，加快进入大规模应用阶段，主要表现在如下十个领域：

1，智能体（Agent）进入更多应用场景和业务流程

智能体可以是一个实体的机器人，可以是一个软件，也可以是一个自动驾驶系统，大模型是其大脑。智能体调动其他的程序、应用、知识，甚至自己编程，对更复杂的任务进行规划和管理。也将在软件行业产生深远的影响，许多人可以用经验和专业知识，通过自然语言而不限于编程代码去写软件。智能体通过RAG（检索增强生成）增强模型的长记忆，实现与任务场景的结合，也能让智能体定制化，参与工作流程，成为企业和个人更好的助手。

2，大模型与操作系统一体化，成为AI应用物种爆发的平台

大型语言模型日益操作系统化，它连接了围绕AI芯片部署的硬件和AI软件，虚拟的上下文管理技术将会类似于操作系统的分层内存系统。微软将推出Windows12操作系统，与下一代大模型GPT-5深度集成。

生成式AI下一年，从大众亢奋走向大众建造

来源：MemGPT: Towards LLMs as Operating Systems

3，生成式AI制作的影视剧大量出现，电影行业进入剧变期

图像和视频是生成式AI迭代最快的领域之一，GPT-4V等多模态大模型的推出，基于扩散模型的Dalle-3、Midjourney和Stable Diffusion的功能不断增强，LCM-LoRA等技术达到了实时生成图像和视频的效果，对影视、娱乐和广告营销创意等行业的影响是颠覆性的。生成式AI正在大批量产生短剧系列，能跨越文化和人群找到受众。2024年将大量出现由生成式AI产生的影视剧，创作者、用户以及角色之间将会出现崭新的交互方式。

4，智能驾驶Transformer架构主导的智能驾驶，中国成为主战场

在特斯拉的引领下，智能驾驶已经全面采用Transformer架构，端到端的智驾已经成为行业追求的标配。2024年，中国放开L3智能驾驶在中国试点部署，特斯拉的FSD有可能在中国落地，让中国继汽车电动化之后，成为全球汽车智能化的主战常但是，由于大模型本身还难以克服的缺陷，如幻觉和不准确等导致的安全隐患，在智驾系统提供方与消费者之间的责任划分依然关键。

5，人形机器人开始量产，并开始学会与环境互动

在已有的机器人技术之上，多模态和具身智能的大模型，不断展示出惊艳的效果。大型语言模型的推理和控制能力，与视觉模型结合，可以通过获取周围环境数据、视频数据、传感数据、合成数据等，学习人类用手脚完成任务。2024年人形机器人开始量产，开始学习人类的灵活性。

6，终端设备快速大规模AI化

随着设备端AI芯片越来越强大，小型化的大模型可以下载到笔记本电脑和手机等终端设备上，用户不仅可以更快捷地生成内容，而且可以结合具体的场景和任务，利用自己本地的数据和知识进行检索生成，建立起定制化的智能体，更快捷地进行推理，也保护了数据安全和个人隐私。新兴的AI原生终端设备也将涌现出来。

7，下一代大模型推出，开始出现专家水平的AGI“火花”

拥有人才、技术、数据、算力的Google DeepMind，将于1月份推出Gemini多模态大模型。OpenAI将推出GPT-5。关于它已经有太多传闻，但有一点是肯定的，它将是所有的模型中最接近AGI的，继续成为大模型的标杆。开源大模型Llama3会达到GPT-4水平。中国的大模型在2023年达到了GPT-3.5的水平之后，2024年将达到GPT-4的水平。

8，更多合成数据与自然数据结合用于大模型训练

自然语言数据，以及直接从现实世界事件或对象中收集得到的数据，已经无法满足下一代大模型的训练的胃口。GPT-5的训练、自动驾驶、机器人、图像生成等，都在大量使用合成数据。越来越多的数据标注也由AI来完成。但是，只使用合成数据可能会造成数据多样性不足和自循环训练的问题。合成数据与自然数据互相补充，才能提供充分多样性的数据集。

9，安全与对齐成为AGI中最重要的技术

大模型越先进，AI系统的自主性越强。当人类把越来越多的任务交给AI完成，会进一步强化AI的自主性，存在潜在的失控风险。安全正在成为大模型的内在要求。OpenAI的首席科学家苏茨克沃，用公司20%的算力，希望用4年时间解决超级智能的对齐技术。深度学习之父辛顿等一批AI专家，已经建议安全应该占大模型研发预算的三分之一。前沿大模型在发布之前，开始自愿受到政府和专业机构的安全测试。

10，智能辅导等生成式AI教育产品开始进入正规教育系统

教育界正在从本能的抵制，到慢慢了解和接受生成式AI。研究已经初步证明了大模型应用在技能培训、提升数学等学科的学习效果，也发现了Z世代（出生于1995-2010年之间）会更快接受生成式人工智能。2024年，智能辅导系统等教育产品将被学校老师采纳，帮助学生在人机结合的学习过程中更有效地学习。