划重点
01OpenAI低调发布新研究作品Swarm,旨在探索轻量级、可扩展、可定制的多代理协作模式。
02Swarm提出了「routine」和「handoffs」概念,用于表达agent之间的任务传递。
03然而,Kye Gomez指控Swarm从名字到框架均抄袭其创业项目 Swarms,引发超过20万围观。
04OpenAI官方表示Swarm仅作为实验性质框架,不质保,实用需谨慎。
05事实上,Swarm与Kye Gomez的创业项目在名字和部分常用指令上存在重合,但框架和内容上有明显差异。
以上内容由腾讯混元大模型生成,仅供参考
或许是前段时间风头太盛,周末时,OpenAI 静悄悄发布了新的研究作品:Swarm。一反之前的架势,这个新作只在官网的 Cookbook 和 Github 发布,官推都没有多讲。
除了非常安静和低调,开发人员还反复给自己叠甲:这只是一个实验性质的框架,只作为分享和教育用途。官方不质保,实用需谨慎!
明明已经这么低调,一出来还是被碰瓷了。关注 AI 第一新媒体,率先获取 AI 前沿资讯和洞察什么是 Swarm?Swarm 旨在探索轻量级、可扩展、可定制的多代理协作模式。OpenAI 的研究人员,提出了「routine」和「handoffs」概念,用来表达 agent 之间的任务传递。然而 Swarm 才发布一天,麻烦就找上门来:一个二十多岁的开发者 Kye Gomez 发推称,这个新作从名字到框架,全都是抄袭他的创业项目 Swarms。
这条控诉吸引了超过 20 万的围观,不过,围观群众都很冷静,要求 Kye 提供更明确的证据,并且质疑他提出的诉求:「除非 OpenAI 投资我们」,这什么东西啊?很快就有网友翻出他的碰瓷前科。而且,从两边在 Github 上发布的 README 文档来看,显然也是 OpenAI 更靠谱一点。
我把文档送进了 ChatGPT,用最新的 o1 做了一下分析,OpenAI 提出了更详实和具体的想法。至于说项目重名和一些常用指令重合,比如.run()这就像是有人说自己的数学考卷被抄袭了,因为两边的答题框里都有个「解」字 。OpenAI 的 Swarm 框架里,重点梳理了在多代理模式里的各种成分,并且提出了两个关键概念:例程 (routines) 和交接 (handoffs),还提供了很多便于理解的例子。例程可以把它理解为由不同步骤组成起来的一套「基本操作」,比如,你搭建了一个购物助理,那么你就可以规定一套流程作为例程。
但是一个 agent 能做的事,再多也是有限的。更何况大语言模型本身,多多少少会出幻觉。所以需要不同的 agent、不同的 routine 之间有所交接。
就像一场接力跑,一个选手跑完一段,就要交接到下一个选手手上,而且要保证平稳,不能掉在地上。这些才是本次发布里 OpenAI 重点关注的部分。或许说不上是什么惊为天人的大发现,但硬说抄袭,也是有点碰瓷了非要追根溯源,那得倒回几十年前。多智能体最擅长的,竟然是打游戏OpenAI 并不是才开始对多智能体协作发生兴趣的,早在 2018 年,就有过不错的表现在 Dota 2 职业比赛上,击败了资深的人类玩家。
游戏是一个天然适合用来测试多智能体的土壤,不同的角色,有不同的技能;面对不同的对手,要有不同的策略,总之,想要赢下一局游戏,势必要协调各个角色,并且组织好它们之间的协作能力。想想你打王者碰到猪队友时有多气,就知道这个难度了。
当时 OpenAI Five 涉及到的技术构件包括神经网络、自训练、强化学习等,没有时下流行的大语言模型,主要是用来试验多智能体协作。甚至,那个时候每个英雄各自背后的神经网络,并不互相沟通,而是有一个负责总控的超参数,来协调每一个英雄(主要是背后的神经网络)的表现。再往深了讲就有点太深了,总之,那几年的经历,让 OpenAI 连续三年打赢了几个 Dota2 的大赛,也在多智能体协作方面颇有收获。到了 2019 年,DeepMind 开发的 AlphaStar 在《星际争霸 2》中,水平超过了 99.8%的人类玩家。
在星际里,有人族、神族和虫族三个派系,每个派系都有多个可供操作的建筑、兵种,每局游戏也都需要经历资源采集、科技发展和实时战斗等几个流程。当时 DeepMind 发表论文时就提到,游戏是一个多智能体协作的任务,每个玩家需要控制许多单位,共同实现目标。DeepMind 所设计的 agent,每分钟操作数约为 180 次,大概等同于中级玩家。当时他们的想法是:智能体要尽可能地学习人类玩家的游戏操作,然后超越人类。这样的「类人」思路,甚至可以追溯到更久之前:早在 1972 年,卡尔休伊特(Carl Hewitt)就提出了 Actor Model(行动者模型),这是并发计算的概念模型。演员模型提出了独立计算实体(agent)可以通过消息传递进行通信的概念,为智能体之间的交互奠定了理论基矗
到了九十年代和千禧年初,agent 就更加明确的,被视为能够自主行动、决策的「赛博实体」,并且有了基于智能体信念、意图进行决策和规划的研究,BDI 模型。等到了大语言模型横空出世之后,多智能体的交互、决策沟通,从原来的黑盒,变得更容易转化成自然语言。智能体之间,也可以通过语言来讨论、协作,特别是在决策情境中,不同的智能体之间能够「有商有量」。之前我们介绍过面壁智能曾经做过的研究,也是在 Minecraft,一款沙盒游戏里不得不说,多智能体实在是太擅长打游戏了。在游戏里,不同的智能体可以直接对话来完成分工、资源互通和任务传递。大语言模型的推理和记忆能力,都能更有效地为多智能体的行动提供支援。而 OpenAI 不就在于有厉害的模型吗年初时,他们借由 ChatGPT 灰度测试过,在对话框内,可以召唤其他 GPT 插件,也算是一种多智能体协作的「平替版」。
只是效果着实不咋地,尝试了一下 Capcut 的插件,一直鬼打墙的跳转不成功(注:Capcut 是剪映的海外版)。
可以说,这一次的 Swarm 是 OpenAI 探索充分调动自己的优势强大的基座模型再进一步摸索出一个多智能体的工作流程框架。好消息是,在从 OpenAI 变得越来越「吝啬」之后。这次 Swarm 倒是开源出来了。大语言模型让多智能体系统能够以更加自然的方式与人类互动。相信在未来,这种交互绝不仅限于简单的对话,而是会更多的提高生产力。