【编者按:随着著名的斯坦福大学的虚拟小镇 (Smallville) 项目正式开源,越来越多的人开始关注智能体(AI Agents)的发展。而基于大语言模型的智能体则是AI领域接下来重要的应用方向,也引起越来越多的 AI 从业者的重视。IT博主 Shawn Wang发表了名为“The Anatomy of Autonomy: Why Agents are the next AI Killer App after ChatGPT(自主性的剖析:为什么在ChatGPT之后,智能体将成为下一个颠覆性人工智能应用)” 的文章,探讨了自主人工智能的前景和重要性。作者还比较了自主AI与自动驾驶汽车的发展类比,强调了自主AI正处于发展的早期阶段,为读者呈现了一个值得期待的未来愿景。我们特将该内容编译出来和各位客户、合作伙伴朋友分享。如需转载,请联系我们(ID:15937102830)】
“GPT是通用目的技术”,但每个GPT都需要一个杀手级应用。个人计算需要VisiCalc,智能手机带来了Uber、Instagram、Pokemon Go以及iMessage/WhatsApp,mRNA研究使Covid疫苗得以快速生产。
GPT-3后的AI浪潮不仅仅是“炒作”,最有力的指标之一是杀手级应用已经显而易见,每个应用程序的机会都超过1亿美元:
用于写作的生成文本- Jasper AI在2年内实现从0到7500万美元的年度重复销售额(ARR)
非艺术家的生成艺术- Midjourney/Stable Diffusion Multiverses
用于知识工作者的协作伙伴- GitHub的CopilotX和“Copilot for X”
对话式人工智能用户体验- ChatGPT / Bing Chat,以及以及大量小众需求的文档问答初创公司。
我将所有这些作为背景,来暗示:第五个杀手级应用已经出现,那就是自主智能体(Autonomous Agents)。
但首先,像往常一样,让我们从概要开始,以便让那些不了解情况的人能够跟上。
自主人工智能简史
每一次微小的卷积都可以使我们变得更聪明
根据我对神经生物学的理解,每一次对大脑进行微小改进的卷积都会让我们变得更聪明一点。类似地,人工智能通过“卷积”来进步,在回顾过去的过程中,我们通往今天的道路是显而易见的。我想将其绘制出来:
关键的自主能力按大致的时间顺序排列:
基础模型:
一切都始于大规模LLM(通过API或开源)的进化和广泛普及。这些模型的庞大规模最终使以下三个主要特征成为可能:
完美的自然语言理解和生成
世界知识(1750亿个参数可以存储320GB,相当于15个维基百科)
出现了类似上下文学习的重要能力
这导致了早期提示工程师的崛起,比如Gwern Branwern和Riley Goodside等人,他们探索了创造性的单次提示。
能力1:元认知(纯推理的自我改进)
Kojima等人(2022年)发现,只需在提示中加入“让我们一步一步思考”的话语,就可以显著提高GPT3在基准测试中的性能,后来发现这是因为在更难的任务中外部化了工作记忆。
wei等人(2022年)将一系列思维链提示技术,进一步提高了基准测试的性能。
wang等人(2022年)发现,在多个思维链中进行多数投票,即使在常规思维链无效的情况下,也能发挥作用。
出现了越来越多的技术,如使用前校准、自我提问、递归批评与改进、自动提示工程等。
能力2:外部储存器(从主要静态外部数据中读取)
上下文/少量样本学习的能力可用于廉价更新基础模型,超越其知识截止日期,并将注意力集中在特定领域的私有数据上。
有限的上下文长度的约束导致需要嵌入、分块和链接框架,如LangChain,以及像Pinecone(现价值7亿美元)、Weaviate(2亿美元)和Chroma(7500万美元)之类的向量数据库。
另一种使用自然语言来访问和回答关系数据库问题的方式是SQL文本公司,其中包括Perplexity AI(2600万美元A轮融资)、Seek AI(750万美元种子轮融资),以及包括CensusGPT和OSS Insight在内的众多其他方法。
能力3:浏览器自动化(沙盒式浏览器读写)
Sharif Shameem在2021年首次展示了GPT-3自动化Chrome购买Airpods的功能。
Adept以由Transformer论文作者组成的全明星团队筹集了A轮融资,并推出了ACT-1 Action Transformer(尽管Vaswani等人已经离开,但现在已经进行了3.5亿美元的B轮融资)。
一年后,Nat Friedman的NatBot将浏览器自动化重新引入了时代,展示了智能体如何通过一条自然语言指令在谷歌搜索和地图中进行餐厅预订。
Dust XP1也发布了,但只能读取,没有进行任何自动化。MULTION走得更远,现在也在ChatGPT插件商店中。
浏览器智能体的一个不错的变体是桌面智能体Embra AI在这里似乎最受瞩目(尽管仍处于发布前),而Rewind AI可能是下一个。
看起来,多模态GPT4的视觉能力能够在这里极大地促进桌面智能体,尤其是在没有可用的可访问性文本或DOM的情况下。
能力4:工具制作和工具使用(服务器端,与一切相连)
搜索。从记忆的世界知识中生成的答案,或者从数据库中检索并放入上下文中的内容,永远不会像只是搜索互联网一样及时更新。OpenAI通过WebGPT打开了这个潘多拉盒子,展示了他们对于爬取网页、概括内容并附带引用回答的解决方案(现在在ChatGPT插件和Bing Chat中已上线,但在Dust和其他工具中也得到了复制)。
编写可运行的代码。我们知道GPT-3可以编写代码,但需要像Riley Goodside这样的勇敢灵魂,才会要求它生成针对已知糟糕能力(如数学)的代码,并运行生成的代码。Replit被证明是这种能力增强风格的完美托管平台(另一个例子在此)。
ReAct。Yao等人(2022年)创造了ReAct模式,引入了一个极为简单的提示模板,使LLMs能够在给定一组工具的情况下,可靠地进行推理+行动的选择。Schick等人(2023年)引入了Toolformer,专门训练了一个带有特殊标记的模型,但这似乎并不那么流行。
多模型方法。正在探索模型调用其他具有它们没有的能力的模型,例如HuggingGPT / Microsoft JARVIS和VisualChatGPT。
自我学习。执行API的自我学习智能体(SLAPA)搜索API文档,以教会自己如何使用工具,而不仅仅是何时使用。这种方法被用于ChatGPT插件的OpenAPI(曾用名Swagger)规范中,该规范还使用了自然语言。
值得一提的是,我们基本上已经实现了6个月前JohnMcDonnell在这篇优秀的帖子中提出的完整愿景:
那么,在最近的这一能力突飞猛进中,我们看到了什么新的东西呢?
我认为线索就在BabyAGI中自然演化出的4个智能体(向上滚动以查看图表):
“上下文智能体”(能力1 + 2)可能是LlamaIndex和Langchain都在努力开发的数据增强检索的更智能版本。Yohei添加了“相关(任务)上下文”的需求,这可能与向量数据库提供的经典语义相似性算法略有不同。
主动学习可能会重新受到青睐,因为自治的“上下文智能体”会积极地展现出他们不知道的事情,以进行优先级排序。
“执行智能体”调用OpenAI或任何其他基础模型,并可以选择制作或使用任何提供的工具来完成任务(能力3 +4)。
“任务创建智能体”会创建任务,但不能产生幻觉,必须自我批评并从以前的任务中学习(能力1 + 2)。这是一个具有挑战性的任务,但不超出简单常识基准的范围。
最后一个智能体是“优先级智能体”。啊!一个新任务!
这导致我们确定...
能力5:规划、反思和优先级排序
Shinn等人(2023年)展示了具有动态内存和自我反思功能的自主智能体“Reflexion”在GPT-4基准测试中可以显著提高。
Shoggoth the Coder赢得了最近的ChatGPT插件黑客马拉松大赛,作为一个能够提出和提交开源项目的PR修复的独立智能体。
Meta的Simulacra论文展示了自主NPC智能体在类似游戏的环境中相互交互的有趣潜力。
无论用例如何,人们都会期望自治智能体能够更加深入地进行规划,优先考虑任务列表,反思错误,并将所有相关上下文保留在内存中。“AGI的火花”论文特别指出,GPT-4的一个显著弱点就是规划,这意味着在这方面我们可能需要进一步推进基础模型才能保证可靠性。
最近的LangChain Agents网络研讨会讨论还强调了需要具备堆叠智能体和协调智能体之间的能力。
在潜在空间社区中,AI虚拟软件开发平台e2b已经在讨论拥有AI开发者工作人员团队的潜力。
为什么自主人工智能是必杀技
技术的进步是思考
是什么让软件对人类有价值?在我的投资和职业建议中,我喜欢鼓励人们发展一个“软件价值理论”。
软件最明显的价值驱动因素之一是自动化。我们所有人都永远不会拥有足够的货币,时间,而能够淘汰人类努力,无论是通过巧妙的系统设计,雇佣他人还是编程机器,都会释放我们的时间,并通过并行执行更多任务来提高我们的产出能力。事实上,这可以被视为技术和文明的核心定义:
“文明的进步是通过增加我们无需考虑就能执行的操作数量来实现的” - 阿尔弗雷德诺思怀特黑德。
自动化与主治之间的关系微妙但重要:
没有您的输入,ChatGPT就无法执行任何操作,但一旦您输入了正确的提示,它可以为您做很多研究,尤其是使用插件
默认情况下,AutoGPT需要您输入一个目标并点击“是”以批准它采取的每一步,但这比编写响应要容易得多
AutoGPT还有有限(运行N步)和无限(无限运行)的“连续模式”,这些模式完全自主,但很可能出错,因此必须进行密切监控
我们刚刚解释了技术和文明的进步需要我们能够在不考虑的情况下做事情,因此显然,具有尽可能多的信任和可靠性的完全自治是最终目标。让千千万万的智能体绽放!大多数人都从AI助手开始,但Josh Browder正在开发AI律师,Replika正在开发AIWaifu,我想要AI初级开发人员和AI视频、播客和通讯编辑,Karpathy希望我们继续与AI C-Suite合作。
幸运的是,我们不必从头开始推理出这个进展的每一步,因为汽车工程师协会在将近十年前为此建立了一种简化方法:
我会假设您对一些自动驾驶汽车的讨论有所了解,但是现在是时候了解,2023年的自主驾驶AI智能体大约处于自动驾驶汽车在2015年左右的水平。我们开始在我们使用的东西中加入了一些智能,比如Copilot和Gmail的自动完成,但这些都是非常轻量级的,我们的隐喻性“双手”始终保持在10点和2点的位置。
在接下来的十年里,我们将对我们的智能体产生足够的信任,从一个AI对多人的范式转变为一个AI对一个人,然后再转变为一个人对多个AI,这个过程将加速类似于从1960年代到2010年代计算产业化的版本,因为在比特与原子之间进行迭代和操控更加容易。
在自治人工智能领域,将会有两种不同的观点或流派:
就业派(Jobs School):AI智能体增强您的智能体能力,就像是“为你的思维提供的自行车”。
扎克派(Zuck School):AI算法取代您的智能体能力,控制您的思维。
我们会尽力将我们的努力引导到前者,但并不总是会成功。
Auto-GPT概要
提示工程的下一个前沿
Auto-GPT(以及其年轻的兄弟BabyAGI)是独立开发的Python项目,分别于3月30日和4月2日开源,已经引起了巨大的关注。在过去的两周中,Auto-GPT在Twitter和GitHub上都趋于第一的热度(远远超过了其他所有开源AI项目,包括Segment-Anything、Stable Diffusion,以及现在由Sequoia投资、估值2亿美元的LangChain)。
这两个项目都不涉及基础模型的训练,实际上也没有任何深度机器学习创新;相反,它们展示了将现有的语言模型API(如GPT3、4或任何替代品)和推理/工具选择提示模式无限循环地应用,以执行潜在地无限长时间运行的迭代工作,以实现人类用户设定的高级目标。
我们确实是指“高级” Toran Richards 最初为 Auto-GPT 做的演示是“一个旨在自主开发和经营企业,唯一目标是增加您的净资产”的AI,而 Yohei Nakajima 编写了 Jackson Fall 在ChatGPT 上的病毒式 HustleGPT 提示,并告诉它“开始并发展一家移动AI初创企业”。在此后的两周里,社区成员构建了扩展、克垄智能体管理器、框架、ChatGPT插件和可视化工具包等,应用领域包括市场研究、测试驱动开发和科学文献审查。
除了这些相似之处,这两个项目在方法上有很大的不同。
BabyAGI 故意设计得很小,添加和剥离了 LangChain,其初始代码不到150行,10个环境变量(现在约为800行代码)。
而 Auto-GPT 则更加广泛(7300 行代码),具备克隆 GitHub 存储库、启动其他智能体、语音交流、发送推文和生成图像的功能,需要50个环境变量来支持每个向量数据库和LLM提供商/文本到图像模型/浏览器。
这些项目也引起了人工智能专家的想象力,Andrej Karpathy 称AutoGPT是“提示工程的下一个前沿”,而Eliezer Yudkowsky赞许地观察到BabyAGI即使在提示时也拒绝将世界变成回形针。
一款AI生成头像工具,可以生成各种风格的头像,快来试试吧~
源于硅谷、扎根中国,上海殷泊信息科技有限公司 (MoPaaS) 是中国领先的人工智能(AI)平台和服务提供商,为用户的数字转型、智能升级和融合创新直接赋能。针对中国AI应用和工程市场的需求,基于自主的智能云平台专利技术,MoPaaS 在业界率先推出新一代开放的AI平台为加速客户AI技术创新和应用落地提供高效的算力优化和规模化AI模型开发、部署和运维 (ModelOps) 能力和服务;特别是针对企业应用场景,提供包括大模型迁移适配、提示工程以及部署推理的端到端 LLMOps方案。MoPaaS AI平台已经服务在工业制造、能源交通、互联网、医疗卫生、金融技术、教学科研、政府等行业超过300家国内外满意的客户的AI技术研发、人才培养和应用落地工程需求。MoPaaS致力打造全方位开放的AI技术和应用生态。MoPaaS 被Forrester评为中国企业级云平台市场的卓越表现者 (Strong Performer)。