【编者按:大模型涌现的能力也催生新的工程师角色:远远超越提示工程师和软件工程师。近期,IT博主 Shawn Wang发表了名为“The Rise of the AI engineer (AI 工程师的崛起)” 的文章,探讨AI 工程师角色的兴起,以及人工编程和大语言模型 (large languagemodel, LLM) 在软件3.0应用中的重要性。文章指出,基础大模型的新兴能力、开源和API的可用性正推动AI工程师这个角色的崛起,使得AI应用能够以前所未有的速度和效率解决各种问题。虽然提示工程曾被炒作,但其仍然是AI工程师工具中不可或缺的一部分。同时,AI的进步也促使AI工程师和其它工程师相互融合,直至将来无法区分。在这个充满机遇和挑战的时代,我们期待AI工程师的崭新角色将推动技术创新和产业发展的飞速前进。
我们正在目睹一次十年一遇的应用AI“向右转移”,这得益于新兴的能力和基础模型的开源/API可用性。
在2013年,许多AI任务需要五年时间和一个研究团队才能完成,而在2023年,现在只需要API文档和一个空闲的下午即可。
API的界限是渗透性的 - AI工程师可以向左转来调整/托管模型,而研究工程师也可以向右转来在API之上构建。但是,它们的相对优势和“主要领域”是清晰的。
“从数量上来看,AI工程师的数量可能会远远超过机器学习工程师和大语言模型工程师的数量。在这个角色中,一个人可以非常成功,而无需进行任何训练。” - Andrej Karpathy
然而,细节决定成败 - 在成功评估、应用和产品化AI方面,面临着无尽的挑战:
模型:从评估最大的GPT-4和Claude模型,到最小的开源Huggingface、LLaMA和其他模型。
工具:从最受欢迎的链式、检索和向量搜索工具,如LangChain、LlamaIndex和Pinecone,到新兴的自主智能体领域,如Auto-GPT和BabyAGI(Lilian Weng的必读总结)。
新闻:除此之外,每天发表的论文、模型和技术的数量随着兴趣和资金的增加呈指数级增长,以至于跟上这一切几乎成了一份全职工作。
我认真地对待这一点,我认为这是一份全职工作。我认为软件工程将孕育出一个新的子学科,专门研究AI应用,并有效地利用新兴技术栈,就像“站点可靠性工程师”、“开发运维工程师”、“数据工程师”和“分析工程师”一样涌现出来。
这个新兴且最具吸引力的职位似乎是:AI工程师。
我所了解的每个创业公司都有一些关于AI讨论的Slack频道。随着Amplitude、Replit和Notion等公司的做法,这些频道将从非正式的群组转变为正式的团队。成千上万的软件工程师正在致力于将AI API和开源模型投入生产,无论是在公司时间内还是在晚上和周末,在企业的Slack或独立的Discord平台上,他们将逐渐形成一个职称AI工程师。这很可能会成为未来十年来需求最高的工程职位。
AI工程师无处不在,从微软和谷歌等大型公司,到Figma(通过Diagram收购)、Vercel(如HassanEl Mghari的病毒式RoomGPT)和Notion(如Ivan Zhao和Simon Last的Notion AI)等前沿创业公司,再到像Simon Willison、Pieter Levels(Photo/InteriorAI的创始人)和Riley Goodside(现在在Scale AI工作)这样的独立黑客。他们在Anthropic进行快速工程提示,可以获得30万美元/年的收入,在OpenAI构建软件可以获得90万美元的收入。他们在AGI House度过闲暇的周末,分享/r/LocalLLaMA上的技巧。他们共同的特点是,他们将AI的进步转化为实际产品,几乎在一夜之间就被数百万人使用。
没有一个博士学位出现在他们的履历中。在推出AI产品时,你需要的是工程师,而不是研究人员。
AI与ML工程师的对决
我只是在提醒大家关注这一趋势,而不是发起它。在Indeed网站上,ML工程师的职位数量是AI工程师职位数量的十倍,但“AI”领域的更高增长率使我预测这一比例将在5年内发生逆转。
每个月的工作趋势每个正在招聘的HN
所有职位名称都有缺陷,但有些是有用的。我们对于关于AI和ML之间区别的无休止的语义争论既谨慎又疲倦,我们也很清楚普通的“软件工程师”角色完全有能力构建AI软件。然而,最近在Ask HN(Hacker News的问答专栏)上发布的一个问题是如何进入AI工程师领域,这说明了在市场上仍然存在的根本看法:
“如何进入AI工程”的最佳答案
大多数人仍然将AI工程视为机器学习或数据工程的一种形式,因此他们推荐相同的先决条件。但是我向你保证,上面提到的高效AI工程师中没有一个人完成了Andrew Ng在Coursera上的课程,也不知道PyTorch,也不知道数据湖和数据仓库之间的区别。
在不久的将来,没有人会推荐通过阅读《Attention is All You Need》来开始学习AI工程,就像你不会通过阅读Ford Model T的设计图来开始开车一样。当然,理解基础知识和历史总是有帮助的,并且可以帮助你找到尚未为大众所知的想法和提高效率/能力的方法。但有时候你可以简单地使用产品,并通过经验学习它们的特点。
我并不希望这种课程的“转变”会在一夜之间发生。人类天性就是希望填充简历,填写市场地图,并通过引用更深入的主题来脱颖而出。换句话说,提示工程和AI 工程在很长一段时间内会感觉比具有良好数据科学/机器学习背景的人要逊色。然而,我认为供需经济学将占上风。
为什么AI工程师现在开始崛起
基础模型是“少样本学习者”,展现出上下文学习甚至零样本迁移的能力,可以泛化到超越模型训练者最初意图的领域。换句话说,创建这些模型的人并不完全知道它们的能力。那些不是大语言模型(LLM)研究者的人,只需花更多时间与这些模型互动,并将它们应用于研究所低估的领域(例如Jasper在文案撰写方面),就能找到并利用它们的能力。
微软、谷歌、Meta和大型基础模型实验室已经垄断了稀缺的研究人才,实际上提供了“AI研究即服务”的API。你不能雇佣他们,但你可以租用他们如果你有懂得如何与他们合作的软件工程师。全球大约有5000名LLM研究者,但有约5000万名软件工程师。供应限制决定了一个“中间”类别的AI工程师将会崛起来满足需求。
GPU囤积。当然,OpenAI/微软是第一批,但StabilityAI通过强调他们拥有4000个GPU的集群,开启了初创公司之间的GPU竞争。
还记得2022年10月吗?
从那时起,新的初创公司,如Inflection(13亿美元)、Mistral(1.13亿美元)、Reka(5800万美元)、Poolside(2600万美元)和Contextual(2000万美元),都普遍获得了巨额的种子轮融资,以拥有自己的硬件。甚至Dan Gross和Nat Friedman也宣布了他们的100亿美元的Andromeda GPU集群,专门为他们投资的初创公司而设。全球芯片短缺的问题还在不断加剧。在API线的另一侧,AI工程师将有更多的能力来使用模型,而不仅仅是训练它们。
“先点火,然后准备,再瞄准”,与其在训练一个特定领域的模型并投入生产之前,要求数据科学家/机器学习工程师进行费时的数据收集工作,产品经理/软件工程师可以向LLM发出提示,构建/验证产品创意,然后再获取特定的数据进行微调。
(注:“先点火,然后准备,再瞄准” 是英语俚语,指的是先行动再考虑后果。作者在此使用这个俚语暗示AI工程师们能够更迅速地进行实际应用,而无需过多的数据预处理和训练。)
假设后者的数量比前者多100到1000倍,而通过提示LLM原型的“先点火,然后准备,再瞄准”的工作流程使您能够比传统的ML快10到100倍。因此,AI工程师将能够以1,000到10,000倍更便宜的成本验证AI产品。这就像瀑布流(Waterfall)和敏捷开发(Agile)的较量一样,AI就是敏捷的。
Python →JavaScript。数据/AI传统上是极度依赖Python的,而且最早的AI工程工具,如LangChain、LlamaIndex和Guardrails,都是出自同一社区。然而,至少有与Python开发者一样多的JavaScript开发者,因此现在工具正在越来越多地迎合这个广泛扩展的受众,从LangChain.js和Transformers.js到Vercel的新AI SDK。这意味着总地址市场(TAM)的扩张和机会是巨大的。
生成AI vs分类器ML。“生成AI”作为一个术语已经不再受欢迎,让位于其他类比,如“推理引擎”,但在简明地阐述现有一组MLOps工具和ML从业者之间的区别时仍然有用。而AI工程师则使用LLMs和文本到图像生成器,并且他们正在构建写作应用程序、个性化学习工具、自然语言电子表格和类似Factorio的可视化编程语言,与现有一代的ML可能更关注欺诈风险、推荐系统、异常检测和特征存储不同。
每当出现一个完全不同背景、使用不同语言、生产完全不同产品、使用完全不同工具的子群体时,它们最终都会分成自己的小组。
1+2=3:从软件2.0到软件3.0演进中的代码角色
6年前,Andrej Karpathy撰写了一篇非常有影响力的文章,描述了“软件2.0” - 将精确建模逻辑的“经典栈”手工编码编程语言与“机器学习”神经网络的新栈进行对比,后者近似逻辑,使软件能够解决比人类能够建模的问题更多。今年,他继续指出,最热门的新编程语言是英语,最终填补了他在原始文章中留下未标记的灰色区域。
更新:Karpathy回应了!有一些不同意见!
去年,提示工程成为了一种基本概念,描述了人们开始利用GPT-3和Stable Diffusion的工作方式将如何改变。人们嘲笑AI初创公司为“OpenAI封装器”,并担心LLM应用程序容易受到提示注入和反向提示工程的影响。没有堡垒可以找到?
但2023年最重要的主题之一是重新建立人工编写代码的作用,用以编排和取代LLM的功能。从超过2亿美元的庞然大物Langchain,到由Nvidia支持的Voyager,显示了代码生成和重用的不可置疑的重要性(我最近参加了与Harrison举行的链式应用与自主智能体的网络研讨会,在那里我扩展了代码核心与LLM核心应用的论点)。
主要的架构划分:“智能之上的软件”vs“智能软件”
提示工程既被过度炒作又稳定存在,但在软件3.0应用中重新出现的软件1.0范式既是一个巨大的机遇/混乱领域,也为一大批初创公司创造了白色空间:
如果你不能记住这个地图,你还算VC吗?
当然,这不仅仅是人工编写的代码。我最近与smol-developer、更大范围的gpt-engineer以及其他代码生成智能体如Codium AI、Codegen.ai和Morph/Rift的合作将越来越成为AI工程师工具包的一部分。随着人类工程师学会驾驭AI,AI也将越来越多地进行工程工作,直到一个遥远的未来,我们将在某一天抬头望去,再也无法区分它们的区别。