大模型正在转向对物理智能的探索,尤其是人形机器人,正在等待自己的ChatGPT时刻。2025年开年,黄仁勋就在CES上给它添了一把火。最大的亮点是英伟达公布了Cosmos世界基础模型(WFM)系列,包括Nano、Super与Ultra。它的训练数据来自真实世界中的物理互动,2000万个小时,9000 万亿个 token。英伟达团队的论文透露,他们用1万张H100预训练了三个月。黄仁勋将它描述为一个平台,可以生成物理上合理的未来场景,定制化训练人形机器人。人形机器人企业1X、Agility和小鹏(XPENG)已经在试用Cosmos了。此外,英伟达还更新了面向机器人的Isaac GR00T框架等,实现了对人形机器人在数据、训练、模拟与推理上的研发环节的全覆盖。这几天,台湾媒体还放风称,英伟达与鸿海走得很近,后者曾投资、代工过机器人。与去年一样,黄仁勋邀请合作伙伴的人形机器人出席,与他站在一起。来自中国的人形机器人嘉宾有6位,包括星动纪元(Robotera)的Star1、智元(Agibot)的A2、傅利叶(Fourier)的GR-2、银河通用(Galbot)的G1、宇树(Unitree)的H1与小鹏的Iron,多于来自美国的3位,来自韩国、挪威、德国、以色列与加拿大的各1位。黄仁勋称,机器人的ChatGPT时刻正在到来。越来越多企业宣布旗下人形机器人已经上岗实习。但它们还不是量产的未来。通往新工业革命,人形机器人必须具备与所处环境的交互能力,具身智能要实现对物理世界的映射,同时满足泛化任务、精准交互与低廉成本的要求。未来很可能是大型世界模型的。目前汽车与物流厂商是实习最大雇主。擎天柱为特斯拉分拣电池,马斯克说它能力扩展迅速,2025年千台规模,再过一年对外销售。小鹏与小米的也出现在自家汽车工厂;宝马与奔驰各自找了FigureAI与Apptronik。Agility宣称全球首家商业部署,已在亚马逊实习一年,去年底又接到了舍弗勒的订单。但坏消息是,DHL认为它们都又贵又慢,还不适合工作。它们更像是研究对象,活跃于实验室。部分企业去年宣布售出数百台,不少就流向大模型厂商。宇树科技量产版G1,定位经济型人形机器人研发平台,低至10万元人民币。英伟达研究自适应导航模型就用到了它。智元机器人量产工厂去年10月投产,就在今天,第1000台人形机器人走下流水线,它们中的很多进入了4000平米的具身数采工厂,为产品迭代生产着数据。去年底至今,宇树与智元分别开源了人形机器人在物理世界交互的行为数据集。中国与美国都视人形机器人为新工业革命关键。在信息技术时代到来前,工厂一直是创新先驱,如今,人工智能与机器人融合在一起重塑这个行业。在未来,每个人都应该有一台人形机器人。马斯克称到2040年全球将有100亿个人形机器人。人形机器人是“具身”的通用人工智能。它既能泛化任务,也能泛化环境与本体。人工智能面临的挑战它也要克服,包括算法、数据、算力,但更大的挑战是对硬件的灵活控制,也包括突破续航的制约。目前,人形机器人的算法与硬件路线尚未统一,两者紧密耦合。不同的硬件设计影响着模型的泛化能力;无法从模型开源与供应链复用中最大化获益。还没有人确立主导。美国科技巨头与初创企业在探索通用人工智能上占据优势,中国正在成为“具身”的世界工厂。中国的机器人密度已经赶超了日本与德国,把美国甩在了后面。工业机器人本土供应链占比提升至47%。电动车与机器人产业高速发展,不少供应链可以复用;地平线、小米与华为等核心高管正转投这一领域。傅里叶GR-1型人形机器人从芯片到零部件的国产化率已经超过90%。
硬件决定了能力上限,但具身智能成熟度相对滞后,是现阶段人形机器人规模化商业化的瓶颈。中国的贡献之一就是降低了硬件成本。目前硬件已经勉强满足当下对具身智能技术探索与落地验证的最低门槛。高盛预计每年下降15%,实际去年下降40%。宇树科技认为很快人形机器人的硬件成本可能不超过2万元人民币。FigureAI相信大部分问题会随时间推移变成软件问题。物理智能与世界模型是通往AGI的关键,也是具身智能通用化的基础。自从去年开始,不少人形机器人企业专攻“通用大脑”。PI(Physical Intelligence)致力于“将通用人工智能带入物理世界”,Skild AI致力于“开发扎根于物理世界的通用人工智能”,都试图打通模型底层架构,控制任何机器人执行任何任务,成立不足1年就都跻身独角兽。穹彻智能等中国企业也紧跟不舍。大模型巨头要实现AGI,就无法缺席对世界模型的探索。OpenAI的Sora,谷歌的Genie2,以及World Labs的世界模型,都不只是在生成视频。它们在以各自的方式,生成一个既符合物理规律,又能实时响应交互的世界。OpenAI重启机器人研究后投资了PI与1X;谷歌机器人系列模型升级到了RT-H,还改进了Sim2Real技术,将模拟中的训练策略高效,低损地转移到真实场景。探索仍处于发散阶段,一如BERT与GPT,需要一个ChatGPT时刻。它很可能就在2025年。算力基础设施巨头迅速进入市场,黄仁勋宣告物理人工智能即将到来。去年,英伟达成立了GEAR团队,覆盖训练、模拟、推理;GR00T被称为人形机器人的Llama 3;端侧算力Jetson Thor今年上市。马斯克开始催台积电赶紧供货Dojo芯片。这次黄仁勋在CES上的演讲,透露了英伟达描绘的蓝图。人形机器人厂商可以通过Isaac平台,捕捉人类行为,模拟并记录为对应数字孪生的机器人行为;Nemo工具库加速数据处理,GR00T生成机器人工作流,通过Cosmos合成物理世界,在Omniverse上运行。机器人在数字世界的交互,包括数据合成与处理、模型训练与微调,都在英伟达服务器AI芯片上;机器人与物理世界的交互,都在英伟达端侧AI芯片上。不过,英伟达团队的论文也很遗憾地透露,Cosmos在面对重力、光相互作用和流体动力学时,并不能总是合成出正确的物理规律。用大型模型复现物理世界,仍然需要更多高质量的多样性的数据。中国工业数据储量丰富,尚待利用。全球超过40%的工业机器人活跃于中国工厂;中国工厂70%的制造任务由机械完成。与静态低维的多模态数据不同,物理世界的工业数据蕴藏更丰富的细节。为此,波士顿动力最近选择与丰田研究所合作。为解决工业数据分散、隐私与标准不一的治理困境,中国倡议共建具身智能语料数据生态,上海牵头多地联动,建设虚实融合具身智能训练场。
最终一切会回到硬件上。马斯克认为量产最困难的部分是改进设计,使其易于制造和构建供应链。DeepMind承认,“大脑”学会了系鞋带也不等于机器人就能系紧鞋带。很多任务都需要一双灵巧手,甚至同时满足快速、精准地处理柔性材料。相比供应链复用,相关供应链的设计与制造的外溢与复用,是更具杠杆效应的中国优势。中国与美国联手,能解决大型世界模型探索的很多问题。去年底,美国PI的π0模型搭载在中国星尘智能的S1机器人上。硅谷机器人公司K-Scale希望世界是紧密联系的大市场。本文参考《看DAO 2025》“终极智能体”,增补了最新信息。完整报告下载方式点击下方链接