机器人前瞻(公众号:robot_pro)
作者|许丽思
编辑|漠影
机器人前瞻1月9日报道,这两天,智元机器人、上海交通大学与上海人工智能实验室共同研发的机器人领域首个4D世界模型EnerVerse亮相,该模型旨在让机器人在任务指引和实时观测的基础上规划未来动作。
在机器人技术领域中,动作规划始始终是一大难题。现有的机器人动作规划方法,往往难以实现在语言、视觉和动作等多模态空间之间精确对齐,并且还缺乏大规模、多模态且带有动作标签的数据集。
对此,EnerVerse架构可以通过自回归扩散模型(autoregressive diffusion),在生成未来具身空间的同时引导机器人完成复杂任务。EnerVerse还引入稀疏记忆机制(Sparse Memory)与自由锚定视角(Free Anchor View, FAV),在提升 4D 生成能力的同时,实现了动作规划性能的显著突破。
智元机器人表示,EnerVerse 不仅具备卓越的未来空间生成能力,更在机器人动作规划任务中实现了当前最优(SOTA)表现。
目前,项目主页与论文已上线,模型与相关数据集即将开源。
一、逐步生成未来具身空间,灵活表达4D空间
EnerVerse 采用逐块生成的自回归扩散模型,通过逐步生成未来具身空间来引导机器人动作规划。其关键设计包括:1)扩散模型架构:基于结合时空注意力的 UNet 结构,每个空间块内部通过卷积与双向注意力建模;块与块之间通过单向因果逻辑(causal logic)保持时间一致性,从而确保生成序列的逻辑合理性。
2)稀疏记忆机制:借鉴大模型(LLM)的上下文记忆,EnerVerse 在训练阶段对历史帧进行高比例随机掩码(mask),推理阶段以较大时间间隔更新记忆队列,有效降低计算开销,同时显著提升长程任务的生成能力。
3)任务结束逻辑:通过特殊的结束帧(EOS frame),实现对任务结束时机的精准监督,确保生成过程在合适节点终止。
▲自回归扩散模型
EnerVerse提出了灵活的自由锚定视角(FAV)方法,以解决过去在具身操作中由于遮挡关系复杂,难以构建完美的全局视角的问题。核心特点有:
1)自由设定视角:允许根据场景灵活重置锚定视角,避免固定多视角在狭窄空间中的局限性。例如,在厨房等场景,FAV可以轻松适应动态的遮挡环境。
2)跨视角空间一致性:基于光线投射原理,EnerVerse使用视线方向图作为视角控制条件,同时将扩散模型中的2D空间注意力扩展为跨视角的3D空间注意力,确保生成的多视角视频在几何上保持一致。
3)Sim2Real Adaption:通过在仿真数据上微调的4D生成模型与4D高斯泼溅(4D Gaussian Splatting)交替迭代,构建了一个数据飞轮,为真实场景下的FAV生成提供伪真值支持。
▲自由锚定视角方法
EnerVerse 还通过在生成网络下游集成 Diffusion 策略头(Diffusion Policy Head),打通未来空间生成与机器人动作规划的全链条。关键设计包括:
1)高效动作预测:生成网络在逆扩散的第一步即可输出未来动作序列,无需等待完整的空间生成过程,确保动作预测的实时性。面,EnerVerse 在视频生成、动作规划、消融与训练策略分析及注意力可视化方面都表现出卓越的性能。