具身智能的三维生存挑战
作者/IT时报记者沈毅斌
编辑/郝俊慧孙妍
Sora正式上线后,另一条火热的科技赛道具身智能,近期也迎来商业化“前夜”。
12月16日,“华为天才少年”“稚晖君”(彭志辉)创办的智元机器人宣布,开启通用机器人商用量产,此时距离智元机器人发布“远征”与“灵犀”两大家族五款商用人形机器人新品,仅过了四个月。
几乎同时,比亚迪官微发布了一则具身智能方向的招聘信息,面向2025届全球高校硕士、博士毕业生招聘具身智能研究团队,推进具身智能在工业领域的落地应用。小米集团核心创始团队创办的大模型机器人公司小雨智造,近日也完成新一轮融资,用于加大研发力度,推动具身智能产品创新。
再往回看,今年各类展会都是具身智能“秀肌肉”的舞台,人们在一幅幅人机共存的场景中畅想未来。然而,回到现实,商业化来临之际,相较人机交互的LLM大模型,具身智能要面对更多来自三维世界的挑战。
数据
从“好看的皮囊”到“有用的载体”
展会上,人形机器人现场跳舞、交互、分拣物品、擦桌子等操作,已经成为吸引观众的“秘密武器”。如果将大模型比作“有趣的灵魂”,具身智能则是“好看的皮囊”。但离开展会,真正实现具身智能落地的场景并不多见,如何让具身智能实现从“好看的皮囊”向“有用的载体”跨越,数据是核心。
“我们发现具身智能和多模态大模型发展最不一样的点,就是机器人数据的稀缺性。”智元新创具身业务部总裁姚卯青在浦江AI学术年会具身智能专题论坛上表示,相较于大模型可以免费获取互联网数据,机器人能用的高质量、带标签数据,一个数据集中最多只有几百万条,并且这些数据集属于多种格式的混合体,质量参差不齐,“所以大家最常看到的演示只有人形机器人的桌面操作,比如把水果、积木搬来搬去”。
智元机器人
“可用的物理世界数据集还远远不够,具身智能还在非常初级的阶段。”上海傅利叶副总裁周斌补充道,人工遥操是目前主流的机器人数据采集方法,其核心目标是使机器人本体操作尽可能接近人类的行为模式。但这一方法需要花费大量人力和时间。