文丨彭苏平
编辑丨李勤
36氪获悉,合成数据公司「光轮智能」近期完成了天使+轮融资。这家今年刚成立的新公司,已经完成种子轮、天使轮、天使+三轮融资,累计融资金额达数千万元人民币,投资方包括SEE Fund、奇绩创坛、辰韬资本、变量资本等。
光轮智能致力于为企业落地AI提供合成数据解决方案,结合生成式AI和仿真技术,为行业提供3D、物理真实、可泛化的合成数据,解决自动驾驶、具身智能发展中真实数据利用率低、标注成本高、回环周期长、长尾场景(Corner Case)缺乏等问题。目前,公司产品已经开始服务于数家自动驾驶和机器人公司。
光轮智能创始人兼CEO谢晨博士是国际顶尖的仿真专家,曾在英伟达、Cruise、蔚来等企业担任自动驾驶仿真负责人,国际首创将生成式AI融入仿真,有行业内最多次从0-1的合成数据开发、落地经验。
数据是AI的燃料。在深度学习算法中,通过大量的标注数据,算法能够学习不同类型的模式和规律,也只有大量、完整且高质量的训练数据,才能增加算法模型的可靠性。今年爆火的大模型GPT,其进化核心就来自于数据和参数的增加。
在今年的ITF World 2023半导体大会上,英伟达创始人兼CEO黄仁勋提出,下一波AI浪潮是“具身智能(embodied AI)”,即能够理解、推理并与物理世界互动的智能系统,包括机器人、自动驾驶汽车等。这些人工智能的最新发展,无不需要大量高质量3D数据进行训练。实际上,现阶段在自动驾驶领域,特斯拉、Waymo、Cruise等行业头部玩家,都在通过大量的路上数据回传方式收集数据,以提升算法水平。
但大规模的数据获取是一场旷日持久的资源竞赛。
传统的自动驾驶、机器人等行业数据采集和标注大量依赖人工,成本高且质量难以保证,同时真实数据难以跨车型、跨平台使用,利用率低、存储成本高。另外,自动驾驶中大量的Corner Case难以捕捉,这些都让自动驾驶的数据获取拉出了超长战线,模型算法也得不到突破性提升。
而长久来看,高质量的真实数据也会成为越来越稀缺的资源。
当下的算法迭代已经“吃”掉了大量数据,而业内的一些研究发现,未来自然数据的积累可能很难满足AI对数据的需求。一篇麻省理工学院等高校、机构联合发布的论文就推测,高质量的语言数据将在2026年前被耗尽,而自动驾驶、机器人需要采集的是3D物理真实的动态场景数据,获取更加困难、相对文本更加稀缺。
“合成数据”有望在很大程度上解决AI“数据饥渴”的问题。顾名思义,这是一种通过AI和仿真、基于小样本真实世界数据生成的数据。合成数据的优势是采集成本低、自带标注、跨平台通用性强,甚至能有针对性地生成潜在危险场景、补充边缘场景。
在自动驾驶领域,特斯拉、Waymo、Cruise、英伟达等企业已经不同程度地布局了合成数据,并将其作为技术栈的核心之一。其中,谢晨就曾主导过Cruise、英伟达、蔚来等合成数据技术0-1落地,而合成数据也已经是他们算法训练重要的燃料来源。
谢晨告诉36氪,业内更常见的合成数据来源于仿真,但仿真数据无法满足模型训练的高质量需求。在仿真的基础上融合生成式AI,以一小部分真实数据为蓝本,通过生成式AI技术来放大数据量级,并基于自研的“端到端真实性评测算法”保证数据质量和效能,可生成高信息增量的、用于算法训练的数据。
“生成式AI技术在过去一年飞速发展,精确可控度、泛化性、质量大幅提升。经过生成式AI与仿真结合,我们可以基于客户的数据,为他们提供百万车队量级的数据规模和能力。你可以想象,通过光轮每个自动驾驶公司、主机厂、机器人公司都可以拥有特斯拉车队量级的数据能力。”谢晨表示,而这些数据的成本只有真实数据的十分之一。
合成数据需要足够真实、可泛化,代表物理世界的场景分布,且可以给模型训练提供信息增量,这依赖于合成数据厂商自身的AI算法以及仿真能力。
据介绍,光轮智能组建了一支生成式AI+仿真的国际领先的专家团队,凭借最多次合成数据的落地经验和独创的真实性评测算法,可保证每一帧数据都足够真实、对模型有价值输入。近期,光轮智能入选北京市通用人工智能产业创新伙伴计划,是数据伙伴中唯一合成数据厂商。
OpenAI创始人Sam Altman曾公开表示:“合成数据是解决大模型数据短缺的最有效办法。”光轮智能希望通过算力驱动的数据来替代现有人力驱动的数据,进而推动数据界结构性变革,将数据边际成本变为固定成本,打造AI时代“数据界的英伟达”。
投资人评论
无限基金合伙人 马麟
无限基金长期关注创新技术,致力于长期陪伴具有创业精神的优秀团队。人工智能技术的进步,对于数据的质量、数量,提出了更高要求。在未来的行业变革中,数据的边界决定了模型的边界,一定会是产业争夺的战略资源。光轮智能创始团队长期深耕合成数据技术,将大幅度提高真实数据利用率以及合成数据供给,降低数据成本。这一类技术与相关企业,对于我国人工智能产业的进步将贡献重要的力量。
奇绩创坛合伙人 毛圣博
光轮智能团队凭借其独特的合成数据技术和对自动驾驶、具身智能等领域的深度洞察,展现出了令人印象深刻的创新力和执行力。他们将合成数据多次成功应用算法训练中,从而提升了模型的泛化能力。乘着大模型的东风,未来"Data is the New Software",期待光轮智能在AI领域持续发光发热,推动行业的进步!
辰韬资本合伙人 萧伊婷
算法、算力和数据是人工智能的三要素,其中合成数据是构建高质量AI模型的核心关键。真实数据的成本过高,目前人工智能领域的头部公司OpenAI、微软、Tesla等,都已经开始用合成数据来训练AI模型。我们认为用合成数据训练大模型将会很快成为主要趋势。光轮团队在合成数据领域的能力和经验是非常稀缺的,我们相信光轮在合成数据领域能占据全球领先的地位。