「暗涌Waves」获悉,3D生成模型领域公司VAST完成Pre-A轮融资,领投方为达晨财智和春华创投,英诺天使基、清华校友种基跟投。VAST表示,本轮融资额为数亿元,创3D大模型赛道的最融资额。VAST也在去年6月获绿洲资本的天使轮融资。“95后创业者”,“MiniMax001号”,这是常贴在VAST创始人宋亚宸身上的标签。2018年,还未毕业的宋亚宸开始在商汤CEO办公室工作。2021年,他作为001号员工离开商汤、参与创立MiniMax。2022年9月29日,Google发布文生3D的技术DreamFusion,利用预训练的2D文本到图像扩散模型,提出SDS(Score Distillation Sampling)方法,首次完成开放域文本到3D的合成。VAST CTO梁鼎说,这标志着3D AIGC真正进入能够应用、有可能成为实际项目。2022年底,宋亚宸离开MiniMax,并于次年3月创立了VAST。和众多AI创业者选择应用+社区的方向不同,宋亚宸选择了难度最高的“自研模型+应用”。目前团队百分之八十的开支用于技术团队与算力。据报道,作为AI四小龙之一的商汤,是员工入局大模型创业数量最多的企业,成立公司包括MiniMax、无问芯穹、右脑科技、言图智能以及VAST。VAST的CTO梁鼎也曾是商汤通用模型负责人。但SDS生成3D模型的方法存在缺陷,比如会出现模型“多头”且生成速度慢。因此,VAST最终决定不走2D优化路线,而是选择2D3D融合路线。这意味着需要大量优质3D数据。和文字、图片、视频等消费方式不同,3D数据极其匮乏,几乎只能在游戏或电影中看到。作为一家创业公司,也完全无法接受单一模型几十、甚至美金的高昂价格,“你只能各种软磨硬泡去拿。”宋亚宸告诉「暗涌Waves」。2023年3月开始,他花了三个月在各种“犄角旮旯”(比如3D建模培训班)搞数据,也和游戏、动画、影视、模型、社区包括数据库在内的公司达成合作。二十年前的PC或是十年前的移动互联网,两代浪潮下,最赚钱的永远是不同信息载体的内容平台,“文字、图片、视频,甚至连声音都有属于自己的内容平台。”在宋亚宸看来,3D内容平台一直没有出现的原因是创作门槛过高“还处于用毛笔写字阶段”,创作者的ROI算不过来。而现在,宋亚宸说,生产一个3D内容的成本已经无限接近0。“在抖音和快手爆发之前,一定出现了一个叫手机摄像头的东西。”按照他们的比喻,正在自研的3D大模型Tripo就是手机摄像头面向普通用户,可以用文字和图片直接生成3D模型。创业公司总被问及如何与大厂竞争,宋亚宸的回答是,“我会先问,第一,他们玩不玩游戏?真的想不想进入虚拟世界?如果让他们天天不上班,在家戴着XR眼镜打游戏,他们愿不愿意?如果待一个月就会疯,那对不起,他们就和我们有本质的不同。”VAST的创业动力就源自宋亚宸对游戏和动漫的狂热,“我属于被电子海洛因投毒的90后。”在商汤时,宋亚宸看到一批“八大美院”毕业生富有天分,但他们的精力往往消耗在无止尽的建模中。他希望VAST能把创意型人才从“劳动密集型”产业中解放出来。AI生成3D领域的另一明星创业者是胡渊鸣。他毕业于清华大学姚班,博士毕业于MIT,是计算机图形学知名学者,也是“太极”(TaiChi)编程语言作者。他最广为人知的案例是曾用 99 行代码打造了“冰雪奇缘”。去年11月,胡渊鸣官宣了致力于3D生成模型的新创业项目Meshy,如今已经迭代至第4 代,同样能够实现文生3D和图生3D。不过胡渊鸣认为,虽然AI生成3D大大降低了3D内容创作的门槛、使得大众也能进行 3D 创作,但关于 3D 资产的使用场景还不够成熟。事实上, MiniMax最早成立时,就同时做了语言、语音、视觉三个模型,希望智能体同时具有声音、形象和文字的能力。但MiniMax很快就放弃了3D形象,因为内部认为无法规模化。此前能够承载3D的行业只有游戏和电影,而它们往往需要数年的研发周期。“同时,我意识到用深度学习来做3D这件事不对。在目前的载体手机上,如果一个3D人一直看着你,这本身就很奇怪。大部分情况下,交互其实不需要有一个真的形象。”MiniMax创始人闫俊杰在接受采访时说。最好的结果当然是,随着Vision Pro、Quest 3等设备的普及,对于3D的需求会逐步增加,此时AI带来的3D生产力提升,恰好能满足随之而来的需求。然而,即使是Meta和苹果这样的巨头在该领域也迟迟无法破局,自2020年底以来,Meta负责VR领域的部门累计已亏损约500亿美元。Vision Pro在推出的短暂热潮后,出货量同样大幅不及预期;内地如腾讯、字节也在去年2月宣布裁撤XR部门。3D的需求仍未被完全验证。一个最近的利好或许是,AI教母李飞飞官宣了新公司空间智能企业World Labs致力于用物理、逻辑和现实世界的丰富细节构建出一个完整的世界。World Labs创始团队向《连线》杂志透露,他们第一阶段会先构建一个对三维性、物理性以及空间和时间概念有深入理解的模型,下一阶段模型将支持AR。同时,World Labs的联合创始人Ben Mildenhall也是DreamFusion的作者。而对焦虑的投资人们来说,当AIGC里的“C”文字、图片、视频被扫荡一空、甚至估值超过30亿美金后,普遍估值尚可接受的AI生成3D公司可能是他们的最后一张船票。
图片来源 |Unsplash
排版|姚楠