展会信息港展会大全

大厂沉默 创业公司乱斗 10余款文生视频产品 国产Sora谁最有希望?
来源:互联网   发布日期:2024-04-30   浏览:502次  

导读:如同ChatGPT在2023年带来的震撼,2024年的AI圈,到处喧嚣着Sora的故事。 近期,号称研发时间比Sora更早的「Vidu」文生视频大模型亮相,这是由生数科技联合清华大学发布的中长时长、高一致性、高动态性视频大模型。 舆论立即非常热烈,因为从公布 ......

如同ChatGPT在2023年带来的震撼,2024年的AI圈,到处喧嚣着Sora的故事。

近期,号称研发时间比Sora更早的「Vidu」文生视频大模型亮相,这是由生数科技联合清华大学发布的中长时长、高一致性、高动态性视频大模型。

舆论立即非常热烈,因为从公布的案例视频效果来看,Vidu已经可以支持一键生成达16秒、分辨率达1080P的高清视频内容。Vidu不仅能够模拟真实物理世界,还拥有想象力生成,具备多镜头、时空一致性等特点。如果这些特点在公测时能呈现,那无疑已经比肩Sora的水平。

实际上,Vidu并非是第一个号称国产Sora产品,还有北大的Open Sora、字节的Dreamina、腾讯的VideoCrafter2、右脑科技的Vega AI、爱诗科技的PixVerse、MewXAI的艺映AI、智象未来的Pixeling,以及NeverEnds和Morph Studio,还有昆仑万维、万兴科技公司推出的视觉大模型,共计10余款文生视频产品。

大厂沉默 创业公司乱斗 10余款文生视频产品 国产Sora谁最有希望?

图片来源:智东西

这其中大部分是依赖算法图片转视频,真正文生视频大模型为底座的少之又少。

Sora为何成为AI圈明珠

为何国内的AI领域,Sora再次复刻了百模大战的盛况?

这可能源于一个共识,Sora具有跨时代的意义。它结合了大语言模型LLM(ChatGPT、Claude和文心一言)和图形模型diffusion(midjourney、Stable diffusion),能完美理解文字,然后根据文字生成图片到视频。

这张图深刻解析了Sora的原理,左脑负责语言/逻辑/记忆,LLM大语言模型复刻了这一模式,右脑负责形象/创意/美术,Unconditional Diffusion扩散模型更擅长于此。将二者模型结合,诞生了从文生视频的大模型Sora。

大厂沉默 创业公司乱斗 10余款文生视频产品 国产Sora谁最有希望?

所以可以说,Sora才是代表真正的仿人脑智能,其他模型只是模仿了一部分。通过这一原理,我们就辨别很多伪Sora了。

比如美图公司的文生视频产品Whee,做出来的图片简单动一下,3秒都不到,大概了采用了StableDiffusion的模型SDXL,而不是Diffusion与Transformer融合的架构U-ViT。前者很难做出来超过10秒的视频,文字理解能力也不会优秀,模型决定了天花板。

大厂沉默 创业公司乱斗 10余款文生视频产品 国产Sora谁最有希望?

所以Vidu迅速出圈的原因在于,其核心技术U-ViT架构。该技术于2022年9月提出,早于Sora采用的DiT架构,是全球首个Diffusion与Transformer融合的架构。

这个架构的高成长性,意味着两三年内,Sora制作AI短剧/电影/广告宣传片等等,都将在几个小时内完成,

Sora已经验证了这种可能性。新媒体公司Shy Kids 团队仅用 3 人的团队,利用Sora在大约 1.5 到 2 周内制作了《Air Head》 。Patrick 认为目前阶段的Sora,对画面连续性,以及镜头运动的理解,都还存在一定问题; 而且这部电影是720P,也利用了AE特效软件进行编辑。

大厂沉默 创业公司乱斗 10余款文生视频产品 国产Sora谁最有希望?

但3 到 20 秒,渲染时间在 10 到 20 分钟范围内,以及极大地提升了效率。科幻电影巨制《阿凡达》花了8年时间,从拍摄到制作完成,未来可能一俩月内就行实现,内容制作成本被数以万计的降低。

中国工程院院士,阿里云创始人王坚说道,只说它可能会影响短视频等行业,那我觉得是对它极大的羞辱,它的意义远超这种事情。就像是原子弹刚刚爆炸时一样,没有人能想到这个东西后来可以作为核电站来发电,还可以实现小型化,还有很多别的用处。

当然,Sora还处于婴幼儿期。 我认为我们现在在Sora的发展进度就像是新视觉模型的GPT-1.我们对Sora的前景持乐观态度,认为它将取代人类的某些能力。从长远来看,我们相信Sora有朝一日将超越人类的智慧,成为世界模型的代表。 Sora核心创始人timi在最近接受采访时说到。

清华北大+创业公司发力Sora

目前国内的Sora创业大潮中,学术机构+创业公司的组合表现,更为亮眼。

清华这只Vidu团队,是在2023年3月,团队开源了全球第一个基于融合的大模型UniDiffuser,首个验证了大规模训练和扩展的规律。但囿于所需算例成本太高,团队一时间的主要精力,重点转到了文生图,文生3D领域。今年1月,团队实现4秒视频的生成,可以达到Pika、Runway的效果。

转折点是2024年2月份,Sora的发布,震撼了圈内外人士。团队重回文生时评领域,第一时间紧急启动攻关,也向海淀区领导进行了汇报,当时得到了很多支持。

此后两个月时间内,从1月的4秒,3月底突破到8秒,4月底,Vidu对外展示的是16秒的成果,直接超越了国内的绝大部分Sora模型,达到了Sora的同等水平。

Vidu案例视频

相比Vidu的突然炸裂出圈,北大的Open Sora则是从出生起,就敲锣打鼓地诞生。

Open-Sora Plan由北大-兔展AIGC联合实验室共同发起,目前推出了 1.0 版本的模型,同时发布了一个名为MagicTime项目,从Time-lapse 视频中学习真实世界的物理知识。

这个初始团队一共13人:带队的是北大信息工程学院助理教授、博导袁粒和北大计算机学院教授、博导田永鸿等人 ,合作的创业公司是兔展公司。

由于缺乏足够的资源,团队采用开源生态共建,AnimateDiff大神也参与其中。

目前国内视频生成领域,知名的产品是爱诗科技的PixVerse,这家公司刚刚完成A2轮融资,上个月宣布完成A1轮融资,核心创始人是从字节跳动离职创业,主要解决了视频运镜控制和一致性的问题,很多实测效果超过Pika和runway等竞争对手。

多模态大模型似乎不是PixVerse重点发力方向,算力需求没有Sora那么高。所以目前看,国内实际应用中,PixVerse用户已经在88天内,超过一千万次视频生成。

大厂沉默 创业公司乱斗 10余款文生视频产品 国产Sora谁最有希望?

还有一家公司值得一提,4月28日,万兴公司发布 天幕 音视频大模型,号称依托15亿用户行为数据和百亿本土化音视频数据,可通过文生视频能力,实现不同风格、丰富场景及主题的连贯性,一键生成时长率先支持60秒+。60秒创造国内文生视频时长的记录了。

英雄不问出处,毕竟从OpenAI的不足百人,Midjourney的11人创业团队看,团队规模不是AI创业成功的关键,核心还是首席科学家的团队冲锋能力。这也是为何国产Sora创业公司能突然涌现的核心原因。

当然,算力资源还是个大门槛。据Vidu朱军表示, 当时训练UniDiffuser第一个版本时,用到的算力是去年年中训练同样模型的近40倍,团队半年时间将算力需求降低40倍。 这也是其重要技术突破。

大厂不掀文生视频的门帘

在轰轰烈烈的AGI创业浪潮中,BAT是2023年的大模型创业明星。但在Sora这波中,百度、阿里、腾讯、字节等大公司却显得有些安静,风头有些被创业公司抢去。

作为All in AGI动作最迅猛的百度,发布过一款名为 UniVG 的视频生成模型。用户只需提供一张图片或一段文字,就能生成一段流畅的视频,虽然与早期的AI视频生成工具相比,UniVG所生成的每一帧画面都更加稳定、连贯,但实际上,这款模型还是更注重算法,而非Sora的多模态大模型路线。

在百度2023年Q4及全年业绩会上,百度创始人、董事长兼首席执行官李彦宏表示,多模态或多模态的融合,比如文字到视频,其实是非常重要的一个未来基础模型开发的方向,这是AGI的一个必要方向,百度也已经在这些领域进行投资,并且也会在未来继续进行投资。

这方面,字节的动作相对稳健一点,字节跳动早在年初就发布了超高清文生视频模型MagicVideo-V2。据悉,该模型输出的视频在高清度、润滑度、连贯性、文本语义还原等方面,比目前主流的文生视频模型Gen-2、Stable Video Diffusion、Pika1.0等更出色。

字节的文生视频产品是Dreammina,目前文生视频已经处于内测阶段,这也是大厂中唯一已经公布的Sora产品。AI鲸选社 社群的朋友田际云对此进行了内测:

附评价:1、Dreamina提示词 一个工程师,坐在办公桌前写代码 ,还不错;2、对汉字理解很不足,以为 写 就是在本子上写字,其实是在电脑上输入输出。3、Dreamina使用这几天的总结:当代元素和人物的生成比古代元素与人物要精准些,国外元素生成比国内元素要好很多。底层模型不言而喻了。

而阿里云旗下魔搭社区(Model-Scope)上线文本生成视频大模型。目前由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间这3个子网络组成,整体模型参数约17亿。

阿里目前最火的视频模型,应该是最近刚在通义上线的EMO,这款让图片说话唱歌的AI产品,属于算法定义的产品,目前已经在通义的APP上可以使用。

腾讯推出的视频模型是Mira,目前的模型可以生成分辨率为128x80的长达 20 秒的视频和分辨率为384x240的长达 10 秒的视频。同时提供了数据标注和模型训练的工具。

所以目前来看,大厂有一些基本的视频大模型,但还没有公布真正的对标Sora大模型。这也是奇怪的地方,大厂不缺人才、算力以及资金,在最能露脸的文生视频领域,动作却比较迟缓,任由创业公司露脸。

当然,大厂也不是完全没有动作,投资也是一种参与手段。

Vidu背后的生数科技正式成立于2023年3月,由瑞莱智慧RealAI、蚂蚁和百度风投联合孵化。在2023年6月,公司完成近亿元人民币天使轮融资,由蚂蚁集团领投,BV百度风投、卓源资本跟投,投后估值达1亿美元。在在天使+轮,锦秋基金独家投资了该公司,锦秋基金的前身是字节战投部门。

赞助本站

相关内容
AiLab云推荐
展开

热门栏目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港