大厂沉默创业公司乱斗 10余款文生视频产品国产Sora谁最有希望？-IT观察-人工智能实验室AiLab-中国人工智能网-Powered by AiLab.cn

大厂沉默创业公司乱斗 10余款文生视频产品国产Sora谁最有希望？

来源：互联网发布日期：2024-04-30 浏览：639次

导读：如同ChatGPT在2023年带来的震撼，2024年的AI圈，到处喧嚣着Sora的故事。近期，号称研发时间比Sora更早的「Vidu」文生视频大模型亮相，这是由生数科技联合清华大学发布的中长时长、高一致性、高动态性视频大模型。舆论立即非常热烈，因为从公布 ......

如同ChatGPT在2023年带来的震撼，2024年的AI圈，到处喧嚣着Sora的故事。

近期，号称研发时间比Sora更早的「Vidu」文生视频大模型亮相，这是由生数科技联合清华大学发布的中长时长、高一致性、高动态性视频大模型。

舆论立即非常热烈，因为从公布的案例视频效果来看，Vidu已经可以支持一键生成达16秒、分辨率达1080P的高清视频内容。Vidu不仅能够模拟真实物理世界，还拥有想象力生成，具备多镜头、时空一致性等特点。如果这些特点在公测时能呈现，那无疑已经比肩Sora的水平。

实际上，Vidu并非是第一个号称国产Sora产品，还有北大的Open Sora、字节的Dreamina、腾讯的VideoCrafter2、右脑科技的Vega AI、爱诗科技的PixVerse、MewXAI的艺映AI、智象未来的Pixeling，以及NeverEnds和Morph Studio，还有昆仑万维、万兴科技公司推出的视觉大模型，共计10余款文生视频产品。

大厂沉默创业公司乱斗 10余款文生视频产品国产Sora谁最有希望？

图片来源：智东西

这其中大部分是依赖算法图片转视频，真正文生视频大模型为底座的少之又少。

Sora为何成为AI圈明珠

为何国内的AI领域，Sora再次复刻了百模大战的盛况?

这可能源于一个共识，Sora具有跨时代的意义。它结合了大语言模型LLM(ChatGPT、Claude和文心一言)和图形模型diffusion(midjourney、Stable diffusion)，能完美理解文字，然后根据文字生成图片到视频。

这张图深刻解析了Sora的原理，左脑负责语言/逻辑/记忆，LLM大语言模型复刻了这一模式，右脑负责形象/创意/美术，Unconditional Diffusion扩散模型更擅长于此。将二者模型结合，诞生了从文生视频的大模型Sora。

大厂沉默创业公司乱斗 10余款文生视频产品国产Sora谁最有希望？

所以可以说，Sora才是代表真正的仿人脑智能，其他模型只是模仿了一部分。通过这一原理，我们就辨别很多伪Sora了。

比如美图公司的文生视频产品Whee，做出来的图片简单动一下，3秒都不到，大概了采用了StableDiffusion的模型SDXL，而不是Diffusion与Transformer融合的架构U-ViT。前者很难做出来超过10秒的视频，文字理解能力也不会优秀，模型决定了天花板。

大厂沉默创业公司乱斗 10余款文生视频产品国产Sora谁最有希望？

所以Vidu迅速出圈的原因在于，其核心技术U-ViT架构。该技术于2022年9月提出，早于Sora采用的DiT架构，是全球首个Diffusion与Transformer融合的架构。

这个架构的高成长性，意味着两三年内，Sora制作AI短剧/电影/广告宣传片等等，都将在几个小时内完成，

Sora已经验证了这种可能性。新媒体公司Shy Kids 团队仅用 3 人的团队，利用Sora在大约 1.5 到 2 周内制作了《Air Head》。Patrick 认为目前阶段的Sora，对画面连续性，以及镜头运动的理解，都还存在一定问题; 而且这部电影是720P，也利用了AE特效软件进行编辑。

大厂沉默创业公司乱斗 10余款文生视频产品国产Sora谁最有希望？

但3 到 20 秒，渲染时间在 10 到 20 分钟范围内，以及极大地提升了效率。科幻电影巨制《阿凡达》花了8年时间，从拍摄到制作完成，未来可能一俩月内就行实现，内容制作成本被数以万计的降低。

中国工程院院士，阿里云创始人王坚说道，只说它可能会影响短视频等行业，那我觉得是对它极大的羞辱，它的意义远超这种事情。就像是原子弹刚刚爆炸时一样，没有人能想到这个东西后来可以作为核电站来发电，还可以实现小型化，还有很多别的用处。

当然，Sora还处于婴幼儿期。我认为我们现在在Sora的发展进度就像是新视觉模型的GPT-1.我们对Sora的前景持乐观态度，认为它将取代人类的某些能力。从长远来看，我们相信Sora有朝一日将超越人类的智慧，成为世界模型的代表。 Sora核心创始人timi在最近接受采访时说到。

清华北大+创业公司发力Sora

目前国内的Sora创业大潮中，学术机构+创业公司的组合表现，更为亮眼。

清华这只Vidu团队，是在2023年3月，团队开源了全球第一个基于融合的大模型UniDiffuser，首个验证了大规模训练和扩展的规律。但囿于所需算例成本太高，团队一时间的主要精力，重点转到了文生图，文生3D领域。今年1月，团队实现4秒视频的生成，可以达到Pika、Runway的效果。

转折点是2024年2月份，Sora的发布，震撼了圈内外人士。团队重回文生时评领域，第一时间紧急启动攻关，也向海淀区领导进行了汇报，当时得到了很多支持。

此后两个月时间内，从1月的4秒，3月底突破到8秒，4月底，Vidu对外展示的是16秒的成果，直接超越了国内的绝大部分Sora模型，达到了Sora的同等水平。

Vidu案例视频

相比Vidu的突然炸裂出圈，北大的Open Sora则是从出生起，就敲锣打鼓地诞生。

Open-Sora Plan由北大-兔展AIGC联合实验室共同发起，目前推出了 1.0 版本的模型，同时发布了一个名为MagicTime项目，从Time-lapse 视频中学习真实世界的物理知识。

这个初始团队一共13人：带队的是北大信息工程学院助理教授、博导袁粒和北大计算机学院教授、博导田永鸿等人，合作的创业公司是兔展公司。

由于缺乏足够的资源，团队采用开源生态共建，AnimateDiff大神也参与其中。

目前国内视频生成领域，知名的产品是爱诗科技的PixVerse，这家公司刚刚完成A2轮融资，上个月宣布完成A1轮融资，核心创始人是从字节跳动离职创业，主要解决了视频运镜控制和一致性的问题，很多实测效果超过Pika和runway等竞争对手。

多模态大模型似乎不是PixVerse重点发力方向，算力需求没有Sora那么高。所以目前看，国内实际应用中，PixVerse用户已经在88天内，超过一千万次视频生成。

大厂沉默创业公司乱斗 10余款文生视频产品国产Sora谁最有希望？

还有一家公司值得一提，4月28日，万兴公司发布天幕音视频大模型，号称依托15亿用户行为数据和百亿本土化音视频数据，可通过文生视频能力，实现不同风格、丰富场景及主题的连贯性，一键生成时长率先支持60秒+。60秒创造国内文生视频时长的记录了。

英雄不问出处，毕竟从OpenAI的不足百人，Midjourney的11人创业团队看，团队规模不是AI创业成功的关键，核心还是首席科学家的团队冲锋能力。这也是为何国产Sora创业公司能突然涌现的核心原因。

当然，算力资源还是个大门槛。据Vidu朱军表示，当时训练UniDiffuser第一个版本时，用到的算力是去年年中训练同样模型的近40倍，团队半年时间将算力需求降低40倍。这也是其重要技术突破。

大厂不掀文生视频的门帘

在轰轰烈烈的AGI创业浪潮中，BAT是2023年的大模型创业明星。但在Sora这波中，百度、阿里、腾讯、字节等大公司却显得有些安静，风头有些被创业公司抢去。

作为All in AGI动作最迅猛的百度，发布过一款名为 UniVG 的视频生成模型。用户只需提供一张图片或一段文字，就能生成一段流畅的视频，虽然与早期的AI视频生成工具相比，UniVG所生成的每一帧画面都更加稳定、连贯，但实际上，这款模型还是更注重算法，而非Sora的多模态大模型路线。

在百度2023年Q4及全年业绩会上，百度创始人、董事长兼首席执行官李彦宏表示，多模态或多模态的融合，比如文字到视频，其实是非常重要的一个未来基础模型开发的方向，这是AGI的一个必要方向，百度也已经在这些领域进行投资，并且也会在未来继续进行投资。

这方面，字节的动作相对稳健一点，字节跳动早在年初就发布了超高清文生视频模型MagicVideo-V2。据悉，该模型输出的视频在高清度、润滑度、连贯性、文本语义还原等方面，比目前主流的文生视频模型Gen-2、Stable Video Diffusion、Pika1.0等更出色。

字节的文生视频产品是Dreammina，目前文生视频已经处于内测阶段，这也是大厂中唯一已经公布的Sora产品。AI鲸选社社群的朋友田际云对此进行了内测：

附评价：1、Dreamina提示词一个工程师，坐在办公桌前写代码，还不错;2、对汉字理解很不足，以为写就是在本子上写字，其实是在电脑上输入输出。3、Dreamina使用这几天的总结：当代元素和人物的生成比古代元素与人物要精准些，国外元素生成比国内元素要好很多。底层模型不言而喻了。

而阿里云旗下魔搭社区（Model-Scope）上线文本生成视频大模型。目前由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间这3个子网络组成，整体模型参数约17亿。

阿里目前最火的视频模型，应该是最近刚在通义上线的EMO，这款让图片说话唱歌的AI产品，属于算法定义的产品，目前已经在通义的APP上可以使用。

腾讯推出的视频模型是Mira，目前的模型可以生成分辨率为128x80的长达 20 秒的视频和分辨率为384x240的长达 10 秒的视频。同时提供了数据标注和模型训练的工具。

所以目前来看，大厂有一些基本的视频大模型，但还没有公布真正的对标Sora大模型。这也是奇怪的地方，大厂不缺人才、算力以及资金，在最能露脸的文生视频领域，动作却比较迟缓，任由创业公司露脸。

当然，大厂也不是完全没有动作，投资也是一种参与手段。

Vidu背后的生数科技正式成立于2023年3月，由瑞莱智慧RealAI、蚂蚁和百度风投联合孵化。在2023年6月，公司完成近亿元人民币天使轮融资，由蚂蚁集团领投，BV百度风投、卓源资本跟投，投后估值达1亿美元。在在天使+轮，锦秋基金独家投资了该公司，锦秋基金的前身是字节战投部门。

大厂沉默创业公司乱斗 10余款文生视频产品国产Sora谁最有希望？
来源：互联网发布日期：2024-04-30 浏览：639次

相关内容

AiLab云推荐

最新资讯

本月热点

热门排行

推荐内容

在线客服

热门栏目HotCates

关于我们

版权声明

大厂沉默 创业公司乱斗 10余款文生视频产品 国产Sora谁最有希望？ 来源：互联网 发布日期：2024-04-30 浏览：639次

相关内容

AiLab云推荐

最新资讯

本月热点

热门排行

推荐内容

在线客服

热门栏目HotCates

关于我们

版权声明

大厂沉默创业公司乱斗 10余款文生视频产品国产Sora谁最有希望？
来源：互联网发布日期：2024-04-30 浏览：639次