本期《晚点聊》,关注当技术遇上艺术,聊一聊计算机技术和正蓬勃发展的 AI 技术,如何与 M&E,也就是 Media and Entertainment 媒体娱乐产业相互影响、相互塑造。
我们邀请了两位嘉宾一起对谈:一位是 NVIDIA 中国区高级技术市场经理施澄秋(Searching),另一位是新片场董事长兼 CEO 尹兴良(Ethan)。
他们站在技术塑造内容这个链条的两端:NVIDIA 是人工智能计算领导者,同时 NVIDIA 也会开发大量的软件去帮整个生态更好的使用 GPU。NVIDIA 起家就是依靠计算机图形技术,最初就是用在游戏和影视行业。
成立于 2012 年的新片场,则是中国最大的高质量短片和视频素材分享平台,并制作了大热 IP 剧集《鬼吹灯》(《怒晴湘西》《精绝古城》《南海归墟》等)系列。
内容创作是人类文明最早的活动之一。在 AI 技术之前,这个行业已是一个有长链条的技术工业体系。本期节目中,我们回顾了在 AI 之前,计算机图形等技术对内容制作的影响与渗透,进一步展开了生成式 AI 浪潮带来的新变化。生成式 AI 的发展则将进一步缩短从创意到表达的距离,让更多人有表达自己的工具,未来还可能衍生出新的社区与平台,面对影视和内容创作这个万亿级的全球大市场,AI 带来的新一轮变化才刚开始。
AI 之前,影视内容工业已高度技术化
《晚点聊》:首先想请 Ethan 聊聊,当前国内剧集的制作流程大致,以及哪些环节用到的技术比较多。
尹兴良:出品内容的流程是:首先进行立项会议,确定项目方向,通过审查后正式立项;随后确定剧本,以及导演、主演等主创人员,并开始建组;实际拍摄完成后,进行后期剪辑、特效制作、特效回插,调色和声音处理,直至成片。最后,成片需通过审查,并确定上线时间,最终与观众见面。
国内剧集制作的各个环节都在尝试新技术,以前期分镜设计为例,传统方式是纯用绿幕,现在则会用到 LED 屏幕,在拍摄过程中直接把后景加进去,后期制作的流程也同样有技术辅助,而采用这些技术的目的则是降本增效。
《晚点聊》:您刚才说拍摄过程中用 LED,是不是有 NVIDIA 的技术,或者说相关的产品支持?
施澄秋:绿幕技术已使用近 20 年。但十几年前,LED 拍摄成本高,涉及占地、运营、维护和电费等。从 17 年开始,LED 成本下降,并逐渐开始流行。无论是 LED 还是绿幕,背景都依赖于视觉运算效果渲染,这是 NVIDIA 的强项。
例如,《狮子王》的 LED 屏幕背后虚拟场景由 CG 生成,拍摄时捕捉,实现“所见即所得”的效果。又如,拍摄珠宝奢侈品广告时,绿幕拍摄难以达到逼真的光影互动,无法衬托产品的高级感。而 LED 屏可以避免这些问题。
随着 CG 技术的发展,NVIDIA 的 GPU 渲染能力大幅提升。现在,结合 NVIDIA 的软件技术,绿幕拍摄也可以实现实时光线追踪,多人协作,提高互动性和效率。无论是 LED 还是绿幕,都能支持媒体娱乐产业的需求。万变不离其宗,核心都是 CG 渲染。
《晚点聊》:我想问一下 Ethan,像《鬼吹灯》这个系列,对特效的要求比较高。在整个链条里面,技术投入占到你们的制片成本的多少?
尹兴良:我们做的是《鬼吹灯》网络电影,艺人的预算不高,大部分的预算投入在特效中。以《鬼吹灯之南海归墟》为例,全部在棚内拍摄。跟海相关的镜头都是特效,占到了一半以上的时长。
《晚点聊》:从个人经历来讲,入行开始到现在,技术在中国的影视内容,包括新闻这些制作行业里,大概是一个怎样慢慢渗透的过程?
尹兴良:我 2012 年开始创业做新片场,初衷是解决自己作品的存储问题。我认为技术对于创作体系的颠覆非常大。
从拍摄这端来讲。大学时拍片子,用笨重的设备,拍摄和导出过程非常耗时。到了 12、13 年,单反相机成为主流,现在很多人用手机拍摄。
关于制作端,虽然 Adobe 和苹果的产品仍是主流,但制作流程本身已被颠覆,比如内容导入时间更短。计算机性能的突飞猛进跟 NVIDIA 的贡献密不可分。未来,AI 技术将进一步简化创作流程。社交媒体让传播变得更平等,而 AI 将使创作能力不再局限于少数人或机构。
施澄秋:我比 Ethan 年长,90 年代读广告专业。Ethan 之前是磁带导入,我们是 DV,甚至用 beta 设备,从 1394 接口 1:1 地导进电脑,还没有高速的网络。那时电脑非常昂贵,没机会用电脑做后期,哪怕做平面的内容都很奢侈,基本只学纸上谈兵的理论。当时也没有虚拟演播室的概念,哪怕是叠加实时字幕,都是成本高昂的商业行为,花几十万甚至上百万做实时字幕机系统,只有顶级工作室和大公司才能负担得起。
到了今天,创作者几乎不再受到成本、专业背景的限制。以前做后期需要学习 Premiere,今天拿手机戳戳屏幕就可以。甚至手机可以不具备强大的处理能力,云端的 GPU 资源可以调用服务器上的渲染能力,帮助用户完成制作。以前只能靠专业人员完成的工作,现在通过简单的指令就能让 AI 完成。NVIDIA 也在顺应潮流,产品从视觉计算,拓展到 AI 计算领域,为更多个人创作者创造便利,带动 UGC 发展。
《晚点聊》:可以介绍一下 NVIDIA 在中国影视行业是如何逐步发展的吗?个人创作者在使用这些工具时,这个链条又是怎样的?
施澄秋:早期,NVIDIA 在中国影视传媒行业籍籍无名,没有分公司、技术支持和售后。通过合作伙伴,或者采用了我们技术的系统整合商,NVIDIA 才逐步进入市场。
90 年代做世界杯时,主持人要提溜着几个虚拟的小人讲排兵布阵,这是早期的虚拟演播室,是比较简单的后台渲染。天气预报的直播间,主持人指点的气象云图,就是某种意义上的绿幕,渲染都是用 GPU 来完成。今天的渲染技术与过去相比,已不可同日而语。
如今我们可以做到实时光线的追踪了,而以前这需要在渲染农场中进行离线渲染,耗时几十上百小时完成几十秒的画面。皮克斯的电影制作周期从 18 到 24 个月缩短到几个月,正是因为渲染时间和成本大幅减少。
通过技术进步,NVIDIA 不仅帮助大型机构,也在帮助个人创作者参与影视制作。
移动互联网降低了分享的门槛,生成式 AI 将降低创作的门槛
《晚点聊》:你们会比较在意这个热潮里的什么东西?
尹兴良:作为产业公司,首要关注生成式 AI 在现有工作流中的应用。我们最早关注的是 Diffusion,也就是文生图。Midjourney 爆火之前,美国有一款叫 Dream 的 APP 已经流行。用户输入一段文字,Dream 生成特定风格的艺术画,这就是 Diffusion 技术。用户将在 Dream 上生成的内容分享至我们的平台,让我们意识到了生成式 AI 的潜力。后来的 Midjourney 对我们这个行业的影响就更大了,因为它真的可以进入生产环节,比如生成宣传海报、制作分镜头脚本,可以达到使用水准。
与传统影视公司不同,网络分发需要大量海报。例如,传统线下电影只需要几张海报,而网络内容为了提高曝光,需要几千张去测试 ROI。在这个环节里,Midjourney 替代了美工,可以批量生成信息流图片,提高营销效果。
虽然 Midjourney 在生成某些细节(如手部)时会出现“幻觉”,但多数应用场景中,这些瑕疵是可以接受的。
《晚点聊》:从 NVIDIA 技术供给方的角度看,生成式 AI 可能对媒体娱乐产业有什么影响?你比较在意的是什么?
施澄秋:NVIDIA 在这个行业里面技术走得比较前沿,所以有很多应用尚未落地,或者没有大规模应用。举个例子,大家可能知道我们有一个分工协作的在线平台,叫 Omniverse。
首先,它是一个多人实时在线分工协作的数字资产管理制作的工作流平台,采用了皮克斯开发的通用场景描述(USD)技术。这一平台,能够连接各类主流的 SV 数字资源,用户可以实现云原生的实时协作,进行所见即所得的实时编辑。
例如,在拍摄时使用绿幕,过去绿幕效果需在后期添加,而现在借助 Omniverse 平台,导演可以在监视器上实时看到完成后的场景与演员表演的结合效果。这得益于 USD 技术,数字资产能够实时叠加,帮助导演即时发现动作不匹配、穿帮等问题,并进行实时调整和特效处理,提升拍摄效率和质量。
还有我们绕不开的降本增效问题。以往拍摄大场景如海上日出或雪景,需实际前往地点,受天气等因素影响大,成本高昂。现在有了 Omniverse 这个平台,输入简单指令就可以生成高质量的图像或视频。
平台还能创建独特且多样化的数字角色,支持真人驱动的数字人与虚拟环境互动,简化了动作捕捉过程,减少了所需的传感器数量。
Omniverse 里面有很多组件,比如用于创建数字人的 Machinima 和云原生数字人引擎 ACE。其中,Audio2Face 技术可通过分析语音语调和情绪,自动匹配至数字人面部,实现逼真的表情。这些技术已在 Omniverse 中商用,受到广泛欢迎。国内也有许多合作伙伴进行了二次开发,取得了显著成果。
《晚点聊》:在 NVIDIA 落地的技术应用中,还有别的例子可以讲讲吗?
施澄秋:大家都知道,SIGGRAPH 是计算机图形学最顶尖的业界会议,NVIDIA 每年都带着很多论文参加,几乎每年都能拿到最佳论文。其实这个是业界的一个风向标,这些论文看似是非常早期的研究的方向,几年之后它都会商业成品落地。
比如今天我们提到的 stable diffusion、AI 文生图、图生图,都来源于生成式对抗网络(GAN) 。八年前就已经有这个概念了;再比如,NVIDIA 两三年前发布的基于 NeRF 技术的应用,是基于神经图形学的一个研究方向,今天已经可以看到各式各样的落地成果。通过这个技术,用户拍摄几张场景照片,就快速生成高质量的 3D 模型。在媒体和娱乐产业中,NeRF 可以用于电影制作中的场景采集和重建,减少实地拍摄的需求,这是一个很有吸引力的、降本增效的方式。
其实,我们人类每一次科技的巨大进步都来自我们的“懒”或者“抠”,且并非贬义。这些人类与生俱来的特性,驱使我们研发新技术,以更轻松的方式提升生产力,比如发明机械代步工具;节约也很正常,远古时期为了应对天灾人祸,我们需要储备物资,后来发展为存钱,即成本控制,今天的说法是“降本增效”。
在媒体娱乐产业,过去投资充足,现在大家更希望用同样的成本制作更高质量的作品,或者增加产量,小成本制作也希望有高质量的后期和特效。因此,我们利用惰性和节约的驱动力,不断拓展更高效的技术,让 GPU 和 AI 来帮助创作者们节约每一帧、每一个场景的成本。
《晚点聊》:2021 年 NVIDIA 的 GTC 大会上,黄仁勋穿着皮衣从厨房里端出一个 GPU 的环节引起了轰动,因为部分画面是数字人。是用的 Omniverse 的技术吗?
施澄秋:是 Omniverse 里面的 ACE 这个技术。ACE 就是 Avatar Cloud Engine,基于云原生的数字人引擎。这个是 Omniverse 里重要的组件。
我们扫描了黄仁勋先生,生成他的 1:1 数字孪生模型;通过 Audio2Face 技术,将讲话内容实时映射到数字人的脸上,实现表情的匹配。背景则使用虚拟拍摄技术,将 3D 背景与数字人叠加在一起。
《晚点聊》:从 ACE 到 NeRF,ACE 的 AI 程度较低,因为需要完整的扫描。而 NeRF 只需几张照片就能生成 3D 模型,AI 程度更高,成本更低,对吗?
施澄秋:这个就是所谓的 2D 生 3D 和真正的 3D 扫描、3D 建模的不同,实现的方式不太一样,当然成本也不同。今天无论是 CG 也好,电脑的 AI 也好,其实是一个百家争鸣、百花齐放的场景。我们说今天是人工智能发展的原点,是新纪元的突破点,我们也乐意于见到这个市场蓬勃发展,毕竟 NVIDIA 做 GPU,是一个卖“铲子”的公司,大家把这个铲子拿出来,可以各显神通。
《晚点聊》:国内今年也出了很多这种产品,像生数的,字节最近也出了,快手的 Kling 可灵,还有 MiniMax 的海螺,这些你们有试吗?还有爱诗的 pixverse。
尹兴良:今年国内很多视频生成的产品,比如生数的 Vidu、快手的 Kling、MiniMax 的海螺、爱诗的 pixverse、字节的即梦 AI 等,我们都试过。但产业里需要解决的问题很多,比如可控性,也就是抽卡的概率和包括渲染速度。产品要达到产业级别,时间成本和金钱成本必须低于传统方式,还得是数量级别的降低。
《晚点聊》:国内的公司会来主动接洽合作吗?
尹兴良:是的。我们平台上视频创作者的客户基本上都是我们的用户。这些公司希望通过平台把产品推向产业从业者。我们还探讨共建模型,做素材训练、模型训练等合作。
《晚点聊》:从 Searching 你的角度看,AI 热潮之后,有哪些下游的 ISV(独立软件供应商)发展得比较好,或者有新的成长?
施澄秋: Ethan 讲的没错,大家对错误的容忍度低,因此都非常谨慎。目前,图片生成领域,如 Midjourney 和 Stable Diffusion 已经商业化成熟,但像 Sora 这样的新技术的商用前景尚不确定,要等产业链条发展成熟。
下游 ISV 中,利用 GPU 或算力最常见的应用是渲染器。国内的 D5 渲染器做得非常好,已经与大部分主流 ISV 打通,被广泛应用于个人和专业用户。
《晚点聊》:渲染器就是一个软件吗?
施澄秋:举个简单的例子,假设我们在录制一段视频,背景比较杂乱。以前,如果想把背景去掉,只保留人物,需要使用 Photoshop 等软件,一帧一帧地用鼠标画线,把人物抠出来。这个过程非常耗时,需要一个熟练使用这些软件的人,确保每一帧中的人物都被正确抠出。
现在,有了 GPU 算力和人工智能的渲染器,用户只需在人物脸上轻轻一点,渲染器就能自动识别并抠出人物,后续帧中的人物也会自动被抠出。前端设备可以非常轻便,如手机或平板,因为实际的处理工作是由后台的 GPU 完成的。这种模式类似于 SaaS(软件即服务)或 PaaS(平台即服务),后台平台(如 NVIDIA Omniverse)负责复杂的计算任务,前端设备只需要一个轻量级的界面。这样一来,个人创作者、UP 主、YouTuber 等用户无需专业知识,用轻量设备也能轻松完成高质量的视频编辑任务。
NVIDIA 的 Omniverse 平台,正是为影视传媒行业提供的专业生产力工具,专门执行这些任务。
《晚点聊》:视频会议的软件,比如说 zoom 或者腾讯会议都可以选背景,是这个技术吗?
施澄秋:NVIDIA 也有一个专门的软件叫 Maxine ,是一个我们的 SDK(软件开发工具包)。举个例子,我跟你讲话时眼神会飘,因为我一会儿看手机,一会儿看平板,一会儿看话题要点,这对参会者来说体验不好。但用 NVIDIA 的技术,可以保持我的眼神聚焦,无论我眼睛看哪儿,你都会感觉我在直视你,眼神一点也不飘。
还有一个重要应用,体现在节约流量方面,可以提高视频质量和会议容量。我们今天做视频软件和视频会议很耗流量。虽然现在大家都用 5G,但在网络不好的情况下,比如野外考察、实时开荒或无人机拍摄等场景,特别是在直播应用中,依然会遇到问题。
比如在山火现场做直播连线,NVIDIA 提出了一种高效方案:首先为节目主持人创建高精度的数字人模型,主持人可以站在山火现场,现场通过卫星车与观众连线;同时,无人机航拍捕捉的山火全景作为 B-roll。最终,用生成式 AI 的方式叠加起来,生成高质量的直播内容。
这么大的数据传输量,对于现场的网络条件是有挑战的。NVIDIA 提出的解决方案是:前端只传输数字人的面部表情坐标,如嘴部和脸部的几个关键点。这些坐标数据量很小,对带宽要求低。坐标数据传送到后端的云服务器上,利用云服务器的强大算力和网络条件,生成逼真的数字人,实现高质量的直播效果。
回到我们视频会议的场景,我们每次 GTC 视频会议,在线的可能是几百个人、甚至上千人的视频直播会议。全球的媒体、分析师、专家,包括我们的高层都在一个视频会议的直播房间里面,如果使用 NVIDIA 一些相关的 SDK 和一些中间件,识别并传送的只是你画面的一些坐标和你的语音,然后自动投射到你的面部上,观看侧用户的感官是非常好的,同时又非常节约带宽。
这样的技术,能够在同样的成本和同样的网络开销下,实现更多的容量的接入,并且已经在商用了。
《晚点聊》:NVIDIA 的员工数量并不算多,是如何敏感地获取市场信息并决定研发方向的?
施澄秋:NVIDIA 与众多 ISV(独立软件供应商)及商用生产力工具开发者保持着紧密合作。另外,我们内部设有开发者关系和开发者技术两个团队,他们不直接销售产品,而是构建桥梁,让所有的开发者知道 NVIDIA 开发了什么产品,有什么技术可以让他们能够提升效率。同时又让我们内部的研发人员和工程师知道,所有的开发人员他需要什么样的产品,需要什么样软硬件的堆叠,需要什么样的技术,可以帮助我们实时获得市场上最敏锐的前端用户需求和资讯。这个桥梁让我们可以保持我们产品的领先力,保持我们对业界的敏感度。
AI 不能改变的:“内心的想法是一切的根源”
《晚点聊》:每一次新技术来临,都会讨论技术与创作的关系。生成式 AI 产生之后,大家也会去想它会怎么改变创作。有一种观点是觉得 AI 可能只能生成比较平庸的东西。Ethan 怎么看?
尹兴良:AI 的魅力在于降低创作门槛,激发普通人的创作能力。过去,创作机会主要集中在电视台,我们这个时代,则转移到了博主和网络电影导演等非传统电影行业的人士。随着新技术的出现,他们有了拍长片的机会,创造力就涌现出来。
《晚点聊》:这个现象在 AI 出现之前也在发生,对不对?比如肖央、大鹏这样的短片创作者,现在做大电影票房也不错。
尹兴良:是的。新片场创业这么多年,我们就看到了我们平台上很多过去拍短片的创作者,都一步一步走上大银幕。拍了几十亿票房的影片,现在我们这个社区领先创作者已经有三个金像奖,两个金马奖了。我觉得 AI 在未来会加速提升很多人的创作能力。
施澄秋:过去很多专业的场景和画面,高度依赖专业技术人员,而且当时的 AI 生成内容非常粗糙。随着 AI 技术的迭代和发展,电脑生成的内容变得越来越逼真,个人创作者够以较低的成本和较快的速度将创意变为现实,准确表达内心的想法,创造出实实在在、拿得出手的作品。
NVIDIA 在过去做了很多类似的引导工作,例如在中国通过 Omniverse 平台举办创作者竞赛。创作者在 Omniverse 平台就可以渲染出很复杂的光影效果,同样对设备的要求极低,甚至一名在校学生用个人消费级的笔记本电脑就可以实现。在这个比赛里,可以看到很多个人创作者美轮美奂的作品。
《晚点聊》:聊到这个技术对创作的一些塑造,大家也会去讨论风险。比如行业里有些工作可能变成机器来做,这是最直接的。那再往下, AI 元素加入后,艺术创作的性质也会变化,还有创意归属的问题等等。
NVIDIA 是行业里前沿的公司,你们可能也做工作,去帮助升级媒体娱乐产业的同时,更好地去发挥 AI 技术好的一面。可以分享一些做法吗?
施澄秋:所有的数字资产都要设置数字围栏,保证信息安全。比如增强检索生成(RAG) 这个部分或大型模型,我们会圈一个数字围栏来做数字防护,所有的人工智能创作要在这个围栏范围内,防止它们超出预设界限,如违反传统道德观念或泄露敏感信息等。
我们要让 AI 在我们所需的特定领域内进行创作。例如,如果今天进行的是中国元素、国风的艺术创作,我们不希望 AI 创作受到西方美学或西方作品的影响。这样,我们就会为 AI 设定一个数字围栏。在整个创作流程中,无论是前期的数据喂料,还是后期的提示词输入,都是非常讲究的。
目前 AI 已经发展成为一个非常系统化和科学化的工程。以前在大学里,大家可能学的是电气工程(EE)或者计算机科学(CS)。现在许多大学已经开始设立专门的“Prompt Engineering”专业,即提示工程。这意味着,你提供的提示质量直接影响 AI 生成的内容质量,这是一个非常科学化和系统化的过程。
AI 的发展催生了许多新兴行业和新的工作岗位,这些岗位需要人类来更好地监督和管理 AI。实际上,科技的发展与人类的进步是相辅相成、缺一不可的。
《晚点聊》:普通人如果有这种创作的想法,可以从什么方面去入手,你们有什么建议?
尹兴良:创作热情最重要。我们社区的 slogan 是“用作品打动世界”,它激励了很多创作人。很多用户给我们反馈,就是因为这句话加入这个行业的。
第二件事情就是得多看。AI 工具帮我们降低了创作门槛。但更核心的还是你自己的经历、见识、认知组成了你内心深处想法的本源。在这个基础上会有 AI 工具去帮你实现想法。但首先要心怀热情,有想表达的东西。
施澄秋: 我觉得 Ethan 说得非常好,我们人类的情感是 AI 替换不了的。AI 可能能打动我们,但是 AI 不会被打动。很多情况下,我们自己的需求、真正打动我们内心的东西,才能够实实在在推动这个行业的变革和科技的发展。
在过去,我们的需求可能受制于科技和生产力未能实现,但是当这些需求被推向前台的时候,科技公司也都会看到这些需求。于是大家会朝着这些需求去研发,去投资。最后大家齐心协力把这个行业做得更好、更强大。
对于个人用户而言,我觉得首先就像 Ethan 讲的,你内心要有自己的想法和追求。第二,希望中国的开发者和创业者能够把你们的需求表达出来,让所有的科技公司都听得到你的需求,大家一起为这个行业共同营造一个更美好的未来。
欢迎前往小宇宙APP搜索“晚点聊”,选择第89集,即可收听本期完整版播客。
登场人物:
施澄秋 Searching,NVIDIA 中国区高级技术市场经理
尹兴良 Ethan,新片场的董事长兼 CEO
程曼祺,《晚点 LatePost》科技报道负责人(即刻:曼祺_火柴Q)
附录:播客里提及的一些技术与产品术语
M&E:Media and Entertainment 的缩写,指的是媒体与娱乐产业。
特效回插:在影视剧的生产链条中,特效镜头常常由协力公司单独制作,后期制作阶段会将这些特效镜头插入到影片中相应的位置。
CG:计算机图形学(Computer Graphics,简称CG)是一种使用数学算法将二维或三维图形转化为计算机显示器的栅格形式的科学。
Diffusion模型:这是一种生成式模型,主要用于生成高质量的图像、文本和其他类型的数据。
B-roll:是指在影视制作中用来补充主镜头(A-roll)的辅助视频或图像素材。通常,A-roll包含主要的叙事内容,比如采访、对话等直接涉及故事主线的画面。而B-roll则是用来丰富视觉效果、提供背景信息或增强情感氛围的额外镜头。
NVIDIA Omniverse :是一个提供 API、SDK 和服务的平台。借助此平台,开发者可以轻松地将通用场景描述 (OpenUSD) 和 RTX 渲染技术集成到现有软件工具和仿真工作流中,以构建 AI 系统。
NVIDIA ACE:即 Avatar Cloud Engine,是一套可帮助开发者利用生成式 AI 创建栩栩如生的虚拟数字人物的技术。
SIGGRAPH:是由ACM SIGGRAPH(美国计算机协会计算机图形专业组)组织的计算机图形学顶级年度会议。
RAG:即检索增强生成(Retrieval-augmented Generation),简称RAG。检索增强生成是一种使用从外部来源获取的事实,来提高生成式 AI 模型准确性和可靠性的技术。