人工智能如何拥有人类的视觉“看”视频？-机器视觉-人工智能实验室AiLab-中国人工智能网-Powered by AiLab.cn

人工智能如何拥有人类的视觉“看”视频？

来源：互联网发布日期：2021-03-05 10:02:04 浏览：11539次

导读：数据调查显示，全球互联网流量到2022年将达到每年4.8 ZB，即每秒150,700 GB。视频将至少占互联网总流量的80％以上。我们都知道带宽问题和争用可能会造成互联网连接风险。对于IP上的视频传输尤其如此，因为它需要持续且一致的数据速率和低延迟的数据包传递...

数据调查显示，全球互联网流量到2022年将达到每年4.8 ZB，即每秒150,700 GB。视频将至少占互联网总流量的80％以上。

我们都知道带宽问题和争用可能会造成互联网连接风险。对于IP上的视频传输尤其如此，因为它需要持续且一致的数据速率和低延迟的数据包传递。但是，对于包含“互联网”的数据中心链来说，数据流量的迅速增长还有另一个显著的含义，每个数据中心都消耗着巨大的力量来支持大量的处理器架构，庞大的存储阵列和非常大量的IP、路由服务器。

斯德哥尔摩皇家技术学院KTH计算得出，数据中心服务已经占全球总能耗的10％以上。这使其碳足迹与当今的航空旅行处于同一水平。数据中心运营商以及他们的客户很有可能必须宣布其碳排放影响，并有可能对此征税。因此，必须减少对处理和存储的需求，尤其是对于视频的需求。

视频流量

互联网上的视频流量可以分为以下三个大类：

视频点播流媒体、视频平台等。

实时流媒体从视频会议到体育比赛以及娱乐和活动的现场直播，例如音乐演唱会和实时新闻提要等。

新兴市场社交媒体领域的新服务，例如TikTok，在线游戏等，其中游戏在云端进行GPU场上渲染，并作为超低延迟的实时视频源流式传输到播放器。

在使用国际认可的ISO MPEG，ITU-T VCEG或最近的开放媒体联盟（AOMedia）等标准通过网络将视频压缩之前，先将其压缩。但是这些标准是不对称的：非常复杂，通常由硬件支持的编码器可以传递给简单的解码器，包括基于软件的视频解码，并显示在Web浏览器或消费类设备中的视频播放器之类的应用程序上。

消费者的期望是，图像质量将继续提高，例如从全高清变为4K超高清，这意味着编码标准和硬件将需要更加努力地工作，以保持传输比特率不会以成倍地扩大。

如果内容流传输平台努力以尽可能低的比特率实现非常高的视频质量，则它们将迅速遇到处理瓶颈。也就是说，编码复杂性随着内容量的增加、分辨率的提高和新编码标准的复杂性的增加，而呈指数增长，其结果是许多企业都陷入了所谓的“复杂性壁垒”。

视频与音频

25年前，当网络开始成为一种重要的通信媒体时，就可以提供高保真音频，但是前提是IP连接能够维持1-2 Mb / s的速度，这在当时是极为罕见的。

通过利用我们对人类听觉感知的心理声学的理解，有效地解决了这个巨大的瓶颈。例如，MPEG 1音频层3（通常称为MP3）消除了普通听众无法听到的音频信号频谱部分，从而将数据速率从1-2Mb / s降低到了64 kb / s。当时的发烧友对MP3的音频质量持批评态度（有些至今仍如此！），但是，对于绝大多数听传统扬声器或耳机的消费者来说，MP3的音频质量堪称完美，而MP3后来它的化身，例如AAC等，现在在全世界的商业服务中已完全普及。

考虑到视频编码的复杂性，我们现在开始看到在视频编码和交付的情况下，应该考虑相同的人类感知驱动原理了。并非每一帧的每个像素都是相等的。如果以一种自动的方式确定人们在视频帧中看到的东西与看不见的东西，那么即使使用现有的编码器进行实际压缩，人们也可以衰减不太重要的像素区域的细节，从而节省编码的复杂度和比特率。

直到现在，这种工作都是以手工方式进行的，在这种方式下，手动设计试图在内容中找到感知上显着的区域，并衰减或“模糊”其余部分。，这种手工制作的设计只能在非常狭窄的环境中使用（例如，对话视频中会说话的人的正面视频，可以很容易地检测到背景区域并将其模糊掉）。

这里的挑战有两个方面：

我们感知和解释视频的方式非常复杂-比人类感知声音的方式要复杂得多。

从信息论的观点来看，与音频音调信息相比，视频信号在数量和内容上都极为不同。

因此，开发自动化的、数据驱动的技术来优化图像而不造成视觉失真是一个非常复杂的问题，并且是视频表示和压缩研究中正在出现的长期挑战之一。

有了为人类视觉感知提供可靠的手段，如今正迅速成为可能，可以开发机器学习（ML）工具对视频进行预处理，以在文件大小和感知的图像质量之间取得选择的平衡，该平衡由VMAF和类似的高分级质量指标。

关于此方法，有两个要点。首先，如前所述，这是一种预处理解决方案。原始视频经过启用了ML的处理阶段，该阶段旨在输出像素量，以便后续的编码器将较少的位分配给图像部分，这些部分对于人类的感知并不重要，同时增强了人类观众将看到的部分。

经过感知预处理的视频随后使用普通编码器进入基于标准的视频压缩引擎，并以与今天完全相同的方式被我们的消费类设备接收。视频客户端（消费设备）仍然完全不知道视频已经通过预处理阶段进行了优化，并且不需要在流包装，交付，解码和查看软件或硬件方面进行任何更改。这意味着，这样的解决方案今天就可以部署，而我们的设备交付，解码和播放视频的方式无需中断。

这样做的好处是，预处理阶段会更改内容，以便后续编码将以明显较低的数据速率实现相同的感知质量。特别是，ML模型可将H.264 / AVC，H.265 / HEVC和AV1编码标准的比特率降低20％至40％，而无需更改视频分辨率，并实现相同甚至更高的分辨率。这意味着，与现在消耗的相同或更少的计算周期相比，基于标准的编码器可以在更高压缩率下实现相同的视觉质量。

重要的是，由于基于ML的预处理阶段是大规模并行处理，因此非常适合图形处理单元（GPU）。这些在云中随时可用。因此，可以根据需要加快或降低处理速度，并且在NVIDIA T4 GPU上每1080p（全高清）视频帧消耗的时间仅为12毫秒。由于这种感知预处理是一次性的过程，并且多种编码比特率（甚至是编码标准）都可以从中受益，因此这种轻度的开销因压缩复杂度的降低而得到了过度补偿，避免了与高度优化的硬件紧密结合-增强的编解码器，可针对每个边缘服务器所需的每种格式和每种比特率执行单独的压缩阶段。