新智元报道
编辑:QJB
【新智元导读】最近,谷歌AI 宣布推出了 MediaPipe Holistic,提供了一种新颖的人体姿势拓扑结构。MediaPipe 是专门为利用加速推理(例如 GPU 或 CPU)的复杂感知管道而设计的开放源代码框架,已经为很多复杂任务提供了快速,准确而又独立的解决方案。
在移动设备上实时、同步地感知人体姿势、脸部标记和手势跟踪等可以实现各种有趣的应用,例如健身和运动分析、姿态控制和手语识别、扩增实境效果等等。
谷歌的MediaPipe 是一个开源框架,专门为复杂的感知管道设计,利用加速推理(例如 GPU 或 CPU) 等已经为这些任务提供了快速、准确、独立的解决方案。而将它们实时地组合成一个语义一致的端到端解决方案目前来看还是一个大难题,需要多个相关的神经网络同时进行推理。
近期,谷歌宣布推出MediaPipe Holistic,这是一个解决这一挑战的方案,它提供了一种新颖的SOTA人体姿态拓扑结构,可以解锁新的用例。
MediaPipe Holistic 包括一个新的Pipeline,具有优化的姿态、面部和手部组件,每个组件都可以实时运行,推理后端之间的内存传输最少,并且根据质量和运行速度之间的权衡,增加了对三个组件可互换性的支持。
当包含所有三个组件时,MediaPipe Holistic 为540多个关键点(33个姿势、21个手势和468个面部标记)提供了一个统一的拓扑结构,并在移动设备上实现了接近实时的性能。MediaPipe Holistic 作为 MediaPipe 的一部分发布,可以在移动设备(Android、 iOS)和桌面上使用。谷歌还将介绍 MediaPipe 新的用于研究(Python)和 web (JavaScript)的现成 API,以方便访问该技术。
管道和质量
MediaPipe Holistic 管道集成了姿态、面部和手部组件的独立模型,每个模型都针对其特定领域进行了优化。但是,由于它们的特殊化,一个组件的输入不适合其他组件。
例如,姿态估计模型以较低的分辨率(256x256)作为输入。但是如果从图像中剪切手部和脸部的区域来传递给他们各自的模型,图像的分辨率会太低,无法精确清晰表达。
因此,谷歌将 MediaPipe Holistic 设计为一个多级管道,使用不同的图像分辨率处理不同的区域。
首先,MediaPipe Holistic 使用 BlazePose 的姿态检测器和关键点模型来估计人体姿态。然后,利用推导出的姿态关键点,推导出每只手(2x)和人脸的三个感兴趣区域(ROI) ,并采用重新裁剪模型提高 ROI。
然后,该管道将全分辨率输入帧到这些ROI 中,并应用特定于任务的面部和手部模型来估计它们相应的关键点。
最后,将所有关键点与姿态模型的关键点合并,得到完整的540多个关键点。
为了简化 ROI 的识别,使用了一种类似于单独使用面部和手部管道的跟踪方法。这种方法假设对象在帧之间没有显著的移动,使用前一帧的估计作为当前帧中对象区域的指导。然而,在快速移动过程中,跟踪器可能会丢失目标,这就要求探测器在图像中重新定位目标。
MediaPipe Holistic使用姿态预测(在每一帧上)作为额外的 ROI,以减少快速移动时管道的响应时间。这也使得模型能够通过防止左手和右手之间的混淆,或者防止一个人的身体部位与另一个人的身体部位之间的混淆,从而保持身体及其部位的语义一致性。
此外,对姿态模型的输入框架的分辨率很低,因此得到的面部和手部的 ROI 仍然不够精确,无法指导这些区域的重新裁剪,这就需要精确的输入裁剪才能保持轻量级。
为了缩小这个精度差距,研究人员使用了轻量级的脸和手重新裁剪模型,它们扮演了 spatial transformers 的角色,成本仅为相应模型推理时间的10% 。
性能
MediaPipe Holistic 要求每帧最多在8个模型之间协调:1个姿态检测器,1个姿态标志模型,3个重裁剪模型和3个手部和脸部关键点模型。
在构建这个解决方案时,谷歌的研究人员不仅优化了机器学习模型,还优化了预处理和后处理算法(如仿射变换) ,由于流水线的复杂性,这些算法在大多数设备上都需要大量时间。
在这种情况下,将所有的预处理计算移动到 GPU 上,整个管道的速度是原来的1.5倍。因此,即使在中间层设备和浏览器中,MediaPipe Holistic 也能以接近实时的性能运行。
MediaPipe Holistic的540多个关键点,旨在实现对身体语言、手势和面部表情的整体、同步感知。它的混合方法使远程手势界面,以及全身增强现实,体育分析,和手语识别。
为了演示 MediaPipe 的整体性能和质量,谷歌构建了一个简单的远程控制界面,它可以在浏览器本地运行,并支持引人注目的用户交互,不需要鼠标或键盘。
用户可以操作屏幕上的对象,坐在沙发上时在虚拟键盘上打字,指向或触摸特定的脸部区域(例如,静音或关闭摄像头)。在下面,它依靠精确的手势检测,然后将手势识别映射到固定在用户肩膀上的“轨迹板”空间,从而实现4米以内的远程控制。
结论
谷歌的研究人员希望 MediaPipe Holistic 的发布将激励研究和开发社区成员建立新的独特应用。我们预计,这些管道将为未来研究具有挑战性的领域开辟道路,例如手语识别、非接触控制接口或其他复杂的用例。
期待看到你可以用它来做些 什么!
参考链接:
https://ai.googleblog.com/2020/12/mediapipe-holistic-simultaneous-face.html