随着手势识别项技术不断发展,它已经应用于AR/VR、手机等多种设备,甚至在VR领域已经与一些游戏结合,带来比手柄更容易上手的体验感。而在AR中,手势识别省去了对手柄的依赖,一线工作人员可随时随地控制AR眼镜,双手不会一直被占用。而在手机端,华为、Pixel等品牌的部分机型也开始支持简单的手势操作,目的不仅是优化体验感,也可以让你在不碰到手机的距离就能控制,更加方便。
市面上的手势识别技术主要基于摄像头图像识别,不过也有基于超声波或雷达的方案。比如,谷歌发布的Project Soli,特点是通过雷达/无线电准确高速追踪物体运动,精度可达亚毫米级别。此外,Ultrahaptics此前也曾开发基于超声波的手势识别和体感反馈模块。
而基于摄像头的手势识别方案应用更加广泛,只需要摄像头与计算机视觉算法即可实现,市面上的技术已经比较成熟。一些搭载深感相机的手机可以根据对人手节点的识别来预测手势,Oculus Quest也搭载了手势识别技术,还推出了支持手势的一些游戏,效果还不错。
尽管如此,目前的手势识别技术的延迟和准确性问题还有待解决和提升。为此,南洋理工大学和悉尼科技大学的科研人员开发了一个模拟大脑原理的手势识别架构,该架构采用机器学习算法,通过分析延展式应变传感器捕捉到的图像,来识别手势。
据了解,该手势识别架构的比市面上现有的一些技术准确性更高,即使是在图像源存在噪点或过曝情况下依然能保持较高的识别准确性。而与基于计算机视觉或是超声波/雷达传感的识别方案相比,南洋理工大学研发的架构方案以模拟人脑处理信息为特色,结合图像与躯体感知信息来识别手势,是一种多模态的方案。
该团队科研人员之一Xiaodong Chen表示:手势识别方案的灵感来源于大脑处理信息的方式,在人的大脑中,思考、计划和灵感等高度感知的活动并不只是依赖特定的感知信息,而是从一个综合的多重感官信息中获龋因此,我们决定发明一个结合视觉信息与躯体感知信息的方案,来提升手势识别的准确性。
人类在解决实际的任务时,通常会先结合从周围环境收集的躯体感知信息与视觉信息,这是两种互补的信息,结合在一起之后可以更容易理解需要解决的问题所涉及的全部元素。
将这种原理用在手势识别时,科研人员采用了多个传感器,来收集不同类型的传感信息。最后,结合多样化的信息来构建一个准确的手势识别架构。
为了提升手势识别的准确性,科研人员首先将传感器设计成延展式的整合传感器,准确性比市面上的穿戴式传感器更好。接着,科研人员开发了一个躯体感知与视觉仿生(BSV)的学习框架,它的特点是模拟大脑处理信息的结构,将视觉信息与躯体感知信息结合在一起。
科研人员开发的BSV学习架构从多方面模拟大脑融合信息的过程,比如:采用分等级的多层次结构、采用人工神经网络来模拟生物神经网络,并以同样的方式处理数据。比如,部分卷曲神经网络会执行卷积运算,人工模拟生物神经系统局部感知区域,以及模拟大脑中负责视觉反应的部分处理初步视觉信息的过程。
最后,该架构还结合了稀疏神经网络的功能,来复制大脑的多感官神经元展现视觉与躯体感知信息的早期与高能效互动。
总之,这项技术有三大特点:
1)可以处理视觉与躯体感知信息的早期交互;
2)卷曲神经网络中的卷积运算模拟了生物神经系统的局部感知区域(可以自动学习分等级的深度空间特性,并从源图像中提取平移不变特征);
3)采用一种基于弗罗贝尼乌斯条件数的全新调整策略,来提升稀疏神经网络的效能;
经过一系列早期实验证明,BSV学习架构的效果优于单一模态的识别方案(仅基于视觉或躯体感知数据的方案),在准确性上甚至超越市面上已有的三种多模态识别技术(SV-V、SV-T和SV-M)。而且,即使是在图像存在噪点或过曝情况下依然能保持较高的识别准确性。
应用场景方面,科研人员认为这个模拟大脑的识别架构可用于开发医疗机器人(帮助机器人识别病人的身体语言)、VR、AR,以及娱乐技术。
接下来,科研人员计划开发一个结合该架构的AR/VR系统。