展会信息港展会大全

中国所谓的AR领头羊Rokid,跟Apple Vision Pro产品差距有多大?
来源:互联网   发布日期:2024-01-30 19:24:43   浏览:13912次  

导读:文 | aR星人,作者 | 李沛霖 懂行的人知道AR比VR难10倍不止!最近被疯抢的Apple Vision Pro 属于外观滑雪镜形态以VST模拟AR功能的VR头显,简单说就是用摄像头透视的VR。即使对于苹果,基于光学透视OST的AR都堪称圣杯。 一个动不动拿到大额融资的国内AR创企,...

中国所谓的AR领头羊Rokid,跟Apple Vision Pro产品差距有多大?

文 | aR星人,作者 | 李沛霖

懂行的人知道AR比VR难10倍不止!最近被疯抢的Apple Vision Pro 属于外观滑雪镜形态以VST模拟AR功能的VR头显,简单说就是用摄像头“透视”的VR。即使对于苹果,基于光学透视OST的AR都堪称圣杯。

一个动不动拿到大额融资的国内AR创企,所谓中国AR领域的“领头羊”,之前最早做语音识别、智能音箱,创始人散发着满满的geek气息。在许多先行者包括巨头微软Hololens和Magic Leap都几年拿不出一款新品、时不时被传团队解散,国内相关企业如影创倒闭甚至创始人因融资纠纷有牢狱之灾,AR企业几乎集体揭不开锅的时候,Rokid的风光让人疑窦丛生。

AR的直观理解

Rokid的AR和Apple Vision的AR截然不同,很难归类为同一类产品。但两家都瞄准着挖掘消费电子AR头显的金矿。

相比电视机的大屏幕、PC的中屏幕、手机的小屏幕,如果你眼前的三维空间成为一个新的“窗口”,现实世界的“实物“全部可以虚拟、任意塑造、增强,戴上一副眼镜或头显能够实现眼前空间的彻底数字化,对于生活和工作完全是颠覆。

我们见证过iPhone风靡全球,它真正发明了智能手机,如今跟工作和生活息息相关,出门手机低电量甚至会带来生存焦虑。同样道理,未来我们可能也离不开下一代AR消费电子,即“空间个人计算机“。

要理解AR,要知道先行一步的VR本质上是一个什么东西。就像你看3D电影,VR眼镜类似电影幕布整个“包裹”住你眼睛,你看到的完全是计算机生成的视觉信息,沉浸其中。戴上VR眼镜会让视觉和外界处于物理断联的状态,因为VR要隔绝外部光线要打造沉浸,现实里完全隔绝外部视线是危险的,VR要拓展到工作和生活场景,必须要实现对周围环境的感知。VST,即Video See Through,就是VR眼镜感知外部的解决方案,高清摄像头和相应的视频流处理单元即对应的VST硬件。

AR与之不同的是,它一般是OST,即Optic See Through,它在物理形态上不遮挡外部光线,不追求完全沉浸,用户看到的是外部环境光和计算机生成的图像的叠加。AR可以设计成沉浸或不沉浸,类似电镀调光技术还可以随意调整环境光透过率,当外部进入的环境光降低到0,就变成了类似VR。

直观理解,VR追求沉浸在物理设计上隔绝了眼睛能直接看到外部光线,必须借助VST。AR是相对“透明”设计,它允许一部分或绝大部份光线穿过光学镜片进入眼睛。

苹果Vision Pro所演示的VST路线

库克之前对AR的兴奋完全出于真情流露。收购供应链新锐创企、关键软硬件默默自研、等待基础技术进步和成熟,苹果在推出Vision Pro之前不知道蛰伏了多久,Vision Pro也被期待是下一个iPhone时刻。

从终端硬件上看,Apple Vision Pro 的核心处理器M2、专用传感器数据实时处理器R1、高度定制的类Pancake的3片式透镜,来源于多年自研和收购前沿技术公司,并且做了深度整合。数量庞大的多种类传感器,包括用于眼球追踪的红外相机、三维空间感知和建模的LiDar Camera和深度相机、前向和侧向覆盖多个角度的高清RGB摄像头,带来的眼球追踪+裸手手势+语音交互,从硬件到算法上的调教一出场就站在行业的顶峰,真实效果震撼了许多人。Vision Pro在VR头显的易用性、使用频率和可能的场景扩张上蕴藏巨大潜力。

中国所谓的AR领头羊Rokid,跟Apple Vision Pro产品差距有多大?

Vision Pro 所演示的Eyesight功能,覆盖着玻璃罩的曲面OLED多角度格栅式显示,基于深度学习的脸部建模和数字头像(表情)传递,外部动态的智能化提醒和切换,让佩戴头显的用户自然且巧妙地感知外界信息。相比之下,以往佩戴VR头显的用户和其他人几乎无法正常“交流”,人与人之间的视觉割裂,陷入信息孤岛,环境安全和友好几乎是无法解决的问题。

三言两语很难完全讲清Vision Pro的领先究竟在哪个层次。相比来自Meta、字节Pico的已有同类产品,有些媒体将Vision Pro的领先概括为“硬件堆料“,显得浅薄且可笑。苹果公司对用户需求的理解,产品形态和人机交互“规范定义”的拉力,富有魔力的营销和对用户体验的拿捏,这种自带的扭曲现实力场让Vision Pro被迅速抢购一空。可以预见,我们很快就可以看到竞品在功能上“跟进”,外观上借鉴,甚至直接粗暴抄袭。

Vision Pro可以说充分外显了苹果领先时代的产品哲学和创造底蕴。风口之下的另一边,在中国所谓的AR企业领头羊,被媒体描绘为“一杯酒融一个亿“的Rokid,今年上半年推出了Rokid Max折返式光路BirdBath原理的AR眼镜,这种几乎只有显示功能的OST AR眼镜,产品原理和售价相比Vision Pro差别巨大。

Rokid在国内资本市场被追捧据说源于这家公司的“人机交互”基因,但强大的硬件是应用、操作系统和完整生态的基础载体,没有一个成熟且达到一定渗透和使用率的硬件终端,Rokid频繁举办的开发者活动、对于自研空间操作的宣传,不知道支点在哪。基础逻辑可以说完全不通。

Rokid 相比同行如已经倒闭的影创,同样做BirdBath AR眼镜、经常参与国外专业技术组织研讨和展览活动的Xreal,以及TCL孵化的、同时推进两条产品线的雷鸟创新,包括BirdBath AR眼镜以及全彩显示Micro LED搭配光波导OST的AR眼镜,Rokid身上的疑点简直不要太多。

Apple Vision Pro对比Rokid Max,究竟有怎样的差别?

首先,产品原理。VR/AR头显的产品原理其实并无本质区隔,它们都可以概括为:由计算机生成的图像经过光学调整,在非常近的距离让眼睛对焦。

当计算机实时生成的图像在一小块“显示屏“上出发,图像光源经过透镜放大,在设计好的光路中传输,实现超短距离的对焦,再进入瞳孔,我们就看到了虚拟图像。AR与之基本类似,不同的是,AR的小屏幕并不像VR一般放在眼睛前方,因为这样会遮挡外部视线,它一般设计在不遮挡视线的顶部镜架或侧部镜腿位置。AR生成的虚拟图像经过光路,会和外部真实光线一起进入眼睛。

中国所谓的AR领头羊Rokid,跟Apple Vision Pro产品差距有多大?

Apple VisionPro所使用的多透镜Pancake折叠放大光路,图像光源来自眼睛前方的微显示屏

中国所谓的AR领头羊Rokid,跟Apple Vision Pro产品差距有多大?

BirdBath原理AR眼镜,图像光源来自顶部微显示屏(示意图来自鸿蚁光电公司)

第一个关键对比,生成图像的“小屏幕”。这块小屏幕分辨率必须足够高,还需要非常高的亮度,因为不同的光学模组光效率大相径庭,要保证一定的入眼亮度,以及丰富的的色彩、对比度,低耗电等。迄今为止最佳的解决方案是硅基OLED屏幕,即硅芯片驱动的超密集OLED微型“显示器”,索尼已经实现指甲盖大小的面积上实现4K分辨率的硅基OLED小屏幕。多家科技巨头还在研发Micro LED,不过Micro LED目前无法在一块硅基板上同时实现RGB三色超高亮度显示。

微显示屏作为新兴显示产业,终端品牌都需要从供应链厂商采购。Apple Vision Pro使用了2块索尼4K分辨率的OLED微显示屏作为内屏,一块异形柔性屏AMOLED作为前向eyesight显示(外屏),后续传言还会将视涯和京东方加入供应链。微显示屏需要在分辨率、色彩、功耗、成本上不断进化,头显的“空间分辨率”对于提升产品体验至关重要,面板巨头主导着技术进步和批量生产良品率。

之前媒体流传的BOM清单显示,售价3499美元的Apple Vision Pro硬件物料成本约 1509 美元,其中,索尼供应的两片4K分辨率OLED内屏一片350美元,合计 700美元,几乎占据了物料成本的一半,为成本最高的零组件。相比之下,台积电代工的M2 处理器仅需 120 美元。

中国所谓的AR领头羊Rokid,跟Apple Vision Pro产品差距有多大?

2023年年中发布的Apple Vison Pro,采用了4K分辨率的昂贵OLED微显示屏,(型号可能是官网显示的1.30type ECX344A),相比2023年上半年发布Rokid Max,还停留在1080P分辨率。

第二个关键对比,光路传输,即光学显示透镜的设计,VR头显一般有透镜、涅菲尔透镜、Pancake透镜模组三种方案。它们之前的差异就是模组轻薄程度(关键)和一系列影响显示效果的光学特性,如FOV、光效率、MTF、杂散光抑制、像差和色差消除、超高分辨率适配等。Pancake最为轻薄,关键光学参数综合最好,但也是近乎10倍于传统透镜的价格。

根据多方信源,Apple Vision Pro采用了定制的多片式(3片)Pancake透镜模组。苹果官方新闻稿中明确提到“定制的折反射透镜”字样,Pancake属于折返射透镜的其中一类,苹果已收购的光学公司Limbak就以折反射方案闻名,此前还推出了某种“超级Pancake”透镜设计。

熟悉光学透镜设计和制造的人知道,Pancake本身就是一个刚出来没几年的前沿高端方案,适配超高分辨率屏幕的Pancake模组,(根据同行HyperVision解析)Vision Pro使用的还是多片式带有独特非标曲面的定制Pancake模组,这意味着对齐、加工精度和量产一致性是个非常大的挑战。透镜模组的设计,分光、极化偏振、消除鬼影的各类光学镀膜和层片需要有非常深厚的光学研究和积累。

Apple Vision足够独创且研究艰深,构筑了一定的产品壁垒,头显整体的精密和复杂从光学透镜一个组件上就能体现。相比之下,中国的AR厂商如Rokid Max似乎还是用中国供应链厂商的整体BirdBath模组方案。惠牛、鸿蚁或视涯,直接拿来用。

严格地说,Apple Vision Pro这种不同原理的复杂头显、完全不同的产品形态,Rokid不应该拿来对比。但同类型的BirdBath AR眼镜,Xreal 能够独立设计光引擎+透镜模组,并且在无锡有光引擎组件的量产工厂,这也是Xreal能够在国外专业技术组织SID Display VR/AR专场频频亮相的原因。因为即便BirdBath,也有PBS偏振分光棱镜,消除多源头的杂散光、边缘炫光、矫正像差和色差的镀膜,设计光路、适眼距、eyebox、改进MTF等诸多细节。

Rokid即使相比雷鸟创新,雷鸟的BirdBath产品线也是拿来主义,但起码雷鸟毫不畏惧另一条产品线Micro LED+光波导方案“真AR眼镜”的技术困难。雷鸟创新虽然直接使用了来自JBD的Micro LED的X-cube RGB三块小面板方案,但成功落地量产,解决了配套的研发、测试、量产一致性的诸多问题。

没有从底层产品原理上最细微处的洞察,对光学的积累和重视,没有完全从0到1的独创精神,是无法做出真正领先市场的AR硬件终端。

第三个关键对比,传感、数据传输&处理、人机交互和人机工程对于视觉-人脑的深入研究,这是当前技术研发能够拉开差距的关键地方。光学显示透镜和小屏幕都有比较成熟的供应链厂商,昂贵或便宜,好的不好的,大家可以选择。即使苹果、Meta、谷歌近10年收购的光学和微显示领域的研究型创企,也基本上处在实验室的超前概念预研阶段,能真正落地整合进自家产品且商用的很少。体验做不到超前的独一档。

VR跟裹住眼睛的3D幕布不同的是,VR需要能跟外界进行交互,比如手势交互、眼球运动、头部运动、肢体体感、指环或手柄。实现交互的硬件基础,设计专门的高精度传感器,比如基于dToF原理的激光雷达、基于红外点阵特征识别的深度相机、高清RGB摄像头,以及相匹配的先进算法。传感器的数量、分布、精度、算法的效果会有明显差异。

中国所谓的AR领头羊Rokid,跟Apple Vision Pro产品差距有多大?

以Apple Vision Pro为例,它将眼球追踪+手势交互+语音操作做到了极致,并且将其引导成“空间计算”最舒服最符合直觉的交互模式。为此,Apple Vision Pro在传感器的硬件配置和算法上下了非同一般的功夫,比如为了实现高精度的眼球追踪,别家都是左右眼各一个红外相机和数个IR LED等,Apple Vision Pro 左右眼各两个IR Camera+环绕眼眶更多的 IR LED。已经公开的专利也显示,苹果在视网膜透视、特征识别上进行了大量的研究,为了进一步提升精度,甚至有工业级的激光干涉测量原理的方案被披露出来。

Vision Pro 配备了 4 个定制的红外相机(左右眼各 2 个),使用多达 34 颗红外 LED 灯,可以非常精准的追踪和预测眼球视线的变化,凝视和扫视。数据传输和处理上,Vison Pro 同时搭载了 M2 和全新的 R1 芯片,M2是桌面级性能非常强大的核心处理器,而R1 芯片是苹果为 vision pro 设计的传感器数据实时处理定制芯片,类似iPhone协处理器,是其实现高性能眼动追踪重要基矗R1 芯片专门处理 12 个摄像头、5 个传感器和 6 个麦克风的输入,以确保内容实时呈现在用户眼前,R1 芯片能在 12 毫秒内将新图像传输到显示屏中,降低图像到屏幕的延迟,以超高的精度、极低的延迟识别用户所在的环境以及用户的手势和眼球的运动,精准分析出需要渲染的场景,从而实现动态注视点渲染功能。通过 Vision Pro 提供的低延迟、高精度信息输入,用户得以从手柄控制器中解放出来,只需眼睛注视即可准确地选中元素,以极其自然、优雅且直观的方式与数字世界进行交互。

中国所谓的AR领头羊Rokid,跟Apple Vision Pro产品差距有多大?

Vision Pro让眼球追踪真正落地成为主要交互方式,还是令一众观察家惊讶不已。

微软HoloLens 2软件开发指南中曾提到,人眼视线的运动是不规则且跳跃的,并且速度很快。可能在用户完成点击动作之前,视线早已经飘走,因此将快速眼睛凝视信号与慢速的控制输入结合起来需要格外小心。

此前Meta Reality Labs的一份关于“手柄、头动以及眼动交互”的一份研究指出,以90Hz运行的平均精度误差低于1°的眼动追踪系统(在无光标或其他反馈的条件下),它在易用性、采用率和疲劳度相较于头部输入(Head input )分别提高了66.4%、89.8%和116.1%,而相较于手柄输入则分别降低了4.2%、8.9% 和 116.1%,不过它的失误率是三者当中最高的。

除了强大的传感器和实时数据处理,在算法方面,苹果也早早进行了布局。根据外部资料,早在2017年,苹果收购德国眼动追踪技术开发商SensoMotoric Instruments(SMI),这是一家专注于该细分领域的头部企业,已有30余年的发展历史。

苹果前员工Sterling Crispin爆料称,苹果围绕Vision Pro有一个专门研究神经技术的开发小组,而他所做的工作之一是通过AI预判用户的操作行为。他提到,“你的瞳孔会在你点击某物之前作出反应,部分原因在于用户对接下来发生的事有所期望。因此,可以通过观察用户的眼睛行为并配合实时反馈的UI来增强用户大脑的预测性瞳孔反应,从而创建生物反溃”AI算法的加入,是Vision Pro的眼动交互备受好评的重要原因之一。

眼球追踪只是苹果Vision Pro在人机交互体验高出同行一截的显性部分。在传感、数据传输、计算、人机交互软硬件方案上,亮点实在是太多。

比如在AR/VR刚兴起时,业内就几乎确认了裸手交互是重点方向,只是要想做好手势交互精准且流畅,技术难度不校而裸手交互被苹果真正推向了极致,展现了与市场上其他玩家完全不同的策略。Vision Pro配备了多个用于手势识别的摄像头和传感器,可以检测腰部以下的手势,用户还可以把手放在膝盖上进行操作,这是之前VR厂商做不到的。

中国所谓的AR领头羊Rokid,跟Apple Vision Pro产品差距有多大?

主流VR的手势追踪必须将手放在摄像头FOV范围内,使用时双手必须微抬或举在身体前面,时间一长就非常累,导致用户体验差。而Vision Pro则拥有6颗SLAM+手势摄像头,其中有两颗向下的摄像头专门捕捉手垂放在腿上的视角。另外,还有两颗斜向下的摄像头同时兼顾SLAM和手势。甚至为了弱光环境下手势识别准确性,苹果还加入了两颗红外LED进行辅助。

这种垂直视角的摄像头,专门用于捕捉大部分时间、不抬手的时候的手势,因为很多时候双手应该自然垂放在腿或桌子上,符合人体工学逻辑。苹果Vision Pro是AR/VR中的首家采用这一方案的设备,属于独一份。

Apple Vision Pro 眼球追踪体验刷新了行业认知,多种类型传感器硬件、分布、算法研究之深很难给出准确评估,硬件底层还有专门的传感器数据实时处理芯片R1,极限压缩交互上的反馈(图像)延迟,Apple Vision Pro在人机交互的软硬件的方方面面,几乎独创了整个方案。其他厂商短时间几乎没有可能追赶得上。

更值得深度思考的是Eyesight。根据Vision Pro官方发布会的说法,Eyesight是一项引进先进AI后才解决了某项一直阻碍团队重要难题的交互方案,它完全不同于传统VR的产品视角,少有人知晓的细节:Eyesight的硬件实现,让外部摄像头传感器位置偏离常规,相应的矫正算法增加了不少的设计困难。

中国所谓的AR领头羊Rokid,跟Apple Vision Pro产品差距有多大?

为了Eyesight,Vision Pro多用了一块复杂的曲面OLED外屏,增加了曲面玻璃罩的“死重“,为此还需要重新调整传感器分布,进行实时画面矫正,代价不校苹果也在发布会上花了很大篇幅讲Eyesight。

国外著名的AR专家Karl Guttag在个人博客上暗示,苹果在VR头显上击中了关键点,深思熟虑后为了Eyesight 在产品上做了重大妥协,体现了这家公司对产品和用户的深刻洞察力:Eyesight做到了外围视觉的动态感知,佩戴头显的用户能够真正融入日常环境,与他人更符合人类的方式互动,让VR头显开始真正具备大众消费电子产品的可能。基本可以预见,Eyesight 马上也会成为行业的“高端标配”。

再回过头来看,中国的AR创企代表Rokid,有位参加Rokid首届高校XR内容创作大赛的选手在媒体上这样写道,

Rokid Max Pro,这款眼镜从外观和手感/重量上其实与Rokid Max基本没有什么区别,就是两眼中间位置增加了一个摄像头。而利用这个摄像头以及另一款目前还不能公布的硬件,Rokid Max Pro用户能实现SLAM( 即Simultaneous Localization And Mapping视觉定位和建图)、3D裸手交互等功能。嗯,我相信你一定见过同类产品上利用双目视觉实现该功能的产品,但Rokid Max Pro却只用单目,这效果真的OK么?我现在不能透露有关它的一些技术细节,但我可以说的是这款产品在定位的“稳定性”以及手势动作识别“精确度”、“延迟性”上的表现令我惊叹....

还在纠结和对比单目还是双目的视觉SLAM...传感器的精度、数据的延迟、数据流的处理模式、有没有专属芯片和定制传感器这种底层创新暂且不表,产品宣传如此高调,“空间计算操作系统”、“超前的应用开发生态”、“人机交互重大创新”、“AR空间创作工具“,投资人是真不懂吗?

如此简陋,毫无技术含量的供应链组装品,却成为中国AR企业的代表,融资如喝水一般简单,不禁莞尔一笑。底层创新是如此之难。但你刚挖好农村宅基地的地基,却要在这上面垒起来上海中心大厦?

这一波风口,飞上天之后,总该拿出点硬货。我不信投资人真的不懂Apple Vision Pro的创新有多么深刻。在历时两个月的深入研究后,我相信真正的创业者应该出发了。

赞助本站

人工智能实验室
相关内容
AiLab云推荐
展开

热门栏目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港