中国所谓的AR领头羊Rokid，跟Apple Vision Pro产品差距有多大？-AR增强现实-人工智能实验室AiLab-中国人工智能网-Powered by AiLab.cn

导读：文 | aR星人，作者 | 李沛霖懂行的人知道AR比VR难10倍不止！最近被疯抢的Apple Vision Pro 属于外观滑雪镜形态以VST模拟AR功能的VR头显，简单说就是用摄像头透视的VR。即使对于苹果，基于光学透视OST的AR都堪称圣杯。一个动不动拿到大额融资的国内AR创企，...

中国所谓的AR领头羊Rokid，跟Apple Vision Pro产品差距有多大？

文 | aR星人，作者 | 李沛霖

懂行的人知道AR比VR难10倍不止！最近被疯抢的Apple Vision Pro 属于外观滑雪镜形态以VST模拟AR功能的VR头显，简单说就是用摄像头“透视”的VR。即使对于苹果，基于光学透视OST的AR都堪称圣杯。

一个动不动拿到大额融资的国内AR创企，所谓中国AR领域的“领头羊”，之前最早做语音识别、智能音箱，创始人散发着满满的geek气息。在许多先行者包括巨头微软Hololens和Magic Leap都几年拿不出一款新品、时不时被传团队解散，国内相关企业如影创倒闭甚至创始人因融资纠纷有牢狱之灾，AR企业几乎集体揭不开锅的时候，Rokid的风光让人疑窦丛生。

AR的直观理解

Rokid的AR和Apple Vision的AR截然不同，很难归类为同一类产品。但两家都瞄准着挖掘消费电子AR头显的金矿。

相比电视机的大屏幕、PC的中屏幕、手机的小屏幕，如果你眼前的三维空间成为一个新的“窗口”，现实世界的“实物“全部可以虚拟、任意塑造、增强，戴上一副眼镜或头显能够实现眼前空间的彻底数字化，对于生活和工作完全是颠覆。

我们见证过iPhone风靡全球，它真正发明了智能手机，如今跟工作和生活息息相关，出门手机低电量甚至会带来生存焦虑。同样道理，未来我们可能也离不开下一代AR消费电子，即“空间个人计算机“。

要理解AR，要知道先行一步的VR本质上是一个什么东西。就像你看3D电影，VR眼镜类似电影幕布整个“包裹”住你眼睛，你看到的完全是计算机生成的视觉信息，沉浸其中。戴上VR眼镜会让视觉和外界处于物理断联的状态，因为VR要隔绝外部光线要打造沉浸，现实里完全隔绝外部视线是危险的，VR要拓展到工作和生活场景，必须要实现对周围环境的感知。VST，即Video See Through，就是VR眼镜感知外部的解决方案，高清摄像头和相应的视频流处理单元即对应的VST硬件。

AR与之不同的是，它一般是OST，即Optic See Through，它在物理形态上不遮挡外部光线，不追求完全沉浸，用户看到的是外部环境光和计算机生成的图像的叠加。AR可以设计成沉浸或不沉浸，类似电镀调光技术还可以随意调整环境光透过率，当外部进入的环境光降低到0，就变成了类似VR。

直观理解，VR追求沉浸在物理设计上隔绝了眼睛能直接看到外部光线，必须借助VST。AR是相对“透明”设计，它允许一部分或绝大部份光线穿过光学镜片进入眼睛。

苹果Vision Pro所演示的VST路线

库克之前对AR的兴奋完全出于真情流露。收购供应链新锐创企、关键软硬件默默自研、等待基础技术进步和成熟，苹果在推出Vision Pro之前不知道蛰伏了多久，Vision Pro也被期待是下一个iPhone时刻。

从终端硬件上看，Apple Vision Pro 的核心处理器M2、专用传感器数据实时处理器R1、高度定制的类Pancake的3片式透镜，来源于多年自研和收购前沿技术公司，并且做了深度整合。数量庞大的多种类传感器，包括用于眼球追踪的红外相机、三维空间感知和建模的LiDar Camera和深度相机、前向和侧向覆盖多个角度的高清RGB摄像头，带来的眼球追踪+裸手手势+语音交互，从硬件到算法上的调教一出场就站在行业的顶峰，真实效果震撼了许多人。Vision Pro在VR头显的易用性、使用频率和可能的场景扩张上蕴藏巨大潜力。

中国所谓的AR领头羊Rokid，跟Apple Vision Pro产品差距有多大？

Vision Pro 所演示的Eyesight功能，覆盖着玻璃罩的曲面OLED多角度格栅式显示，基于深度学习的脸部建模和数字头像（表情）传递，外部动态的智能化提醒和切换，让佩戴头显的用户自然且巧妙地感知外界信息。相比之下，以往佩戴VR头显的用户和其他人几乎无法正常“交流”，人与人之间的视觉割裂，陷入信息孤岛，环境安全和友好几乎是无法解决的问题。

三言两语很难完全讲清Vision Pro的领先究竟在哪个层次。相比来自Meta、字节Pico的已有同类产品，有些媒体将Vision Pro的领先概括为“硬件堆料“，显得浅薄且可笑。苹果公司对用户需求的理解，产品形态和人机交互“规范定义”的拉力，富有魔力的营销和对用户体验的拿捏，这种自带的扭曲现实力场让Vision Pro被迅速抢购一空。可以预见，我们很快就可以看到竞品在功能上“跟进”，外观上借鉴，甚至直接粗暴抄袭。

Vision Pro可以说充分外显了苹果领先时代的产品哲学和创造底蕴。风口之下的另一边，在中国所谓的AR企业领头羊，被媒体描绘为“一杯酒融一个亿“的Rokid，今年上半年推出了Rokid Max折返式光路BirdBath原理的AR眼镜，这种几乎只有显示功能的OST AR眼镜，产品原理和售价相比Vision Pro差别巨大。

Rokid在国内资本市场被追捧据说源于这家公司的“人机交互”基因，但强大的硬件是应用、操作系统和完整生态的基础载体，没有一个成熟且达到一定渗透和使用率的硬件终端，Rokid频繁举办的开发者活动、对于自研空间操作的宣传，不知道支点在哪。基础逻辑可以说完全不通。

Rokid 相比同行如已经倒闭的影创，同样做BirdBath AR眼镜、经常参与国外专业技术组织研讨和展览活动的Xreal，以及TCL孵化的、同时推进两条产品线的雷鸟创新，包括BirdBath AR眼镜以及全彩显示Micro LED搭配光波导OST的AR眼镜，Rokid身上的疑点简直不要太多。

Apple Vision Pro对比Rokid Max，究竟有怎样的差别？

首先，产品原理。VR/AR头显的产品原理其实并无本质区隔，它们都可以概括为：由计算机生成的图像经过光学调整，在非常近的距离让眼睛对焦。

当计算机实时生成的图像在一小块“显示屏“上出发，图像光源经过透镜放大，在设计好的光路中传输，实现超短距离的对焦，再进入瞳孔，我们就看到了虚拟图像。AR与之基本类似，不同的是，AR的小屏幕并不像VR一般放在眼睛前方，因为这样会遮挡外部视线，它一般设计在不遮挡视线的顶部镜架或侧部镜腿位置。AR生成的虚拟图像经过光路，会和外部真实光线一起进入眼睛。

中国所谓的AR领头羊Rokid，跟Apple Vision Pro产品差距有多大？

Apple VisionPro所使用的多透镜Pancake折叠放大光路，图像光源来自眼睛前方的微显示屏

中国所谓的AR领头羊Rokid，跟Apple Vision Pro产品差距有多大？

BirdBath原理AR眼镜，图像光源来自顶部微显示屏（示意图来自鸿蚁光电公司）

第一个关键对比，生成图像的“小屏幕”。这块小屏幕分辨率必须足够高，还需要非常高的亮度，因为不同的光学模组光效率大相径庭，要保证一定的入眼亮度，以及丰富的的色彩、对比度，低耗电等。迄今为止最佳的解决方案是硅基OLED屏幕，即硅芯片驱动的超密集OLED微型“显示器”，索尼已经实现指甲盖大小的面积上实现4K分辨率的硅基OLED小屏幕。多家科技巨头还在研发Micro LED，不过Micro LED目前无法在一块硅基板上同时实现RGB三色超高亮度显示。

微显示屏作为新兴显示产业，终端品牌都需要从供应链厂商采购。Apple Vision Pro使用了2块索尼4K分辨率的OLED微显示屏作为内屏，一块异形柔性屏AMOLED作为前向eyesight显示（外屏），后续传言还会将视涯和京东方加入供应链。微显示屏需要在分辨率、色彩、功耗、成本上不断进化，头显的“空间分辨率”对于提升产品体验至关重要，面板巨头主导着技术进步和批量生产良品率。

之前媒体流传的BOM清单显示，售价3499美元的Apple Vision Pro硬件物料成本约 1509 美元，其中，索尼供应的两片4K分辨率OLED内屏一片350美元，合计 700美元，几乎占据了物料成本的一半，为成本最高的零组件。相比之下，台积电代工的M2 处理器仅需 120 美元。

中国所谓的AR领头羊Rokid，跟Apple Vision Pro产品差距有多大？

2023年年中发布的Apple Vison Pro，采用了4K分辨率的昂贵OLED微显示屏，（型号可能是官网显示的1.30type ECX344A），相比2023年上半年发布Rokid Max，还停留在1080P分辨率。

第二个关键对比，光路传输，即光学显示透镜的设计，VR头显一般有透镜、涅菲尔透镜、Pancake透镜模组三种方案。它们之前的差异就是模组轻薄程度（关键）和一系列影响显示效果的光学特性，如FOV、光效率、MTF、杂散光抑制、像差和色差消除、超高分辨率适配等。Pancake最为轻薄，关键光学参数综合最好，但也是近乎10倍于传统透镜的价格。

根据多方信源，Apple Vision Pro采用了定制的多片式（3片）Pancake透镜模组。苹果官方新闻稿中明确提到“定制的折反射透镜”字样，Pancake属于折返射透镜的其中一类，苹果已收购的光学公司Limbak就以折反射方案闻名，此前还推出了某种“超级Pancake”透镜设计。

熟悉光学透镜设计和制造的人知道，Pancake本身就是一个刚出来没几年的前沿高端方案，适配超高分辨率屏幕的Pancake模组，（根据同行HyperVision解析）Vision Pro使用的还是多片式带有独特非标曲面的定制Pancake模组，这意味着对齐、加工精度和量产一致性是个非常大的挑战。透镜模组的设计，分光、极化偏振、消除鬼影的各类光学镀膜和层片需要有非常深厚的光学研究和积累。

Apple Vision足够独创且研究艰深，构筑了一定的产品壁垒，头显整体的精密和复杂从光学透镜一个组件上就能体现。相比之下，中国的AR厂商如Rokid Max似乎还是用中国供应链厂商的整体BirdBath模组方案。惠牛、鸿蚁或视涯，直接拿来用。

严格地说，Apple Vision Pro这种不同原理的复杂头显、完全不同的产品形态，Rokid不应该拿来对比。但同类型的BirdBath AR眼镜，Xreal 能够独立设计光引擎+透镜模组，并且在无锡有光引擎组件的量产工厂，这也是Xreal能够在国外专业技术组织SID Display VR/AR专场频频亮相的原因。因为即便BirdBath，也有PBS偏振分光棱镜，消除多源头的杂散光、边缘炫光、矫正像差和色差的镀膜，设计光路、适眼距、eyebox、改进MTF等诸多细节。

Rokid即使相比雷鸟创新，雷鸟的BirdBath产品线也是拿来主义，但起码雷鸟毫不畏惧另一条产品线Micro LED+光波导方案“真AR眼镜”的技术困难。雷鸟创新虽然直接使用了来自JBD的Micro LED的X-cube RGB三块小面板方案，但成功落地量产，解决了配套的研发、测试、量产一致性的诸多问题。

没有从底层产品原理上最细微处的洞察，对光学的积累和重视，没有完全从0到1的独创精神，是无法做出真正领先市场的AR硬件终端。

第三个关键对比，传感、数据传输&处理、人机交互和人机工程对于视觉-人脑的深入研究，这是当前技术研发能够拉开差距的关键地方。光学显示透镜和小屏幕都有比较成熟的供应链厂商，昂贵或便宜，好的不好的，大家可以选择。即使苹果、Meta、谷歌近10年收购的光学和微显示领域的研究型创企，也基本上处在实验室的超前概念预研阶段，能真正落地整合进自家产品且商用的很少。体验做不到超前的独一档。

VR跟裹住眼睛的3D幕布不同的是，VR需要能跟外界进行交互，比如手势交互、眼球运动、头部运动、肢体体感、指环或手柄。实现交互的硬件基础，设计专门的高精度传感器，比如基于dToF原理的激光雷达、基于红外点阵特征识别的深度相机、高清RGB摄像头，以及相匹配的先进算法。传感器的数量、分布、精度、算法的效果会有明显差异。

中国所谓的AR领头羊Rokid，跟Apple Vision Pro产品差距有多大？

以Apple Vision Pro为例，它将眼球追踪+手势交互+语音操作做到了极致，并且将其引导成“空间计算”最舒服最符合直觉的交互模式。为此，Apple Vision Pro在传感器的硬件配置和算法上下了非同一般的功夫，比如为了实现高精度的眼球追踪，别家都是左右眼各一个红外相机和数个IR LED等，Apple Vision Pro 左右眼各两个IR Camera+环绕眼眶更多的 IR LED。已经公开的专利也显示，苹果在视网膜透视、特征识别上进行了大量的研究，为了进一步提升精度，甚至有工业级的激光干涉测量原理的方案被披露出来。

Vision Pro 配备了 4 个定制的红外相机（左右眼各 2 个），使用多达 34 颗红外 LED 灯，可以非常精准的追踪和预测眼球视线的变化，凝视和扫视。数据传输和处理上，Vison Pro 同时搭载了 M2 和全新的 R1 芯片，M2是桌面级性能非常强大的核心处理器，而R1 芯片是苹果为 vision pro 设计的传感器数据实时处理定制芯片，类似iPhone协处理器，是其实现高性能眼动追踪重要基矗R1 芯片专门处理 12 个摄像头、5 个传感器和 6 个麦克风的输入，以确保内容实时呈现在用户眼前，R1 芯片能在 12 毫秒内将新图像传输到显示屏中，降低图像到屏幕的延迟，以超高的精度、极低的延迟识别用户所在的环境以及用户的手势和眼球的运动，精准分析出需要渲染的场景，从而实现动态注视点渲染功能。通过 Vision Pro 提供的低延迟、高精度信息输入，用户得以从手柄控制器中解放出来，只需眼睛注视即可准确地选中元素，以极其自然、优雅且直观的方式与数字世界进行交互。

中国所谓的AR领头羊Rokid，跟Apple Vision Pro产品差距有多大？

Vision Pro让眼球追踪真正落地成为主要交互方式，还是令一众观察家惊讶不已。

微软HoloLens 2软件开发指南中曾提到，人眼视线的运动是不规则且跳跃的，并且速度很快。可能在用户完成点击动作之前，视线早已经飘走，因此将快速眼睛凝视信号与慢速的控制输入结合起来需要格外小心。

此前Meta Reality Labs的一份关于“手柄、头动以及眼动交互”的一份研究指出，以90Hz运行的平均精度误差低于1°的眼动追踪系统（在无光标或其他反馈的条件下），它在易用性、采用率和疲劳度相较于头部输入（Head input ）分别提高了66.4%、89.8%和116.1%，而相较于手柄输入则分别降低了4.2%、8.9% 和 116.1%，不过它的失误率是三者当中最高的。

除了强大的传感器和实时数据处理，在算法方面，苹果也早早进行了布局。根据外部资料，早在2017年，苹果收购德国眼动追踪技术开发商SensoMotoric Instruments（SMI），这是一家专注于该细分领域的头部企业，已有30余年的发展历史。

苹果前员工Sterling Crispin爆料称，苹果围绕Vision Pro有一个专门研究神经技术的开发小组，而他所做的工作之一是通过AI预判用户的操作行为。他提到，“你的瞳孔会在你点击某物之前作出反应，部分原因在于用户对接下来发生的事有所期望。因此，可以通过观察用户的眼睛行为并配合实时反馈的UI来增强用户大脑的预测性瞳孔反应，从而创建生物反溃”AI算法的加入，是Vision Pro的眼动交互备受好评的重要原因之一。

眼球追踪只是苹果Vision Pro在人机交互体验高出同行一截的显性部分。在传感、数据传输、计算、人机交互软硬件方案上，亮点实在是太多。

比如在AR/VR刚兴起时，业内就几乎确认了裸手交互是重点方向，只是要想做好手势交互精准且流畅，技术难度不校而裸手交互被苹果真正推向了极致，展现了与市场上其他玩家完全不同的策略。Vision Pro配备了多个用于手势识别的摄像头和传感器，可以检测腰部以下的手势，用户还可以把手放在膝盖上进行操作，这是之前VR厂商做不到的。

中国所谓的AR领头羊Rokid，跟Apple Vision Pro产品差距有多大？

主流VR的手势追踪必须将手放在摄像头FOV范围内，使用时双手必须微抬或举在身体前面，时间一长就非常累，导致用户体验差。而Vision Pro则拥有6颗SLAM+手势摄像头，其中有两颗向下的摄像头专门捕捉手垂放在腿上的视角。另外，还有两颗斜向下的摄像头同时兼顾SLAM和手势。甚至为了弱光环境下手势识别准确性，苹果还加入了两颗红外LED进行辅助。

这种垂直视角的摄像头，专门用于捕捉大部分时间、不抬手的时候的手势，因为很多时候双手应该自然垂放在腿或桌子上，符合人体工学逻辑。苹果Vision Pro是AR/VR中的首家采用这一方案的设备，属于独一份。

Apple Vision Pro 眼球追踪体验刷新了行业认知，多种类型传感器硬件、分布、算法研究之深很难给出准确评估，硬件底层还有专门的传感器数据实时处理芯片R1，极限压缩交互上的反馈（图像）延迟，Apple Vision Pro在人机交互的软硬件的方方面面，几乎独创了整个方案。其他厂商短时间几乎没有可能追赶得上。

更值得深度思考的是Eyesight。根据Vision Pro官方发布会的说法，Eyesight是一项引进先进AI后才解决了某项一直阻碍团队重要难题的交互方案，它完全不同于传统VR的产品视角，少有人知晓的细节：Eyesight的硬件实现，让外部摄像头传感器位置偏离常规，相应的矫正算法增加了不少的设计困难。

中国所谓的AR领头羊Rokid，跟Apple Vision Pro产品差距有多大？

为了Eyesight，Vision Pro多用了一块复杂的曲面OLED外屏，增加了曲面玻璃罩的“死重“，为此还需要重新调整传感器分布，进行实时画面矫正，代价不校苹果也在发布会上花了很大篇幅讲Eyesight。

国外著名的AR专家Karl Guttag在个人博客上暗示，苹果在VR头显上击中了关键点，深思熟虑后为了Eyesight 在产品上做了重大妥协，体现了这家公司对产品和用户的深刻洞察力：Eyesight做到了外围视觉的动态感知，佩戴头显的用户能够真正融入日常环境，与他人更符合人类的方式互动，让VR头显开始真正具备大众消费电子产品的可能。基本可以预见，Eyesight 马上也会成为行业的“高端标配”。

再回过头来看，中国的AR创企代表Rokid，有位参加Rokid首届高校XR内容创作大赛的选手在媒体上这样写道，

Rokid Max Pro，这款眼镜从外观和手感/重量上其实与Rokid Max基本没有什么区别，就是两眼中间位置增加了一个摄像头。而利用这个摄像头以及另一款目前还不能公布的硬件，Rokid Max Pro用户能实现SLAM（即Simultaneous Localization And Mapping视觉定位和建图）、3D裸手交互等功能。嗯，我相信你一定见过同类产品上利用双目视觉实现该功能的产品，但Rokid Max Pro却只用单目，这效果真的OK么？我现在不能透露有关它的一些技术细节，但我可以说的是这款产品在定位的“稳定性”以及手势动作识别“精确度”、“延迟性”上的表现令我惊叹....

还在纠结和对比单目还是双目的视觉SLAM...传感器的精度、数据的延迟、数据流的处理模式、有没有专属芯片和定制传感器这种底层创新暂且不表，产品宣传如此高调，“空间计算操作系统”、“超前的应用开发生态”、“人机交互重大创新”、“AR空间创作工具“，投资人是真不懂吗？

如此简陋，毫无技术含量的供应链组装品，却成为中国AR企业的代表，融资如喝水一般简单，不禁莞尔一笑。底层创新是如此之难。但你刚挖好农村宅基地的地基，却要在这上面垒起来上海中心大厦？

这一波风口，飞上天之后，总该拿出点硬货。我不信投资人真的不懂Apple Vision Pro的创新有多么深刻。在历时两个月的深入研究后，我相信真正的创业者应该出发了。

中国所谓的AR领头羊Rokid，跟Apple Vision Pro产品差距有多大？
来源：互联网发布日期：2024-01-30 19:24:43 浏览：13912次

相关内容

AiLab云推荐

最新资讯

本月热点

热门排行

推荐内容

在线客服

热门栏目HotCates

关于我们

版权声明

中国所谓的AR领头羊Rokid，跟Apple Vision Pro产品差距有多大？ 来源：互联网 发布日期：2024-01-30 19:24:43 浏览：13912次

相关内容

AiLab云推荐

最新资讯

本月热点

热门排行

推荐内容

在线客服

热门栏目HotCates

关于我们

版权声明

中国所谓的AR领头羊Rokid，跟Apple Vision Pro产品差距有多大？
来源：互联网发布日期：2024-01-30 19:24:43 浏览：13912次