智东西(公众号:zhidxcom)
作者 | 程茜
编辑 | 心缘
智东西10月25日报道,昨天,RTE2023实时互联网大会正式开幕。RTE(Real-Time Engagement)指的是实时互动技术,正广泛应用于直播、电竞、远程办公、在线教育、IoT、元宇宙。
生成式AI技术的发展给实时互动行业、技术、应用场景和用户体验等都带来了大量的影响和改变,其应用外延随着技术的发展不断扩展。
声网创始人兼CEO赵斌谈道,AI领域的发展给RTE行业带来新的发展机遇,例如在QoE体验、交互对象、集成方式方面。
硅谷创投教父、Founders Space创始人兼CEO史蒂夫霍夫曼(Steve Hoffman)也谈道,AI将改变人与人、人与AI之间的交互方式,基于数据分析为用户打造更加个性化的体验。
他还谈到了当下很多人担心的AI会不会产生意识,霍夫曼认为,答案是AI永远不可能像我们一样有意识。因为,AI是数学,也就是从字面上理解文字和图像之间的联系并读取方程,通过算法来绘制向量,从而理解其中的关系。
一、智能+高清,加速开启实时互动体验新时代
声网创始人兼CEO赵斌先回顾了近段时间以来科技行业的年度大事件。
毋庸置疑,对整个科技行业影响最大的就是生成式AI的突破,OpenAI网站的单月访问数量超过18亿次。人们对生成式AI的看法从像互联网一样的革命,升级为类似于电的发现和发明。赵斌谈道,生成式AI对整个科技行业、人类生活的改造刚刚开始。
还有苹果发布Vision Pro,其没有单纯复制此前VR/AR设备,而是提出了空间计算的框架和概念,打开了行业新的想象空间和理解这种设备能力的视野,未来将展现出显示和虚拟空间融合互动的全新发展领域。Vision Pro的单目分辨率达到4K,他补充说,想要真正做到人眼不能分辨颗粒感的效果,4K算入门水平,16K及以上的分辨率才能实现。因此,分辨率的提升不可避免。
谷歌推出Starline全息电话亭,随着技术的升级和成本的降低,该技术有希望商业化。其画面并不是摄像头直接拍摄的画面,而是多个摄像头采集信号生成的3D效果。通过对用户使用体验的量化分析,对比二维效果,各项体验都有所提升,包括手饰动作能提升40%、点头动作提升25%、会议记忆力提升30%等。
此外还有谷歌放弃Iris项目,转攻Micro XR平台;数字人点燃亚运会主火炬,体现了社会对虚实结合、数字化结合和真实场景融合的欢迎;社交平台中,弹幕玩法成为了新的火爆的点;大疆推出脱离单机、人手操控使用方式的自动机场,无人机可以远程自动可视、可控、可记录等。
标准化方面,声网和中国信通院联合发布了实时互动系列标准体系,包括声网视频体验质量测评标准、声网音频体验质量测评标准、声网会议体验质量测评标准、声网可视门禁体验质量测评标准。
AI领域的发展给RTE行业带来新的发展机遇,例如QoE体验、交互对象、集成方式方面。
声网凤鸣AI引擎能对声音沉浸和真实感方面进行优化,如课堂上为教师录音,学生想要听回放复盘时,录音往往会受到桌椅移动等声音干扰很难被听清楚,经过凤鸣AI引擎处理后,同一信号中的干扰杂音被消除了。
在视频方面,基于AI技术的算法和创新,能实现画质提升、AI美颜、虚拟背景、AI驱动表情和动作生成等。
还有社交和泛娱乐领域,虚拟人和AIGC的结合能提供接近于真人的情感和情绪价值,包括AI助理、AI亲友、AI女友、AI虚拟偶像等。AIGC也能为元宇宙提供更多的人物分身,让虚拟世界更加现实。
生成式AI能大幅提高应用开发效率,产生对高质量API的更强需求,云原生应用能分为API、APP两层,从低代码、无代码到AI生成。
声网还首创了AIGC-RTC,让大模型能实时语音对话,私有化部署的小规模模型也可以对接,把文字交流的沟通方式,转化成接近自然对话的方式,接近人人对话的体验。
QoE体验展现出对用户留存和使用行为的强大影响。互联网社交行业的目标就是用户增长,其中的难题在于在增长背后,随着用户流量增加,如何让用户体验更好。
声网合伙人兼客户成功副总裁孙雨润针对这一难题提出了四种解法,分别为标清升级为高清、CDN升级为极速直播、开启AI降噪、上线实时多人实时合唱。其中CDN直播仅支持单向、长延时、不能互动,极速直播具备短延时、实时互动等优点。
在企业场景上的应用,实时互动平台提供的无所不达的实施网络和无所不及的音视频能力,已经成为企业数字化转型的重要支撑,满足企业全域一张网、全业务一张网、全设备一网通、全业务多形态能力封装等多元化应用的需求。
物联网方面,实时互动正在成为智能家居新标配,包括智能音箱、智能手表、扫地机器人、宠物摄像头等设备。
RTE行业呈现出生态共创的特征,内容、大模型、数字人、视频特效等领域都聚集了众多生态伙伴,涵盖泛娱乐、教育、企业服务等各项应用场景。
生成式AI正在颠覆主流人机交互界面,将触屏、键盘鼠标变为自然语言对话,将释放更大的人机交互想象空间。
未来,赵斌认为,RTC技术的成熟将颠覆2s以下的直播技术方案、神经场辐射技术(NeRF)可能成为全息实时互动的基础技术、声网将在RTE行业实现广播级4K超高清实时互动。
二、AI将改变人与人、人与AI的交互
Founders Space创始人兼CEO史蒂夫霍夫分享了对于AI将如何改变RTE的看法。
人们将获得更加个性化的体验,AI可以基于用户数据提供更深层次的体验,不断调整应用程序,用户还能体验到实时连接的视频图像。AI允许人们以此前从未见过的方式进行交互,以应用程序Halo为例,其将人类的声音转化为其中角色的声音,并且用户可以将其嵌入其它应用程序,从而创造出用户与朋友交流的新方式。
这也进一步探讨了人们将在未来的社交应用中看到的内容,当用户在社交应用程序中和朋友交流时,AI能倾听人们的对话,如果用户在谈论宠物狗,AI会呈现出狗的形象,并插入对话中。如果用户正在创建视频与朋友共享,AI也允许用户通过语音提示或文本提示快速更改视频,例如删除某个人物、改变头发颜色、添加特效等。
AI也会影响动态生成的虚拟世界,生成式AI能实时定制虚拟世界,用户可以换掉汽车、前往中世纪、换墙纸、换灯光,未来当用户在虚拟世界中移动,它会根据用户想要的东西发生动态变化。
下一步,大多数交互方式会成为语音交流,因此,企业必须开发新的适用于AR和VR的语言。人们如何以最有效的方式直观传达想表达的意思,霍夫曼说,我们还没到那一步,这仍然是开发人员未来想要突破的领域。
AI的下一波浪潮实际上是一个AI代理。AI代理能为用户打开应用程序、找到讨论产品的资料、相关人员的资料,并为用户协调工作。例如用户在进行一项商业交易谈判,AI代理可以处理条款、了解业务需求,甚至于帮用户进行谈判。
未来,AI将在RTE领域发挥重要的作用。
工厂中的数据也正在被AI可视化,如果工厂的生产进度下降,AI将视觉识别、分析整条产线,判断某些机器需要维护,在它影响生产线之前进行修理或者更换。
还有一大改变是AI和陪伴,企业构建了一大批有情感陪伴功能的AI伴侣,用户可以和其交谈。
对于设备而言,AI会使得感官提升,如脑机接口、电子皮肤、交互服装等,他们有计算机界面,能允许用户控制无人机和其它设备。随着时间的推移,这些感觉被映射到人的大脑中,人的眼睛、耳朵、皮肤并没有接收到任何信号。未来这些设备将真正进入市场,实现转型,让人类能够用更多样的形式与世界互动。
最后,霍夫曼用“超级智能”进行了总结。未来大多人将能与超级AI互动,也意味着AI变得越来越聪明,像人一样。
很多人担心AI会不会产生意识?霍夫曼认为,答案是,AI永远不可能像人一样有意识。因为,AI是数学,也就是从字面上理解文字和图像之间的联系,并读取方程,通过算法来绘制向量,从而理解其中的关系。
AI将在未来改变人与人之间的沟通方式,人与AI本身的沟通方式,改变人们娱乐、社交方式等,随着超级智能的出现,它将接管人们今天所做的许多工作。
三、端边实时智能+高清实时互动能力成新趋势
随着信息传播、消费与智能化的发展,内容生成、内容表达、内容分发、内容消费的方式也在不断变化。声网首席科学家、CTO钟声称,大模型取得突破,据爆料GPT-5的参数可能超过100万亿,还会加上视觉能力。
他补充道,与此同时大模型也带来新的问题,如计算需求增长很快;算力受能源供给力限制;大模型面临数据资源不够,到2026年可供训练AI的高质量公共数据集缺乏;存储需求增长过快等。
还有要构建负责任AI的道德标准要求。钟声认为,从技术上来说,要做分布式、实时智能。
其中,分布式就是做端上、边缘智能,使得计算、能耗、数据需求更合理,做到实时且低成本,同时还能针对用户数据进行个性化分析、处理,并注重隐私保护。
此外还有新型算法和芯片架构,例如高效算法、去中心化技术的Web 3,更底层的存算一体、神经形态学计算等芯片架构。
当AGI与实时互动相结合,会加速AI分身的产生,可以复制名师、朋友、网红等。其具体的实现过程可以总结为,语音转文字、ChatGPT产生对话文字、文字转语音、语音驱动写实的形象出现。
在这背后,需要写实的对话、形象、声音。
写实的对话要基于底层芯片和算法上的探索,包括高通芯片明年将支持部分开源模型Llama 2的部署。还有因为互联网上的内容良莠不齐,需要教科书式的数据和互联网的内容做结合,这样能使得参数规模更小的模型效果也会更好。
写实形象通过扩散模型、三维重构,来实现形象的写实。如下图中展示的提示词不同生成的各类图片:
钟声谈道,打造写实的声音最好的方式是有一个模型可泛化。Meta发布的Text to Speech模型扩散模型能预测中间的变量,用TTS做文本生成语音。并且为了将文本和语音连起来,这一模型还引入了更多层的注意力机制。
钟声认为,具备端边实时智能的高清实时互动能力将成新趋势和竞争焦点。
实时高清需要更多端上实时AI,包括支持1080P/4K视频的底层计算机视觉处理能力、支持高音质的计算机听觉处理能力、对物体、声音、场景的理解和重构能力等。
结语:生成式AI加速实时互动体验升级
各类前沿技术的出现与快速发展正在赋予人们交互方式新的想象空间,同时,实时互动技术的出现为IoT、工业、AR/VR等领域的玩家带来更多拥有差异化竞争优势的可能性。
生成式AI技术的出现正在加速实时互动的应用与落地,革新用户的真实体验,曾被赋予“眼睛”和“耳朵”的硬件设备与人的交互方式也有望发生变化,其承载的信息密度正在不断提升,为人们带来更加个性化的体验。