在元宇宙概念火热的当下,虚拟数字人被认为是元宇宙不可缺少的一部分。近日,京东云围绕各方关注的热点话题举行了“技术X产业”虚拟数字人专场沙龙。本次沙龙邀请清华大学新闻学院教授、清华大学新媒体研究中心执行主任沈阳、京东科技数字人引擎技术总监王林芳以及京东科技人机交互技术总监陈蒙三位嘉宾,围绕虚拟数字人与元宇宙、虚拟数字人的技术发展和趋势、虚拟数字人的产业应用及成果等话题展开探讨,揭开了虚拟数字人及多模态人机交互技术的“秘密”。
对于加速“跑入”人们生活的虚拟数字人,清华大学新闻学院教授沈阳表示:虚拟数字人是现实与元宇宙场景链接的重要“媒介”之一。虚拟数字人不仅是元宇宙的原住民,还是自然人在元宇宙中的数字化化身,它将成为我们在元宇宙中自我呈现与形成自我认同的重要方式,并成为人和人、人和物的交互载体。
虚拟数字人、虚拟偶像这些概念并不是新鲜字眼,最早可追溯至计算机动画技术诞生之初。“2007年Yamaha的以语音合成程序为基础开发的音源库,包装了首个虚拟偶像初音未来,这个二次元少女还举办了大量的线下演唱会,从此虚拟偶像风靡一时。”陈蒙介绍道,随着人工智能和虚拟技术的不断发展,尤其在2020年因为全球疫情影响,文娱行业加速线上化,也促进了虚拟偶像市场的迅速崛起。
对于当下虚拟偶像井喷的现状,王林芳从技术上给出了答案:基于人工智能的深度学习、内容生成,语音、视觉识别技术越来越成熟,驱动了今年虚拟数字人整体快速发展;而虚拟偶像是虚拟数字人在文娱行业、消费平台落地的产物。而京东虚拟数字人强调产业落地,为银行、政务、商家等行业降本增效,在具体的应用场景中带来更大的价值。
“知心、走心、关心”技术让虚拟人越来越有人情味
近年来,随着我国虚拟偶像公司数量的增加,虚拟数字人的市场正在异军突起。据悉,虚拟数字人可以分为三个发展方向:一是以虚拟偶像为代表的表演型虚拟数字人;二是服务型虚拟数字人,如虚拟银行柜员、虚拟客服、虚拟主播等,可帮助企业提高效率;三是未来将逐步走入千家万户的个人陪伴型虚拟数字人。
因为人的天性是倾向于融合视觉、听觉等多种感官交互的过程,多模态人机交互技术就是满足人对于外界信息获取逐渐升维的过程,从单纯的文本到语音,到现在融合计算机视觉等技术。而多种模态交互的难点在于不断的高度拟人化,也就是我们常说的让虚拟数字人具有“人情味”,不仅包括外观、表情、动作更加逼真、还有从语音、语意、语态、对话的深入理解。
依托京东云的前沿AI技术,言犀多模态交互数字人可帮助虚拟人跟自然人建立情感上信赖关系,让虚拟人看起来像人、听起来像人,无限接近真人,真正做到“知心、走心、关心”。除了计算机视觉技术之外,“人情味”背后的关键是多模态人机交互技术,从感受的角度出发,是“知心、走心、关心”三个层次,背后有一系列人工智能技术予以支撑,包括多模态的感知和理解、知识推理和决策、情感智能、鲁棒性语音识别和拟人化合成等。
要实现从“知心”到“关心”的高度拟人化,言犀多模态交互数字人离不开京东云在多模态人机交互技术等前沿科技的不断探索。京东科技在NeurIPS、CVPR、AAAI、ACL 等国际AI顶级会议上共发表相关论文近350篇,2次获得IEEE Signal Processing 最佳论文奖;京东多模态交互数字人技术荣获多媒体领域的全球顶级盛会ACM Multimedia的最佳演示奖,两次荣获世界人工智能大会SAIL-卓越人工智能引领者奖。
虚拟数字人全面深入产业应用
今年12月,江南农商银行与京东云合作,推出了全国首个业务办理类数字人“言犀VTM数字员工”。区别于过往咨询问答式机器人,言犀VTM数字员工可独立、准确完成银行交易场景的自助应答、业务办理等全流程服务。言犀VTM数字员工最大的创新之处,是将应用场景延伸至真实的业务交易办理环节,而将数字人技术与业务交易场景打通难在在于:首先,数字柜员的拟人化程度要很高、交互体验要好;第二点,要与银行的业务系统深度耦合,确保交易的准确性和安全性。最后,数字柜员要能“听得懂、办得快”,给不同的客户带来同样便捷、流畅的服务体验。另外,小江还能精准识别数字连读和地方口音,同时采用多样化增强算法降低了噪音对收音的影响,提高了语音识别的鲁棒性。
除了小江之外,数字主播小萌已经在今年京东11.11“上岗”,覆盖3C、家电、母婴等类型的京东自营店铺。在AI技术的驱动下,数字人主播能够结合商品的不同功能,配合做出丰富多样的动作。 数字主播小萌刚“上岗”一个半月,助力Beats京东自营旗舰店实现直播时长和GMV翻倍增长,获得官方的大量扶持资源,甚至登上了京东直播商家超级排位赛的冠军宝座。
据悉,在数字人应用落地方面,言犀除了应用于江南银行数字柜员、虚拟数字人直播之外,还在政务、金融、交通、物流、零售、制造业等多个行业落地,助力不同行业实现服务和营销的数智化转型。