曹建峰腾讯研究院高级研究员
胡 璇腾讯研究院高级研究员
人工智能将给互联网和数字经济的创新发展提供强大动力,诸如支撑空间计算、给创作者提供强大助手、提供新的、复杂的叙事方式等等。在内容生产层面,生成性AI、数字虚拟人等人工智能和机器学习模型将带来一场零边际成本的内容生产变革,可以自主生成文本、图像、音频、视频、虚拟场景等各类数字内容,这将带来人工智能生成内容(AIGC)的蓬勃发展,打造新的数字内容生成与交互形态。人工智能和AIGC带来的内容生产变革也将让VR/AR、元宇宙等未来互联网应用成为可期待的现实:元宇宙中的虚拟世界需要能够以零边际成本创造的、满足海量用户的个性化需求的虚拟内容。[1]
生成性AI、数字虚拟人
成AI技术的重要发展方向
AI领域的两个发展方向与互联网和数字经济发展应用趋势密切相关。
首先是生成性AI(Generative AI),该技术被认为是AI领域过去10年最有前景的进展,代表着人工智能的未来发展方向。[2]Gartner将生成性AI列为2022年5大影响力技术之一,并预测到2025年生成性AI所创造的数据将占到所有已生产数据的10%,而如今只占到不足1%。[3]
简单来说,生成性AI是指,AI和机器学习算法基于训练数据,自主生成新的文本、图像、音频、视频等内容。换句话说,生成性AI可以学习并抽象出输入数据的内在模式,并利用这些模式生成新的类似内容。从技术上看,生成性AI包括多种AI技术:1)GAN(生成对抗网络)、VAE(变分自动编码器)等深度合成模型;2)Transformer模型,此类大模型或者说基础模型(foundation models)被训练来理解语言或图片,比较典型的大模型包括GPT-3、DALLE-2、LaMDA、悟道2.0等。此类预训练的大模型往往包括数以亿计的参数,比如谷歌最新的PaLM模型包含5400亿个参数,谷歌大脑则声称训练出了万亿参数的模型。生成性AI正在往多模型、多任务的通用性智能体的方向发展。
就目前而言,生成性AI几乎不需要人类参与就可以生成高质量的创造性内容,实现图片风格转化、文本转图像、图片转表情包、图片或影片修复、合成逼真人类语音、生成人脸或其他视觉对象、创建3D虚拟环境等结果。人类只需设置好场景,生成性AI就会自主输出想要的结果,这不仅将带来零边际成本的内容生产变革,而且在某种程度上也可以避免来自人类思想和经验的偏见。
其次是数字虚拟人。数字虚拟人是通过计算机3D图像软件制作的数字化人形角色。虚拟人与过往影视特效中“阿凡达”等虚拟角色相比,结合AI合成、实时动作捕捉等技术,可以更加智能、实时地与我们进行语言、表情、动作的互动交流。虚拟人正逐步成为一门融合计算机图形学、AI和VR、运动学、多功能感知等多学科的前沿交叉领域,并从线上文娱向更多线下功能性场景迁移。
虚拟人的形态丰富多样:按美术类型,可分为影视级高保真、写实、卡通等不同风格;按需要输入的信息分类,包括预先制作动画、实时“复制”演员表演、文字/语音驱动等;按应用场景,包括虚拟主播、虚拟偶像、虚拟主持人、虚拟客服等。
虚拟人进化的趋势,一是融入会话式AI系统(Conversational AI),给传统的Siri等虚拟助手、智能客服等聊天机器人以一个具象化、有亲和力的人类形象,提升交流中情感的连接,有望给这一领域带来更大的市场前景。据机构统计,2021年会话式AI的全球市场规模为68亿美元,预计到2026年将增长到184亿美元。
随着线上空间日益丰富,更多普通用户也希望拥有自己的个性化虚拟形象,因此,虚拟人进化的第二个方向是制作工具更丰富、更易用。例如Epic在虚幻引擎中集成的虚拟人工具Metahuman,用户可以在系统提供的基础形象模板上修改参数,仅用30分钟就能“捏”成独一无二的形象。可调节内容既包括整体的肤色、身材,也包括细节的面庞轮廓、五官大小等。
生成性AI、虚拟人等
AI技术将带来六大影响
第一,带来更包容性的用户交互方式,帮助弥合数字鸿沟。
消除数字鸿沟,打造更具包容性的数字社会,是数字技术的应有之义。AI技术将助力互联网应用的包容性、普惠性发展,确保每个人都可以进入互联网应用并获得更自然的交互体验。一个典型的例子是即时翻译,机器翻译、语音识别与合成、对话式AI系统的结合,可以让讲不同语言的用户彼此之间进行更自然的交流。例如,Meta公司(原Facebook)为其元宇宙平台开发的“通用语言翻译器”(Universal Speech Translator,UST),该AI系统将能够针对所有的语言提供即时的语音到语音翻译。[4]AI系统驱动的即时翻译将成为互联网应用的标配。此外,动作识别、眼神追踪、脑机接口等技术应用也将给VR/AR、元宇宙等未来互联网应用带来更优化的交互方式。[5]
第二,带来零边际成本的内容生产变革,规模化创造虚拟环境、AI艺术等AI生成内容(AIGC)。
VR/AR、元宇宙等未来互联网应用正在演变成一个富媒体平台,用户在其中可以获得、体验丰富多样的、沉浸式的内容。为了在元宇宙中创造能够满足海量用户的不同需求的内容,除了依靠不可或缺的人类创作者,人工智能作为虚拟创作者将扮演越来越重要的角色,将在为元宇宙创造数字空间、数字物品等上面发挥关键作用。可以说,AIGC(AI生成内容)对于VR/AR、元宇宙等未来互联网应用的意义,正如UGC(用户生产内容)对于现在的互联网应用的意义。生成性AI现在已经能够生成人脸、物品、场景等各类逼真内容。例如,Meta公司的元宇宙AI应用BuilderBot能够根据用户的语音指令自动生成相应的场景。基于GAN的AI生成艺术已经跟区块链NFT结合起来,带来新的数字艺术潮流。生成性AI不仅可以生成创造性的文字内容,而且可以从文字描述或者简单的勾勒中生成逼真的图像,例如OpenAI的AI模型DALLE-2[6]、英伟达的深度学习模型GauGAN2[7],都可以将简单的文字描述或语句转化为逼真的、高清的图像,而且目前已经可以达到4k以上分辨率。这些进展意味着,通过融合人工智能与AR/VR,元宇宙将创造出大规模的、逼真的虚拟世界。总之,对于元宇宙而言,生成性AI的变革性意义在于其将带来零边际成本的内容生产,这是一场内容生产革命,只有通过AGIC,元宇宙才可能以低成本、高效率的方式满足海量用户的不同内容需求。
第三,带来更加智能化的虚拟化身(avatar)。
在未来的3D化的互联网应用中,用户通过一个虚拟化身在其中体验各种内容与服务,用户的虚拟形象(avatar)的准确性将决定用户之间体验的质量。AI引擎可以分析用户的2D图片或3D扫描,然后形成高度逼真的仿真渲染,同时结合脸部表情、情绪、发型、年龄特征等因素让用户的虚拟形象更具活力。目前,Meta、英伟达等众多科技公司已经在利用AI技术帮助用户在虚拟世界打造虚拟化身,例如英伟达的omniverse avatar可以生成、模拟、渲染可互动的虚拟形象。[8]当然,生成性AI创造的虚拟化身,以及合成的人类语音,在很多情况下也可以给用户的身份和隐私提供一层安全保障。
第四,驱动数字人等下一代AI角色,打造更具沉浸感的元宇宙使用体验。
对话式AI系统、先进的实时图形处理等技术的结合,将使得数字人、虚拟助手、虚拟伴侣、NPC等数字智能体(digital agent)能够逼真地模仿人类的音容笑貌,变得更加智能化、人性化。例如,Epic的MetaHuman工具可以把创造数字人的时间从数月减少到数分钟,并且可以给数字人注入活力,实现逼真的运动、行动、语言表达等。这将带来更复杂的、自然交互的AI虚拟角色,除了模仿人类的语言表达,还具有表情、肢体语言、情绪甚至物理交互等能力,给用户在元宇宙中提供更直观的、更具沉浸感的数字化体验。可以说,数字人等新型AI角色将决定VR/AR、元宇宙等未来互联网应用的体验质量和吸引力。[9]国内的一个典型案例是冬奥手语人。虚拟人在实时手语翻译领域初试啼声,大有可为。根据抽样调查,我国有听障人士2780万人。实时手语翻译是听障人士理解语音、视频信息的重要桥梁,而手语主持人长期“供不应求”,仅新闻等少数节目配备。2022年北京冬奥会期间,央视频与腾讯3D手语数智人“聆语”合作,提供多场直播赛事的实时手语支持。针对体育赛事进行专门训练后的“聆语”的翻译能力已非常接近真人,手语可懂度90%以上,未来进一步丰富专业语料库后可拓展到更多视频场景。
第五,支持未来互联网应用中个性化的内容与服务提供。
信息大爆炸的互联网时代,AI推荐算法无疑是最成功、最具商业价值的AI应用之一。可以肯定的是,当前的互联网时代所面临的的信息大爆炸、信息过载等问题,VR/AR、元宇宙等未来互联网应用中依然存在,甚至可能会变得更为突出,因此高性能AI推荐系统驱动的个性化推荐仍将发挥关键作用。正因如此,Meta公司的元宇宙AI布局也涉及AI推荐系统,包括将推荐系统开源给其机器学习框架PyTorch。
第六,识别、打击恶意行为。
在VR/AR、元宇宙等未来互联网应用中,不仅内容的种类会更加丰富,而且内容的数量也将呈指数级增长。这意味着色情、暴力、恐怖等违法有害内容可能在元宇宙中变得更加突出,而且生成性AI被滥用来对音视频进行伪造或篡改有可能带来新的安全问题。因此,利用AI技术来识别、打击元宇宙中的恶意行为将变得越来越重要和必要。例如,对于图片、视频的篡改问题,腾讯优图实验室开发的换脸甄别模型,基于图像算法和视觉AI技术,可以实现对视频中的人脸真伪进行高效快速的检测和分析,鉴别视频、图片中的人脸是否为AI换脸算法所生成的假脸。
展望:打造负责任的虚拟真实
包括生成性AI、数字虚拟人等在内的AI技术突破将给互联网和数字经济的创新发展与应用提供强大动力,帮助创造出更加真实的虚拟世界,推动虚拟世界真实化。但AI、VR/AR等新技术的结合带来的虚拟真实(virtual realness)在增强用户在VR/AR、元宇宙等未来互联网应用中的使用体验的同时,也可能带来新的挑战。
例如,权利归属的问题,AI创作内容的知识产权如何保护?隐私保护的问题,VR/AR、元宇宙等应用形态应该可能涉及收集用户的更私密的生物识别数据,给用户的隐私和数据安全提出新的挑战。新型违法犯罪活动,例如恶意分子可能擅自使用他人的肖像、声音等,利用生成性AI和数字虚拟人技术从事伪造、仿冒、欺骗、诈骗等非法活动。AI应用的透明度和可解释性,如何确保用户知道其在与人工智能而非人类互动,如何让用户理解、信任推荐系统等AI应用。算法歧视问题,数字人和其他的AI算法应用也可能出现歧视性行为,影响用户权益。
因此,各界需要负责任地发展应用生成性AI、数字虚拟人等AI技术,在VR/AR、元宇宙等未来互联网应用中打造负责任的、可信的、以人为本的虚拟真实体验。更加重视科技伦理与风险管理,践行科技向善,将科技伦理治理贯穿到AI应用的全生命周期,同时以技术创新的方式应对隐私保护、安全、违法犯罪等问题,消除算法歧视,打造更加透明、可解释的AI应用,促进用户的理解与信任。
注释:
[1]https://stratechery.com/2022/dall-e-the-metaverse-and-zero-marginal-content/
[2]https://www.technologyreview.com/2021/05/27/1025453/artificial-intelligence-learning-create-itself-agi/
[3]https://www.cloverinfotech.com/blog/generative-ai-explained-gartners-top-strategic-technology-trend-for-2022/
[4]https://about.fb.com/news/2022/02/inside-the-lab-building-for-the-metaverse-with-ai/
[5]https://towardsdatascience.com/how-ai-will-shape-the-metaverse-4ea7ae20c99
[6]https://openai.com/dall-e-2/
[7]https://blogs.nvidia.com/blog/2021/11/22/gaugan2-ai-art-demo/
[8]https://developer.nvidia.com/nvidia-omniverse-platform/avatar
[9]https://medium.com/building-the-metaverse/the-metaverse-and-artificial-intelligence-ai-577343895411