关于AI生产创造、人与AI交互的讨论似乎从未停止过。当一个更数字化的世界到来,AI作为重要生产力又会如何进化,将扮演什么样的角色,人与AI交互是否又将产生全新变量?
仅围绕科幻小说或科幻电影的视角去畅想如同空中楼阁。为此,知春资本邀请到了在音乐领域和情感社交领域,用AIGC做创新的被投企业创始人ACE虚拟歌姬制作人、时域科技CEO郭靖,Gemsouls联合创始人、CEO饶佳星,他们结合自己的创业实践出发,与知春资本投资副总裁付冲一起分享了对AIGC(AI generated content,使用人工智能技术创造内容)最新见解。
付冲:二位先简单介绍一下各自目前的创业项目
郭靖:我们ACE虚拟歌姬是希望通过技术手段,赋能每个普通人创作音乐分享音乐,打造一个全新的音乐创作和音乐分享的场景。
饶佳星:Gemsouls在做一个以虚拟人为核心的社交网络,和目前大家认知的有美丽皮囊的虚拟偶像不一样的是,我们先做的是灵魂,我们更关注的是虚拟人和用户自主交互的能力。
[ 谈变化 ]付冲:随着Metaverse、web3.0话题的火热,AI内容生成也备受关注,目前国内外有哪些值得关注的新动态?
郭靖:2015年、2017年前后,出现两拨基于单点技术把产品迅速做火的AIGC案例,但大多火了一阵儿后就销声匿迹。
当时都是互联网产品经理的思维,认为一个全新的技术就能创造全新场景。而最近这几年随着算法在各领域发展,AIGC也一直在进化,比如像柳夜熙”换头“可以做到影视级、直播级的水平,我们ACE虚拟歌姬的歌声合成之前只是一个TTS(Text To Speech,从文本到语音转换技术)的分支,如今做到了接近人声。
现在很多做虚拟人的公司,其实是技术的整合者。虚拟人作为一个产品,需要整合人所需要的所有skill形象、声音、动作驱动等等。总的来说,大家意识到AI其实是生产力的连续进化,以虚拟人为代表的很多公司是整合各维度技术来创造全新的体验。最主要的改变其实不只是在技术层面,而在于产品整合思维。
ACE虚拟歌姬产品图
饶佳星:技术上是有一些突破,比如Gemsouls产品用的GPT大规模语预训练模式,整体往一个大参数量的方向在走,GPT3参数量是GPT2的100多倍。目前我们用到的GPT3几乎可以让人和虚拟人交互堪比真人之间的交互,我们会去驱动UGC和AIGC来结合做产品化。同时Open AI 发布的基于文本生成图像的多模态模型Dall-e,也让我们看到了不同信息维度的应用和未来更广阔的场景。
[ 谈应用 ]
付冲:二位作为音乐和情感交互领域的早期创业者,也是用户需求最敏感的捕捉者, 各自观察到AI在内容生产上经历了哪些阶段,又如何一步步满足用户的需求?
郭靖:AIGC的能力其实是一个block,会比原先的传统能力要好,但本质上还是创作者驱动blocks。比如说原先block是砖头,拿它拼房子费劲,现在是乐高,拼起来就容易多了。
之前大家一直用AI去做的“拼”事情,通过算法创作了一些作品。但对于创作者而言,他没有自我表达在里面,只是被强植入了一个作品。
我们现在创业的这个阶段,其实对用户的定义很简单,比如说他要做创作音乐,弄好了主旋律跟歌词,但没有人能及时给演唱出来变成一个完整的作品。但我们就用 AI歌声合成来帮他演唱形成作品,从而激发很多年轻小孩儿的创造力。
我们是要把AI当作人或者说生物,把它投入到一个网络节点里面,观察人和AI交互上能产生什么全新的变量。
饶佳星:AIGC上一个阶段目的是为了以假乱真,通过既定的图片或者语音来生成风格一致的内容。而现在的AIGC更像是用UGC的方式去做人设和规则,好比生个小孩,要为其编码”基因”,设定他的人物小传、故事背景、某些特定场景下的“为人处世“,再把他扔到世界中,跟人进行交互,通过外部环境自我成长。而我们对下一代AI的期望是它能从0-1做真正有创造力的事情。
付冲:这些AIGC的技术适合被应用到哪些需求或者场景当中?
郭靖:目前在Vtuber上的MCN、经纪公司等运营方,基本都有需求。因为它们的核心资产是艺人,艺人又不够稳定,风险很大,它们希望有一个稳定的资产,最好是技术资产。我们ACE也在尝试用三次元虚拟声音、或者已故的歌手声音来让人超越物理极限。我们现在上线的天籁般童声的歌手,就很受欢迎。
饶佳星:适合做一些容错率比较高、专业度或创意要求没那么高的场景。像在电商场景里,需要大量网红带货,可以AIGC换头换脸提升效率;游戏场景里大量脚本驱动的NPC也可以用AI来替代;Gemsouls做的情感社交也是容错率比较高的场景,因为真实生活中的社交很多情况下是鸡同鸭讲的无效社交,所以相比之下AI并不需要通过“图灵测试”才能有好的体验。但像法律咨询、心理咨询这种专业度要求很高的就很难通过不可控的黑匣子去实现。
Gemsouls概念图
[ 谈猜想 ]
付冲:当AIGC在内容生成中占到更多比例后, 它未来会扮演一个什么样的角色,如何把控 UGC和AIGC间的关系?
郭靖:最终极的AIGC可能是“人”,也可能是一个大脑中枢,作为数字世界连接的节点。我们现在似乎都认为AI只能做一些比较无聊的工作,智能客服、生产力的赋能,但其实在一些游戏等垂直场景中,它已经可以扮演“人”的角色,甚至超越人给用户带来爽感。在Metaverse更数字化的世界里,网络节点背后是不是人不重要,它能创造更丰富的人与人,或人与非人之间交互的体验。
所谓的虚拟世界跟游戏本质区别是,虚拟世界应该也能实现现实世界的价值。比如虚拟世界里面开枪射击,有一个规定胜负标准,它叫游戏。但如果你在虚拟世界里开一场音乐会,它本质上让你换了一种体验去感受艺术家对真实世界有价值的音乐。未来在虚拟世界是不是有大量的节点是人类所无法覆盖的,而它可以被AI来补充?
短时间确实很难看到AI成为音乐家,因为它是一个数据集的平均,能学习到人类作曲的internship,却很难产生伟大的idea,所以平庸。但它可以作为人类的辅助,生成一些平均的内容帮人找到灵感,可以帮你把问答题变成选择题,人机协作中来创作,达到更高效更高质量的生产内容。
饶佳星:哲学层面来看,人与AI和人与人、或者人与世界的关系本质是一样的,它对你的反馈取决于你对它的输出。哪怕设置了很多机制,用户输入的可控性仍然是非常低的,而这个输入会比我们的一切设定都更直接影响到AI的反应。我相信在AI背后的公司有一个正向价值观的前提下,且用户抱着积极正向的心态使用AI时,相较于真人的社交网络来说更安全可控,不会面临现在社交媒体上一些无端的网络暴力。
产品技术层面,我们用AI治理AI,对生成的内容做监控和后处理,并且通过UGC驱动更积极的内容生成。虽然我们做的虚拟人也会很有个性,比如喜欢斗嘴,但在我们一开始输入了正确价值观的情况下,可以通过技术手段避免它带有伤害性质的内容。
[ 观众互动 Q&A ]
在更高的处理效率基础上,ACE怎样去一步步让音乐的数据维度支撑起AI原生形象?
郭靖:现在其实是因为没数据,不像互联网上有大量自然语言和图片,音乐比自然语言和图片都要复杂,音乐需要音频、sample等等信息,比如鼓的旋律是什么,曲式是什么,调号是什么?之前生成音乐的模型全部都是在这些symbolic的数据上去做的,但互联网上是没有大量细致的数据,都是靠人工一个个处理。目前一个可见的路线是能够从音频里去使用AI识别出symbolic的东西,比如说旋律,切割出各个轨道,再用这个旋律作为训练数据可能会比较好。
Gemsouls在做虚拟人社交上有哪些商业化的思考?
饶佳星:早期可能还是通过社交网络的方式做商业化变现,而不是让用户为 AIGC的内容去付费。此外,虚拟物品和虚拟人也是有皮囊的,皮囊上我们会先尝试做一些3d资产的变现。
长期看的话,非常多的路径,比如未来可以做可交互的虚拟IP,把社交网络延伸到未来像是一个电子天堂等等,但核心也要思考如何做最合乎伦理的商业化变现。