展会信息港展会大全

快速、简单、效果好,以假乱真的AI合成语音悄然商业化
来源:互联网   发布日期:2021-09-17 08:32:54   浏览:4262次  

导读:如今用人工智能合成的声音既单调又简单,但这恰恰是一项技术成熟并且即将大规模商业化的标志。 近年来,由于机器学习技术的进步,语音合成工作得到了巨大的改善。 以前,最逼真的合成声音是通过录制人类配音演员的音频,将他们的一整段话切分成不同的单个字...

快速、简单、效果好,以假乱真的AI合成语音悄然商业化

如今用人工智能合成的声音既单调又简单,但这恰恰是一项技术成熟并且即将大规模商业化的标志。

近年来,由于机器学习技术的进步,语音合成工作得到了巨大的改善。

以前,最逼真的合成声音是通过录制人类配音演员的音频,将他们的一整段话切分成不同的单个字音,然后将这些单个字音像“活字印刷”一样拼接起来,形成新的语句。

现在,神经网络可以根据目标语音的未分类数据进行训练,从而生成某人从零开始说话的原始音频,而且可以更快、更容易、更真实地实现目标结果。

其实,制作这些“合成语音”并没有什么特别之处,许多初创企业已经在提供类似的服务。只要在谷歌或百度上搜索“人工智能语音合成”(AI voice synthesis)或者“人工智能语音深度伪造”(AI voice deepfakes),你就会发现这项技术的应用已经相当普遍。

目前,市场上提供该类服务的公司既有像Resemble.AI、标贝科技Respeecher这样只专注于语音合成的初创公司,也有像科大讯飞、搜狗Veritone这样的上市企业。

而在所有的应用场景中,“合成”名人的声音在未来几年可能会是最突出的。毕竟品牌方和大众对名人声音有天然需求,而名人也希望通过合成和出租他们的声音来增加收入。

今年早些时候,一家名为 Veritone 的公司就推出了这样的服务。该公司推出了一个名为Marvel.AI的新平台,将让创作者、媒体人和其他人合成名人的声音,并按他们的意愿授权。

“声音是名人、运动员和演员的一个巨大资产,是他们品牌的一部分,”Veritone总裁Ryan Steelberg说。“他们想接这些工作,但他们没有足够的时间去工作室录制音频内容。”

而有了Marvel.AI之后,任何人都可以创建一个他们声音的“合成版本”,并在他们认为合适的时候使用它。

当一位大明星在睡觉的时候,他们的声音有可能正在录制广播节目、阅读有声读物等等。Steelberg说,这个平台甚至可以通过使用存档录音来训练人工智能模型,使死者的声音“复活”。

正如Steelberg所解释的,其广告子公司Veritone One在播客领域进行了大量投资,每个月与有影响力的人进行75,000多次“广告整合”。“主要是让名人为赞助和商业广告配音。这非常有效,但也非常昂贵和耗时。”他说。

Veritone公司的另一个部门Veritone Licensing则从一些主要档案中获得视频授权。其中包括CBS和CNN等广播公司以及NCAA和美国公开赛等体育组织所拥有的档案。

快速、简单、效果好,以假乱真的AI合成语音悄然商业化

Steelberg说:“你看到阿波罗登月的镜头出现在电影中,或者体育明星的内容出现在耐克的广告中,所有这些都是通过Veritone获得的。正是这种在授权和广告方面的经验,将使Veritone比纯粹专注于技术的人工智能初创公司更具优势。”

而这样的应用其实也在出现。例如,电影明星布鲁斯威利斯(Bruce Willis)就已经授权他的形象在俄罗斯的手机广告中作为视觉深度伪造(visual deepfake)使用。这笔交易让他足不出户就能赚钱,而广告公司则得到了一个可塑性极强的演员(而且值得注意的是,威利斯的年轻版本是直接来自他的《虎胆龙威》)。

而我们更熟悉的案例则是地图软件中的导航语音。在2018世界机器人大会上,科大讯飞董事长刘庆峰就表示,使用AI合成声音已经十分方便,导航时候用到的林志玲、郭德纲的声音,其实都是科大讯飞合成的。

很显然,只要他们乐于授权,这些合成的视频和音频可以加快名人的“变现”能力。

与此同时,语音合成技术也已经被植入到音频编辑软件等工具中了。在美国公司Descript开发的同名播客编辑软件中,“Overdub”功能可以让播客创建一个人工智能合成的声音,这样制作人就可以对他们的音频进行快速修改。

正如Descript首席执行官Andrew Mason说的那样,“你不仅可以在Descript中删除文字,让它删除音频,你还可以输入文字,它将以你的声音生成音频。”

当然,Overdub制作的语音合成并非完美无缺。他们的语气有一种奇怪的颤音,缺乏真正的情感和强调的能力。

所以,能够任意合成声音并不意味着人类的声音从此就是是多余的了。事实上,你当然可以通过一点人工编辑来提高声音的质量,但基于现有的自动化技术,它们仍然不能达到专业人士所能实现的音调变化范围。

正如语音艺术家Andia Winslow说的那样,虽然人工智能语音对于机械化的语音工作(内部消息系统、自动公告等)可能有用,但在许多应用场合,它们无法与人类竞争。

Winslow说:“对于那些需要呼吸和生命力的重要产品来说,它们不会走那条路,部分原因是这些品牌喜欢与他们雇佣的名人合作。”

快速、简单、效果好,以假乱真的AI合成语音悄然商业化

但这项技术对普通大众意味着什么?对于我们这些没有足够名气可以从该技术中受益,并且在职业上也没有受到该技术发展威胁的人来说,潜在的应用也是多种多样的。

首先,在一款电子游戏中,角色创建屏幕多出了一个选项,可以创建一个合成的声音,所以听起来像是玩家在说游戏中的所有对话。或者有一个应用程序可以让父母合成他们的声音,这样他们就可以在不在孩子身边的时候给他们读睡前故事。这样的应用用现有的技术就可以完成。

当然,AI合成语音也有潜在的危险。“与时俱进”的骗子们已经利用语音合成来进行诈骗活动了,而其他恶意的滥用行为也四处开花。

例如,想象一下,一个高中生偷偷录下一个同学的声音,然后伪造出这个人说老师坏话的音频。或者,在一家企业中,一名员工合成公司高管的声音,然后随意“发号施令”。

如果再联想到视觉深度伪造(visual deepfake)已经酿成的各类恶搞视频图片、伪造色情制品、乃至政治错误信息,就可以知道对AI合成语音的担忧永远都不是多余的。

但有一件事是肯定的:在未来,如果他们愿意,任何人都可以创造出一个属于自己的人工智能合成语音。只是这个“游戏”的游戏规则还没有制定好。


赞助本站

相关内容
AiLab云推荐
推荐内容
展开

热门栏目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港