最近,12岁的视障女孩阳阳不再缠着妈妈给她读书了。她喜欢上手机小程序“心目图书馆”里那个“姐姐”温暖的声音。
“晓晓”的声音来自心目图书馆,是一家服务视障人士的公益图书馆,由盲人公益组织红丹丹与微软联合开发,连通了全国105所盲校以及众多视障人士,为他们提供电子书、有声书、讲电影等服务。这一段温暖阅读声音的背后,是AI科技创新带来的一份善意。
这个“姐姐”声音很温暖
别看阳阳存在视力障碍,但在妈妈和老师的鼓励、引导下,她成了一个爱读书的孩子。不过,阳阳很不喜欢读屏软件发出的冷冰冰的声音:“没有停顿和感情,语调平板生硬,听一会儿就累了。”于是,除了聆听一些真人志愿者朗读制作的有声书,妈妈成了她最依赖的朗读者。
最近,心目图书馆新上传的一套有声书却改变了她的看法。点开一本《安徒生童话》,阳阳从阅读的声音中感受到的是流畅、自然、富有情感的体验。“这是机器人读的么?”她不禁连问了几遍。在妈妈告诉她这个声音来自人工智能“晓晓”后,阳阳笑了:“我喜欢这个姐姐,她的声音很温暖。”
闭上眼睛,记者跟着阳阳一块听了一段“晓晓”的朗读。伴随着舒缓自然的语调,童话故事一点点展开,让人不自觉地生出兴趣来。阅读中,声线优美的“晓晓”会有适时地换气、停顿,整体阅读流畅自然,宛若真人。只有在偶尔遇到一些生僻名词时,可能会出现停顿断句不当,才让人意识到这是人工智能在提供阅读服务。
最近上线的这套由“晓晓”阅读的《安徒生童话》赢得了不少像阳阳一样的视障儿童读者的喜爱,但却显然不足以让更多心目图书馆中的视障读者“解渴”。
范师傅是一位在北京工作多年的盲人按摩师。工作之余,他喜欢阅读一些按摩推拿类的书籍,来提升自己。但是,这样专业类的书籍,很难找到盲文或有声版本。多年来,范师傅都是通过红丹丹组织,将这类专业杂志、书籍转换成电子书,再运用读屏软件进行“阅读”。
“读屏软件的声音就是那种比较平板的声音,一听就是机器读的,听着听着就有点累了,容易走神儿。而且很多时候断句不对,挺影响理解的。”尽管读屏软件的声音不尽如人意,但对于视障人士来说,这却是很多人不得不选择的阅读方式。因为相比制作盲文版纸质书和真人录制一本有声书,“电子书+读屏软件”的阅读方式成本较低,更容易覆盖更多书目。
最近,范师傅在试听了“晓晓”阅读的书目后也不禁心生向往:“以后我想读的书,也能有这样的声音阅读就好了。”
十几分钟就能合成一本书
范师傅的愿望正在逐步变成现实。
红丹丹视障文化服务中心执行主任曾鑫告诉记者,首批上传的“晓晓”语音合成有声书只是一个开始,下一步,更多由“晓晓”阅读的有声书正在路上。“现在是几本,以后会有50本、100本。今后,我们希望每年能达到至少新增200本AI有声书。”
不仅如此,微软还将开放平台给红丹丹的志愿者,教会他们如何自己合成有声书。“人工智能的阅读让有声书的制作成本和时间大幅度的降低。”曾鑫举了个例子,以往制作一本有声书,尽管可以招募到免费阅读的志愿者,但录制加上制作的时间最短也要三个月。这样的成本将大量书籍挡在了有声书门槛之外。
“我们只能精挑细选大众需求度高的书目进行制作。而像范师傅这种有个性化专业需求的书目,是无法给他量身定制真人有声书的。”曾鑫无奈地说。
那么,运用人工智能进行文本转化语音,从而合成一本有声书需要多久?微软亚洲互联网工程院AI语音组产品总监丁秉公给出答案。“我们有两套方案,一种可以做到实时(毫秒级)合成朗读,但是这种声音相对不够自然。而实现比较高质量、自然的朗读,合成一本书也仅仅需要十几到二十几分钟的时间。”
这样的效率让曾鑫感到兴奋。“虽然现在听书软件不少,也产生了大量的有声书,但针对孩子们教材类的有声书,以及一些专有科目的有声书基本还是空白,这些书籍只有依赖红丹丹这类的公益组织去制作成电子书或有声书。”曾鑫说,这次升级版AI朗读者,将给更多心目图书馆连接的视障读者送去媲美真人阅读体验的有声书籍。
AI发人声还会“说人话”
很多人会好奇,“晓晓”这种媲美真人阅读的声音是如何炼成的?这正是微软正在开展的工作从多方面教会AI更好地“说人话”。
首先,“晓晓”的声音听起来舒服自然,这样的声线源于最新技术加持。“微软在语音技术上已经研究了十多年,‘晓晓’是去年11月开始制作的。它是基于微软最新更迭推出的深度神经网络学习而诞生的首个声音。运用这种最新技术做出的声音质量和表现力更好。同时,它所需的音库资源量并不大,意味着微软未来还可以做出更多像‘晓晓’这样高质量的不同类型的新声音。”丁秉公说。
有了一副“好嗓子”,并不代表能把书读好。“要做一个好的朗读者,最高的要求是能够融入自己的理解,这样才能形成相应的情感。”微软“晓晓”语音产品负责人刘越颖表示,对于这一点,人工智能尚无法做到,所以需要“人为帮忙”。
如何帮忙?技术人员首先给“晓晓”设计了不同的阅读风格。“比如新闻播报时的语气、阅读忧伤段落的语气、提供客服时的语气等,甚至还有唱歌的声音,一共有七八种风格。”刘越颖介绍,有了不同的语气后,会在“晓晓”阅读不同内容时,人为进行标记,“晓晓”就会采用相应的风格进行阅读。
“目前只能依赖人为进行标记,可以标记一整本书,也可以单独标记一个段落。但随着人工智能不断进行深度学习,未来它将能够实现根据自己的理解自动标记,从而实现用匹配的语气和风格朗读。”刘越颖说。
此外,丁秉公也表示,“晓晓”仍在一个不断学习提升的路上。“比如这次跟红丹丹合作,在阅读中会偶尔出现英文单词,针对这个细节,我们进行了中英文的无缝转化,让声音在阅读中英文之间没有卡顿和变化,听起来很自然。”丁秉公举例。未来,人工智能如何能够对文章进行理解,从而能融入更丰富的情感,以及语气细节的丰富,都是要一步步完善的内容。
AI技术传递“爱”的善意
除了这次升级心目图书馆,深度神经网络的文字转语音(TTS)技术还可以在多个场景落地,打开一扇扇向善的窗口。在丁秉公看来,TTS合成方式可以7乘24小时进行,只要有文本内容就可以源源不断地输出有声内容,这相当于打破了有声内容的生产壁垒,受益的将不仅仅是视障人群。未来,TTS这项技术还有望被运用到留守儿童、老人等群体中,给他们提供个性化、更优质的有声阅读服务。
近年来,除了微软,腾讯、阿里、百度、字节跳动等众多公司也在不断尝试将人工智能新技术应用于公益当中。
腾讯优图实验室的“跨年龄人脸识别”技术,帮助被拐10年的孩子重回父母身边。当父母手里仅有一张已有些褪色的孩子百天照,人力已难以辨认10年后长大的孩子是什么模样。这时,经过深度学习的人工智能跨年龄人脸识别技术大显身手,根据这张孩子幼时的旧照,精准比对确定了10年后孩子的相片,从而帮助孩子与家人团聚。
91岁的河南南阳老兵袁林昌60多年来最大的心愿就是寻找分离多年的老排长周国民。然而,老排长已经去世。为了满足老人心愿,百度通过人工智能语音合成技术,重现了老排长的声音。“林昌,你好吗?我是你的战友周国民!60多年前,咱俩还是20多岁的小伙子。今天老大哥来不了了,你一定好好活着!老大哥给你敬礼了!”听着老排长的声音,袁林昌老人眼含热泪,敬起军礼。
感人的一幕幕还在上演。动作识别帮助聋哑人将手语转化成文本,语音识别帮助视障人士开启新生活,精准的地图推送帮助寻回走失亲人……AI不仅与“爱”同音,也在传递着一份新科技带来的善意,让冰冷的技术渐渐有了温度。
来源:北京晚报深度报道 记者:赵语涵
流程编辑:洪园园