新智元原创
编辑:白峰、鹏飞
老罗4月1号的直播首秀,种草了一款非常火爆的AI产品,搜狗的AI录音笔S1。
老罗和助手边开吹风机边录音,搜狗S1完美降噪并还原出清晰的语音惊艳全场,S1背后隐藏了哪些AI黑科技?从输入法到搜索,再到今天火遍全国的AI录音笔,搜狗正悄然推动整个AI行业的技术革新。
老罗种草的搜狗S1录音笔背后到底隐藏了哪些黑科技,今天我们就来一睹为快。
连苹果产品都不放在眼里的老罗,为何被一款录音笔惊艳到?
老罗对产品的理解以及极致的追求,导致他是一个不会轻易夸赞产品的人,尤其是电子产品。他做锤子的出发点,也是因为市面上的产品没有达到他的“理想态”。但是在 4 月 1 号的直播首秀,老罗却被一款录音笔的 AI 黑科技震撼到,绝口称赞,这款录音笔就是搜狗刚刚推出的 S1。
光说不练假把式,在两百多万网友的亲眼见证下,老罗的助手现场开启吹风机,同时老罗揉起一张噪音非常大的糖纸对 S1 的录音过程进行干扰,录音结束现场回放,S1 的 AI 降噪效果震惊全场,在如此巨大的噪音干扰下,搜狗 S1 经过一个简单的点按操作完美还原了当事人的清晰语音,让老罗直呼“了不起”。
众所周知,老罗的粉丝是对科技、对极致产品、对匠心有追求的一群人,可以说搜狗的 AI 录音笔满足和超越了粉丝们的期待,直播仅仅展示了 S1 强大的 AI 降噪功能,实际上 S1 能做的远远不止这些,接下来我们就来看看 S1 都集成了哪些黑科技,才能达到如此惊艳的效果。
8麦克风阵列和AI加持,吹风机对着狂吹也不怕
直播进行到一个小时,搜狗CEO王小川出现在直播间,川总开始介绍自家的产品,向大家透露了录音笔完美降噪的秘密。
原来S1用了“8麦克风阵列”,直观上来看,麦克风多了自然会收集到更多更广的声音,但强大的硬件只是实现了更准的拾音,要想实现降噪,还需要一系列的AI音频处理技术。
直播结束,小编赶紧去搜了搜,一款被吹爆的录音笔就这点能耐?一搜不要紧,直播中展示的仅仅是S1众多黑科技的冰上一角,S1还有一个很重要的功能是支持“语音转文字”,目前支持中英日韩等10种语言、川粤津陕等10种方言的录音和转写,官方称实时转写准确率达98%。除了实时转写,S1还支持整个录音文件的转写,看官方数据1小时的录音只需要5分钟即可完成,高效!
如果我录了很多音频,怎么才能找到我需要的文件?带着这个疑惑我们去查看了S1的搜索功能说明,竟然支持各种标签组合查找录音内容,比如按时间、按文件大小或者两者组合等等。录音转好了,我想在 PC 端查看,还要通过 USB 导出到电脑?这样就out了,搜狗 S1 支持一键云端共享,只需一次存储,手机APP、网页端、PC 客户端都有了!
以语言为核心布局AI,搜狗众多黑科技相继落地
沉寂多年的录音笔市场因S1再次成为热点,让搜狗在智能录音笔行业再下一城,与搜狗“以语音AI为核心”的战略布局是分不开的。
其实,搜狗早就开始了AI领域的布局,并拥有众多的AI软硬件落地产品,软件技术包括搜狗同传、AI录音笔的自由对话翻译、输入法变声、AI合成主播、一站到底汪仔的智能问答技术等。
输入法+变声:用马云的声音和好友聊天
AI 变脸变声早就有了。但是将 AI 变声功能整合到输入法中,绝对堪称是搜狗的一次绝佳创意。
以往的变声方式非常繁琐,不仅额外下载 app,两个 app 之间还得来回切换。搜狗将变声融入到输入法中,用户不需要跳出当前的对话就能够即时变声。
普通的变声软件只是简单的更改了音频,比如将用户的声音变细来模仿萝莉,变粗来模仿大叔。
而搜狗知音的语音技术团队则是从语音表征学习、语音合成等领域切入。用表征学习来学习源端说话人的音色、内容、韵律这三大特征,再利用语音合成技术,将源端说话人的特征和要转换的角色特征合成为最终变声音频,达到各个方位的相似和自然。
如此一来就打破了音色转换的局限,用户可以变声成特定的角色声音,比如王者荣耀里的妲己、海绵宝宝,甚至马云,并且还原度极高、自由空间大。
多模态语境同传:机器同传首次实现会看、能理解、会推理,正确率提高 40%
同一个词,放在不同的语境下意思可能截然相反。例如 LOL,在聊天的时候它即可能表示 laugh out loud,也可以表示 Lords of Legends,需要结合当前的语境来判断。
类似的理解错位,在同传的时候非常影响与会者对演讲者内容的理解和参会体验。搜狗推出的首个具备多模态认知能力的同传系统,首创了“语境引擎”,在搜狗同传“听”的基础上,增加了“看”和“能理解会推理”两项新技能,PPT 内容翻译正确率提高 40%!
通过“看”来自主学习演讲者的演示内容,再通过“理解”和“思考”讲演讲者的内容,更加准确的识别并翻译出来。再一次引领了行业的技术进步!
不光有声还有影:AI 合成主播,不仅能报新闻还能当法官
2019 年 3 月 3 日,全球首位 AI 合成女主播在央视正式上岗,引发全球热议。
该主播使用了“搜狗分身”技术,通过模拟人说话时候的声音、动作、表情、肢体语言等,让 AI 合成主播看起来更像一个真人,可以来回走动,肢体还会配合说话的内容做出相应的动作。
搜狗甚至还推出了 AI 虚拟法官,通过北京互联网法院的在线智慧诉讼服务中心为民众提供更为便捷、高效的线上诉讼服务。
春节前夕,搜狗将分身技术应用到输入法,用户可以直接打字过程中,直接让虚拟气象主播“雅妮”实时播报天气。
更重要的是,搜狗分身技术在国内外尚属首例,终于有一个国人独有的技术了!
搜狗汪仔:研发 9 个月耗资 4000 多万,江苏卫视《一站到底》一战成名
2 年前,搜狗汪仔就在江苏卫视的智力挑战节目《一站到底》大放异彩,以 0:3 开局,最终却以 8:6 获胜,让现场的所有人包括电视机前的观众都震撼不已。
早在几年前,IBM 超级计算机系统“沃森”(Watson)也曾在美国智力游戏 Jeopardy!(危险边缘)上,击败了当时最强人类选手。不过 Watson 是特殊接口文本输入,输入内容准确无误,且答案限定在特定范围内。
但汪仔面临的难度提升了好几个台阶。首先主持人不需要完全念完题目,在念题过程中选手可以随时抢答。汪仔正是通过语音识别和图像识别两种技术的结合,准确识别题目并迅速给出答案。
其次《一站到底》的题目是不给定类别的,需要汪仔通过算法来识别问题的类别。
除了会答题外,这个汪仔聊天的能力也很强,撩起妹来也是一把好手。
别看外表有点萌,其实汪仔背后是语音识别、OCR、自然语言理解、数据挖掘、信息检索、知识图谱和文本计算等多项 AI 技术的结合。
AI进化论:技术让冰冷的工具,变成有温度的智能助理
技术,最终要服务于人类。
为什么我们要追求自动驾驶、语音助理、会话机器人等等新技术,目的不是为了取代人类,而是为了能够让机器人像人类一样与我们沟通。让工具适应我们,而不是我们去迁就工具。
冷冰冰的工具,最终要变成一个有温度的,会替我们思考、为我们服务的助理。就好像搜狗输入法让打字工具变成写作助理、搜索让检索工具变成问答助理、录音笔让声音记录工具变成信息助理。
搜狗的发展,正在潜移默化地推动整个AI行业的技术革新,为行业和用户创造更大的价值。