小鹿角智库
要点:
1、近年来,语音技术被广泛运用于B端和C端各个场景,包括医疗、客服、教育、智能家居、移动设备、车载等等。
2、语音被视为下一代交互途径,语音交互在音乐行业发挥着越来越重要的作用,同时语音助手也能为音乐平台锦上添花。
3、国内语音技术领域公司大致分为两类:独立的语音科技公司和互联网巨头公司的语音部门,前者偏B端市场,后者偏C端。
在2013年的上映的电影《Her》中描绘了这样一副未来图景,男主与一个名叫Samantha的AI语音陷入了爱情。不得不说,声音作为一种有温度的介质,相较于触控而言承载了更多的情感,更容易让用户产生舒适、亲切的感觉。
虽然目前大多数语音助手的声音仍是冷冰冰的状态,无法实现影视作品中所构建的场景,但也有不少公司已经开始着手解决这一问题。例如,小冰公司在去年7月发布的全新超级自然语音技术,首次将人工智能语音自然度提升到与真实人类声音几乎无法分辨的程度。
伴随着物联网的发展和5G时代的即将到来,人机交互从手机拓展到智能家居、智能出行等更广阔的场景。语音作为与技术打交道最“自然”的方式,成为了被寄予厚望的下一代交互途径,语音技术领域的公司也随之获得资本青睐。
去年4月,微软宣布收购语音技术公司Nuance Communications。该交易经过欧盟、美国和澳大利亚监管机构的层层审查后,终于在本周扫清了最后的障碍,获得了英国竞争和市场管理局的同意。
这笔价值197亿美元(约1248.98亿元人民币)的交易,被称为微软史上第二大收购案。对于为何将Nuance纳入囊中,微软CEO Satya Nadella给出的解释是:“Nuance在医疗保健交付点提供人工智能技术,是企业AI在现实世界中应用的先驱。而AI是科技的最重要优先事项,医疗保健是其最紧迫的应用。”
Nuance(NASDAQ: NUAN)是全球最大的专门从事语音识别软件、图像处理软件及输入法软件研发、销售的公司,目前世界上最先进的电脑语音识别软件Naturally Speaking就出自于Nuance。该公司第一次被大众熟知源于它与苹果之间的合作,当时被誉为下一代交互系统的Siri采用了他们的语音技术后,这家闷声钻研技术的公司瞬间被各大媒体相继曝光。
这些年来,语音技术被广泛运用于各个场景,无论是B端的医疗、客服、教育还是C端的智能家居、移动设备、车载等等,都出现了智能语音的身影。
我国智能语音产业近年也迎来了蓬勃发展,核心技术有所突破。今年1月最新发布的《2020-2021中国语音产业发展白皮书》显示,2020年我国智能语音市场规模达到217亿元,同比增长31%,2021年可达到285亿元,同比增长44%,有力带动产业数字化发展。
让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为最被看好的交互方式之一。那么,语音技术的交互优势在哪里?它的主要应用有哪些?在这一领域涌现出来了哪些巨头和机会?
语音技术在音乐行业的应用
囊括了语音唤醒、语音识别、语义理解等多项技术的语音助手,是语音技术应用最广的领域。
今年年初,向元宇宙公司发展的Meta也宣布,正在推进用语音生成虚拟世界的AI研究,改善人与语音助手的互动,强化不同语言之间的翻译。通过语音助手,所有年龄段的人不需要学习用户手册就能轻松实现操控,大大降低了新技术应用和推广的壁垒。
在音乐行业,语音交互也在发挥着越来越重要的作用。
智能音箱与语音助手是天生的一对,2014年11月,亚马逊推出了第一款智能音箱Echo和语音助手Alexa并取得巨大成功。此后智能音箱逐渐成为行业“风口”,Alexa和苹果的Siri、谷歌的Google Assistant、微软的Cortana成为了市面上最流行的四个语音助手。
除了自家的智能音箱之外,亚马逊、苹果、谷歌和微软的语音助手在其他智能硬件和平台都有广泛的应用。
例如,Sonos当年入局智能音箱领域后,迅速与亚马逊、苹果、谷歌达成了合作。2019年11月,Sonos还以3700万美元的现金收购了语音助理初创公司Snips,在Snips的帮助下,Sono将能够为那些具有 “隐私意识” 的用户提供语音控制选项,同时更多地专注于音乐播放控制。
对于音乐平台来说,语音助手也能为其锦上添花。
去年10月,苹果公司在秋季发布会上宣布将语音助理Siri整合到Apple Music,推出每月售价4.99美元的Apple Music “Voice Plan”套餐计划。与苹果其他音乐订阅项目的区别在于,用户只能通过Siri访问Voice Plan,没有空间音频等高级功能。
去年4月,Spotify正式推出了“Hey Spotify”语音助手功能,这是Spotify向Alexa/Google Assistant/Siri风格的流媒体语音助手迈出的重要一步。当用户说“Hey,Spotify”时,应用程序开始接收用户说的话,并一直持续到你的问题或请求得到处理为止。用户可以通过此功能调出想听的歌曲和歌单,甚至包括自定义的情绪播放列表,用户可以通过授权Spotify使用麦克风来开启这项功能。
除了音乐平台,环球音乐旗下的音乐同步授权公司Universal Production Music早在2020年7月就推出了Alexa语音(Alexa Voice Skill)功能,来帮助用户更简便地检索公司庞大的曲库,欣赏超过百万的音频歌曲。Universal Production Music声称自己是第一家这样利用声控技术的音乐发行公司,通过支持亚马逊语音助手Alexa的设备,用户只需说“Alexa,让Universal Production Music播放……”便可以播放自己想要听的作品。
作为人工智能产业中极其重要的一个组成部分,语音识别担任着人机交互应用时的输入和输出接口,也相应地受到产业风口的影响,受到一众投资机构的追捧。
据融中研究数据,语音识别企业是投资机构最青睐的技术服务方向。从2017年至2021年2月,语音识别行业投资事件达150多件,投资金额达180亿元左右。在音乐行业,语音/音乐识别也是语音技术的重要应用之一。
2018年,苹果以4亿美元收购知名音乐识别应用Shazam,将其正式纳入苹果生态的一环。作为Shazam最大的竞争对手,总部位于美国的语音识别公司SoundHound去年年底通过与Archimedes Tech SPAC Partners Co.合并,计划在今年第一季度交易结束后在纳斯达克公开上市。SoundHound于2005年由一群斯坦福大学的毕业生创办,开发了这款音乐识别应用程序“SoundHound”,该应用在全世界的下载量已超过3.15亿次。
除了这些知名的海外企业,国内语音技术领域也不乏高端玩家。
那些入局语音技术领域的大佬们
近年来,智能语音市场的火热吸引了越来越多的公司入局,纵观国内那些语音技术领域的大佬们,可以大致将其分为两类,一类是独立的语音科技公司,以讯飞、云知声、灵声科技、思必驰为代表;一类是互联网巨头公司的语音部门,以百度、搜狗、阿里、腾讯为代表。
作为国内语音技术行业的头部公司,2008年上市的科大讯飞如今的市值已从刚上市时的34亿元增长到了1047亿元,令人望尘莫及。
科大讯飞在中文语音技术市场和语音合成产品市场都占有较大份额,其商业模式既2B也2C。在B端市场,科大讯飞面向教育、政法、医疗、汽车和客服等多个行业提供相应的解决方案。在C端市场,科大讯飞提供面向消费者的家庭、汽车、翻译等个人消费品,包括硬件产品如讯飞学习机、讯飞翻译机、智能办公本等,以及软件产品如讯飞输入法、AI电视助手等。通过这些产品努力向消费端倾斜,加强品牌认知度。
成立于2009年的盛大语音院曾是科大讯飞最强大的竞争者,但随后因盛大退市而导致资金不足,语音院的上级机构盛大创新院几乎全部解散。在动荡中,一部分员工离开成立了“云知声”公司,原盛大语音院也于2013年正式独立,成立了一家名为“灵声科技”的公司。
出身于盛大的云知声,其主营业务分为智能语音交互产品、智慧物联解决方案和人工智能智慧服务,这几年在语音科技领域也获得了不错的发展。据天眼查资料,云知声截至目前总共完成了10轮融资,去年6月完成近1亿美元D+轮融资,投后估值约18亿美元。
值得一提的是,云知声曾于2020年11月递交招股说明书拟在科创板上市,但2021年2月却以公司战略发展因素为由主动撤回科创板IPO申请。与文章开头提到的Nuance一样,以语音病历录入为切入口,AI医疗也是云知声的主要赛道之一。如今Nuance以197亿美元被微软收购后,有不少分析师认为,“见好就收”可能会是AI语音独角兽云知声最好的出路。
相比于单纯的语音科技公司而言,互联网公司成立语音部门的商业化路径会更加清晰。
在Google验证过语音搜索对于移动终端的重要性后,百度和搜狗这类具有搜索业务的公司跟进投入智能语音领域显得十分顺理成章。同时,由于自然语言处理(NLP)是搜索引擎的关键技术之一,因此百度、搜狗也自然而然地成为头号玩家。近几年,两家公司的语音技术不仅用于自身产品,还通过与行业其他技术和产品提供方合作,推出面向C端的产品和应用。
例如,搜狗联合四维图新推出全语音交互的车载导航产品;百度度秘事业部推出的对话式人工智能系统DuerOS声称其语音识别准确率可以达到97%以上,该系统广泛应用于家居、随身、车载等多种场景,帮助硬件厂商、开发者最大程度降低了对话式人工智能系统的应用门槛。
由于互联网平台公司直接面向用户,所以很少涉足医疗、客服、金融等传统垂直行业,而是会把重心放在消费类产品和应用上。
近几年的疫情对全球的生产和生活都产生了巨大的影响,在这一背景下,为非接触型生产和生活提供服务的语音交互技术,自然也迎来了发展机会。例如,音视频通讯技术在疫情初期就迎来了一轮爆发。伴随音视频通讯需求的增长,在线翻译、在线会议内容实时识别和翻译、音视频通讯的内容分析和挖掘等赛道也出现了更多需求。
智能语音是个技术密集型的行业,无论是元宇宙还是AI,当下最火的这些概念都离不开语音技术,但同时也对技术的发展提出了更高的要求。无论是独立的语音科技公司还是互联网公司旗下的语音部门,都还有机会。