本文转自乌镇智库(公众号:wuzhen-institute)
一直以来,科大讯飞被称为“人工智能第一股”,自5月开始,股价涨势迅猛,市值近千亿。然而近期,科大讯飞经历了“惊心动魄”的一周。8月27日,讯飞的股价开始了毫无征兆的闪崩跳水,8月27日-28日两个交易日累计跌幅10%,市值瞬间蒸发。
图为科大讯飞28日股票指数
质疑点
这一始料未及的股价震荡引起了多方对于科大讯飞质疑,以及对语音交互产业空前的巨大质疑。特别是,随后长江商学院薛云奎教授的一篇文章《科大讯飞业绩含金量低风险巨大》,再一次把语音交互产业,甚至人工智能,推上了风口浪尖。
薛云奎对科大讯飞的市值提出质疑,称科大讯飞是股市上的大公司,财报上的小公司。该公司2016年度的销售额为33.2亿,税后净利润为4.97亿。他就此提问:一家小公司何以在证券市场上卖出800亿至900亿的市值?
薛云奎分析认为,科大讯飞代表的是时下最热门的人工智能概念。它所拥有的核心技术是智能语音识别与合成,其产品已占到中文语音技术60%以上的市场份额,语音合成产品70%以上的市场份额,而在电信、金融、电力、社保等主流行业的份额更是高达80%以上。不过他话锋一转,“看生意的关键还是要看业绩,尤其是财务业绩。”
他认为科大讯飞的财务业绩是表面光鲜但含金量低,最后指出,公司利润不可持续,在其光鲜的增长背后,其实隐含了巨大的风险。
其实,这半年媒体对于语音交互产业的关注度非常高,一直以来看多和看空的声音争执不下。此次股市风波,又一次把这个问题摆在大家面前。
那么,此次科大讯飞的股价震荡是实属个案?还是真的是语音交互产业存在巨大风险?人工智能会再次遭遇新一轮凛冬吗?
语音交互行业虚景?
的确,在国内A股市场的科大讯飞,是近场语音交互行业的龙头企业。其优势在于概念先发、行业背景和地方支持。但是,即便是其技术,科大讯飞也不能代表语音交互整个行业。
因为在语音交互行业,还有很多互联网巨头,如百度、阿里、腾讯,以及创业公司,况且人工智能时代真正落地产业的是远场语音交互,而不是科大讯飞所擅长的近场语音交互。
除此之外,从市场和技术两个角度来看,大家看待这个新兴市场的时候也有点过于谨慎和悲观了。
首先,从市场的角度来看。从大格局来说,这个行业确实还没有形成规模,全球年收入也就在100亿人民币以内规模。但是语音交互天生有个优势,就是如果未来世界需要机器更加智能,那人机交互就是首要解决的问题,我相信大部分人无法忍受一个不懂人话的机器还叫智能。如果这个趋势我们达成共识,那么对于这个行业趋势的质疑就无法立足。
再从具体的点来看,语音交互辐射太多的人工智能相关产业,其实是个庞大的产业集群,刚刚兴起阶段,必然就需要一个突破口来落地。很明显的是,这个突破口应该是当前非常火热的智能音箱。全球几乎所有互联网巨头创历史的达成共识,聚焦于一个小小的智能音箱,这绝不是偶然,即便头脑发热,也不可能如此跟风。
其实智能音箱成为这个突破口,有着自身天生的优势:
音箱是在线音乐落地的天然载体,而在线音乐是刚需但正寻求突破的产业;
而且音箱形态本来没有触摸屏,不会让萌芽的语音交互被触摸交互所秒杀;
另外音箱是市场已经验证的成熟品类,恰好也处在从蓝牙音箱升级的风口。
这样看来,不管在智能音箱上怎么折腾,其实趋势风险都不会是太大,这就会让厂商将精力聚焦到产品打磨而不是研判趋势方面,更容易诞生用户口碑较好的产品。事实上,智能音箱的销量已经被市场证明了,Amazon的Echo销量已经过千万,而小米的小爱同学第一批产品公测就获得了超过百万用户的参与,这说明智能音箱的概念其实已经被用户所接受了。
图为亚马逊Echo
现在最需要解决的就是降低广大用户体验智能音箱的门槛,北美的亚马逊、谷歌、苹果在行动,韩国的三星也正式入局。近来,日本厂商索尼、松下也开始宣布抢进,在德国IFA上发布了智能音箱产品。国内除了创业公司,阿里和小米都在行动。所以说,恰恰是看到了这一点,小米能超越此前发货的众多智能音箱,未来销量脱颖而出也是大概率事件。
但是当前市场的智能音箱又有点过热了,众多的创业公司也挤入巨头们竞争的主赛道,很多时候媒体也夸大了智能音箱的作用。
智能音箱现存思考
提到最近大火的智能音箱,我们最好再思考以下几点:
(1)不要把智能音箱看作什么人工智能的入口,这显然夸大了智能音箱的重要性,人工智能是物联网的智能化,物联网天然就要去中心化。人工智能时代,我们的入口绝对不再仅仅只有PC、智能手机或者智能音箱,而应该有更多的入口出现,比如智能电视、智能盒子、智能汽车、智能耳机,甚至智能冰箱、智能摄像头等。智能音箱,更准确的定位应该是人工智能的突破口,迄今为止,大众真正有了一款可以解放双手自由操控的机器,这对于远场语音交互具有划时代的意义,或许还将引起更多一连串的反应。
(2)不要抛开具体产品PK什么技术,或者凭空发布一些数据误导大众。语音交互领域的巨头和创业公司应该说各有技术特点和优势,而且技术本身就是一个迭代的过程,专注的厂商更具有技术优势。况且,语音交互产业其实已经从近场过渡到远场,其技术架构已经迭代进化了。远场语音交互技术最大的困难就是解决真实场景的复杂性,这不是实验室炫技的技术,而是需要经过市场打磨和用户认可的技术。
(3)远场语音交互技术从用户体验链条上来看,包含远场唤醒和远场识别两大功能,麦克分阵列技术只是服务于这两个功能。远场唤醒需要关注唤醒率和虚警率,而远场识别主要关注识别率。各家技术的差异度并不是那么巨大,比如唤醒率,安静状态下大部分都可以达到90%以上。但是仅仅这个参数是不够的,因为人类天生处在复杂环境,比如人类习惯的噪声场景下唤醒率和虚警率能怎样呢?那么又该如何定义这些噪声?当然还有更多复杂的问题需要解决,比如方言问题?小孩子问题?老人问题?老外说中文又该怎么办?这还不涉及语义理解,如果穷举下去,我相信技术人员会崩溃,但是这就是未来我们要解决的事情,人工智能才刚刚开始,可能需要几代人的努力。
(4)智能音箱产业是一个市场巨大的产业,而且由于音箱品类的本质属性,很难出现只有几家垄断的情况。这事实上也是产品厂商相对平台厂商的无奈,平台可以垄断,但是产品很难垄断。比如智能手机,即便苹果如此强势,仍然还有三星、华为、小米、Vivo、Oppo等,智能音箱的市场其实更加碎片化。但是有一点倒不能忽视,就是产品很容易出现头部厂商垄断份额或者利润的情况,比如苹果就垄断了智能手机的利润。
另外,从技术方面来看,语音交互市场是否存在巨大风险呢?
技术层面风险
其实,从技术方面来看,我们刚才也提到,语音交互已经从近场发展到远场,主要是解决真实场景的复杂性,这是声光电热力磁都要面临的问题,否则技术永远都只能放在实验室或者PPT上炫技。应用于市场的技术,从来都不是最领先的技术,而是最为成熟的技术,也是打磨最好的技术。
远场语音交互其实已经迈过了这个坎,其中最为关键的两项技术:麦克风阵列和远场语音识别其实都已经相当成熟。麦克风阵列技术属于声学领域范畴的技术,更加偏重于物理,这个技术其实在声学领域已经发展了几十年,其原理和方法并没有突破理论的边界。
图为麦克风阵列技术
而远场语音识别,其模型和算法也都是机器学习的成熟技术,大部分场景的复杂性其实依赖麦克风阵列解决,其核心是用海量数据弥补麦克风阵列的不足。因此,当语音交互行业从近场迈入远场领域,并不存在技术上的不可逾越,这就规避了技术导致的趋势风险,这很重要,因为很多新兴行业未能崛起就是因为技术上还存在重大缺陷。
但是,不存在技术鸿沟,不是说远场语音交互没有技术壁垒,恰恰相反,正是因为技术的升级导致了竞争格局的重新洗牌。技术总是会产生类似的效果,比方说显示领域经历了CRT、LCD、LED、OLED的技术升级,而这种升级诞生了很多新巨头,同时也导致了一些巨头的没落。同样,手机领域从电话、寻呼机、功能机、智能手机的技术升级,也导致了类似的结果。
因此,语音交互领域从近场到远场的技术升级,也给很多初创的公司留下了很大的想象空间。但是,这对于创业公司来说也并非都是利好,因为这意味着竞争的加剧,即便科大讯飞也是如此。