展会信息港展会大全

5G+AIoT时代:讯飞正在输入下一个十年
来源:互联网   发布日期:2020-10-22 12:48:47   浏览:9204次  

导读:文|朱晓培 校对|大道格 2010年是注定被载入史册的一年。 这一年的6月7日,在美国,史蒂夫-乔布斯亲自站上了全球开发者大会的舞台,向世界展示了采用全新设计的iPhone4,正式开启了移动互联网时代的大幕。同一天,乔布斯还展示了另一个被人们忽略了重要意义...

5G+AIoT时代:讯飞正在输入下一个十年

文|朱晓培

校对|大道格

2010年是注定被载入史册的一年。

这一年的6月7日,在美国,史蒂夫-乔布斯亲自站上了全球开发者大会的舞台,向世界展示了采用全新设计的iPhone4,正式开启了移动互联网时代的大幕。同一天,乔布斯还展示了另一个被人们忽略了重要意义的产品iPad,它开启了一个多屏时代。

这一年的10月28日,在中国,一个由学生创业起家的公司推出了第一款专为智能手机设计的中文语音输入法,讯飞输入法,开启了一个语音交互时代。在它发布大约一年后,谷歌、QQ、搜狗、百度等巨头才相继推出自己的输入法。可以说,讯飞输入法的出现,引领和推动了输入和交互模式的变革。

10年时间里,移动互联和AI(人工智能技术)的发展,进一步改变了人与机器的交互方式,促进了语音输入的普及。

今年4月,赛诺市场研究对外发布的《2020年中国第三方手机输入法春季报》显示,语音输入的频率明显增加,成为增长最快的输入方式,而且语音输入方面的创新,已经成为一款输入法新增用户的牵引力。

今天,语音输入,与AI一起,被看作是将从根本上改变人和机器的关系,给下一代软件创造巨大价值的技术。

讯飞输入法面世10年之际,科大讯飞副总裁章继东表示:“过去十年里,讯飞输入法秉持着技术顶天,引领语音交互落地的理念,不断革新产品,努力让让亿万用户高效输入,乐享沟通。下一个十年,随着5G和AIoT时代的到来,讯飞输入法将继续以过硬的技术实力直面行业发展的挑战与机遇,不断提高语音输入的行业天花板。”

从0到1,语音输入改变生活

2013,中国相声演员方清平用20.5秒快速说完了《木兰辞》的前三段,获吉尼斯世界纪录《讲中文速度最快》证书,被称为世界上讲中文速度最快的人。

今天,这个纪录被再次刷新。

10月20日,方清平在公证人员的公证下,再次挑战快语速朗读《木兰辞》,仅用17.81秒时间读出182字。而在此语速下,讯飞输入法识别准确率100%。

5G+AIoT时代:讯飞正在输入下一个十年

“我对自己的挑战是比较有信心的,但是在快语速朗读时,起初我对讯飞输入法的识别效果持有怀疑的。挑战下来,输入法的体验超过我的想象,真是不得不佩服现在强大的人工智能技术”。方清平说。

实际上,讯飞输入法已经突破了1分钟识别600个字。人们惊讶于讯飞输入法的快与准。而这背后,是科大讯飞语音和人工智能的积累。

时光回到10年前,当时中国的语音技术几乎还全部掌握在BM、微软等外企手里。正在中国科技大学读博士的刘庆峰,收到了李开复的邀请。李开复正在创建微软亚洲研究院,希望刘庆峰加入智能语音团队。

但刘庆峰的博士导师吴宗纪一直给学生们传递一个理念,中国人的技术一定要掌握在中国人的手上。因此,刘庆峰拒绝了李开复的邀请,与几个同学一起创建了科大讯飞,并于2008年在深交所上市,也是中国在校大学生创业第一个上市公司。

公司创立伊始,语音就被确立为讯飞的核心发展方向,以语音为入口的人工智能技术也成为科大讯飞发展的关键。

“很多的技术是看不见的,但是我们相信相应技术会改变世界。”科大讯飞副总裁章继东说。每一次技术革新,讯飞都会快速的应用在自己的产品上。

5G+AIoT时代:讯飞正在输入下一个十年

2010年,讯飞AI研究院就将GMM-hmm-隐马尔可夫模型应用到语音识别系统中,通过运用WFST解码器,提高复杂的语言模型,达到了70%识别率。2012年,讯飞又在输入法中使用了深度神经网络技术,把全球首个中文云识别的DNA上线到产品中,使得语音识别率一下子提升了到80%。2018年 ,讯飞又开始使用HypidCNN 算法,通过结构优化大幅提升并发路数,语音识别准确率突破98%。今年,讯飞又在产品中加入了动态自适应编解码语音识别引擎 ,进一步实现了多模态输入和领域个性化识别。

“在这10年里,讯飞秉承了一个很朴素的理念,就是提升整个社会的效率。”科大讯飞输入法业务总经理程坤说。

数据显示,普通人打字速度一分钟60-80字,普通人说话速度一分钟180-240字。如果每人每天花30分钟打字,语音输入至少节省20分钟,1年是120小时。如果输入法能发展到1亿用户,每年就能节约120亿小时。

讯飞输入法的出现,提高了人们输入效率,也改变了人们的生活方式。

今天,当你拨打各大运营商、银行等客服电话,很多客服不是真人,而是机器发出的声音,背后运用的就是讯飞的技术;你出行中使用的打车软件、导航软件,导航中林志玲、郭德纲、TFBOYS等等的合成音,也是出自讯飞之手。每年的国家普通话评测、中高考的口语评测,机器评测技术也来源于讯飞……科大讯飞以这样的方式“隐行”在无数个终端的背后。数据显示,科大讯飞占据了中文语音市场70%以上的份额。

破自己的记录,将个性化践行到底

2020年2月,全国各地的众多医生、护士驰援武汉抗击新冠疫情。但很多人也遇到了一个小问题,听不太懂武汉话。

为此,讯飞输入法团队经过10天的紧急技术攻关,上线了武汉话转普通话功能,并开放给广大用户,助力医患沟通,在短短的时间里,累计服务了3万人。

5G+AIoT时代:讯飞正在输入下一个十年

方言,其实也是讯飞输入法团队在2011年就遇到的一个难题。中国有太多人说的是方言,如果无法准确进行方言的识别,那么语音输入终将沦为鸡肋。

经过用户调查和数据分析后,讯飞输入法选择从需求排名最高的粤语、四川话和河南话入手。2012年的一次版本更新后,上线了粤语语音输入,成为首款支持粤语语音输入的输入法,紧接着上线了四川话和河南话的语音输入。截止到目前,讯飞输入法的粤语语音识别准确率已经超过95%,陆续上线了23种方言的语音识别。

语言是很奇妙的东西,承载了民族和族群几千年的文化。但如果保护不及时,语言消失了,文化也就随之消失了。数据显示,世界上大约有6000 ~ 10000多种语言,大部分将于本世纪末消失。

人文内容的载体,需要现代技术的加持。2017年,讯飞输入法发起“方言保护计划”公益行动,通过智能语音技术保护方言;截至目前,方言库的珍贵语料近140万条,并通过A.I.语言复制实现23种方言识别。“科大讯飞一系列核心技术的不断突破,有利于拓展方言保护的新方法、新思路。”讯飞输入法业务部总经理程坤表示。

语音识别的终极目标,就是让用户便利自然的输入文字或发送指令。当语音识别率越高,相应的用户体验也就越好,社会价值就更大。

为了用户体验的极致,讯飞在“个性化语音”功能上下足功夫,通过拓展人工智能技术,解决输入环境复杂、表达习惯差异、方言等问题。

在这个过程当中,科大讯飞遇到并解决了很多问题。

其中最典型的问题就是的语义的区别,比“程坤”和“陈坤”听起来差不多,“张总”和“章总”要对应具体的人才能分得清。人在理解相似音的时候,就会出现歧义,更何况是机器。

为此,2012年讯飞就在行业内首创了个性化语音识别,允许用户将本地的人名,自己定义的专业词汇,特有词语,上传到讯飞的后台。这样,用户下次说到这些词语时,讯飞输入法就可以把相应的词语识别出来。

5G+AIoT时代:讯飞正在输入下一个十年

为了方便用户的操作,2017年,讯飞又推出了语音自适应的修改,后台会自动记录和学习用户的修改过程,在用户无感知的情况下,就能体验到语音输入越来越正确。

“我们觉得,科技最重要的是要有温度,为广大的用户提供很好的价值。”科大讯飞副总裁章继东说。讯飞还做了无障碍语音输入,包括给每个表情包都做上标签,满足视障群体对无障碍输入个性化输入需求,在互联网的世界里铺设了“盲道”。

中国盲人协会信息信息促进委员会的副主任朱毅清认为,讯飞输入法在无障碍方面做的大量工作,改变了盲人朋友的学习、就业、工作、生活,使他们的生活发生巨大的变化。

洞察到用户对语言翻译的不同需求,讯飞输入法还在2013年上线了英文语音输入,并在2015年首创了语音翻译功能 “随声译”,目前已经支持英日韩俄等多种外语的面对面翻译,成为一种人际沟通工具。

随着移动通信技术进步和网络社交的崛起,人们的沟通和表达有了越来越多的选择,对于沟通效率也提出了更高的要求。作为“中国人工智能国家队”一员,讯飞输入法希望借助背后强大的A.I.技术力量,不断破解实际应用的难题,为广大用户解决不同场景的需求。

下一个十年,顶天立地

安徽合肥科大讯飞的园区里面,可以看见有一尊特别显眼的石牛,上面写着四个字,顶天立地。

5G+AIoT时代:讯飞正在输入下一个十年

“做人做事做企业,要顶天立地,要有家国情怀。”科大讯飞副总裁章继东说。顶天立地还有另外一层意思,“顶天”是指掌握具有自主知识产权的核心技术,即技术护城河;“立地”是指坚持应用的硬道理,推动技术成果实现大规模产业化应用,让用户都能从中获益。

在“顶天立地”战略指导下,科大讯飞人工智能研究成果在教育、司法、医疗、智慧城市、智能服务、智能汽车等领域实现了规模应用,建立了覆盖全国的营销渠道和服务网络,并与三大运营商、金融机构、手机、家电、汽车等行业领先企业实现了广泛战略合作。

今天,5G和AIOT时代已来,随着智能家居、车载、可穿戴设备等新的场景和需求不断增加。人们会越来越多的面对更多远尝移动、无屏场景下进行输入的情况,传统的输入方式越来越不友好,语音将是最核心最主流的输入方式。

为了人机交互的新要求,讯飞输入法在最新推出10.0版本上,搭载了“动态自适应编解码语音识别引擎”,新增的唇形辅助输入,能够提高嘈杂环境及近距离多人说话的识别效果。该版本还优化了领域词识别,可更精准的匹配游戏、医疗、旅游、购物等不同的场景词汇。除了语音功能边界的拓展,讯飞输入法10.0版本还基于“免切换”的理念,实现英文单词连续手写,即在输入面板既可以手写汉字也可以直接手写完整的英文单词。至此,讯飞输入法已实现语音、拼音、手写多种方式的中英文输入免切换。

实际上,早在2016年,讯飞输入法就提出来了“万物互联”的概念,认为未来人们的人机交互式是以语音为主,手势和图像为辅。

现如今,虽然智能手机依旧是最常见的终端形态,但也有越来越多的新设备正在出现。小到可穿戴的眼镜、手表,大到智能家居、汽车电子等,都被赋予“生命力”。而随着越来越多的设备被智能化,讯飞也越来越坚信自己选择的方向是正确的。

从讯飞输入法首次面世到现在,已经过去了整整10年时间。

10年很长,世界发生了新的变化,要输入的场景也发生了变化,讯飞输入法也不断的跨越手机终端,迈向AIOT时代,用户可以在平板、电视车载和墨水屏的输入技术。

10年也很短,在大科技的时代,这够是一家公司完成从0到1,从1到N的起步阶段,未来要走的路还有很长。

5G+AIoT时代:讯飞正在输入下一个十年

如今,语音技术正当其时,讯飞输入法的日语音交互次数已经达到10亿次,累计服务设备数超5亿,语音用户占比超70%。在万物互联时代的呼唤下,“十年磨剑,再赴征程”,讯飞输入法将凭借顶天的技术持续引领产品创新。

“我们要不断的把最新的技术用到产品上面去,为广大用户创造更多的价值,我们要用人工智能建设美好世界。”章继东说,作为以核心源头技术与创新的公司,不论是上一个10年,还是下一个10年,讯飞的使命不会变。


赞助本站

AiLab云推荐
推荐内容
展开

热门栏目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港