近日,好未来斩获INTERSPEECH 2021“非母语儿童识别”(The INTERSPEECH 2021 shared task on Automatic Speech Recognition for non-native children’s speech)双料冠军。INTERSPEECH作为由国际语音通信协会ISCA组织的语音研究领域的顶级会议,是全球最大的综合性语音信号处理领域的科技盛会之一。本次竞赛吸引了行业内诸多国际知名高校及企业的参与,好未来最终以词错率显著低于第二名强势夺冠。
图:INTERSPEECH是国际语音顶级会议之一
登顶国际竞赛,领跑AI+教育新征程
本次竞赛的赛题是解决非母语儿童语音识别问题。由于儿童语音天生的差异性,包含生理差异(如儿童声道长度较短)、认知差异(如语言习得水平较低,常出现语法逻辑错误、发音前置错误、发音不完整和语种混杂等情况),以及行为差异(如儿童习惯低声私语)等,导致通用语音识别模型难以适配,这就让非母语儿童语音识别系统的构建更具挑战性。另一方面则是非母语儿童语音的数据资源较为稀缺,使得常规声学建模方法在该场景下很难奏效。
针对上述挑战,好未来AI语音团队凭借在实际教育场景中积累的丰富经验,充分结合儿童语音在生理特征及语言认知方面的特殊性,尝试了不同的解决方法。比如在数据及特征层面,采用对不同学龄阶段的儿童进行归一化、非语言符号共享、非流利语料生成、分级语言模型构建、半监督语音活动检测等方法进行针对性优化;在声学建模层面,采用深度多流CNN与无监督pre-training结合的方案,极大提升低资源场景下的非母语儿童语音识别性能。
图:竞赛系统最终排名,好未来(tal_speech)遥遥领先
竞赛中,好未来最终提交的系统以绝对优势领先第二名夺得冠军。该系统更加适配儿童语音识别场景,识别结果准确度更高,更重要的是这项技术的进阶与应用,能够更大程度地避免通用模型识别儿童语音不准确对孩子学习自信心和积极性造成的负面影响。
贴合学习需求,打造智慧教育新体验
本次成功摘取“双冠”的语音识别技术,已经广泛应用于好未来旗下各教育产品中,解决教育场景中的真实问题。
一方面,好未来用AI语音技术充分调动孩子的积极性,为他们提供全新的学习体验。如好未来将AI语音识别应用于语文、英语的字词学习环节,对学生语音实时转录,结合语音评测技术,判断学生对知识点的掌握度,智能地推送学习内容,个性化地安排学习进度和学习路径。
另一方面,AI语音技术也被应用到学而思培优小班课的消息盒子与学而思网校大班课的语音弹幕功能中。该技术能够将孩子的发言实时展现,及时反馈,激励孩子主动融入课堂,探索学习的乐趣,让课堂不再是老师的“独角戏”。课后孩子与老师的互动同样值得关注,不擅长打字的孩子,也可以在AI语音技术的帮助下参与到课后留言讨论中,减少师生间的距离感,让孩子更愿意表达。
不仅如此,在培养学生口语表达能力方面,AI语音技术也大有可为。“萌娃小讲师”是学而思培优颇具代表性的线下口语表达活动,旨在培养孩子内在自信、逻辑思维等能力。好未来自主研发的口语表达能力测评解决方案,支持从流利度、情感、内容相关度、语义逻辑等多重维度,对孩子的口语表达过程进行实时评测,让孩子随时随地进行口述题练习,并且及时获得反馈报告,激发孩子的主动学习意识。
持续开放创新,用科技助力行业共生
AI语音技术的国际认可与创新应用,是好未来18年来用前沿科技推动教育进步的一个缩影。近年来,好未来获批承建智慧教育国家新一代人工智能开放创新平台,并与清华大学、中科院计算所等6所高校院所建立起紧密的产学研合作;为解决教育实际问题而生的几十项学术成果入选ICASSP、NeurIPS、AAAI、WWW、EMNLP、AIED、NCME等国际顶级学术会议;好未来AI中台也在2020年接连斩获世界计算机视觉领域顶级会议CVPR-EmotioNet竞赛冠军、世界人机交互与普适计算领域顶级会议UbiComp竞赛冠军、中国计算语言学大会CCL2020竞赛冠军等荣誉,这都得益于好未来对科技研发的大力投入和对底层科研能力的不断构建。
好未来的AI探索已形成语音技术、视觉理解、自然语言处理和数据挖掘四大方向,探索落地从课前到课后、从内容到服务、覆盖“教、学、测、练、评”各教学环节的100余项AI能力、10余项教育场景AI解决方案,支撑包括学而思培优、学而思网校、学而思1对1、小猴启蒙、题拍拍等好未来旗下几乎所有业务部门。
当前,科技已经成为助推教育现代化发展和数字化转型的重要力量。好未来希望用技术开放打破行业技术壁垒,依托智慧教育国家新一代人工智能开放创新平台,用历经海量教育场景数据验证迭代、在国际赛场“争金夺银”的技术能力,与行业协同创新,共同成就教育美好。