Amazon本周发布名为MASSIVE的资料集,供开发商训练能理解多种语言的数字助理使用的AI模型。
到2023年全球将因智能手机的普及而有80多亿个AI虚拟助理,还有超过1亿台智能音箱。然而大部分虚拟助理都仅能使用1种或仅数种主流语言。此外这些数字助理的训练还面临标注资料不足、去除资料讹误、维护和更新模型的成本等问题,进一步限制了数字助理的口语翻译的能力。
大量多语自然语言理解(massively multilingual natural-language understanding,MMNLU)模型即希望解决这个问题。Amazon Alexa AI自然语言理解部门科学家Jack FitzGerald指出,这愿景下,单一机器学习模型能分析和理解多种语言。通过学习跨语言的共享资料展现(data representation),这个模型可以从有很丰富训练资料的主流语言学习到的知识,转移到资料很稀少的语言上。
为推动MMNLU模型创建,Amazon宣布发布MASSIVE资料集。MASSIVE资料集包含跨51种语言加注过的100万项话语或单词(utterance)及开源程序代码。资料集包括训练、验证和测试资料,后者则提供MMNLU模型的执行范例,协助AI项目人员创建意图分类(intent classification)或词槽填充(Slot Filling)的结果基准线(baseline)。
MASSIVE为平行资料集,意味每个单词都有51种语言版本,这可让模型学习到同一意图的共享表达方式,可加速自然语言理解(NLP)任务的跨语言训练,也能用于其他NLP任务,如机器翻译、多语复述(multilingual paraphrasing)等等。MASSIVE通过CC BY 4.0授权开源,以鼓励学界及业界使用。
Amazon同时还宣布MMNLU-22竞赛(Massively Multilingual NLU 2022),鼓励开发人员利用MASSIVE资料集创建模型。