AWS开源支持51种语言的数字助理AI训练资料集、程序代码-人工智能动态-人工智能实验室AiLab-中国人工智能网-Powered by AiLab.cn

AWS开源支持51种语言的数字助理AI训练资料集、程序代码

来源：互联网发布日期：2022-04-24 08:54:12 浏览：27441次

导读：Amazon本周发布名为MASSIVE的资料集，供开发商训练能理解多种语言的数字助理使用的AI模型。到2023年全球将因智能手机的普及而有80多亿个AI虚拟助理，还有超过1亿台智能音箱。然而大部分虚拟助理都仅能使用1种或仅数种主流语言。此外这些数字助理的训练还面...

AWS开源支持51种语言的数字助理AI训练资料集、程序代码

Amazon本周发布名为MASSIVE的资料集，供开发商训练能理解多种语言的数字助理使用的AI模型。

到2023年全球将因智能手机的普及而有80多亿个AI虚拟助理，还有超过1亿台智能音箱。然而大部分虚拟助理都仅能使用1种或仅数种主流语言。此外这些数字助理的训练还面临标注资料不足、去除资料讹误、维护和更新模型的成本等问题，进一步限制了数字助理的口语翻译的能力。

大量多语自然语言理解（massively multilingual natural-language understanding，MMNLU）模型即希望解决这个问题。Amazon Alexa AI自然语言理解部门科学家Jack FitzGerald指出，这愿景下，单一机器学习模型能分析和理解多种语言。通过学习跨语言的共享资料展现（data representation），这个模型可以从有很丰富训练资料的主流语言学习到的知识，转移到资料很稀少的语言上。

为推动MMNLU模型创建，Amazon宣布发布MASSIVE资料集。MASSIVE资料集包含跨51种语言加注过的100万项话语或单词（utterance）及开源程序代码。资料集包括训练、验证和测试资料，后者则提供MMNLU模型的执行范例，协助AI项目人员创建意图分类（intent classification）或词槽填充（Slot Filling）的结果基准线（baseline）。

MASSIVE为平行资料集，意味每个单词都有51种语言版本，这可让模型学习到同一意图的共享表达方式，可加速自然语言理解（NLP）任务的跨语言训练，也能用于其他NLP任务，如机器翻译、多语复述（multilingual paraphrasing）等等。MASSIVE通过CC BY 4.0授权开源，以鼓励学界及业界使用。

Amazon同时还宣布MMNLU-22竞赛（Massively Multilingual NLU 2022），鼓励开发人员利用MASSIVE资料集创建模型。

相关热词： AWS 开源支持 51种语言数字助理训练资料集

AWS开源支持51种语言的数字助理AI训练资料集、程序代码
来源：互联网发布日期：2022-04-24 08:54:12 浏览：27441次

相关内容

AiLab云推荐

最新资讯

本月热点

热门排行

推荐内容

在线客服

热门栏目HotCates

关于我们

版权声明

AWS开源支持51种语言的数字助理AI训练资料集、程序代码 来源：互联网 发布日期：2022-04-24 08:54:12 浏览：27441次