参考消息网12月7日报道《西班牙人报》网站近日报道称,MarIA是第一个专门利用西班牙语理解和写作的大规模人工智能系统。得益于该系统,西班牙语得以在拥有海量开放访问模型的语言中排在第3位,仅次于英语和中文。
报道称,该系统建立在西班牙国家图书馆的数字文献基础之上,并通过MareNostrum 4超级计算机进行人工智能培训。该图书馆一直致力于追踪和归档所有使用西班牙语的网站。
该系统是开放访问的,以期为应用开发者、企业、研究团体和社会各界提供服务。在推出5个月后,该系统的语言能力变得更加强大。
语言模型是一个人工智能系统,由深度神经网络组成,经过训练能够精确掌握语言、词汇以及表达和写作机制。
这些复杂的统计模型不仅能够“理解”抽象的概念,而且能够理解其背景。有了这些模型,应用程序开发者可以创建具有多种用途的工具,例如对文件进行分类或创建校对或翻译工具等。
第1个版本的MarIA是利用RoBERTa训练模型建立的,RoBERTa是一种创建“编码器”类型语言模型的技术。而最新版本则是用GPT-2创建的,GPT-2是一种更先进的技术,可以创建生成性解码器模型并为系统增加更多功能。
这些新的功能使MarIA成为一种有效的工具。通过适应具体任务的“特殊”训练,该系统可以为应用开发者、公司和公共管理部门带去更多帮助。
例如,迄今为止开发的英语模型都被用来在写作应用中生成文本建议,根据每个用户想了解的内容,总结合同或详细介绍产品特点的复杂文件,以及在大型文本数据库中搜索特定信息,并将其与其他相关信息联系起来。
专家指出,通过MarIA这样的项目,西班牙正在向利用西班牙语思考的人工智能迈出坚定的步伐,这将使西班牙的公司和技术行业获得的经济机会成倍增加。因为该系统远不止是一种交流的手段,更是看待数字化世界的新方式。(编译/刘丽菲)