统一预训练语言模型是微软公司2019年发布的研究成果。近年来,自然语义处理领域有了新的基本思想,将以往训练大且深的神经网络模型分解。这样做的好处是,通过预训练从大规模文本数据里面学到的语言知识迁移到下游的自然语言处理和生成任务模型的学习。
对自然语言理解来说,机器阅读是一个经典并且具有挑战的问题,在实际生活中也有非常多的应用场景。在这一领域,大规模数据集起到了推动作用,影响最大的是斯坦福大学发布的SuQAD和CoQA。微软在这两个数据集的国际评测上取得了较好的成绩。这些成绩意味着计算机文本能力首次超越人类,也预示着该领域研究将会有更大的突破,相关的人工智能应用普及可以期待。
微软全球执行副总裁沈向洋表示,这些技术突破让计算机可以像人类一样以自然的方式交流,机器阅读理解文本意思,针对复杂的问题组织详细的答案,通过对话人工智能,计算机可以处理多轮对话,这个技术突破将给我们带来机会,比如智能助理、智能搜索。
对统一自然语言预训练模型和机器阅读理解研发出的相关技术,已广泛应用于微软自身的产品,包括搜索引擎必应的问题回答、微软广告筛选和排序系统,以及微软Word中的语法错误修正等。这项技术成果也已经实现在GitHub上开源,微软将和合作伙伴共同推动自然语言理解和生成的进步。新京报记者 梁辰
微软的统一预训练语言模型有两个技术创新,一是提出了统一的预训练框架,使得同一个模型可以同时支持自然语言理解和自然语言生成的任务,而以往大部分都是针对理解一个环节;二是提出了部分自回归预训练范式,可以更好更快地做语言模型预训练。
本版摄影/新京报记者 王贵彬