展会信息港展会大全

ChineseGLUE:为中文NLP模型定制的自然语言理解基准
来源:互联网   发布日期:2019-10-23 15:21:23   浏览:32805次  

导读:机器之心整理参与:张倩、郑丽慧GLUE 是一个用于评估通用 NLP 模型的基准,其排行榜可以在一定程度上反映 NLP 模型性能的高低。然而,现有的 GLUE 基准针对的是英文任务,无法评价 NLP ……...

机器之心整理

参与:张倩、郑丽慧

GLUE 是一个用于评估通用 NLP 模型的基准,其排行榜可以在一定程度上反映 NLP 模型性能的高低。然而,现有的 GLUE 基准针对的是英文任务,无法评价 NLP 模型处理中文的能力。为了填补这一空白,国内关注 NLP 的热心人士发布了一个中文语言理解测评基准ChineseGLUE。ChineseGLUE 目前拥有八个数据集的整体测评及其基线模型,目前已经有 20多位来自各个顶尖机构的自愿者加入并成为了创始会员。

ChineseGLUE 的成员包括全国各地关注 NLP 的热心专业人士,包括清华、北大、浙大等知名高校的毕业生。团队的愿景是通过完善中文语言理解基础设施,促进中文语言模型的发展,能够作为通用语言模型测评的补充,以更好地服务中文语言理解、任务和产业界。

项目地址:https://github.com/chineseGLUE/chineseGLUE

GLUE 是什么?有什么用?

为了使自然语言理解技术(NLU)发挥最大作用,NLU 模型必须能够处理多种任务或数据集。为此,来自纽约大学、华盛顿大学、DeepMind 等机构的研究者创建了一个多任务自然语言理解基准和分析平台GLUE(General Language Understanding Evaluation),用于评估 NLP 模型在现有的多个自然语言理解任务中的性能。

ChineseGLUE:为中文NLP模型定制的自然语言理解基准

GLUE 是九种(英语)语言理解任务的集合,包括文本蕴涵、情感分析和语法判断等。其设计目的是覆盖足够大的 NLP 领域。只有开发出足够通用的工具,才能在这一基准上表现良好。GLUE 的最终目标是推动通用的、鲁棒的自然语言理解系统的研究。

今年 4 月份,由于 BERT 等模型的出现,GLUE 基准在新模型的评估方面日渐乏力,研究者决定将其升级为 SuperGLUE。SuperGLUE 保留了两项 GLUE 任务,另外又加入了其它五项新任务,提高了这一测试基准的难度。

ChineseGLUE:为中文NLP模型定制的自然语言理解基准

虽然这一基准测试已经升级,但不变的一点是,它只支持英文任务。因此,我们亟需一个中文版的 GLUE 基准。

为什么需要 ChineseGLUE?

对于 ChineseGLUE 的创建初衷,项目作者给出了三点理由:

中文是一个大语种,有其自身特定及大量的应用。产业界的 NLP 模型需要解决大量中文任务,而中文是象形文字,有文字图形;字与字之间没有分隔符,不同的分词 (分字或词) 会影响下游任务。

相对于英文数据集来说,中文数据集大多是非公开或者缺失基准测评的,大多数论文所描述的模型都是在英文数据集上做的测试和评估,在中文领域的效果却不得而知。

预训练模型的相继产生极大地促进了对自然语言的理解,但不少最先进的模型却没有中文版本,导致技术应用上的滞后。

所以,如果有一个中文任务的基准测试,包含一批大众能广泛使用和测评的数据集、适用中文任务的特点、能紧跟当前世界技术的发展,就能够更好地缓解当前中文任务的一些问题,并促进相关应用的发展。

ChineseGLUE 都有什么?

ChineseGLUE 是一个中文语言理解测评基准,思路源于 GLUE,包括:

1)中文任务的基准测试,覆盖多个不同程度的语言任务

一个包含若干句子或句子对语言理解任务的基准。当前,这些任务中使用的数据集是公开的,2019 年底前将收录具备私有测试集的数据集。

2)公开的排行榜

一个用于性能跟踪的公开排行榜。你可以提交跟这些任务相关的预测文件,每个任务都会被评估打分,最后会有一个总分。

排行榜会定期更新,并迅速扩大可公开使用和测评的数据集数量(cmrc2018 仅开发集结果)

ChineseGLUE:为中文NLP模型定制的自然语言理解基准

TNEWS:文本分类;LCQMC:语义相似度;XNLI:自然语言推理;INEWS:情感分析;DRCD & CMRC2018:阅读理解;cmrc2018 仅开发集结果。

3)基线模型,包含开始的代码、预训练模型

ChineseGLUE 任务的基线。基线应该是在 TensorFlow,PyTorch,Keras 和 PaddlePaddle 中可使用的。

4)语料库,用于语言建模、预训练或生成型任务

用于预训练或语言建模研究的巨型原始语料库,大约 10G(2019 年)。

2020 年上半年,至少具备 30G 的原始语料库;到 2020 年底将包含充足的原始语料库(例如 100G),它足够大,以至于你不再需要那种用于通用语言建模的原始语料库。

你可以将其用于常规用途或特定领域,甚至用于文本生成。当用于特定领域时,你可以选择自己感兴趣的语料库。

数据集

ChineseGLUE 的目标是包含 8 个覆盖不同任务的有代表性的数据集,包括:

1. LCQMC 口语化描述的语义相似度任务

输入是两个句子,输出是 0 或 1。其中 0 代表语义不相似,1 代表语义相似。

2. XNLI 语言推断任务

跨语言理解的数据集,给定一个前提和假设,判断这个假设与前提是否具有蕴涵、对立、中性关系。

3.TNEWS 今日头条中文新闻(短文本)分类

4.INEWS 互联网情感分析任务

5.DRCD 繁体阅读理解任务

台达阅读理解资料集 Delta Reading Comprehension Dataset (DRCD)属于通用领域繁体中文机器阅读理解资料集,本资料集期望成为适用于迁移学习之标准中文阅读理解资料集。

数据格式和 squad 相同,如果使用简体中文模型进行评测的时候可以将其繁转简 (本项目已提供)

6.CMRC2018 简体中文阅读理解任务

https://hfl-rc.github.io/cmrc2018/

数据格式和 squad 相同

7. CCKS2018 Task3 智能客服问句匹配

该数据集是自动问答系统语料,共有 100,000 对句子对,并标注了句子对相似度值,取值为 0 或 1(0 表示不相似,1 表示相似),并按 70:20:10 比例分割成训练集、开发集和测试集。数据中存在错别字、语法不规范等问题,但更加贴近工业场景。

8. MSRANER 命名实体识别

该数据集共有 5 万多条中文命名实体识别标注数据(包括人名、地名、组织名),分别用 nr、ns、nt 表示,其他实体用 o 表示。

9. 还在添加中

读者如果有定义良好的数据集,可以和创建团队联系。

数据集下载地址:https://storage.googleapis.com/chineseglue/chineseGLUEdatasets.v0.0.1.zip

或使用命令:

排行榜及各任务对比

TNEWS 短文本分类:

ChineseGLUE:为中文NLP模型定制的自然语言理解基准

XNLI 自然语言推理:

ChineseGLUE:为中文NLP模型定制的自然语言理解基准

注:ALBERT-xlarge,在 XNLI 任务上训练暂时还存在有问题。

LCQMC 口语化描述的语义相似度匹配:

ChineseGLUE:为中文NLP模型定制的自然语言理解基准

INEWS 互联网情感分析:

ChineseGLUE:为中文NLP模型定制的自然语言理解基准

DRCD 繁体阅读理解:

ChineseGLUE:为中文NLP模型定制的自然语言理解基准

CMRC2018 阅读理解 (暂时只有开发集结果):

ChineseGLUE:为中文NLP模型定制的自然语言理解基准

CCKS2018 Task3 智能客服问句匹配:

ChineseGLUE:为中文NLP模型定制的自然语言理解基准

基线模型代码

1、数据集整体下载,解压到 glue 文件夹里

cd glue

wget

https://storage.googleapis.com/chineseglue/chineseGLUEdatasets.v0.0.1.zip

lcqmc 数据集,请从以下链接申请或搜索网络 :http://icrc.hitsz.edu.cn/info/1037/1146.htm

2、训练模型

a. 将预训练模型下载解压到对应的模型中 prev_trained_model 文件夹里。以 bert 和 albert 为例子:

b. 修改 run_classifier.sh 指定模型路径

c. 运行各个模型文件夹下的 run_classifier.sh 即可

sh run_classifier.sh

3、详见:基准模型-模型训练

https://github.com/chineseGLUE/chineseGLUE/tree/master/baselines

语料库:语言建模、预训练或生成型任务

可用于语言建模、预训练或生成型任务等,数据量超过 10G,主要部分来自于 nlp_chinese_corpus 项目。

当前语料库按照【预训练格式】处理,内含有多个文件夹;每个文件夹有许多不超过 4M 大小的小文件,文件格式符合预训练格式:每句话一行,文档间空行隔开。

包含如下子语料库(总共 14G 语料):

新闻语料: 8G 语料,分成两个上下两部分,总共有 2000 个小文件。

社区互动语料:3G 语料,包含 3G 文本,总共有 900 多个小文件。

维基百科:1.1G 左右文本,包含 300 左右小文件。

评论数据:2.3G 左右文本,含有 811 个小文件,合并 ChineseNLPCorpus 的多个评论数据,清洗、格式转换、拆分成小文件。

可以通过上面这两个项目,清洗数据并做格式转换获得语料;也可以通过邮件申请获得单个项目的语料。

本文为机器之心整理,转载请联系本公众号获得授权。

------------------------------------------------


赞助本站

相关热词: nlp 语料库

AiLab云推荐
推荐内容
展开

热门栏目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港