ChineseGLUE：为中文NLP模型定制的自然语言理解基准-自然语言处理-人工智能实验室AiLab-中国人工智能网-Powered by AiLab.cn

ChineseGLUE：为中文NLP模型定制的自然语言理解基准

来源：互联网发布日期：2019-10-23 15:21:23 浏览：32865次

导读：机器之心整理参与：张倩、郑丽慧GLUE 是一个用于评估通用 NLP 模型的基准，其排行榜可以在一定程度上反映 NLP 模型性能的高低。然而，现有的 GLUE 基准针对的是英文任务，无法评价 NLP ……...

机器之心整理

参与：张倩、郑丽慧

GLUE 是一个用于评估通用 NLP 模型的基准，其排行榜可以在一定程度上反映 NLP 模型性能的高低。然而，现有的 GLUE 基准针对的是英文任务，无法评价 NLP 模型处理中文的能力。为了填补这一空白，国内关注 NLP 的热心人士发布了一个中文语言理解测评基准ChineseGLUE。ChineseGLUE 目前拥有八个数据集的整体测评及其基线模型，目前已经有 20多位来自各个顶尖机构的自愿者加入并成为了创始会员。

ChineseGLUE 的成员包括全国各地关注 NLP 的热心专业人士，包括清华、北大、浙大等知名高校的毕业生。团队的愿景是通过完善中文语言理解基础设施，促进中文语言模型的发展，能够作为通用语言模型测评的补充，以更好地服务中文语言理解、任务和产业界。

项目地址：https://github.com/chineseGLUE/chineseGLUE

GLUE 是什么？有什么用？

为了使自然语言理解技术（NLU）发挥最大作用，NLU 模型必须能够处理多种任务或数据集。为此，来自纽约大学、华盛顿大学、DeepMind 等机构的研究者创建了一个多任务自然语言理解基准和分析平台GLUE（General Language Understanding Evaluation），用于评估 NLP 模型在现有的多个自然语言理解任务中的性能。

ChineseGLUE：为中文NLP模型定制的自然语言理解基准

GLUE 是九种（英语）语言理解任务的集合，包括文本蕴涵、情感分析和语法判断等。其设计目的是覆盖足够大的 NLP 领域。只有开发出足够通用的工具，才能在这一基准上表现良好。GLUE 的最终目标是推动通用的、鲁棒的自然语言理解系统的研究。

今年 4 月份，由于 BERT 等模型的出现，GLUE 基准在新模型的评估方面日渐乏力，研究者决定将其升级为 SuperGLUE。SuperGLUE 保留了两项 GLUE 任务，另外又加入了其它五项新任务，提高了这一测试基准的难度。

ChineseGLUE：为中文NLP模型定制的自然语言理解基准

虽然这一基准测试已经升级，但不变的一点是，它只支持英文任务。因此，我们亟需一个中文版的 GLUE 基准。

为什么需要 ChineseGLUE？

对于 ChineseGLUE 的创建初衷，项目作者给出了三点理由：

中文是一个大语种，有其自身特定及大量的应用。产业界的 NLP 模型需要解决大量中文任务，而中文是象形文字，有文字图形；字与字之间没有分隔符，不同的分词 (分字或词) 会影响下游任务。

相对于英文数据集来说，中文数据集大多是非公开或者缺失基准测评的，大多数论文所描述的模型都是在英文数据集上做的测试和评估，在中文领域的效果却不得而知。

预训练模型的相继产生极大地促进了对自然语言的理解，但不少最先进的模型却没有中文版本，导致技术应用上的滞后。

所以，如果有一个中文任务的基准测试，包含一批大众能广泛使用和测评的数据集、适用中文任务的特点、能紧跟当前世界技术的发展，就能够更好地缓解当前中文任务的一些问题，并促进相关应用的发展。

ChineseGLUE 都有什么？

ChineseGLUE 是一个中文语言理解测评基准，思路源于 GLUE，包括：

1）中文任务的基准测试，覆盖多个不同程度的语言任务

一个包含若干句子或句子对语言理解任务的基准。当前，这些任务中使用的数据集是公开的，2019 年底前将收录具备私有测试集的数据集。

2）公开的排行榜

一个用于性能跟踪的公开排行榜。你可以提交跟这些任务相关的预测文件，每个任务都会被评估打分，最后会有一个总分。

排行榜会定期更新，并迅速扩大可公开使用和测评的数据集数量（cmrc2018 仅开发集结果）

ChineseGLUE：为中文NLP模型定制的自然语言理解基准

TNEWS：文本分类；LCQMC：语义相似度；XNLI：自然语言推理；INEWS：情感分析；DRCD & CMRC2018：阅读理解；cmrc2018 仅开发集结果。

3）基线模型，包含开始的代码、预训练模型

ChineseGLUE 任务的基线。基线应该是在 TensorFlow，PyTorch，Keras 和 PaddlePaddle 中可使用的。

4）语料库，用于语言建模、预训练或生成型任务

用于预训练或语言建模研究的巨型原始语料库，大约 10G（2019 年）。

2020 年上半年，至少具备 30G 的原始语料库；到 2020 年底将包含充足的原始语料库（例如 100G），它足够大，以至于你不再需要那种用于通用语言建模的原始语料库。

你可以将其用于常规用途或特定领域，甚至用于文本生成。当用于特定领域时，你可以选择自己感兴趣的语料库。

数据集

ChineseGLUE 的目标是包含 8 个覆盖不同任务的有代表性的数据集，包括：

1. LCQMC 口语化描述的语义相似度任务

输入是两个句子，输出是 0 或 1。其中 0 代表语义不相似，1 代表语义相似。

2. XNLI 语言推断任务

跨语言理解的数据集，给定一个前提和假设，判断这个假设与前提是否具有蕴涵、对立、中性关系。

3.TNEWS 今日头条中文新闻（短文本）分类

4.INEWS 互联网情感分析任务

5.DRCD 繁体阅读理解任务

台达阅读理解资料集 Delta Reading Comprehension Dataset (DRCD）属于通用领域繁体中文机器阅读理解资料集，本资料集期望成为适用于迁移学习之标准中文阅读理解资料集。

数据格式和 squad 相同，如果使用简体中文模型进行评测的时候可以将其繁转简 (本项目已提供)

6.CMRC2018 简体中文阅读理解任务

https://hfl-rc.github.io/cmrc2018/

数据格式和 squad 相同

7. CCKS2018 Task3 智能客服问句匹配

该数据集是自动问答系统语料，共有 100,000 对句子对，并标注了句子对相似度值，取值为 0 或 1（0 表示不相似，1 表示相似），并按 70:20:10 比例分割成训练集、开发集和测试集。数据中存在错别字、语法不规范等问题，但更加贴近工业场景。

8. MSRANER 命名实体识别

该数据集共有 5 万多条中文命名实体识别标注数据（包括人名、地名、组织名），分别用 nr、ns、nt 表示，其他实体用 o 表示。

9. 还在添加中

读者如果有定义良好的数据集，可以和创建团队联系。

数据集下载地址：https://storage.googleapis.com/chineseglue/chineseGLUEdatasets.v0.0.1.zip

或使用命令：

排行榜及各任务对比

TNEWS 短文本分类：

ChineseGLUE：为中文NLP模型定制的自然语言理解基准

XNLI 自然语言推理：

ChineseGLUE：为中文NLP模型定制的自然语言理解基准

注：ALBERT-xlarge，在 XNLI 任务上训练暂时还存在有问题。

LCQMC 口语化描述的语义相似度匹配：

ChineseGLUE：为中文NLP模型定制的自然语言理解基准

INEWS 互联网情感分析：

ChineseGLUE：为中文NLP模型定制的自然语言理解基准

DRCD 繁体阅读理解：

ChineseGLUE：为中文NLP模型定制的自然语言理解基准

CMRC2018 阅读理解 (暂时只有开发集结果)：

ChineseGLUE：为中文NLP模型定制的自然语言理解基准

CCKS2018 Task3 智能客服问句匹配：

ChineseGLUE：为中文NLP模型定制的自然语言理解基准

基线模型代码

1、数据集整体下载，解压到 glue 文件夹里

cd glue

wget

https://storage.googleapis.com/chineseglue/chineseGLUEdatasets.v0.0.1.zip

lcqmc 数据集，请从以下链接申请或搜索网络：http://icrc.hitsz.edu.cn/info/1037/1146.htm

2、训练模型

a. 将预训练模型下载解压到对应的模型中 prev_trained_model 文件夹里。以 bert 和 albert 为例子：

b. 修改 run_classifier.sh 指定模型路径

c. 运行各个模型文件夹下的 run_classifier.sh 即可

sh run_classifier.sh

3、详见：基准模型-模型训练

https://github.com/chineseGLUE/chineseGLUE/tree/master/baselines

语料库：语言建模、预训练或生成型任务

可用于语言建模、预训练或生成型任务等，数据量超过 10G，主要部分来自于 nlp_chinese_corpus 项目。

当前语料库按照【预训练格式】处理，内含有多个文件夹；每个文件夹有许多不超过 4M 大小的小文件，文件格式符合预训练格式：每句话一行，文档间空行隔开。

包含如下子语料库（总共 14G 语料）：

新闻语料: 8G 语料，分成两个上下两部分，总共有 2000 个小文件。

社区互动语料：3G 语料，包含 3G 文本，总共有 900 多个小文件。

维基百科：1.1G 左右文本，包含 300 左右小文件。

评论数据：2.3G 左右文本，含有 811 个小文件，合并 ChineseNLPCorpus 的多个评论数据，清洗、格式转换、拆分成小文件。

可以通过上面这两个项目，清洗数据并做格式转换获得语料；也可以通过邮件申请获得单个项目的语料。

本文为机器之心整理，转载请联系本公众号获得授权。

------------------------------------------------

相关热词： nlp 语料库

ChineseGLUE：为中文NLP模型定制的自然语言理解基准
来源：互联网发布日期：2019-10-23 15:21:23 浏览：32865次

相关内容

AiLab云推荐

最新资讯

本月热点

热门排行

推荐内容

在线客服

热门栏目HotCates

关于我们

版权声明

ChineseGLUE：为中文NLP模型定制的自然语言理解基准 来源：互联网 发布日期：2019-10-23 15:21:23 浏览：32865次

相关内容

AiLab云推荐

最新资讯

本月热点

热门排行

推荐内容

在线客服

热门栏目HotCates

关于我们

版权声明

ChineseGLUE：为中文NLP模型定制的自然语言理解基准
来源：互联网发布日期：2019-10-23 15:21:23 浏览：32865次