中文通用大模型综合性评测基准发布，各家产品表现如何？-云计算-人工智能实验室AiLab-中国人工智能网-Powered by AiLab.cn

中文通用大模型综合性评测基准发布，各家产品表现如何？

来源：互联网发布日期：2023-05-11 14:35:02 浏览：4282次

导读：日前，中文通用大模型综合性评测基准SuperCLUE正式发布。据官网介绍，该基准测试主要关注在当前通用大模型大力发展的情况下，中文大模型的效果情况。在测试过程中，SuperCLUE针对每一个题目构造了统一的prompt供模型和人类使用；系统使用模型进行预测，要求...

日前，中文通用大模型综合性评测基准SuperCLUE正式发布。据官网介绍，该基准测试主要关注在当前通用大模型大力发展的情况下，中文大模型的效果情况。

在测试过程中，SuperCLUE针对每一个题目构造了统一的prompt供模型和人类使用；系统使用模型进行预测，要求模型选取ABCD中的某一个选项；如果模型的回答不是标准的答案，而是一段文字，系统会采取特定的策略自动提取出模型的答案。

关于中文特性能力的问题

SuperCLUE将从基础能力、专业能力、中文特性能力三个维度来评价模型的能力。

其中基础能力包括了常见的有代表性的模型能力，如语义理解、对话、逻辑推理、角色扮演、代码、生成与创作等10项能力；专业能力包括了中学、大学与专业考试，涵盖了从数学、物理、地理到社会科学等50多项能力；中文特性能力包括了中文成语、诗歌、文学、字形等10项能力。

SuperCLUE的测试对象包括了GPT-4、GPT-3.5-turbo以及文心一言、星火认知大模型等国内外大模型。根据测试排名，科大讯飞开发的星火认知大模型以53.58的成绩位居第三、在国内的大模型中排名第一。

SuperCLUE的分析显示，当前模型在基础能力方面普遍表现不错，但中文特性能力、专业能力还比较差。说明当前国内大模型已经有不错的基础，但在专业领域、中文任务上表现一般，说明国内大模型在专业领域或中文任务上还需要继续努力，或者说进行针对性的训练。

测试结果

不过值得一提的是，包括京东的言犀产业大模型、阿里的通义千问、商汤的日日新均未参与测试。SuperCLUE也表示，此次测试样本仅9个模型，但还存在着更多的可用中文大模型，需要后续进一步添加并测试；有的模型由于没有广泛对外提供服务，没能获取到可用的测试版本，后续会进行更新。同时该测试在一些主观、开放性问题的模型能力的考察上可能存在不足。

相关热词： 中文通用大模型综合性评测基准发布各家产品表

中文通用大模型综合性评测基准发布，各家产品表现如何？
来源：互联网发布日期：2023-05-11 14:35:02 浏览：4282次

相关内容

AiLab云推荐

最新资讯

本月热点

热门排行

推荐内容

在线客服

热门栏目HotCates

关于我们

版权声明

中文通用大模型综合性评测基准发布，各家产品表现如何？ 来源：互联网 发布日期：2023-05-11 14:35:02 浏览：4282次