日前,中文通用大模型综合性评测基准SuperCLUE正式发布。据官网介绍,该基准测试主要关注在当前通用大模型大力发展的情况下,中文大模型的效果情况。
在测试过程中,SuperCLUE针对每一个题目构造了统一的prompt供模型和人类使用;系统使用模型进行预测,要求模型选取ABCD中的某一个选项;如果模型的回答不是标准的答案,而是一段文字,系统会采取特定的策略自动提取出模型的答案。
关于中文特性能力的问题
SuperCLUE将从基础能力、专业能力、中文特性能力三个维度来评价模型的能力。
其中基础能力包括了常见的有代表性的模型能力,如语义理解、对话、逻辑推理、角色扮演、代码、生成与创作等10项能力;专业能力包括了中学、大学与专业考试,涵盖了从数学、物理、地理到社会科学等50多项能力;中文特性能力包括了中文成语、诗歌、文学、字形等10项能力。
SuperCLUE的测试对象包括了GPT-4、GPT-3.5-turbo以及文心一言、星火认知大模型等国内外大模型。根据测试排名,科大讯飞开发的星火认知大模型以53.58的成绩位居第三、在国内的大模型中排名第一。
SuperCLUE的分析显示,当前模型在基础能力方面普遍表现不错,但中文特性能力、专业能力还比较差。说明当前国内大模型已经有不错的基础,但在专业领域、中文任务上表现一般,说明国内大模型在专业领域或中文任务上还需要继续努力,或者说进行针对性的训练。
测试结果
不过值得一提的是,包括京东的言犀产业大模型、阿里的通义千问、商汤的日日新均未参与测试。SuperCLUE也表示,此次测试样本仅9个模型,但还存在着更多的可用中文大模型,需要后续进一步添加并测试;有的模型由于没有广泛对外提供服务,没能获取到可用的测试版本,后续会进行更新。同时该测试在一些主观、开放性问题的模型能力的考察上可能存在不足。