国内科学家团队发布超大规模AI预训练模型-人工智能动态-人工智能实验室AiLab-中国人工智能网-Powered by AiLab.cn

国内科学家团队发布超大规模AI预训练模型

来源：互联网发布日期：2021-03-22 08:20:08 浏览：13834次

导读：北京智源人工智能研究院发布四个超大规模人工智能预训练模型，统称为悟道1.0，涵盖中文语言、多模态、认知、蛋白质预测四个领域，是帮助国内企业、机构开发人工智能应用的大型基础设施。悟道1.0由智源研究院学术副院长、清华大学唐杰教授领衔，带领来自北京...

北京智源人工智能研究院发布四个超大规模人工智能预训练模型，统称为“悟道1.0”，涵盖中文语言、多模态、认知、蛋白质预测四个领域，是帮助国内企业、机构开发人工智能应用的大型基础设施。

国内科学家团队发布超大规模AI预训练模型

“悟道1.0”由智源研究院学术副院长、清华大学唐杰教授领衔，带领来自北京大学、清华大学、中国人民大学、中国科学院等单位的100余位AI科学家团队联合攻关，同时与快手、搜狗、360、阿里、新华社等龙头企业共同研发工业级示范性应用。

智源研究院院长黄铁军教授介绍，近几年这轮人工智能浪潮的基本特点是“数据+算力+算法=模型”，模型浓缩了训练数据的内部规律，是实现人工智能应用的载体。近年来人工智能的发展，已经从“大炼模型”逐步迈向了“炼大模型”的阶段，通过设计先进的算法，整合尽可能多的数据，汇聚大量算力，集约化地训练大模型，供大量企业使用，是必然趋势。

智源研究院2020年10月启动“悟道”项目，研发规模大（主要体现为参数量）、智商高、具备类人认知能力、统一对多模态数据的理解和建模、满足各种应用需要的预训练模型，特别是注重中文语料的采集和训练。

四大模型：中文、多模态、认知、蛋白质预测

“悟道”模型技术委员会主任、智源研究院学术副院长唐杰教授介绍，“悟道1.0”先期启动了4个大模型的研发。

以中文为核心的预训练语言模型“悟道文源”目前模型参数量达26亿，具有识记、理解、检索、数值计算、多语言等多种能力，并覆盖开放域回答、语法改错、情感分析等20种主流中文自然语言处理任务，技术能力已与GPT-3齐平。

其目标是构建完成全球规模最大的中文预训练语言模型，在文本分类、情感分析、自然语言推断、阅读理解等多个任务上超越人类平均水平，探索具有通用能力的自然语言理解技术，并进行脑启发的语言模型研究。

超大规模多模态预训练模型“悟道文澜”，目前模型参数量达10亿，基于从公开来源收集到的5000万个图文对上进行训练，是首个公开的中文通用图文多模态预训练模型。

其目标是突破基于图、文和视频相结合的多模态数据的预训练理论难题，并最终生成产业级中文图文预训练模型和应用，并在多个评测应用上超过国际最高性能。

该模型已对外开放API，并有两款小应用，可以为用户上传的照片配文，或搭配最合拍的音乐。

面向认知的超大规模新型预训练模型“悟道文汇”，目前参数规模达113亿，在AI作诗、AI作图、AI制作视频、图文生成、图文检索、复杂推理等多项任务中的表现已经接近突破图灵测试，可以应用在电商行业自动撰写商品文案等场景。

其目标是研发出千亿至万亿级参数量的、更通用、且性能超越国际水平的预训练模型，搭建预训练模型体系，从认知角度研究通用人工智能，发展模型基于逻辑、意识和推理的认知能力。

超大规模蛋白质序列预测预训练模型“悟道文溯”，已在蛋白质方面完成基于100GB UniParc数据库训练的BERT模型，在基因方面完成基于5-10万规模的人外周血免疫细胞（细胞类型25-30种）和1万耐药菌的数据训练，同时搭建训练软件框架并验证其可扩展性。

其目标是以基因领域认知图谱为指导，研发出十亿参数规模、可以处理超长蛋白质序列的超大规模预训练模型，在基本性能、可解释性和鲁棒性等多个方面达到世界领先水平。

WuDaoCorpora：全球最大中文语料数据库

在科研方面，“悟道1.0”取得了多项国际领先的AI技术突破，与现有同类算法及模型相比提升了训练速度，提高了识别准确度和效率。不过更值得一提的是该项目建设并开放了全球最大中文语料数据库WuDaoCorpora。

WuDaoCorpora数据规模达2TB，超出之前全球最大的中文语料库CLUECorpus2020十倍以上，同时着重去除了数据中包含的隐私信息，防止了隐私泄露。

WuDaoCorpora的数据来源丰富，包括新闻咨询、评论、百科、论坛、博客、学术论文等，使得该数据集能够适用于不同种类的自然语言处理任务，训练出的模型泛化性更强。

此外，WuDaoCorpora数据标签的完备性较高，语料中包含医疗、法律、金融等领域标签，可以依据需求抽取某个特定领域的数据，用于训练该领域的模型，也可以用于对大模型进行微调，构建某一特定领域的应用。

该数据集不仅为“悟道”项目提供了数据支撑，还可被用于中文自然语言处理领域的多种任务模型训练，包括文本生成模型、词嵌入模型、问答对话模型等，对于国际自然语言处理领域的发展将有着积极的促进作用。

【来源：cnBeta.COM】

相关热词： 国内科学家团队发布超大规模训练模型北京智源

国内科学家团队发布超大规模AI预训练模型
来源：互联网发布日期：2021-03-22 08:20:08 浏览：13834次

相关内容

AiLab云推荐

最新资讯

本月热点

热门排行

推荐内容

在线客服

热门栏目HotCates

关于我们

版权声明

国内科学家团队发布超大规模AI预训练模型 来源：互联网 发布日期：2021-03-22 08:20:08 浏览：13834次