跨越AI大模型的门槛：尤洋教授的理论与实践指南-人工智能动态-人工智能实验室AiLab-中国人工智能网-Powered by AiLab.cn

导读：作者｜苏霍伊编辑｜栗子在GPT-3.5尚未崭露头角之前，新加坡国立大学校长青年教授、潞晨科技创始人兼董事长尤洋就意识到，大模型会成为未来的重要发展方向。早在2018年，他便参与了谷歌BERT模型的训练，并成功将预训练时间从三天缩短至76分钟，时至今日这...

跨越AI大模型的门槛：尤洋教授的理论与实践指南

作者｜苏霍伊

编辑｜栗子

在GPT-3.5尚未崭露头角之前，新加坡国立大学校长青年教授、潞晨科技创始人兼董事长尤洋就意识到，大模型会成为未来的重要发展方向。

早在2018年，他便参与了谷歌BERT模型的训练，并成功将预训练时间从三天缩短至76分钟，时至今日这一优化方法仍被多家企业采用。

2020年时，OpenAI推出了全球最大规模的预训练语言模型GPT-3，这激起了尤洋对大型模型开发的兴趣。到了2023年，人工智能领域迎来了大模型的爆发之年。其热潮迅速席卷全球，AI成为各行业的兵家必争之地。

据IDC（国际数据公司）预测，到2026年，AI软件市场规模将达到76.9亿美元。我们每个人都能明显感受到，人工智能正从感知理解世界走向生成创造世界的阶段，并推动产业智能化加速进入拐点。

作为高性能计算研究者，尤洋也在密切关注着大模型行业的最新动态。

他十分看好中国的AI底色。“得益于国家政策扶持、资本和人才的汇聚，当前国内的AI行业正经历着快速成长期。”尤洋认为，“我们的研究型大学和科研机构在AI基础研究、技术开发和人才培养上扮演着核心角色，这些努力正不断增强中国AI产业在全球的竞争力。”

但“一片向好”的同时，尤洋也意识到，无论是AI初学者还是业内人士，都面临着大模型的“门槛”。

初学者涉足大模型领域需要克服高技术“门槛”，大模型的复杂性和技术的不断更新又增加了理解和掌握这些技术的挑战。

而从业者面前的“门槛”则在于如何巧妙地“驾驭”这一尖端技术。想要在激烈的市场竞争中脱颖而出，就需要从业者找到最大化大模型潜能的策略，以实现降本增效。

为了帮助人们跨越这道“坎”，尤洋萌生了撰写一本关于“大模型实战指南”的构想。他希望能在人们与大模型之间，搭建一座高效连通的“桥梁”。

他对「甲子光年」表示：“我想和更多人分享我在高性能计算和AI大模型领域的知识和经验，希望通过这本《实战AI大模型》，为读者提供我个人的见解和建议，并与更多人探讨相关议题。”

跨越AI大模型的门槛：尤洋教授的理论与实践指南

上线一周《实战AI大模型》就荣登京东图书榜人工智能书籍的第一名，图片来源：受访者提供

1.实战AI大模型：从新手到专家的必备指南

在了解《实战AI大模型》之前，我们有必要先了解一下本书的作者，尤洋教授。

尤洋毕业于美国加州伯克利大学。在研究生期间，他就以第一作者身份获得2015年国际并行与分布式处理大会（IPDPS）的最佳论文。在伯克利期间，尤洋获得了Lotfi A. Zadeh Prize，这是颁发给在软计算及其应用领域做出杰出贡献的伯克利大学博士毕业生的奖项。2017年，他的团队打破了ImageNet训练速度的世界记录，被NSF、ScienceDaily、Science NewsLine和i-programmer等科技媒体广泛报道。

跨越AI大模型的门槛：尤洋教授的理论与实践指南

尤洋在2023甲子引力年终盛典上发表主题演讲，图片来源：「甲子光年」拍摄

真正让尤洋在AI业内享负盛名的是他提出的一系列AI训练方法。

2018年，博士期间尤洋以第一作者发表论文《Imagenet training in minutes》，获国际并行处理大会(ICPP)最佳论文奖，位列313篇论文中的第一名，论文所提出LARS优化器刷新了ImageNet训练速度的世界纪录，将AlexNet模型的训练时间缩短到仅24分钟。

2019年，尤洋再次作为第一作者提出LAMB优化器，成功将BERT的预训练时间，从原本的三天三夜缩短至76 分钟，比Adam优化器快出整整72倍，成为机器学习领域的主流优化器。

此外，尤洋团队还研发了CowClip算法，显著提升了CTR预测模型的训练速度。2021年，他入选福布斯30岁以下精英榜(亚洲)并获得IEEE-CS超算杰出新人奖。

正因在AI大模型领域的多年深耕与建树，让尤洋看到了大模型理论与实践之间的巨大鸿沟。

对于今天的人们来说，经过整整一年的媒体报道，AI大模型的名字已并不陌生，部分领域的从业者也早已开始运用AI大模型进行业务优化。

例如，AI图像生成产品Midjourney、Stable Diffusion和DALL-E等，允许用户通过文字描述生成图像；在音频领域，微软的Speech Studio服务让用户能够创建与自己声音相似的虚拟分身。

不过，这些产品仅仅是让用户可以享受到AI对自身工作带来的便利。但对于更专业的技术人员、或要求更高的企业级用户来说，仅仅在应用层面的认知是远远不够的。

例如，Transformer模型、BERT模型、GPT模型分别是什么，有什么特点？不同模型各自的优势是什么？训练难点在哪里？

尤洋认为，只有掌握了深度学习的基本概念、经典算法和网络架构，才能更好地理解和应用AI大模型。

这就是尤洋写这本《实战AI大模型》的初衷和目标。他希望通过这本书，为读者提供一份详细的指南和参考，提供一个理论与实践相结合的全面视角，让读者能够理解并运用AI大模型。

在尤洋的观点中，每个模型，无论是BERT、GPT或PaLM，都是人工智能技术演进的结晶，背后包含了深厚的理论基础和实践经验。也正因如此，他选择对每种模型进行单独讨论，以确保对每种模型的深度和广度都有充分的覆盖。

对于训练这些模型所需的技术，书中进行了全面的介绍。从高性能计算（HPC）到并行处理，从大规模优化方法到内存优化，每一种技术都是精心挑选并深入研究的，它们是AI大模型训练的基石，也是构建高性能AI系统的关键。

例如：

Transformer模型通过其独特的“注意力机制”在自然语言处理（NLP）领域成为核心，显著提升了机器理解和生成文本的准确性；

BERT模型通过双向训练机制增强了文本处理的准确性和灵活性，广泛应用于语言理解任务；

ALBERT模型作为BERT的优化版，以更高的效率和更小的模型尺寸解决了NLP挑战；

T5模型展示了统一框架处理多种文本任务的能力，对AI系统的通用性有重要意义；

GPT系列以其强大的文本生成能力在NLP任务中取得重大进展；

Google的PaLM模型是大模型领域的里程碑，展示了AI在理解和生成人类语言方面的最新进展。

当然，本书的内容远不止此。除了详细介绍各个模型的原理、训练方法和应用场景外，本书还探讨了分布式系统、并行策略和内存优化等关键技术。

创新工场与零一万物的创始人兼CEO李开复对本书给予了高度评价：“这本书不仅深入浅出地阐释了AI大模型的核心概念，还紧密贴合AI 2.0这一有史以来最重要的技术革命。”

2.Colossal-AI：大模型训练的颠覆性技术

掌握理论知识只是实践的起点。

在AI的应用中，我们需要解决大模型训练的一系列挑战，例如计算资源的管理，训练效率的优化等。

为了实现了理论与实践的完美结合，尤洋特别在书中引入了Colossal-AI系统。

这是一个集成的大规模深度学习系统。它通过数据并行、模型并行和流水线并行等策略，有效分散了计算和存储负担，使得在有限资源下进行大模型训练成为可能。

“GPT-3在什么都没干的情况下，就要消耗3200G内存。”尤洋指出，自2016年以来，人工智能模型的规模经历了指数级的增长。从微软的2千万参数模型到GPT-4的约1万亿到100万亿参数，模型规模每18个月至少增长40倍；而自2019年后，这一增长速率更是达到了约340倍。

然而，GPU内存每18个月仅增长1.7倍，这使得现有硬件设备在训练大型模型时往往难以满足所需的巨大计算资源和存储空间。

换言之，目前硬件跟不上模型的发展速度，是大模型最需要克服的难题。

为了应对挑战，分布式训练技术或许是最优解决方案。通过在多个计算节点上分割并同时执行大型模型的训练任务，可以更有效地利用计算资源，加速训练过程。即使是普通工程师，通过整合公开的免费数据集如C4、GitHub、Books等，也能训练出效果不错的大型模型。此外，选择合适的基准模型，如基于GPT-3的设计思路，同样是训练过程中的关键步骤。

大模型的训练，需要大量的GPU和内存资源。以高中数学为例，即使是训练一个非常小的模型，也需要进行大量的计算操作和内存资源。分布式优化技术、高效的通信机制、数据并行和分布式存储等技术对训练和部署企业级大型模型而言是至关重要的。同时，选择合适的基座模型并结合数据并行和张量并行等方法，对于实现高效训练具有决定性影响。

而Colossal-AI系统作为尤洋教授主创的一个先进的大模型训练工具，解决了在单GPU上训练大型模型时遇到的内存限制问题，这也是在《实战AI大模型》中特别强调的一部分。

跨越AI大模型的门槛：尤洋教授的理论与实践指南

ColossalChat的使用展示，图片来源：受访者提供

例如，Colossal-AI全球首个开源了最接近ChatGPT原始技术方案。它基于LLaMA模型，包含完整RLHF流程的类Chat模型复现方案ColossalChat。仅需不到百亿参数模型的微调，即可达到类似GPT-3.5和ChatGPT的效果。

此外，Colossal-AI基于在大模型民主化的专业技术积累，开源完整Stable Diffusion预训练和个性化微调方案，在预训练时间加速的同时，经济成本降低6.5倍，个性化微调硬件成本降低7倍！更重要的是，它在个人电脑的RTX 2070/3050上即可快速完成微调任务流程，让Stable Diffusion等AIGC模型的触手可及。

“通过Colossal-AI，我在书中提供了详细的实战教程，包括训练BERT、GPT-3、PaLM、ViT和会话系统等模型的步骤，深入讲解了系统的关键技术和优势，帮助用户提升研究和工作效率。最后，通过实战教程，将理论知识转化为实践。”尤洋向「甲子光年」介绍道，“毕竟，动手实践是理解和掌握复杂AI大模型的关键。”

尤洋开发Colossal-AI的初衷源于他的专业领域高性能计算。

他的主要目标是提高大模型训练的效率和降低其成本。Colossal-AI提供了多种训练方法，如混合精度训练、梯度累积，以及数据并行、张量并行和流水线并行等技术。通过这些方法，能够优化模型训练的过程，有效地跨节点扩展模型，这恰恰也是传统训练方法无法实现的。

并且，它的API设计简洁易用，适应者可以快速上手，将更多的时间和精力用于模型的设计和优化，而不是解决底层的技术问题。

Colossal-AI的路线主要分为三部分：

首先，开发用于训练大模型的系统Colossal-AI，适用于GPT、LLaMA等模型，旨在节省时间和成本；

其次，训练特定行业的大模型，参数规模在100亿到200亿之间；

最后，开发PaaS平台，将需要训练大模型的客户整合到平台中，形成正向循环。

目前，尤洋的重点是继续开发和优化Colossal-AI，同时协助企业进行大模型的私有化部署，并计划未来在商业化方面进一步发展。

他始终坚信，AI行业的开放性对技术的发展至关重要。AI技术没有绝对的知识产权，通过开源，技术才能走得更远。

“这种开放性和生态系统的建设，即吸引大量用户使用和提供反馈，是未来AI技术竞争的关键。只有不断地迭代和优化，才能吸引更多的用户，这对于建立一个强大的AI生态系统至关重要。”尤洋解释道。

3.从学术研究到商业应用

从高性能计算的学术研究出发，最终走向了AI技术的商业应用。尤洋的经历让他深刻认识到，AI在处理大规模数据时对高性能计算的依赖。

这也激发了尤洋创立Colossal-AI平台的想法。他希望通过Colossal-AI来提升AI处理计算的效率，帮助AI企业加快产品开发速度，从而节省成本。

这个想法最终促使尤洋走上了创业之路。在成为新加坡国立大学计算机系首位校长青年教授后，尤洋于2021年7月回国创立了潞晨科技。

得益于其在技术创新方面的积累，潞晨科技吸引了多家投资机构的支持。

2021年8月，潞晨科技获得由创新工场和真格基金合投的超千万元种子轮融资；2022年9月，又获得蓝驰创投领投的600万美元天使轮融资。

不久前，尤洋带领团队荣获AAAI 2023杰出论文奖，引起AI界广泛关注。而后潞晨科技便在今年5月宣布完成A轮融资，金额高达数亿元。据公司介绍，这是潞晨科技成立18个月内的第三轮融资，资金将主要用于团队扩张和业务拓展。

同年11月，潞晨科技宣布完成近亿元A+轮融资，本次融资由某世界500强科技巨头领投，同时大湾区基金和新加坡电信投资公司（SingTel Innov8）也参与了投资。

在潞晨科技，尤洋和团队致力于克服大模型训练和应用中的难题。公司推出了包括Colossal-AI在内的一系列服务，这些服务完全开源，涵盖了异构管理系统、并行技术以及系统部署，旨在帮助用户高效地部署AI模型。尤洋表示：“我想将微调成本降至几百元人民币，让大家用最的低成本就能训练GPT模型。”

“我们的愿景是为企业提供流畅的部署和训练体验。”未来，他希望用户可以在服务器、终端，甚至是手机上定义好模型，将其通过Colossal AI部署至云端，支持CPU、GPU、TPU、FPGA等多种硬件平台和TensorFlow、PyTorch、Keras、Theano等多种编程框架。这将更高效地帮助初创公司能够最大化效率、最小化成本，从而部署自己的模型和系统。

根据公司生态图，Colossal-AI的用户增长速度超过了传统软件，吸引了来自全球各地的用户，包括中国、美国、欧洲、印度和东南亚等地区，目前已获得GitHub星数三万五千多颗，细分赛道排名世界第一。Colossal-LLaMA开源模型三周内在Hugging Face下载量突破18万。

大模型的时代，机遇与挑战共存。

通过有效利用分布式训练技术和企业级大模型解决方案，可以加速训练过程，提升训练强度，推动大模型应用达到新水平。尤洋呼吁共同努力，推动大模型技术的进步，为科学、商业和社会带来更广泛的利益。

跨越AI大模型的门槛：尤洋教授的理论与实践指南
来源：互联网发布日期：2023-12-28 18:49:46 浏览：6443次

相关内容

AiLab云推荐

最新资讯

本月热点

热门排行

推荐内容

在线客服

热门栏目HotCates

关于我们

版权声明

跨越AI大模型的门槛：尤洋教授的理论与实践指南 来源：互联网 发布日期：2023-12-28 18:49:46 浏览：6443次

相关内容

AiLab云推荐

最新资讯

本月热点

热门排行

推荐内容

在线客服

热门栏目HotCates

关于我们

版权声明

跨越AI大模型的门槛：尤洋教授的理论与实践指南
来源：互联网发布日期：2023-12-28 18:49:46 浏览：6443次