展会信息港展会大全

谁说CPU跑不好AI,看阿里云和英特尔如何另辟蹊径
来源:互联网   发布日期:2024-01-16 09:20:40   浏览:6723次  

导读:火了一年的大模型,正在衍生出更多细分的技术与应用,例如对大模型进行行业定制,以及开发面向特定场景的小模型等需求,因此,大模型在 2024 年将继续深刻渗透和重构企业的各个业务环节,为企业智能化升级提供强劲动能。 与此同时,承载训练及推理这些庞大模...

火了一年的大模型,正在衍生出更多细分的技术与应用,例如对大模型进行行业定制,以及开发面向特定场景的“小模型”等需求,因此,大模型在 2024 年将继续深刻渗透和重构企业的各个业务环节,为企业智能化升级提供强劲动能。

与此同时,承载训练及推理这些庞大模型的算力基础设施,也将成为 2024 年企业必然需要面对的挑战。大模型海量参数、复杂计算将对算力需求提出更高要求,算力成本也随之水涨船高。在大模型带来智能化红利的同时,如何在GPU算力紧张的情况获得充足AI算力,将是企业在新一年中的重中之重。

AI 算力需求再次爆发

阿里云 ECS g8i 以 CPU 算力 hold 住大模型

因 AI 受到追捧抢购、甚至需要囤货的 GPU,一直是 AI 行业里解决算力问题的关键因素。不过芯片巨头英特尔另辟蹊径,创新性地在 CPU 平台上应用了用于矩阵运算的单元,满足大数据、人工智能等数据密集型的业务算力要求。从去年英特尔 高级矩阵扩展(以下简称 AMX)就已经运行在了阿里达摩院和阿里手机淘宝的 AI 应用中。

近期,阿里云推出国内首款搭载第五代英特尔至强可扩展处理器(代号 EMR)的云计算产品第八代企业级通用计算实例 ECS g8i,其中的性能硬核实力包括有:产品的整机性能最高提升 85%,AI 推理性能最高提升 7 倍,可支撑高达 72B 参数的大语言模型。从阿里系内部运行到阿里云正式推出云计算产品,让业界进一步看到,以 CPU 为中心的计算体系同样具备加速 AI 推理的巨大潜力。

同时,本次发布的新实例产品还提供了端到端安全防护,为企业构建可信 AI 应用提供隐私增强算力支撑。该产品的发布证明了公共云不仅可胜任超大规模的 AI 模型,也为 AI 应用加速落地开辟了新途径。这对于人工智能的发展和应用具有重要意义,更会推动 AI 技术的进一步普及和应用。

通用算力性能升级背后

芯片、虚拟机、操作系统全栈优化

作为企业级通用计算实例,ECS g8i实例在计算、存储、网络和安全等能力得到了全方位提升。具体来说:

计算能力:ECS g8i 实例的 L3 缓存容量提升 3 倍,达到 320MB,内存速率高达 5600MT/s。整机性能提升 85%,单核性能提升 25%。这些提升意味着更高的计算效率和速度,对于 AI 应用尤其重要。

存储能力:ESSD 云盘提供 100 万 IOPS,全面搭载 NVMe,存储延迟低至百微秒。这意味着数据读写速度非常快,对于需要处理大量数据的应用来说非常有利。

网络能力:PPS 高达 3000 万,标配阿里云自研 eRDMA 大规模加速能力,时延低至 8 微秒。这意味着数据传输速度非常快,这对于远程数据传输、云计算和分布式计算都非常重要。

安全能力:g8i 支持可信计算与加密计算等特性,全球首发支持虚拟机层的机密技术英特尔 可信域拓展( TDX),构建了全面的安全防护。这表明 ECS g8i 不仅有强大的数据加密功能,还能保护云上数据的安全,这是现代数据中心和云计算的重要要求。

谁说CPU跑不好AI,看阿里云和英特尔如何另辟蹊径

值得一提的是,阿里云还将第五代英特尔至强可扩展处理器的各类加速器能力融入到自研的虚拟化技术并实现性能零损耗,用户以最小规格2vCPU即可启用加速器能力。同时,阿里云自研Alibaba Cloud Linux3操作系统是业界首家全量优化适配英特尔加速器,真正实现从芯片、虚拟化再到操作系统的整体优化,进一步降低加速器技术门槛,让用户真正享受技术普惠。

CPU 为 AI 算力提速

ECS g8i满足从小模型到超大规模各类需求

生成式 AI 掀起的技术革命,正在推动计算的范式发生根本性的变化。本次阿里云 ECS g8i 最硬核的技术实力,就是以 CPU 为核心的计算体系去满足 AI 对算力的需求。当前,AI大模型推理在算力上依然面临诸多挑战,例如首包延迟受限于并行处理能力与浮点运算能力,吞吐性能则受限于内存带宽和网络延迟。

ECS g8i 通过优化其内置指令集,利用 Intel AMX 高级矩阵扩展加速技术,提升了生成式 AI 的运算速度,从而减少了首包延迟。使用AMX加速,当进行 int 8 矩阵计算时,性能提升更是达到了 7 倍。这些优化措施不仅提高了 AI 应用的运行速度,还为生成式 AI 的广泛应用打下了坚实的基矗

谁说CPU跑不好AI,看阿里云和英特尔如何另辟蹊径

ECS g8i 在响应中小规模参数模型(如 6B、13B 数量级)方面具有更迅速的能力, 在运行知识检索、问答系统及摘要生成等 AI 工作负载时,起建成本相对传统GPU方案大幅降低。同时,通过配合阿里云平台的 Spot 抢占式实例,成本优势将进一步凸显,进一步降低 AI 推理成本。这种成本优势和效率提升对于许多应用场景来说都是非常重要的。

对于超大规模参数模型来讲,ECS g8i 实例集群通过利用阿里云自研的 eRDMA 超低延时弹性网络,能够支撑 72B 参数级别的大语言模型分布式推理。这种低延迟和高弹性使得 ECS g8i 实例集群在处理大规模 AI 模型时,随着集群规模的扩大,AI推理性能相对VPC网络接近线性提升。

据介绍,当前 ECS g8i 实例集群可支持超过 32 batch size 的 AI 模型负载,运行各种 AI场景 工作负载,如AI 生成代码、虚拟助手以及创意辅助工具等。

谁说CPU跑不好AI,看阿里云和英特尔如何另辟蹊径

以阿里云开源的 Qwen-72B 大模型为例,ECS g8i 实例 eRDMA 网络构建的集群能够实现高效运行。这种高效运行表现为在输入在500字以内,首包延时可以做到3秒以内,每秒可生成 7 个 Token。这种性能表现证明了 ECS g8i 实例集群在处理超大规模 AI 模型的高潜力。

基于自研 CIPU 构建端到端安全防护

确保模型云上安全

在大模型大规模应用时,确保数据安全也是同等重要的工作之一。针对模型数据安全,阿里云基于自研的云基础设施处理器 CIPU,全产品线构建了端到端的安全防护,确保数据存储、数据传输和数据计算使用的全流程安全。

可信启动:在底层,CIPU 的安全架构搭载了安全芯片 TPM 作为硬件可信根,实现了服务器的可信启动,确保零篡改。这种可信启动机制确保了服务器的安全启动,避免了在启动过程中可能出现的恶意篡改。

虚拟可信:在虚拟化层面,阿里云支持虚拟可信能力 vTPM,提供实例启动过程核心组件的校验能力。这种校验机制可以验证实例启动过程中的核心组件是否被篡改或损坏,进一步增强了实例的安全性。

机密计算:在实例可信的基础上,阿里云还支持不同平台的机密计算能力。这种机密计算能力可以在运行态时实现内存数据的隔离和加密保护。通过内存数据的隔离,可以防止不同实例之间的数据泄露;通过内存数据的加密,可以确保即使在数据传输过程中被截获,也无法被轻易解密。

通过以上技术我们能看到,阿里云 ECS g8i 基于飞天云操作系统+云基础设施处理器 CIPU 全新计算架构体系,证明了 CPU 为核心的算力,也可以运行AI工作负载,尤其是在 AI 推理领域实现了显著的技术突破,将助力 2024 年大模型与 AI 应用的加速落地和创新,也必将推进 AI 算力发展,实现 AI 普惠。

赞助本站

人工智能实验室
AiLab云推荐
展开

热门栏目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港