展会信息港展会大全

2024 Hot Chips|CerebrasAI 推理芯片为大模型提供新思路
来源:互联网   发布日期:2024-09-13 13:30:46   浏览:1354次  

导读:芝能智芯出品在 Hot Chips 2024 大会上,Cerebras 展示了其在 AI 推理领域的最新进展,通过其晶圆规模引擎(Wafer-Scale Engine, WSE-3)芯片超越了现有的 AI 计算架构,例如 NVIDIA 的 H100 GPU。Cerebras 在推理性能、能效和扩展性方面取得的显著突破,通...

芝能智芯出品在 Hot Chips 2024 大会上,Cerebras 展示了其在 AI 推理领域的最新进展,通过其晶圆规模引擎(Wafer-Scale Engine, WSE-3)芯片超越了现有的 AI 计算架构,例如 NVIDIA 的 H100 GPU。Cerebras 在推理性能、能效和扩展性方面取得的显著突破,通过采用大规模的片上内存(SRAM)来规避高带宽内存(HBM)的限制。

Part 1晶圆规模计算芯片

Cerebras 的 WSE-3 是世界上最大的计算芯片,拥有 44GB 的片上 SRAM 和超过 850,000 个计算核心。与传统的 GPU 将一个大晶圆切割成多个小芯片的方式不同,Cerebras 的 WSE-3 保留了整个晶圆,这样做的好处是将所有计算都集中在一个芯片上,减少了数据移动的需求和延迟。通过这种方法,Cerebras 可以将整个 AI 模型放入片上内存中,而不需要将部分模型转移到芯片外的 HBM 存储器中。

在推理性能方面,Cerebras 表示其解决方案显著超越了基于 NVIDIA H100 的系统。在 Llama3.1-8B 模型的推理任务中,Cerebras 的 WSE-3 比 Microsoft Azure 上的 NVIDIA H100 快 20 倍。此外,Cerebras 还展示了在单芯片上运行更大模型(如 Llama3.1-70B)的能力,与 NVIDIA DGX H100 解决方案相比,该解决方案展现出了显著的吞吐量和延迟优势。

Part 2高效的数据传输和计算架构

Cerebras 的 WSE-3 通过直接在芯片上处理数据,避免了传统 GPU 系统所需的高延迟高速串行链路、PCB 传输、交换芯片等复杂路径。这样一来,它能够在更低功率下提供更大的内存带宽。例如,当需要在 H100 集群中实现高内存带宽时,必须使用多个并行接口,而在 Cerebras 的设计中,数据传输仅需在芯片上完成,简化了体系结构并提高了效率。

Cerebras 的 WSE-3 提供了灵活的多用户和多模型并行计算能力。通过其大规模的片上内存,多个用户可以在同一芯片上同时运行不同的 AI 推理任务,极大地提高了计算资源的利用效率。同时,由于其巨大的带宽,Cerebras 能够支持更小的批量大小(例如批量大小为 1),而不会遇到传统 GPU 系统在小批量推理中性能下降的情况。

Cerebras 的 WSE-3 展示了 AI 推理领域的巨大潜力。通过横向扩展,Cerebras 可以将计算扩展到多个晶圆上,例如在需要更大规模计算的情况下,可以将模型扩展到四个晶圆上,这种方法可以轻松超越传统 GPU 无法达到的延迟和吞吐量水平。此外,Cerebras 已经在多个数据中心(如圣克拉拉、斯托克顿和达拉斯)部署了其集群,并计划进一步扩展。

小结Cerebras 的晶圆规模计算芯片在 Hot Chips 2024 上干货比较多,通过打破 HBM 的限制、在芯片上直接处理数据、以及显著的性能提升,为大型模型的推理提供了新的思路。

赞助本站

人工智能实验室

相关热词: 2024 Hot Chips CerebrasAI 推理

AiLab云推荐
展开

热门栏目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港