2024 Hot Chips｜CerebrasAI 推理芯片为大模型提供新思路-空间技术-人工智能实验室AiLab-中国人工智能网-Powered by AiLab.cn

2024 Hot Chips｜CerebrasAI 推理芯片为大模型提供新思路

来源：互联网发布日期：2024-09-13 13:30:46 浏览：1354次

导读：芝能智芯出品在 Hot Chips 2024 大会上，Cerebras 展示了其在 AI 推理领域的最新进展，通过其晶圆规模引擎（Wafer-Scale Engine, WSE-3）芯片超越了现有的 AI 计算架构，例如 NVIDIA 的 H100 GPU。Cerebras 在推理性能、能效和扩展性方面取得的显著突破，通...

芝能智芯出品在 Hot Chips 2024 大会上，Cerebras 展示了其在 AI 推理领域的最新进展，通过其晶圆规模引擎（Wafer-Scale Engine, WSE-3）芯片超越了现有的 AI 计算架构，例如 NVIDIA 的 H100 GPU。Cerebras 在推理性能、能效和扩展性方面取得的显著突破，通过采用大规模的片上内存（SRAM）来规避高带宽内存（HBM）的限制。

Part 1晶圆规模计算芯片

Cerebras 的 WSE-3 是世界上最大的计算芯片，拥有 44GB 的片上 SRAM 和超过 850,000 个计算核心。与传统的 GPU 将一个大晶圆切割成多个小芯片的方式不同，Cerebras 的 WSE-3 保留了整个晶圆，这样做的好处是将所有计算都集中在一个芯片上，减少了数据移动的需求和延迟。通过这种方法，Cerebras 可以将整个 AI 模型放入片上内存中，而不需要将部分模型转移到芯片外的 HBM 存储器中。

在推理性能方面，Cerebras 表示其解决方案显著超越了基于 NVIDIA H100 的系统。在 Llama3.1-8B 模型的推理任务中，Cerebras 的 WSE-3 比 Microsoft Azure 上的 NVIDIA H100 快 20 倍。此外，Cerebras 还展示了在单芯片上运行更大模型（如 Llama3.1-70B）的能力，与 NVIDIA DGX H100 解决方案相比，该解决方案展现出了显著的吞吐量和延迟优势。

Part 2高效的数据传输和计算架构

Cerebras 的 WSE-3 通过直接在芯片上处理数据，避免了传统 GPU 系统所需的高延迟高速串行链路、PCB 传输、交换芯片等复杂路径。这样一来，它能够在更低功率下提供更大的内存带宽。例如，当需要在 H100 集群中实现高内存带宽时，必须使用多个并行接口，而在 Cerebras 的设计中，数据传输仅需在芯片上完成，简化了体系结构并提高了效率。

Cerebras 的 WSE-3 提供了灵活的多用户和多模型并行计算能力。通过其大规模的片上内存，多个用户可以在同一芯片上同时运行不同的 AI 推理任务，极大地提高了计算资源的利用效率。同时，由于其巨大的带宽，Cerebras 能够支持更小的批量大小（例如批量大小为 1），而不会遇到传统 GPU 系统在小批量推理中性能下降的情况。

Cerebras 的 WSE-3 展示了 AI 推理领域的巨大潜力。通过横向扩展，Cerebras 可以将计算扩展到多个晶圆上，例如在需要更大规模计算的情况下，可以将模型扩展到四个晶圆上，这种方法可以轻松超越传统 GPU 无法达到的延迟和吞吐量水平。此外，Cerebras 已经在多个数据中心（如圣克拉拉、斯托克顿和达拉斯）部署了其集群，并计划进一步扩展。