展会信息港展会大全

第六代至强来了,它能推理700亿参数大模型了!
来源:互联网   发布日期:2024-04-12   浏览:278次  

导读:最近,英特尔介绍了下一代数据中心处理器至强的更多消息。 首先,第六代就不叫“至强可扩展处理器(XeonScalable)”了,而是直接就叫“Xeon6”,中文叫做英特尔至强6。 第六代至强将于今年陆续发布,如此前所说,会一分为二。 一种是全部采用P核 ......

最近,英特尔介绍了下一代数据中心处理器至强的更多消息。

第六代至强来了,它能推理700亿参数大模型了!

首先,第六代就不叫“至强可扩展处理器(XeonScalable)”了,而是直接就叫“Xeon6”,中文叫做英特尔至强6。

第六代至强将于今年陆续发布,如此前所说,会一分为二。

一种是全部采用P核的,代号为Granite Rapids,另一种全部采用E能效核,代号为Sierra Forest,两类处理器都支持同样的主板平台。

第六代至强来了,它能推理700亿参数大模型了!

全新的第六代至强经采用Intel 3 制程工艺,本季度,英特尔即将开始生产代号为Sierra Forest的全E核的处理器。

这款处理器在云原生和容器场景,超大规模数据中心市场都有明显优势,能将机架密度提高至2.7倍,每瓦性能提高2.5倍。

第六代至强来了,它能推理700亿参数大模型了!

比如,一家电信运营商原来有200个机架,机架里的服务器用的是第二代至强,如果换成是第六代,则只需要72个机架。

占地空间减少的同时,性能和功能特性都没有明显变化,但此时要管理的网络设别以及其他设备就减少了很多,最重要的是它能介绍1兆瓦的用电量。

预计在Sierra Forest推出后不久,英特尔还将发布全性能核的Granite Rapids。

在介绍Granite Rapids时,英特尔还是强调了在推理大模型时的性能表现。在介绍具体表现前,英特尔介绍了一个叫MXFP4的数据格式。

英特尔与ARM、高通和英伟达等公司合作制定这种新的数据格式,它能降低计算成本,提高效率。这个叫MXFP4的格式是一个4位的浮点数标准,但它通过一些手段让它不牺牲计算精度。

第六代至强来了,它能推理700亿参数大模型了!

MXFP4是通过软件来支持的,所以第四代、第五代至强也都能用,不是第六代专属的。

基辛格展示了一个Demo,分别用第四代、第五代、第六代至强推理700亿参数的Lamma2,与使用原来16bit格式的方案相比,使用了MXFP4的第四代至强,推理时的Next Token的延迟降低了三倍。

换成第五代之后,推理时的Next Token的延迟降低了3.6倍,如果换成第六代至强,延迟会降低6.4倍,此时的延迟来到88ms,也就是降到了100ms以下。

100ms是推理时Next Token延迟的一个分界线,在100ms以下一般就意味着性能可以用。

最后一句话总结,就是性能版的第六代至强,是完全可以推理700亿参数大模型的,比第五代至强更善于推理。

赞助本站

人工智能实验室

相关热词:

AiLab云推荐
展开

热门栏目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港