划重点
1
IBM研究人员模仿人脑结构打造出北极点芯片,提高计算能力的同时也能节约能源。
2
北极点芯片使存储单元在物理上尽可能接近计算单元,颠覆了传统上存储与计算单元分离的“冯诺伊曼瓶颈”。
3
北极点芯片采用12纳米节点工艺制造,在800平方毫米的面积内包含220亿个晶体管,拥有256个内核。
4
研究人员估计,如果北极点芯片设计采用最先进的制造工艺,其效率将比目前的设计提高24倍。
科技新闻讯 美国加利福尼亚州圣何塞的IBM研究人员开发了一种以大脑为灵感的计算机芯片,这款北极点处理器芯片消除了频繁访问外部存储器的需要,在图像识别任务中比现有架构更快,能源消耗更少。
巴黎萨克雷大学的纳米电子学研究员达米安奎里奥斯(Damien Querlioz)说:“它的能源效率大幅降低,这令人感到非常兴奋。”他说,这项研究表明,计算和内存可以大规模集成,“我觉得这篇论文将动摇计算机体系结构中的普遍思维”。
北极点芯片采用神经网络结构,由简单计算单元组成的多层阵列通过编程来识别数据中的模式。底层用于接收数据,例如图像中的像素。每一个连续的层检测就会采取越来越复杂的模式,并将信息传递给下一层。顶层用于输出结果,比如可以表示图像中含有猫、汽车或其他物体的可能性。
被“冯诺伊曼瓶颈”拖慢了速度
自半导体工业诞生以来,计算机芯片基本上遵循相同的基本结构,其中处理单元和存储待处理信息的存储器始终处于分离状态。虽然这种结构允许更简单的设计,能够在几十年内很好地扩展,但它也造成了所谓的“冯诺伊曼瓶颈”,即在内存、处理器和芯片内的任何设备之间不断地来回传输数据时,需要耗费更多时间和能源。
“冯诺伊曼瓶颈”以数学家约翰冯诺伊曼(John von Neumann)的名字命名,后者是世界上第一个提出基于处理单元和独立存储单元计算机标准架构的人。 这种芯片架构可以有效地处理计算,但每次计算时都需要使用被称为RAM的外部存储器。因此,不管处理器运行多快、性能多好,每次执行运算时都需要把数据从存储器搬到处理器中,数据处理完再搬回到存储器。
“冯诺伊曼瓶颈”已经成为影响计算机应用(包括人工智能)发展的最重要因素之一,并导致能源效率低下。论文合著者、IBM计算机工程师达门德拉莫达(Dharmendra Modha)表示,他曾做过估计,在这种架构上模拟人类大脑可能需要12个核反应堆的能源输出。
那么,北极点芯片是如何实现比现有芯片更高的计算效率的?其最独特之处在于,该处理器的所有内存都在芯片上。如果没有“冯诺伊曼瓶颈”,该芯片进行人工智能推理的速度可以比市场上已有其他芯片快得多。
北极点芯片采用12纳米节点工艺制造,在800平方毫米的面积内包含220亿个晶体管。它拥有256个计算单元(或称内核),每个计算单元都有自己的内存。每个周期可以以8位精度执行2048次运算,并有可能分别以4位和2位精度将运算数量增加一倍和四倍。莫达说:“你在每个内核中都缓解了冯诺伊曼瓶颈。”
莫达解释称,这些内核通过消除片外内存,将计算与片上内存集成起来。这些计算单元以一种网络连接在一起,这种网络的灵感来自于人类大脑皮层之间的白质连接。这种设计使北极点芯片在图像识别的标准基准测试中以相当大的优势击败了现有的人工智能芯片。
他补充说:“从架构上讲,北极点芯片模糊了计算和内存单元之间的界限。在单个内核层面上,北极点芯片表现为内存近似计算,而从芯片外部来看,在输入输出层面上,它表现得就像活动存储器。这使得该芯片易于集成到系统中,并显著减少了主机上的负载。”
在不使用最先进制程工艺的情况下,北极点芯片能耗是使用最先进技术人工智能芯片的1/5。论文作者估计,如果北极点芯片设计采用最先进的制造工艺,其效率将比目前的设计提高24倍。
北极点芯片的潜在应用
虽然对北极点芯片的研究仍在进行中,但它的结构适合新兴的人工智能用例,以及其他更成熟的用例。
在测试中,北极点芯片团队主要专注于与计算机视觉相关的用途,部分原因是该项目资金来自美国国防部。目前考虑的一些主要应用是检测、图像分割和视频分类。但它也在其他领域进行了测试,例如自然语言处理(在仅限编码器的BERT模型上)和语音识别(在DeepSpeech2模型上)。该团队目前正在探索将仅限解码器的大语言模型映射到北极点横向扩展系统中。
当你想到这些人工智能任务时,脑海中会浮现出各种各样的用例,从自动驾驶汽车到机器人、数字助理或空间计算。许多需要实时处理大量数据的边缘应用都非常适合北极点。
例如,它可能是一种将自动驾驶汽车从需要固定地图和路线才能在小范围内运行的机器,转变为能够思考和应对罕见边缘情况的设备。即使对熟练的人类驾驶员来说,这些边缘情况也使得在现实世界中导航变得非常具有挑战性。这些边缘案例正是未来北极点芯片应用的最佳选择。
这款芯片还可以帮助卫星监控农业和管理野生动物种群,监控车辆和货运以确保道路更安全和不那么拥堵,安全地操作机器人,并为更安全的企业检测网络威胁。
然而,这只是北极点芯片广泛应用的起点。目前CPU的制程技术水平是3纳米,IBM本身已经在2纳米节点上进行了多年的研究。这意味着,除了基本的架构创新外,还有几代芯片处理技术可以在北极点上实现,以不断提高其效率和性能。
但对莫达来说,这只是他过去19年职业生涯中一个重要的里程碑。他始终在研究以大脑为灵感的数字芯片,他知道大脑是我们所知道的最节能的处理器,并在寻找数字复制的方法。他相信,把最好的传统处理设备与大脑的处理结构结合起来是有好处的。在大脑中,记忆和处理分散在整个大脑中。
现在,莫达的计划是展示北极点芯片的能力,同时探索如何将设计转化为更小的芯片生产工艺,并进一步探索新架构的可能性。这项工作源于一个简单的想法,即我们如何让计算机像大脑一样工作?经过多年的基础研究,他们似乎终于找到了答案。
走在正确的道路上
但是,对于大语言模型来说,即使是北极点芯片的224兆内存也是不够的。比如,聊天机器人ChatGPT所使用的大语言模型,即使在它们最精简的版本中,也要占用几千兆的数据。而且该芯片只能运行预先编程的神经网络,这些神经网络需要在单独的机器上提前训练。但论文作者表示,北极点芯片架构可能在速度关键型应用中很有用,比如自动驾驶汽车。
北极点芯片使存储单元在物理上尽可能接近内核中的计算元件。在其他方面,研究人员一直在使用新材料和制造工艺开发更激进的创新。这使得存储单元本身也能够执行计算,原则上可以进一步提高速度和效率。
上个月出现的另一种芯片使用忆阻器进行内存计算,忆阻器是一种能够在电阻和导体之间切换的电路元件。忆阻器研究论文的合著者之一、清华大学教授高斌表示:“IBM和我们的方法都有望缓解延迟,降低与数据传输相关的能源成本。”
另一种方法是由几个团队合作开发的,其中一个团队来自瑞士苏黎世的IBM实验室,可以通过改变电路元件的晶体结构来存储信息。不过,这些新方法能否在经济上得到推广还有待观察。(文/金鹿)