图片来源:David Baillot/加州大学圣地亚哥分校
一组国际研究人员设计,制造和测试了NeurRRAM芯片。
NeuRRAM芯片是第一款展示各种AI应用的内存计算芯片,同时仅使用其他平台消耗的一小部分能量,同时保持等效精度。
NeuRRAM是一种新芯片,可以直接在内存中运行计算,并且可以运行各种AI应用程序,由一个国际研究小组设计和构建。它与众不同的是,它所做的这一切都只是通用AI计算平台消耗的一小部分能量。
NeuRRAM神经形态芯片使AI更接近于在各种边缘设备上运行,与云断开连接。这意味着他们可以随时随地执行复杂的认知任务,而无需依赖与集中式服务器的网络连接。该设备的应用遍布全球每个角落和我们生活的方方面面。它们的范围从智能手表到VR头显,智能耳塞,工厂智能传感器以及用于太空探索的漫游车。
NeuRRAM芯片的能效不仅是最先进的“内存计算”芯片(一种在内存中运行计算的创新型混合芯片)的两倍,而且还提供与传统数字芯片一样准确的结果。传统的AI平台要笨重得多,并且通常仅限于使用在云中运行的大型数据服务器。
NeuRRAM芯片的特写镜头。图片来源:David Baillot/加州大学圣地亚哥分校
此外,NeuRRAM芯片具有高度通用性,支持许多不同的神经网络模型和架构。因此,该芯片可用于许多不同的应用,包括图像识别和重建以及语音识别。
“传统观点认为,内存计算的更高效率是以牺牲多功能性为代价的,但是我们的NeuRRAM芯片在不牺牲多功能性的同时获得了效率,”该论文的第一位通讯作者,最近毕业于斯坦福大学的博士Weier Wan说,他在加州大学圣地亚哥分校期间从事芯片工作,在那里他得到了生物工程系的Gert Cauwenberghs的共同建议。
该研究小组由加州大学圣地亚哥分校(UCSD)的生物工程师共同领导,在8月17日的《自然》杂志上展示了他们的研究结果。
NeuRRAM芯片采用创新架构,在整个堆栈中进行了共同优化。图片来源:David Baillot/加州大学圣地亚哥分校
目前,人工智能计算既耗电又计算成本高昂。边缘设备上的大多数AI应用程序都涉及将数据从设备移动到云端,AI在那里处理和分析数据。然后将结果传输回设备。这是必要的,因为大多数边缘设备都是电池供电的,因此只有有限的功率可以专用于计算。
通过降低边缘AI推理所需的功耗,这种NeurRAM芯片可以带来更强大,更智能,更易访问的边缘设备和更智能的制造。它还可能导致更好的数据隐私,因为将数据从设备传输到云端会带来更高的安全风险。
在AI芯片上,将数据从内存移动到计算单元是一个主要瓶颈。
“这相当于每天工作两小时,上下班八小时,”万说。
为了解决这种数据传输问题,研究人员使用了所谓的电阻式随机存取存储器。这种类型的非易失性存储器允许直接在存储器中计算,而不是在单独的计算单元中计算。RRAM和其他用作神经形态计算的突触阵列的新兴记忆技术是在斯坦福大学Wan的顾问,也是这项工作的主要贡献者之一Philip Wong的实验室中率先提出的。虽然使用RRAM芯片进行计算不一定是新的,但通常,它会导致芯片上执行的计算精度降低,并且芯片架构缺乏灵活性。
“自30多年前引入以来,内存计算一直是神经形态工程中的常见做法,”Cauwenberghs说。“NeuRRAM的新颖之处在于,对于各种AI应用,极高的效率现在与极大的灵活性相结合,与标准数字通用计算平台相比,精度几乎没有损失。
精心设计的方法论是跨硬件和软件抽象层的多层次“协同优化”工作的关键,从芯片的设计到运行各种AI任务的配置。此外,该团队还确保考虑从存储设备物理场到电路和网络架构的各种约束。
“这个芯片现在为我们提供了一个平台,可以解决从设备和电路到算法的整个堆栈中的这些问题,”圣母大学计算机科学与工程助理教授Siddharth Joshi说,他作为博士生和博士后研究员在UCSD的Cauwenberghs实验室开始从事该项目。
芯片性能
研究人员通过一种称为能量延迟产物(EDP)的测量来测量芯片的能效。EDP 将每个操作消耗的能量与完成操作所需的时间相结合。通过这种措施,NeuRRAM芯片实现了比最先进的芯片低1.6至2.3倍的EDP(越低越好)和7至13倍的计算密度。
工程师在芯片上运行各种AI任务。它在手写数字识别任务中实现了99%的准确率;85.7%用于图像分类任务;和84.7%的谷歌语音命令识别任务。此外,该芯片还实现了图像恢复任务中图像重建误差降低70%。这些结果与现有的数字芯片相当,这些芯片在相同的位精度下执行计算,但大大节省了能源。
研究人员指出,该论文的一个关键贡献是,所有结果都是直接在硬件上获得的。在以前的许多内存计算芯片作品中,AI基准测试结果通常部分通过软件模拟获得。
后续步骤包括改进架构和电路,并将设计扩展到更先进的技术节点。工程师们还计划解决其他应用,例如尖峰神经网络。
“我们可以在设备级别做得更好,改进电路设计以实现其他功能,并使用我们的动态NeuRRAM平台解决各种应用,”匹兹堡大学助理教授Rajkumar Kubendran说,他在UCSD的Cauwenberghs研究小组攻读博士学位时就开始了该项目的工作。
此外,Wan还是一家致力于将内存计算技术产品化的初创公司的创始成员。“作为一名研究人员和工程师,我的雄心壮志是将实验室的研究创新带入实际应用,”万说。
新架构
NeuRRAM能效的关键是一种检测内存中输出的创新方法。传统方法使用电压作为输入,并测量电流作为结果。但这导致需要更复杂、更耗电的电路。在NeurIRRAM中,该团队设计了一个神经元电路,该电路可检测电压并以节能方式执行模数转换。这种电压模式检测可以在单个计算周期内激活RRAM阵列的所有行和所有列,从而实现更高的并行度。
在NeurRRAM架构中,CMOS神经元电路与RRAM权重在物理上交错。它与传统设计不同,传统设计中的CMOS电路通常位于RRAM砝码的外围。神经元与RRAM阵列的连接可以配置为神经元的输入或输出。这允许神经网络在各种数据流方向上进行推理,而不会产生面积或功耗方面的开销。这反过来又使体系结构更易于重新配置。
为了确保AI计算的准确性可以在各种神经网络架构中保持,工程师开发了一套硬件算法协同优化技术。这些技术在各种神经网络上得到了验证,包括卷积神经网络,长短期记忆和受限玻尔兹曼机。
作为神经形态AI芯片,NeuroRRAM在48个神经突触内核上执行并行分布式处理。为了同时实现高通用性和高效率,NeuRRAM通过将神经网络模型中的一层映射到多个内核上以对多个数据进行并行推理来支持数据并行性。此外,NeuRRAM通过将模型的不同层映射到不同的内核并以流水线方式执行推理来提供模型并行性。
国际化研究团队
这项工作是国际研究团队的结果。
UCSD团队设计了CMOS电路,实现了与RRAM阵列接口的神经功能,以支持芯片架构中的突触功能,从而实现高效率和多功能性。Wan与整个团队密切合作,实施了设计;表征芯片;训练人工智能模型;并执行实验。Wan还开发了一个软件工具链,将AI应用程序映射到芯片上。
RRAM突触阵列及其工作条件在斯坦福大学进行了广泛的表征和优化。
RRAM阵列由清华大学制造并集成到CMOS上。
Notre Dame的团队为芯片的设计和架构以及随后的机器学习模型设计和培训做出了贡献。
该研究始于宾夕法尼亚州立大学国家科学基金会资助的Expeditions in Computing项目,该项目涉及硅上视觉皮层,并得到了海军研究科学办公室人工智能计划,半导体研究公司和DARPA JUMP计划以及西部数字公司的持续资助。