2012年,在深度学习开山鼻祖之一的Geoff Hinton的学生Alex Krizhevsky成功训练出了深度卷积神经网络AlexNet,并凭借该网络在图像分类识别领域大幅提升性能之后,人工智能“混战”拉开帷幕。
如大家所看到的,这个角逐不但出现在应用领域,在上游的芯片市场,也是百家争鸣。大家似乎都想通过自有的解决方案在人工智能市场撼动英伟达用巨资和时间打下的稳固江山。
但正如燧原科技创始人兼COO 张亚林先生在接受半导体行业观察采访的时候所说:“在十多年的人工智能发展历史里,英伟达通过成千上万的研发工程师和全世界成千上万的客户积累了大量的经验。我们要尊重科技的DNA和本质,我们刚刚起步不久,科技产品没有任何的捷径,每一步都必须趟过去。”
燧原科技创始人兼COO 张亚林先生
他进一步指出,经过多年的发展,真正的用户或者商业化公司不仅仅强调AI芯片本身,而是强调AI系统化应用。“AI芯片要落地,除了要关注AI芯片之外,还要重视AI的软件,互联、以及部署和运维,必须形成完整的解决方案。”张亚林强调。
这也正是燧原科技过去几年来一直坚持的产品开发理念。为了实现公司的目标,在推出了两代云端训练芯片、云端训练加速卡、第一代云端推理加速卡和软件计算及编程平台外,近日,燧原推出了一款专注于云端推理的“邃思”芯片,完成了公司的AI拼图。
必不可少的芯片
在与张亚林交流期间他指出,对于燧原这样的AI芯片公司,必须要提供一个推理和训练系统的生态。首先,因为训练再推理本身就是客户的闭环生态;其次,训练和推理本质上是不太一样的。只有推出训练和推理协同化的产品,才能在差异化需求上面满足客户在训练和推理更加精确的不同要求。
基于这样的思考,燧原科技推出了针对推理场景进行优化的新一代云端AI推理芯片“邃思”,这也是燧原科技成立3年来,继邃思1.0和邃思2.0后推出的第三颗自主研发芯片。
这颗芯片采用12nm工艺制造,基于全新升级的、聚焦推理优化的二代GCU-CARA架构设计,集成了200亿晶体管。通过架构升级,燧原科技大大提高了芯片单位面积的晶体管效率,从而实现了与目前业内7nm GPU相匹敌的计算能力。而从整个芯片的定义和性能上看,这也是一颗完全对标国外领先厂商旗舰的芯片。
首先,这是一颗业界领先的全精度芯片,能支持从单精度浮点FP32到整型INT8的全精度算力,实现了从高精度推理到低精度推理的全方位覆盖。
“因为全面支持INT8,所以可以通过精度以及量化方式,让更复杂的模型能够更好在INT8的精度上进行推理,这是非常关键的。”张亚林告诉半导体行业观察记者,“此外,我们这颗芯片还支持浮点张量TF32的精度。”张亚林进一步指出。
其次,和前两颗训练芯片一样,燧原坚持走高性能芯片的路线。在这颗新推出的推理芯片,其算力依然非常强劲,这主要得益于其极高的存储带宽。
“我们在‘邃思’上采用了业内最先进的HBM2E的存储方案,能提供819GB/s的存储带宽。我们还在GCU-CARA的架构上特别针对推理进行了优化,更加注重处理的延时,同时还加倍注重了其存储性能。”张亚林表示。
能在大家都公认摩尔定律放缓的时候持续推出几代高性能芯片,并且芯片的代间性能提升还能做到那么优越,这得益于燧原科技在芯片封装方面有深入的理解。
在发布邃思2.0的时候,燧原有提到,截止发布当日,那还是中国最大的AI计算芯片,采用2.5D封装的极限,这正是燧原独特的优势之一。“燧原早已掌握了这种完全自主设计的2.5D封装技术,实现了从interposer到package的设计,再到把它跟主芯片和HBM2E整合在一起,燧原目前发布的三颗芯片都是2.5D的封装。”张亚林强调。他进一步指出,燧原一定会持续拥抱先进封装, 2.5D只是公司的第一步。
“从2.5D开始,不管是走chiplet这样的封装形式还是往上走到更好的3D,燧原都有这个能力。燧原也将会在未来的第三代、第四代芯片上呈现更多的封装形式。”张亚林说。
正是因为拥有如此强大的内存和封装设计能力,燧原才能很好地平衡芯片的带宽和算力,打造出如此优越的一颗芯片。值得一提的是,在全新推理芯片面世以后,燧原科技成为了国内唯一同时拥有第二代云端训练和推理产品的人工智能企业。
面面俱到的方案
如果说拥有一个性能强悍的芯片是拥有了进军数据中心市场的资本,那么表现出色的加速卡则让企业在数据中心市场拥有昂首挺胸的底气。这也是燧原科技从训练加速卡到推理加速卡的传承。
从之前的报道我们看到,伴随着“邃思1.0”和“邃思2.0”的发布,燧原科技带来了两代高性能的训练加速卡。在新一代推理芯片发布之际,公司也一如既往地带来了基于该芯片打造的第二代云端人工智能推理加速卡“云燧i20”。
据介绍,这个采用PCIe全高3/4长接口设计的加速卡拥有远超行业同类产品水平,迄今为止也是业内最大的AI加速卡,存储带宽高达819 GB/s。这帮助其大幅提升了推理性能,为各类云端推理业务提供高吞吐、低延时的性能,保障其准确、平稳、高效的运行。数据显示,云燧i20的单精度浮点算力可以做到32 TFLOPS,半精度浮点/单精度张量浮点也达到128 TFLOPS,整型算力更是高达256 TOPS。在与上一代的“云燧i10”相比时,新加速卡将其浮点算力提升了1.8倍,整型算力提升幅度更是高达3.6倍。
“我们的云燧i20在与市场旗舰和次旗舰推理卡的模型性能对比时,也不落下风。”张亚林告诉记者。从燧原提供的数据来看,与Nvidia T4相比,云燧i20在很多模型性能上领先2.5倍到3倍。
性能只是云燧i20的优势之一,功耗优化则是该推理加速卡的另一大优势。
据介绍,燧原通过对芯片的功耗Power 2.0的架构优化,使得整个处理器在AI负载加载上的动态性得到了更好的管理,从而让整个处理器在跑模型的时候负载更加均衡,功耗分布也更加均匀稳定,不会出现高瞬时的情况。
“这是非常重要的功耗优化指标,因为一旦功耗均匀稳定的时候,就不会出现瞬时峰值,也不会出现瞬时的功耗电流,带来额外的功耗浪费。新一代云端AI推理芯片‘邃思'在这个方面做了非常大的改进。”张亚林告诉记者。
他同时还指出,燧原科技在新产品的系统性功耗调整上也加强了DVFS(Dynamic Voltage and Frequency Scaling),“我们的DVFS可以根据芯片上的任务负载,结合实时功耗信息,对于电压和频率进行调整。在保证系统稳定性的同时,获得更好的性能及能效比。”张亚林强调。
此外,燧原科技还通过在软件上投入,进一步实现功耗的优化。如大量的内部存储就能够缓冲更大的模型,给功耗提升带来很大的帮助;把很多前后本来要串起来的AI算子融合在一起,也获得了比分离算子更好的功耗表现。
为了提升产品的易用性,提高客户的生产效率,燧原还进一步升级了自主知识产权的计算及编程平台“驭算”。
燧原科技方面表示,升级后的“驭算TopsRider”软件栈,在性能、开发效率和模型覆盖面上得到大幅提升。通过引入通用高层图优化和大规模算子融合技术,充分释放了大容量片内存储和高带宽存储的利用率,将模型平均性能提升3.5倍,硬件算力利用率平均提升2倍;通过升级的编程模型以及算子自动分片、自动生成技术,自定义算子开发效率翻倍,模型迁移成本大大降低;此外,驭算增强了对动态性的支持,使云燧i20在检测、语音识别、语义理解等场景更具竞争力。
此外,基于虚拟化和多实例加速技术,云燧i20能够实现单卡多用户,同时支持6个业务互不干扰、安全隔离运行,让更多云端推理应用同时享受专有的算力加速,为客户业务架构带来轻耦合、灵活可靠的实现方式,显著提升资源利用率与投入产出比。
“经过多次迭代,公司的工具链得到了进一步完备和加强,并全面提高了功能调试和性能调优的能力。我们的工具链还能匹配客户开发习惯,让客户易于迁移,降低客户迁移成本。”张亚林告诉记者。
张亚林总结道:“对于客户来说,芯片只是他们涉及的整个系统里面的一部分,它与软件、加速卡、集群和云端的各种生态部署以及工具等构成了整个全系统的生态,这才是客户真正用户面所触达的。”
在贯彻执行上述软硬件运营思路后,燧原在客户端获得了越来越多的认可,日趋完善的产品线也让公司对未来有了更多的想象空间。
触手可及的现在
过去几年,关于AI芯片企业的应用落地有很多讨论。但在张亚林看来,这在燧原科技是一个水到渠成的结果,归根到底则得益于公司从产品定义开始的时候就贴近客户。按照他的观点,AI芯片的性能参数固然重要,但更快地触达客户,更快地收集到广泛的客户需求进行迭代则更为重要。
基于第一代产品,燧原科技在机器视觉、语音、自然语言翻译、强化学习决策和推荐等一系列场景中,与来自互联网、垂直行业、政府和产业的客户都建立了合作,公司也希望与这些赛道上的客户尽可能迅速地实现由点到线,由线到面的发展。
通过合作收集了更多客户的需求后,燧原科技将其总结放到第二代产品上去,使得二代产品获得比一代产品更高的泛化性、易用性以及更好的模型性能,这也让其应用性能获得了大幅度的提升。
燧原科技在“云燧i20”上,提升了模型覆盖和泛化支持能力,瞄准泛互联网、传统行业和新基建等赛道,作为算力基础设施和生产力工具,提供对视觉检测跟踪分类,语音识别与合成,及自然语言处理等多种场景的广泛支持,助力人工智能广泛落地,为数字中国提供动力,也符合自主可控的宏观政策要求。
面向当前火热的智能驾驶市场,燧原科技也正在评估,“燧原有独立的训练集群,有训练的软件栈,我们有能力以智能车大脑训练为抓手去开发这个市常”张亚林表示。最近比较火热的数字孪生则是他看好的另一个AI应用方向,因为在这个场景下,需要用到大量的大数据训练和推理,以构建一个纯粹的虚拟的孪生城市、孪生工厂以及孪生世界,这也是燧原所专注于服务的。
此外,张亚林还看好自然语言翻译和融合媒体的未来。在前者,随着大模型不断增强显示出更大的智能化,这个领域也一定会持续向更加智能化的方向发展;至于融合媒体,则通过整个描述生成多媒体短视频、音频以及音视频的融合。
为了更好地服务这些市场,燧原科技的首要任务是持之以恒地提升公司芯片的性能。
张亚林告诉记者,燧原科技在芯片迭代方面精准遵循了英特尔所提出的Tick-Tock钟摆式的原则一代改工艺,一代改架构,工艺和架构不要同时变更。所以说燧原科技虽然从第一代到第二代产品都采用12纳米,但因为公司在芯片架构上做了大幅度的升级革新,因此产品仍然获得了至少3倍的能效比。正是坚持这样的升级思路,因此让公司第二代产品能快速迭代和发布。
“燧原科技的第三代产品,则到了钟摆的另一面Tock,届时燧原会小幅度提升架构,大幅度改进工艺,请大家拭目以待。”张亚林指出。据他透露,燧原的第三代芯片会在2023年面世。
“燧原科技的愿景和使命一直是做数据中心的基础设施提供商,所以在未来3到5年时间内,我们将专注在数据中心,提供全方位的支持。除了计算之外,我们还会进入别的相关数据领域,提供更全面的系统解决方案。”张亚林强调。
在提升自有芯片性能和深化自身布局之余,燧原还计划和更多的合作伙伴携手,更好地服务数据中心的客户。
张亚林表示,数据中心未来会是组件化、模组化、标准化的。所谓的组件化和标准化,是指数据中心基于标准互联,采取组件式方式连接,也就是说在未来的数据中心里面存储、AI计算加速、视频视觉计算加速、数据卡、DPU甚至CPU都可能会以一种组件化的方式提供,而不是现在服务器整机方式提供。而这光靠燧原科技本身,是很难提供完整服务的。
而事实上,面对这种发展趋势,已经手握两代产品,有两代产品市场化的方向的燧原现在已经开始在深入跟其他组件公司进行深度联合开发。例如在近来非常热门的DPU产品方面,燧原已经与相关公司进行深度连接,这将有助于燧原尽早形成数据中心全链打通的方案。
“燧原一定会朝着数据中心的方向去走,布局整个互联的标准以及功能。”张亚林告诉记者。
志存高远的未来
在问到对燧原科技的未来有怎样的展望时,张亚林首先指出,目前AI还是一个蓬勃发展的领域,机会也同样还在。与此同时,人工智能的芯片架构还在变革,国内外企业也都在探索,并不像已有的CPU和GPU那样,拥有很高的专业壁垒和业务壁垒。
其次,中国客户非常希望能得到更多的本土支持、定制化以及尽快适应他们。这让中国AI公司在这个方面具有得天独厚的地域优势,这也是外国公司难以企及的。
第三,从市场产品独立竞争上看,国际大厂更加面向全世界AI的应用和产品,所以它的泛化性和通用性是最广的。但国内公司在一开始并不太需要瞄准全世界最广泛的市场,可以有针对性的泛化,而这些泛化正是国内公司的利基场景。这让我们有机会把利基场景的性能和性价比打磨好。
由此张亚林认为,从这三个方面看来,在未来5到10年内,全球AI芯片市场应该是百花齐放的,大家都有机会。而且因为这个市场足够大,届时每一个厂商都能够在这个市场上赢得自己独立的存在,这也是科技市场良性竞争的一种体现。
燧原科技CEO赵立东也指出:“当前,我国芯片产业正处于激烈的成长与蜕变时代,燧原科技以‘做大芯片,拼硬科技’为时代使命,基于原始创新的软硬件架构,正在不断加速技术创新与产品迭代。性能赶超业内旗舰GPU的云燧i20正是我们的关键成果之一。”
“在国内AI大芯片赛道上,燧原科技希望能够在未来三到五年内成为头部企业之一,作为领军企业为中国的数据中心服务。这是我们的初心和愿景,我们也走在正确的道路上。”张亚林最后强调。