21世纪经济报道记者白杨 北京报道
“上云正成为芯片设计产业的一个趋势”,燧原科技IT负责人Vincent近日在接受21世纪经济报道采访时表示。
燧原科技是一家于2018年成立的AI芯片设计创业公司,是国内第一家完成人工智能训练和推理芯片迭代的科技公司。近年来,内外环境的变化,让燧原科技面临诸多新挑战。
一方面,是全球供应链的变化带来产业转移需求,导致芯片设计行业在市场繁荣的同时,催化了更大的竞争压力;另一方面,是随着产品迭代,工艺制程越来越先进,对算力需求也变得越来越大。
过去,芯片设计公司大都以部署本地算力为主,但是在新环境下,公司既要权衡投入产出比,又要加速产品研发进度抢占市场,因此,具有高弹性的云计算也成为芯片设计公司破局的首眩
然而,具体选择什么样的上云方案,行业内并没有太多可借鉴的案例。而燧原科技与腾讯云、速石科技联合打造的芯片仿真混合云平台,在业内首次实现了“存算分离”的混合云计算架构,这或许会给更多芯片设计公司指明方向。
从弹性算力切入
创业公司上云,要解决的核心问题有两个:一是成本;二是业务弹性。
燧原科技项目负责人Eli告诉记者,从成本上来讲,IC(集成电路)的设计有不同阶段,每个阶段对算力的需求又不一样,所以企业没有办法采购相同配置的机器去适应所有业务环节。这种情况下,企业往往面临重复建设,而且这个重复建设只是为了满足很短的算力高峰。所以从使用效率和经济成本上来讲,上云肯定是最优解。
从业务弹性的角度,尽管芯片设计公司在项目前期都会进行充分的论证和讨论,并给出算力、存储等需求的大概预期,但在实际操作过程中,往往会出现很多意外情况。
“比如突然发现一个问题需要紧急修复,修复完以后就要进行大量业务测试,这时首先考虑的就不是经济问题了,而是能以多快的速度得到相应的资源把突发的业务需求消化掉”,Eli说。
在传统IDC的模式下,遇到这种突发情况企业很难快速应对,通常要通过采买服务器或是租借服务器的方式来部署,等上线测试完成已经过去两周甚至几周的时间。
而借助云计算的弹性,芯片设计公司在遇到意外增量时,便能够迅速地将资源部署起来。“我们现在最快只需要几个小时就能把所需资源全部部署完成,让业务直接上去测试,整个产品迭代周期和迭代效率都得到大大提升”,Eli说道。
尽管从各项目性能以及综合成本上来看,云计算都优于传统IDC,但对绝大多数芯片设计公司而言,让业务全部上云,仍不现实。这主要是因为出于数据安全、保密以及合规等因素,芯片设计公司需要把一些核心数据存储在本地。
Vincent向记者表示,这也是为什么燧原科技在知道本地IDC资源有限的情况下,对上云依然是“大胆假设、小心求证”。而燧原科技最终选择腾讯云和速石科技的解决方案,也是因为他们实现了“存算分离”的架构,能够确保核心知识产权IP、PDK库、gitlab代码库等数据存储在本地,仅把算力放到云端。
现阶段,云计算对燧原科技的核心作用是削峰,解决弹性算力的问题。据悉,燧原科技目前已经把前端IP验证环节的弹性算力全部上云。数据显示,通过上云,燧原科技的任务并发量可以通过云端弹性同步提升,缩短部分仿真任务周期30%~50%,节省IT投入相当可观的综合效益。
接下来,燧原科技还会把更多业务环节的弹性算力上云。Eli表示,“我们这次只选择一个点,是要把整个项目的风险控制在一个合理范围内。这次把一个业务搬上云三方团队花了五六个月时间去验证,保障核心数据、代码存储在本地的前提下,并通过速石平台与本地计算集群打通,使得计算任务能够灵活选取本地或云端算力队列。芯片设计上云需要逐步磨合,慢慢扩大使用规模”。
高性能计算落地
从腾讯云的视角,可以看到云计算是如何一步步接近芯片设计产业的。
腾讯云高性能计算行业高级经理Kevin向21世纪经济报道表示,从2021年起,腾讯云内部就开始探索高性能计算场景,当时也梳理了一些机会点,比如芯片设计、基因测序、科研计算等等。经过一番摸索,腾讯云发现芯片设计的仿真环节对高性能计算存在刚性需求,并且这块业务的市场规模也很大,于是开始聚焦于此。
芯片设计周期一般超过12个月,包括产品定义、前端设计、IP验证、SOC验证、综合、布局布线等多个阶段,且不同阶段对算力的需求也不相同。
“在整个芯片的诞生过程中,仿真和验证环节,对弹性算力的需求比较大,其他环节则相对平稳”,Kevin表示。明确方向后,腾讯云开始与芯片设计行业接触,这个过程中,腾讯云的合作伙伴速石科技则扮演了非常重要的角色。
速石科技成立于2017年,主要业务是为用户提供一站式研发云平台。速石科技大客户经理邓雄伟告诉记者,在燧原项目中,腾讯云主要是提供IaaS层服务,包括基础资源和基础硬件的运维,而速石是基于IaaS资源做PaaS层平台的搭建,比如这次的芯片设计仿真云平台。
实际上,此次采用的存算分离混合云解决方案并不是一个新概念,此前也早已在多个领域应用。但这次燧原科技项目,却是该方案第一次应用于芯片设计产业。所以在项目实施过程中,也遇到一些挑战。
“比如燧原科技在整个混合云建设架构的要求上非常高,对网络时延、宽带的吞吐率和效率的要求也非常高,因此整个项目的实施过程,需要多方一起寻求架构最优的布置方式”,速石科技技术总监陈琳涛表示。
从结果来看,腾讯云、速石科技和燧原科技联合打造的“存算分离”云平台,是一种更精细化的混合云场景,这对于一些先进制程的芯片设计公司而言,具有很强的适用性。
陈琳涛说,这种存算分离的方案减少了半导体企业的数据流转步骤,也统一了数据安全访问策略,并简化了上云场景选择和数据准备过程,对整个行业的发展都起到积极推动作用。据阚明建透露,在燧原项目落地后,该方案已经在其他芯片行业客户上开始复制。
当然,对芯片行业而言,云计算的想象空间还很大。但实现更多落地应用的前提是,云计算不仅要保证效率足够高,更要获得芯片设计公司足够的信任。Kevin告诉记者,目前腾讯云已经在对可信计算做相应的铺垫和研究,2023年便能提供相应能力。届时,如果能对整个计算环境都有加密的过程,那或许能够打消很多客户对数据上云的顾虑。