燧原科技创始人&COO张亚林
成立6年多,累计融资额近70亿元人民币,估值已达160亿元(胡润数据)......这是腾讯投资的一家AI算力企业燧原科技交出的最新成绩单。
美国哈佛商学院教授、“颠覆性创新之父”克里斯坦森(Clayton M. Christensen)在研究贝索斯、马斯克等多位顶级创业者后,在《创新者的基因》一书中得出结论:全球经济发展中,创新是生命之源,是企业首要的战略考虑。但同时,一个创新领导者,不仅应该是思考者,更应该是一个会把思考及时付诸行动的人。
在中国 AI 算力赛道当中,燧原科技创始人兼COO(首席运营官)张亚林正是这样一位领导者。
创立燧原科技之前,张亚林曾在AMD工作了11年,他带领AMD上海研发中心成功开发并量产多颗旗舰处理器,拥有丰富的工程和产品化实战经验。
在张亚林的带领下,作为通用人工智能(AGI)算力基础设施服务商,燧原科技已完成 AI 算力产品的开发、量产和规模化落地,涵盖板卡、智算一体机、液冷算力集群以及配套的软件系统。同时,燧原也是腾讯自2018年起持续投资的国产AI算力供应商。
张亚林认为,大模型时代下,算力对于中国驱动 AI 技术的发展至关重要。生成式 AI 技术恰恰依赖于底层硬件和软件架构,来执行复杂的算法和处理数据,从而实现智能交互功能,而这一切都离不开算力底座的支持。
近日在上海举行的WAIC 2024(世界人工智能大会)前夕,张亚林与钛媒体App进行了独家交流。
张亚林对钛媒体App表示,本土算力中心的商业化落地,需要AIDC(智算中心)+AIGC(生成式人工智能)结合形成“双轮驱动”。智算中心“谁来建设、谁来运营、谁来使用”是三个很重要的问题,其关键点在于谁来用。只有用户愿意来使用算力,才有人愿意来运营,投资建设方才能收回成本,形成可持续发展的闭环。
如今,燧原科技正不断构建完整的算力中心生态圈。今年5月末,由燧原科技产品提供支撑的宜昌点军智算中心实现运营。从建立到运营仅用1年时间,燧原就完成了300P国产算力建设和交付,并实现上线全消纳,上架率超过80%。而且,燧原科技还在四川成都、甘肃庆阳等地展开智算中心建设及合作,实现国产智算设施的落地和商业化。
张亚林指出,智算中心是一个至少3-5年长周期的落地运营过程,需要投建方、运营方、使用方一起合作共赢。同时,面对短期的市场环境,燧原科技自身需要开源、节流,打造生态护城河,持续构建和打磨生态。
“这个过程没有太多捷径可以走。”张亚林表示。
展望未来,张亚林强调,中国在 AI 领域垂直应用具有更多的优势,从而会推动国产 AI 算力部署,促进国产算力产品的升级迭代。同时,通过云、边、端协同发展,聚焦大模型精细化、行业落地以及云边端一体化,实现 AI 行业发展。
“中国一定会在 AI 算力层面‘百花齐放’,”张亚林对钛媒体App表示。
以下是张亚林与钛媒体的独家对话速记,经钛媒体AGI编辑整理:
钛媒体:近期全国各地都在建 AI 算力集群,那么,燧原的运营思路是怎样的?
张亚林:在智算新时代,其实很重要的就是,一个智算(算力)中心如何商业价值变现。
而燧原的策略是用“AIGC+AIDC”双轮驱动,以解决三个关键问题:谁来建设、谁来运营、谁来使用,从而实现真正的商业价值。
具体来说,智算中心是一个庞然大物,这里面涉及到整个智算中心市场要顺利运行,让它能够实现商业价值的落地。
第一个就是投建方。如果没有人投资基础设施的建设,就没有基本面。
第二个是真正商业价值变现的运营(实操)方。因为智算中心是一个以3~5年来做运营周期的系统方案。
实际上,如果算商业价值来说,如何让运营方去通过实现租赁变现赚到钱,其实背后有一套体系。就运营方来说,一次性基础设施投入包括基建、硬件设备采买、软件服务和云服务、大模型预装,这是智算中心的资本支出(Capital expenditures)。然后还有运营成本支出(Operating expenses),如果以5年计算,每一年运营成本包括运维费用、机器维修费、水电管理费、运维人员管理费、人员成本等等,其实这些都构建成了每一年的运营开销,乘以五年,成为整个智算中心的投入成本。另外,算力租赁的使用率通常为70%-80%,加上每台服务器的大概金额,可以算出来5年的算力租赁带来的最终回报。
而这中间就会产生一个价差,如果这个价差是正的话,运营方就能赚到钱,如果是负的话运营方就亏本。当然,这里还有政策补贴,比如“算力券”、固定投资补贴等。所以,运营方的投入核心就是在两方面:一是投入的成本、硬件设备和预装软件服务成本是否有足够的性价比;二是算力中心基础设施是否有足够的性价比。同时在产出层面,运营方的AI加速卡和设备在运行大模型及其应用时是否有一个合理的价格,从而实现盈利,所以这又涉及到卡的性能是否能达到一定的租赁价格这其实是一个性价比的问题。
综合因素考虑下,如果运营方最终要实现商业价值闭环,就谁来运营,就需要去评估整个商业价值闭环。
第三点是“谁来应用”,也就是应用方,这是非常重要的一个问题。
首先,应用方是由谁来牵引,算力提供方、基础设施提供方、投建方还是运营方;第二,这些客户愿不愿意购买你的算力,租赁你的算力,所以这又回到刚刚涉及的,就是你的卡好不好用、易不易用,本身产品有没有性价比,包括政府的政策和补贴,加一起是否有足够吸引力,这些其实是比较关键的。
举例来说,如果今天因为你的产品具有性价比,客户愿意租赁服务器,然后能够用满,比如(未来)在3年到5年,你的服务器上架率或者使用率能够达到80%以上,甚至超过90%的话,整个算力的利润空间就会上升,背后其实是一个商业帐。反之,如果产品面不行、性价比不行、或者政策补贴力度不够,最终用户群体不够多,就会产生算力使用率不饱和、空置率等现象,导致算力利润偏低。
所以,智算中心就是“谁来投建、谁来运营、谁来使用”这样一个商业逻辑的概念。
新的形势下,国内的算力建设趋于“后轮驱动”,也就是有多少客户使用,来催生是否有企业愿意运营,是否有人愿意投建。所以,新的智算中心商业变现业态,首先是本身产品有足够的性价比,租赁价格有足够的吸引力,生态有足够的泛化性,才能让更多用户有租赁的意愿,或者是租赁的订单。这样你拿到订单之后,才能让运营商愿意入场,进而反向推动投建方的信心,从而实现智算中心的商业化。
因此,整个智算中心如果是实现商业闭环的话,最后就回到了一个核心点:谁来用、多少人愿意用、大家愿意出多少钱来用......这些终极问题。
目前在国内,首先绝大部分算力消纳需求大的用户还是在互联网;其次可能是垂直行业与央国企,最后是初创大模型公司等。所以,对于中国的算力提供商来说,最重要的就是能不能够真正找到跟你产品有更大范围结合的用户,愿意为你的产品买单的用户群体有多少,它会驱动企业未来能够实现数据中心的商业闭环的力度有多大。
钛媒体:AI 和半导体产业存在一定的周期性,长期来看,一旦这轮 AI 热潮降下来,智算中心就很难有满载率。那么,燧原如何解决这一挑战?
张亚林:这其实是智算中心的“商业测算”概念。举个例子。假设智算中心是5年的一个运营周期,中间可能会经历波峰和波谷,我不能只看现在的情况,所以这是一个整体测算的问题。
整体测算里面分两类:第一类是有的客户愿意承租3~5年,根据自身的业务发展,也考虑了一定的风险,长期租赁的价格相对会中和一些;第二类是短期客户,根据业务的弹性需求进行租赁,价格相对高,也会承担算力供应的风险。
所以从宏观角度来讲,智算中心在一个测算过程中,是一个平均使用率的概念。因此,需要有一个比较谨慎的方式进行测算,肯定不能用100%的峰值去测算平均使用率。
通常保守估计,用70%-80%左右去衡量平均使用率,这样的话至少在5年之内可以平均波峰波谷情况,当然具体还是要看运营成本、空置率和平均使用时长等,从而保证智算中心在5年的运营周期中是可以盈利的。
但其实,中国的智算中心都还在前一、两年的商业模式探索过程中,只是一个初始阶段。随着时间的推移,设备会折旧、算法会演进、波峰波谷会出现,很多的事情会发生变化,
然而另一个问题是,尽管我们可能没有办法完全预测未来这几年的一个变化,但至少,我们现阶段在第一步智算中心的建设里面,遵照“谁来使用,谁来运营,谁来投建”这种合理的商业模式,合理的逻辑线,这是必须的。
钛媒体:AI 和算力半导体领域都具有很长的周期性,也就是“长期主义”,但国内资本却需要募投管退的短期需求,那么,燧原如何在新的变局环境下解决长期和短线问题?
张亚林:这是非常好的问题。
这样一个长期主义过程中,企业规模化、商业化爬坡时比较慢的,它需要更多产品迭代、生态扩充、客户群的扩大,还有 AI 本身的技术趋势不断变革。
所以,我认为需要做到三个点解决变局问题:开源,节流,以及持续构建生态护城河。
一是开源。
通过产品不断迭代,持续扩大收入,持续提高毛利,持续构建能落地、规模化的商业模式。收入一定要高速成长,毛利要稳健,商业模式要清晰。只有这样,才能吸引更多长期主义资本的投资。中国也鼓励长期资本的存在,能够给商业面的持续增长信心的话,我觉得长期资本是愿意陪伴你的。如果能稳健增长,你的商业模式不断清晰,客户群不断扩大,你的自我造血能力不断增强,长期主义的资本也会不停的加持你。
第二个是节流。
节流并不是一个反义词。一个公司本身的组织效能、运营效能,反映了公司持续高效运作的一个根本。公司在发展过程中,一开始大家都比较有热情、动力和活力,但随着时间拉长,各种问题出现,很多公司就出现了各种疲态,甚至出现离职潮,这就是在扩大和成长过程中出现了组织问题。有些公司在规模化过程中也遇到了供应链问题,无法规模化供货,也无法提升毛利,这都跟内部管理机制有关。所以企业一定要持续提升你的运营效率、组织效率,持续打造一个有战斗力、有活力的团队,让你的开发能力、开发效能提高,从而更好降低你的产品成本,提升你的毛利。
节流和开源是相辅相成的。企业需要在开源和节流层面做更多工作,让资本、合作伙伴相信你能稳健运营公司。
三是持续构建生态护城河。
实际上,高科技企业都遵循了一个原则,就是如果前期(几年甚至10年)的发展需要迭代的话,它其实是一个缓步前行的过程。所以发展的曲线的斜面斜率是比较平缓的,但是到了某个时间点之后,你会产生一个“拐点效应”,就是产品的爆发点,或公司实现规模化的爆发点,背后其实是取决于你的产品,取决于生态的基本面。而“生态”其实是一个广义的生态,包含你的产品技术实力、泛化性、客户群,生态伙伴的能力和加持力。所以,在一个企业的发展曲线过程中,通过积累和打磨,你的产品是否会出现一个拐点式的增长,实现高速式的发展,这其实是非常关键的。
因此,你必须要持续投入精力在生态构建上,持续的打磨产品,以及建立各种合纵连横的商业模式,打造出生态的护城河,从而能够突出重围、穿越周期。
钛媒体:AI 大模型算力背后最核心的是生态,相对于国外方案,燧原科技在国产算力生态当中面临哪些挑战?
张亚林:我们现在看到的生态有两类:一类是技术生态,另一类是产业生态。
整条产业链其实是极其复杂的,它是 “一盘棋”。而对于技术生态来说,其实就是冲破原有生态的壁垒,找到国内的软硬件技术伙伴进行泛化,不断扩大。
实际上,从硬件算力,到技术软件栈,再到整体部署开发,在 AI 领域,这一套东西其实就遇到很多挑战。
第一个挑战是完备性问题。整套技术底座能够真正被开发者使用,因此,这里面很多软硬件模块需要开发、扩大,这是一个庞大的生态系统。面对千万计的开发者群体,你要加入的技术模块就很多,包括编译器、加速库、框架、分布式计算等一些专业词汇的模块,而每一个模块都需要大量的人力和外部的生态伙伴一起来打磨,从而最终形成一个成熟、高性能、高效的底座。
第二个挑战是易用性问题。大模型算力工具最终是提供给开发者,他们好不好用、易不易用、能不能成为生产力工具才是最重要的。当然,易用性也不是一蹴而就的,但随着用户量越来越高,反馈越来越多,产品迭代越来越多,越来越符合用户的使用习惯,才能变得易用。
第三个挑战是泛化性问题。在大模型之前,我们经历了计算机视觉(CV)、自然语言理解(NLP)、推荐和广告搜索等时期,AI 的泛化和基本面都是不断变动的。这是一个很长线的过程,这是它的难度所在。
而对于一家本土AI 算力提供商来说,如何通过以点带线、以线带面打磨你的生态,一步步“泛化”到互联网、金融、医疗、智慧交通等领域。这其实是一个生态打磨的过程,我认为这个过程没有太多捷径可走
回到技术生态层面,你如何坚持到生态拐点很重要。
同时,在数据中心产业生态层面,需要各种公有云和私有云,大模型厂商,以及集成部署运维运营商等生态伙伴齐心协力,才能够把智算中心持续发展下来。因此,找到一个可复制的生态打法至关重要,需要不断把生态“蛋糕”做大,形成商业模式的“闭环”。
钛媒体:在你看来,如何定义通用人工智能(AGI)的未来?
张亚林:我认为,每个人心中都有AGI,有些人可能认为它和人一样,有些人认为它是比人更高质量的一个智慧体。但是不管怎么说,就是我们如何去渐进式接近 AGI 这个定义。
在我看来,AGI解决的一个终极问题是人的助手,或者是说如何更好的帮助人、解放生产力,以更好的方式进一步提升工作的质量和效率。
整体来说,AI 还是一个增效的作用,因为到目前为止,我们还没有看到 AI 从增效到主导智能。
如果再往GPT-5、GPT-6发展的话,我们看到大型智能体的通用智能性越来越强,也就是跟人的智慧越来越接近。如果说GPT-4是高中生水平的话,GPT-5可能到研究生或者博士生水平。
AGI还是在一个正常的思考水平或者日常生活水平,需要基于一个人正常思维上进行判断,而不是在更高的洞察力、灵感甚至抽象思维层面去判断。所以,如果按正常人类思维判断的话,AGI这种主动型 AI 思维模式逐步增强,最终还是跟人成为相伴的一个助手。
钛媒体:当前形势下,行业如何发力国产 AI 算力生态?
张亚林:整体来看,在Scaling Law法则下,我们确实在系统集约化上相对落后。第一,GPT-5的发布开始停滞了,是否能像摩尔定律一样不断发展,其实是一个问号;第二,完全通过Scaling Law进行 AI 训练,模型才是最有效方式,需要我们从更多元的方式进行发展。
未来几年会比较有意思,因为全球都会面临能源制约、大模型系统复杂度越来越高、精准化模型和专家化模型发展等诸多问题的限制,所以在 AI 算力训练部署上会发生一些变化。而中国垂直行业分工是最细的,应用的智能化程度远超国外,因此以端侧场景和人的接受度来推演,一定会倒逼 AI 推理部署往边缘和端侧发展,由此国内 AI 算力通过云、边、端一体化方式快速发展,未必完全受限于云端算力。
所以,未来中国如何更好的部署端侧、云端 AI 算力,如何发挥中国在通信网络分布式调度措施,如何让算力更加符合场景,如何聚焦大模型的精细化、行业落地以及云边端一体化,赋能基础网络,这些才是比较关键的。
在我看来,中国未来一定会在 AI 算力层面“百花齐放”。