作者 |mose
来源 |默思财富
2016年,谷歌的AlphaGo一战成名,使得人工智能概念迅速在全世界掀起浪潮。在人工智能概念兴起的同一年,寒武纪也正式成立。寒武纪,作为人工智能芯片领域全球知名的新兴公司,在人工智能芯片领域取得了多项重要成果,其研发的芯片产品在性能、功耗等方面具有一定优势,能够满足不同场景下的人工智能计算需求,为推动人工智能产业的发展提供了有力的技术支持。截至目前,寒武纪的芯片产品和技术被广泛应用于数据中心、云计算、智能安防、智能驾驶等多个领域,并与浪潮信息、中科曙光等多家知名企业建立了合作关系。注:(截至26日收盘,寒武纪总市值为2719亿元) 01
ONE
龙芯项目
1971年,英特尔推出“4004微处理器”,将控制单元与运算单元集成到了一块芯片上,标志着CPU(Central Processing Unit,即“中央处理器”)的诞生。在此之前,计算机系统设计的控制单元与运算单元是分离的,控制单元负责从内存中获取指令并解码、译码,生成操作命令调度其他硬件组件,而运算单元则负责执行各种数值和逻辑运算。CPU,被誉为“芯片中的芯片”,也是技术上最难制造的芯片之一,其复杂度和性能要求极高。随着英特尔发明出CPU,CPU也开始了飞速的发展,从最初专用于数学计算到广泛应用于通用计算,从4位处理器到8位、16位、32位处理器,最后到64位处理器,从各厂商互不兼容到不同指令集架构规范的出现,CPU被广泛运用到了个人计算机终端、高性能服务器以及云服务器等领域。1999年,英伟达发布了“GeForce256”芯片,这也是世界上首款真正意义上的GPU(Graphics Processing Unit,即“图形处理器”)。GPU与CPU不同,没有CPU那么庞大的控制单元,而是通过增加执行单元和存储器控制单元的方式,提高了计算机并行处理的性能以及存储带宽,最开始主要应用于较为简单的显示器图像处理。关于CPU与GPU的不同,可以举个简单的比喻。CPU,可以看作是几个大学教授带着几个学生一起负责工作和计算,而GPU则可以看作是一个大学教授带着上万个学生一起负责工作计算。在人工智能概念出来以前,由于对于简单重复的算力需求没有那么大,CPU也比GPU更为吃香,计算机产业也将CPU视为核心,导致当时英特尔的发展要远比英伟达更好。从二十世纪九十年代末开始,中国计算机产业迎来了迅速发展,但核心的CPU技术却长期依赖国外,严重制约了中国信息产业的自主可控发展。二十一世纪初,中国政府开始高度重视芯片产业的发展,出台了一系列发展软件产业和集成电路产业的相关政策,例如设立国家集成电路产业投资基金等,为芯片企业提供了资金支持和政策保障。2001年,在中国科学院计算技术研究所(简称“中科院计算所”)知识创新工程的支持下,中国最早进行CPU研发的项目“龙芯”项目正式成立,由毕业于中国科学技术大学(简称“中科大”)的胡伟武博士担任组长,负责龙芯CPU的设计工作。2002年,寒武纪创始人陈云霁,从中科大正式毕业,凭借优异的成绩,来到中科院计算所继续连读硕博。当时,陈云霁的导师正好是胡伟武,由于龙芯项目研发人手短缺,年仅19岁的陈云霁便被安排进了龙芯研发团队,成为了团队中最年轻的成员。2002年,在陈云霁加入龙芯项目后的第一年,第一颗由中国自主研发的通用CPU龙芯1号成功发布,拥有完全的自主知识产权。龙芯1号采用了0.18微米的工艺制造,在之后被广泛应用于教育、科研、国防安全系统等领域。此后,龙芯项目于2005年和2009年分别推出龙芯2号CPU与龙芯3号CPU,不仅实现了性能的较大幅度提升,推动了国产CPU在通用计算领域不断发展,还助力中国掌握多核CPU研发的一系列关键技术,为后续更高性能处理器的研发筑牢了根基。在连读硕博期间,陈云霁全程参与了龙芯项目的研发工作,获得了宝贵的学习与实践机会,为日后的芯片研发打下了坚实的基础。
龙芯CPU除了陈云霁之外,寒武纪的另外一位关键人物,陈云霁的弟弟陈天石,也在2010年加入中科院计算所。陈天石,只比陈云霁小了两岁,在2001年时追随陈云霁的脚步,考上了中科大少年班数学与应用数学专业。在本科毕业后,颇具天赋的陈天石也顺利进入到了中科大计算机软件与理论专业连读硕博,成功获得了博士学位。在陈天石读博士的最后一年,由于经常去北京找陈云霁,一来二去便渐渐熟知了陈云霁所参与的龙芯项目,并且得到了胡伟武的赏识。所以,当陈天石在2010年博士毕业后,胡伟武便邀请陈天石加入到了龙芯项目工作。在中科大读书期间,陈天石的主攻方向是AI(人工智能)。所谓AI,是指通过计算机系统执行通常需要人类智能才能完成的任务,例如学习、推理、解决问题、理解语言、识别图像和规划等,其核心目标是让机器能够模拟人类的智能思维方式和行为模式,从而实现智能化的自动处理。陈天石进入龙芯项目后,萌生了将自己从事的人工智能研究与中科院计算所芯片设计相结合的想法,在告知陈云霁后,二人一拍即合,决定联手开展人工智能和芯片设计的交叉研究。
陈云霁(右)与陈天石(左) 02
TWO
寒武纪
2010年,陈氏兄弟在一次中科院计算所内的汇报中,报告了做AI芯片的设想,得到了中科院计算所高层的肯定。当时,中国的芯片设计落后发达国家几十年,人工智能研究同样落后几十年。然而,将人工智能与芯片组合起来共同研发,反而成为了先驱者。随着智能手机快速发展,用户已经不满足于智能手机拍照片、看视频和玩游戏等功能,也产生了更多的智能化的需求,例如图像识别、语音识别、机器翻译等。虽然,作为传统通用芯片的CPU和GPU也能实现这些功能,但由于它们的基本框架结构并不是为了人工智能领域所作的定制化设计,在效率上会受到诸多限制,计算处理的速度较低,而且还会产生巨大的耗电量。以AlphaGo为例,便使用了一千多块CPU及一百多块GPU,每下一盘棋的耗电成本就需要3000美元。所以,如果能针对人工智能开发一块专门集成化的AI芯片,就能大大减少CPU的运算任务,也能减少GPU的能耗。在陈天石眼里,这种AI芯片应当是一种新型的处理器,能具有广阔的应用,包括语音、语义、图像、视频、自然语言多模态处理能力,具备远超CPU和GPU的效率。同时,想让AI芯片把各种计算处理得又快又好,还必须要有一套新的AI指令集进行处理。2012年,法国国家信息与自动化研究所的Olivier Temam教授第一次提出了“AI加速器”的概念,并与陈氏兄弟开展合作研究。同年,陈氏兄弟带着几个中科院计算所的师弟,这里面包括了后来在寒武纪担任高管的同事,联合Olivier Temam教授启动了AI芯片项目,项目名称为“DianNao”(“电脑”的中文拼音),这也是之后寒武纪的技术来源。2014年,陈氏兄弟团队在国际学术会议ASPLOS上发布了处理器架构“DianNao”,它是国际面向通用机器深度学习的处理器架构。深度学习,是人工智能的重要分支,主要通过构建和训练深度神经网络模型来实现对数据的学习和分析,以完成如语音识别、图像识别、自然语言处理等复杂任务。“DianNao”架构,是针对深度学习中的神经网络算法进行优化,能够高效地处理各种机器学习任务,为后续的人工智能芯片研发奠定了基础。同年,陈氏兄弟团队在国际学术会议MICRO上发布了首个多核深度学习处理器架构“DaDianNao” (“大电脑”的中文拼音),它是在DianNao架构基础上的进一步扩展和优化,具有高速运算能力、高存储能力和低能耗等特点,集成了更多的处理单元和存储资源,能够支持更大规模的AI模型训练和推理,为神经网络模型的高性能计算提供了有力的支持。
寒武纪“DianNao”的内部结构此后两年时间里,陈氏兄弟团队几乎横扫了处理器架构学术圈,陆续发布了“PuDianNao”(“普电脑”的中文拼音,通用机器学习处理器)、“ShiDianNao”(“视电脑”的中文拼音,图像识别处理器)等处理器架构,以及国际首个人工智能处理器指令集“Cambricon ISA”(寒武纪指集),将通用机器深度学习的效率提高数百倍。陈氏兄弟团队在计算机体系结构方面的系列技术成果,陆续获得了国际四大顶级会议的认可,包括了在ASPLOS上有两篇,ISCA上有两篇,MICRO与HPCA上各有一篇,这些国际学术界的认可也让陈氏兄弟团队的研究工作得到了更多的关注。对于陈氏兄弟团队来讲,实验室的成就并不是他们的目标,他们希望可以把科研成果带出实验室,给群众生活带来改变。2015年,陈氏兄弟团队获得了中科院先导专项数千万元的资助,在这笔资金的支持下,仅20人的研发团队便推出了世界首款“深度学习专用处理器原型芯片”,该芯片能够有效解决传统CPU和GPU在通用机器深度学习时面临的效率和能耗问题。同年,陈云霁凭借该“深度学习专用处理器原型芯片”,申报并入围了苏州工业园区第九届科技领军人才计划。此后,在苏州工业园区的推荐下,陈云霁结识了“苏州工业园区元禾原点创业投资管理有限公司”(简称“元禾原点”)的投资人乐金鑫,两人一拍即合,乐金鑫很快便决定了要投资陈氏兄弟的AI芯片项目。2016年,陈氏兄弟在中科院、元禾原点等机构的投资下,成立了“北京中科寒武纪科技有限公司”(简称“寒武纪”),由陈天石担任公司CEO,而陈云霁选择继续在中科院计算所搞科研,并担任寒武纪的首席科学家。之所以将公司命名为“寒武纪”,是陈云霁认为这个地质纪年是生物多样性大爆发的时代,希望人工智能也能像寒武纪的生物一样出现大爆发。
03
THREE
AI芯片
2016年,寒武纪在成立的第一年,便发布了世界首款终端人工智能专用处理器IP寒武纪1A。其中,IP(Intellectual Property)在芯片领域,代表的是由芯片设计师开发出来,在芯片中具有独立功能的电路模块,视为一种知识产权。寒武纪IA支持视觉、语音、自然语言处理等多种智能任务,主要面向智能手机、智能音箱、智能摄像头、安防监控、可穿戴设备、无人机和智能驾驶等各类终端设备。寒武纪1A一经推出,便被“海思华为半导体芯片公司”(简称“华为海思”)看中,集成进了麒麟970芯片,随麒麟970芯片被应用到2017年发布的华为手机Mate10,这也是全球手机行业首次引入人工智能的概念。之后,寒武纪一炮而红,乘势拿下了上亿元的订单,还获得了联想创投、阿里巴巴创投、国投创业、国科投资、中科图灵、元禾原点等投资机构共计1亿美元的A轮融资,估值达了10亿美元,成为全球人工智能芯片领域诞生的第一个独角兽公司。2017年,寒武纪发布了第二代终端人工智能专业处理器IP寒武纪1H16与寒武纪1H8。寒武纪1H16,与寒武纪1A相比,在性能上有了显著提升,拥有更高的能效比和更广泛的通用性,能满足不同场景下的高性能需求;寒武纪1H8,则主要面向低能耗的场景视觉应用领域,与寒武纪1A在同样的处理能力下具有更低的能耗,更适合对能耗有严格要求的设备和场景。此外,寒武纪还推出面向开发者的人工智能软件平台“Cambricon NeuWare”,作为寒武纪生态系统的重要组成部分。Cambricon NeuWare支持各主流人工智能编程框架,例如TensorFlow、PyTorch等,这令开发者能方便地将已有的基于这些框架开发的模型迁移到寒武纪芯片平台上进行优化和部署,降低了开发门槛和成本,提高了开发效率。同时,Cambricon NeuWare也有助于吸引更多开发者、研究机构和企业加入寒武纪的生态,共同推动人工智能技术的发展和应用创新,形成良好的产业生态环境,促进人工智能产业的协同发展。2018年,寒武纪发布了第三代终端人工智能处理器IP寒武纪1M,可以提供更高性能、更低能耗的深度学习解决方案,适用于各类低能耗智能终端芯片,其数据处理能力是寒武纪1A的10倍。
寒武纪终端智能处理器IP与此同时,寒武纪还发布了第一代云端智能处理器MLU100,主要应用于大规模数据中心和服务器,可用于大数据量、多任务、多模态、低延时、高通量的云端智能处理,能够为云计算、数据中心等领域的人工智能应用提供有力的硬件支持。MLU100与寒武纪1A、寒武纪1H和寒武纪1M等应用于终端设备的处理器IP完美适配,能充分满足多种复杂场景下的云端智能处理需求,实现端云之间的高效协同。例如,在智能安防领域,终端摄像头搭载了寒武纪1A进行图像初步识别和筛选,将关键数据上传至云端的MLU100进行深度分析和处理,从而提高整个系统的智能处理效率和准确性。随着MLU100的发布,寒武纪也成为了中国第一家,也是世界上少数几家同时拥有终端和云端智能处理器产品的商业公司。寒武纪发布MLU100后,又推出MLU100云端智能加速卡。MLU100负责提供基础计算能力,执行各种复杂人工智能算法和模型,而云端智能加速卡则是将云端智能处器与内存、电源管理芯片、散热模块等电子元件集成于一块印刷电路板上形成的独立板卡产品,可直接插入服务器或其他设备插槽使用,主要用于加速人工智能推理和训练过程,提升训练效率。在寒武纪发布了MLU100一个月后,便完成了数亿美元的B轮融资,领投的机构为清一色的国家队,包括了古生代创投、国投基金、智科胜讯、宁波瀚高等。在B轮融资过后,寒武纪的整体估值也达到了25亿美元,领跑全球人工智能芯片的创业公司。之后,寒武纪在2019年至2021年间陆续推出了MLU270、MLU290和MLU370,以及他们的云端智能加速卡产品,进一步丰富了寒武纪的云端产品线,提升了在云端相关市场的竞争力。
MLU370芯片与MLU370智能加速卡2020年,寒武纪在科创板上市,每股发行价为64.39元,共计发行4010万股,总募资金额为25.82亿元,成为了国内AI芯片第一股。在上市首日,寒武纪股价便突破了每股200元,总市值突破了千亿元。2021年,寒武纪成立了“寒武纪行歌(南京)科技有限公司”,主要负责研发智能驾驶处理器产品,以及智能驾驶软件平台的开发,为全球汽车产业客户提供一站式的智能驾驶解决方案。2023年,寒武纪为了更好服务第一大客户“台州市黄岩置成物产管理有限公司”,在台州市专门成立了“寒武纪(台州)科技有限公司”,主要负责拓展人工智能基础资源与技术平台、人工智能行业应用系统集成服务等业务。此外,寒武纪还在苏州设立了研发点,在雄安、上海、深圳等地设立了分公司,优化公司的资源配置,加快了募资项目的实施建设。
04
FOUR
业绩情况
现在,寒武纪除了云端产品业务之外,还有智能计算集群系统、边缘产品和IP授权及软件业务其他三个业务板块。智能计算集群系统业务,则主要是指寒武纪将自研的加速卡或训练整机产品(不包括云端智能加速卡及训练整机),通过合作伙伴提供的服务器设备、网络设备与存储设备结合,并配备寒武纪的集群管理软件组成的数据中心集群,其核心算力来源于寒武纪自研的云端智能处理器。边缘产品业务,主要是近年来兴起的边缘计算,是在终端和云端之间的设备上配备适度的算力,例如终端设备里的智能传感器、工业控制单元等。通过在这些边缘设备上添加算力,一方面弥补终端设备算力不足的劣势,另一方面缓解云计算场景下的数据隐私、带宽与延时等潜在问题。IP授权及软件业务,主要包括了IP授权和基础系统软件平台。IP授权,主要是将智能处理器IP授权给客户在其芯片等产品中使用;基础系统软件平台,则主要是指前面提到的人工智能软件平台“Cambricon NeuWare”,以及其他为云端与终端智能处理器产品提供的平台级基础系统软件。寒武纪在公司成立后,很快便实现AI芯片的商业化,通过与华为海思合作,将其终端智能处理器广泛应用于华为的智能手机芯片中,在一定程度上推动了营收增长。然而,在芯片研发领域,寒武纪为了能够保持技术领先,每年需要投入大量资金用于研发,高额研发投入虽然令寒武纪能不断推出新技术与新产品,提升了竞争力,进而推动营收增长,但也使得公司一直无法实现盈利。从2017年至2019年,寒武纪分别实现营收784.33万元、1.17亿元和4.44亿元,但却亏损了3.81亿元、0.41亿元和11.79亿元。其中,寒武纪在2017年到2019年的研发费用分别为0.3亿元、2.4亿元和5.43亿元,研发费用率分别为380.73%、205.18%和122.32%,研发投入远超同期营收。从2019年起,由于华为海思开始自研芯片,致使寒武纪的终端智能处理器IP业务营收持续下降。面对这种情况,寒武纪通过加大云端智能处理器及加速卡、智能计算集群系统等业务的市场拓展,与其他客户建立合作关系,弥补了华为海思订单减少带来的影响。2020年至2023年间,寒武纪分别实现营收4.59亿元、7.21亿元、7.29亿元、7.09亿元,同比增长了3.38%、57.12%、1.11%和-2.7%。同时,由于寒武纪持续增加研发投入,在2020年至2023年间分别投入了7.68亿元、11.36亿元、15.23亿元和11.18亿元,导致寒武纪分别实现亏损4.35亿元、8.25亿元、12.56亿元和8.48亿元。与此同时,寒武纪的终端智能处理器IP业务营收也从2019年的6877.12万元下降至2023年的23.38万元,营收占比也从15.49%下降到接近0。进入2024年,寒武纪经营情况有所好转,在2024年前三季度,寒武纪实现营收1.85亿元,同比增长了27.09%,实现亏损7.24亿元,亏损幅度继续缩窄,同比增长了10.31%。
寒武纪近年营收与净利润情况随着以大模型为代表的人工智能技术兴起,对人工智能芯片为代表的智能算力需求爆发,使得寒武纪在持续亏损了7年的情况下,依然受到了资本市场的关注,使得其股价从2023年1月的46.59元暴涨至2024年的654.99元,增长超过了14倍。然而,在股价持续增长的背后,寒武纪是否真的符合其股价上涨体现出来的价值。首先,寒武纪在2022年被美国商务部列入“实体清单”,使得寒武纪在采购半导体制造设备,芯片设计工具,以及与部分供应商的合作等方面都受到了阻碍,影响了产品的生产和交付进度。其次,由于寒武纪AI芯片采用的是专用集成电路架构,是针对人工智能特定需求的定制芯片,产品通用性和兼容性方面远不如英伟达的GPU,导致在云端智能计算,边缘智能计算,以及智能计算集群系统等市场的竞争实力严重不足。此外,寒武纪面对人工智能市场需求的快速变化和不确定性,还需要面对英伟达、英特尔等国际巨头,以及海光信息、华为海思等国内企业的激烈竞争,生存空间也受到挤压,产品具有较大的替代风险。最后,寒武纪还面临芯片产品研发周期长,商业化应用较慢,高研发投入在短期内无法带来匹配的产出等问题。在经营风险不断暴露,叠加公司持续亏损的情况下,寒武纪的创投股东们也纷纷减持套现。在2023年,国投基金、古生代和宁波瀚高等纷纷清仓出局,套现超过了40亿元。或许,在各种各样的困境下,寒武纪依然有着自己的独到之处,才能被资本所看好,依然相信寒武纪把握住通用型芯片产品无法兼容的痛点,针对特定人工智能的场景,实现在特定市场的覆盖,从而形成一定的销售规模。对于陈氏兄弟来说,他们的长期奋斗目标,也不只是简单地开发出来芯片而已,而是希望通过特定的人工智能芯片,将人工智能领域的计算效率提高一万倍,能耗降低一万倍,将人工智能助手植入每个人的智能手机,为人类带来更多意想不到的美好生活。不过,在科技发展逐步加快的今天,资本还有多少时间留给寒武纪和陈氏兄弟去实现理想,值得令人好奇。参考文章:
《一文看懂AI芯片-寒武纪(688256)》
《从“冷门”中诞生,“寒武纪”是怎样炼成的?》
《寒武纪的前世今生与未来》
《【国内AI芯片第一股】开创“寒武纪”:中科院的、中国的、世界的》
《号称“民族芯”希望,寒武纪真能叫板英伟达?》
《出走的门徒之十-寒武纪陈天石:AI的“石器”时代》
《股价首次突破600元,公司却连续多年亏损,寒武纪凭什么》