展会信息港展会大全

DeepSeek适配国产芯片:差异化表现,商用前景各异
来源:互联网   发布日期:2025-02-23 22:20:46   浏览:208次  

导读:在DeepSeek热浪的席卷之下,各大国产GPU公司纷纷投身适配浪潮。看似相同的动作,背后却各有千秋。如今,业内报道多聚焦于适配 DeepSeek 的公司数量,却很少有人去深究这些公司间的差异。究竟是技术路线存在分歧,还是性能表现高低有别?是生态建设各具特色,亦或是应用场景有所不同?01适配模型,选原版还是蒸馏版?从适配 Deepseek 模型的角度来看,芯片厂商的动作可大致归为 ......

DeepSeek适配国产芯片:差异化表现,商用前景各异

在DeepSeek热浪的席卷之下,各大国产GPU公司纷纷投身适配浪潮。

看似相同的动作,背后却各有千秋。

如今,业内报道多聚焦于适配 DeepSeek 的公司数量,却很少有人去深究这些公司间的差异。究竟是技术路线存在分歧,还是性能表现高低有别?是生态建设各具特色,亦或是应用场景有所不同?

01

适配模型,选原版还是蒸馏版?

从适配 Deepseek 模型的角度来看,芯片厂商的动作可大致归为两类。一类是对原生 R1 和 V3 模型进行适配,另一类则是适配由 R1 蒸馏而来的小模型 。

至于这三者的区别:

Deepseek R1定位为推理优先的模型,专为需要深度逻辑分析和问题解决的场景而设计。其在数学、编程和推理等多个任务上可达到高性能。

Deepseek V3定位为通用型的大语言模型,其在多种自然语言处理任务中实现高效、灵活的应用,满足多领域的需求。Deepseek R1/V3原版模型通常具有较大的参数量,结构相对复杂。

DeepSeek-R1系列蒸馏模型是基于DeepSeek R1进行蒸馏得到的轻量级版本,参数量较少,结构更精简旨在保持一定性能的同时降低资源消耗。适合轻量级部署和资源受限场景,如边缘设备推理、中小企业快速验证 AI 应用。

虽说各家均在抢占适配Deepseek的高地,但实际上各家所适配的模型类型也并不相同。

DeepSeek适配国产芯片:差异化表现,商用前景各异

上图可见,虽主流GPU厂商均在加速适配DeepSeek模型的节奏,但明确宣布适配DeepSeek R1及V3原版模型的只有一半左右。这类模型对芯片的计算能力、内存带宽以及多卡互联等技术要求极高。其中包括华为腾、海光信息

另一部分厂商则主要支持 DeepSeek-R1 系列蒸馏模型(参数规格在 1.5B - 8B 之间)。这些蒸馏模型的原始模型是通义千问和LLAMA,因此原本能够支持通义千问和LLAMA模型的平台,基本上就能适配这些DeepSeek的蒸馏模型,工作量也相对较小。包括摩尔线程、壁仞科技等。

不同大小的模型所适应的场景不一样,云端推理需要模型参数比较大,模型性能最好,主要适配原生 R1 或者 V3 模型;端侧芯片主要适配 1.5B~8B 间的模型,这类模型推理结构非常成熟,无需花费额外的工作 。

02

不同公司,优势何在?

除了所适配的模型种类有别外,各家所选取的技术路线也有所不同,适配时遇到的难度也各不相同。

首先,从当前的技术生态和实际应用场景来看,DeepSeek模型的运行和适配主要依赖于英伟达的硬件和编程语言,而各家厂商的适配能力则取决于其对原始开发生态的兼容性。

这也意味着,DeepSeek 目前主要适配英伟达芯片,这对其他硬件平台的应用和性能有一定影响。因此是否容易适配基于英伟达GPU开发的DeepSeek等大模型,与芯片是否兼容CUDA有关。能兼容CUDA的厂商,彼此间兼容程度也有不同。

其次,从性能表现来看,不同GPU的计算能力(如FLOPS、内存带宽)不同,也直接影响DeepSeek在处理大规模深度学习任务时的速度。某些GPU可能在能效比上表现更优,适合在低功耗环境下运行DeepSeek。

接下来,读者不妨看看主流芯片公司在适配 DeepSeek 时,各自具备的优势与面临的挑战。

DeepSeek适配国产芯片:差异化表现,商用前景各异

华为腾(Ascend)

腾拥有芯片+框架+工具链等全栈AI能力,与DeepSeek的技术栈适配潜力大。

从硬件方面来看,腾910芯片针对AI训练和推理优化,算力密度高,尤其适合大规模模型训练。

从软件生态方面来看,CANN异构计算架构和MindSpore框架深度绑定,若DeepSeek基于MindSpore优化,腾适配性极强;同时支持PyTorch/TensorFlow的迁移工具。

关于腾适配DeepSeek面临的挑战,若DeepSeek依赖CUDA生态,需通过华为的兼容层(如腾异构计算加速库)转换,可能损失部分性能。

海光信息(DCU)

海光的优势是海光 DCU 兼容通用的“类CUDA”环境,以及擅长高性能计算。

从硬件方面来看,基于AMD CDNA架构的DCU系列,兼容ROCm生态,对CUDA代码迁移友好,适合需兼容现有生态的DeepSeek场景。

从场景适配方面来看,在智算中心应用成熟,若DeepSeek侧重HPC+AI融合场景(如科学计算),海光更具优势。

关于海光适配DeepSeek面临的挑战,或许在软件工具链成熟度上。

燧原科技(邃思)

燧原的优势在于云端AI训练与推理。

在架构设计方面,邃思芯片针对Transformer等大模型优化,计算密度高,适合DeepSeek的大规模参数场景。

在软件适配方面,燧原支持TF/PyTorch主流框架,提供自动化编译工具,降低DeepSeek迁移成本。

关于燧原适配DeepSeek面临的挑战,其生态影响力较弱,需依赖客户定制化合作。

沐曦(MXN)

沐曦的优势在于GPU通用性与CUDA兼容性。

在兼容性方面,MXN系列兼容CUDA,若DeepSeek重度依赖CUDA生态,沐曦的迁移成本相对较低。

在产品性能方面,沐曦GPU理论算力对标国际旗舰产品,适合高算力需求场景。

关于沐曦适配DeepSeek面临的挑战,产品量产进度和实际落地案例较少,需验证稳定性。

天数智芯(天垓)

天数智芯的优势在于兼容CUDA生态。

从生态适配方面,天垓BI芯片兼容CUDA,对已有代码库的DeepSeek项目友好。

关于天数智芯适配DeepSeek面临的挑战,高端算力不足,支撑千亿级大模型训练存在压力。

壁仞科技(BR系列)

壁仞科技的单芯片算力峰值高。

从硬件指标来看,高算力峰值使其适合需要极致算力的DeepSeek任务。

关于壁仞适配DeepSeek面临的挑战,软件栈成熟度待提升。

昆仑芯

与百度PaddlePaddle深度绑定,若DeepSeek与百度生态协同,适配性较强。

摩尔线程(MTT S系列)

聚焦图形渲染与AI融合场景,适合DeepSeek的多模态应用(如3D视觉),但通用计算能力有限。

云天励飞/太初元

侧重边缘端推理,若DeepSeek部署在终端设备,这两家更具优势。

龙芯

龙芯目前以CPU为主,GPU产品处于早期阶段,适配DeepSeek暂不成熟。

在近期行业紧锣密鼓地适配 DeepSeek 系列模型后,如何商用成为这一问题的焦点。

03

DeepSeek商用,有哪些形式?

云上部署

比如:DeepSeek模型通过华为云平台提供服务,企业客户可以通过API调用或云服务直接使用DeepSeek的功能,如图像识别、自然语言处理、语音识别等。企业根据实际使用量(如计算资源、API调用次数)付费,降低前期投入成本。云服务模式无需企业本地部署硬件,能够快速上线和应用。

本地化部署

一体机形式:目前DeepSeek大模型一体机分为推理一体机和训推一体机。DeepSeek推理一体机内置DeepSeek-R1 32B、70B、满血版671B等不同尺寸模型,价格在几十万到数百万不等,主要面向对数据安全、数据隐私较为敏感的企业用户。而训推一体机的售价更高,用于DeepSeek-R1 32B模型的预训练和微调的一体机价格就达到数百万。

企业自行部署:对于对性能要求极高的企业(如自动驾驶、金融风控)或者对安全性需求极高的企业(如政府和金融机构),DeepSeek模型可以本地部署在GPU芯片等硬件上,实现“满血”性能。

从当前的商用模式来看,由于本地部署GPU芯片和DeepSeek模型的成本较高,企业用户会先在公有云上进行测试,与需求是否适配,再考虑私有云部署、一体机等形式。因此,中小企业可能更倾向于通过云服务使用相关技术。

自然,部分对数据安全高度重视或急需高性能算力的企业,不惜投入十万乃至百万资金,部署一体机以满足自身需求。随着 DeepSeek 开源模型的发展,其私有化部署需求日益凸显,一体机化等相关市场正蓬勃发展,吸引众多企业投身其中。

04

DeepSeek商业化,芯片公司谁做的更好?

在DeepSeek概念里,腾和海光的商业化都取得了不错的进展。

一体机热销,腾得到利好

腾:70%的企业将基于腾向DeepSeek靠拢。

近日,DeepSeek一体机的发布厂商包括华鲲振宇、宝德、神州鲲泰、长江计算等,均基于腾产品构建。

可以看到,随着DeepSeek一体机的密集发布,腾的产业联盟正在不断扩大。

据悉,目前已有超过80家企业基于腾快速适配或上线了DeepSeek系列模型,并对外提供服务。预计未来两周内,还将有20多家企业完成上线。这意味着,国内70%的企业将基于腾向DeepSeek靠拢。

相较于进口GPU方案,腾芯片的本地化服务和团队对部署DeepSeek的效果影响显著。以万卡规模的数据中心为例,MindSpore工具链的自动并行功能使得分布式训练代码量减少了70%。

海光:智算中心、金融等多场景渗透

海光与 DeepSeek 的合作覆盖智算中心、金融、智能制造等核心场景。

在智算中心方面,海光信息联合青云科技推出 “海光 DCU + 基石智算 + DeepSeek 模型” 方案,支持按 Token 计费的灵活调用模式,降低企业 AI 应用门槛。

在金融科技方面,中科金财与海光信息技术股份有限公司联合推出了软硬一体解决方案。该方案融合了自研的多场景多基座大模型引擎与海光DCU系列加速卡,并完成了与DeepSeek模型的深度适配。

在智能制造方面,海光 DCU 通过适配 DeepSeek-Janus-Pro 多模态模型,赋能工业视觉检测与自动化决策,助力三一重工等企业实现产线智能化升级。

在数据管理方面,空天数智打造的 “睿思矩阵数据存管用平台” 全面适配海光 DCU,将 DeepSeek 嵌入平台,作为 “超级引擎” 深入海量数据,为自然资源、能源电力、航空航天等领域提供数据处理支持。

此外,新致软件联合中科海光,正式发布新致信创一体机以海光K100 GPU服务器为算力基石,深度融合新致新知人工智能平台与DeepSeek系列大模型,为企业提供从芯片到模型的全栈国产化AI解决方案,开启安全、高效、敏捷的智能化转型新时代。

京东云也发布DeepSeek大模型一体机,支持华为腾、海光等国产AI加速芯片。

05

国产GPU,机会来了

随着DeepSeek一体机等应用的推出和广泛应用,市场对国产芯片的需求正在显著增加。

沐曦科技CTO杨建表示,大模型后训练部分预计今年会有更多非英伟达卡加入,DeepSeek推动的大模型私有化部署,对国产芯片而言也是机会。

“2025年国产GPU的一个机会在于私有化部署,基本上这个市场会以大模型后训练和推理为主。”杨建表示,基于英伟达应用于AI领域的GPU进入国内市场的方式,英伟达卡在零售市场上基本消失了,而私有化部署较依赖零售市场。若私有化部署市场爆发,国产卡将会有很大机会。

随着海外芯片算力限制带来的难题逼近,全球算力可能会形成两条并行路线,逐渐脱钩。到2026年、2027年,美国预训练和后训练的算力基座预计仍是英伟达,在国内则是有一部分由英伟达承担、一部分由国产芯片承担。其中,后训练部分今年逐渐会有更多非英伟达卡加入,这是因为后训练对集群要求相对较低,不太需要千卡以上集群。

天数智芯相关人士也表示,随着国产模型取得突破,对国产芯片适配需求增加,今年国产芯片有较大发展机会。

DeepSeek模型的火热也暗含着AI应用爆发的机会,芯片厂商将目光转向AI应用所需的推理算力。去年国内评测芯片时主要着眼训练,将国产芯片作为英伟达训练的替代品,2025年开始将有一个变化,即大家会逐渐看国产芯片在推理市场的机会。

上海人工智能研究院数字经济研究中心资深咨询顾问于清扬提到DeepSeek对国产芯片的促进。“DeepSeek通过强化学习机制将模型的无效训练降低60%,对并行计算的需求较传统架构降低40%,使国产芯片在特定计算任务中的能效比可达英伟达GPU的75%。”

与此同时,不仅限于GPU芯片,在AI推理侧有细分优势的ASIC、FPGA等芯片也将有丰富的发展机会。值得注意的是,虽然前文所述DeepSeek的火热给国产芯片公司带来诸多机遇,但是由于DeepSeek对英伟达CUDA生态仍有明显的路径依赖,国产芯片公司还需在互联和生态等诸多方面进一步完善。

赞助本站

AiLab云推荐
展开

热门栏目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港