展会信息港展会大全

谈谈DeepSeek对芯片算力的影响
来源:互联网   发布日期:2025-02-23 22:20:41   浏览:187次  

导读:本文约6,000字,建议收藏阅读作者|北湾南巷出品|芯片技术与工艺DeepSeek 是近年来在人工智能(AI)领域崭露头角的大模型之一,专注于自然语言处理(NLP)与生成式 AI(AIGC)。其核心目标是优化 AI 大模型的计算效率,降低训练成本,同时提升模型推理的性能与可用性。DeepSeek 通过一系列技术创新,如高效的 Transformer 架构优化、混合精度训练、计算并行优化以及分布式存储管 ......

本文约6,000字,建议收藏阅读

作者|北湾南巷

出品|芯片技术与工艺

DeepSeek 是近年来在人工智能(AI)领域崭露头角的大模型之一,专注于自然语言处理(NLP)与生成式 AI(AIGC)。其核心目标是优化 AI 大模型的计算效率,降低训练成本,同时提升模型推理的性能与可用性。

谈谈DeepSeek对芯片算力的影响

DeepSeek 通过一系列技术创新,如高效的 Transformer 架构优化、混合精度训练、计算并行优化以及分布式存储管理,使得 AI 训练和推理的计算需求大幅降低。这些优化不仅提升了 AI 模型在推理端的响应速度,也降低了 AI 应用在实际落地中的算力成本,使得大规模 AI 计算资源的门槛有所降低,推动了 AI 技术的进一步普及。

DeepSeek 在 AI 领域的影响主要体现在以下几个方面:

1. 提高 AI 计算效率:优化的计算架构使得训练成本大幅下降,同时提升推理阶段的执行效率。

2. 降低 AI 模型训练门槛:减少对高性能 GPU 计算资源的需求,使得更多企业可以在有限预算下训练 AI 大模型。

3. 促进 AI 应用的普及:高效的推理优化降低了 AI 应用的运行成本,有助于推动 AI 在金融、医疗、智能驾驶等多个领域的商业化落地。

4. 影响全球 AI 芯片市场:DeepSeek 可能改变市场对算力需求的结构性认知,进而影响 AI 芯片供应链的布局和投资策略。

#01AI 大模型对算力的需求趋势  近年来,AI 大模型的发展速度惊人,从 OpenAI 的 GPT 系列、Google 的 Gemini 到 Meta 的 LLaMA,AI 训练和推理的算力需求呈指数级增长。这种增长趋势主要体现在以下几个方面:


主题

详情说明

1

训练阶段的算力需求持续攀升

- AI模型参数规模不断扩大,如GPT-3(1750亿参数)、GPT-4(预计超1万亿参数)。

- 训练大模型需要大量高性能计算资源,如NVIDIA H100、A100,AMD MI300,以及国产AI训练芯片(华为腾910B、壁仞BR100)。

- 训练计算能力以GPU小时(GPU-hour)或FLOPs衡量,训练顶级AI模型可能需数千万H100 GPU小时。

2

推理阶段的算力需求急剧增长

- 训练完成的AI模型需部署到云端或终端设备,支持实际应用(如聊天机器人、搜索引擎、智能客服等)。

- AI应用用户规模快速扩大,如ChatGPT、Copilot、Claude、文心一言等日活用户达千万级,推理计算需求甚至超过训练需求。

- 端侧AI(如智能手机、车载AI助手)推动边缘计算芯片发展,进一步提升AI推理市场对高效算力的需求。

3

AI计算架构向多样化发展

- 过去AI训练和推理主要依赖GPU,但ASIC(如TPU、寒武纪思元芯片)、FPGA、RISC-V及异构计算芯片逐步进入AI计算市场。

- 云计算厂商(AWS、Google Cloud、阿里云、华为云)推出专属AI计算加速芯片,如AWS Inferentia、Google TPU、阿里含光、华为腾等,优化大规模AI任务计算效率。

谈谈DeepSeek对芯片算力的影响

AI 大模型的发展推动了算力需求的持续增长,并形成了从训练到推理全链条的计算产业生态。然而,DeepSeek 的出现可能会改变这一趋势,它通过优化计算架构降低训练成本,使得 AI 计算市场的需求结构发生潜在变化。     1.1 DeepSeek 对芯片算力市场的短期与长期影响     鉴于 DeepSeek 的技术创新,将从短期和长期两个层面探讨其对 AI 芯片市场的影响:

影响维

影响内容

可能的短期和长期影响

短期影响:AI 训练算力需求的变化

- DeepSeek通过优化计算效率,降低AI大模型的训练成本,DeepSeek V3 仅需278.8万GPU小时,比Llama 3的3930万H100 GPU小时低90%以上。

- 训练成本显著降低,推动AI大模型训练效率提升。

- 训练算力需求下降可能导致高端AI计算芯片(如NVIDIA H100、AMD MI300、华为腾910)的短期需求减少。

- 高端AI计算芯片短期需求减少,影响AI服务器和数据中心投资回报。

- 可能导致市场调整对AI芯片企业(如NVIDIA、AMD、华为、壁仞、寒武纪)的未来需求预期,进而影响股价波动。

- 市场调整,可能引发AI芯片企业股价短期波动。

长期影响:AI 推理算力需求的增长

- 尽管DeepSeek降低了训练成本,AI应用普及将推动推理计算需求增长。

- 推理计算需求增大,推动高效推理芯片(如NVIDIA L40S、AWS Inferentia、Google TPU)需求上升。

- 大规模AI推理将需要在云端、边缘侧甚至终端设备上进行,可能导致推理芯片市场扩展。

- AI计算市场将从“训练主导”转向“推理主导”,影响云计算和服务器芯片市场格局。

- 国产AI芯片企业(如华为腾、壁仞科技、天数智芯等)可能在推理端获得更大市场份额。

- 国产AI生态崛起,推动国产AI芯片在推理端的市场占有率增长。

结构性变化:算力架构多样化发展     随着 AI 算力需求的变化,未来可能出现多种计算架构共存的局面,如 RISC-V AI 处理器、异构计算 SoC、低功耗 AI 加速芯片等,以满足不同场景的 AI 计算需求。

AI 计算芯片的竞争焦点将从“大规模训练”转向“高效推理”,未来 AI 芯片设计将更关注功耗优化、定制化计算单元,以及适应 AI 算法快速迭代的能力。

谈谈DeepSeek对芯片算力的影响

综上,DeepSeek 在优化 AI 训练成本的同时,也将推动 AI 计算市场从训练算力主导向推理算力主导的方向转型。     1.2DeepSeek 的技术创新DeepSeek 作为新一代 AI 大模型,在技术上进行了多方面的创新,尤其在模型架构优化、训练方法改进和推理阶段优化方面,实现了对计算资源的高效利用。其核心目标是降低 AI 训练成本、减少计算资源消耗,同时提升推理性能,从而在 AI 计算市场上形成竞争优势。       谈谈DeepSeek对芯片算力的影响

模型架构优化:如何降低训练成本和计算资源消耗     DeepSeek 通过对 Transformer 结构进行深度优化,降低了 AI 训练对计算资源的消耗,同时提升了算力利用率。其主要技术创新包括以下几个方面:       谈谈DeepSeek对芯片算力的影响


优化技术

详细说明

1

高效Transformer结构

- 传统Transformer采用自注意力机制(Self-Attention),计算复杂度为O(N),处理长文本时训练成本高。

- 优化措施

- 稀疏注意力(Sparse Attention:裁剪不必要的依赖关系,仅保留关键部分,提高计算效率。

- 分层注意力(Hierarchical Attention:低层进行局部注意力计算,高层进行全局注意力计算,减少计算开销。

- 旋转位置编码(RoPE:提升长序列学习能力,减少GPU显存占用。

- 效果:降低训练计算量,使相同算力下可训练更大规模的模型。

2

MoE(专家混合模型)

- MoE机制通过动态计算分配减少训练过程中不必要的计算:

- 动态专家路由(Dynamic Expert Routing:仅激活部分“专家”网络,而非整个模型,减少计算资源使用。

- 门控机制(Gating Mechanism:根据输入数据特征,自动选择最合适的专家模型,降低冗余计算。

- 效果:相比全连接Transformer,计算量不变但表达能力更强,同时减少GPU资源消耗。

3

计算并行优化

- 采用多种并行计算方法提升训练效率:

- 数据并行(Data Parallelism:训练数据拆分到多个GPU,提高吞吐量。

- 模型并行(Model Parallelism:分割模型参数至多个GPU,适用于超大规模模型训练。

- 流水线并行(Pipeline Parallelism:将模型拆分成多个阶段,不同GPU处理不同阶段计算,减少等待时间。

- 效果:提升大规模训练效率,在相同硬件资源下完成更大规模的训练任务。

4

混合精度训练(Mixed Precision Training

- 采用FP16、BF16和INT8混合精度计算,降低显存占用,提高计算效率:

- FP16(半精度浮点数):减少存储空间,加速矩阵运算。

- BF16(脑浮点数):减少精度损失,保持计算稳定性。

- INT8量化:推理阶段使用低精度整数计算,进一步降低计算开销。

- 效果:减少显存占用,提高AI训练和推理性能。

谈谈DeepSeek对芯片算力的影响

相比传统 FP32 精度训练,混合精度计算可减少 50% 以上的显存占用,同时提升计算速度,使得 DeepSeek 训练更高效。     谈谈DeepSeek对芯片算力的影响

DeepSeek-R1 是参数数量最多的模型,超过600B,但其在交互过程中使用的参数数量相对较少,这可能意味着它在设计上更加高效,或者在实际应用中并未充分利用其全部参数。     训练方法改进:DeepSeek 的计算效率相比传统 AI 模型的提升       DeepSeek 在训练过程中采用了一系列优化策略,使得其相比传统 AI 模型的计算效率大幅提升。


优化技术

详细说明

1

去冗余数据训练

- 高质量数据筛选:DeepSeek不直接使用互联网数据,而是经过过滤、清理和优化,确保数据质量,提高训练效率。

- 去重与去噪:采用高效去重算法,减少重复数据计算开销,使模型更快收敛。

- 效果:减少无用数据计算需求,提高训练效率,避免模型过度学习噪声数据。

2

分布式存储与计算

- 高效计算架构:结合NVLink高速互连、RDMA(远程直接内存访问)、InfiniBand低延迟网络,提高数据传输效率。

- 减少GPU间通信开销:优化数据调度机制,降低GPU之间的数据传输时间。

- 存储优化:采用高性能SSD进行数据缓存,加快数据读取速度。

- 效果:相比传统AI练,整体训练效率提升30%-50%,减少训练时间和算力消耗。

3

自适应优化器

- 优化器类型:采用Lion、AdaFactor等自适应学习率优化器,相比AdamW计算更高效。

- 减少计算开销:优化参数更新策略,提高计算效率。

- 提高训练稳定性:减少学习率震荡,提高收敛速度。

- 效果:加快训练收敛,提高训练稳定性,减少计算资源消耗。

这些优化器改进使得 DeepSeek 训练更高效,所需 GPU 计算资源比传统模型减少 20%-40%。     推理阶段的优化:DeepSeek 在推理端的资源消耗     DeepSeek 在推理端进行了多方面优化,以降低计算资源需求,提高 AI 应用的响应速度。


优化技术

详细说明

1

动态推理机制

- 注意力缓存(KV Cache:缓存多轮对话或长文本生成时的注意力计算结果,减少重复计算,提高推理速度。

- 分块推理(Chunk-based Inference:将大规模推理任务拆分成小块,在不同GPU上并行执行,提高吞吐量。

- 效果:推理阶段计算成本降低30%-50%,减少延迟,提高用户体验。

2

模型剪枝与量化

- 剪枝(Pruning:去除低权重神经元连接,降低计算需求,提高推理效率。

- 量化(Quantization:采用8-bit甚至4-bit计算,减少计算资源消耗,同时保持推理精度。

- 效果:支持低功耗设备,如边缘设备和智能手机,推动AI应用普及。

3

推理计算框架优化

- TensorRTNVIDIA:加速GPU计算,提高推理吞吐量。

- ONNX Runtime:提升跨平台推理性能,优化推理效率。

- LLM.CPP:适用于CPU推理,降低对高端GPU的依赖。

- 效果:增强推理计算的灵活性,提高推理性能,适配不同硬件环境。

谈谈DeepSeek对芯片算力的影响

这些优化确保 DeepSeek 可在不同硬件环境下高效运行,降低企业 AI 应用的成本。DeepSeek 通过 架构优化、训练方法改进和推理阶段优化,使得 AI 计算资源的利用率大幅提升。       谈谈DeepSeek对芯片算力的影响

相比传统 AI 模型,DeepSeek 训练效率提升 50%以上,推理计算成本降低 30%-50%,对芯片算力市场的影响深远。     1.3 DeepSeek 对芯片算力市场的短期影响     DeepSeek 作为 AI 领域的新型大模型,其在模型架构、训练方法和推理阶段的优化,使得 AI 计算资源的使用效率大幅提升。这些技术改进不仅降低了 AI 训练和推理的算力需求,还对整个芯片市场产生了直接的短期影响,主要体现在以下几个方面:     训练算力需求下降:如何影响 GPU 及 AI 服务器市场


影响领域

详细说明

1

DeepSeek降低训练算力需求

- 稀疏注意力(Sparse Attention)与MoE专家混合模型(Mixture of Experts:减少不必要的计算量,训练时仅激活部分计算单元。

- 分布式训练优化:提高GPU计算利用率,减少GPU数量需求。

- 混合精度训练(FP16/BF16/INT8:降低显存占用,提高计算吞吐量。

- 效果:相比传统训练方式,DeepSeek可减少30%-50%的GPU需求,影响AI服务器市场及GPU供应链。

2

AI服务器需求下滑

- 云厂商减少GPU服务器采购:AWS、Google Cloud、Azure等云计算厂商可能放缓对NVIDIA H100、GH200服务器的采购。

- AI初创企业减少资本支出:更多企业选择租赁算力而非自建AI训练基础设施。

- 数据中心投资调整:部分AI服务器厂商(如Supermicro、浪潮Inspur)可能面临短期出货量下降压力。

3

GPU市场的价格波动

- 高端GPUH100)需求短暂回调:中小AI企业的采购需求可能减少。

- 老一代GPUA100V100)降价:由于新AI训练方法优化,旧款GPU仍可部分满足需求。

- NVIDIA可能调整产品节奏:加快新一代GPU(B100)的推出,以维持市场需求。

1.4 长期影响:算力需求的演进     随着 AI 技术的持续发展,DeepSeek 等大模型的优化不仅改变了短期的训练算力需求,也将在长期内塑造 AI 计算市场的演进方向。从推理阶段的算力需求增长,到国产 AI 生态的崛起,再到边缘计算和端侧 AI 推理的发展,算力市场将经历深刻变革。   推理阶段算力需求增长:大规模 AI 应用对芯片算力的新需求


影响领域

详细说明

1

推理需求远超训练需求

- 推理频次远超训练频次:训练一次大模型可能需要数周或数月,但模型训练完成后,将被频繁用于推理,例如ChatGPT需要持续推理计算。

- 实时性需求提升:AI应用集成到搜索、办公自动化(Copilot)、电商推荐等场景,对推理延迟要求更高,需更强算力支持。

- 高效推理优化:推理芯片需具备更高效架构,如Transformer专用加速器(TPU)、自定义AI加速核心(ASIC)、稀疏计算优化等。

- 影响:AI推理阶段的算力需求将成为主要增长点,推动AI服务器、数据中心及云端推理加速芯片市场发展。

2

推理算力需求对GPU/AI加速芯片市场的影响

- 高端GPU仍然主导云端AI推理市场:NVIDIA H100、GH200、AMD MI300X仍是云端AI推理的核心计算设备,适用于大规模AI服务。

- 专用AI加速器(ASIC)市场扩大:谷歌TPU、亚马逊Trainium & Inferentia、Meta MTIA及国产AI加速芯片(寒武纪思元、华为Ascend 310)等ASIC逐步抢占市场,提高推理效率。

- FPGA及可重构计算兴起:FPGA具备可编程性,适用于AI推理优化,如Xilinx Versal AI、Intel Agilex FPGA,未来可能在AI加速领域占据一定市场份额。

谈谈DeepSeek对芯片算力的影响

图中展示了DeepSeek的R1模型与其他公司最新模型在常用AI测试中的性能比较。图表中列出了五个不同的测试类别:编码(Coding)、定量推理(Quantitative reasoning)、推理和知识(Reasoning and knowledge)、以及科学推理和知识(Scientific reasoning and knowledge)。总的来说,图中展示了DeepSeek的R1模型在多个常用AI测试中优于其他公司的最新模型,特别是在编码和定量推理方面表现突出,得分接近满分。     长期来看,推理算力市场将朝着 高效、低功耗、专用化 方向发展,并催生出更多 AI 计算架构的创新。     边缘计算与 AI 端侧推理:对低功耗、高算力芯片的需求变化


影响领域

详细说明

1

AI计算逐步向边缘和端侧扩展

- 低时延应用需求:自动驾驶、智能安防、工业检测等应用需要实时推理计算,云端计算的延迟无法满足需求。

- 隐私与数据安全考量:医疗、金融、智能手机AI助手等应用希望在本地进行推理计算,减少数据外传,推动AI端侧计算。

- 算力分布式部署:通过云-边-端协同,提升AI计算的灵活性和适配性,提高算力利用率。

2

边缘AI计算市场的芯片需求变化

- 高能效比AI处理器:如华为腾310、寒武纪MLU220、高通AI处理单元,提供高算力低功耗的边缘AI计算能力。

- AI NPU加速单元:如苹果M系列、三星Exynos、联发科Dimensity,在移动端AI计算领域快速增长。

- RISC-V AI加速器:国产RISC-V AI处理器逐步崛起,可能成为未来AI端侧计算的重要方向。

3

长期趋势:AI 计算架构的多样化

- 云端高性能AI GPU计算:主导大规模训练与推理计算。

- 本土AI服务器适配国产芯片:如华为腾、壁仞BR100等。

- 边缘AI计算广泛部署:推动AI NPU、FPGA、ASIC计算架构发展。

- 端侧AI计算普及化:如智能手机、可穿戴设备的AI处理能力提升。

长期来看,DeepSeek 及 AI 大模型的发展将推动 AI 计算市场向推理计算需求增长、国产 AI 芯片崛起、边缘计算和端侧 AI 普及三大方向发展。未来,全球 AI 计算市场的竞争将更加激烈,国产 AI 计算生态也将迎来前所未有的机遇和挑战。     #02总 结   随着 DeepSeek 等大模型的优化迭代,AI 训练的计算成本逐步下降,使得企业和开发者可以更高效地构建和部署 AI 模型。然而,这并不意味着算力市场的整体需求会下降,相反,推理端的算力需求仍在持续增长。AI 技术的发展正在推动算力市场从“训练为主”向“训练+推理并重”转变,这将影响全球 AI 芯片产业格局,并给国产芯片厂商带来机遇与挑战。     DeepSeek 通过优化 AI 训练方式降低了算力成本,同时推动了推理端算力需求的增长。短期来看,算力市场可能出现波动,但长期趋势仍然是算力需求持续增长。国产 AI 芯片厂商迎来了新的发展机遇,同时也需要面对全球竞争和技术突破的挑战。未来,国产算力产业需要在 AI 计算架构、推理芯片、软件生态等多个方面持续发力,以实现真正的自主可控 AI 计算生态。     参考      DeepSeek R1 AI model collects a lot of user data and distorts information about China

What is DeepSeek and why is it disrupting the AI sector? | Reuters

Three things to know as the dust settles from DeepSeek | MIT Technology Review

The Open Source Revolution in AI: DeepSeek's Challenge to the Status Quo - UNU Campus Computing Centre

Does China's DeepSeek-V3 make the computing power advantages of US AI companies less important?

DeepSeek Coder

Introducing DeepSeek-V3 | DeepSeek API Docs

赞助本站

AiLab云推荐
展开

热门栏目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港