展会信息港展会大全

万字揭秘DeepSeek:顶尖AI人才年薪千万,训练成本被低估
来源:互联网   发布日期:2025-02-04 18:08:53   浏览:241次  

导读:这可能是迄今为止海外对 DeepSeek 最全面的一份分析报告,来自知名半导体研究机构 Semianalysis。从 DeepSeek 让训练成本大幅降低的 MLA 模式,R1 和 o1 等模型的性能对比,人均年薪千万的顶尖人才,还指出目前 DeepSeek 的成本估算是错误的,推测其拥有大约 5 万块Hopper GPU……关于 DeepSeek目前很多甚嚣尘上的传言,这篇文章依据现有信息给出了更客观的论述。图灵奖得主杨 ......

这可能是迄今为止海外对 DeepSeek 最全面的一份分析报告,来自知名半导体研究机构 Semianalysis。

从 DeepSeek 让训练成本大幅降低的 MLA 模式,R1 和 o1 等模型的性能对比,人均年薪千万的顶尖人才,还指出目前 DeepSeek 的成本估算是错误的,推测其拥有大约 5 万块Hopper GPU……

关于 DeepSeek目前很多甚嚣尘上的传言,这篇文章依据现有信息给出了更客观的论述。

万字揭秘DeepSeek:顶尖AI人才年薪千万,训练成本被低估

图灵奖得主杨立昆最近再次发表了关于 DeepSeek 的观点,他指出硅谷某些圈子的通病,是认定别处的创新都是靠作弊得来的。

而科技要快速进步,恰恰需要让更多人才参与并共享创新成果。在 DeepSeek 的开源模型上,我们也看到了这种愿景。

报告原文:

https://semianalysis.com/2025/01/31/deepseek-debates/

APPSO 整理了这篇分析报告中的关键要点:

推测 DeepSeek 大约有5万块 Hopper GPU,在 GPU 上的投资总额超过 5 亿美元。

广为讨论的 600 万美元成本仅指预训练过程中 GPU 的花费,这只是模型总成本的一部分。

DeepSeek 团队目前约 150 人,从北大浙大等中国高校招聘人才,年薪可达千万。

多头潜在注意力(MLA) 是 DeepSeek 大幅降低推理成本的关键创新,将每次查询所需的 KV 缓存减少了约 93.3%。

在推理性能上 R1 与 o1 不相上下,而 o3 的能力明显高于 R1 和 o1。

DeepSeek 风暴席卷全球

过去一周,DeepSeek 成为了全世界人们唯一热议的话题。

目前,DeepSeek 的日活(据悉超过 1900万)已经远高于 Claude、Perplexity 甚至 Gemini。

然而,对于长期关注 AI 行业的人,这个消息不算新鲜。我们已经讨论 DeepSeek 数月,对这家公司并不陌生,但疯狂的炒作却出乎意料。SemiAnalysis 一直认为 DeepSeek 极具才华,而美国更广泛的公众并不在意。

万字揭秘DeepSeek:顶尖AI人才年薪千万,训练成本被低估

当世界终于关注到这家公司,其中狂热的舆论并没有完全反映它的真实情况。

我们想强调的是,舆论已经发生了转变。上个月,当 Scaling Laws (扩展定律)被打破时,我们就已揭穿了这个神话;如今,算法改进的速度过快,而这在某种程度上对英伟达和 GPU 不利。

现在大家讨论的是,DeepSeek 效率如此之高,以至于我们不再需要更多的计算资源,而由于模型的变革,出现了巨大的产能过剩。

虽然杰文斯悖论(Jevons Paradox)也被过度炒作,但它更接近现实,因为这些模型已经引发了需求,对 H100 和 H200 的定价产生了实质性的影响。

编者注:杰文斯悖论简单来说就是,当某种资源的使用效率提高后,虽然单次使用时消耗更少,但因为成本降低、使用更方便,反而可能让人们用得更多,导致整体消耗量反而上升。

5 万块 Hopper GPU

幻方量化是一家中国对冲基金,也是最早在其交易算法中采用 AI 的先行者。他们早早就意识到 AI 在金融以外领域的潜力以及扩展能力的重要性,因此不断增加 GPU 的供应。

经过使用数千个 GPU 集群进行模型实验后,幻方量化在 2021 年,在任何出口限制出台之前,就投资了 10000 个 A100 GPU。

这笔投资得到了回报。随着幻方量化的不断进步,他们意识到是时候在 2023 年 5 月剥离出 「DeepSeek」,以更专注地追求进一步的 AI 能力。

当时由于外部投资者对 AI 缺乏兴趣(主要担心商业模式问题),幻方量化自筹资金成立了这家公司。如今,幻方量化与 DeepSeek 经常共享资源,包括人力和计算资源。

如今,DeepSeek 已经发展成为一项严肃且协同的重要项目,绝非很多媒体所称的「副业项目」。

我们相信即使考虑到出口管制因素,他们在 GPU 上的投资总额超过 5 亿美元

万字揭秘DeepSeek:顶尖AI人才年薪千万,训练成本被低估

我们认为,他们大约拥有 50000 个 Hopper GPU,但这并不等同于拥有 50000 个 H100 GPU。

英伟达根据不同法规要求推出了不同版本的 H100(例如 H800、H20),目前只有 H20 可供中国大模型公司使用。需要注意的是,H800 的计算能力与 H100 相同,但其网络带宽较低。

我们认为 DeepSeek 拥有大约 10000 个 H800 和大约 10000 个 H100。此外,他们还订购了更多的 H20,过去 9 个月内,英伟达已为中国市场生产了超过 1000000 个此类 GPU。

这些 GPU 在 幻方量化和 DeepSeek 之间共享,并在地理上有所分布。它们被用于交易、推理、训练和研究。

万字揭秘DeepSeek:顶尖AI人才年薪千万,训练成本被低估

我们的分析显示,DeepSeek 的服务器资本支出总额约为 16 亿美元,其中与运营这些集群相关的成本高达 9.44 亿美元。

同样,由于资源集中化是一大挑战,所有 AI 实验室和超大规模云服务商都拥有比单次训练运行所使用的 GPU 数量要多得多,用于研究和训练的任务。

年薪近千万,在中国高校挖顶尖人才

DeepSeek 完全从中国招聘人才,不拘泥于以往的资历,而是高度重视能力与好奇心。DeepSeek 定期在北京大学、浙江等顶尖高校举办招聘活动,许多员工均毕业于这些院校。

岗位职责并完全固定,招聘时会有一定灵活性,招聘广告甚至宣称可以无限制调用 10000 多个 GPU 。

这些职位竞争极为激烈,据称对有潜力的候选人提供的薪资超过 130 万美元(约合 934 万人民币),远高于中国大型科技公司和 AI 实验室(如 Moonshot)等竞争对手。

目前 DeepSeek 约有 150 名员工,但正在迅速扩张。

历史证明,一家资金充足且专注的小型初创公司往往能够突破界限。

DeepSeek 不具备像 Google 那样的官僚主义,由于其自筹资金,能够迅速推进新想法。

然而,与 Google 类似,DeepSeek(在大多数情况下)自建数据中心,而不依赖外部方或供应商。这为进一步实验提供了更大空间,使他们能够在整个技术栈上实现创新。

我们认为,他们是当今唯一最优秀的「开源权重」实验室,超越了 Meta 的 Llama 项目、Mistral 以及其他竞争者。

DeepSeek 的极低成本被误读了

DeepSeek 的价格与效率引发了硅谷科技圈地震的关键。

然而,关于 DeepSeek V3 的训练成本为 600 万美元这个广为流传的数字,其实是片面的。这相当于只关注产品物料清单中的某一部分,并将其视为全部成本。预训练成本仅仅是总成本中很小的一部分。

我们认为,预训练所支出的成本,远远不能代表模型所花费的总成本。

我们相信 DeepSeek 在硬件上的支出远超过 5 亿美元。他们为了开发新的架构创新,在模型开发过程中,花费了大量资金用于测试新思路、新架构和消融实验。

多头潜在注意力(Multi-Head Latent Attention)  DeepSeek 的一项关键创新,耗时数月开发,花费了整个团队的大量人力和 GPU 计算时间。

论文中提到的 600 万美元成本仅指预训练过程中 GPU 的花费,这只是模型总成本的一部分。研发费用以及硬件本身的总体拥有成本等重要部分并未包含在内。

作为参考,Claude 3.5 Sonnet 的训练成本达数千万美元,如果那就是 Anthropic 的全部成本,那么他们就没必要从 Google 融资数十亿、从亚马逊融资数十亿美元。因为这是他们进行实验、提出新架构、收集和清洗数据、支付员工工资的必要成本。

那么,DeepSeek 是如何获得如此大规模的集群的呢?出口管制的滞后是关键,我们会在下文将详细讨论。

V3 让性能差距缩小的秘诀

毫无疑问,V3 是一款令人印象深刻的模型,但值得强调的是,它的「令人印象深刻」是相对于什么而言。

许多人将 V3 与 GPT-4o 进行比较,并强调 V3 在性能上超越了 4o,但 GPT-4o 是在 2024 年 5 月发布的。以当下 AI 的发展速度,算法改进方面那个时候和现在已是天壤之别。此外,我们并不惊讶在经过一定时间后,用更少的计算资源就能实现相当或更强的能力。

推理成本大幅下降正是 AI 改进的标志。

万字揭秘DeepSeek:顶尖AI人才年薪千万,训练成本被低估

举个例子,一些可以在笔记本电脑上运行的小模型,其性能可与需要超级计算机训练,以及需要大量 GPU 推理的 GPT-3 相媲美。换句话说,算法改进使得用更少的计算资源即可训练和推理具备相同性能的模型,而这种模式在业内以及出现了多次。

这一次世界终于注意到了,是因为它来自中国的一家实验室,但小模型性能提升并不是什么新鲜事。

万字揭秘DeepSeek:顶尖AI人才年薪千万,训练成本被低估

目前行业的趋势是,AI 实验室在投入的绝对资金上不断增加,以获取更高的智能水平。

据估算,算法效率每年进步 4 倍,即每过一年,用于达到相同性能的计算资源减少 4 倍。

Anthropic 的 CEO Dario 认为,算法进步甚至会更快,可以实现 10 倍的提升。

就 GPT-3 质量的推理价格而言,成本已经下降了 1200 倍。

在研究 GPT-4 的成本时,我们也看到了类似的下降趋势,尽管处于曲线的较早阶段。时间上的成本差异降低可以解释为不再像上图那样保持性能不变。

在这种情况下,我们看到算法改进和优化使得成本降低 10 倍,同时性能提升 10 倍。

万字揭秘DeepSeek:顶尖AI人才年薪千万,训练成本被低估

需要说明的是,DeepSeek 的独特之处在于他们率先实现了这种成本和性能水平。

虽然 Mistral 和 Llama 模型也曾在开源模型上做过类似的事情,但 DeepSeek 做到的程度独树一帜。如果到了年底,成本再下降 5 倍,也请不要感到惊讶。

R1 凭什么迅速追上 OpenAI o1

大家热议的另一个话题,是 R1 能够达到与 o1 相当的效果,而 o1 仅在 9 月发布。

仅仅几个月时间,DeepSeek 是如何如此迅速地赶上的呢?

问题的关键在于,推理能力形成了一种全新的范式。

推理范式迭代速度更快,且以较少的计算资源即可获得显著收益。正如我们在扩展定律报告中提到的,以往的范式依赖于预训练,而这种方式不仅成本越来越高,且已经难以取得稳健的进步。

新的推理范式,专注于通过合成数据生成和在现有模型上进行后训练中的强化学习来提升推理能力,从而以更低的成本实现更快的进步。

较低的入门门槛加上易于优化,使得 DeepSeek 能够比过去更快地复制 o1 方法。随着各方探索如何在这一新范式下进一步扩展,我们预计不同模型在匹配性能的时间差距将会拉大。

需要注意的是,R1 论文中没有提及所使用的计算资源。这绝非偶然  为了生成用于后训练的合成数据,R1 需要大量的计算资源,更不用说强化学习了。

R1 是一款非常优秀的模型,但它披露的一些基准测试也具有误导性。R1 特意没有提及那些它并不领先的基准测试,虽然在推理性能上 R1 与 o1 不相上下,但在每项指标上它并不都是明显的赢家,在许多情况下甚至不如 o1。

万字揭秘DeepSeek:顶尖AI人才年薪千万,训练成本被低估

这里我们还没有提到 o3。o3 的能力明显高于 R1 和 o1。实际上,OpenAI 最近分享了 o3 的结果(还提前发布了 o3-mini ),其基准测试的扩展呈垂直趋势。

这似乎再次证明了「深度学习遭遇瓶颈」,但这个瓶颈不同以往。

万字揭秘DeepSeek:顶尖AI人才年薪千万,训练成本被低估

与 Google 的推理模型不相上下

尽管 R1 的炒作热潮不断,但很多人忽略了,一家市值 2.5 万亿美元的美国公司在上个月以更低的价格发布了一款推理模型:Google 的 Gemini Flash 2.0 Thinking。

赞助本站

相关热词: seek hopper gpu 工资 人才 年薪

相关内容
AiLab云推荐
展开

热门栏目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港