智东西(公众号:zhidxcom)
作者 | ZeR0
编辑 | 漠影
智东西2月28日报道,刚刚,DeepSeek发布开源周第五弹Fire-Flyer文件系统(3FS),一种利用现代SSD和RDMA网络的全部带宽的并行文件系统,适用于所有人的Thruster DeepSeek数据访问。
在180节点集群中实现6.6 TiB/s的总读取吞吐量
在25节点集群中,GraySort基准测试的吞吐量为3.66 TiB/min
KVCache查找每个客户端节点的峰值吞吐量为40+ GiB/s
具有强一致性语义的分解架构
在V3/R1中训练数据预处理、数据集加载、检查点保存/重新加载、嵌入向量搜索和KVCache查找以进行推理
3FS → github.com/deepseek-ai/3FS
Smallpond 基于3FS的数据处理框架 → github.com/deepseek-ai/smallpond
评论区涌入一片夸声,称赞3FS速度快得惊人,为AI数据处理树立了新标杆极快的速度和无缝集成。
也有网友继续催更:接下来我们需要视频模型、V4、R2,全世界都在等!
还有人看热闹不嫌事大,在评论区晒出今天OpenAI新发布的GPT-4.5与DeepSeek最新淡季折扣价对比图。
根据GitHub项目公开信息,今日新开源的3FS和Smallpond具体信息如下:
1、Fire-Flyer文件系统
Fire-Flyer文件系统(3FS)是一种高性能分布式文件系统,旨在应对AI训练和推理工作负载的挑战。它利用现代SSD和RDMA网络来提供共享存储层,从而简化分布式应用程序的开发。
3FS的主要功能和优势包括:
(1)性能和可用性
分解式架构结合了数千个SSD的吞吐量和数百个存储节点的网络带宽,使应用程序能够以不受位置影响的方式访问存储资源。强一致性实现带有分配查询(CRAQ)的链式复制以实现强一致性,从而使应用程序代码简单且易于推理。文件接口开发由事务键值存储(例如FoundationDB)支持的无状态元数据服务。文件接口众所周知且随处可用。无需学习新的存储API。
(2)多样化的工作负载
数据准备将数据分析管道的输出组织成分层目录结构,并有效地管理大量中间输出。数据加载器通过跨计算节点随机访问训练样本,消除了预取或混洗数据集的需要。检查点支持大规模训练的高吞吐量并行检查点。用于推理的KVCache提供了一种基于DRAM的缓存的经济高效的替代方案,可提供高吞吐量和更大的容量。
其表现如下:
(1)峰值吞吐量
下图展示了一个大型3FS集群的读压测吞吐情况。该集群由180个存储节点组成,每个存储节点配备2×200Gbps InfiniBand网卡和16个14 TiB NVMe SSD。大约500+个客户端节点用于读压测,每个客户端节点配置1x200Gbps InfiniBand网卡。在训练作业的背景流量下,最终聚合读吞吐量达到约6.6 TiB/s。
(2)灰度排序
DeepSeek利用GraySort基准对smallpond进行了评估,该基准可衡量大规模数据集的排序性能。其实现采用两阶段方法:(1) 使用键的前缀位通过shuffle对数据进行分区,以及 (2) 分区内排序。两个阶段都从3FS读取数据/向3FS写入数据。
测试集群由25个存储节点(2个NUMA域/节点、1个存储服务/NUMA、2×400Gbps NIC/节点)和50个计算节点(2个NUMA域、192个物理核心、2.2 TiB RAM和1×200 Gbps NIC/节点)组成。对8192个分区中的110.5 TiB数据进行排序耗时30分14秒,平均吞吐量为3.66 TiB/分钟。
(3)KVCache
KVCache是一种用于优化大语言模型推理过程的技术。它通过在解码器层中缓存先前标记的键和值向量来避免冗余计算。上方的图展示了所有KVCache客户端的读取吞吐量,突出显示了峰值和平均值,峰值吞吐量高达40 GiB/s。下图显示了同一时间段内垃圾回收(GC)中删除操作的IOPS。
开发:
2、Smallpond
Smallpond是一个基于DuckDB和3FS的一个轻量级数据处理框架,特色包括:
由DuckDB提供支持的高性能数据处理
可扩展以处理PB级数据集
操作简单,无需长时间运行服务
开发: