美光最近公布了在 Micron® 9400 NVMe™ SSD 上使用 MLPerf Storage v0.5 的结果。这些结果凸显了高性能 NVMe SSD 在 AI 服务器中作为本地缓存的作用,而美光 9400 NVMe SSD 在该用例中表现十分出众。但是大多数 AI 训练数据不驻留在本地缓存中,而是在共享存储中。对于 SC23,我们决定在搭载 30 TB 美光 6500 ION NVMe SSD 的 WEKA 存储集群上测试相同的 MLPerf Storage AI 工作负载。
WEKA 是专为 AI 工作负载设计的分布式并行文件系统,我们希望了解 MLPerf Storage AI 工作负载如何在高性能 SDS 解决方案上扩展。这些结果令人鼓舞,有助于我们为新一代 AI 系统提出规模调整建议,并暗示未来 AI 存储系统将需要的大规模吞吐量。
首先,快速回顾 MLPerf Storage
MLCommons 负责维护和开发六种不同的基准测试套件,并正在开发开放式数据集,以支持未来先进的模型开发。MLPerf Storage 基准测试套件是 MLCommons 基准测试系列的新成员。
在定制存储工作负载,使其适用于 AI 训练系统时,MLPerf Storage 致力于解决两个难题:高昂的 AI 加速器成本和过小的可用数据集。
如需深入了解 MLPerf Storage 生成的工作负载并讨论该基准测试,请参阅我们之前的博客文章:
接下来,我们来了解一下正在测试的 WEKA 集群
我的同事 Sujit 今年早些时候写了一篇帖子,描述了集群在合成工作负载中的性能。查看该帖子,了解完整结果。
集群由六个存储节点组成,每个节点都配置有以下内容:
- Supermicro AS-1115CS-TNR
- 单插座 AMD EPYC™ 和 9554P CP
- 64 核/3.1 GHz 基频/3.75 GHz 加速频率
- 384GB 美光 DDR5 DRAM
- 10 美光 30TB 6NVMe 5.0 SSD
- 400 GbE 网络
总的来说,该集群提供 838TB 的容量,对于高队列深度工作负载,可实现 200 GB/s。
最后,我们来回顾一下此集群在 MLPerf Storage 中的表现
简要说明:此处显示的结果未验证,因为尚未提交给 MLPerf Storage 审查。此外,MLPerf Storage 基准测试正在从 v0.5 更改为 2024 年首次发布的下一版本。此处显示的数字使用与 v0.5 版本相同的方法(客户端中每个客户端、独立客户端和加速器的独立数据集共享一个障碍)。
MLPerf Storage 基准测试在 0.5 版本中模拟 NVIDIA® V100 加速器。NVIDIA DGX-2 服务器拥有 16 个 V100 加速器。在本次测试中,我们展示了 WEKA 集群上支持的客户端数量,其中每个客户端模拟 16 个 V100 加速器,如 NVIDIA DGX-2 中的情况。
此外,MLPerf Storage 基准测试的 v0.5 版本实现了两种不同的模型:Unet3D 和 BERT。通过测试,我们发现 BERT 不会产生大量的存储流量,因此将在此处的测试中专注于 Unet3D。(Unet3D 是 3D 医疗成像模型。)
此图显示给定数量的客户端节点到存储系统的总吞吐量。注意,每个节点都有 16 个模拟加速器。此外,要被视为“成功”,给定数量的节点和加速器需要保持大于 90% 的加速器利用率。如果加速器利用率下降到 90% 以下,则表示加速器在等待数据时处于空闲状态。
在这里,我们看到六节点 WEKA 存储集群支持 16 个客户端,每个客户端模拟 16 个加速器,总共 256 个模拟加速器,达到 91 GB/s 的吞吐量。
这种性能类似于 16 个 NVIDIA DGX-2 系统(每个系统搭载 16 个 V100 GPU),这是由六节点 WEKA 集群支持的大量 AI 系统。
V100 是款 PCIe Gen3 GPU,NVIDIA GPU 代的性能提升速度远远超过平台和 PCIe 代。在单节点系统中,我们发现模拟的 NVIDIA A100 GPU 在此工作负载中的速度快了四倍。
凭借最高 91 GB/s 的吞吐量,我们可以估计此 WEKA 部署将支持 8 个 DGX A100 系统(每个系统搭载 8 个 A100 GPU)。
展望 H100 / H200 (PCIe 5.0) 和 X100 (PCIe 6.0) 的未来,先进的 AI 训练服务器将推动大量吞吐量。
如今,WEKA 存储和美光 6NVMe 5.0 SSD 是 AI 工作负载容量、性能和可扩展性的理想组合。
请继续关注我们对 AI 存储的探索!