设计工具
应用

Micron® SSD、WEKA™、AMD EPYC™ 和 Supermicro

Ryan Meredith | 2023 年 1 月

下一代 AI 存储:Micron® SSD、WEKA™、AMD EPYC™ 和 Supermicro

针对 2022 年超级计算大会,美光数据中心工作负载工程团队、WEKAAMDSupermicro 强强联手,率先使用面向 AI 工作负载的 WEKA 分布式存储解决方案测试了第四代 AMD EPYC 平台。

我们利用尖端的硬件和软件部署了解决方案,并使用 MLPerf™ 存储工作组的新基准测试来衡量其对高需求 AI 工作负载的支持能力。

我第一次在 LinkedIn 上发布有关这项工作的贴文时,得知这个小组是首次大规模测试 MLPerf 存储,也是首次在 AMD Genoa 处理器上测试 WEKA。Liran Zvibel(WEKA 联合创始人兼首席技术官)表示,他很高兴这个过程进展得如此顺利,“首次在全新平台(新 PCIe® 总线、新 CPU 等)上运行”往往会遇到一些困难。

WEKA 版本 4 扩展了其软件定义的存储堆栈,提高了每个节点的可扩展性和性能,以便充分利用下一代系统。根据来自 WEKA 的信息,该版本还具有以下特性:

专为 NVMeTM 和现代网络而设计的数据平台;

提高了带宽和 IOP 的性能,减少了延迟和元数据;

支持对本地或云端数据的广泛、多协议访问;

对于混合工作负载和小文件,其速度比本地磁盘更快,且无需进行调优。

Supermicro 为 WEKA 集群节点提供了六套全新的 AS-1115CS-TNR 系统。这些平台利用第四代 AMD EPYC CPU 和 PCIe®Gen5 背板。被测系统的配置如下:

AMD 第四代 EPYC 9654P CPU(96 核)

12 条美光 DDR5 4800MT/s RDIMM

10 块美光 7450 NVMe SSD

2 个 NVIDIA® Connectx®-6 200Gbe NIC

我们部署该解决方案时利用了美光 DDR5 DRAM,它比上一代 DDR4 具有更高的性能、吞吐量以及更快的传输速度。

我们还使用了美光 7450 NVMe SSD,这款 SSD 采用美光 176 层 NAND 以及“CMOS under the Array”(CuA) 技术。它兼具高性能与出色的服务质量,支持卓越的应用性能和快速响应。

网络方面,我们使用了 NVIDIA ConnectX-6 200Gbe NIC,每个存储节点 2 个 NIC,每个客户端 1 个 NIC。我们建议尽可能使用 PCIe Gen5 400Gbe NVIDIA ConnectX-7 NIC,在相似性能下可简化网络配置和部署。

黑色背景上,Weka 设备位于美光 SSD 旁

基准结果

我们测试了 12 个负载生成客户端的 FIO 性能,以测量最大系统吞吐量。在所有客户端上,每个客户端的队列深度 (QD) 从 1 扩展到 32。

1m 顺序读取吞吐量横向折线图(绿色)
1m 顺序写入横向图(绿色)

1MB 读取速度达到 142 GB/s,1MB 写入速度达到 103 GB/s。考虑到 WEKA 使用的纠删码 4+2 方案,写入吞吐量令人咋舌。这一性能表现得益于第四代 AMD EPYC CPU 的极高计算性能和美光 DDR5 DRAM 的增强性能。

4k 随机读取 iops 横向图(绿色)
4k 随机写入 iops 横向图(绿色)

在随机工作负载下,我们的测试结果为:4KB 读取 IOPS 为 630 万,4KB 随机写入 IOPS 为 170 万。这些数据反映了该集群出色的小块随机性能,主要缘于美光 7450 NVMe SSD 的高性能和低延迟特性,以及 WEKA 专注于提供比本地小块 NVMe 性能更好的解决方案。

AI/ML 负载:MLPerf Storage

MLPerf 存储基准测试旨在针对多种模型的 AI 训练测试系统的实际存储性能。它使用测得的休眠时间来模拟 GPU 请求数据、处理数据和请求下一批数据所需的时间。这些步骤会导致工作负载激增,使存储在短时间内达到其最大吞吐量,然后进入休眠状态。此 AI 基准测试的主要优势如下:

  • 侧重于存储对 AI/ML 的影响
  • 具有实际的存储和预处理设置
  • 无需 GPU 加速器即可运行
  • 可以根据种子数据为每个模型生成大型数据集

我们测试时使用以下设置:

  • MLPerf Storage v0.4(预览版)
  • 工作负载:医学成像分割训练
  • 模型:Unet3D
  • 种子数据:KiTS19 图像集
  • 生成数据集大小:2TB (500GB x 4)
  • 框架:PyTorch
  • 模拟 GPU:NVIDIA A100
表示吞吐量速度的绿色和蓝色折线图

该基准测试的一个重要方面是,每个 MLPerf 进程代表一个单独的 GPU 运行 AI 训练过程。如果增加 MLPerf 存储进程,最大吞吐量可达到 45 GB/s;然而,当进程数量增至约 288 个时,每个进程的性能将开始下降。该数据点代表 288 个 NVIDIA A100 GPU 同时运行 Unet3D 医学成像分割训练过程,相当于 36 个 NVIDIA DGX A100 系统的处理能力!

是否希望了解更多信息?

请务必查看以下资源:

美光存储解决方案架构总监

Ryan Meredith

Ryan Meredith 担任美光存储业务部门数据中心工作负载工程总监,负责测试新技术,助力美光在 AI 和 NVMe-oF/TCP 等领域,以及全闪存软件定义存储技术方面树立思想领袖地位并提升知名度。