设计工具
应用

Micron® SSD、WEKA™、AMD EPYC™ 和 Supermicro

Ryan Meredith | 2023 年 1 月

下一代 AI 存储:Micron® SSD、WEKA™、AMD EPYC™ 和 Supermicro

针对 2022 年超级计算大会,美光数据中心工作负载工程团队、WEKAAMDSupermicro 强强联手,率先使用面向 AI 工作负载的 WEKA 分布式存储解决方案测试了第四代 AMD EPYC 平台。

我们利用尖端的硬件和软件部署了解决方案,并使用 MLPerf™ 存储工作组的新基准测试来衡量其对高需求 AI 工作负载的支持能力。

我第一次在 LinkedIn 上发布有关这项工作的贴文时,得知这个小组是首次大规模测试 MLPerf 存储,也是首次在 AMD Genoa 处理器上测试 WEKA。Liran Zvibel(WEKA 联合创始人兼首席技术官)表示,他很高兴这个过程进展得如此顺利,“首次在全新平台(新 PCIe® 总线、新 CPU 等)上运行”往往会遇到一些困难。

WEKA 版本 4 扩展了其软件定义的存储堆栈,提高了每个节点的可扩展性和性能,以便充分利用下一代系统。根据来自 WEKA 的信息,该版本还具有以下特性:

专为 NVMeTM 和现代网络而设计的数据平台;

提高了带宽和 IOP 的性能,减少了延迟和元数据;

支持对本地或云端数据的广泛、多协议访问;

对于混合工作负载和小文件,其速度比本地磁盘更快,且无需进行调优。

Supermicro 为 WEKA 集群节点提供了六套全新的 AS-1115CS-TNR 系统。这些平台利用第四代 AMD EPYC CPU 和 PCIe®Gen5 背板。被测系统的配置如下:

AMD 第四代 EPYC 9654P CPU(96 核)

12 条美光 DDR5 4800MT/s RDIMM

10 块美光 7450 NVMe SSD

2 个 NVIDIA® Connectx®-6 200Gbe NIC

我们部署该解决方案时利用了美光 DDR5 DRAM,它比上一代 DDR4 具有更高的性能、吞吐量以及更快的传输速度。

我们还使用了美光 7450 NVMe SSD,这款 SSD 采用美光 176 层 NAND 以及“CMOS under the Array”(CuA) 技术。它兼具高性能与出色的服务质量,支持卓越的应用性能和快速响应。

网络方面,我们使用了 NVIDIA ConnectX-6 200Gbe NIC,每个存储节点 2 个 NIC,每个客户端 1 个 NIC。我们建议尽可能使用 PCIe Gen5 400Gbe NVIDIA ConnectX-7 NIC,在相似性能下可简化网络配置和部署。

黑色背景上,Weka 设备位于美光 SSD 旁

基准结果

我们测试了 12 个负载生成客户端的 FIO 性能,以测量最大系统吞吐量。在所有客户端上,每个客户端的队列深度 (QD) 从 1 扩展到 32。

1m 顺序读取吞吐量横向折线图(绿色)
1m 顺序写入横向图(绿色)

1MB 读取速度达到 142 GB/s,1MB 写入速度达到 103 GB/s。考虑到 WEKA 使用的纠删码 4+2 方案,写入吞吐量令人咋舌。这一性能表现得益于第四代 AMD EPYC CPU 的极高计算性能和美光 DDR5 DRAM 的增强性能。

4k 随机读取 iops 横向图(绿色)
4k 随机写入 iops 横向图(绿色)

在随机工作负载下,我们的测试结果为:4KB 读取 IOPS 为 630 万,4KB 随机写入 IOPS 为 170 万。这些数据反映了该集群出色的小块随机性能,主要缘于美光 7450 NVMe SSD 的高性能和低延迟特性,以及 WEKA 专注于提供比本地小块 NVMe 性能更好的解决方案。

AI/ML 负载:MLPerf Storage

MLPerf 存储基准测试旨在针对多种模型的 AI 训练测试系统的实际存储性能。它使用测得的休眠时间来模拟 GPU 请求数据、处理数据和请求下一批数据所需的时间。这些步骤会导致工作负载激增,使存储在短时间内达到其最大吞吐量,然后进入休眠状态。此 AI 基准测试的主要优势如下:

  • 侧重于存储对 AI/ML 的影响
  • 具有实际的存储和预处理设置
  • 无需 GPU 加速器即可运行
  • 可以根据种子数据为每个模型生成大型数据集

我们测试时使用以下设置:

  • MLPerf Storage v0.4(预览版)
  • 工作负载:医学成像分割训练
  • 模型:Unet3D
  • 种子数据:KiTS19 图像集
  • 生成数据集大小:2TB (500GB x 4)
  • 框架:PyTorch
  • 模拟 GPU:NVIDIA A100
表示吞吐量速度的绿色和蓝色折线图

该基准测试的一个重要方面是,每个 MLPerf 进程代表一个单独的 GPU 运行 AI 训练过程。如果增加 MLPerf 存储进程,最大吞吐量可达到 45 GB/s;然而,当进程数量增至约 288 个时,每个进程的性能将开始下降。该数据点代表 288 个 NVIDIA A100 GPU 同时运行 Unet3D 医学成像分割训练过程,相当于 36 个 NVIDIA DGX A100 系统的处理能力!

是否希望了解更多信息?

请务必查看以下资源:

Director, Storage Solutions Architecture

Ryan Meredith

Ryan Meredith is director of Data Center Workload Engineering for Micron's Storage Business Unit, testing new technologies to help build Micron's thought leadership and awareness in fields like AI and NVMe-oF/TCP, along with all-flash software-defined storage technologies.