下一代 AI 存储:Micron® SSD、WEKA™、AMD EPYC™ 和 Supermicro
针对 2022 年超级计算大会,美光数据中心工作负载工程团队、WEKA、AMD 和 Supermicro 强强联手,率先使用面向 AI 工作负载的 WEKA 分布式存储解决方案测试了第四代 AMD EPYC 平台。
我们利用尖端的硬件和软件部署了解决方案,并使用 MLPerf™ 存储工作组的新基准测试来衡量其对高需求 AI 工作负载的支持能力。
我第一次在 LinkedIn 上发布有关这项工作的贴文时,得知这个小组是首次大规模测试 MLPerf 存储,也是首次在 AMD Genoa 处理器上测试 WEKA。Liran Zvibel(WEKA 联合创始人兼首席技术官)表示,他很高兴这个过程进展得如此顺利,“首次在全新平台(新 PCIe® 总线、新 CPU 等)上运行”往往会遇到一些困难。
WEKA 版本 4 扩展了其软件定义的存储堆栈,提高了每个节点的可扩展性和性能,以便充分利用下一代系统。根据来自 WEKA 的信息,该版本还具有以下特性:
专为 NVMeTM 和现代网络而设计的数据平台;
提高了带宽和 IOP 的性能,减少了延迟和元数据;
支持对本地或云端数据的广泛、多协议访问;
对于混合工作负载和小文件,其速度比本地磁盘更快,且无需进行调优。
Supermicro 为 WEKA 集群节点提供了六套全新的 AS-1115CS-TNR 系统。这些平台利用第四代 AMD EPYC CPU 和 PCIe®Gen5 背板。被测系统的配置如下:
AMD 第四代 EPYC 9654P CPU(96 核)
12 条美光 DDR5 4800MT/s RDIMM
10 块美光 7450 NVMe SSD
2 个 NVIDIA® Connectx®-6 200Gbe NIC
我们部署该解决方案时利用了美光 DDR5 DRAM,它比上一代 DDR4 具有更高的性能、吞吐量以及更快的传输速度。
我们还使用了美光 7450 NVMe SSD,这款 SSD 采用美光 176 层 NAND 以及“CMOS under the Array”(CuA) 技术。它兼具高性能与出色的服务质量,支持卓越的应用性能和快速响应。
网络方面,我们使用了 NVIDIA ConnectX-6 200Gbe NIC,每个存储节点 2 个 NIC,每个客户端 1 个 NIC。我们建议尽可能使用 PCIe Gen5 400Gbe NVIDIA ConnectX-7 NIC,在相似性能下可简化网络配置和部署。
基准结果
我们测试了 12 个负载生成客户端的 FIO 性能,以测量最大系统吞吐量。在所有客户端上,每个客户端的队列深度 (QD) 从 1 扩展到 32。
1MB 读取速度达到 142 GB/s,1MB 写入速度达到 103 GB/s。考虑到 WEKA 使用的纠删码 4+2 方案,写入吞吐量令人咋舌。这一性能表现得益于第四代 AMD EPYC CPU 的极高计算性能和美光 DDR5 DRAM 的增强性能。
在随机工作负载下,我们的测试结果为:4KB 读取 IOPS 为 630 万,4KB 随机写入 IOPS 为 170 万。这些数据反映了该集群出色的小块随机性能,主要缘于美光 7450 NVMe SSD 的高性能和低延迟特性,以及 WEKA 专注于提供比本地小块 NVMe 性能更好的解决方案。
AI/ML 负载:MLPerf Storage
MLPerf 存储基准测试旨在针对多种模型的 AI 训练测试系统的实际存储性能。它使用测得的休眠时间来模拟 GPU 请求数据、处理数据和请求下一批数据所需的时间。这些步骤会导致工作负载激增,使存储在短时间内达到其最大吞吐量,然后进入休眠状态。此 AI 基准测试的主要优势如下:
- 侧重于存储对 AI/ML 的影响
- 具有实际的存储和预处理设置
- 无需 GPU 加速器即可运行
- 可以根据种子数据为每个模型生成大型数据集
我们测试时使用以下设置:
- MLPerf Storage v0.4(预览版)
- 工作负载:医学成像分割训练
- 模型:Unet3D
- 种子数据:KiTS19 图像集
- 生成数据集大小:2TB (500GB x 4)
- 框架:PyTorch
- 模拟 GPU:NVIDIA A100
该基准测试的一个重要方面是,每个 MLPerf 进程代表一个单独的 GPU 运行 AI 训练过程。如果增加 MLPerf 存储进程,最大吞吐量可达到 45 GB/s;然而,当进程数量增至约 288 个时,每个进程的性能将开始下降。该数据点代表 288 个 NVIDIA A100 GPU 同时运行 Unet3D 医学成像分割训练过程,相当于 36 个 NVIDIA DGX A100 系统的处理能力!
是否希望了解更多信息?
请务必查看以下资源: