下一代 AI 存储：美光 SSD、WEKA、AMD EPYC 和 Supermicro

下一代 AI 存储：Micron® SSD、WEKA™、AMD EPYC™ 和 Supermicro

针对 2022 年超级计算大会，美光数据中心工作负载工程团队、WEKA、AMD 和 Supermicro 强强联手，率先使用面向 AI 工作负载的 WEKA 分布式存储解决方案测试了第四代 AMD EPYC 平台。

我们利用尖端的硬件和软件部署了解决方案，并使用 MLPerf™ 存储工作组的新基准测试来衡量其对高需求 AI 工作负载的支持能力。

我第一次在 LinkedIn 上发布有关这项工作的贴文时，得知这个小组是首次大规模测试 MLPerf 存储，也是首次在 AMD Genoa 处理器上测试 WEKA。Liran Zvibel（WEKA 联合创始人兼首席技术官）表示，他很高兴这个过程进展得如此顺利，“首次在全新平台（新 PCIe® 总线、新 CPU 等）上运行”往往会遇到一些困难。

WEKA 版本 4 扩展了其软件定义的存储堆栈，提高了每个节点的可扩展性和性能，以便充分利用下一代系统。根据来自 WEKA 的信息，该版本还具有以下特性：

专为 NVMeTM 和现代网络而设计的数据平台；

提高了带宽和 IOP 的性能，减少了延迟和元数据；

支持对本地或云端数据的广泛、多协议访问；

对于混合工作负载和小文件，其速度比本地磁盘更快，且无需进行调优。

Supermicro 为 WEKA 集群节点提供了六套全新的 AS-1115CS-TNR 系统。这些平台利用第四代 AMD EPYC CPU 和 PCIe®Gen5 背板。被测系统的配置如下：

AMD 第四代 EPYC 9654P CPU（96 核）

12 条美光 DDR5 4800MT/s RDIMM

10 块美光 7450 NVMe SSD

2 个 NVIDIA^® Connectx^®-6 200Gbe NIC

我们部署该解决方案时利用了美光 DDR5 DRAM，它比上一代 DDR4 具有更高的性能、吞吐量以及更快的传输速度。

我们还使用了美光 7450 NVMe SSD，这款 SSD 采用美光 176 层 NAND 以及“CMOS under the Array”(CuA) 技术。它兼具高性能与出色的服务质量，支持卓越的应用性能和快速响应。

网络方面，我们使用了 NVIDIA ConnectX-6 200Gbe NIC，每个存储节点 2 个 NIC，每个客户端 1 个 NIC。我们建议尽可能使用 PCIe Gen5 400Gbe NVIDIA ConnectX-7 NIC，在相似性能下可简化网络配置和部署。

基准结果

我们测试了 12 个负载生成客户端的 FIO 性能，以测量最大系统吞吐量。在所有客户端上，每个客户端的队列深度 (QD) 从 1 扩展到 32。

1MB 读取速度达到 142 GB/s，1MB 写入速度达到 103 GB/s。考虑到 WEKA 使用的纠删码 4+2 方案，写入吞吐量令人咋舌。这一性能表现得益于第四代 AMD EPYC CPU 的极高计算性能和美光 DDR5 DRAM 的增强性能。

在随机工作负载下，我们的测试结果为：4KB 读取 IOPS 为 630 万，4KB 随机写入 IOPS 为 170 万。这些数据反映了该集群出色的小块随机性能，主要缘于美光 7450 NVMe SSD 的高性能和低延迟特性，以及 WEKA 专注于提供比本地小块 NVMe 性能更好的解决方案。

AI/ML 负载：MLPerf Storage

MLPerf 存储基准测试旨在针对多种模型的 AI 训练测试系统的实际存储性能。它使用测得的休眠时间来模拟 GPU 请求数据、处理数据和请求下一批数据所需的时间。这些步骤会导致工作负载激增，使存储在短时间内达到其最大吞吐量，然后进入休眠状态。此 AI 基准测试的主要优势如下：

侧重于存储对 AI/ML 的影响
具有实际的存储和预处理设置
无需 GPU 加速器即可运行
可以根据种子数据为每个模型生成大型数据集

我们测试时使用以下设置：

MLPerf Storage v0.4（预览版）
工作负载：医学成像分割训练
模型：Unet3D
种子数据：KiTS19 图像集
生成数据集大小：2TB (500GB x 4)
框架：PyTorch
模拟 GPU：NVIDIA A100

该基准测试的一个重要方面是，每个 MLPerf 进程代表一个单独的 GPU 运行 AI 训练过程。如果增加 MLPerf 存储进程，最大吞吐量可达到 45 GB/s；然而，当进程数量增至约 288 个时，每个进程的性能将开始下降。该数据点代表 288 个 NVIDIA A100 GPU 同时运行 Unet3D 医学成像分割训练过程，相当于 36 个 NVIDIA DGX A100 系统的处理能力！

是否希望了解更多信息？

请务必查看以下资源：

美光存储解决方案架构总监

Ryan Meredith

Ryan Meredith 担任美光存储业务部门数据中心工作负载工程总监，负责测试新技术，助力美光在 AI 和 NVMe-oF/TCP 等领域，以及全闪存软件定义存储技术方面树立思想领袖地位并提升知名度。

产品概览

搜索、筛选和下载美光数据表

市场与行业概览

AI 数据中心

合作伙伴概览

了解并加入美光的技术支持计划 (TEP)

销售和支持概览

联系美光销售支持团队

美光品牌

关于概览

美光品牌

投资者关系概览

访问美光“投资者关系”网站

最近搜索

Micron® SSD、WEKA™、AMD EPYC™ 和 Supermicro

下一代 AI 存储：Micron® SSD、WEKA™、AMD EPYC™ 和 Supermicro

基准结果

AI/ML 负载：MLPerf Storage

是否希望了解更多信息？

Ryan Meredith