设计工具
AI

美光 9550 SSD 以更低功耗加速运行 AI 工作负载

Ryan Meredith | 2024 年 10 月

美光 9550 高性能 SSD 为 AI 工作负载带来变革。美光 9550 SSD 采用经过实践验证的美光 G8 NAND、业界前沿的控制器,并垂直集成了所有关键器件,是一款性能出众、功耗更低的 SSD。

我们团队在四种前沿 AI 工作负载中对美光 9550 U.2 7.68TB SSD 进行了测试。结果表明,美光 9550 是用于 AI 系统的理想数据中心 SSD。


四种工作负载,同类领先性能
 

9550 工作负载图表


在我们测试的所有工作负载中,美光 9550 不仅能够更快地完成工作,且运行时的平均功率更低,这意味着该款 SSD 可大幅节约能耗(工作负载时间 x 平均功率)。下面让我们一起详细了解每种工作负载。
 

图神经网络训练:大型加速器内存
 

我们使用大型加速器内存 (BaM) 和 GPU 启动的直接存储 (GIDS) 代替了 NVMe 驱动程序,并在 NVIDIA® H100 上启用了更高的 GPU 线程并行化,以提升 PCIe® Gen5 SSD 的性能。此工作负载要求极高的小块输入/输出 (IO) 性能,在我们做过的测试中前所未有。

综合扩展测试图表

此项综合测试类似于 FIO(灵活 IO),不过这里由 H100 GPU 启动。从图上我们可以看到,美光 9550 的性能高达每秒 340 万次读写操作 (IOPS)。我们还绘制了每瓦 IOPS 图表,结果显示 美光 9550 的能效是竞品的两倍

在实际 AI 训练工作负载中的性能表现如何?

  • 更高的性能:BaM 与 美光 9550 相结合,在 H100 上训练图神经网络时,得益于更高的 SSD 吞吐量(提高 60%),整体性能提高了 33%。
  • 更低的 SSD 功率:SSD 功率方面,美光 9550 完成 290 万次 IOPS 消耗的能量为 16.6W,与同类 SSD 相比节能 43%。
  • 更低的系统能耗:系统功耗方面,得益于美光 9550 的高速度和高能效,系统总能耗降低了 29%

对于 BaM 等需要高性能且存储受限的工作负载,美光 9550 的高能效可直接转化为更低的系统能耗、更少的电力消耗和更低的数据中心成本。
 

使用 MLPerf Storage 进行 Unet3D 医学图像分割
 

MLPerf Storage 基准测试可生成精确大小的文件供医学图像分割模型使用,以此模拟 Unet3D AI 训练工作负载。测试工具随后使用 Tensorflow 和 Pytorch 来处理这些图像,并通过插入休眠时间来模拟 GPU 的训练操作。可以调整此过程的参数,以显示不同 GPU 运行给定模型所需的吞吐量。

  • 更高的性能:从图中我们可以看到性能提高了 5%,这是因为该工作负载主要涉及读取大块数据,这种情况下所有 SSD 的性能都不相上下。这是许多 AI 训练工作负载的典型 IO 模式。
  • 更低的 SSD 功率:美光 9550 的出色之处在于,它在实现 5% 性能提升的同时,平均 SSD 功率降低了 32%。
  • 更低的 SSD 能耗:凭借更高的性能和更低的平均 SSD 功率,美光 9550 运行此工作负载的能耗相比同类产品降低了 35%。

更低的 SSD 功耗可节约 AI 训练服务器的功耗预算,从而支持 GPU 密集型设计。
 

使用 DeepSpeed ZeRO-Inference 进行大型语言模型推理
 

DeepSpeed ZeRO-Inference 通过将内存中的数据智能地转移到 SSD 中,使内存需求超过主内存容量的 LLM 能够正常工作。

我们做的第一个测试是综合读取和写入测试,结果代表了使用给定 SSD 运行 LLM 时的最大性能。

读取操作在推理工作负载中更为常见。从图中我们可以看到吞吐量提高了 15%,SSD 功率降低了 27%,SSD 和系统能耗则分别降低了 37% 和 19%。

写入操作虽然较少,但在检查点或检索增强生成 (RAG) 工作负载运行期间会发生此类操作。从图中我们可以看到,美光 9550 在写入操作中的吞吐量提高了 78%,SSD 功率降低了 22%。得益于此,SSD 能耗降低了 51%,系统能耗降低了 43%。

在 Meta Llama 3 70B 上的性能表现如何?

  • 性能略有提高:在配备两个 NVIDIA L40S 推理加速器的系统运行 700 亿参数版本 Meta Llama 3 模型,结果显示使用美光 9550 后,每秒处理的词元数略有增加。在此工作负载中,99% 的操作是 256KB 随机读取,所有参与测试的 SSD 在该 IO 模式下的表现都不相上下。该工作负载依赖于 GPU 计算。
  • 更低的 SSD 功率:可以看到,美光 9550 的功率相比竞品降低了 19%,SSD 能耗则降低了 21%。
  • 系统能耗是否更低? 系统能耗没有显著变化,这是因为两块 L40S 的能耗远远高于单个 SSD。大规模部署时,即使系统能耗降低 2%,成本上的节约仍然很可观。

美光 9550 的功耗比竞品低 19%,能耗低 21%,但在依赖 GPU 的工作负载中实现了与竞品类似的性能。如果存储子系统功耗降低,系统架构师将拥有额外的功率余量,从而能在推理系统中安装更多 GPU。
 

NVIDIA GPUDirect® Storage


最后,我们来看一看 NVIDIA GPUDirect Storage (GDS) 工作负载的情况。在测试中,我们让 NVIDIA H100 GPU 以不同的 IO 大小产生 IO 操作,并绕过 CPU+DRAM“回弹缓冲区”,直接从美光 9550 中读取数据。

  • 更高的性能:吞吐量比竞品高出 9% 到 34%。美光 9550 在小块 IO 下的速度比竞品更快。随着 IO 块大小的增加,所有 SSD 的性能逐渐接近。
  • 更低的 SSD 功率:美光 9550 的功率可比竞品低 30%。
  • 更低的 SSD 能耗:传输 1TB 数据时,美光 9550 的能耗可比竞品低 66%。


更高的性能、更低的 SSD 功率、更低的能耗


从上述四种 AI 工作负载的测试结果中,我们可以得出明显结论:美光 9550 的功率更低、性能更高,这意味着该产品可在 SSD 和系统级别显著节约能源。

AI 工作负载对数据中心系统性能的要求越来越高,并对数据中心 SSD 的性能提出了更高要求。美光 9550 旨在应对这一新兴挑战,我们所做的工作负载性能测试即是明证。

Director, Storage Solutions Architecture

Ryan Meredith

Ryan Meredith is director of Data Center Workload Engineering for Micron's Storage Business Unit, testing new technologies to help build Micron's thought leadership and awareness in fields like AI and NVMe-oF/TCP, along with all-flash software-defined storage technologies.