美光 9550 高性能 SSD 为 AI 工作负载带来变革。美光 9550 SSD 采用经过实践验证的美光 G8 NAND、业界前沿的控制器,并垂直集成了所有关键器件,是一款性能出众、功耗更低的 SSD。
我们团队在四种前沿 AI 工作负载中对美光 9550 U.2 7.68TB SSD 进行了测试。结果表明,美光 9550 是用于 AI 系统的理想数据中心 SSD。
四种工作负载,同类领先性能
在我们测试的所有工作负载中,美光 9550 不仅能够更快地完成工作,且运行时的平均功率更低,这意味着该款 SSD 可大幅节约能耗(工作负载时间 x 平均功率)。下面让我们一起详细了解每种工作负载。
图神经网络训练:大型加速器内存
我们使用大型加速器内存 (BaM) 和 GPU 启动的直接存储 (GIDS) 代替了 NVMe 驱动程序,并在 NVIDIA® H100 上启用了更高的 GPU 线程并行化,以提升 PCIe® Gen5 SSD 的性能。此工作负载要求极高的小块输入/输出 (IO) 性能,在我们做过的测试中前所未有。
此项综合测试类似于 FIO(灵活 IO),不过这里由 H100 GPU 启动。从图上我们可以看到,美光 9550 的性能高达每秒 340 万次读写操作 (IOPS)。我们还绘制了每瓦 IOPS 图表,结果显示 美光 9550 的能效是竞品的两倍。
在实际 AI 训练工作负载中的性能表现如何?
- 更高的性能:BaM 与 美光 9550 相结合,在 H100 上训练图神经网络时,得益于更高的 SSD 吞吐量(提高 60%),整体性能提高了 33%。
- 更低的 SSD 功率:SSD 功率方面,美光 9550 完成 290 万次 IOPS 消耗的能量为 16.6W,与同类 SSD 相比节能 43%。
- 更低的系统能耗:系统功耗方面,得益于美光 9550 的高速度和高能效,系统总能耗降低了 29%。
对于 BaM 等需要高性能且存储受限的工作负载,美光 9550 的高能效可直接转化为更低的系统能耗、更少的电力消耗和更低的数据中心成本。
使用 MLPerf Storage 进行 Unet3D 医学图像分割
MLPerf Storage 基准测试可生成精确大小的文件供医学图像分割模型使用,以此模拟 Unet3D AI 训练工作负载。测试工具随后使用 Tensorflow 和 Pytorch 来处理这些图像,并通过插入休眠时间来模拟 GPU 的训练操作。可以调整此过程的参数,以显示不同 GPU 运行给定模型所需的吞吐量。
- 更高的性能:从图中我们可以看到性能提高了 5%,这是因为该工作负载主要涉及读取大块数据,这种情况下所有 SSD 的性能都不相上下。这是许多 AI 训练工作负载的典型 IO 模式。
- 更低的 SSD 功率:美光 9550 的出色之处在于,它在实现 5% 性能提升的同时,平均 SSD 功率降低了 32%。
- 更低的 SSD 能耗:凭借更高的性能和更低的平均 SSD 功率,美光 9550 运行此工作负载的能耗相比同类产品降低了 35%。
更低的 SSD 功耗可节约 AI 训练服务器的功耗预算,从而支持 GPU 密集型设计。
使用 DeepSpeed ZeRO-Inference 进行大型语言模型推理
DeepSpeed ZeRO-Inference 通过将内存中的数据智能地转移到 SSD 中,使内存需求超过主内存容量的 LLM 能够正常工作。
我们做的第一个测试是综合读取和写入测试,结果代表了使用给定 SSD 运行 LLM 时的最大性能。
读取操作在推理工作负载中更为常见。从图中我们可以看到吞吐量提高了 15%,SSD 功率降低了 27%,SSD 和系统能耗则分别降低了 37% 和 19%。
写入操作虽然较少,但在检查点或检索增强生成 (RAG) 工作负载运行期间会发生此类操作。从图中我们可以看到,美光 9550 在写入操作中的吞吐量提高了 78%,SSD 功率降低了 22%。得益于此,SSD 能耗降低了 51%,系统能耗降低了 43%。
在 Meta Llama 3 70B 上的性能表现如何?
- 性能略有提高:在配备两个 NVIDIA L40S 推理加速器的系统运行 700 亿参数版本 Meta Llama 3 模型,结果显示使用美光 9550 后,每秒处理的词元数略有增加。在此工作负载中,99% 的操作是 256KB 随机读取,所有参与测试的 SSD 在该 IO 模式下的表现都不相上下。该工作负载依赖于 GPU 计算。
- 更低的 SSD 功率:可以看到,美光 9550 的功率相比竞品降低了 19%,SSD 能耗则降低了 21%。
- 系统能耗是否更低? 系统能耗没有显著变化,这是因为两块 L40S 的能耗远远高于单个 SSD。大规模部署时,即使系统能耗降低 2%,成本上的节约仍然很可观。
美光 9550 的功耗比竞品低 19%,能耗低 21%,但在依赖 GPU 的工作负载中实现了与竞品类似的性能。如果存储子系统功耗降低,系统架构师将拥有额外的功率余量,从而能在推理系统中安装更多 GPU。
NVIDIA GPUDirect® Storage
最后,我们来看一看 NVIDIA GPUDirect Storage (GDS) 工作负载的情况。在测试中,我们让 NVIDIA H100 GPU 以不同的 IO 大小产生 IO 操作,并绕过 CPU+DRAM“回弹缓冲区”,直接从美光 9550 中读取数据。
- 更高的性能:吞吐量比竞品高出 9% 到 34%。美光 9550 在小块 IO 下的速度比竞品更快。随着 IO 块大小的增加,所有 SSD 的性能逐渐接近。
- 更低的 SSD 功率:美光 9550 的功率可比竞品低 30%。
- 更低的 SSD 能耗:传输 1TB 数据时,美光 9550 的能耗可比竞品低 66%。
更高的性能、更低的 SSD 功率、更低的能耗
从上述四种 AI 工作负载的测试结果中,我们可以得出明显结论:美光 9550 的功率更低、性能更高,这意味着该产品可在 SSD 和系统级别显著节约能源。
AI 工作负载对数据中心系统性能的要求越来越高,并对数据中心 SSD 的性能提出了更高要求。美光 9550 旨在应对这一新兴挑战,我们所做的工作负载性能测试即是明证。