美光 9400 NVMe SSD 是适用于 AI 存储的出众 PCIe 4.0 SSD

据 MLCommons 网站介绍，MLCommons 成立于 2018 年，“……旨在加速机器学习创新，提高其对社会的积极影响……” 如今，MLCommons 维护和开发了 6 种不同的基准测试套件，并正在开发开放数据集，以支持未来先进的模型开发。MLPerf Storage 基准测试套件是基准测试系列的新成员。

作为 MLCommons 存储工作组的成员，我帮助制定了基准测试规则和流程，以帮助确保基准测试结果对研究人员、客户和供应商都有价值。我们刚刚发布了第一轮提交的结果，包括美光 9400 SSD 的结果。

但是为什么需要专门针对 AI 工作负载的新基准测试实用工具呢？

要定制存储工作负载，使其适用于 AI 训练系统，会面临两个独特挑战：高昂的 AI 加速器成本和过小的可用数据集，MLPerf Storage 基准测试套件旨在解决这两个挑战。

首先很明显，AI 加速器可能是昂贵而复杂的计算系统，大多数存储供应商不会有足够的 AI 系统来分析其产品在存储解决方案中的可扩展性。

第二个问题是，与 AI 行业常用的数据集相比，开放可用的数据集规模较小。虽然 MLCommons 及其参与者可用的数据集可能高达 150 GB，但生产中使用的数据集通常是 10 到 100 TB。现代服务器可以轻松搭载 1 到 2 TB 的 DRAM，从而在第一次训练历时后将小型基准测试数据集缓存到系统内存中，然后根据 DRAM 中的数据执行后续运行。但生产数据集由于其大小而不会出现相同的行为。

MLPerf Storage 通过在标准 CPU 服务器中模拟加速器来解决第一个问题。在底层，MLPerf Storage 使用的 AI 框架与常用的工作负载（pytorch、tensorflow 等）相同，但 MLPerf 绕过了平台的计算部分，其“睡眠时间”是通过在具有实际 AI 加速器的系统上运行真实工作负载而实验得出的。

模拟加速器和实际加速器的比较表明，工作负载十分相似。

MLPerf Storage 通过创建与实际生产数据集相似，但复制得更大的数据集，来解决第二个问题。该基准测试支持各种数据存储技术，如文件系统和对象存储，以及序列化 numpy 数组、TFRecord 文件、HDF5 文件等多种数据类型。

除了解决这些问题外，在之前与 John Mazzie 合作撰写的一篇博客文章中，我们还表明，AI 训练工作负载比许多人预期的要复杂，既具有突发性又对延迟敏感。

MLPerf Storage 基准测试套件是以代表真实 AI 训练工作负载的方式测试存储系统的好方法，无需昂贵的 AI 加速器，同时还支持代表真实数据集的数据集大小。

现在，我们自豪地宣布美光 9400 NVMe SSD 在 3D 医学成像基准测试 (Unet3D) 中支持 17 倍加速器。这相当于每秒 41 个样本或 6.1 GB/s 的 IO 吞吐量。

美光数据中心工作负载工程团队将凭借这个易于运行的基准测试且能代表真实 AI 训练环境，在存储设备和解决方案中呈现数据，以便我们都能够更好地了解如何调整和设计存储，以提高加速器的利用率。

美光 9400 NVMe SSD

SMTS 系统性能工程师

Wes Vaske

Wes Vaske 现任美光科技技术团队高级成员 (SMTS) 和系统性能工程师。Wes 在存储解决方案和 AI 基础设施领域拥有深厚的技术积累。他负责提升美光在数据智能和机器学习方面的能力，并发挥着关键作用。他擅长针对 AI 训练系统开展基准测试，并致力于优化存储产品性能，以满足下一代 GPU 的需求。加入美光前，Wes 在戴尔公司担任系统工程师。他拥有爱荷华州立大学学士学位。

产品概览

搜索、筛选和下载美光数据表

市场与行业概览

AI 数据中心

合作伙伴概览

了解并加入美光的技术支持计划 (TEP)

销售和支持概览

联系美光销售支持团队

美光品牌

关于概览

美光品牌

投资者关系概览

访问美光“投资者关系”网站

最近搜索

美光 9400 NVMe SSD 是适用于 AI 存储的出众 PCIe 4.0 SSD

Wes Vaske