据 MLCommons 网站介绍,MLCommons 成立于 2018 年,“……旨在加速机器学习创新,提高其对社会的积极影响……” 如今,MLCommons 维护和开发了 6 种不同的基准测试套件,并正在开发开放数据集,以支持未来先进的模型开发。MLPerf Storage 基准测试套件是基准测试系列的新成员。
作为 MLCommons 存储工作组的成员,我帮助制定了基准测试规则和流程,以帮助确保基准测试结果对研究人员、客户和供应商都有价值。我们刚刚发布了第一轮提交的结果,包括美光 9400 SSD 的结果。
但是为什么需要专门针对 AI 工作负载的新基准测试实用工具呢?
要定制存储工作负载,使其适用于 AI 训练系统,会面临两个独特挑战:高昂的 AI 加速器成本和过小的可用数据集,MLPerf Storage 基准测试套件旨在解决这两个挑战。
首先很明显,AI 加速器可能是昂贵而复杂的计算系统,大多数存储供应商不会有足够的 AI 系统来分析其产品在存储解决方案中的可扩展性。
第二个问题是,与 AI 行业常用的数据集相比,开放可用的数据集规模较小。虽然 MLCommons 及其参与者可用的数据集可能高达 150 GB,但生产中使用的数据集通常是 10 到 100 TB。现代服务器可以轻松搭载 1 到 2 TB 的 DRAM,从而在第一次训练历时后将小型基准测试数据集缓存到系统内存中,然后根据 DRAM 中的数据执行后续运行。但生产数据集由于其大小而不会出现相同的行为。
MLPerf Storage 通过在标准 CPU 服务器中模拟加速器来解决第一个问题。在底层,MLPerf Storage 使用的 AI 框架与常用的工作负载(pytorch、tensorflow 等)相同,但 MLPerf 绕过了平台的计算部分,其“睡眠时间”是通过在具有实际 AI 加速器的系统上运行真实工作负载而实验得出的。
模拟加速器和实际加速器的比较表明,工作负载十分相似。
MLPerf Storage 通过创建与实际生产数据集相似,但复制得更大的数据集,来解决第二个问题。该基准测试支持各种数据存储技术,如文件系统和对象存储,以及序列化 numpy 数组、TFRecord 文件、HDF5 文件等多种数据类型。
除了解决这些问题外,在之前与 John Mazzie 合作撰写的一篇博客文章中,我们还表明,AI 训练工作负载比许多人预期的要复杂,既具有突发性又对延迟敏感。
MLPerf Storage 基准测试套件是以代表真实 AI 训练工作负载的方式测试存储系统的好方法,无需昂贵的 AI 加速器,同时还支持代表真实数据集的数据集大小。
现在,我们自豪地宣布美光 9400 NVMe SSD 在 3D 医学成像基准测试 (Unet3D) 中支持 17 倍加速器。这相当于每秒 41 个样本或 6.1 GB/s 的 IO 吞吐量。
美光数据中心工作负载工程团队将凭借这个易于运行的基准测试且能代表真实 AI 训练环境,在存储设备和解决方案中呈现数据,以便我们都能够更好地了解如何调整和设计存储,以提高加速器的利用率。