设计工具
存储

有关 NVIDIA GTC 2024 大会的三大要点

Alvaro Toledo | 2024 年 4 月

NVIDIA GPU 技术大会 (GTC) 是 AI 行业最受期待的活动之一,展示了 GPU 计算、深度学习、计算机视觉等领域的最新创新和趋势。今年,GTC 2024 已于 3 月 18 日至 21 日举行,共有 900 多场会议、主题演讲、演示和研讨会,汇聚了该领域的众多专家和领导者。作为 NVIDIA 的合作伙伴,美光出席了活动,在会上介绍了我们的内存和存储解决方案如何驱动下一代 AI 平台和应用。以下是我们对 GTC 2024 的三个关键观察发现,它们证明了内存和存储在 AI 生态系统中的重要性。
 

1. 内存和存储是 AI 平台的关键驱动因素
 

数据对 AI 至关重要,因此 GTC 2024 的一个关键主题是,AI 工作负载对内存和存储性能及容量日益增长的需求。随着 AI 模型的规模和复杂性不断增加,它们需要以更快的速度和更低的延迟处理和存储更多的数据。这对传统的内存和存储架构提出了挑战,这些架构如不能满足需求,将可能成为阻碍 AI 性能和效率提升的瓶颈。为了应对这一挑战,美光展示了其专为优化 AI 平台数据流和可用性打造的内存和存储解决方案组合。它们包括:

  • 性能和功率效率均处于行业前沿的美光 8 层堆叠 24GB 和 12 层堆叠 36GB HBM3E 立方体。美光 8 层堆叠 24GB HBM3E 现已量产,将应用到 2024 年第二季度出货的 NVIDIA H200 GPU 中
  • 美光 CZ120 CXL™ 内存模块,可提供加速 AI 和内存中工作负载所需的容量、带宽和灵活性
  • 美光 9000 和 7000 系列 SSD,在 3D 医学成像基准测试 Unet3D 中支持多达 17 个 GPU
  • 美光 6000 系列 SSD,其 AI 数据湖的摄入量比同行以容量为主的 SSD 高出达 48%1
  • 现实世界的实验室结果,展示了美光的技术对 LLM、计算机成像、GNN 等 AI 训练和推理的改善作用

 


通过在整个数据堆栈(近内存、主内存、扩展内存、SSD 数据缓存和网络数据湖)利用这些内存和存储解决方案,美光正在帮助加速 AI 革命,使 AI 平台能够更快、更高效地处理更多数据。
 

2. AI 是 PCIe® 5.0 的杀手锏应用场景
 

GTC 2024 的另一个亮点是推出了基于 PCIe 5.0 接口的新型 NVIDIA B100 加速器。PCI Express 标准是目前应用最广泛的高性能 CPU、GPU、SSD 和网卡连接接口。PCIe 5.0 的带宽比 4.0 翻了一番,每通道的数据传输速度可达 32GT/s。对于可从更高数据吞吐量获益的 AI 工作负载而言,PCIe 5.0 堪称一项颠覆性技术。

然而,要在数据中心充分发挥 PCIe 5.0 的潜力,连接到接口的设备还必须能够支持更高的速度和更低的延迟。这正是美光 PCIe 5.0 SSD 的用武之地。

NVIDIA、戴尔和美光最近合作展示了美光 PCIe 5.0 SSD、Big Accelerator Memory2 (BaM)、NVIDIA H100 加速器和 PowerEdge 服务器的优势。在演示中,他们展示了与 4.0 相比,在将 GNN 训练模型分载到 PCIe 5.0 高性能 SSD 时,图神经网络训练时间缩短了 50%。
 


该测试还显示,NVIDIA H100 (5.0) 的性能相比 A100 (4.0) 提升了 5 倍。随着 GPU 性能提升 5 倍,存储设备将需要快速发展才能跟上步伐。典型的深度学习推荐 (DLRM) 工作负载将带来 10 到 100 的队列深度,读取 128K 到 512K 的数据块。在 5.0 SSD 上,这通常会达到约 14GB/s 的最大硬盘吞吐量。随着 AI 模型的分载,小块性能变得至关重要。上文所述的 GNN 演示可在队列深度超过 1,000 的情况下读取 4K 数据块,轻松达到高速 PCIe 5.0 SSD 的最大随机读取吞吐量。
 


在美光的 PCIe 5.0 技术演示中,我们不仅展示了 14GB/s 的顺序吞吐量,还展示了 3,300,000 IOPS 的随机读取。在 4K 工作负载中,这相当于 13.2GB/s 的吞吐量,比当今市场上的同类产品快 22% 到 32%。
 


凭借如此高的性能和效率,美光 PCIe 5.0 SSD 可以帮助 AI 平台充分发挥 NVIDIA 新款加速器的潜力,更快产生结果,为您的 AI 硬件投资带来更丰厚的回报。
 

3. 大容量 SSD 上正越来越多地部署网络数据湖
 

我们对 GTC 2024 的第三个观察发现是,在 SSD(而非 HDD)上部署网络数据湖来存储和访问 AI 应用生成和使用的大量数据的趋势日益增长。网络数据湖是通过 InfiniBand 或以太网等网络连接到 AI 平台的大型分布式数据存储库。虽然网络数据湖为 AI 数据提供了可扩展和灵活的存储容量,使得不同平台和用户之间可以进行数据共享和协作,但它们同时也带来了数据传输速度和密度方面的挑战,可极大地影响企业的总拥有成本 (TCO)。

为了克服这些挑战,许多 AI 用户和开发人员选择使用高容量 SSD(如美光 6500 ION)而非 HDD 来构建和运营网络数据湖。相比 HDD,这类 SSD 对网络数据湖而言具有诸多优势,例如:

  • 数据摄入和处理速度更快,可减少 AI 模型训练和推理的时间及成本。PCIe 4.0 SSD 可提供高达 6.8GB/s 的顺序读取性能和超过 5.7GB/s 的顺序写入性能1,比 HDD 快得多,后者只能提供低于 300 MB/s 的顺序读取和写入性能3。这意味着这些高容量 SSD 的数据处理速度比 HDD 快 22 倍以上,而这可以大大加快 AI 工作流和出结果。
  • 数据密度更高,功耗更低,这可降低 TCO 和提高网络数据湖的效率。SSD 的密度高达每立方英寸 4.8TB,单个硬盘可存储 30.72TB 的数据,几乎是目前密度最高的 24TB 近线 HDD 的五倍4。这意味着 SSD 可以在更少的空间中存储更多的数据,从而降低网络数据湖的硬件和基础设施成本。

 


综上所述,GTC 2024 是一场非凡的盛会,展示了 AI 行业的最新创新和趋势,以及美光内存和存储解决方案如何推动 AI 革命。我们很荣幸能成为 NVIDIA 的合作伙伴,并期待继续合作,为促进 AI 生态系统的发展贡献力量。

 

VP & GM, Data Center and Storage

Alvaro Toledo

Alvaro is Vice President and General Manager of Data Center Storage at Micron. He is responsible for strategy, product and technology roadmaps, technical customer engagement, and profit and loss (P&L) for data center storage.

Alvaro earned a bachelor’s degree in computer science from National University and an MBA from the Haas School of Business at the University of California, Berkeley.