设计工具
存储

AI 将引发存储领域的哪些变化?

美光科技 | 2023 年 11 月

当下,投身于存储领域着实令人兴奋。我们正处于 IT 行业颠覆性变革的风口浪尖。它围绕着人工智能(AI)将如何改变我们架构和构建服务器的方式,以及我们希望计算机为我们做什么。业界和公众都对生成式 AI 给予较多关注。今年早些时候出现的 ChatGPTTM 激发了人们的想象力,让人们思考计算机如何能够理解我们用自然语言提出的问题,与我们进行任何主题的对话,甚至像人类一样创作诗歌和韵律。还有各种图像生成 AI 模型,可以根据用户给出的简单文本提示词创作出令人惊叹的视觉杰作。

AI 的迅速出现对更高带宽内存(HBM)提出了相当大的需求。现在的 HBM 解决方案变得比黄金更受欢迎。大型语言模型(LLM)推动了对 CPU 上更大容量内存的占用需求,以支持更大、更复杂的模型。虽然人们已经充分理解了更多内存带宽和容量的重要性,但通常会忘记存储在支持 AI 增长方面的作用。

存储在 AI 工作负载中有何作用或重要性?

存储将在两个领域发挥重要作用。一个本地高速存储,它作为缓存将训练数据馈送到 GPU 上的 HBM 中。

出于性能的需要,此时会用到高性能固态硬盘。存储的另一个关键作用是将所有训练数据集保存在大型数据湖中。

本地缓存驱动器

LLM 是使用网页、书籍和相关词典中由人类生成的信息训练的。本地缓存驱动器上训练数据的 I/O 模式是结构化的,主要读取大型数据块,从而将下一批数据预提取到内存中。因此,对于传统的 LLM 来说,固态硬盘的性能通常不会成为 GPU 处理的瓶颈。其他 AI/ML 模型(如计算机视觉或混合模式 LLM+CV)则需要更高的带宽,并对本地缓存驱动器带来了挑战。

图神经网络(GNN)通常用于产品推荐/深度学习推荐模型(DLRM)、欺诈检测和网络入侵。DLRM 有时被认为是互联网上的大型创收算法。用于训练 GNN 的模型倾向于更加随机地访问数据,使用更小的块大小。它们会给本地缓存固态硬盘的性能带来真正的挑战,并可能导致因 GPU 闲置而产生的昂贵成本。要缓解这一性能瓶颈,需要新的固态硬盘功能。美光正在积极与行业领导者合作以开发解决方案,并在于丹佛举办的 SC23 上展示其中一些成果,我们将演示通过 GPU 和固态硬盘的交互,将一些 I/O 密集型处理时间缩短高达 100 倍的方法。

AI 数据湖

对于大数据湖来说,大容量固态硬盘将成为首选的存储介质。随着容量增加,HDD 会变得越来越便宜($/TB),但它们的速度也变得越来越慢(MB/秒/TB)。大于 20 TB 的 HDD 容量将对大型数据湖高效获取大型 AI/ML GPU 集群所需带宽类型(TB/秒)的能力构成挑战。相比之下,固态硬盘具有良好的性能,在特定专用形式下,可以使用比 HDD 更低的功率(瓦特/TB 低 8 倍),甚至更低的电力(千瓦时/TB 低 10 倍)水平提供所需的容量。这些节省使数据中心得以保留更多余力来添加更多的 GPU。如今,美光正在将其 32TB 的高容量数据中心固态硬盘部署到众多 AI 数据湖和对象存储中。15 瓦的固态硬盘容量可单独提供数 GB/秒的带宽,未来还将扩展至 250 TB。

AI 将如何影响 NAND 闪存需求?

首先,所有新的 AI/ML 模型训练都需要数据来进行“学习”。IDC 估计,从 2005 年开始,每年产生的数据量超过了每年购买的存储量。这意味着某些数据必须变为短期使用。用户必须决定其价值,以及保留数据的价值是否超过购买更多存储来保留数据的成本。

机器(如摄像头、传感器、物联网设备、喷气发动机诊断系统、数据包路由信息、滑动和点击等)产生的数据量远远超过人类一天所能处理的数据量。人类以前没有时间或能力分析的、由机器生成的数据,现在对 AI/ML 例程特别有用,可以从中提取实用且有价值的信息。AI/ML 的出现应该会使保留这些数据变得更有价值,对存储的需求也因此增加。

这些训练数据存储在 AI 数据湖中。这些数据湖的特点是需要支持高密度的访问以供越来越多的 GPU 集群使用,同时也需要支持高混合度的数据摄入和预处理。此外,由于经常需要重新训练数据,很少有“冷数据”存在。这种工作负载特性更适合使用大容量、节能型固态硬盘,而不是传统的基于 HDD 的对象存储。这些数据湖的大小可达数百 PB,对于自动驾驶或 DLRM 等计算机视觉用途来说可能相当大。随着这些数据湖容量和数量的增长,将为 NAND 闪存固态硬盘带来巨大的增长机会。

随着 AI 模型的演进和扩展,NAND 闪存对于维持其指数级的性能增长将变得越来越重要。