参加今年在美国加利福尼亚州圣克拉拉举行的“2024 年全球闪存峰会”(FMS 2024) 的人会听到很多有关大容量 SSD 的演讲。就在一年前,许多客户还认为 64TB 容量过大。在 FMS 2024 的多个演讲和展台上,未来几年推出的 SSD 产品路线图显示,容量高达 128TB 和 256TB。为什么会突然出现这种变化? 经历了去年的财务低迷期之后,闪存行业集体失去了理智吗? 到底发生了什么?
必然事出有因
无论是这种快速转变,还是当今 IT 行业发生的许多其他变化,都源自同一个因素,即生成式 AI 的爆发式崛起。一直以来,存储行业都在议论,有一天 HDD 会因为速度太慢而被便宜快速的 SSD 所取代。我们面临的挑战是,HDD 价格便宜,聪明的存储软件开发人员便不断想方设法从中获取足够的性能。
直到可快速使用大量数据用于训练的大型 GPU 集群出现。呈指数级增长的大型语言模型 (LLM) 需要越来越多的数据用于训练。GPU 处理数据的速度比传统 CPU 更快。即使用户尝试把数据分散到成千上万块 HDD 上,HDD 的处理能力也无法跟上数据量的大幅增长。这样做对功耗和空间的要求太高了。
为什么不把 SSD 放在 GPU 附近提高速度,而用 HDD 来存储大量数据呢? 生成式 AI 是种工作流程,而不仅仅是应用。这一过程包括摄取、整理和格式化用于训练的数据,将其反复输入 GPU,并定期保存训练进度,以避免由于系统崩溃或其他原因而需要重新开始训练。公共 LLM 需要根据用户数据优化和微调,推理过程中的检索增强生成 (RAG) 需要快速访问特定应用的数据。在不同的存储系统之间移动数据,过程复杂,成本也高昂,而且非常耗电,还分散了开发更好的模型和利用现有模型的精力。
这就是低成本大容量 SSD 的优势所在。在计算系统中,SSD 性能通常以 IOPS(每秒读写操作次数)来衡量。对于存储系统而言,设备性能以单位容量吞吐量 (MB/s / TB) 来衡量。对于大型 GPU 训练集群,每 TB 存储容量对系统带宽的要求可高达 100 MB/s。这些大型存储系统(用于保存多模态模型的文本、图像和视频)需要的系统容量高达 PB 至 EB 级,因此需要数百至数万块单独的硬盘。
SSD 带宽最高可达 HDD 的 50 倍,从而可以用较少的 SDD 实现与大量 HDD 相同的系统吞吐量。数量越少,就需要比 HDD 容量更大,才能满足系统容量要求。大多少呢?
具体取决于性能要求和网络带宽。这些存储系统通常通过超高速网络连接到 GPU 集群,但这些网络的总带宽仍然远远低于 SSD 的总带宽。对于较大的 GPU 集群(要求高达 100 MB/s / TB)来说,最高 64 TB 的容量往往已是极限。而在性能要求较低的小型集群或系统中,一些用户希望将 SSD 的容量扩展到 128TB 甚至 256TB。
由于网络系统中的 SSD 不会以最高速度运行,因此其耗电量要比标准计算应用低得多。此外,由于速度和高写入周期支持并不是最重要的,因此在设计上做出了妥协,以降低相对于传统主流计算 SSD 的成本。
下面是根本原因
最终,存储系统的硬盘和存储服务器数量减少,能耗降低,机架数量减少,可靠性提高,使用寿命延长,延迟特性降低,GPU 等待数据的空闲时间缩短,而且与混合使用 SSD 和 HDD 相比,全部使用 SSD 时更易于管理。
接下来的发展方向是什么?
大型 GPU 集群和 GPU 即服务云提供商正在选择低成本的大容量 SSD 来满足其存储需求。与 HDD 相比,SSD 在性能、功耗和容量方面都具有优势,因此这些初始应用证明 SSD 的成本较高是合理的。随着 HDD 的速度 (MB/s / TB) 越来越慢,预计在未来几年内,其他高性能用例也将转向 SSD。价格便宜固然是好事,但如果无法满足用户对性能的需求,就会导致 CPU、GPU 和其他加速器闲置,从而带来昂贵的电力和系统成本。
我们早已熟悉了存储和内存的层次结构,不断利用新技术加以更新,并调整金字塔中各块之间的界限。美光现在为金字塔引入了新的区块,就是大容量 SSD,以正视这种新型 SSD 的新作用,即满足需要大容量的存储应用,同时兼顾性能、功耗和成本。
有关美光面向这一新数据中心细分市场提供的产品的详细信息,请参阅:美光 6500 ION NVMe SSD