美光科技推动 AI 数据中心走向未来
- 近内存
- 主内存
- 扩展内存
- 本地 SSD 数据缓存
- 网络数据湖
充分发挥 AI 数据中心的潜力
每个 AI 服务器盒子内都呈现金字塔结构,或者说是内存和存储组成的层次结构,用于实现开创性的高速 AI。采用美光前沿技术搭建此类盒子,可减少数据中心瓶颈,提高可持续性和能效,同时降低总拥有成本。
点击金字塔,探索我们的 AI 解决方案组合
探索盒子内部
地球上的盒子不管多先进,都离不开地球
常见问答
AI 工作负载需要强大的计算能力,且会产生大量热量,因此有必要升级为强大的基础设施。有鉴于此,现代 AI 数据中心纷纷采用前沿散热技术、可再生能源和经过优化的布局,以实现理想性能和可持续发展。此外,由于 AI 应用通常依赖专用硬件来高效处理复杂的计算,因此选择适合的 CPU 和 GPU 也至关重要。这种精心选择有助于大幅提高处理能力,同时尽可能降低能耗,进一步提高 AI 数据中心的整体效率和有效性。
美光 8 层堆叠 24GB 和 12 层堆叠 36GB 的 HBM3E 解决方案具有超过 1.2 TB/s 的带宽,可提供行业前沿的性能,功耗也比市场上的其他同类解决方案降低高达 30%。
运行 AI 数据和机器学习数据工作负载时,内存对于系统整体性能而言至关重要。适合 AI 数据和机器学习数据工作负载的内存主要有两种:一种是高带宽内存 (HBM);另一种是双倍数据率 (DDR) 内存,特别是新推出的 DDR5。为 AI 训练数据工作负载选择哪种内存取决于很多因素,如 AI 模型训练算法的具体要求、自动化数据处理的规模和系统总体配置等。HBM3E 和 DDR5 均具有显著优势,在选择时应考虑 AI 内存的具体使用情况、预算及当前的硬件。美光针对 AI 模型训练提供了新一代 HBM3E 和 DDR5。
HBM3E 具有前沿的架构和高带宽容量,无论从带宽、速度还是能效方面看,目前都属于高端 AI 模型训练内存解决方案。相比 HBM 解决方案,DDR5 AI 训练内存模块是当前更为主流的高速内存解决方案,在大规模部署时更具成本效益。
如果总容量对您的 AI 工作负载而言最为重要,则可以选择美光 CZ120 内存扩展模块,它基于 CXL 标准,可提供比直连内存通道更高的性能。
要打造理想的机器学习数据和 AI 模型存储解决方案,需要考虑若干因素。重点考虑因素包括速度、性能、容量、可靠性、耐用性和可扩展性等。AI 工作负载的理想智能存储解决方案取决于具体应用的特定需求、预算及系统总体配置。美光提供性能出色的 NVMe SSD,可满足机器学习数据和 AI 模型存储的特定需求。美光 9550 NVMe SSD 采用业界前沿创新技术,速度超凡出众,可为 AI 及其他领域应用提供 PCIe® 5.0 级别的优异性能,以及高度的灵活性和安全性。美光 6500 ION NVMe SSD 是网络数据湖理想的大容量解决方案。
1 与此前的 1α 节点产品相比。
2基于 JEDEC 规范。
3 与(2023 年 6 月)市售的 3DS 模块竞品相比,测量数据的单位为 pJ/bit。
4 基于使用 Intel 内存延迟检查器 (Intel MLC) 的测试数据,测试比较了 128GB 8800MT/s MRDIMM 与 128GB 6400MT/s RDIMM。
5 基于 Stream Triad 的测试数据,测试比较了硬盘存储容量为 1TB 时 128GB 8800MT/s MRDIMM 与 128GB 6400MT/s RDIMM。
6 基于 OpenFOAM 任务能耗测试数据,测试比较了 128GB 8800MT/s MRDIMM 与 128GB 6400MT/s RDIMM。
7 与 LPDDR5X 8533 Mbps 相比
8 与上一代产品相比
9 MLC 带宽(使用 12 通道 4800MT/s RDIMM + 4x256GB CZ120)与仅使用 RDIMM 的比较。
10 性能比较基于产品发布时市售的高性能 Gen5 SSD 的公开可用数据信息,这些 SSD 具有 1 DWPD 的耐用性和 7.68 TB 的容量。在队列深度为 512 时的顺序和随机吞吐量。多个公开来源提到了大型加速器内存 (BaM)(例如:https://www.tomshardware.com/news/nvidia-unveils-big-accelerator-memory-solid-state-storage-for-gpus),以及使用 NVIDIA H100 GPU 的图神经网络 (GNN) 训练工作负载中的 GPU 启动的直接存储 (GIDS),这项技术已在美光实验室中进行了测试,并与高性能 Gen5 SSD 进行了性能对比。
11 使用 Llama3 LLM(4,050 亿个参数)模拟检查点工作负载。该模型在一个 8 GPU 服务器上运行。检查点大小为 415 GB。图中显示了与 Solidigm D5-P5336 相比,运行单个检查点任务所需时间、单个检查点的 SSD 能耗,以及检查点操作期间的 SSD 吞吐量。详细信息请参见美光 6550 ION SSD AI 技术简介。
12 比较时使用了 6550 ION 发布时公开可用的竞品信息,其中 6550 ION 的峰值功耗为 20W,竞品的峰值功耗为 25W,因此 6550 ION 的峰值功耗比竞品低 20%。
13 美光 6550 ION 容量高达 61.44 TB。支持 E3.S 的服务器可以在 1U 空间内配置多达 20 块 SSD。