设计工具
应用

IDC 对未来数据中心架构的看法

IDC 特邀作者 Shane Rau | 2024 年 8 月

本博客由 IDC 特邀作者撰写,发表在 micron.com

当前数据中心的系统架构已通过增加核心数据中心的数据吞吐量,逐渐适应了人工智能 (AI) 带来的颠覆性需求转变。当前的处理、内存、存储和网络架设技术着眼于数据的位置,其目的是被动地将数据尽快移动到所需的位置*。然而,数据中心 AI 的理想目标是能够预测数据在下一步需要移动到的位置。

未来的数据中心布局将是一种混合模式,包括集中式的核心数据中心(足球场大小的仓库,里面装满了服务器)以及分散式的边缘数据中心(其选址靠近使用数据的用户)。距离用户越近,数据的移动速度越快,所需的能量也越少,因此未来的数据中心将利用 AI 技术识别相关规律,预测需要数据的下一个位置,并主动(而非被动)地在核心和边缘之间移动数据。这种通过预测来主动将数据移动到下一步所需位置的能力,将助力企业充分利用分布式和异构计算。其优势包括在数据分析时实现更快的数据访问和集成、更高效的同步资源分配,以及更低的电力成本。

*数据点:2022 年至 2027 年,AI 相关 IT 基础设施半导体和存储机制营收将以 36% 的复合年增长率增长,到 2027 年将增至 1,900 亿美元以上。1


新数据中心架构的优势

凭借新兴器件级和系统级技术,系统设计师能够重新构建核心和边缘基础设施系统,实现集成 AI 预测技术的同步数据处理、存储和移动。这些技术还可部署在核心或边缘的不同位置,以满足某些应用的特殊需求。此类新兴技术包括:

  • HBM3E:高带宽内存 (HBM) 是一种计算机内存接口,用于堆叠式 DRAM。DRAM 中的内存颗粒通过一种被称为硅通孔 (TSV) 的导线连接起来。与传统结构相比,HBM 结构下封装多个内存芯片的空间更小,缩短了数据在内存和处理器之间传输的距离。

    HBM3E 是最新一代 HBM。HBM3E 使用 1024 位数据路径,以 9.6 GB/s 的速度运行,可提供高达 1,229 GB/s 的带宽。HBM3E 支持将 1024 位宽数据通道划分为 16 个 64 位通道,或者 32 个 32 位通道,从而扩展了数据中心系统设计师可用的内存通道数量。HBM3E 可用于制造更高性能和容量的专用内存(例如用于服务器 GPU 的内存),并支持扩展,能够满足各种工作负载的需求。从 2024 年开始,美光和其他制造商将会生产 HBM3E。高带宽内存已成为用于 AI 处理的常见服务器专用内存。

  • Compute Express LinkTM (CXL):CXL 技术实现了不同功能芯片之间交互协议的标准化,例如微处理器与内存、微处理器与加速器,以及内存与内存之间的协议,旨在共享资源。CXL 基于 PCI Express® (PCIe) 物理和电气接口构建。CXL 协议中包括输入/​​输出 (I/O) 协议、缓存一致性协议和系统内存访问协议。CXL 的串行通信功能可突破常见 DIMM 内存的性能和插槽封装限制,其池化功能可大幅提高内存的容量。这些进步意味着数据中心系统设计师无需担忧内存成为其目标工作负载性能需求的瓶颈。CXL 产品于 2019 年上市(1.0 版),1.1 版于 2022 年进入市场,3.1 版于 2023 年底推出。美光是 CXL 联盟的成员。

  • Universal Chiplet Interconnect ExpressTM (UCIe)UCIe 技术实现了单个封装内部多个硅颗粒(称为“芯粒”)之间互连和相关协议的标准化。利用 UCIe,技术供应商能在单个封装内混合搭配不同功能的芯粒,有利于建立可互操作的多供应商生态系统,生产适用于特定工作负载的定制芯片。UCIe 标准由包含美光在内的技术供应商联盟于 2022 年推出。

利用基于 HBM3E、CXL 和 UCIe 技术的同步数据处理、存储和移动功能,系统架构师可根据目标工作负载的本地需求调整服务器设计。内存、存储、计算和网络架设资源可组成不同的公共池,池中的每个资源都与其他资源相一致,且可以相互访问。从固定器件进化到可按需扩展的灵活资源池,意味着数据中心从静态计算架构转变为可组合计算架构。可组合计算是利用 AI 预测技术来优化数据处理的基础。
 

数据中心的未来

数据中心汇集了 IT 市场的重大趋势,包括更多数据和数据类型、多样化的工作负载、异构计算、分布式计算和 AI。可组合计算是行业针对这些趋势推出的重要解决方案,有望彻底改变数据中心的系统架构。UCIe、HBM3E 和 CXL 代表了系统架构方面的根本性变革,据 IDC 估计,2030 年之前,主流数据中心的服务器将结合使用这些技术。

借助可组合计算,任务能够按需访问资源,包括处理器或加速器的计算能力、主内存或专用内存的实时响应,以及网络延迟大幅降低的系统内或系统间通信。对于大语言模型 (LLM),可组合基础设施意味着可动态扩展的处理能力、优化的资源利用率,以及更快的训练速度。图 1 展示了可组合计算如何帮助 AI 基础设施系统扩展捕获、移动、存储、组织和利用数据的方式,以满足特定工作负载的需求。

借助高速内存和存储,AI 可以在各种用例中大显身手

图 1:可组合基础设施意味着仅能使用私有资源的传统系统将被新 AI 系统代替,后者可将资源汇集成共享资源池,然后从单个统一的资源池(湖)或数据中获取资源(例如存储 I/O)。(来源:美光)

通过将 AI 系统分解为可重复使用的模块化器件,开发人员可充分利用这种可组合(通过跨系统和数据中心的技术标准来实现)的优势,并假设其 AI 模型将位于可预测的系统环境中。这种前提反过来又使开发人员能够混合搭配预训练过的模型、算法和数据管道。总之,这种方法可帮助开发人员更快地部署适应不同用例的 AI 模型,并通过优化模型来预测下一步中需要数据的位置。

1 《IT 基础设施中的 AI 半导体和存储组件展望》,IDC # US51851524,2024 年 2 月

本文中表达的观点为撰稿人的观点,并非美光科技股份有限公司及其子公司或附属公司的观点。所有信息均按“原样”提供,美光和作者均不对所提供的信息作出任何陈述或保证。美光产品按销售时所售产品、适用数据表或规格提供保修。资讯、产品和/或规格若有变动,恕不另行通知。Micron 及 Micron 徽标为 Micron Technology, Inc(美光科技股份有限公司)的商标或注册商标。所有第三方的名称或商标均归其各自所有者所有,本文中的任何引用并不暗示与这些相关方之间的任何认可、赞助或关联关系。

IDC guest author, Shane Rau

国际数据公司 (IDC) 是一家面向信息技术、电信和消费技术市场的全球市场情报、数据和活动提供商。