本博客由 IDC 特邀作者撰写,发表于 Micron.com
固定配置服务器并不适合所有数据中心
随着数据量呈爆炸式增长*,数据中心正面临着巨大压力。虽然通用固定架构服务器在之前能够满足大多数数据中心工作负载的需求,但因为缺乏灵活性,已无法满足现代工作负载日益多样化的特殊需求。如今的工作负载需要灵活组合各种数据处理、移动、存储和分析功能。
*据 IDC 预测,从 2023 年到 2028 年,每年新增数据量将以 24.4% 的复合年增长率增长1
为了提供这些功能组合,并符合企业对性能、功耗和成本的要求,企业和云数据中心架构师通常会选择具有灵活架构的白盒服务器。事实上,近年来白盒服务器的出货量持续增长,2023 年已占到全球服务器总出货量的近 45%。企业和云数据中心架构师正在应用以下三种主要架构技术:
- 人工智能 (AI):AI 将把更多智能带到数据驻留的位置,未来将有更智能的内存、存储、网络和处理能力,可以更高效地处理、移动、存储和分析数据。AI 的应用方式多种多样,覆盖各种规模的任务,例如:分析大型数据集并输出结果;决定企业基础设施中的不同位置(边缘或核心)需要什么样的数据;监控网络,确定哪些用户可以访问,哪些用户不能访问。AI 已深度融入到 IT 和 OT 运营的诸多方面,架构师必须精心调整系统配置,以提供适当的功能。
- 异构计算:异构计算可根据工作负载的需求,在服务器配置中混合搭配内存、存储、处理和连接技术。例如,10 年前的服务器一般使用与 CPU 集成的 GPU,而现在的服务器通常会配置性能强大的独立 GPU,并带有专用显存。现在还出现了 10 年前不存在的 AI 服务器。此类服务器将多核 CPU、高端 GPU 和专用定制芯片 (ASIC) 组合在一起,以满足 AI 对吞吐量的严苛要求。
- 分布式计算:分布式计算将服务器部署在数据存储的位置,通过调整内存、存储、处理和连接功能来尽可能降低数据传输成本,并降低数据中心与最终用户之间的延迟。集中式核心数据中心的服务器用于执行高性能任务,需要强大的 CPU、GPU 和 FPGA;而边缘(一种计算范式,其中基础设施和工作负载更靠近数据生成和使用的地方)数据中心的服务器因为资源有限,主要执行特定领域的任务,需要更节能的 CPU 和 SoC 以及低功耗内存。数据中心位置的分散化形成了一种混合模型,即大量核心数据中心服务器搭配更靠近数据用户的边缘服务器。
通过灵活配置发挥数据中心的潜力
白盒服务器的灵活架构提供了巨大的潜力。此类服务器的配置可根据目标工作负载的性能、功耗和成本需求灵活调整。与 5 年前相比,如今计算、内存、存储和网络技术的可扩展性和成本效益显著提高。
在计算方面,现在有多种服务器微处理器产品可供选择,从用于小型低强度工作负载的 4 核心处理器,到用于性能密集型工作负载的 144 核心处理器;预计到 2025 年,288 核心的服务器处理器将成为主流。此外,如今的服务器微处理器能够支持更大的内存容量和 I/O 带宽。现在还出现了很多高性能加速器,包括 GPU、FPGA 和定制 ASIC 等。许多加速器专为 AI 应用设计,并针对预期工作负载进行了优化。这些加速器采用 PCIe 接口,可分担微处理器的工作,并能够均衡各子系统的性能和功率需求。
在内存方面,服务器主内存正迅速转向 DDR5。DDR5 内存模块不仅拥有更大的容量,还内置了更多智能功能(数据缓冲区),并支持动态管理自身功耗。对于加速器所用内存,高带宽内存 (HBM),特别是 HBM3E,已成为当今的标准。此类大容量、低延迟内存可专用于高性能工作负载(例如 AI 模型训练)。
在存储方面,随着 AI 的普及,越来越多的数据将存储在 SSD 中。为适应这种趋势,系统架构师已在内存和存储层次结构中采用了速度更快、容量更大且支持 NVMe 的驱动器,旨在加速将数据传输到数据处理器。在存储基础设施方面,因为 AI 模型训练需要大量非结构化和结构化数据,如今的存储架构需要支持对象和文件的混合存储,以便数据处理应用同时访问以两种格式存储的数据。
要构建成本较低、性能较高的服务器,网络是不可忽视的一个方面。在构建 AI 基础设施的初始阶段,大量投资被用于 GPU 等数据处理技术。但进入实际应用阶段后,AI 模型需要在服务器子系统、服务器之间以及数据中心之间移动大量数据。为尽可能减少网络传输时间**,网络 IC 厂商已经将以太网的吞吐量提高到了 1600 Gb/秒。计算架构则采用分段网络架构,包括普通以太网超额订阅网络、基于以太网或 InfiniBand™ 的 AI 处理网络,以及支持 PCIe® 或 NVLink™ 的 GPU 后端网络,以便于扩展网络能力。
**数据在网络上传输需要时间,这可能导致 GPU 和 CPU 的空闲时间高达 60%。2
生成式 AI 是一种重要的新兴工作负载,将对各行业产生深远影响。为利用生成式 AI,企业需要采用专为 AI 构建的基础设施,现已进入关键的升级改造阶段。从 2024 年开始,企业将加速部署新的 AI 专属硬件和软件基础设施,同时还将通过投资来推动业务和员工生产力显著提高,并重新构想如何为客户带来更佳数字体验。
白盒服务器为当前的数据中心带来了配置上的灵活性,也为未来的数据中心构筑了雏形。未来的数据中心将采用高度可扩展的模块化架构以及 UCIe™、CXL™ 和 HBM3E 等下一代技术。现有数据中心将向着这一架构目标持续调整,以满足 AI 对基础设施的全新要求。
1 IDC,《IDC 全球数据圈预测 (2024–2028):AI 无处不在,但数据激增仍需时间》,文档编号:US52076424,2024 年 5 月
2 《IT 基础设施中的 AI 半导体和存储组件展望》,IDC # US51851524,2024 年 2 月
本文中表达的观点为撰稿人的观点,并非美光科技股份有限公司及其子公司或附属公司的观点。所有信息均按“原样”提供,美光和作者均不对所提供的信息作出任何陈述或保证。美光产品按销售时所售产品、适用数据表或规格提供保修。资讯、产品和/或规格若有变动,恕不另行通知。Micron 及 Micron 徽标为 Micron Technology, Inc(美光科技股份有限公司)的商标或注册商标。所有第三方的名称或商标均归其各自所有者所有,本文中的任何引用并不暗示与这些相关方之间的任何认可、赞助或关联关系。