设计工具
应用

利用美光 DDR5 内存和第四代 AMD EPYC 处理器提升高性能计算工作负载性能

Krishna Yalamanchi、Sudharshan Vazhkudai | 2022 年 11 月

AMD 和美光合作的目标是在客户端和数据中心平台提供出色的用户体验。为此,两家公司在奥斯汀建立了联合服务器实验室,以缩短服务器内存验证时间,并在整个产品验证和发布期间共同进行工作负载测试。在这篇博客中,我们研究了一些使用美光 DDR5 数据中心内存和第四代 AMD EPYCTM 处理器的常见高性能计算工作负载基准测试结果。目前这两款产品均已开始发售。

高性能计算 (HPC) 工作负载历来由世界上一些速度超快的超级计算机处理。这些通常是大规模的数据密集型工作负载,需要运行 TB 级的数据量进行数百万个并行操作。这些复杂的工作负载致力于解决人类世界非常艰巨的问题——天气和气候模拟、地震建模,化学、物理和生物分析等等。

随着计算机架构的进步,这些工作负载越来越多地托管在超大型“横向扩展”高性能服务器集群中。这些集群需要更新、更强大的算力、构造、内存和存储基础设施,以满足此类关键工作负载对可扩展性、低延迟和高性能的需求。然而,随着服务器 CPU 的性能和吞吐量的提升,在过去几年中,DDR4 无法提供足够的内存带宽。内存带宽不足,无法满足不断增长的高性能内核的需要。

美光 DDR5 简介

美光 DDR5 内存和采用第四代 AMD EPYC 处理器的新型 AMD Zen 4 服务器架构改变了这一状况。如今,服务器 CPU 和内存可以实现更好的平衡,为苛刻的工作负载激发性能和效率。无论是在本地还是在云中,DDR5 内存都可帮助组织更快获得这些洞察。考虑以下几个证明点,这些证明点是在使用符合行业标准的高性能计算工作负载基准测试美光 DDR5 与新型 AMD Zen 4 96-核 CPU 的过程中产生的。我们所有的测试结果都显示性能提升了两倍。

使用美光 DDR5 和采用 STREAM 的第 4 代 AMD EPYC 处理器,让内存带宽翻倍

STREAM1 是一个简单、有名的基准测试工具,用于测量高性能计算计算机中的内存带宽。它能够捕获高性能计算系统的峰值内存带宽

此工作负载使用的软件堆栈

  • Alma 9 Linux kernel 5.14
  • STREAM.f,2021 年 11 月 29 日发布版
美光 DDR5 提供更大的带宽,详见条形图

测试设置

  • DDR4 系统搭载第三代 64 核 3.7 GHz AMD EPYC 处理器;DDR4 3200 MHz 系统2 的 RDIMM 内存槽全部插满,共 64GB
  • DDR5 系统搭载第四代 96 核 3.7 GHz AMD EPYC 处理器;DDR5 4800 MHz 系统3 的 RDIMM 内存槽全部插满,共 64GB

测试结果

  • 单插槽 DDR5 系统的内存带宽翻倍,达到 378 GB/s
  • 该结果意味着客户可以运行规模更大的人工智能/机器学习 (AI/ML) 项目,或者通过 DDR5 增加的内存带宽进行更多 HPC 计算。
显示 DDR5 相较于 DDR4 的相对增益的条形图

凭借美光 DDR5,天气研究和预报 (WRF)4 应用的运行速度快两倍

此高性能计算工作负载代码由天气和气候社区采用,该模型广泛用于气象应用。WRF 在支持高浮点处理、高内存带宽和低延迟网络等传统高性能计算架构上通常表现良好。为此,测试对象为横向分辨率为 2.5 公里的美国大陆地区 (CONUS)。

该工作负载使用的软件堆栈

  • Alma 9 Linux kernel 5.14 
  • WRF 2.3.5 和 4.3.3
  • Open MPI v4.1.1

测试设置

  • DDR4 系统搭载第三代 64 核 3.7 GHz AMD EPYC 处理器;DDR4 3200 MHz 系统2 的 RDIMM 内存槽全部插满,共 64GB
  • DDR5 系统搭载第四代 96 核 3.7 GHz AMD EPYC 处理器;DDR5 4800 MHz 系统3 的 RDIMM 内存槽全部插满,共 64GB

测试结果

  • 使用美光 DDR5 和第四代 AMD EPYC 处理器,每秒可执行 1.3567 个时间步。而 DDR4 系统每秒只能执行 2.8533 个时间步。
  • 执行速度更快意味着天气预报员可以选择更大的数据集或运行更多模型。这两种选项均可提高预测的准确度。

配备美光 DDR5 的 OpenFOAM5 运行速度快两倍

OpenFOAM 是一种计算流体动力学 (CFD) 的开源高性能计算工作负载,广泛用于各个行业,有助于减少开发时间和降低成本。从消费品设计到航空航天设计,它能够模拟不同应用中的物理交互。数据集中包含的模拟之一是摩托车风挡湍流。在该模拟中,OpenFOAM 能够计算摩托车和骑手周围的稳定气流。OpenFOAM 能够根据用户指定的进程数进行负载均衡计算,然后将网格分解成多个部分,以供每个进程求解。求解完成后,再将网格和解重新组合成单个域。

此工作负载使用的软件堆栈

  • OpenFOAM CFD Software (v8),其中摩托车网格尺寸为:600 x 240 x 240
  • Alma 9 Linux kernel 5.14 
  • Open MPI v4.1.1

测试设置

  • DDR4 系统搭载第三代 64 核 3.7 GHz AMD EPYC 处理器;DDR4 3200 MHz 系统2 的 RDIMM 内存槽全部插满,共 64GB
  • DDR5 系统搭载第四代 96 核 3.7 GHz AMD EPYC 处理器;DDR5 4800 MHz 系统3 的 RDIMM 内存槽全部插满,共 64GB

测试结果

测试结果表明,OpenFOAM 的性能提高了 2.4 倍。OpenFOAM 为五大高性能计算软件平台之一,拥有大型开源社区。该软件广泛应用于大学和研发中心,其高度并行操作能力得益于内存(增加的带宽)和 CPU 特性(如更密集的内核)。

采用美光 DDR5,分子动力学6 的运行速度快两倍

CP2K 是一款开源量子化学工具,可用于许多应用,包括固态生物系统的模拟。CP2K 能够为不同的建模方法提供通用的框架,例如使用混合高斯和平面波方法(GPW 和 GAPW)的 DFT。此次测试对象是水 (H2O) 的线性缩放密度泛函理论 (DFT),39 立方埃箱中共包括 6144 个原子(2048 个水分子)。

此工作负载使用的软件堆栈

  • H2O-DFT-LS.NREP4 和 H2O-DFT-LS
  • Alma 9 Linux kernel 5.14

测试设置

  • DDR4 系统搭载第三代 64 核 3.7 GHz AMD EPYC 处理器;DDR4 3200 MHz 系统2 的 RDIMM 内存槽全部插满,共 64GB
  • DDR5 系统搭载第四代 96 核 3.7 GHz AMD EPYC 处理器;DDR5 4800 MHz 系统3 的 RDIMM 内存槽全部插满,共 64GB

测试结果

测试结果表明,分子动力学的性能提高了 2.1 倍。随着内核数和内存带宽增加,此性能也显著提升。

总结

目前只针对少量高性能计算工作负载进行测试,因此以上只是几个示例。将高性能、高带宽内存与新型服务器处理器(第四代 AMD EPYC 处理器)所提供的出色性能更好地匹配,对于 高性能计算客户来说是一个具有分水岭意义的时刻。我们有望看到更多此类证明点,表明企业数据中心和云运营商能够在这些新平台上使用美光 DDR5 来释放更高层级的性能和效率。我们期待在未来几个月与您分享这些内容。要了解有关美光 DDR5 和数据中心工作负载优势的更多信息,请访问 Micron.com/ddr5

1. 在 STREAM 基准测试中配置了 25 亿个向量的 STREAM Benchmark——使用 AMD 的单 CPU 系统运行
2. AMD DDR4 系统为一台 64 核 AMD EPYC 7763 处理器,DDR4-3200 MHz 的 RDIMM 内存槽全部插满,共 64 GB
3. AMD DDR5 系统为一台 96 核 AMD EPYC 9654 处理器,DDR5-4800 MHz 的 RDIMM 内存槽全部插满,共 64 GB
4. 12.5 公里 CONUS 的 WRF 在 DDR4 系统上的运行时间为 929 秒,在 DDR5 系统上的运行时间为 287 秒(均包括存储器的输入/输出时间)。在上例中,WRF 配置为 2.5 公里 CONUS,测试结果为 2.8533 时间步/秒,相比之下,DDR4 的运行时间为 1.3567 时间步/秒。
5. 对于 OpenFOAM,我们运行了三种变体:
5a:1004040 次运行 = DDR4 系统运行时间为 1,144 秒,DDR5 系统运行时间为 478 秒
5b:1084646 次运行 = DDR4 系统运行时间为 1,633 秒,DDR5 系统运行时间 698 秒
5c:1305252 次运行 = DDR4 系统运行时间为 2,522 秒,DDR5 系统运行时间为 1,091 秒
6. 分子动力学工作负载在 DDR4 系统上的运行时间为 2,519 秒,在 DDR5 系统上的运行时间为 1,242 秒

Sr Manager, Ecosystem Enablement

Krishna Yalamanchi

Krishna is a Senior Ecosystem Development Manager, focusing on DDR5 and CXL solutions. Previously, Krishna lead SAP HANA migration for Intel IT, launched 3rd and 4th generation Intel Xeon for SAP workloads via their partner ecosystem for SI’s, OEM’s and Cloud Service Providers.

Director, Workload Analytics

Sudharshan Vazhkudai

Dr. Sudharshan S. Vazhkudai is the Director of System Architecture / Workload Analytics at Micron. He leads a team spread across Austin and Hyderabad, India, focusing on understanding the composability of the memory/storage (DDR, CXL, HBM and NVMe) product hierarchy and optimize system architectures for data center workloads.