借助 AI 数据中心解决方案,我们的合作伙伴正在塑造未来
技术领域在不断发展,我们很自豪能与业内颇具创新性和影响力的合作伙伴合作。有了他们作为生态系统的中坚力量,我们就能提供协同工作的产品,完成令人惊叹的任务。正如您可能知道的那样,由于对 AI 应用和服务的需求不断增长,数据中心市场正在经历大规模的转型。本博客中的信息均为公开信息,因此我在脚注中注明了信息来源。
我们的生态系统伙伴正在提供令人惊叹的技术,推动(或许是促进)各种 AI 工作负载的发展,例如自动医疗诊断、自动驾驶汽车、个性化娱乐推荐、智能家居管理、天气预报,以及最后一项……AI 生成的艺术。现在谁还能离开这些呢? 所以让我们深入探讨一下数据中心处理器和 AI 加速器。
外面发生了什么?
NVIDIA:NVIDIA 已经迅速成为世界上尤具价值的公司。仅在过去一年中,其股价上涨了 230% 以上,市值逼近 2 万亿美元(截至 2024 年 2 月 26 日收盘)。NVIDIA 是数据中心加速器的先驱,提供多种型号的 GPU。其新推出的数据中心产品是 H100。与上一代的 A1001 相比,H100 的 AI 训练速度最多提高了 9 倍,AI 推理速度最多提高了 30 倍,许多人以前认为 A100 是款高性能 GPU。我们已经使用 A100 完成了内部测试,在一次工作负载测试中,使用 NVIDIA 的 Big Accelerator Memory 技术,将特征聚合(通常是 AI 训练中最长的部分)提升了 100 倍以上。需要证明? 阅读我们 2024 年 1 月关于美光 9400 NVMe SSD 的博客。2
H100 改变了生成式 AI 的游戏规则,而且据说 NVIDIA 积压了大量供应订单,所以要想买到这款产品,祝您好运。H200 已经发布,性能有望得到更大提升。3 这是首款使用 HBM3E 的 GPU,值得注意的是,美光是其供应商。4 但别忘了,NVIDIA 也在构建 AI 服务器,品牌为 DGX。这些服务器具有强大的计算能力,其中 DGX H100 的计算能力高达每秒 32 千万亿次浮点运算,令人瞠目!如果您还不知道,NVIDIA 将举办名为“全球技术大会”(简称 GTC)的年度会议。下一次会议将在几周后举行,我相信届时将会公布一系列下一代产品的开发成果。请务必在太平洋时间 3 月 18 日星期一下午 1 点-3 点观看黄仁勋的主题演讲。
英特尔:英特尔首席执行官 Pat Gelsinger 表示,英特尔正在“致力于普及 AI”,并正在经历重大转型。据报道,该公司已与 NVIDIA 签署封装协议,5 是向外部方提供代工服务,6 并正在简化运营,以专注于其最重要的市场。英特尔是数据中心处理器领域久负盛名的领导者,提供一系列支持 AI 工作负载的产品,例如英特尔® 至强® 可扩展处理器。而在发布上一代处理器仅一年后,该公司最近又发布了其第五代至强® Emerald Rapids 处理器。你明白我的意思吗? 我的意思是,从一款处理器快速过渡到下一款处理器,也是英特尔著名的 tick-tock 策略的一环。😊 英特尔告诉我们,对于 Emerald Rapids 来说,每个内核都内置了 AI 加速,帮助他们将图像分割速度最多提高了 42%,图像分类性能最多提高了 24%,明显提升了 AI 推理能力。7
下一步是什么?英特尔已经公开表示,Granite Rapids 的 DeepMD+LAMMPS AI 推理能力将提升 2.9 倍。8
虽然英特尔现在在加速器和 GPU 领域所占份额很小,但英特尔也参与了这一领域。2024 年,该公司计划推出下一代 Gaudi®3 AI 加速器,8 是 2019 年收购 Habana Labs 的产物。预计将与 NVIDIA 的 H100 和 AMD 的 MI300X 竞争。继该产品之后,英特尔计划明年将其加速器和 GPU 系列与代号为 Falcon Shores 的产品融合在一起。8 公开可用的细节很少,但明年有望成为加速器/GPU 细分市场快速发展的一年。
AMD:AMD 是数据中心处理器的另一领导者,提供为 AI 应用提供高性能、可扩展性和安全性的 EDYC 处理器。在 AMD 测试中,该公司在模拟 AI 工作负载测试中显示出一代比一代的显著提升。在这篇博客中,9 AMD 数据中心生态系统和解决方案企业副总裁 Raghu Nambiar 提供了与 EPYC 第 4 代与第 3 代 ResNet-50 结果相关的一些见解? 提升了三倍以上。BERT-大型? 提升了四倍以上。Yolo v5? 对,真正的问题是,这个缩写是什么意思? 你只能看一次。在这种情况下,提升超过 1.7 倍。该系列针对各种工作负载进行了优化,不仅在通用计算方面表现优良,在 AI 推理方面同样优良。AMD 的 AI 路线图鲜为人知,但首席执行官 Lisa Su 表示:“我们对 AI 领域的机会感到十分兴奋。这是我们的第一大战略重点,我们正在与客户深入互动,将联合解决方案推向市场。”10
对于 AI 训练,配备 AMD Instinct 加速器的服务器可改进流程,确保高效的模型参数优化。在加速器方面,AMD 直接将最近发布的 AMD Instinct MI300 系列与 NVIDIA 的 H100 相提并论,从而揭开了与 NVIDIA 在 GPU 方面竞争的序幕。峰值性能?AI 的 teraflop 性能提高了 1.3 倍!11 在当今的数据中心,仅仅速度快还不够。还应注意能源效率,因为电费很贵。值得注意的是,AMD EPYC 和/或 AMD Instinct 加速器系统目前搭载在全球十大节能超级计算机中的八台上。12
Ampere:Ampere 是数据中心处理器的新成员,数据中心处理器是首款专为 AI 和云工作负载设计的云原生处理器,采用基于 Arm 的技术构建。其主流 Ampere Altra 处理器拥有多达 128 个基于 Arm 的核心,可为数据中心应用提供高性能、高能效和可扩展性。在一个例子中,Ampere 表示其 Altra Max 在计算机视觉工作负载方面的性能比英特尔 Ice Lake 和 AMD Milan 高出 166%。13 在另一项自然语言处理 (NLP) 测试中,Altra Max 的性能比 Ice Lake 提高了 73%,比米兰提高了 56%。14
2023 年 5 月,Ampere 推出了面向云数据中心的 AmpereOne 处理器,可提供行业先进的 192 个内核。15 该公司还声称,“AmpereOne 平台十分适合各种系统配置,可为大容量存储、网络、AI 推理以及新的生成式 AI 模型和应用提供优良性能。”15 随着 AI 需求的激增,该公司认为,传统 GPU 可能会过剩,尤其是在推理方面,会耗费过多的电力和金钱。16 因此,该公司提供了广泛的节能解决方案组合。Ampere 不是加速器/GPU 市场的参与者。
还有其他参与者吗? 那还用说!例如,许多超大规模企业正在专门针对其工作负载定制自己的处理器和加速器。与云计算市场上的其他公司相比,这种定制化大概是他们的优势所在。
合作是关键!
我们与这些合作伙伴通力合作,生产更好的产品,并确保他们以更佳方式协同工作。如果你想知道为什么一个硅或加速器提供商可以获得惊人的结果,而另一个提供商显示不同的令人印象深刻的结果,那么你并不孤单。这是因为这些技术会做出各种设计决策,这种情况通常会影响在特定设备上运行的特定工作负载的结果。
所以就像我父亲曾经说的,“你需要合适的工具来干这个活儿。” 我们对这些工作负载进行了广泛的测试,以帮助选择适合该工作的工具,并在美光数据中心存储洞察网页上发布许多结果。
此外,如果您还没有看到这些结果,我们有网页专门介绍我们与生态系统伙伴的合作。此页面通过严格的测试标准展示了我们作为存储提供商与他们的合作情况。我们的合作伙伴正在通过 AI 领域的突破改变技术格局,我们期待看到他们的产品对行业和世界产生积极影响。这将是一次激动人心的旅程!
我计划写下我们不断发展的生态系统中的其他进展,请尽快回来查看。
2 美光 9400 NVMe SSD 利用 NVIDIA 技术探索大型加速器内存
3 NVIDIA 助力全球先进的 AI 计算平台 Hopper
4 美光开始量产行业先进的 HBM3E 解决方案,加速人工智能发展
7 新第 5 代英特尔® 至强® 处理器在每个内核中均采用 AI 加速
9 第 4 代 AMD EPYCTM 处理器为 AI 工作负载提供出众性能
10 AMD 表示,AI 是其第一大战略重点,其 Instinct MI300 将在今年晚些时候引领潮流
12 最新的全球超级计算机 500 强榜单重点介绍了多台世界排名前列的搭载 AMD 加速器的高速高效超级计算机
13 Ampere AI 效率:高效 AI 计算机视觉 (CV) 工作负载
16 “对于许多 AO 应用而言,GPU 的计算能力超负荷,耗费的电量和资金远远超过所需”:Ampere Computing 计划如何迎接 AI 浪潮