设计工具
应用

AI PC:PC 行业的颠覆性变革?

Prasad Alluri | 2024 年 1 月

AI 将如何改变 PC 市场格局,以及对内存和存储的影响
 

AI 几乎已经无处不在。每一天,我们都能看到或听到 AI 的新进展,或者使用由 AI 驱动的应用。从智能助手到自动驾驶汽车,AI 正在改变人类与世界互动的方式。当 AI 与 PC 相结合,将为我们带来什么? AI 能否让 PC 变得更智能、运行速度更快、更好地满足我们的个性化需求? 在本篇博客中,我们将探讨 AI 如何改变 PC 市场格局,以及对内存和存储的影响。在 2024 年美国国际消费电子展 (CES) 上,所有热门话题都围绕 AI 展开,超过 50% 的报道都与 AI 有关。

AI 的背后是各种大语言模型 (LLM),这些模型的开发基于人类过往积累的海量未标记文本。您可以使用自然语言向 LLM 提问,它们能以同样自然的语言做出回答,就像人类之间的交互一样。这种能力建立在具有数十亿个参数的神经网络之上,在某些情况下,多个神经网络连接在一起,合作生成内容。当前最热门的 LLM 是 ChatGPT 和 DALL-E,它们能够根据用户输入的提示,生成仿佛真人作答的文本内容,亦或是逼真且富有创意的图像。为实现这些令人惊叹的功能,LLM 需要海量的算力和数据。因此,目前的 LLM 大都托管在云端,那里有它们需要的大量硬件基础设施和网络带宽。

但是,AI 的实现之地不应局限在云端。将部分 AI 处理过程转移到边缘设备(即用户端设备)上,具有很多优势。例如,边缘 AI 处理可减少网络延迟、保护用户隐私、节省网络成本,还支持在离线状态使用 AI 功能。设想一下,如果可以使用自己的 PC 生成高质量内容、编辑照片和视频、转录语音、过滤噪音、识别人脸等等,而无需依赖云,是不是将更加方便和灵活?
 

为何看好 AI PC?
 

PC 并非唯一可从边缘 AI 技术中受益的设备。智能手机、平板电脑、智能手表和其他小型电子设备也可利用 AI 来增强功能和性能。相比之下,PC 具有一些独特优势,使其成为更适合边缘 AI 落地的平台。首先,PC 拥有更大的屏幕,可显示更多信息,能够提供更好的用户体验。其次,PC 拥有更大容量的电池,可运行更多需要更长时间的 AI 任务。第三,PC 拥有更强的计算能力,可运行更复杂、对算力要求更高的 AI 模型。

芯片制造商和软件开发商正在利用 PC 的这些优势。英特尔、AMD、高通、联发科和 Nvidia 等公司正在其面向 PC 平台的 CPU 和芯片组中嵌入性能越来越强的神经处理引擎和/或集成显卡,可提供数十 TOPS(每秒万亿次操作)的 AI 性能。微软表示,今年发布的 Windows 11 操作系统新版本将利用 CPU 中内嵌的 AI 引擎进行优化。微软在 AI 时代的野心不难理解,该公司正在大力推广旗下的 Copilot,这是一项利用 AI 技术帮助用户编写代码、调试错误并提出改进建议的功能。一些头部厂商还积极与独立软件供应商 (ISV) 合作,帮助 ISV 推出更多 AI 优化的应用和功能,包括增强的视频会议体验、照片编辑、语音到文本转换、背景环境和噪音抑制,以及面部识别等等。这些正在开发中的应用将会给我们带来怎样的惊喜?是否会出现“杀手级应用”?一切尚需观察。但目前确实存在一些重要的现实问题。例如,如何才能在 PC 上高效运行 AI 模型? 以及——
 

AI PC 需要什么样的硬件?
 

在 PC 上运行 AI 模型的主要挑战之一是模型的大小。AI 模型(尤其是 LLM)可能有数十亿甚至数万亿个参数,需要大量存储空间和内存来存储和加载。美光的内部实验表明,一个拥有 700 亿个参数、4 位精度的 Llama2 模型(用于自然语言生成的主流 LLM)需要大约 42GB 的内存才能完成加载并执行推理,输出速度为每秒 1.4 个 Token,而普通 PC 无法提供这么多的内存。这种矛盾是问题的核心,也为 AI PC 的未来指明了方向。未来将会出现针对特定功能的模型,可在保持准确性的同时减小模型的大小。未来的模型很可能会分化。700 亿参数级别的大模型可用于内存和存储空间较大的高级系统,运行经过精细微调并针对对话用例进行优化的应用(如聊天补全)。此外,本地设备上的个人助理也可能需要大参数模型。少于 100 亿参数的模型可用于主流设备,托管模型所需的内存增加量较少(大约 2GB),可用于文本补全、完成列表以及分类等语言类任务。

很显然,不同大小的模型需要与之相匹配的内存容量,至少对 PC 而言如此。除了容量之外,内存的带宽和能效同样非常重要。随着 PC(尤其是移动设备)的内存从 DDR 转向 LPDDR,带宽和能效均不断提升。例如,与 DDR5 相比,LPDDR5X 在主动使用期间的功耗降低了 44-54%,自刷新期间的功耗降低了 86%。DDR5 的带宽为 4.8Gb/s,而 LPDDR5 带宽高达 6.4Gb/s。如果 AI 能够快速进入 PC,那么 LPDDR5 也将加速普及。如果将部分处理过程转移到内存中,还可进一步提高能源效率,相关研究和开发工作正在进行中。这个过程可能需要很长时间,也可能永远无法实现。行业需要融合各厂商的技术,形成一组通用的原语,用来将任务卸载到内存中,并需要开发相关的软件堆栈。任何一组给定原语,很难做到对所有应用都是最佳选择。因此,我们可以说,目前 PC 上的“存内处理”技术还处在“问题多于答案”阶段。

一个更重要的问题是:AI 模型的最佳切入点在哪里? 如果模型仍然相对较大,有没有办法减少对内存的依赖,将部分模型放在存储设备里? 如果这种办法可行,则需要增加存储带宽,以满足模型数据轮换加载的需求。这种情况可能促进 Gen5 PCIe 存储设备在主流 PC 中的普及,或者加速 Gen6 PCIe 存储设备的引入。近日 Apple 就该主题1发表了一篇论文:“闪存中的 LLM:在有限内存中进行高效的大型语言模型推理”(作者:Alizadeh 等),提出了一种在容量大于可用 DRAM 的设备上运行大型语言模型 (LLM) 的方法。论文作者建议将模型参数存储在闪存中,然后根据需要将它们加载到 DRAM 中。他们还提出了多种优化数据传输量以及提升读取吞吐量的方法,以大幅提高推理速度。论文中,用于评估各种闪存加载策略的主要指标是延迟,并分为三个不同的部分来讨论:从闪存加载数据的 I/O 成本;使用新加载数据时的内存管理开销;以及推理操作的计算成本。总之,该论文提出了将模型参数存储在闪存中,然后根据需要载入 DRAM 的方法,为“有效运行超过可用 DRAM 容量的 LLM”这一难题提供了一种解决方案。

PC 中的 AI 能力仍在不断发展中。当前将嵌入式 NPU 集成到 CPU 和独立 GPU 中的方案仅仅只是开始。Kinara、Memryx 和 Hailo 推出的 AI 加速卡,为在 PC 中卸载 AI 工作负载提供了一种替代实现方式。模型方面,一种可能的发展方向是面向特定功能的模型。此类模型体积较小,并且针对特定功能进行了优化。这些模型可根据需要从存储设备载入内存,但对存储设备性能的要求类似于大型模型。

独立 NPU 的优势包括:

  • 可处理复杂的 AI 模型和任务,功耗和发热量比 CPU 和 GPU 更低。
  • 可为图像识别、生成式 AI、聊天机器人和其他应用提供更快、更准确的 AI 处理性能。
  • 可加强现有 CPU 和 GPU 的功能,增强用户的整体 AI 体验。

联想将在 2024 年 6 月推出的 ThinkCentre Neo Ultra 台式机中搭载 NPU 加速卡,并称这些卡能够提供更强大的 AI 处理能力,且更加节能,优于当前的 CPU 和 GPU 解决方案。2

将 TOPS 作为 AI 硬件性能评估的唯一标准,可能并不全面。就 AI 计算而言,更重要的是单位时间内的推理次数、准确度和能源效率。对于生成式 AI,关注的指标可能是每秒输出的 Token 数量,或者是在几秒内完成稳定扩散的能力。以行业普遍接受的方式测量这些指标,需要开发相关的基准测试程序。典型案例:在本届 CES 上,我参观了所有 CPU 供应商、独立 NPU 供应商的展位和演示。在每个演示中,厂商都声称他们的实现方式在某方面具有优势。

各方对于 AI PC 的横空出世确实充满热情和期待。PC OEM 厂商将此视为一大卖点,希望 AI PC 能够刺激 PC 更新换代,自己能够借此获取更高利润。英特尔称到 2025 年 AI PC 的出货量将达到 1 亿台,几乎占整个 PC 总潜在市场的 30%。无论最终的市场占有率如何,对消费者而言,2024 年推出的 AI PC 还是值得期待的。

参考资料

VP and GM for Client Storage at SBU

Prasad Alluri

Prasad Alluri is the vice president and general manager for Client Storage in the Storage Business Unit. Prior, he was our vice president of Corporate Strategy & Incubations. He has worked for Micron and Intel, where he held various positions in product development, product planning and strategy. Prasad obtained his bachelor’s from the Indian Institute of Technology (Bombay), a Ph.D. from Arizona State University, and an MBA from Wharton School of Business. Outside work, Prasad enjoys playing poker and hiking.

Prasad Alluri