AI 将如何改变 PC 市场格局,以及对内存和存储的影响
AI 几乎已经无处不在。每一天,我们都能看到或听到 AI 的新进展,或者使用由 AI 驱动的应用。从智能助手到自动驾驶汽车,AI 正在改变人类与世界互动的方式。当 AI 与 PC 相结合,将为我们带来什么? AI 能否让 PC 变得更智能、运行速度更快、更好地满足我们的个性化需求? 在本篇博客中,我们将探讨 AI 如何改变 PC 市场格局,以及对内存和存储的影响。在 2024 年美国国际消费电子展 (CES) 上,所有热门话题都围绕 AI 展开,超过 50% 的报道都与 AI 有关。
AI 的背后是各种大语言模型 (LLM),这些模型的开发基于人类过往积累的海量未标记文本。您可以使用自然语言向 LLM 提问,它们能以同样自然的语言做出回答,就像人类之间的交互一样。这种能力建立在具有数十亿个参数的神经网络之上,在某些情况下,多个神经网络连接在一起,合作生成内容。当前最热门的 LLM 是 ChatGPT 和 DALL-E,它们能够根据用户输入的提示,生成仿佛真人作答的文本内容,亦或是逼真且富有创意的图像。为实现这些令人惊叹的功能,LLM 需要海量的算力和数据。因此,目前的 LLM 大都托管在云端,那里有它们需要的大量硬件基础设施和网络带宽。
但是,AI 的实现之地不应局限在云端。将部分 AI 处理过程转移到边缘设备(即用户端设备)上,具有很多优势。例如,边缘 AI 处理可减少网络延迟、保护用户隐私、节省网络成本,还支持在离线状态使用 AI 功能。设想一下,如果可以使用自己的 PC 生成高质量内容、编辑照片和视频、转录语音、过滤噪音、识别人脸等等,而无需依赖云,是不是将更加方便和灵活?
为何看好 AI PC?
PC 并非唯一可从边缘 AI 技术中受益的设备。智能手机、平板电脑、智能手表和其他小型电子设备也可利用 AI 来增强功能和性能。相比之下,PC 具有一些独特优势,使其成为更适合边缘 AI 落地的平台。首先,PC 拥有更大的屏幕,可显示更多信息,能够提供更好的用户体验。其次,PC 拥有更大容量的电池,可运行更多需要更长时间的 AI 任务。第三,PC 拥有更强的计算能力,可运行更复杂、对算力要求更高的 AI 模型。
芯片制造商和软件开发商正在利用 PC 的这些优势。英特尔、AMD、高通、联发科和 Nvidia 等公司正在其面向 PC 平台的 CPU 和芯片组中嵌入性能越来越强的神经处理引擎和/或集成显卡,可提供数十 TOPS(每秒万亿次操作)的 AI 性能。微软表示,今年发布的 Windows 11 操作系统新版本将利用 CPU 中内嵌的 AI 引擎进行优化。微软在 AI 时代的野心不难理解,该公司正在大力推广旗下的 Copilot,这是一项利用 AI 技术帮助用户编写代码、调试错误并提出改进建议的功能。一些头部厂商还积极与独立软件供应商 (ISV) 合作,帮助 ISV 推出更多 AI 优化的应用和功能,包括增强的视频会议体验、照片编辑、语音到文本转换、背景环境和噪音抑制,以及面部识别等等。这些正在开发中的应用将会给我们带来怎样的惊喜?是否会出现“杀手级应用”?一切尚需观察。但目前确实存在一些重要的现实问题。例如,如何才能在 PC 上高效运行 AI 模型? 以及——
AI PC 需要什么样的硬件?
在 PC 上运行 AI 模型的主要挑战之一是模型的大小。AI 模型(尤其是 LLM)可能有数十亿甚至数万亿个参数,需要大量存储空间和内存来存储和加载。美光的内部实验表明,一个拥有 700 亿个参数、4 位精度的 Llama2 模型(用于自然语言生成的主流 LLM)需要大约 42GB 的内存才能完成加载并执行推理,输出速度为每秒 1.4 个 Token,而普通 PC 无法提供这么多的内存。这种矛盾是问题的核心,也为 AI PC 的未来指明了方向。未来将会出现针对特定功能的模型,可在保持准确性的同时减小模型的大小。未来的模型很可能会分化。700 亿参数级别的大模型可用于内存和存储空间较大的高级系统,运行经过精细微调并针对对话用例进行优化的应用(如聊天补全)。此外,本地设备上的个人助理也可能需要大参数模型。少于 100 亿参数的模型可用于主流设备,托管模型所需的内存增加量较少(大约 2GB),可用于文本补全、完成列表以及分类等语言类任务。
很显然,不同大小的模型需要与之相匹配的内存容量,至少对 PC 而言如此。除了容量之外,内存的带宽和能效同样非常重要。随着 PC(尤其是移动设备)的内存从 DDR 转向 LPDDR,带宽和能效均不断提升。例如,与 DDR5 相比,LPDDR5X 在主动使用期间的功耗降低了 44-54%,自刷新期间的功耗降低了 86%。DDR5 的带宽为 4.8Gb/s,而 LPDDR5 带宽高达 6.4Gb/s。如果 AI 能够快速进入 PC,那么 LPDDR5 也将加速普及。如果将部分处理过程转移到内存中,还可进一步提高能源效率,相关研究和开发工作正在进行中。这个过程可能需要很长时间,也可能永远无法实现。行业需要融合各厂商的技术,形成一组通用的原语,用来将任务卸载到内存中,并需要开发相关的软件堆栈。任何一组给定原语,很难做到对所有应用都是最佳选择。因此,我们可以说,目前 PC 上的“存内处理”技术还处在“问题多于答案”阶段。
一个更重要的问题是:AI 模型的最佳切入点在哪里? 如果模型仍然相对较大,有没有办法减少对内存的依赖,将部分模型放在存储设备里? 如果这种办法可行,则需要增加存储带宽,以满足模型数据轮换加载的需求。这种情况可能促进 Gen5 PCIe 存储设备在主流 PC 中的普及,或者加速 Gen6 PCIe 存储设备的引入。近日 Apple 就该主题1发表了一篇论文:“闪存中的 LLM:在有限内存中进行高效的大型语言模型推理”(作者:Alizadeh 等),提出了一种在容量大于可用 DRAM 的设备上运行大型语言模型 (LLM) 的方法。论文作者建议将模型参数存储在闪存中,然后根据需要将它们加载到 DRAM 中。他们还提出了多种优化数据传输量以及提升读取吞吐量的方法,以大幅提高推理速度。论文中,用于评估各种闪存加载策略的主要指标是延迟,并分为三个不同的部分来讨论:从闪存加载数据的 I/O 成本;使用新加载数据时的内存管理开销;以及推理操作的计算成本。总之,该论文提出了将模型参数存储在闪存中,然后根据需要载入 DRAM 的方法,为“有效运行超过可用 DRAM 容量的 LLM”这一难题提供了一种解决方案。
PC 中的 AI 能力仍在不断发展中。当前将嵌入式 NPU 集成到 CPU 和独立 GPU 中的方案仅仅只是开始。Kinara、Memryx 和 Hailo 推出的 AI 加速卡,为在 PC 中卸载 AI 工作负载提供了一种替代实现方式。模型方面,一种可能的发展方向是面向特定功能的模型。此类模型体积较小,并且针对特定功能进行了优化。这些模型可根据需要从存储设备载入内存,但对存储设备性能的要求类似于大型模型。
独立 NPU 的优势包括:
- 可处理复杂的 AI 模型和任务,功耗和发热量比 CPU 和 GPU 更低。
- 可为图像识别、生成式 AI、聊天机器人和其他应用提供更快、更准确的 AI 处理性能。
- 可加强现有 CPU 和 GPU 的功能,增强用户的整体 AI 体验。
联想将在 2024 年 6 月推出的 ThinkCentre Neo Ultra 台式机中搭载 NPU 加速卡,并称这些卡能够提供更强大的 AI 处理能力,且更加节能,优于当前的 CPU 和 GPU 解决方案。2
将 TOPS 作为 AI 硬件性能评估的唯一标准,可能并不全面。就 AI 计算而言,更重要的是单位时间内的推理次数、准确度和能源效率。对于生成式 AI,关注的指标可能是每秒输出的 Token 数量,或者是在几秒内完成稳定扩散的能力。以行业普遍接受的方式测量这些指标,需要开发相关的基准测试程序。典型案例:在本届 CES 上,我参观了所有 CPU 供应商、独立 NPU 供应商的展位和演示。在每个演示中,厂商都声称他们的实现方式在某方面具有优势。
各方对于 AI PC 的横空出世确实充满热情和期待。PC OEM 厂商将此视为一大卖点,希望 AI PC 能够刺激 PC 更新换代,自己能够借此获取更高利润。英特尔称到 2025 年 AI PC 的出货量将达到 1 亿台,几乎占整个 PC 总潜在市场的 30%。无论最终的市场占有率如何,对消费者而言,2024 年推出的 AI PC 还是值得期待的。
参考资料
- 1 2312.11514.pdf (arxiv.org)
- 2 PC World 上有关 Kinara 和 Halo 的介绍文章
- www.micron.com/AI