边缘 AI:未来的 AI 加速内存和存储
AI 技术在工业领域的广泛应用促使更多复杂方法加速发展,这些方法包括机器学习 (ML)、深度学习甚至大型语言模型等。预计未来的边缘设备将存储并使用海量数据。虽然当前市场聚焦于如何加速神经网络的运营,但美光已致力于制造针对边缘 AI 优化的内存和存储。
什么是合成数据?
据 IDC1 预测,到 2025 年,全球产生的新数据将多达 175 ZB(1ZB = 10 亿 TB)。这是一个难以想象的巨大数字,而 AI 的进步将持续推动相关系统对海量数据的需求。
事实上,随着 AI 模型的规模越来越大,从直接测量或物理图像中获得的实际物理数据已难以满足模型的需求。设想一下,如果您有 10,000 张橙子图像可供学习,那么很容易识别一个物体是不是橙子。但是,如果您需要辨别一些特殊场景,例如,分辨随机人群与有组织的队伍,或者烤糊的饼干与正常饼干,这些情况下,除非您拥有足够数量的各种样本来创建基线模型,否则可能很难得到准确的识别结果。
因此,业界越来越倾向于使用合成数据。2合成数据是通过人工方式基于各种模拟模型生成的数据,例如,有的模型可采用统计方法提供同一图像在现实中的各种变体。这种方法在工业视觉系统中尤为普遍。因为在此类系统中基线物理图像往往是独一无二的,在网络上找不到足够的“小部件”来构建有效的模型。
资料来源:《忘掉您的真实数据——合成数据是 AI 的未来》(Forget About Your Real Data – Synthetic Data Is the Future of AI),Maverick Research,2021 年,收录于《什么是合成数据》(What Is Synthetic Data),Gerard Andrews,NVIDIA,2021 年。
随着这些新型数据的出现,如何存储它们已成为一项挑战。可以确定的是,新生成的数据集要么存储在云端,要么存储在边缘,后者往往是为了以更加独特的方式呈现数据,或者需要就近分析数据。
模型复杂度和内存墙
找到算法效率和 AI 模型性能之间的理想平衡点是一项复杂的任务,因为它取决于多种因素,包括数据的特征和数量、资源可用性、功耗、工作负载要求等等。
AI 模型由一系列复杂的算法构成,可通过其参数数量来表征:参数数量越多,结果越准确。业界最初仅使用通用的基线模型,例如 ResNet50,因为此类模型易于实现,并且已经成为衡量网络性能的基线。但这种模型仅关注有限的数据集和有限的应用。随着 Transformer 模型的发展,参数越来越多,所需内存带宽也越来越大。3显然,这种趋势将导致以下结果:无论模型能够处理多少数据,都会受到可供模型和参数使用的内存和存储带宽的限制。
多年以来主流模型的参数数量以及 AI 加速器内存容量(绿点)的演变。资料来源:《AI 与内存墙》(AI and Memory Wall),Amir Gholami,Medium,2021 年。
为进行快速比较,我们可以查看嵌入式 AI 系统的性能,单位为每秒万亿次运算 (TOPS)。从下表中我们可以看到,低于 100 TOPS 的 AI 边缘设备可能需要大约 225 GB/s 的内存带宽,而高于 100 TOPS 的 AI 边缘设备可能需要 451 GB/s 的内存带宽(表 1)。
智能端点 | 客户终端边缘 | 基础设施边缘 | |
---|---|---|---|
INT 8 TOPS | <20 | <100 | 约 100 - 200 |
所需内存带宽* | 90 GB/s | 225 GB/s | 451 GB/s |
IO 位宽要求 | x16,x32 | x64,x128 | X256 |
内存解决方案 | |||
计算 DRAM | LPDDR4 每引脚 4.2 GT/s |
LPDDR5;LPDDR5x 每引脚 6.4 GT/s;8.5 GT/s |
|
每个引脚的最大传输速率 | |||
最大设备带宽 (x32) | 13GB/s | 26GB/s;34GB/s |
表 1 – AI 系统内存带宽要求和内存技术设备带宽的比较。(* INT8 Resnet 50 模型在 DLA 饱和时所需的带宽估计)。美光。
由上可见,优化该模型的一种方法是使用性能更高、功耗更低的内存。
随着新标准的不断推出,内存性能持续提升,以满足 AI 加速解决方案越来越高的要求。例如,相比之前的技术,LPDDR4/4X(低功耗 DDR4 DRAM)和 LPDDR5/5X(低功耗 DDR5 DRAM)解决方案的性能有了显著提升。
LPDDR4 的传输速率高达每引脚 4.2 GT/s(每引脚每秒钟进行的千兆次传输),并支持高达 x64 的总线宽度。与 LPDDR4 相比,LPDDR5X 性能提高 50%,传输速率翻了一番,高达每引脚 8.5 GT/s。此外,LPDDR5 的能效相比 LPDDR4X 提高 20%。(数据来源:美光) 性能上的显著提升可满足日益丰富的 AI 边缘用例的需求。
选择存储时需要注意哪些因素?
计算资源面临的限制不仅包括处理单元的原始 TOP 或内存架构的带宽。随着机器学习模型变得愈加复杂,模型的参数数量正在呈指数级增长。
为了实现更高的模型效率,机器学习模型和数据集正在不断扩张,因此还需要更高性能的嵌入式存储。典型的托管型 NAND 解决方案(例如速率高达 3.2Gb/s 的 eMMC 5.1)是代码调试的理想选择,同时也适用于远程数据存储。此外,UFS 3.1 等解决方案的速度可达到传统存储设备的 7 倍(高达 23.2 Gb/s),能够支持更复杂的模型。
新架构还支持在边缘实现以往通常由云端或 IT 基础设施提供的功能。例如,新的边缘解决方案提供了一个安全层,能够实现受限操作数据与 IT/云域之间的良好隔离。边缘 AI 还支持智能自动化,例如对本地存储数据进行分类、标记和检索。
新一代存储产品(如支持 3D TLC NAND 的 NVMeTM SSD 等)可为各种边缘工作负载提供更高的性能。例如,美光 7450 NVMe SSD 采用 176 层 NAND 技术,是大多数边缘和数据中心工作负载的理想选择。其服务质量 (QoS) 延迟低至 2ms,可满足 SQL 服务器平台对性能的要求。该产品还通过了 FIPS 140-3 2 级和 TAA 合规认证,可满足美国联邦政府采购要求。
不断发展的 AI 边缘处理器生态系统
据 Allied Market Research 估计,到 2030 年,AI 边缘处理器市场的规模将增长到 96 亿美元。4值得注意的是,这批新成立的 AI 处理器初创公司正在开发 ASIC 和专有 ASSP,以加速推动更多空间和功率受限的边缘应用。在内存和存储解决方案方面,这些新的芯片组还需要实现性能和功耗之间的良好平衡。
此外,我们还观察到,AI 芯片组供应商已经开发了企业和数据中心标准规格 (EDSFF) 加速器卡,可安装在 1U 解决方案中,并与存储服务器部署在一起,使用相同的模块来加速各类工作负载,如 AI/ML 推理和视频处理等。
如何寻找理想的内存和存储合作伙伴?
AI 早已不再是炒作,而是目前正在所有垂直行业中广泛实施的现实技术。一项研究表明,89% 的行业已经制定或者将在两年内制定围绕边缘 AI 的战略。5
但 AI 的实施并非易事,选择正确的技术和组件至关重要。美光拥有新一代内存和存储技术组合,致力于通过工业商数 (IQ) 价值主张推动工业客户的发展。如果您正在设计 AI 边缘系统,美光能够助您将产品尽早推向市场。请联系当地的美光代表或美光产品经销商 (www.micron.com)。
1 资料来源:《世界数字化——从边缘到核心》(The Digitization of the World – From Edge to Core),IDC/Seagate,2018 年。
2 资料来源:《忘掉您的真实数据——合成数据是 AI 的未来》(Forget About Your Real Data – Synthetic Data Is the Future of AI),Maverick Research,2021 年,收录于《什么是合成数据》(What Is Synthetic Data),Gerard Andrews,NVIDIA,2021 年。
3 资料来源:《AI 与内存墙》(AI and Memory Wall),Amir Gholami,Medium,2021 年。
4 资料来源:《2030 年前边缘 AI 处理器市场研究》(Edge AI Processor Market Research, 2030)。Allied Market Research,2022 年 6 月。
5 资料来源:《掌握制造业的数字化转型》(Mastering Digital Transformation in Manufacturing),Jash Bansidhar,Advantech Connect,2023 年。