在美光工作的最大收获是,我能够直接与客户沟通,深入了解他们的痛点,从而找到与他们合作的机会,共同创新,携手解决他们面临的挑战。数据中心客户管理着庞大、快速变化的数据集和许多同时运行的(多租户/托管)工作负载,所有这些都需要转化为商业价值。这些工作负载对客户的基础设施提出了很高的要求,推动了美光的独特创新。
在我之前关于美光 7450 NVMe SSD 的博客中,我曾提到,美光在整个行业都建立了密切的关系,这使我们能够了解数据中心工作负载的挑战和需求,例如延迟方面。在这篇博客中,我将深入探讨美光 7450 NVMe SSD 如何提供稳定的低延迟性能。我们先来看看是什么推动了最近的数据中心创新,以及美光在其中发挥了怎样的作用。
数据中心存储创新的四大推动因素
美光主要从四个方面推动了存储领域的创新:
- 简化了向 PCIe 和 NVMe 的过渡:我接触的大多数客户都已经以某种方式部署了 PCIe/NVMe。NVMe SSD 提供丰富的外形规格和不同的耐久性等级(适合读取密集型应用和混合读写应用的耐久性),以应对启动、主数据存储和加速等多种用例(M.2 用于启动或主数据存储、E1.S 用于主数据存储、U.3 用于部署系统)。1
- 存储密度:通过增加存储密度(提高小型 SSD 的容量,例如使 E1.S SSD 的容量达到 7.68TB),我们得以提高数据中心的空间利用率和效率。2
- 安全性:随着数据量的增长和数据的日益多样化,行业面临的攻击也越来越多,越来越复杂。管理员纷纷希望加强安全态势,由此推动 SSD 硬件加密得到了广泛采用,包括使用美光的安全创新技术。3
- 稳定的低延迟:从大型的超大规模企业到新兴的数据中心运营商,在单个系统(虚拟化或容器化)4上托管多个工作负载已成为一种标准做法。这些工作负载每秒可产生数百万事务,其中许多事务共享同一个物理存储。为满足这一需求,美光设计了 7450 NVMe SSD。美光 7450 是一款可处理数百万事务的 SSD,并且在这一过程中可提供稳定的低延迟,我们通常称为其具有出色的服务质量 (QoS)。5
所有这四个方面都很重要。但我想重点谈谈最后一个方面。市场上围绕稳定低延迟的报道并不多,许多 SSD 供应商也不喜欢谈论这方面。
但我们不一样。
延迟敏感型工作负载
我们应该谨记,许多数据中心应用都是实时的,它们所使用、处理和响应的数据必须得到快速、稳定地传输。数据传输延迟或中断可能会给许多此类工作负载带来不利影响。
直播就是延迟敏感型工作负载的一个例子。在直播现场活动时,要确保用户获得卓越体验,就必须确保流式传输服务能提供稳定的低延迟性能。如若不然,视频流的质量将会受到不利影响,例如,它可能会滞后、显示缓冲延迟或丢失帧。例如,体育赛事直播。低延迟流式传输下的直播画面更加逼真,可以让观众感觉就在现场一般。6 直播并不是唯一对延迟敏感的数据中心工作负载。有些工作负载更多的是在“幕后”运行。它们也依赖于快速、稳定的数据传输。
实时分析是从数据中提取洞察以便用户及时做出更明智决策的过程,而数据延迟可能会让它的效果不如人意。当从多个来源收集数据时,分析工具可能需要等待最慢的来源(不管是单个服务器还是整个机架的服务器)完成收集,才能开始分析。如果存储响应快速且稳定,则可以最大限度缩短等待时间,更快得出洞察。如今,现代数据中心已经不再是在裸机服务器上运行单个工作负载,而是采用容器化和虚拟化部署,让多个应用和工作负载托管在单个服务器上,共享物理服务器资源。
这些云端虚拟化(多租户)工作负载也依赖于稳定的低延迟性能。它们是高度并行的多租户工作负载,共享底层物理资源(存储、CPU、内存和网络连接)。如果存储响应快速且稳定,CPU 资源的等待时间将会缩短,从而可以托管更多工作负载或支持更多虚拟机,同时提供更具可预测性的性能模式。虽然存储吞吐量至关重要,但在数据中心中,维持高吞吐量与稳定的低延迟同样关键,以确保满足性能目标和服务水平协议。
延迟的基本要素和影响
服务质量 (QoS) 是描述 SSD 中应用延迟稳定性的一项指标。QoS 的衡量包括三个基本组成部分,分别是阈值、(占 IO 的)百分比和 IO 类型:
- 阈值:每次访问所需的响应时间(延迟,通常以毫秒为单位)。
- 百分比:响应时间低于阈值的所有访问的百分比。这通常以占所有 IO 的百分比(如 99.9999%)来表示,
并且通常用这个百分比中 9 的个数来表示,例如 99.99% 就是“4 个 9”,99.9999% 就是“6 个 9”。 - IO 类型:被衡量的数据 IO 的类型。IO 类型可以是读、写或读写混合。
- 数据中心 SSD 具有出色 QoS 意味着很大比例的存储访问操作在阈值范围内稳定发生。
出色的 QoS 对数据中心工作负载至关重要
数据中心和云端工作负载对快速、稳定的读性能有着持续增长的需求。例如,在 2021 年的黑五购物季,8,800 万买家在线购物总额为 89 亿美元,其中亚马逊占 17.7%7。这些网购者希望交易能够迅速且稳定地完成(提供卓越的 QoS),以便他们能够顺利进行“待办事项”清单中的下一项任务。
美光 7450 SSD 以行业领先的 99.9999% 混合工作负载读延迟(低于 2 毫秒 [ms])、同时仍然提供数十万 IOPS 的出色性能,满足了他们对 QoS 的需求。8 在读取操作更频繁的工作负载上,它的 IOPS 最高可达 100 万(完整的性能信息可参见美光 7450 SSD 产品简介)。正如我们即将看到的,与当今市面上的许多其他硬盘相比,这种低延迟使机架级应用能够完成更多任务。
美光 7450 NVMe SSD 提供出色的 QoS
满足这些应用需求并不容易。在复杂、可扩展的环境中实现稳定的低工作负载延迟确实存在挑战。应对这一挑战是我们在开发美光 7450 NVMe SSD 时的一大重点。
在混合随机工作负载中实现不到 2ms 的 99.9999% SSD 读延迟
我们来看看出色的 QoS 是什么样的。下图 1 显示了混合工作负载(传输大小为 4KB,100% 随机放置,90% 读取和 10% 写入)在单个美光 7450 SSD 上运行时读延迟达到了 6 个 9 (99.9999%)。图 2 显示了写入部分增加到 30% 后的类似结果。图 1 和 2 显示了混合工作负载中的读延迟,因为写延迟可能受到操作系统、文件系统或应用层的写连接、分叉和缓存的影响(如这份 SNIA 演示文稿的第 4 节所述)。
这个结果相当惊人。与之前的许多 SSD 不同,在常见队列深度 (QD) 下,美光 7450 SSD 在混合随机工作负载中可达到 6 个 9 的 2ms 或以下读延迟。9 根据美光的实验室测试,这种稳定的低延迟可以提升多种数据库的性能,例如 Microsoft SQL Server、Oracle、MySQL、RocksDB(云端工作负载的典型代表)、Cassandra 和 Aerospike 等。
出色的 QoS 能带来什么?
当数据中心 SSD 在低阈值下具有出色的 QoS 时,结果很明显,更多读请求的延迟将低于阈值。
对应用级部署的好处
为了说明出色 QoS 对应用级部署的好处,我们比较了美光 7450 NVMe SSD 与另一款主流 NVMe SSD。我们使用了 RocksDB,它是一款高性能的键值存储数据库,通常用于对延迟敏感且面向用户的应用,如存储查看历史记录和垃圾邮件检测等。在设定了常见的应用传输阈值后,我们发现,美光 7450 SSD 的性能要高出 95%。
对机架级部署的好处
卓越的 QoS 所带来的优势,远远超出了人们在分析单个固态硬盘(SSD)的 QoS 数据时所能预见的。但这种优势到底能带来多大的改善呢? 对于一整个机架的服务器,99.9999%(6 个 9)和 99%(2 个 9)之间有什么真正的区别吗? 有,我们可以计算影响。
首先,我们分析装满 E1.S 美光 7450 NVMe SSD 的机架可以达到的读取 IOPS 次数。然后,我们分析不同数量 9 的性能下超出 2ms 阈值的 IOPS 次数。
我们在 1U 服务器10上安装 32 个 SSD,然后将 38 个这样的服务器装入机架。11 我们的 E1.S 美光 7450 NVMe SSD 可达到 100 万次 4K 随机读取 IOPS。当我们在每台服务器上安装 32 个这样的 SSD 并在每个机架中装入 38 台服务器时,假设的最大 IOPS 次数将为每台服务器大约 32,000,000 次(或每个机架大约 1,200,000,000 次,由每个 SSD 100 万次 IOPS x 每台服务器 32 个 SSD x 每个机架 38 台服务器得出)。
如果我们先来看 99%(2 个 9)2ms QoS 的读取延迟,会看到服务器机架将有大约 1,200 万次读取超出了 2ms 的阈值(1% 的读取将超出 2ms)。但在 6 个 9 (99.9999%) 时,这一结果要低得多,超出 2ms 阈值的读取次数平均接近 1,200 次。
单个 SSD 的读取 IOPS | 每台服务器的 SSD 数量 | 每个机架的服务器数量 | 2ms QoS % 值 | 超出 2ms 的读取次数(近似值) |
---|---|---|---|---|
100 万 | 32 | 38 | 99% (2 个 9) |
12,000,000 |
99.9999% (6 个 9) |
1,200 |
机架级部署的情况确实不同。对于 2ms 阈值的 QoS,是 1,200 万次读取超出阈值(2 个 9),还是仅 1,200 次(6 个 9)? 这只是一个理论上的例子,实际工作负载层级的差异会有所不同。但是,稳定的低延迟有利于大多数数据中心工作负载,对于那些对延迟特别敏感的工作负载来说,这一点至关重要。
美光 7450 SSD 提供稳定的低延迟,可直接满足这些需求
美光 7450 SSD 采用 176 层 NAND(目前世界上尤为先进的量产 NAND),并将其与我们的先进控制器和固件相结合,带来了惊人的效果。12
但最大的优势是我们能够将这些创新技术快速整合到 SSD 中,使更多用户能够更快地从这些创新中获益。
相关资源
美光 7450 SSD 旨在为各种数据中心工作负载提供出色的 QoS,事实证明,它能为复杂的工作负载带来实质性的好处。
欲了解更多信息,请访问 Micron.com 上的 7450 页面,您还可以联系销售代表,让他们帮助您完成实验,然后投产!
1. 美光 7450 SSD 提供 M.2、E1.S 和 U.3 外形规格,供读取密集型和读写混合设计选用。它通过使用单个 SSD 架构同时满足启动、主数据存储和加速(缓存)需求,简化了系统设计。
2. SSD 容量更高意味着存储同样大小的数据所需的 SSD 更少。相同外形规格的 SSD 更少,容纳它们所需的服务器就更少,安装这些服务器所需的空间也就更少。有关 E1.S 外形规格的更多信息,请参见 https://www.snia.org/forums/cmsi/knowledge/formfactors。请注意:对于所有容量表述,格式化容量会比实际容量小。
3. 没有任何硬件、软件和系统能在所有条件下保证绝对安全。美光对因使用任何美光产品(包括包含上述任何安全功能的产品)而导致的数据丢失、被盗或损坏不承担任何责任。
4. 更多详细信息请参见 https://www.gartner.com/en/information-technology/glossary/virtualization
5. 有关将服务质量应用于存储的更多背景信息,请参见 https://www.snia.org/educational-library/storage-quality-service-enterprise-workloads-2014。
6. 更多信息请参见此链接:https://www.dacast.com/blog/best-low-latency-video-streaming-solution/#:~:text=Low%20latency%20streaming%20is%20especially%20important%20for%20certain,thing%20to%20attending%20your%20event%20in%20real%20life
7. https://www.emarketer.com/content/black-friday-2021-illustrates-changing-consumer-behaviors
8. 2ms 延迟是数据中心工作负载对延迟的常见要求。
微软指出,对于 Azure SQL 数据库和 Azure SQL 托管实例,“……需要存储层快速响应(平均 1-2 毫秒)的工作负载应使用业务关键层级……”:https://docs.microsoft.com/en-us/azure/azure-sql/database/service-tier-business-critical?view=azuresql
IBM 也指出,在其要求高可用性的应用中需满足 2ms 的延迟要求:https://www.ibm.com/docs/en/qsip/7.4?topic=planning-link-bandwidth-latency
9. 基于美光工程团队收集的工作负载数据,对于 4KB、100% 随机、70% 读取工作负载,队列深度最高 = 32
10. 示例服务器:https://www.supermicro.com/en/products/system/1U/1029/SSG-1029P-NES32R.cfm
11. 普通服务器机架最多可容纳 42 台 1U 服务器:https://www.tripplite.com/42u-smartrack-standard-depth-server-rack-enclosure-cabinet-doors-side-panels~SR42UB,额外的机架空间用于容纳交换机和其他设备。
12. 基于截至本文档发布之日公开市场上可用的类似用途 NVMe SSD。美光 7450 SSD 采用业界前沿的美光 176 层 NAND,且提供丰富的外形规格。