美光一直致力于为数据中心制造前沿 SSD。迄今为止,我们已向数据中心交付了数千万块 SSD,并且正在利用我们的 232 层 NAND 技术不断推出新的 SSD。前沿 SSD 不仅具有高能效和高性能等属性,还具有设计韧性。驱动器具有弹性,在数据中心内就将具有较长的使用寿命。
与设备和主机制造商合作,确定高弹性一直是 OCP Storage Workgroup 的主题。OCP Storage Workgroup 在三个主要版本的 Datacenter-NVMe-规范(本文其余部分称为“OCP SSD 规范”)上改进并增强了垂直集成的高弹性。垂直集成弹性即要求主机和设备都承担制造高弹性存储子系统的要素。
我们的愿景是“左移”,以创造整个系统集群的高弹性。缩短调试和更换故障驱动器的时间,并增加主动监控系统集群运行状况和提高恢复能力而不会丢失数据的时间。我们将讨论该解决方案的多个要素,以及美光对后续改进的看法。
SSD 弹性历史
在 OCP 规范的第一个版本之前,美光努力实现无缝内在恢复和自退火。其中包括停用坏块、实施我们称为独立 NAND 冗余阵列 (RAIN) 的内部 XOR 解决方案,以及在 SATA 或 PCIe 总线上提供 CRC 检测和重新传输等。我们提供了有关此类活动的 SMART 信息。我们努力收集和监控这些 SMART 数据,不仅有助于监控系统集群的整体健康状况,识别潜在的异常值,还有助于改进美光未来的解决方案。
由微软支持,垂直集成解决方案的第一次工作要求主机和设备都采用制造高弹性存储子系统的元素,以提高弹性,并首先在 OCP 规范 V1 中提出了错误恢复(日志页 C1h)的概念。这样,设备就能将内部紧急状通知主机况,并指示主机如何获取供应商唯一的调试信息以及如何执行恢复程序。V1 规范支持多项恢复操作,但规范 (CRASH-4) 的其他部分建议使用格式命令,这意味着设备上的所有数据都将被擦除且无法恢复,也是从内部紧急状况中恢复的唯一方法。微软还围绕错误注入概念在 OCP 规范 V1 中发挥领导作用,以便与参与的主机和设备进行稳健的垂直集成测试。
V2 规范通过提供额外的 C1h 字段来增强恢复程序。本规范是第一个引入 OCP 存储延迟监控功能的规范。该功能允许驱动器自行报告高延迟 I/O 事件,甚至提供供应商独有的调试信息。这可以与主机 I/O 延迟日志进行对比,以便找出问题的根本原因,如果是存储设备问题,则提供内部线索以支持纠正措施。
V2.5 规范版本中的某些令人兴奋的功能最近持续提供更佳的垂直弹性集成。标准化遥测是本修订版中最大的元素和大多数新功能。先前的规范修订最终导致每个供应商添加唯一专有的监控和调试信息,这些信息需要获取供应商唯一的日志页或需要获取遥测信息。理想情况下,供应商将申请二进制文件传输,或提供供应商唯一的解码工具,以生成人类可读输出。OCP SSD V2.5 规范中的标准化遥测技术提供了使用标准化解码工具报告及解码供应商唯一调试信息的方法,从而解决了这个问题。这可以立即提高调试效率,因为不需要主机提供专门的数据捕获和解码功能。
标准化遥测项目创建了一种从分布式系统中收集所有重要健康数据的简单方法。其使用单个 I/O 命令,可与任何兼容的存储设备配合使用。然后,主机可以从第一遥测数据区域捕获和解码数据。该数据包含主机和供应商协同工作所需的所有详细信息。可以识别发生故障或即将发生故障的设备,并改进未来的健康监测解决方案。
不断发展
微软的 Ayberk Ozturk 在 FMS 2023 上发表了演讲,介绍了微软对垂直整合高弹性未来的愿景。他们表示强烈希望将数据恢复作为紧急恢复的一部分,而不是 FORMA 命令的当前规范请求。他们认为,随着存储设备变得越来越大,更多的租户可能会使用单个直接连接的驱动器,因此最好在紧急情况发生后恢复全部(甚至部分)数据,而不是终止多个虚拟机。他们建议,这将促进有关利用实时迁移的概念。探索此类解决方案的细节是 2024 年的良好目标。
愿景
过去的断言和紧急情况报告已经变成了恢复报告。过去的恢复变成了检测,过去的检测变成了预防。经典左移。美光很高兴与行业和 OCP Storage 合作,并承诺将持续此合作,以实现未来发展。
请与美光联系,提出您的想法。让我们在合作中共同努力。