设计工具
存储

解决 SSD 耐用度问题,让我成为更好的产品经理

Rahul Jairaj | 2024 年 8 月

三年前,在我刚担任产品管理职位的第一个月,我接到了某工程师打来的紧急电话:“Rahul,我们遇到了一个问题。我们有款产品的容量达不到 TBW 规格。您能和客户谈谈,争取得到豁免吗?”

因为对 TBW(即总写入数据量,一种衡量 SSD 耐用度的指标)只有粗略的了解,我的第一反应是惊慌失措,当然也没准备好致电客户深入探讨此问题。经过几次内部讨论和汇报后,我不仅详细了解了问题,而且还“爱上”了这个问题,享受着研究和解决问题的时光。

接下来的几周里,我们为客户提供了解决方案。相关产品是美光 3500 SSD(图 1)。我们解决了这个问题,此后,这款产品被誉为有史以来性能极为出众的客户端 SSD 之一。事实上,根据 Tweak Town 的 Jon Coulter 的说法,“这款产品简直就是有史以来的前沿 OEM SSD”。

Tweak Town 评价 — 链接

从那时起,我们在开发几乎每一代产品时,都会重新探索 SSD 耐用度,并做出取舍,以满足客户的需求。

美光客户端 SSD 产品组合 图 1:美光客户端 SSD 产品组合


SSD 耐用度

作为技术产品经理,对我而言最兴奋的事情之一就是每天都能学到新知识。相关主题之一就是 SSD 耐用度,即 SSD 的使用寿命。

SSD 耐用度有几种不同的测量方法:企业级 SSD DWPD(每日整盘写入次数)和客户端 SSD TBW。DWPD 用于衡量每天可以写入 SSD 容量的百分比。例如,1TB 企业级 SSD 的 DWPD 为 0.3,用户每天可在 SSD 上写入约 300GB (30%) 的数据,直到保修期结束。TBW 用于衡量硬盘使用寿命结束前可写入的数据总量 (TB = 1000 GB)。每种容量规格都有相应的 TBW 值(图 2)。

图 2:美光 3500 的 TBW 值,平均故障间隔时间 (MTBF) 为 200 万小时 图 2:美光 3500 的 TBW 值,平均故障间隔时间 (MTBF) 为 200 万小时


如图 2 所示,512 GB SSD 在使用寿命结束前至少可以写入 300 TB 数据。如需了解 300 TB 有多大,请看这个小插图。

如果连续三年,每天在电脑上写入和覆盖 100GB 数据,那么在硬盘保修期到期之前,只能达到约 107 TBW。这大约是硬盘标称耐用度的三分之一。您能想象在这段时间内每天写入 100GB 数据吗? 大多数人一个月的写入量都无法接近这个数字!

特定硬盘的 TBW 规格由以下简化公式确定:

TBW 规格公式

可以看出,SSD 容量越大,TBW 就越大。编程/擦除 (P/E) 次数也是如此。不过,TBW 与写入放大系数 (WAF) 成反比。WAF 仅指用户数据在 SSD 内重写和移动的次数。有几个因素会影响 WAF,其中最关键的是 SSD 所承受的工作负载。对于典型的客户端工作负载,这个数字很低,保持在 3 到 4 个 WAF 左右。

与 SSD 耐用度相关的另一个指标是平均故障间隔时间 (MTBF)。MTBF 衡量的是硬盘平均故障间隔时间,但不是绝对指标。SSD 的 MTBF 是复杂的计算指标,取决于所有 SSD 器件的可靠性。尽管如此,通过测评,美光客户端 SSD 的 MTBF 通常为 200 万小时。此评级表示,美光客户端 SSD 平均大约每 230 年才会出现一次故障。这个故障率非常低!

您深入研究所有这些变量时,很快就会意识到,最终的 TBW 是多种因素之间的权衡,其中包括 SSD 性能、NAND 缺陷率、NAND 介质类型(SLC、TLC 或 QLC)、SSD 工作负载、NAND 块大小、NAND 有效块数、静态 SLC P/E 周期次数、超级块架构等等。

我不敢妄称是所有这些不同主题的专家,而是依靠专业的工程团队(事实上他们才是真正的专家),来解决产品和客户面临的具体挑战。我的工作是准确确定问题范围。因此,我们从解决的每个问题中获得的经验,都会扩充我们的方案,以满足未来客户的特定需求。

面向未来的方案

AI PC 已经到来,并正在彻底改变行业。我的同事、美光副总裁兼存储业务部门客户端存储总经理 Prasad Alluri 在其题为《AI PC:PC 行业的颠覆性变革?》的博客中详细介绍了这一变革。

这场变革存在诸多未知因素,其中之一就是重新考虑工作负载及其对 SSD 耐用度的影响。作为产品经理,我们必须为这些可能发生的情况做好计划。由于解决了几代产品的耐用度问题,如果需要在 PC 上本地运行复杂的视觉语言模型 (VLM),我们现在就知道如何权衡利弊,以帮助将 SSD 耐用度提高 10 倍。就像我此前所说,未来的产品将更加惊艳,我们都对此充满期待。

长期积累的经验

我刚开始从事产品管理时,每个产品或客户问题都令我望而生畏,但现在,这些问题让我感受到了目标感和兴奋感。解决复杂问题是学习和创新的机会。过去三年,我在工作中学到了很多宝贵的经验。希望这些经验也能对您有所帮助。

  1. 保持冷静——惊慌失措解决不了问题。  
  2. 解决不了所有问题也没关系。  
  3. 寻求帮助——合作并信任团队。 
  4. 从容应对模棱两可和纷繁复杂的情况,努力厘清问题。  
  5. 有时,显而易见的解决方案并非合适的途径。 
  6. 对解决问题的整个过程充满好奇和热情,不要只局限于解决方案本身。 
  7. 每天努力学习,迎接每个问题。 
  8. 传授和传播所学到的知识和经验,这些活动可以确保集体成功。  

坚持阅读到此处,您可能想知道美光 3500 TBW 问题的解决方案是什么。

我们了解到,在美光 G8 NAND 上,有几项新的工艺创新可以扩展到这些新高度。由于是新产品,我们对缺陷率的预测非常悲观,这使得我们无法达到特定 TBW 规格下 200 万 MTBF 的目标。我们与客户方员工积极协作,了解到他们的规格要求更低的 MTBF 目标。因此,我们能够在不延误进度的情况下满足他们的耐用度要求。最后,当产品推出时,缺陷率大大低于预期,因此我们严格按照要求达成了原定的 200 万 MTFB 目标。以开放的态度面对问题,最终找到了双赢的解决方案。

DIRECTOR, TPM - CLIENT

Rahul Jairaj

Rahul Mitchell Jairaj is the Director of Technical Product Managment for Micron's Client SSD Business Unit. He has spent his career working on NAND flash storage at Micron from components engineering to SSD product management. He holds a Masters degree in Semiconductor Device Physics from Clemson University and a bachelor's in electrical engineering. Outside work, Rahul is passionate about collecting fossils and amateur microscopy.