三年前,在我刚担任产品管理职位的第一个月,我接到了某工程师打来的紧急电话:“Rahul,我们遇到了一个问题。我们有款产品的容量达不到 TBW 规格。您能和客户谈谈,争取得到豁免吗?”
因为对 TBW(即总写入数据量,一种衡量 SSD 耐用度的指标)只有粗略的了解,我的第一反应是惊慌失措,当然也没准备好致电客户深入探讨此问题。经过几次内部讨论和汇报后,我不仅详细了解了问题,而且还“爱上”了这个问题,享受着研究和解决问题的时光。
接下来的几周里,我们为客户提供了解决方案。相关产品是美光 3500 SSD(图 1)。我们解决了这个问题,此后,这款产品被誉为有史以来性能极为出众的客户端 SSD 之一。事实上,根据 Tweak Town 的 Jon Coulter 的说法,“这款产品简直就是有史以来的前沿 OEM SSD”。
Tweak Town 评价 — 链接
从那时起,我们在开发几乎每一代产品时,都会重新探索 SSD 耐用度,并做出取舍,以满足客户的需求。
SSD 耐用度
作为技术产品经理,对我而言最兴奋的事情之一就是每天都能学到新知识。相关主题之一就是 SSD 耐用度,即 SSD 的使用寿命。
SSD 耐用度有几种不同的测量方法:企业级 SSD DWPD(每日整盘写入次数)和客户端 SSD TBW。DWPD 用于衡量每天可以写入 SSD 容量的百分比。例如,1TB 企业级 SSD 的 DWPD 为 0.3,用户每天可在 SSD 上写入约 300GB (30%) 的数据,直到保修期结束。TBW 用于衡量硬盘使用寿命结束前可写入的数据总量 (TB = 1000 GB)。每种容量规格都有相应的 TBW 值(图 2)。
如图 2 所示,512 GB SSD 在使用寿命结束前至少可以写入 300 TB 数据。如需了解 300 TB 有多大,请看这个小插图。
如果连续三年,每天在电脑上写入和覆盖 100GB 数据,那么在硬盘保修期到期之前,只能达到约 107 TBW。这大约是硬盘标称耐用度的三分之一。您能想象在这段时间内每天写入 100GB 数据吗? 大多数人一个月的写入量都无法接近这个数字!
特定硬盘的 TBW 规格由以下简化公式确定:
可以看出,SSD 容量越大,TBW 就越大。编程/擦除 (P/E) 次数也是如此。不过,TBW 与写入放大系数 (WAF) 成反比。WAF 仅指用户数据在 SSD 内重写和移动的次数。有几个因素会影响 WAF,其中最关键的是 SSD 所承受的工作负载。对于典型的客户端工作负载,这个数字很低,保持在 3 到 4 个 WAF 左右。
与 SSD 耐用度相关的另一个指标是平均故障间隔时间 (MTBF)。MTBF 衡量的是硬盘平均故障间隔时间,但不是绝对指标。SSD 的 MTBF 是复杂的计算指标,取决于所有 SSD 器件的可靠性。尽管如此,通过测评,美光客户端 SSD 的 MTBF 通常为 200 万小时。此评级表示,美光客户端 SSD 平均大约每 230 年才会出现一次故障。这个故障率非常低!
您深入研究所有这些变量时,很快就会意识到,最终的 TBW 是多种因素之间的权衡,其中包括 SSD 性能、NAND 缺陷率、NAND 介质类型(SLC、TLC 或 QLC)、SSD 工作负载、NAND 块大小、NAND 有效块数、静态 SLC P/E 周期次数、超级块架构等等。
我不敢妄称是所有这些不同主题的专家,而是依靠专业的工程团队(事实上他们才是真正的专家),来解决产品和客户面临的具体挑战。我的工作是准确确定问题范围。因此,我们从解决的每个问题中获得的经验,都会扩充我们的方案,以满足未来客户的特定需求。
面向未来的方案
AI PC 已经到来,并正在彻底改变行业。我的同事、美光副总裁兼存储业务部门客户端存储总经理 Prasad Alluri 在其题为《AI PC:PC 行业的颠覆性变革?》的博客中详细介绍了这一变革。
这场变革存在诸多未知因素,其中之一就是重新考虑工作负载及其对 SSD 耐用度的影响。作为产品经理,我们必须为这些可能发生的情况做好计划。由于解决了几代产品的耐用度问题,如果需要在 PC 上本地运行复杂的视觉语言模型 (VLM),我们现在就知道如何权衡利弊,以帮助将 SSD 耐用度提高 10 倍。就像我此前所说,未来的产品将更加惊艳,我们都对此充满期待。
长期积累的经验
我刚开始从事产品管理时,每个产品或客户问题都令我望而生畏,但现在,这些问题让我感受到了目标感和兴奋感。解决复杂问题是学习和创新的机会。过去三年,我在工作中学到了很多宝贵的经验。希望这些经验也能对您有所帮助。
- 保持冷静——惊慌失措解决不了问题。
- 解决不了所有问题也没关系。
- 寻求帮助——合作并信任团队。
- 从容应对模棱两可和纷繁复杂的情况,努力厘清问题。
- 有时,显而易见的解决方案并非合适的途径。
- 对解决问题的整个过程充满好奇和热情,不要只局限于解决方案本身。
- 每天努力学习,迎接每个问题。
- 传授和传播所学到的知识和经验,这些活动可以确保集体成功。
坚持阅读到此处,您可能想知道美光 3500 TBW 问题的解决方案是什么。
我们了解到,在美光 G8 NAND 上,有几项新的工艺创新可以扩展到这些新高度。由于是新产品,我们对缺陷率的预测非常悲观,这使得我们无法达到特定 TBW 规格下 200 万 MTBF 的目标。我们与客户方员工积极协作,了解到他们的规格要求更低的 MTBF 目标。因此,我们能够在不延误进度的情况下满足他们的耐用度要求。最后,当产品推出时,缺陷率大大低于预期,因此我们严格按照要求达成了原定的 200 万 MTFB 目标。以开放的态度面对问题,最终找到了双赢的解决方案。