补充一些其他零碎的知识点。
- RBER随着PE Cycle增加而增加的曲线非常平滑,即使这块盘的PE Cycle到了寿命要求的值以后仍然如此, 在PE cycle到了寿命的三倍时,RBER才会有一个陡峭的上升(厂商给自己留了足够大的buffer) — 兵哥之前的non-balance wear leveling 算法,也是把Flash的寿命提高3倍,兵哥的水平跟加拿大教授一样高!
- 通常的加速算法并不能有效的推演出实际使用情况下UECC随着PE cycle增加的趋势,其错误率比真实情况低了一个数量级;以盘MLC-B为例, 60%的盘出现了Uncorrelated Error,80%的出现了坏块,但是6块同样型号的盘在加速测试里并没有出现任何Uncorrelated Error和坏块 (在PE Cycle达到寿命3倍之前);
- 如果一块盘前段时间(比如上个月)出现过Uncorrectable error,这个月有接近30%的机会会再出现uncorrectable error,但是在一个随机月份里,出现该问题的几率只有2%;这个规律同样适用于Final Write Error, meta error和Erase error;
-
盘在出厂以后,使用过程中会出现坏块,中位数是2-4个,但是一旦超过这个数量,坏块数量就会迅速增加;以MLC SSD为例,第二个坏块出现以后,坏块数量迅速增加直接跳到200左右;下图是教授提供的坏块趋势图;
- 可怕的是,所有型号的SSD,绝大多数坏块都是在读操作,而不是擦写操作中发现的;(如果你没有Die RAID,数据就木有了)
- 出厂坏块的数量对后续使用有影响,出厂坏块数量高于工厂水平95%分位的盘,在后期使用过程中,更容易产生坏块和出现write error和read error;
原文:Flash Reliability in Production: The Expected and the Unexpected
Bianca Schroeder, University of Toronto; Raghav Lagisetty and Arif Merchant, Google Inc.
https://www.usenix.org/conference/fast16/technical-sessions/presentation/schroeder