首先更正一下,上次有个地方说的不对。
之前说的是相同的型号,不同的批次,这是我望文生义了,实际上人家的意思是部署到不同的地方。
之前提到过,这是多伦多大学和谷歌合作出的一份资料:在FMS上一份20几页的PPT,其实人家做了大量的数据收集和分析,专门发了一篇论文。
一开篇人家就说了,以前大量的论文和研究,都是在实验室里,用少量的盘,采用模拟的方法进行的,而他们的结果是基于对谷歌数据中心共6年的,数百万盘天的数据分析的结果。
PS: [盘.天]就是指一块盘用一天。
一句话,我们不是针对谁,在座的各位都是垃圾。
他们使用盘的整体情况,文章里提到谷歌使用的是定制的SSD。
教授对错误进行了分类:
Transparent type error (不可见问题)
- Correctable error: 从Flash读出的的数据有问题,但是被ECC纠正回来了;
- Read error: 读操作遇到非ECC问题,但是Re-read ok;
- Write error: 写操作遇到问题,但是retry ok;
- Erase error: 擦除某个Block失败;
No Transparent error (可见问题)
- Un-correctable error: RBER超过ECC的最大纠错能力 ;
- Final read error: 读操作遇到问题, 多次Retry仍然失败;
- Final Write error: 写操作遇到问题, 多次Retry仍然失败;
- Meta error: meta data错误;
- Timeout error:不解释
然后教授发现:
在No transparent error里:
- Final read error出现几率最高(几乎比其他问题高出两个数量级),20-63%的盘经历过至少一次,整体几率是每1000盘天出现2-6次;
- Final Write error出现几率低并不是因为Flash质量好,而是FTL发现写不下去会重新分配一个page写,1.5~2.5%的盘有这个问题,整体几率是每100,000盘天出现1-4次;
- Meta data error出现几率跟write error差不多 (因为meta data本来总量就少);
在transparent error里:
- 61%-90%的盘天会遇到Correctable Error,整体几率是 (ECC有多重要,你现在明白了吧);
- 6-10%的盘会遇到write error和erase error,总体来说几率低于每10,000盘天5次;
- Read error只在少于2%的盘上出现,整体几率低于100,000盘天 2-8次
- 整体来说除了Correctable Error,其他问题几率很低;
下表是具体数据,有兴趣的可以慢慢看。
待续…