CNET高科技资讯网10月12日国内简报你已经疑惑你的计算机为何又当机了吗?能够是你的外存。Google实地钻研发觉,外存出错的比重远高于事先的约莫。
应用各地数据核心的数十万台计算机,Google得以搜集对于于长机实践运作状况的丰盛材料。而该公司发觉,外存出错的比重高得高度。
由大学传授Bianca Schroeder与Google职工Eduardo Pinheiro和Wolf-Dietrich Weber单独动笔的钻研演讲指出:“咱们发觉没有同DIMMs(双直列外存模组)的外存谬误的发作率和出错的范畴,都比事先的演讲高许多。…外存谬误并非稀有的状况。”
若这个外存模组已经正在最近一度月发作可恢复性的谬误,则发作无奈恢复的外存谬误机率会跟着下降,有些状况会高达431%。
终究有多少谬误?均匀来说,Google的服务器年年约有三分之一会发作可恢复性的外存谬误,而无奈恢复的谬误发作率约为百分之一,而这种状况一般会形成当机。
一年四千次
听兴起没有像很重大的成绩,但请留意:每一度外存模组,均匀年年发作近4,000次可恢复性谬误。而没有同于你的PC,Google的服务器运用谬误改正码(ECC),可精确地挑捡出那些谬误。Envisioneering Group综合师Peter Glaskowsky示意,那专人正在Google长机上的可恢复性谬误,正在你的计算机上极能够是无奈恢复的谬误。
该演讲指出,ECC可侦测外存存储的谬误,而Google也运用一些高端的谬误校对于技能,称为chipkill。该钻研丈量大少数Google的服务器,搜集近两年半的数据,是第一度范围如此宏大的钻研。
事先的钻研,如300台计算机集群的材料,显现外存模组的可恢复性谬误率是每10亿时辰200次到5,000次。但Google发觉的比重是每10亿时辰2.5万次至7.5万次。
Glaskowsky示意,固然外存谬误可形成重大成绩,它们正在PC的重大性远低于正在服务器。那是由于服务器存储少量数据正在外存,仅偶然将数据写入绝对于保险的硬盘。而大少数的PC外存只存有使用硬件,或者操作零碎资料,或者是一些被阅读但并未编者过的形式。
Glaskowsky说:“少数的消耗者PC没有会正在外存内操作少量材料。许多状况但是用于阅读。”
但这项钻研的后果,已驱使Google从新考虑其硬件道路。Google Chrome顺序设想师John Abd-El-Malek以为,该阅读器的数据库代码可分拆成于其余阅读器顺序代码的顺序,以缩小保护成绩。
他写道:“即便当中只要小全体无害,到数上万运用者的计算机,即形成很大的危害。”他并未至多某些共事,但一位质疑者,Scott Hess回应:“我能够了解(这种土法)关于最小化SQLite存储正在外存的数据,如何发生助益,没有管SQLite具有哪里。”
其余迷思的破解
该演讲也应战其余好多相关外存的既有观点:
?量度没有太大反应。
低温一般形成更高的谬误率,但Google数据核心的量度差别,“对于外存谬误发作率,只要巨大的反应。”但是,与量度息息有关的零碎应用率,的确会形成更多谬误。
?硬谬误较软谬误更广泛
硬谬误,也就是无奈修补的软件瑕疵,比长久的软谬误更罕见。笔者写道,这项发觉风趣的中央,“正在于事先的钻研没有断假定软谬误是DRAM谬误的次要方式”。
?新世代的外存模组,如DDR2,没有比旧型的货物差。
有人担忧较新的外存模组,将电子部件严密封装,会形成更高的谬误率。笔者写道:“现实上,用正在三个最新阳台的DIMM,可恢复性谬误率相反低于另两个较旧的阳台,虽然其DIMM定量广泛较高。…这显现技能的改良可以跟上DIMM缩减的友好趋向。”
钻研人员失去某个论断的全体缘由,是显现,从一度外存模组的某项谬误,能够预知另一项谬误的发作(没有管可恢复或者没有可恢复)。更糟的是,谬误率会随着工夫下降:“咱们看到工夫对于谬误率的一种高度的激烈、年初效应。实践运作的长机,正在上线仅仅10到18个月后,便涌现可恢复谬误率下降的老化景象。”
Google会交换时常出错的外存模组,但正常计算机运用者没有EEC为他们抓错。正在古早的集体演算时期和1990时代,外存的没有牢靠水平,曾让自己必需停止牢靠度测试。但那些测试能够要重出江湖了,或者许内建到操作零碎硬件。Glaskowsky说:“假如谬误率够高,能够会有人主意从新采行外存测试。”