存储堆栈数据损坏分析.docx

上传人:b****1 文档编号:1898235 上传时间:2023-05-02 格式:DOCX 页数:22 大小:26.39KB
下载 相关 举报
存储堆栈数据损坏分析.docx_第1页
第1页 / 共22页
存储堆栈数据损坏分析.docx_第2页
第2页 / 共22页
存储堆栈数据损坏分析.docx_第3页
第3页 / 共22页
存储堆栈数据损坏分析.docx_第4页
第4页 / 共22页
存储堆栈数据损坏分析.docx_第5页
第5页 / 共22页
存储堆栈数据损坏分析.docx_第6页
第6页 / 共22页
存储堆栈数据损坏分析.docx_第7页
第7页 / 共22页
存储堆栈数据损坏分析.docx_第8页
第8页 / 共22页
存储堆栈数据损坏分析.docx_第9页
第9页 / 共22页
存储堆栈数据损坏分析.docx_第10页
第10页 / 共22页
存储堆栈数据损坏分析.docx_第11页
第11页 / 共22页
存储堆栈数据损坏分析.docx_第12页
第12页 / 共22页
存储堆栈数据损坏分析.docx_第13页
第13页 / 共22页
存储堆栈数据损坏分析.docx_第14页
第14页 / 共22页
存储堆栈数据损坏分析.docx_第15页
第15页 / 共22页
存储堆栈数据损坏分析.docx_第16页
第16页 / 共22页
存储堆栈数据损坏分析.docx_第17页
第17页 / 共22页
存储堆栈数据损坏分析.docx_第18页
第18页 / 共22页
存储堆栈数据损坏分析.docx_第19页
第19页 / 共22页
存储堆栈数据损坏分析.docx_第20页
第20页 / 共22页
亲,该文档总共22页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

存储堆栈数据损坏分析.docx

《存储堆栈数据损坏分析.docx》由会员分享,可在线阅读,更多相关《存储堆栈数据损坏分析.docx(22页珍藏版)》请在冰点文库上搜索。

存储堆栈数据损坏分析.docx

存储堆栈数据损坏分析

存储堆栈中的数据损坏问题分析

LakshmiN.Bairavasundaram

bairavasundaramLakshmiN.

GarthR.Goodson

古德森,加思R.

BiancaSchroeder

,比安卡施罗德

AndreaC.Arpaci-Dusseau

安德列C.arpaci杜索

RemziH.Arpaci-Dusseau

该arpaci杜索,H.

UniversityofWisconsin-Madison

威斯康星大学-麦迪逊

NetworkAppliance,Inc.

网络设备公司

UniversityofToronto

多伦多大学

{laksh,dusseau,remzi}@cs.wisc.edu,garth.goodson@,bianca@cs.toronto.edu

{拉克,杜索,该}@cs.wisc.edu,garth.goodson@,bianca@cs.toronto.edu

Abstract

摘要

Animportantthreattoreliablestorageofdataissilent

对数据可靠存储的一个重要威胁是无声的

datacorruption.Inordertodevelopsuitableprotection

数据腐败。

为了开发合适的保护

mechanismsagainstdatacorruption,itisessentialtounderstanditscharacteristics.Inthispaper,wepresentthe

对数据腐败的机制,它是必不可少的,以了解其特点。

在本文中,我们提出了

firstlarge-scalestudyofdatacorruption.Weanalyzecorruptioninstancesrecordedinproductionstoragesystems

第一次大规模数据腐败研究。

我们分析记录在生产存储系统的腐败现象

containingatotalof1.53milliondiskdrives,overaperiodof41months.Westudythreeclassesofcorruption:

包含1530000个磁盘驱动器,超过41个月的时间。

我们研究了三类腐败:

checksummismatches,identitydiscrepancies,andparityinconsistencies.Wefocusonchecksummismatches

校验和不匹配,身份的差异,和奇偶校验不一致。

我们专注于校验和不匹配

sincetheyoccurthemost.

因为他们最。

Wefindmorethan400,000instancesofchecksum

我们发现校验和400000多个实例

mismatchesoverthe41-monthperiod.Wefindmany

41个月内不匹配。

我们发现很多

interestingtrendsamongtheseinstancesincluding:

(i)

有趣的趋势,在这些情况下,包括:

(我)

nearlinedisks(andtheiradapters)developchecksum

近线盘(和适配器)开发的校验

mismatchesanorderofmagnitudemoreoftenthanenterpriseclassdiskdrives,(ii)checksummismatcheswithin

错位的幅度往往比企业级磁盘驱动器的顺序,(ii)在校验和不匹配

thesamediskarenotindependenteventsandtheyshow

同一个磁盘不是独立的事件,它们显示

highspatialandtemporallocality,and(iii)checksum

高的时间和空间局部性,及(iii)校验

mismatchesacrossdifferentdisksinthesamestorage

在同一存储的不同磁盘上的不匹配

systemarenotindependent.Weuseourobservationsto

系统不是独立的。

我们用我们的意见

derivelessonsforcorruption-proofsystemdesign.

从中吸取教训,以防腐败体系设计。

1Introduction

1引言

Oneofthebiggestchallengesindesigningstoragesystemsisprovidingthereliabilityandavailabilitythatusers

在设计存储系统的最大挑战之一是提供的可靠性和可用性,用户

expect.Oncetheirdataisstored,usersexpectittobepersistentforever,andperpetuallyavailable.Unfortunately,

期待。

一旦他们的数据存储,用户期望它会持续永远,永远有效。

不幸的是,

inpracticethereareanumberofproblemsthat,ifnot

在实践中有许多问题,如果不

dealtwith,cancausedatalossinstoragesystems.

处理,可引起存储系统中的数据丢失。

Oneprimarycauseofdatalossisdiskdriveunreliability[16].Itiswell-knownthatharddrivesaremechanical,movingdevicesthatcansufferfrommechanicalproblemsleadingtodrivefailureanddataloss.For

数据丢失的一个主要原因是磁盘驱动器的可靠性[16]。

众所周知,硬盘是机械的,移动的设备,可以承受机械故障导致的故障和数据丢失。

对于

example,mediaimperfections,andlooseparticlescausingscratches,contributetomediaerrors,referredtoas

例如,媒体的不完善,以及松散的颗粒造成的划伤,有助于媒体的错误,简称为

latentsectorerrors,withindiskdrives[18].Latentsector

潜在的部门错误,在磁盘驱动器[18]。

潜在部门

errorsaredetectedbyadrive’sinternalerror-correcting

错误被检测到驱动器的内部错误校正

codes(ECC)andarereportedtothestoragesystem.

码(ECC)和报告存储系统。

Lesswell-known,however,isthatcurrentharddrives

然而,众所周知,目前的硬盘驱动器

andcontrollersconsistofhundreds-of-thousandsoflines

和控制器由数百条线组成

oflow-levelfirmwarecode.Thisfirmwarecode,along

低级别固件代码。

这个固件代码,一起

withhigher-levelsystemsoftware,hasthepotentialfor

使用更高级别的系统软件,具有潜在的

harboringbugsthatcancauseamoreinsidioustypeof

窝藏错误,可以导致更阴险的类型

diskerror–silentdatacorruption,wherethedatais

磁盘错误:

数据是错误的,数据是错误的

silentlycorruptedwithnoindicationfromthedrivethat

无声的损坏,没有任何迹象表明,从驱动器

anerrorhasoccurred.

发生错误。

Silentdatacorruptionscouldleadtodatalossmoreoftenthanlatentsectorerrors,since,unlikelatentsectorerrors,theycannotbedetectedorrepairedbythediskdrive

静默数据损坏可能会导致数据丢失的往往比潜在扇区错误,因为,不像潜在扇区错误,他们无法检测或修复的磁盘驱动器

itself.Detectingandrecoveringfromdatacorruptionrequiresprotectiontechniquesbeyondthoseprovidedby

本身。

检测和恢复数据损坏需要保护技术,超越了那些提供

thediskdrive.Infact,basicprotectionschemessuchas

磁盘驱动器。

事实上,基本的保护计划,如

RAID[13]mayalsobeunabletodetecttheseproblems.

袭击[13]可能也无法检测到这些问题。

Themostcommontechniqueusedinstoragesystems

存储系统中最常用的技术

todetectdatacorruptionisforthestoragesystemtoadd

检测数据腐败,是为存储系统添加

itsownhigher-levelchecksumforeachdiskblock,which

自己的上级校验每个磁盘块,这

isvalidatedoneachdiskblockread.Thereisalonghistoryofenterprise-classstoragesystems,includingours,

在每个磁盘块上进行验证。

企业级存储系统有很长的历史,包括我们的,

inusingchecksumsinavarietyofmannerstodetectdata

在以各种方式使用校验和检测数据

corruption[3,6,8,22].However,aswediscusslater,

腐败[3,6,8,22]。

然而,我们稍后再讨论,

checksumsdonotprotectagainstallformsofcorruption.

校验和不保护反对一切形式的腐败。

Therefore,inadditiontochecksums,ourstoragesystem

因此,除了校验和,我们的存储系统

alsousesfilesystem-leveldiskblockidentityinformationtodetectpreviouslyundetectablecorruptions.

使用文件系统级的磁盘块的身份信息来检测从未发现的腐败。

Inordertofurtherimproveontechniquestohandle

为了进一步提高处理技术

corruption,weneedtodevelopathoroughunderstanding

腐败,我们需要深入了解

ofdatacorruptioncharacteristics.Whilerecentstudies

数据腐败特征。

而最近的研究

provideinformationonwholediskfailures[11,14,16]

提供整个磁盘故障的信息[11,14,16]

andlatentsectorerrors[2]thatcanaidsystemdesigners

和潜在部门的错误[2],可以帮助系统设计师

inhandlingtheseerrorconditions,verylittleisknown

在处理这些错误的情况下,很少是已知的

aboutdatacorruption,itsprevalenceanditscharacteristics.Thispaperpresentsalarge-scalestudyofsilent

关于数据腐败,其患病率及其特点。

本文提出了一种大规模的研究,沉默

datacorruptionbasedonfielddatafrom1.53milliondisk

基于1530000盘数据的数据腐败

drivescoveringatimeperiodof41months.Weusethe

开盖的时间期限为41个月。

我们使用

samedatasetastheoneusedinrecentstudiesoflatent

在最近的研究中使用的相同的数据集

sectorerrors[2]anddiskfailures[11].Weidentifythe

扇区错误[2]和磁盘故障[11]。

我们确定

fractionofdisksthatdevelopcorruption,examinefactorsthatmightaffecttheprevalenceofcorruption,such

发展腐败的磁盘组,检查可能影响腐败盛行的因素,例如

asdiskclassandage,andstudycharacteristicsofcorruption,suchasspatialandtemporallocality.Tothebestof

作为磁盘类和年龄,研究腐败的特征,如空间和时间的地方。

到最好的

ourknowledge,thisisthefirststudyofsilentdatacorruptioninproductionanddevelopmentsystems.

我们的知识,这是第一次在生产和发展系统中的无声数据腐败的研究。

Weclassifydatacorruptionintothreecategoriesbased

我们将数据分类为三类

onhowitisdiscovered:

checksummismatches,identitydiscrepancies,andparityincons

它是如何发现:

校验和不匹配,身份的差异,和奇偶incons

(描述

indetailinSection2.3).Wefocusonchecksummismatchessincetheyarefoundtooccurthemost.Ourimportantobservationsincludethefollowing:

在2.3节中详细介绍。

我们专注于校验和不匹配是因为他们发现发生的最。

我们的重要意见包括以下内容:

(i)Duringthe41-monthtimeperiod,weobservemore

(一)在41个月的时间内,我们观察到更多

than400,000instancesofchecksummismatches,8%of

400,校验和不匹配的000个实例,8%

whichwerediscoveredduringRAIDreconstruction,creatingthepossibilityofrealdataloss.Eventhoughthe

在空袭重建过程中发现的,创造了真实数据丢失的可能性。

即使是

rateofcorruptionissmall,thediscoveryofchecksum

腐败率小,校验和发现

mismatchesduringreconstructionillustratesthatdata

在重建过程中的不匹配说明了数据

corruptionisarealproblemthatneedstobetakeninto

腐败是一个需要被纳入的现实问题

accountbystoragesystemdesigners.

由存储系统设计的帐户。

(ii)Wefindthatnearline(SATA)disksandtheiradapters

(ii)发现近线(SATA)磁盘和适配器

developchecksummismatchesanorderofmagnitude

开发一个量级的校验和不匹配

moreoftenthanenterpriseclass(FC)disks.Surprisingly,

比企业级(足球)磁盘更经常。

令人惊讶的,

enterpriseclassdiskswithchecksummismatchesdevelopmoreofthemthannearlinediskswithmismatches.

校验和不匹配的企业级磁盘的发展超过了近线盘错位。

(iii)Checksummismatchesarenotindependentoccurrences–bothwithinadiskandwithindifferentdisksin

(iii)校验和不匹配的不独立–在磁盘和在不同的磁盘上

thesamestoragesystem.

同一存储系统。

(iv)Checksummismatcheshavetremendousspatiallocality;ondiskswithmultiplemismatches,itisoftenconsecutiveblocksthatareaffected.

(四)校验和不匹配,有巨大的空间位置;对多错配盘,它往往是连续的数据块的影响。

(v)Identitydiscrepanciesandparityinconsistenciesdo

(五)身份差异和平价不一致

occur,butaffect3to10timesfewerdisksthanchecksum

发生,但影响3到10倍比较少的磁盘校验

mismatchesaffect.

错配影响。

Therestofthepaperisstructuredasfollows.Section2

本文其余部分的结构如下。

第2节

presentstheoverallarchitectureofthestoragesystems

介绍存储系统的总体架构

usedforthestudyandSection3discussesthemethodologyused.Section4presentstheresultsofouranalysisofchecksummismatches,andSection5presentsthe

用于研究和3节讨论所使用的方法。

4节介绍了我国的校验和不匹配的分析结果,和5节介绍了

resultsforidentitydiscrepancies,andparityinconsistencies.Section6providesananecdotaldiscussionofcorruption,developinginsightsforcorruption-proofstorage

结果的身份差异,奇偶性不一致。

第6节提供了一个轶事的腐败问题,发展的见解,腐败证据存储

systemdesign.Section7presentsrelatedworkandSection8providesasummaryofthepaper.

系统设计。

第7节介绍了有关工作和8节提供了一个总结的文件。

2StorageSystemArchitecture

2存储系统架构

Thedataweanalyzeisfromtens-of-thousandsofproductionanddevelopmentNetworkAppliance

我们分析的数据来自于成千上万的生产和开发网络设备

TM

TM

storage

保管部

systems(henceforthcalledthesystem)installedathundredsofcustomersites.Thissectiondescribesthearchitectureofthesystem,itscorruptiondetectionmechanisms,andtheclassesofcorruptionsinourstudy.

系统(此后称为系统)安装在数百个客户网站。

本节描述了该系统的体系结构,其腐败的检测机制,并在研究腐败类。

2.1StorageStack

2.1存储栈

Physically,thesystemiscomposedofastoragecontrollerthatcontainstheCPU,memory,networkinterfaces,andstorageadapters.Thestorage-controller

物理上,该系统由包含CPU,内存,一个storagecontroller网络接口,存储适配器。

存储控制器

isconnectedtoasetofdiskshelvesviaFibreChannel

通过光纤通道连接到一组磁盘架上

loops.Thediskshelveshouseindividualdiskdrives.

循环。

磁盘架上的单个磁盘驱动器。

ThedisksmayeitherbeenterpriseclassFCdiskdrives

磁盘可以是企业级的磁盘驱动器

ornear

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 幼儿教育 > 育儿理论经验

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2