TWI267741B - A self healing storage system - Google Patents

A self healing storage system Download PDF

Info

Publication number
TWI267741B
TWI267741B TW093112314A TW93112314A TWI267741B TW I267741 B TWI267741 B TW I267741B TW 093112314 A TW093112314 A TW 093112314A TW 93112314 A TW93112314 A TW 93112314A TW I267741 B TWI267741 B TW I267741B
Authority
TW
Taiwan
Prior art keywords
disk
defect
magnetic
data
bit
Prior art date
Application number
TW093112314A
Other languages
English (en)
Other versions
TW200513853A (en
Inventor
Amine Hajji
William John Durica
Original Assignee
Ibm
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ibm filed Critical Ibm
Publication of TW200513853A publication Critical patent/TW200513853A/zh
Application granted granted Critical
Publication of TWI267741B publication Critical patent/TWI267741B/zh

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1076Parity data used in redundant arrays of independent storages, e.g. in RAID systems
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/18Error detection or correction; Testing, e.g. of drop-outs
    • G11B20/1833Error detection or correction; Testing, e.g. of drop-outs by adding special lists or symbols to the coded information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2211/00Indexing scheme relating to details of data-processing equipment not covered by groups G06F3/00 - G06F13/00
    • G06F2211/10Indexing scheme relating to G06F11/10
    • G06F2211/1002Indexing scheme relating to G06F11/1076
    • G06F2211/1088Scrubbing in RAID systems with parity

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)

Description

1267741
發明說明(1) 一、 【發明所屬之技術領域】 本發明係關於一種儲存與修正資料的系統,以及包 在儲存系統中的自我修復磁碟(self healing disk )。 二、 【先前技術】 ,電腦資料儲存網路中,主機端處理器通常連接到一 = ΐ統。(/t0Iage subsystem)。儲存次系統可包含 餘磁碟陣列(_) 、_磁碑陣列1磁^人所知的冗 處理器可以是工作站或伺服器,上::”。主機端 Z在機%之官理航空公司人事資料的電腦。主 才曰不儲存控制器的處理器進一 〇 說’―資料字串儲存在磁碟機 =二f含=存於給定磁碟機資料字串的次區域 』第資:字串的車物^ ^ 貝7τ叶予爭的第一資料字串二分F 0 士 —、 服琴可I 4 Μ 品或表示)。主機端祠 一資f if字_ 筮,t儲存控制器從磁碟陣列中讀取該第 -二:料字串從磁碟陣列中被讀取時,第
Uef=e 由於其第—資料次㈣
Uieiective )。因此第一字串 而,盥第—眘祖+虫& &子¥貝枓係暫時性地遺失。然 …ί亦:第一資料字串次區域有關的資料, 重建與復原。當盥第一資料ί Ϊ位(Parity)貧料而加以 田,、弟貝枓子串的第一資料字串次區域有
4IBM04032TW.ptd 第7頁 1267741 五、發明說明(2) 關的資料重瑭 虫。米雙時,主機端可以立即桩a… 重建第—資料字串的第-資料字ί T整的第—資料字 =,破重建的第一資料字串次=區域有關的資料 中私疋磁碟中的新位置。 或係儲存於磁碟陣列 在傳統的儲存系統中,在 復與第-資料— 處王里器要*重建及回 後,即無任何其他叙你貝/斗予串次區域有關的資料之 徑向或螺旋狀^ r 。F又使磁碟陣列中的特定磁碟具有 '尔々疋狀的刮痕,該刮痕可生… 丁八π 字串的其他資料字串次區域損毁=他資料 求重建及回復與第一資料字率的第!;==器要 = 無任何其他料,與其他資料字串的其他資 Γ、率!:域有關的資料並非立即跟與第一資料字串的第 負料子串—人區域有關的資料同時地被重建及回復。 假使與其他資料字串的其他資料字串次區域有關的資 料沒有立即地重建及回復,當與第一資料字串的第一資料 字串次區域有關的資料同時地被重建及回復時,且當其他 資料字串之其一接著被磁碟陣列所讀取時,與一其他資料 有關之單點失效(single point failure)將會產生,假 使且當兩個或更多的缺陷的資料字串次區域存在一其他資 料字串中。 單點失效會產生在至少下列兩個狀況中:(1 ) R A I D陣
4IBM04032TW.ptd 第8頁 1267741 五、發明說明(3) 列磁碟中不再有回應,當令一個磁碟具有一儲存媒體缺陷 (media defect),如儲存媒體刮痕(media defect scratch)導致資料字串次區域之硬體錯誤(hard error),.或是,(2)當RAID·列中兩個磁碟,對於一給 貧料字串位於其各自之資料字串次區域具有缺陷時。在上 述兩情況中,RAID同位(pari ty)資訊不足以回復遺失的 料子串次區域。 、 列中_ 資料被 的缺陷 ,便立 串次區 有缺陷 的第一 他資料 產生單 因此,當位於磁碟陣 資料字串的次區域有關的 與回復,為了定位出其他 陷之其他資料字串次區域 碟之有缺陷的第一資料字 的,且立刻重建與回復與 關的資料,以及與有缺陷 料。此步驟為了避免當其 中的R A I D磁碟陣列讀取所 特定磁碟的與第一缺陷的 定位(located )、重建 ,如其他資料字串的有缺 即檢查磁碟陣列中特定磁 域的鄰近區域是有必要 的其他資料字串次區域有 資料字串次區域有關的資 字串换續著被儲存次系統 點失效係有必要的。 三、【發明内容】 f =發明之一實施例之可被機器讀取的裎 “具,的實施了一個機器可指示執行程式,用以 料,該方磁碟之缺陷且重建並同復與缺陷有關的資 磁碟是否有^ 3 ·檢查該磁碟的缺陷的鄰近區域以判斷該 ’、 有,、他缺陷的存在,用以定位該磁碟之該缺陷;
4IBM04032TW.ptd 第9頁 1267741
重建關於泫缺陷之資料,用以定位該磁碟 產生重建資料且儲存該重建資料。 ' 之該缺陷 由此 本發明進一步包含儲存系統與一種磁碟自我修復方 法’用以定位磁碟之缺陷’肖方法包含 磁 陷的鄰近區域以判斷該磁碟是否有其他缺 位該磁碟之該缺陷;重建關於該缺陷之資料用以2 磁碟之該缺陷’由此產生重建資料且儲存該重建資料。以 本發明的另外應用範圍經由其後呈現的詳細說明將合 更加清楚。然@,必須瞭解的是,詳細說明鱼特定的杏: 例(以本發明之較佳實施例呈現),目的僅在於解釋:發 明,而熟此技藝者經由讀取其後的詳細說明,將可明白知 悉不同的變化與修改,均在本發明之精神與範圍之中。 四、【實施方式】 如後所述之本發明較佳實施例,參照相對應之圖示說 明,圖示顯示了本發明之的一部份以及以特定實施例的方 式說明本發明之實際實施方式。需瞭解的是,其他結構性 改變實施例亦可在未超出本發明涵蓋範圍内被實施。° 在本發明之一實施例中,當z R A I D陣列中的磁碟上之 缺陷被定位出時’磁碟的缺陷鄰近區域被檢查乙定位出圍 繞在磁碟缺陷之其他的缺陷。缺陷與其他缺陷有關的資料
1267741
五、發明說明(5) 均以同位(parity)重建與復原。因此,本 :系統可以避免磁碟或RAID陣列資料的遺失,修 成長中磁碟缺陷(gro一dla defect) J之 碟上的徑向與螺旋狀之刮痕 包含磁 單點失效出現。 目我修復糸統去除了潛在的 當儲存控制器之轉接器寫入一資料字 磁:且當該資料字串接著被轉接器 之 ,讀取,因為磁碟中儲存該特定資料字;之^二:” 域的:區段(Sector)係缺陷的(此後,特定 二= 字串次區域有關的資料可以被,=陷的資料 含複數個次…包含了缺陷$料口;串包 (Ρ,Υ)。該同位(parity)資訊係 :回復:: 的資料字串次區域有關的資,斗。該轉接上陷 新安排資料到較安全的位置:::==資料,且重 disk)或備用磁碟(spare disk)上的另二個=wet 後,重建資料字串被儲存於磁碑^ ^ ^ ^ ^ ^ ^ ^ ^ 然 上的-新位置,磁碟目錄提供;;==的備用磁碟 (address ),如同檔案配置表 table) 查缺陷的資料字串次區域之鄰以存控制益立即檢 Μ接&域以定位可能鄰近於缺
4IBM04032TW.ptd 第11頁 1267741
陷的資料字串次區域之其他 修復程序可以可以在背景程 行無阻的存取客戶端資料。 缺陷的資料字串次區域。自我 序中完成,使得主機端可以通 右於RAID陣列之磁雄由六六女 、裔^ ^ ^ , 磁碟中存在有一徑向以及螺旋狀的刮 :电:=資料字串次區域將會存在於該缺陷的資料 域的鄰近區域内。★與缺陷的資料字串次區域有 〒的-貝料之外’立即且同時地重建與其他缺陷的資料字串 :人,域有關的資料’以降低單點失效之風險。在本發明之 一貝施例中,儲存控制器立即檢查缺陷的資料字串次區域 之鄰近區域(其位於磁柱N與磁區差距值(“Μα offset )、SO ),藉由第一次在缺陷的資料字串次區域附近 之可替代的鄰近磁柱中檢查任何其他缺陷的資料字串次區 域,直到定位出一個位於遠離中心磁區(〇u t丨y丨叫 cylinder )的無缺陷的資料字串次區域,在這一點上,該 儲存控制器會在設至於介於缺陷的資料字串次區域與無缺 陷的資料字串次區域之間之略過磁柱(skipped 、… cylinder )中,接著重建與其他缺陷的資料字串次區域有 關的資料。若與位於遠離令心磁區的無缺陷的資料字串次 區域有關的磁區數目大於或等於M (由使用者設定之), 2存控制器將會決定哪一個主體磁碟會因為在磁碟陣列的 定位化區域(l〇cal ized area )中具有太多的缺陷的資料 字串次區域而被備用磁碟所取代。因此,該儲存控制器將 會·〇)立即檢查RAID陣列中可疑磁區回報的缺陷之鄰近
1267741 五、發明說明(7) 區f ’(2)判斷在這些鄰近區域中是否有其他的缺陷,(3) 匕幸又新進報告缺陷的鄰近程度(pr〇ximity)以瞭解缺陷 $ =碟中的p-列表與§一列表,(4)取代或拷貝以備份該具 少二間的可疑磁碟’若自我修復的需求的數目被證實係過 夕,:即計數器中對於自我修復的數目計數(c〇unt )大 等於I個預先決定的值的話,該計數代表對於RA 1 D陣 1 一 ί定的磁碟所需的自我修復次數,(5)重建與缺陷 關的育料藉此產生被重建的資料,且重建與其他缺陷 additional defects)有關的資料藉此利用raid的同位 (parity)產生進一步被重建的資料,以及(㈠ 2配置被重建的資料與進-步被重建的資料到在任一磁 備用磁碟上的-個更值得信賴的位置。在本發明之其 二t例中’上述的立即操作有可能被延遲。本發 的各方面將於其後段落中詳加敘述。 4夕1回王機端處理器1 0有效的連接到儲 人ί r ★ 1 f主機端10可以是一個工作M ’伺服器或個 t 、動提款機(ATM,aut〇Mted teller 二/在銀行中由出納貢所操作的電腦終端機’或 :-:匕航空公司員工所操作之機場電腦終端機。儲 傳輸。該儲存次主機端10經過數哩的長途電欖 制器控制記憶體内的資J: J存控制器與記憶11 ’儲存控 在儲存次系統u中^ =存。主機端1(3可要求接收儲存 甲。己u 的貢料。以此回應,儲存次系統
1267741 五、發明說明(8) 1 1之儲存控制器將會從記倍 :一 料給主機端1 〇。在讀取摔;期門貝讯且提供被要求的資 機端所要求的資料,該,記憶體中未包含主 並將其儲存在記憶體中”tm當的磁碟中讀取資料 存次系統"中記憶=某卜料主=可要求儲存在儲 11之儲存控制器將會從主機’ ^ 口應,儲存次系統 憶體令。在窝入描你*機 接收貧料並將其儲存在記 系統將此資料由記憶=二::料儲存於記憶體後’:欠 腹得移(de St age )到磁碟中。 六::考圖2,—或多個主機端處理HID有效的連接到 儲,次糸統U藉由長距離電欖連接(i =1接到 cabling )38。儲存戈备处η —人 g 1 ce 26,圮_a &系、,先11包^儲存控制器1 2與記憶體 A?體26包含重復磁碟陣 一磁碟28、第1 2 =儲:控制器12 °RAID陣列26包含第 在其他實施例中气磁々磁碟包含磁性紀錄磁碟。 制紀錄資料的磁碑t 含光碟機,或使用其他機 裝置。儲存控制:/2ΐ;明Γ被實施於其他形式之儲存 裝置轉接叫的連 參考-,圖2之儲存次系統η中之儲存"…2的声 理器22包含第一声饰w上70 π 4儲存控制态12的處 处里為’’處理器1 ” 22a以及第二處理器 4IBM04032T\V.ptd 第14頁 1267741 --—-- 五、發明說明(9) ”處理器2” 22b,兩者皆與系铖噃泣灿、土
11/ # ; ^ 2 4\ °/2 ^ 11J 24a、弟二轉接器24b,第:r鲭技哭9>1 k 5 ^轉接為 ^ ^I ;hR^ :1:6^ ^ ^24- 第二磁碟30、第三磁碟32丄〇陣、列26包含第-磁碟28、 36,均與系統匯流排連接。n個磁碟34與知個磁碟 串,ΪΓ/二機一端」。二於_陣列26中儲存資料字 f η ψ ^ η 串貝料次區域儲存於第一磁碟28、 ΐί:ί,ί::Π料次區域儲存於第二磁碟3〇、資料 *串弟一子串貝料二人區域儲存於第三磁碟Μ、 ίΓ:第υϊΠ料次區域儲存於第(rw)磁碟34以及資料 理Ί貝料次區域儲存於第n磁碟36。另-方面, =機=處理益10可要求資料字串由RAID陣列26中被 貧料子串之第一字串資料 料丰电 > 楚—:甲貧抖久區域被第一磁碟28所擷取、資 字串i第ΓΙ宰資料次區域被第二磁碟3〇所擁取、資料 ΐ斜ί Γ I子ί資料次區域被第(η—η磁碟34所操取以及 二1 =之第11子串資料次區域被第η磁碟3 6所擷取。當資 = 或從如圖3_AID陣列26擷取,儲存控制器、 '地益22a與/或22b將會對應於主機端10的指令進一 部指示一或多個裝置轉接器24a_24d以儲存該資料字串或 由磁碟2 8 - 3 6中擷取資料。 第15頁 4IBM04032TW.ptd 1267741 五、發明說明(10) , 參考圖4 ’與較佳實施例—致,儲存 轉接器24。然而,裝置轉接器24進一步包處含 與本發明一致之自我修復軟體模組(SeH HeaH Software m〇dule)24。在本發明之實施 :^:广“㈣的其中之一定位缺:的^ 串次區域,轉接器2 4立刻重建盥i an 于 θ女狀&吹μ从 』置運與其他缺陷的資料字串次區 域有關的貝枓,稭此產生被重建的資 被重建的資料字串次區域於緩衝記憶體中、心戍储存 一/數器,更新磁碟目錄以及曰相應於缺陷 的Μ料子串次區域,將位於新的日 i P W 可刼作的磁區被重建的 貝枓:串_人£_,依照磁碟目錄所提供 = :碟ί備分磁碟中。當包含被重建的ί料ί 即C二番*貝Ϊ : ί被從磁碟中讀取,該資料字串將立 的:L祕田60 f料字串次區域。此用於檢查磁碟之缺陷 關以定位磁碟中其他缺陷過程,重建與缺陷有 關的—貝枓以及重建與其他缺陷有關的資料如同後述。 V效又二k擇的考圖5與圖6,本發明之自我修復軟體4 2可 以正合於儲存控制器12之讀取度與服務度(ras, 一eada^ijity and Serviceability )功能40 中,如圖5 所 :堆1 i可選擇地,本發明之自我修復軟體42可以整合於 m中’如同磁碟28、3〇、32、34與^中其一,如 5;下在其他選擇方案中,本發明之自我修復軟體 "$刀配在上述提及裝置之間,亦即裝置轉接器2 4、
1267741 發明說明(11) ys功能40與磁碟28-36。此處使用的自我修復軟體舉例來 說包含微碼(microcode)。 請參考圖卜舉例來說主機端i 〇指示儲存次系統u之 儲存控制器12以在RAID陣列26中儲存—資料字串。 制器12之處理器22指示裝置轉接+ 工 ^ ^ „丄 衣直得镬态24去儲存圖3中磁碟28- 應。在圖7中’資料字串此後係指資 :Lt 52。資料字串46-52包含三字串資料次區域46、、 48與50以及同位(parity)52。在圖7中第一字串資料欠 區域46儲/子於磁碟A、第二字串資料次區域48儲存於磁磾 、第二子串貧料次區域5〇儲存於磁碟c且 ^ 碟D。磁碟B包含一刮痕“ = η欠區域48;亦即第二資料字串次 上 =痕44中。因此第二資料字串次區域心是一缺陷(1稱 =的資料字串次區域48),因為儲存第二資料;串: ”48之磁碟Β的磁區係有缺陷的。因此當主機端^。串 =纯次系統i i儲存控制器12由記憶體中擷取資料 24由圖”的_磁碑A弋處指示裝置轉接器 以此回應,當裝置轉接丄上與D中擷取資料字串46-52。 掘取資料字串46一52時接=由圖7中的磁碟A、B、C與D中 料字串次區域46、由磁’上將會由磁碟機A接收第-資 48、由磁韓接:第,二;^ =料:串次區域 收同位(parity)52。 枓子U域5G、由磁碟機D接
4IBM04032TW.ptd 第17頁 1267741 五、發明說明(12) 當轉接器2 4由磁碟機B接收缺陷的資料字串次區域4 8 時’轉接器24會開始重建與缺陷的資料字串次區域48有關 的資料。與缺陷的資料字串次區域48有關的資料被重建 (其後稱為被重建的資料字串次區域4 8 ),例如利用熟知 的raid資料復原技術。被重建的資料字串次區域48被配置 於緩衝記憶體54,且在記數器56中的記數值加上!。對應 於磁碟B的缺陷的數目,記數器56每次增加1。轉接器24諮 詢磁碟目錄58定位新磁碟地址供被重建的資料字串次區域 48之用。磁碟目錄58被更新以紀錄新磁碟地址位址供被重 建的資料字串次區域48之用。被重建的資料字串次區域48 (現存於緩衝記憶體54中)接著被儲存於磁碟B中的新磁 碟地址60。被重建的資料字串次區域48之新磁碟地址被表 :ί元件6〇。&在匕’與被重建的資料字串次區域48有關的 貝;斗已被重建且在緩衝記憶體54中的被重建的資料字串次 3係復原於磁碟B之位置地址6〇。此完成了缺陷的資料 子串次區域48的資料回復。 ⑽字串次區域64亦在磁碟6上。第二資料字串次區 含於刮痕44中,且f料字串次區域64亦被包含於 =4”二因此資料字串次區躺亦為缺陷的 η:字串次區域“位於第二資料字串次區域㈣附 υϊ:資料字串次區域64未加以重建則會導致單點 ^ +例來說,若位於磁碟Α之資料字串次區域62
1267741 五、發明說明(13) 亦有缺陷的,則主機端1〇要求儲存控制器12從磁 C與D中擷取資料字串62 —68。當資料字串62一68從磁'/、 B、C與D中被操取,第一缺陷的資料字串次區域^從磁碟 A、第二缺陷的資料字串次區域64從磁碟β、第三資 茱 次區域66從磁碟(:以及同位(1331^”)資訊68從磁碟貝1)。== 在資料字串62-68中有兩個缺陷的資料字串次區域(第一 缺陷的資料子串次區域6 2與第二缺陷的資料字串次區域 64) ’單點失效已產纟。無論何時單點失效產纟, 個缺陷的^料字串次區域存在於資料字串中。因為兩個缺 陷=貢料字串次區域存在於資料字串26一68中(第一缺陷 的資料字串次區域62與第二缺陷的資料字串次區域64), 單點失效將會產生,且因此,在資料字串次區域62與64中 的兩個缺的無法以習知的方式加以重建。這可能會造成 資料字串68流失。然而,若與缺陷的資料字串次區域 6 4有關的資料(其位於磁碟B之缺陷的資料字串次區域4 8 之附近)被,建當缺陷的資料字串次區域48被重建時,而 這樣可避免單點失效。 參考圖8、9與丨〇,圖示了本發明實施例之自我修復系 統机权圖—參考圖8,在操作4 2 a中,當一缺陷的資料字串 人區域被疋位,立即的檢查磁碟中缺陷的資料字串次區域 之姊近,或乂疋位鄰近區域的其他缺陷的資料字串次區 域。此1在操作42b中,在缺陷的資料字串次區域之鄰 近區域中,決定是否具有其他缺陷的資料字串次區域。
第19頁 1267741
1267741 五、發明說明(15) 在磁碟中的位置而推導出P -列表與g _列表。 在圖7,利用磁碟之P-列表與g -列表而比較位於磁才主 70之缺陷的資料字串次區域48與位於磁柱72中其他缺陷資 料字串次區域6 4的位置。p -列表是磁碟上位置的列表,如 同圖7中的磁碟B,其中具有已被製造者辨識出位於磁碟上 之缺陷位置。g-列表是磁碟上位置的進一步列表,如同圖 7中的磁碟B ’其係由轉接裔24所產生’且反映出進一步磁 碟上之缺陷位置。當轉接器24定位出磁碟上之第一缺陷資 料字串次區域,轉接器將第一缺陷資料字串次區域位在磁 碟上的地址存入g-列表中。當磁碟上之第二缺陷資料字串 次區域被定位時,轉接器2 4將第二缺陷資料字串次區域位 在磁碟上的地址存入g-列表中。圖7中位於磁柱7〇之缺陷 的資料字串次區域48的第一地址以及圖7中位於磁柱72中 之缺陷的資料字串次區域64被經由轉接器24相比較其位於 P-列表與g-列表中的地址位置。若第一缺陷的資料字串次 區域48與第二缺陷的資料字串次區域w的第一與第二地址 位置 靠近位於P-列表與g-列表中其他的缺陷資料字串次區域, 轉接器2 4將會考量是否磁碟應該被備用碟所取代。 在圖8中,參考操作42d。決定自我修復所必須重建之 與缺的資料字串次區域以及附加的缺陷的資料字串次區 域有關的資料的數目,在記數器中增加了一些數目之缺陷
4IBM04032TW.ptd 第21頁 1267741 五、發明說明(16) 的資料字串次區域以及附加的缺陷的資料字串次區域的表 現後是否有超過,決定是否計數器中的計數大於或等於一 預定的門檻值(threshold value),並將結果報告給轉 接器,當計數器中的計數大於或等於一預定的門播時由 轉接器決定自我修復的數目係超過的(excessive)。 在圖7中,當位於磁柱70之缺陷的資料字串次區域48 ,定位後,在記數器56中增加計數。立即檢查缺陷的資料 字串次區域4 8的鄰境區域,如同磁柱72 一樣。當資料〜 次區域64被發現有缺陷,進一步增加計數器56中的計數 值。在圖2中,轉接器24將會檢查計數器56中的計數 ^計數器56中的計數值大於或等於—預^的門檻值時,轉 接器24將會以備用磁碟取代該磁碟,因為在該磁碟 置化區域(localized area)中有太多的缺陷存在。 在圖9的操作42e中,當轉接器決定之自我修 係過量時,以新的備用磁碟或備份磁碟取本^數目 舉例來說,參考圖7,冬叶數“ ’、的磁碟。 預定的Η檻值時,轉二數二 目係過量的,因為在磁碟BJ1的位、磁碟==,復數 成用磁碟取代=有的的缺 於磁碟目錄58中之磁的資料有必要的;因為’所有 們在備用磁碟中的新位置。 必須被改變以對應他 第22頁 4IBM04032TW.ptd 1267741
,圖9的操作42f中,利用RAIDi建軟體’立即重建盥 貧料字串次區域有關的資料,藉此產生被重建的資料 =串次區域,以及立即重建與其他的缺陷資料字串次區 紗—的貝料,藉此產生進一步被重建的資料字串次區域。 虫=^被重建的資料子串次區域且進一步被重建的資料字 二域於緩衝記憶體中,且更新計數器,如操作%。 :i ί r ϊ目錄5 8中的被重建的資料字串次區域記錄第-次二立,以及經由替磁碟目錄5 8中的進一步被重建的 ^ 戍5己錄一或多個其他的新磁碟位置以更新磁 ^58,如操作42h。當轉換器以決定自我修復數目係 m二、於新的備用磁碟或備份磁碟中儲存被重建資料字 數::過ΐϊ—新磁碟地址,且當轉換器24決定自我修復 重建資料字聿丄?其他的新備用磁碟或備份磁碟中儲存被 Λ9 ·、’ — 人區域在其他的新磁碟地址,如圖10的摔作 42:ι。當轉換器24決 ^ + 幻探作 用磁碟或備份磁碑中儲上修/么目未過董時’於新的備 磁碟地址,且當重建資料字串次區域在第-新 其他的新備用自我修復數目未過量時’於 域在其他的新rn;n儲存被重建資料字串次區 %呆地址,如圖1 〇的操作4 2 j。 例如參考圖7,a n ^ _ 立即重建盥缺P々沾/ 資料字串次區域48被發箱 同 笑於第一次枓I的貝料字串次區域48有關的資料。亦 土、弟一貝枓予串次區域46、第三資料字串次區域50
41BM04032T\V.ptd 第23頁 1267741 五、發明說明(18) 料字串次區域有關的資 次區域儲存在緩衝器54 被重建資料字串次區域 新磁碟目錄5 8以記錄被 以及在磁碟B的磁柱 所提供的新磁碟地址而 ’被提供的計數器5 6中 當計數器5 6中的計數值 定磁碟B的自我修復數 位(par i ty)資訊52與第二缺陷的資 料可以被重建。將被重建資料字串 中、增加計數器56(的計數)、決定 在磁碟目錄58中之新磁碟位置、更 重建資料字串次區域的新磁 7〇之新位置60中,配合磁碟= 儲存被重建資料字串次區域,缺而 的計數小於一預先決定的門檻值( 小於預定的門插值時,轉接器24決 目未過量)。 與任何其他缺陷的資 被重建(這可以在背景r庠=^區域有關的資料亦應該 無阻的存取客戶端資料)Ά’使得主機端可以通行 磁柱π鄰近區域之缺陷“m重建與存在於 (同樣的,這可以在背景程序有關的資料 行無阻的存#客戶端資料)序^涂2主機料以通 字串次區域64有關的資料 田了重建”其他的缺陷資料 區域62、磁碟C之第的三貝二上用磁碟A之第-資料字串次 (pari ty)資訊68去決盥並予串次區域66且磁碟D之同位 關的資料(之後稱為進」、牛枯的缺陷欠資料字串次區域64有 進一步被重建資料字串士乂 建的貧料字串次區域)。將 數器56(的計數)、決二二=儲存在,衝器54中、增加計 碟目錄58中之其他的斩:^被重建資料字串次區域在磁 的新磁碟位置、更新磁碟目錄58以記錄 4IBM04032T\V.ptcl 第24頁 1267741
,磁‘二重建貝料字串次區域的其他的新磁碟地址,以及 ΐ=ΓΛ磁柱70之新位置60中,配合磁碟目細所提供 而%=磁碟地址而儲存被重建資料字丰次區域,缺、 2計數器56中的計數值小於預定的門= :定磁碟B的自我修復數目未過量)。然而,;計轉數接哭: 碟BV需數要值自大我於二等於預定的門檻值時’冑要自我修復磁 :的而要自我修设數量將被轉接器24判定為過量 I#况下,新的備用磁碟或備份磁碟 率次區域48之被重建資料字串次區 料字 目錄58所提供之新磁碟地址有關之新備用==碟 :碟地址’且缺陷資料字串次區賴之的新 子串次區域被再次儲存於與磁碟目錄58所提供之其靳^ 碟地址有關之其他新備用或備份磁碟的其他新磁碟地址。 圖11、1 2、1 3與1 4顯示了調查位於磁磾 次區域鄰近區域操作之其他方面,當===字串 被定位時,用以定位鄰近區域的其他區域 ,,如操作42a »參考圖u ,當位於原始磁心碟貝枓予々串次次區 子串次區域被定位於N磁柱與磁區差距值s〇 ',、卷I陷貝料 柱與N+1磁柱在磁區差距值s〇、讥+1盥 旨^對N-1磁
後稱為新位置)去讀取或寫入,如操作^位=間(其 在圖13’圖示了包含磁碟久、磁碟B、磁碟c y:來况’ 磁碟陣列。在圖13中磁碟B的表面存在有準到痕“。㈣因的^ ID
1267741
有與刮痕44 -致的複數個缺陷的f料字串次區域存在 碟B的表面。在圖14中將會有對磁_有更詳細的描述 中,顯示了圖13中的磁更詳細的圖示。到 痕44存在於磁碟B的表面,磁碟B包含有複數個磁柱8〇,每 磁柱80在其中儲存有資料字串次區域。磁碟b的表面 存在有與刮痕44-致的缺陷的資料字串次區域48,盘圖7 中的磁碟B的表面之與刮痕44 一致的缺陷的資料字串次區 域48相似。在圖14,假設儲存有缺陷的資料字串次區域48 的磁柱稱為磁柱n,因此,缺陷資料字串次區域48被定位 於磁柱η、磁區差距值SO。纟圖14中,鄰近於磁柱η的磁柱 包含有,在圖14中位於缺陷的資料字串次區域48的一邊的 磁柱η + 1、η + 2與η + 3,以及在圖14中位於缺陷的資料字串 次區域48的另外一邊的磁柱η-!、η_2與[1_3。在圖14中, 雖然缺陷的資料字串次區域48 (與刮痕44 一致)被定位於 磁柱η,磁區差距值SO、磁區差距值讥+1位元被定位於磁 區差距值SO的一邊,且磁區差距值soq位元被定位於磁區 差距值SO的另一邊,如同圖14所示。 在圖14中’當缺陷的資料字串次區域乜被定位於磁柱 η與磁區差距值SO,儲存控制器12之轉接器24,在磁區差 距值SO、磁區差距值S0 + 1位元與磁區差距值训^位元間, 嘗試去讀取或寫入磁柱η+ 1與η-1。如我們所知的缺陷的資 料予串次區域的缺陷將會在磁區差距值$ q的磁柱n + 1與η 1
4IBM04032TVV.ptd 第26頁 1267741
被發現,因為刮痕44與在磁區差距值训的磁柱n+1與n — i 一 致’如同圖1 4所示。 參考圖11 ’若缺陷的資料字串次區域被定位在新的位 址’將這些缺陷記錄於g-列表且檢查鄰近在磁區差距值 SO、S0 + 1位元與so-1位元(之後稱為進一步新位置)的磁 柱η-3與n + 3,如操作42a2。舉例來說,參考圖η,假使嘗 试讀取或寫入在磁區差距值SO、s〇 + l位元與s〇-丨位元(稱 為新位置)的磁柱n+1與η-1的缺陷(即缺陷的資料字串次 區域)將會在被發現在磁區差距值S〇的磁柱11 + 1與11-1,因 為刮痕4 4與磁區差距值S 0的磁柱η + 1與η -1 —致。既然缺陷 資料字串次區域被定位於磁柱η+1與η-1的磁區差距值SO, s己錄這些缺陷資料字串次區域在g—列表中(之前定位的缺 陷資料字串次區域的發展性(grow i ng)列表),然後開始 跳達以及嘗試去從在磁區差距值SO、S0+1位元與S〇_l位元 的可替代的鄰近磁柱η-3與n + 3讀取與寫入。缺陷資料字串 次區域將被在磁區差距值SO、S0+1位元與so-i位元的的鄰 近磁柱η-3與n + 3中發現,因為刮痕44與磁區差距值so、 S0+1位元與SO-1位元的的鄰近磁柱η-3與n + 3不一致。 參考圖11,若缺陷(缺陷資料字串次區域)被定位在 進一步新位置,比較之前的P -列表與g -列表項目 (entries)與這些進一步新位置,如操作42a3。若進一步 新位置鄰近於之前的P-列表與g-列表項目(例如同一磁頭
4IBM04032T\V.ptd 第27頁 1267741 五、發明說明(22) (h e a d),相近的磁柱或磁區間距值),則報告轉接器2 4、会士 果’轉接器24決定包含不使用(rejecting)磁碟的原始 磁碟的配置,不使用磁碟是因為其上具有太多已發展 (grown )的缺陷。 舉例來說,參考圖14,若缺陷(缺陷資料字串次區 域)存在於磁區差距值SO且/或S0+1位元與SO-1位元的磁 柱η-3與n + 3 (進一步新位置),以及缺陷存在於磁區差距 值SO且/或S0 + 1位元與SO-1位元的磁柱n-1與n+1 (新位 置)’比較這些進一步新位置與任何之前存在的p—列表與 g-列表項目。若進一步新位置鄰近於在p-列表與g—列表中 的其他位置’將結果報告給轉接器24。轉接器24決定是要 取代利用備用磁碟取代主體磁碟,或是繼續使用主體磁 碟。然而’缺陷資料字串次區域將不會在磁區差距值3〇、 S0+1位元與S0-1位元的磁柱n-3與11 + 3中被發現,因為刮痕 44與在磁區差距值SO、S0 + 1位元與S0-1位元的磁柱n-3與 η + 3不一致。 接著’參考圖11,檢查是否可替代的鄰近磁柱η —3與 η + 3沒有缺陷(d e f e c t f r e e ) ?(操作4 2 a 4 )舉例來說, 在圖14中’可替代的鄰近磁柱n_ 3與n + 3沒有缺陷,因為刮 痕44與在磁區差距值s〇、s〇 + 1位元與s〇—丨位元的磁柱卜3 與n + 3不一致,且因此,在磁區差距值s〇、的磁柱^-3與以 3中沒有任何缺陷資料字串次區域,也沒有任何缺陷資料
1267741
子串次區域在磁區差距值S0+1位元與S〇-1位元中 然後,參考圖12,假使可替代的鄰近磁區卜3與n + 3沒 有錯誤’且未包含缺陷資料字串次區域,檢查略去的磁 柱,包含在磁區差距值SO、S0H位元與so — 丨位元的磁柱n_ 2與n + 2,以決定是否缺陷資料字串次區域存在於略去的磁 柱上之其他磁區位置,如操作42a5。舉例來說,在圖14 中,在磁區差距值SO、S0 + 1位元或SO-1位元的磁柱n_3與 n + 3中沒有缺陷(缺陷資料字串次區域)的情況下被建 立。因此,檢查被略去的磁柱。磁柱n +2與卜2被略去。因 此,檢查且在在磁區差距值SO、S0 + 1位元或SO-1位元的磁 柱n + 2與n-2中嘗試著去讀取或寫入。缺陷(缺陷資料字串 次區域)將會在磁區差距值S〇的磁柱n +2與n-2被發現,因 為刮痕44與在磁區差距值SO的磁柱n + 2與η-2 —致。 若可替代的鄰近磁柱η-3與η + 3並非沒有缺陷且包含缺 陷資料字串次區域,記錄這些缺陷在g一列表中並檢查在磁 區差距值SO、S0 + 1位元與S0-1位元中的可替代的鄰近磁柱 η - 5與n + 5 (圖12操作42a6)。舉例來說,可替代的鄰近磁 柱η-3與η + 3係沒有缺陷的,因為刮痕44與磁柱η + 3與n-3 — 致。然而,若缺陷(缺陷資料字串次區域),確實存在於 磁柱η + 3與n-3,則隨後將缺陷記錄於g-列表,且調查並嘗 试從磁區差距值so、so + i位元與SO-1位元中的可替代的鄰 近磁柱η-5與n + 5中寫入或讀取資料。在圖14,注意磁區差
4IBM04032TW.ptd 第29頁 1267741 發明說明(24) 鄰近磁柱n-5與n + 5的位 距值SO、S0+1位元與SO-1位元中 置。 從可替代鄰近磁柱寫入或讀取資料的操作(例如,磁 柱η 1與n+1,跟隨著磁柱n-3與n + 3,跟隨著磁柱n —5與11 + 5 )指出圖14中磁碟B的表面上的刮痕44的範圍 (extent )。刮痕44由缺陷資料字串次區域48開始延伸到 介於缺陷資料字串次區域48之一側的磁區差距值s〇的磁柱 n + 2與n + 3之間的位址,以及缺陷資料字串次區域48之另一 側的磁區差距值S〇的磁柱n — 2與11 — 3之間的位址。因此,缺 (缺陷資料字串次區域)將於在磁區差距值s〇的磁柱 η、n + 1、n + 2、n-l與^?被發現;然而,缺陷資料字串次 區域將不會被在磁區差距值S0的磁柱n + 3、n + 5、、n-3與n一 5 被發現,因為刮痕44的範圍並未包含磁柱η + 3、η + 5 /η-3 與η-5。當缺陷未在磁柱11 + 3與11 —3中發現時,我們就知道 了磁碟Β中刮痕4 4的範圍大小。因此,在下一個操作中, =須要跳回去並從略過的磁區中開始檢查/寫入資料/讀取 資料’其中在圖14中’即磁區差距值s〇、s〇+i位元與S0-1 位元的磁柱n + 2與η-2。 在圖12中’參考操作42a7、42a8與42a9。重複圖中 的操作42a2、圖11中的操作42a3以及圖12中的操作42a6最 多到Μ次,其中Μ係由使用者所決定,或是直到達到圖丨2中 的操作42a5為止。Μ數目有達到嗎?若有,則初始磁碟被
4IBM04032T\V.ptd 第30頁 1267741
停用 陷。 42a6 (r e j e c t e d )因為在其上的位址化區域有太多的缺 若否,則回到操作42a2,且重複操作42a2、42a3與 在圖14中’右缺陷係連續的在磁柱與、n_g與 ^、n — 5與η + 5、n ~ 7與η + 7等被發現,則我們將會連續檢 二剩I的(remaining )可替代的鄰近磁柱直到最大次數Μ 次。若缺陷持續存在於剩下的可替代的鄰近磁柱,基於該 =碟具有纟多的缺陷之考4,轉接器24必須接著決定是否 5亥磁碟應該被備用磁碟所取代。 鄰接區 (suspect ) 與磁區位置 疊架(disk 潛在的失效 一磁碟表面 但同一磁柱 自我修復大 但是假使I 0 被限制在不 端選擇。當 某些寫入缺 可能用以觸 域可以被限制在相同的磁頭(head)或可疑的 磁碟表面,但亦可被一般化而在相同的磁柱 中針對(target )剩下的磁頭,若透過磁碟堆 stack)的機械震動(mechanical sh〇ck)是 機制的話。鄰近區域可以被近似的視為表示同 的缺陷區域,或是可表示潛在的位於不同磁頭 與磁區差距值的缺陷位置。讀取與寫入觸發的 致上要不疋可回復的,否則就是不可回復的, 的表現被自我修復系統所影響的話,亦可能备 :回復。攻些缺陷可以被預先調整或是由客戶 〇貝取缺係對於自我修復係主要的觸發機制, =,如伺服機構的(Serv〇)突發錯誤,亦 發自我修復機制。 ^
4IBM04032TW.ptd
1267741
1267741 圖式簡單說明 五、【圖示簡單說明】 :厂顯參-考圖示,其中參考標號表現整體之相關部分: 圖2颟:I主機端處理器與儲存系統之操作地連接;
Hi 含具# ―或多個處理11或轉㈣之儲存押制 =之儲存次系統之電腦網路,以及以11}磁碟陣列.工制 圖3顯示儲存次系統之一儲存控制器· Γ: 器,了包含有本發明之自我修復軟體的轉接器之儲存 圖5顯示了於可讀取及可提供服務(Readabii ΓΓΓ^11ΐγ, RAS) 自我修设軟體之儲存控制器; 圖6顯示了包含有木發日月 杳^ 之RAID斑塊偷發月 例之自我修復軟體的磁碟 之ΚΑ I D磁碟陣列中的磁碟; Γ陣顯歹ΓΛ發明施例中之具有同位(邮1⑺的隨磁 =陣列中之稷數個磁碟陣列、磁碟目冑、緩衝器以及計數 圖8係本發明實施例之自我修復系統之沪 圖9係本發明實施例之自# , 圖1〇係本發明實施例之自自我我統姑之流程圖; ^ π <目我修復糸統之流· 圖11係本發明實施例之自共你迮$从:L柱圖, ^ ^ H ^ 'ff r 自我L復糸統中檢查缺陷的資料字 串一人區域鄰近區域之流程圖; 子 圖1 2係本發明實施例之自 串次區域鄰近區域之流程^復糸、,4中檢查缺陷的資料字 圖13顯示了RAID磁碟陣“之複數個磁碟;以及 1267741 圖式簡單說明 圖1 4顯示了 R A I D磁碟陣列中之磁碟的細部結構。
圖 式元件符號說明 10 主機端處理器 11 儲存次系統 12 儲存控制器 22 處理器 22a 處理器1 22b處理器2 24 24a 24b 24c 24d 裝置轉接器 26 記憶體 28 第一磁碟 30 第二磁碟 32 第三磁碟 34 第(η-l)個磁碟 36 第η個磁碟 38 長距離電纜連接 40 RAS功能 42 自我修復軟體 44 刮痕 46 第一資料字串次區域 48 第二字串資料次區域 50 第三資料字串次區域 52 同位(parity)資訊 54 緩衝記憶體 56 計數器 58 磁碟目錄 8 0磁柱 4IBM04032T\V.ptd 第34頁

Claims (1)

1267741
種程式儲存裝置,可被一機器讀取,實地的 = nglbly )實施該機器可執行指令的一程式,以執行一 與重新定仿r 業之缺p曰’且重建(reconstructins ) ^人' Uel〇Cating )與該缺陷有關之資料,該方法 檢查位於該磁碟之一缺陷的鄰近區域以決定該磁碟是 存在有其他的缺陷(additi〇nal defects),以對庫 定位出位於該磁碟之該缺陷; f應的 ^重建與該缺陷有關的資料以對應的定位出位於該磁碟 之該缺陷,藉此產生被重建的資料;以及 ’、 儲存該被重建的資料。 2·如請求項第1項所述之程式儲存裝置,進一步包含: ▲、重建與該其他的缺陷有關的資料以對應的定位出位於 遠磁碟之該缺陷的鄰近地區之該其他的缺陷,藉此 . 一步被重建的資料;以及 退 儲存該進一步被重建的資料。 夂如請求項第2項所述之程式儲存裝置,其中該缺陷 於該磁碟的磁柱η上的磁區差距值S0處,且其中檢杳 該磁碟之一缺陷的鄰近區域以決定是否有其他的缺·陷; 於該磁碟,包含檢查位於該礤碟的磁柱n + 1與η-ι的磁 距值SO、so+i位元與SO-1位元處。 。°差
4IBM04032T\V.Ptd 1267741 六、申請專利範圍 4·如請求項第3項所 磁磾之 从" β 11之私式儲存裝置,其中檢查位於該 峨%之一缺陷的鄰 磁碟,進一 +勺二近&域決定是否其他的缺陷存在於該 差距佶ςη二ι έ檢查位於該磁碟的磁柱η + 3與η-3的磁區 磁碟Γ相庫:+^與,1位元處,以對應於定位出在該 S〇+l位元盥ςη 1 7 碟之磁^η + 1與η-1的磁區差距值SO、 上丨此7C興S 〇 一;I位元中$ — 的缺陷。 處的一或多個位置之該其他 5·如請求項第4項所述之程式 * 士 —仏太 該磁碟夕,, 省存裝置’其中该檢查位於 該磁碟,迨一丰^人认尤 决疋疋否其他的缺陷存在於 區差距佶ςη 一位於該磁碟的磁柱n + 2與η-2的磁 1位元與so—1位元處,以對應於不定位出 碟之相應位於磁柱n + 3與n_3的該磁區差距值s〇、 一-與S(M位元的一或多個位置之該其他的缺陷。 求項第5項所述之程式儲存裝置,其中該檢查位於 5磁ί之—缺陷的鄰 域以決定是否其他的缺陷存在於 =碟’進一步包含檢查位於該磁碟的磁柱η + 5 = 區差距值so、S0+1位元與SO-丨位元處,以對應於定 S:磁:V目應位於1 Ϊ碟ΐ磁桎n+3與“的磁區差距值 二1 元與so 少一處的-或多個位置之該 其他的缺陷。 夏< 3 7.如請求項第2項所述之程式儲存裝置,纟中於該磁碟的
4IBM04032T\V.pui 第36頁 1267741
位於該 磁碟是 之該缺
8 ·種在一磁碟中自我修復方法,係對應於定位屮 磁碟上之一缺陷,該方法包含: 出 檢查位於該磁碟之該缺陷的鄰近區域以決定該 =存在有其他的缺陷,以對應的定位出位於該磁碟 以及重建與該缺陷有關的資料以藉此產生被重建的資料 儲存該被重建的資料。 9 ·如凊求項第8項所述之方法,進一步包含: 重建該其他的缺陷以對應的定位出位於該磁碟之該缺 的鄰近地區之該其他的缺陷,藉此產生進一步 資料;以及 的
儲存該進—步被重建的資料。 1 〇 ·、如清求項第9項所述之方法,其中該缺陷存在於該磁碟 的磁柱n上的磁區差距值SO處,且其中檢查位於該磁碟之 該缺陷的鄰近區域以決定是否有其他的缺陷存在於該磁
4IBM04032T\V.ptd 第37頁 1267741
的磁區差距值 碟 so 包含檢查位於該磁碟的磁柱n+ 1與^ S0+1位元與SO-1位元處。 11.如請求項第10項所述之方法,其中檢杳 決定是否其他的缺陷-存在、二碟碑之 :V L 3 .檢查位於该磁碟的磁柱〇 + 3與n_3的磁區差S 值SO、S0H位兀與S0-1位元處’以對應於定位出在該 之相應位於該磁碟之磁柱11+1與[1-1的磁區差距值s〇、 位元與SO-丨位元中至少一處的一或多個位置之
12.如請求項第11項所述之方法,其中該檢查位於該磁碟 之該缺陷的鄰近區域以決定是否其他的缺陷存在於該磁 碟,進一步包含檢查位於該磁碟的磁柱1) + 2與11-2的磁區差 距值SO、S0 + 1位元與SO-1位元處,以對應於不定位出在該 磁碟之相應位於磁柱n + 3與n~3的該磁區差距值训、s〇+丨位 元與SO-1位元的一或多個位置之該其他的缺陷。
1 3 ·如請求項第1 2項所述之方法,其中該檢查位於該磁碟 之該缺陷的鄰近區域以決定是否其他的缺陷存在於該磁 碟,進一步包含檢查位於該磁碟的磁柱n +5與n-5的磁區差 距值SO、S0+1位元與SO-1位元處,以對應於定位出在該磁 碟之相應位於該磁碟之磁柱n + 3與η-3的磁區差距值SO、 S0+ 1位元與SO- 1位元中至少一處的一或多個位置之該其他
4IBM04032TW.ptd
六、申請專利範圍 的缺陷。 缺陷存在有^一第8項所述之方法,其中於該磁碟的該其他的 含,在另 特疋數目,且其中儲存該被重建的資料包 的缺存該被重建的資#,當該該其他 亥特定數目大於或等於一預定的門梭值時。 如請求項第9項所述之方法,复 二存在有_特定數目,且 铋:於该磁碟的該其他的 =包含,在另-個備用磁碟儲=存該進—步被重建的資 :遠其他的缺陷的該特定數 '-進一步被重建的資料, 時。 於或等於一預定的門檻值 —種儲存系統,適用 含: 儲存與讀取資料,該系統包 複數個磁碟; ^ 、儲存控制器,可操作的、 忒^碟控制器係被設計於執二連結於該複數個磁碟,其中 忒複數個磁碟中的一磁碟的:操作,用以定位出存在贫 關的貧料,該操作包含: 缺陷,且重建與該缺陷與矣 檢查位於該磁碟之〜 碟是否存在有其他的缺陷,〜缺陷的鄰近區域以決定該每 該缺陷; ^對應的定位出位於該磁碟$ 重建與該缺陷有關 勺貝料以對應的定位出位於|3 1267741
以及 ______________ 六、申請專利範圍 磁碟之該缺陷,藉此產生被重建的資料 儲存該被重建的資料。 1 7 ·如請求項第1 6項所述之系統,進一步包含: ^ 、重建與該其他的缺陷有關的資料以對應的定位出位於 2磁碟之該缺陷的鄰近地區之該其他的缺陷,藉此產生進 一步被重建的資料;以及 儲存該進一步被重建的資料。 18.如請求項第17項所述之系統,其中該缺陷存在於該磁 碟的磁柱η上的磁區差距值SO處,且其中檢查位於該磁碟 之—缺陷的鄰近區域以決定是否有其他的缺陷存在於該磁 碟’包含檢查位於該磁碟的磁柱n+l與n-i的磁區差距值 so、S0+1位元與so-ι位元處。 it如請求項第18項所述之系統,其中檢查位於該磁碟之 一缺陷的鄰近區域以決定是否其他的缺陷存在於該磁碟, 進一步包含檢查位於該磁碟的磁柱n + 3與η-3的磁區差距值 S〇、S0+1位元與SO-1位元處,以對應於定位出在該磁碟之 相應位於該磁碟之磁柱n + 1與n—i的磁區差距值s〇、s〇H位 元與SO-1位元中至少一處的一或多個位置之該其他的缺 陷。 、 2 0 ·如請求項第1 9項所述之系統,其中該檢查位於該磁碟
4IBM04032TW.ptd 第40頁 1267741 六、申請專利範圍 -- 之一缺陷的鄰近區域以決定是否其他的缺陷存在於該磁 碟進步包含檢查位於该磁碟的磁柱n + 2與η-2的磁區差 距值SO、SOH位元與SO-1位元處,以對應於不定位出在該 磁碟之相應位於磁柱11 + 3與n —3的該磁區差距值s〇、s〇 + i位 元與SO-1位元的一或多個位置之該其他的缺陷;以及 檢查位於該磁碟的磁柱11 + 5與11-5的磁區差距值SO、 S0+1位兀與如—丨位元處,以對應於定位出在該磁碟之相應 位於4磁碟之磁柱n + 3與n_3的磁區差距值s〇、s〇 + i位元與 位元中至少一處的一或多個位置之該其他的缺陷。 私式儲存裝置,可被一機器讀取,實地的 機器可執行扣八从 ^ ^ 机仃扎令的一程式,以執行一方法用以定位一 之缺陷,曰击,各《4: ^ ^ • 重建與重新定位與該缺陷有關之資料’該方法 ζι> 3 · “Μ 1 一 於該磁碟之一缺陷的鄰近區域以決定是否有复 他的缺陷存在; 1 a 重建與該缺陷有關的資料藉此產生被重建的資料;以 儲存該被重建的資料
4IBM04032T\V.ptd 第41頁
TW093112314A 2003-05-06 2004-04-30 A self healing storage system TWI267741B (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/431,246 US7278053B2 (en) 2003-05-06 2003-05-06 Self healing storage system

Publications (2)

Publication Number Publication Date
TW200513853A TW200513853A (en) 2005-04-16
TWI267741B true TWI267741B (en) 2006-12-01

Family

ID=33449649

Family Applications (1)

Application Number Title Priority Date Filing Date
TW093112314A TWI267741B (en) 2003-05-06 2004-04-30 A self healing storage system

Country Status (5)

Country Link
US (1) US7278053B2 (zh)
JP (1) JP3919770B2 (zh)
KR (1) KR100561495B1 (zh)
CN (1) CN100437804C (zh)
TW (1) TWI267741B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100524937B1 (ko) * 2002-12-12 2005-10-31 삼성전자주식회사 하드디스크상의 임의 방향 스크래치 처리 장치 및 방법
US20050138464A1 (en) * 2003-11-21 2005-06-23 Chong Pohsoon Scratch fill using scratch tracking table
JP2006285803A (ja) * 2005-04-04 2006-10-19 Sony Corp データ記憶装置、再構築制御装置、再構築制御方法、プログラム及び記憶媒体
JP2006285889A (ja) * 2005-04-05 2006-10-19 Sony Corp データ記憶装置、再構築制御装置、再構築制御方法、プログラム及び記憶媒体
JP2007066480A (ja) * 2005-09-02 2007-03-15 Hitachi Ltd ディスクアレイ装置
US7653829B2 (en) * 2005-12-08 2010-01-26 Electronics And Telecommunications Research Institute Method of data placement and control in block-divided distributed parity disk array
KR100714876B1 (ko) * 2005-12-27 2007-05-07 삼성전자주식회사 하드디스크 드라이브, 하드디스크 드라이브의 스크래치처리방법 및 그 방법을 수행하는 컴퓨터 프로그램을 기록한기록매체
US20070214313A1 (en) * 2006-02-21 2007-09-13 Kalos Matthew J Apparatus, system, and method for concurrent RAID array relocation
DE102006014329B3 (de) * 2006-03-23 2007-09-06 Siemens Ag Verfahren zur Archivierung von Daten
US7617361B2 (en) * 2006-03-29 2009-11-10 International Business Machines Corporation Configureable redundant array of independent disks
CN101276302B (zh) * 2007-03-29 2010-10-06 中国科学院计算技术研究所 一种磁盘阵列系统中磁盘故障处理和数据重构方法
JP5199465B2 (ja) * 2009-02-26 2013-05-15 株式会社日立製作所 Raidグループを備えたストレージシステム
KR20130136343A (ko) * 2012-06-04 2013-12-12 에스케이하이닉스 주식회사 반도체 장치 및 그 동작 방법
WO2014120205A1 (en) * 2013-01-31 2014-08-07 Hewlett-Packard Development Company, L.P. Replacement of a corrupt driver variable record
CN104657237A (zh) * 2015-03-12 2015-05-27 浪潮集团有限公司 一种检测磁盘阵列的方法
CN106296550A (zh) * 2015-06-10 2017-01-04 中车唐山机车车辆有限公司 列车故障查询系统
US10803437B2 (en) * 2015-08-28 2020-10-13 Ncr Corporation Self-service terminal technical state monitoring and alerting
US10361919B2 (en) 2015-11-09 2019-07-23 At&T Intellectual Property I, L.P. Self-healing and dynamic optimization of VM server cluster management in multi-cloud platform
JP2019164869A (ja) 2018-03-20 2019-09-26 株式会社東芝 磁気ディスク装置及びリード処理方法
CN112732517B (zh) * 2020-12-29 2023-12-22 北京浪潮数据技术有限公司 一种磁盘故障告警方法、装置、设备及可读存储介质

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01196775A (ja) 1988-02-02 1989-08-08 Sony Corp データ記録/再生装置における交替処理方法
JPH02156478A (ja) 1988-12-09 1990-06-15 Canon Inc 交代セクター管理方式
JP3074183B2 (ja) 1990-10-01 2000-08-07 日立マクセル株式会社 情報記録媒体および情報記録媒体評価装置
JP2672916B2 (ja) * 1991-12-13 1997-11-05 富士通株式会社 アレイディスク装置のデータチェック方法
US5313626A (en) * 1991-12-17 1994-05-17 Jones Craig S Disk drive array with efficient background rebuilding
JP3231831B2 (ja) 1992-04-16 2001-11-26 株式会社リコー 光ディスクの不良セクタ判定方法
JP3183719B2 (ja) * 1992-08-26 2001-07-09 三菱電機株式会社 アレイ型記録装置
JPH07152495A (ja) * 1993-11-29 1995-06-16 Nec Corp ディスクアレイ装置の復旧方式
JP3558225B2 (ja) 1993-12-18 2004-08-25 株式会社リコー ディスク装置
JPH0863895A (ja) 1994-08-24 1996-03-08 Nikon Corp ディスク及びディスク欠陥検出装置
JP3322768B2 (ja) * 1994-12-21 2002-09-09 富士通株式会社 記録再生装置及び記録媒体の交代処理方法
US5758057A (en) * 1995-06-21 1998-05-26 Mitsubishi Denki Kabushiki Kaisha Multi-media storage system
JPH0914315A (ja) * 1995-06-23 1997-01-14 Akebono Brake Ind Co Ltd 摩擦材の予備成形方法
US5913927A (en) * 1995-12-15 1999-06-22 Mylex Corporation Method and apparatus for management of faulty data in a raid system
US5717850A (en) * 1996-03-12 1998-02-10 International Business Machines Corporation Efficient system for predicting and processing storage subsystem failure
EP0964398B1 (en) * 1996-03-18 2000-11-15 Matsushita Electric Industrial Co., Ltd. Recording defect substitution method, and a recording and reproducing apparatus for a disc-shaped redording medium
GB2312319B (en) * 1996-04-15 1998-12-09 Discreet Logic Inc Video storage
US6453392B1 (en) * 1998-11-10 2002-09-17 International Business Machines Corporation Method of and apparatus for sharing dedicated devices between virtual machine guests
JP2000156051A (ja) 1998-11-17 2000-06-06 Hitachi Ltd 磁気ディスク装置
US6327672B1 (en) * 1998-12-31 2001-12-04 Lsi Logic Corporation Multiple drive failure tolerant raid system
US6449731B1 (en) * 1999-03-03 2002-09-10 Tricord Systems, Inc. Self-healing computer system storage
GB2369483A (en) 1999-10-28 2002-05-29 Seagate Technology Llc Sync byte padding
US6418068B1 (en) * 2001-01-19 2002-07-09 Hewlett-Packard Co. Self-healing memory
CN1155963C (zh) * 2001-03-30 2004-06-30 华邦电子股份有限公司 利用保留容量以回复受损坏的储存容量的方法
US6922801B2 (en) 2001-06-01 2005-07-26 International Business Machines Corporation Storage media scanner apparatus and method providing media predictive failure analysis and proactive media surface defect management
JP2003036613A (ja) 2001-07-25 2003-02-07 Sony Corp 光記録媒体の検査方法
US7035972B2 (en) * 2002-09-03 2006-04-25 Copan Systems, Inc. Method and apparatus for power-efficient high-capacity scalable storage system

Also Published As

Publication number Publication date
JP3919770B2 (ja) 2007-05-30
US20040236985A1 (en) 2004-11-25
JP2004335087A (ja) 2004-11-25
US7278053B2 (en) 2007-10-02
TW200513853A (en) 2005-04-16
CN1551202A (zh) 2004-12-01
KR20040095181A (ko) 2004-11-12
KR100561495B1 (ko) 2006-03-20
CN100437804C (zh) 2008-11-26

Similar Documents

Publication Publication Date Title
TWI267741B (en) A self healing storage system
US7661020B1 (en) System and method for reducing unrecoverable media errors
JP4916033B2 (ja) データ格納方法、データ・ストレージ・システムおよびプログラム(ストレージ・システムにおけるデータ完全性の検証)(著作権および商標登録表示本特許文書の開示の一部は、著作権保護を受ける内容を含む。本所有権者は、特許文書または特許開示書のいずれか一つによるファクシミリ複写物には、複写物が特許商標庁の特許ファイルまたは記録として世に出現している限り異論はないが、他の場合に全ての著作権は完全に留保する。)(本明細書で参照するある種のマークについては、出願人またはその譲受人と提携しまたは提携しない第三者の、慣習法上の、または登録された商標である可能性がある。これらのマークを使用するのは、例示によって実施可能な開示を提供するためであり、そのようなマークに関連するもののみに本発明の範囲を制限するように解釈されるべきではない。)
KR100510808B1 (ko) 데이터 저장 장치 및 시스템을 위한 로그 구조 기록 캐시
US7143305B2 (en) Using redundant spares to reduce storage device array rebuild time
US11226760B2 (en) Using data rebuilding to support large segments
JPH05505264A (ja) データ記憶装置における書込みオペレーション識別子の不揮発性メモリ記憶
TWI461901B (zh) 資料儲存與重建的方法與系統
US11334277B2 (en) Issuing efficient writes to erasure coded objects in a distributed storage system with two tiers of storage
JP2008033874A (ja) 独立ディスクのリダンダントアレイ毀損時のデータ救援方法及びそのシステム
US11334276B2 (en) Using segment pre-allocation to support large segments
US20080123503A1 (en) Removable storage media with improve data integrity
JPH08321138A (ja) デジタル・データを格納する方法
US20160162208A1 (en) Data reallocation upon detection of errors
US11467746B2 (en) Issuing efficient writes to erasure coded objects in a distributed storage system via adaptive logging
CN108141229A (zh) 损坏数据的高效检测
US10642508B2 (en) Method to limit impact of partial media failure of disk drive and detect/report the loss of data for objects due to partial failure of media
JP2004095147A (ja) ストリーミング方式オーディオ・ビジュアル・データをディスク・ドライブに書き込む為の方法
US10574270B1 (en) Sector management in drives having multiple modulation coding
US7730370B2 (en) Apparatus and method for disk read checking
US11625370B2 (en) Techniques for reducing data log recovery time and metadata write amplification
US9286936B1 (en) Zone based band mapping
CN113190179B (zh) 提升机械硬盘使用寿命的方法、存储设备及系统
TWI327320B (en) Method of generating parity bit groups,method of managing corrupted data in a non-volatile memory array,method of correcting data, method of storing data in a non-volatile memory array and removable non-volatile memory card
TWI227876B (en) Disk system configuration structure for system of multiple disk arrays

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees