TW200401970A - Method and apparatus for reliable failover involving incomplete raid disk writes in a clustering system - Google Patents

Method and apparatus for reliable failover involving incomplete raid disk writes in a clustering system Download PDF

Info

Publication number
TW200401970A
TW200401970A TW092119514A TW92119514A TW200401970A TW 200401970 A TW200401970 A TW 200401970A TW 092119514 A TW092119514 A TW 092119514A TW 92119514 A TW92119514 A TW 92119514A TW 200401970 A TW200401970 A TW 200401970A
Authority
TW
Taiwan
Prior art keywords
mrt
item
patent application
scope
shared
Prior art date
Application number
TW092119514A
Other languages
English (en)
Other versions
TWI239444B (en
Inventor
Allen King
Davis Qi-Yu Chu
Original Assignee
Ibm
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ibm filed Critical Ibm
Publication of TW200401970A publication Critical patent/TW200401970A/zh
Application granted granted Critical
Publication of TWI239444B publication Critical patent/TWI239444B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2089Redundant storage control functionality
    • G06F11/2092Techniques of failing over between control units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F2003/0697Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers device management, e.g. handlers, drivers, I/O schedulers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/82Solving problems relating to consistency
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Memory System Of A Hierarchy Structure (AREA)
  • Debugging And Monitoring (AREA)

Description

200401970 五、發明說明(1) 一、【發明所屬之技術領域 本發明概有關於一種客芦迪 σ 磁碟冗餘陣列(R A ID ),且特% e 5服态什异環境内的獨立 效節點寫入作業的可信賴;C於涉及在-叢集内之失 月谷媸功忐之系統及方法。 一、【先前技術】 在當代的客戶端/飼服哭古十瞀、 稱之為節點之經耦接、獨;電二衣兄裡’-叢集係為-組 一早一糸統。一客戶端與一彷彿一=二而其可作為 互動。叢集之經合併計瞀妒六疋早一伺服器的叢集 線上商業到科學模型處;的:Jd::叢集對於在從 具。在許多實例裡,這些系統 於=用卫 科學實驗的整體成敗係極為關鍵。^生對於一企業競爭及 一電腦系統,包括業隹会 機,其基本上僅I^ ^ =二、,中最脆弱的元件是硬碟 組裝。寫移動部分而其餘則屬電子之 多數磁碟機最終必料:僅可仰賴於該碟機,而 在許多情況下代表關鍵性的u放這些硬碟機上的資料 訊等。而在當資1抑士貝訊、投資資訊、學術資 的年代裡,確實需要取變成對所有企業愈來愈重要 -種現有的;儲存方法。 (RAID)。RAID系統 ^爲、獨f磁碟冗餘陣列 陣列彷彿即為單一 t :予子取許多個別硬碟機,使得該 磁碟上可降低父大的硬碟機。將資料分散在這些多個 田任—磁碟機失效時損失資料的風險,且亦
200401970 五、發明說明(2) 型柃:::呤間二1 D是為運用於交易或應用伺服器與大 !目前,也將RAID運用在會需要高傳 輸速率的桌上型或工作站系統。 似八集環境裡,像是如前所述者,會使·ιΐ}及類 磁碟㈣,以讓_客戶端存取至該等合併節點之計 ^力藏且連同於該磁碟陣制Α量儲存容量。圖丨顯示一 點二:之叢集系統100的略圖表示。在此内所繪者係-節 I彳ΒΙ = Θ !*102、一網路集線器104、一叢集管理器106及複 M =1 08。所繪之節點叢集系統102僅係為一含兩個 ::雙即點系統11 〇範例,彼等通常會是電腦系統或伺服 =。即點叢集系統102可含有任意數量的節點110,其量值 疋按如所需之儲存及計算容量而定義。 , 在各節點11 0内所描繪者係一RAID控制器11 2,這將於 後參If於圖2而詳細討論。透過該MID控制器112,節點110 傳迗貝料給一RAID陣列114。該RAID控制器112會經由資料 L H 1 6而與5亥R AID陣列11 4通訊。在所緣之具體實施例 裡,該等連接到該RAID控制器112及以11}陣列114的資料通 道11 6較佳者是小型電腦系統介面(SCS I)通道。 该叢集系統102連接至一「區域網路(LAN)」120或一私 屬網路纜線或互連丨丨8。在所述具體實施例下,該叢集系統 102、該叢集管理器1〇6及複數個客戶端1〇8會藉網路集線器 1 0 4所連接。該叢集管理器1 〇 6較佳是能夠監視及管理叢集 運作。偶爾,在各節點11〇其一之R A ID控制器112會失效, 而這一般是因一元件或電力失效所造成。當發生此問題
第6頁 200401970 五、發明說明(3) 時’也許正在進行非快取寫入作業且尚未完成。因此會漏 失重要資料。 現請參照圖2,目前的R A I D控制器1 1 2通常含有一微處 理态2 0 2、一 S C S I控制器2 0 4、一快閃唯讀記憶體(r 〇 μ )模組 2 0 6、一動態隨機存取記憶體(DRAM )模組2 〇 8及一非揮發性 隨機存取記憶體(NVRAM)模組210。在該NVRAM模組210内常 駐有一鏡像競赛表(MRT) 214。該MRT 214維護現正對raid 磁碟上進行寫入作業之各資料群組的開始邏輯區塊位址。 該資料群組可經劃切跨於各磁碟上,或是按如稱作快取線 組的各較小資料群組所加組織。 圖3說明一先前技藝MRT 214具體實施例。其内所示為 一有效旗標位元302、一邏輯區塊位址3〇4以及一邏輯碟機 編號3 0 6。該MRT 214維護一不完全寫入作業列表。當完成 一寫入作業後,該RAID控制器112就會清除該寫入作業的 MRT項。當出現一失效時,該RAID控制器丨12就會在當回返 到功能性時執行一致性檢查。 、有時,該RAID控制器112或會失效。在此情況下,其他 運作中的RAID控制器就無法存取該失效控制器丨12的 2j4。剩餘的RAID控制器112無法識別出或進行該失效控制 :上1 ? 5 ί夂性不〜全寫入作業 '然1^,那些剩餘的RA1 D控 丨為 可識別屬於該失效控制11 2之R A I D 1 14的邏輯碟 機。一剩餘控制器11 2會對於那些邏輯碟機,各者從頭到 尾,啟動一背景一致性檢查(BGCC),並且若有必要,合 奄現因不完全寫入而致生資料不一致性的位置處進行一致
第7頁 200401970 五、發明說明(4) 性復原處理。 隨著目前使用之邏輯碟機大小激增,該RA I D陣列11 4之 邏輯碟機的B G C C或會佔用數小時。在此期間,可對於那些 尚未完全檢查而又牽涉到該RAID陣列114之BGCC的邏輯碟機 依前景方式進行讀取及寫入作業。萬一該RA I D陣列11 4之各 邏輯碟機其中一者的一實體碟機無法進行一正好是位於尚 待檢查之一致性快取線組内的讀取請求時,則或會出現資 料毀損問題。這項資料毀損失效問題,就是因為一 RA丨D控 制器11 2自此邏輯碟機之其他實體碟機處重新產生資料,而 並=知悉該資料不一致而無法開始的結果。這個問題通 為 寫入空洞」。 可從上述討論中得知業界確需要一種經改良之 μ 方法及裝置,以解決在一磁碟失效後的不完全 鐵磲寫入問題。 二、【發明内容】 發展,特::f及方法係為回應於目前業界最尖端技術所 題及需求:針對目前可用裝置及方法尚未完整解決之問 多項或所有:yr月整體目的係為提供一種能夠克服 為達上ΐ中現今之缺點之裝置及方法。 所實作且;^且根據由此揭示之各較佳具體實施例 置及方i廣義描述之本發明,提供一種改良可信賴容錯裝 本發明彼等及其他目的 特性與優點,可自後載之描
200401970 五、發明說明(5) 述及隨附申請專利範圍而完整明瞭,或可藉按如後文設列 方式實作本發明而得知。在一些具體實施例裡,本發明包 含複數個分享磁碟及複數個RAID控制器,各者經組態設定 以存取該等複數個磁碟。為於該等進行寫入作業之磁碟上 配發及維護資料的開始邏輯區塊位址(LB A )位置,可連同一 能夠由各者RAID控制器所接取之共用MRT儲存位置,實作出 一鏡像競賽表(MRT)。該共用MRT儲存位置也會複製所有位 於各RAID控制器上的MRT。 在一本發明較佳具體實施例下,該共用MRT儲存位置包 含一非揮發性隨機存取記憶體(NVRAM)模組。在此,可將該 NVRAM模組實作於一分享磁碟匣(enci〇sure)内。或另者, 可令該NVRAM模組位於各raid控制器上。在一具體實施例 裡’該分享磁碟匣包含一SCSI接取容錯匣(SAF —TE)。 最好,在各RAID控制器上,該裝置也包含一MRT搜尋模 組,此者經組態設定以對MRT搜尋第一自由項目,以及一 MRT項目模組,此者經組態設定以藉由輸入待寫入於該等複 數個分享磁碟上之第一快取線組的邏輯區塊位址(LB A)來產 生一項目於該MRT内為宜。在此,亦可提供一MRT指標模 組’此者經組態設定以收存該項目之服丁指標;一MRT擷取 模組,此者經組態設定以尋得並擷取該項目的MRT指標;一 MRT讀取模組,此者經組態設定以當有必要時(在一節點載 入或叢集容錯之後)能夠在該磁碟上定位該資料之快取線組 以供一致性復原;一MRT清除模組,此者經組態設定以尋得 並從該MRT清除該項目;以及一MRT傳送模組,將該MRT從一
第9頁 200401970
200401970
内,而是可散佈於一或更多電路 ^ 運用硬體或軟體實作以達本揭n 除另矹明,可父互地 圖3b係-碟機所有^二各,組之結構及功能。 表310包含一邏輯碟ι編號縱行“圖形一表現。該碟機所有權 器序列編號縱行314。#用^哕磾機及一相對應所有權控制 冗餘陣列(圓)控制器12°=;有權表310,獨立碟機 m内之各邏輯碟機的所有:決定在,MAID陣列 由各節點"。咖D控二U·碟f所有權表310通常是 ^ ΤΤΛ ^ , 市J 口口 112所製發。該RAID控制器112會
:^ ”的指配邏輯碟機編號,遞交給該RA I D陣列 RATH:二保留區域。該碟機所有權表310也會被載入該 RAID控制器Π2的DRAM模組2 08内。
現請參照圖4,其中顯示一常駐於本發明RAID控制器 内之鏡像脱赛表(MRT) 400 —具體實施例。該MRT 4〇〇包 S有效旗標位兀縱行402、一邏輯區塊位址(LBA) 404以 及保留縱行406。在本發明一較佳具體實施例下,該MRT 400係杈類似於圖3a之龍丁 214的方式所組態設定,但經再 結構化以令能夠藉由增加邏輯碟機編號,直接地索引該MRT 400内的各項目。該再結構化龍τ 4 〇〇係經組態設定以將存 取及更新作業最佳化。 该MRT 400内的各項目包含一有效旗標位元4〇2、一代 表快取線組内之開始位址的LBA 4 〇 4,以及一可用來一選擇 性檢查總和以辨核項目資訊的保留欄位4 0 6。在一具體實施 例裡’對於各叢集控制器項目該MRT 400僅會要求六個位元 組的儲存空間。
200401970 五、發明說明(8) 圖5略圖說明一種稱為SCSI接取容錯匣(SAF-TE) 500之 智慧型磁碟匣具體實施例。一SAF — TE 5〇0係一用以實作 SCS I基礎式處理器裝置、磁碟承體、電力供應及其他元件 之結構’藉以將匣元件狀態資訊傳通至監視應用程式。在 一些具體實施例裡,該SAF-TE 50 0内的複數個邏輯碟機可 從一單一 r A I D陣列11 4所分割。這些r a I D陣列11 4分割會變 成虛擬碟機,且被指配給個別的R A丨D控制器丨丨2。通常,會 將該R A I D陣列11 4承裝於一智慧型磁碟匣内。 該SAF-TE 50 0 —般包含一 SCSI標的介面502、複數個 SAF-TE暫存器、複數個狀態暫存器5〇6、一Cpu 5 08、一可 擦拭可程式化唯讀記憶體(EPR〇M) 51〇模組、及一動態隨機 存取記憶體(DRAM)模組512。根據本發明,也會於該SAF-TE 50 0内綠示一非揮發性隨機存取記憶體(NVRAM)模組5H。在 此不對該SAF-TE 50 0内的各元件加以詳細說明,熟諳本項 技藝之人士應即知悉個別元件之功能及目的。在此給定之 SAF-TE 5 0 0的組態設定僅係為示範性,而不應被視為具限 制性’熟諳本項技藝之人士可即修改該組態設定,而仍落 屬本發明範圍。 在一多重節點叢集裡,當一節點失效時,就會進行自 動容錯處理。於運作中節點裡運作的叢集軟體會回應於一 失效問題,將來自該失效系統的工作分派給該叢集内的各 剩餘系統。然而,在本發明之前,剩餘系統内的R A丨D控制 器1 1 2無法接取到該失效系統的MRT 2 1 4。為克服業界目前 的限制,在該NVRAM 514内會供置一MRT 516。底下將參照
第頁 200401970 五、發明說明(9) 於圖6以詳細說明該MRT 5 1 6的組態設定。 在本發明較佳具體實施例下,該MRT 5 1 6常駐於該 NVRAM模組512内,且經組態設定以由如圖!之運作$RAID控 制器11 2所接取。在一具體實施例裡,該MRT 5 1 6包含常駐 於各RAID控制器112内之各MRT 400的正確拷貝。或另者\ 該MRT 5 1 6係經組態設定以含有關於運作於該叢集内之各 RA I D控制器11 2的資料。例如,該MRT 5 1 6可含有像是事置 型態、販售廠商名稱、平台、韌體及序號等資料。H 模組512及MRT 516納入該SAF-TE 5 00内在此僅认^丨’ i、"6疋如一蘇 例,且其連同替代性分享磁碟匣之運用方式對於 立 技藝之人士確屬顯見。 、无、和本項 圖6說明一按實作於像是saf-TE 500之分享磁 MRT 516特定範例略圖表示。在如圖6之具體實施、、匣内的 MRT 516包含一有效旗標位元縱行6〇2、一邏輯區3裡’忒 (LBA) 6 04以及一保留縱行6〇6。該MRT 516内的°各:位址^ 疋包含一有效旗標位元、一代表快取線組之開始、目最好 LB A,以及一可用來一選擇性檢查總和以辨核項次 > 的 留欄位406。該缓衝器位移608包含開始位元組位/訊的保 包含容納於所傳送之資料緩衝器内。一大於等於移L且故 容量的位移會造成檢查條件狀態成為一「非法二$緩衝器 鍵值,以及在CDB内一「無效欄位」的額外感測%求。」碼的 現參照圖7,其内顯示一流程圖,此圖說二 叢集系統内不完全寫入作業的可信賴容錯方本务明之 開始於702,且於704處提供一叢集分享磁间。該方法 禾民°在一具體
第13頁 200401970 五、發明說明(ίο) 貫施例裡,該叢集系統包含如圖1的系統1 〇 〇。在方法7 〇 〇 下’一RAID控制器112會在70 6決定該分享磁碟匣的支援狀 態。在一本發明較佳具體實施例下,會為此而將一旗標位 元加入该詢查資料字串内。例如,位元組5的位元〇可標示 對於該NVRAM模組514之增附MRT 51 6的分享磁碟匣支援狀 態。萬一於708處偵測到一控制器失效,屬於該失效RAID控 制為11 2的邏輯碟機會於71 〇被令為一致。後文中將參照於 圖8及9以詳細說明令該邏輯碟機為一致的方法。 圖8及9說明一藉由運用本發明之MRT以令邏輯碟機為一 致的方法80 0。於一具體實施例裡,該方法8〇〇對應到圖7的 步驟Ή0。該方法800開始於8〇2,且於8〇4偵測到一節點載 入。在一具體實施例裡,該節點載入包含一失效控制器回 j 。如於806處*定該節點具有碟機所有權,則本方法 曰/刀支到圖9,在此會令該邏輯碟機為—致。 枓而Ϊ Ϊ發明較佳具體實施例下,會藉讀取快取線組之資 科而令该邏輯碟機為一致,g — g - ^ ^ … 即如在遠郎點之MRT内所尋獲, 且冲-所需以令該邏輯碟機為一致 對位值會鱼所纪钸之蚪办伯^ ^丁仪值 ^個异出的 曰”所σ己錄之對位值相比較。 管 不相符於所記錄的對位值, ^ 、,值、’ 該邏輯磁碟。在一致性檢查後出的對位值記錄於 ^ If Tfl ^ βη nrp —羑 έ/月除該 RAID 控制 5| 112 及 瀛匣兩者内的MRT項目,以確 利口口 i 1 z汉 故障成員磁碟内的資料。,、b σ確地重新產生於潛在 然後在908追蹤一致性復原的—士土 失效過程中該邏輯碟機所有權、二 1:二邊。如在節點 隹又化則會在910處理停止該
200401970 五、發明說明(11) " 一 ^
未決一致性復原作業。然後本方法於912處結束。再次參照 於圖8,如決定該回返碼為不具有碟機所有權,則會清除該 節點之MRT内的所有項目,本方法於912處於此結束。 X 缺少節點載入8 0 4,當偵測到一節點失效8 1 4時,剩下 的節點會決定是否必須將邏輯碟機令為一致8丨6。如有必要 進行一致性復原,則會識別各邏輯碟機822。在一本發明較 佳具體實施例裡,會由碟機所有權表3丨〇決定邏輯碟機識別 結果。然後改變該失效節點的所有權824,並從該分享磁碟 匣之MRT擷取屬於該失效節點的項目。然後按如前方式令 輯碟機為一致904。 、' 經復原一致性後,會清除掉在RA丨D控制器丨丨2及該匣兩 f内的各MRT項目906,以確保能夠正確地重新產生潛在故 皡成員磁碟内的資料。本方法800繼續進行,而於9〇8追蹤 致〖生復原作業之未決狀悲的完成結果。如於節點失效的 過程中該邏輯碟機所有權改變,則會於9 i 〇停止該未決一致 ,復原作業。然後方法800在912結束。或另者,如於81 6決 疋無必要進行一邏輯碟機一致性復原,則方法7〇8結束於 912。 回返到決定作業8 1 4,如並未偵測到一節點失效,且於 二指配—新邏輯碟機,則該方法決定對於所指配之邏輯碟 =疋否有任何未決一致性復原活動。如於82〇 業,則會於902從分享磁碟™搁取出屬於各 n機的各區段。然後,再如前述般令各邏輯碟機一致 。在—致性復原作業後,會清除掉在分享磁碟匡MRT及 200401970 RAID控制器MRT兩者内的項目,以確保能夠正確地重新產生 潛在故障成員磁碟内的資料。 方法708繼續進行,而於908追蹤一致性復原作業之未 決狀態的完成結果。如該邏輯碟機所有權既已改變,則會 於91 0停止该未決一致性復原作業。如於8 2〇無未決一致性 復原,則方法708結束於912。如無偵測到新的邏輯碟機 818,則方法80 0結束於912。
在一具體實施例裡,如前述參照於圖8及9之方法8〇〇會 被組怨a又疋為持績地迴圈進行。或另者,方法8 〇 〇可等待出 現一節點載入、一節點失效、或發生一新邏輯碟機事件。 現參照圖1 0,此圖顯示一流程圖,說明一用以決定本 發明之SAF-TE匣支援狀態的方法1 〇 〇〇。該方法丨〇〇〇係一決
疋圖7所述7 0 6支援之步驟的特定實作範例。該方法丨〇 〇 〇開 始於1 0 0 2 ’且一出現該增附本發明NVRAM模組514及緩衝器 容量之節點檢查1 〇 〇 4。該節點控制器送輸出丨〇 〇 6第一 INQUIRY指令並於1〇〇8接收一INQUIRY資料。即如前述,在 一具體實施例裡,該指令資料緩衝器内可含有表示出現 NVRAM模組514的增附旗標位元。如安裝有NVRAM缓衝器特 性’則會於1〇1〇對一緩衝器描述器送aREAI) buffer指令, 亚且接收該緩衝器容量資訊。所收的緩衝器容量資訊會被 用來在1012決定是否有足夠的緩衝器容量。 在一本發明較佳具體實施例下,如該緩衝器容量於 1 0 1 2決定為足夠,則會於丨〇丨4記錄該特性支援狀態及緩衝 器容量。或另者,如該緩衝器容量於丨〇丨2決定為並不足
第16頁 200401970 五、發明說明(13) 夠,或是於1 0 08決定並未安裝該NVRAM緩衝器特性,則該節 點會按如參照於先前技藝之方式而運作。 圖11係一流程圖,說明一用以製作及清除本發明MRT内 之項目的方法11 0 0。該方法丨丨〇 〇說明一圖9之清除項目9 〇 6 步驟的特定具體實施例。該方法丨丨〇 〇開始於丨丨〇 2,而會搜 尋11 04該節點控制器MRT找出第一自由項目。在一具體S實施 例裡’會藉輸入該待予寫入之第一快取線組的開始邏輯區 塊位址,而於該節點控制器MRT製作丨丨〇 6 一項目。在此,會 依適當的NVRAM位址,藉由發出一WRITE BUFFER指令而在 11 0 8於該分旱磁碟匣MRT内令製一等同項目。然後會將朝向 此項目的MRT指標儲存11丨〇於節點控制的記憶體内。在一本 發明較佳具體實施例下,會將醫17^指令發出1112至〇丁内 之項目的邏輯碟機,而會在1114於MRT内尋得額外的快取 線組。 當決定111 4並未出現其他的快取線組時,就會繼續進 行典型的叢集作業111 6。或另者,當完成一快取線組寫入 作業111 8後,會清除掉該節點控制器内的個別項目丨丨2 〇。 在此,會藉由發出具適當NVRAM位址之WRITE BUFFER指令, 以於1122清除該分享磁碟匣MRT。在一替代性具體實施例 裡’ 5亥郎點控制器屬中斷驅動方式,而非經組態設定以等 待活動完成者。在一具體實施例裡,用以於MRT内清除項目 之WRITE BUFFER指令,包含發出一具有包含全為零值之寫 入資料的WRITE BUFFER指令。 現參照圖1 2,此圖係一流程圖,說明用以從本發明之
第17頁 200401970 五、發明說明(14) 分旱磁碟封包傳送一MRT區段的方法1 2〇〇。該方法1 2〇〇說明 圖9之擷取該分享磁碟封包MRt的步驟9〇 2特定具體實施例。 該方法1 2 00開始於12〇2,且將一MRT區段從該分享磁碟匣 MRT傳送1 204到該節點控制器MRT。在一本發明具體實施例 下,然後會於1 20 6發出一rEAD BUFFER指令,此者可標定在 預疋NVRAM緩衝器位移處的整個區段資料模式。然後在。 接收來自分享磁碟匣的資料,並將資料置放該 制器所配置之空間内。 控 本發明可按其他特定形 ^ ^ ^ ^ β 〜u八所具體貫作,而無虞悖離发 精神或關鍵特徵。從所右趨w — '、 ^ ^ ^ ^ J 有硯點而言,各所述具體實施例皆 應被視為僅屬說明性質非且Λ J白 广丄# & 1 . ^貝非具限制性。從而,本發明範圍自 應由後載之申請專利範圍所主1 , 目 祀固所表述,而非依前揭說明所限 設。所有歸屬該等申請專刺㈤ .^ k ^ 變化者,皆落涵於其範圍内。 ^
200401970 圖式簡單說明 為令獲致本發明優點及目的的 此將藉由參照於如隨附圖式所繪陳式可為明確易懂,在 例,俾顯析如前文所概要敘述之本t彼者特定具體實施 應瞭解該等圖式僅圖繪本發明之典發明進一步詳細說明。 不應被視為限制其範圍,可經運用、製具體實施例,而因此 定性與細節來描述及詮釋本發明,各隨附圖式而依額外特 圖1係一說明一先前技藝之節點其中匕 區塊略圖。 最木系統的具體實施例 圖2係一說明一先前技藝之獨 制器的具體實施例區塊略圖。 磁碟冗餘陣列(R A ID)控 圖3a係-說明-先前技藝之 施例區塊略圖。 隊肌賽表(MRT)的具體實 圖3 b係一說明一本發明之碟 施例區塊略圖。 ’、、所有權表(DOT)的具體實 圖4係一說明一本發明夕μ n 闰ςB日“月MRT的具體實施例區塊略圖。 圖5係一沉明一本發明> ςe τ # 1 — 月之SCSI接取容錯匣(SAF-TE)電子 硬體的具體貫施例區塊略圖。 圖6係一說明一本發明夕㈣τ μ奸Λ 〜明之MRT的特定具體實施例區塊略 圖。 圖7係一流程圖’此圖古穿明 L ^ ^ 1 _况明一本發明叢集系統内之不完 全寫入作業的可信賴容錯方法。 圖8係第一流程圖,士卜阁# Rg ^ ^ ^ Α }义 L 此圖祝明一稭運用本發明MRT以令 各邏輯碟機為一致之方法。 圖9係弟二流程圖,士卜阁% ^ 此圖5兄明一糟運用本發明MRT以令
200401970 圖式簡單說明 各邏輯碟機為一致之方法。
圖10係一流程圖,此圖說明一用以決定本發明SAF 匣之支援狀態的方法。 L &圖1 1係一流程圖,此圖說明一用以製作及清除本發明 MRT内之各項目的方法。 圖12係一流程圖,此圖說明一用以從本發明之SAF-TE S傳迗一MRT區段的方法。 102 節點叢集系統 106 叢集管理器 110 雙節點系統 114 RAID陣列 118 私屬網路纜線或互連 202 微處理器 圖式元件符號說明 100 叢集系統 104 網路集線器 108 客戶端 112 raid控制器 116 資料通道 120 區域網路(LAN) 204 SCSI控制器 206快閃唯讀記憶體(R0M)模組 Φ 208動態隨機存取記憶體(DRAM)模組 210非揮發性隨機存取記憶體(NVRAM)模組 3〇2 ^ ί ^ ^ , 214 鏡像競賽表(MRT) 302有效旗標位元 ii # ^ 306邏輯碟機編觫 01Λ 竹匕视位址 、r = 虎 310碟機所有權表 31 2 邏輯碟機編號縱行 矛 314所有權控制器序列編號縱行
II 第20頁 200401970
有效旗標位元縱行 保留縱行 400 404 500 502 506 508 512 514 516 604 鏡像競赛表(MRT) 402 邏輯區塊位址(LBA) 406
SAF-TE暫存器 CPU SCSIh存取容錯匣(SAF —TE) SCSI標的介面 504 狀態暫存器 508 可擦拭可程式化唯讀記憶體(EPR0M)模組 動態隨機存取記憶體(DRAM)模組 非揮發性隨機存取記憶體(NVRAM)模組 60 2有效旗標位元縱行 邏輯區塊位址(LBA) 60 6 保留縱行
第21頁

Claims (1)

  1. 200401970 六、申請專利範圍 1 · 一種具有可信賴容錯功能之裝置,,該裝置包含: 一複數個R A ID控制器,經組態設定以存取複數個分皇 磁碟; 一鏡像競賽表(MRT);以及 一共用MRT儲存位置,可為各別之該raid控制器所存 取0 2 ·如申請專利範圍第1項之裝置,其中該共用MRT儲存位置 包含一非揮發性存取記憶體(NVRAM)模組。 3·如申請專利範圍第1項之裝置,其中進一步包含一含有一 SCSI存取容錯匣(SAF-TE)的分享磁碟匣。 4·如申請專利範圍第1項之裝置,其中進一步包含一MRT搜 尋模組,此者經組態設定以對MRT搜尋第一自由項目。 5.如申請專利範圍第4項之裝置,其中該MRT搜尋係經組態 設定以從頭到尾搜尋該MRT。 6·如申請專利範圍第1項之裝置,其中進一步包含一MRT項 目項目模組(MRT entry module ),此者經組態設定以藉 由輸入待寫入於該等複數個分享磁碟上之第一快取線組的 邏輯區塊位址(LBA) ’以於該内產生一項目。
    第22頁 200401970 六、申請專利範圍 7·如申清專利範圍第1項之裝置,其中進一步包含一MRT指 標模組’此者經組態設定以儲存該項目之MRT指標。 8·如申請專利範圍第1項之裝置,其中進一步包含一MRT擷 取模組’此者經組態設定以尋得並擷取該項目的MRT指標。 9·如申請專利範圍第1項之裝置,其中進一步包含一讀 取模組’此者經組態設定以能夠在一節點載入或叢集失效 後’於該磁碟上定位該資料之快取線組以供一致性復原。 10·如申明專利範圍第1項之裝置,其中進一步包含一 Mrt清 除模組’此者經組態設定以尋得並從該MRT清除該項目。 11·如申請專利範圍第1項之裝置,其中進一步包含一MRT傳 送模組,此者經組態設定以將該MRT從一分享磁碟匣傳送到 至少一RAID控制器。 1 2 · —種用於可信賴容錯功能之方法,該方法包含: 存取具複數個R A I D控制器之複數個分享磁碟; 丨® 更新一鏡像競赛表(MRT);以及 提供一共用MRT儲存位置,可為各個該等以11}控制器所 存取。 1 3 ·如申請專利範圍第1 2項之方法,其中建立一共用μ R T儲
    第23頁 200401970 六、申請專利範圍 存位置進一步包含在一分享磁碟匣内建立一共用MRT儲存位 置。 1 4 ·如申請專利範圍第1 2項之方法,其中進一步包含: 存取該MRT ; 從該共用MRT儲存位置更新該MRT ; 偵測至少一 R A I D控制器之一失效問題;以及 可信賴地分配該既已失效之R A I D控制器的工作負載。 1 5 ·如申請專利範圍第1 2項之方法,其中進一步包含提供一 含有一 SCSI接取容錯匣匣(SAF-ΤΕ)的分享磁碟匣。 1 β ·如申凊專利範圍弟1 2項之方法,其中進一步包含對μ r τ 搜尋第一自由項目。 1 7·如申請專利範圍第1 4項之方法,其中搜尋該進一步 包含從頭到尾搜尋該MRT。 1 8 ·如申請專利範圍第1 2項之方法,其中進一步包含藉由輸· 入待寫入於S專複數個分旱磁碟上之第一快取線組的邏輯’ 區塊位址(LBA),以於該MRT内產生一項目。 1 9 ·如申請專利範圍第1 2項之方法,其中進一步包含儲存琴 項目之MRT指標。 ~
    200401970
    六、申請專利範圍 20·如申請專利範圍第1 2項之方法,其中進一步包人君〜、, 擷取該項目的MRT指標。 s ♦传亚 2 1 ·如申請專利範圍第1 2項之方法,其中進一步包含者 要時’讀取該MRT項目以定位該資料之快取線έ 田必 涑、、且而供一致性 22·如申請專利範圍第丨2項之方法,其中進一步 f〜、 從該MRT清除該項目。 3哥得並 23·如申請專利範圍第12項之方法,其中進一 wnrp ηκ . ^ / 0 S 將該 MRT攸一分旱磁碟匣傳送到至少一 r a ID控制器。 24· —種用於可信賴容錯功能之方法,該方法包含: 提供複數個分享磁碟; 提供複數個RAID控制器; 提供一鏡像競賽表(MRT);
    建立一共用MRT儲存位置,可為各個該以1〇控制器接 取; 接取該MRT ; 更新該MRT ; 偵測至少一 R A I D控制器之失效; 分配該失效R A I D控制器的工作負載·
    第25頁 200401970 六、申請專利範圍 對MRT搜尋第一自由項目; 藉由輸入待寫入於該等複數個分享磁碟上之第一快取 線組的邏輯區塊位址(LBA),以於該霞τ内產生一項目; 儲存該項目之MRT指標; 哥得並操取該項目的M R T指標; 讀取該M R Τ項目以定位該資料而供一致性復原; 將该M R Τ從一分旱磁碟封包傳送到至少一 r a I ^控制器; 以及 工时’ 執行不完全寫入作業。 25. —種供以可信賴容錯性能之系統,該系統包含: 複數個分享磁碟; 複數個RAID控制器; 一鏡像競赛表(MRT);以及 一共用MRT儲存位置,可為各個該RAID控制器存取, 該共用MRT儲存位置包含一非揮發性隨機存取記 (NVRAM)模組。 心 了裝置,用以存取具複數個RAID控制器的複數個分享 26· —種供以可信賴容錯性能之裝置,該裝置包含 磁碟; 一裝置,用以更新一鏡像競赛表(MRT); 一裝置,用以存取該MRT ;以及 一裝置,用以儲存一共用MRT,使得該共用MRT可為各
    第26頁 200401970 六、申請專利範圍 個該RAID控制器所存取。 第27頁
TW092119514A 2002-07-26 2003-07-17 Method and apparatus for reliable failover involving incomplete raid disk writes in a clustering system TWI239444B (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/205,769 US7069465B2 (en) 2002-07-26 2002-07-26 Method and apparatus for reliable failover involving incomplete raid disk writes in a clustering system

Publications (2)

Publication Number Publication Date
TW200401970A true TW200401970A (en) 2004-02-01
TWI239444B TWI239444B (en) 2005-09-11

Family

ID=30770148

Family Applications (1)

Application Number Title Priority Date Filing Date
TW092119514A TWI239444B (en) 2002-07-26 2003-07-17 Method and apparatus for reliable failover involving incomplete raid disk writes in a clustering system

Country Status (3)

Country Link
US (1) US7069465B2 (zh)
CN (1) CN1234071C (zh)
TW (1) TWI239444B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI416318B (zh) * 2005-12-13 2013-11-21 Ibm 在鏡像系統中管理失敗之方法、系統和設備

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9009427B2 (en) * 2001-12-26 2015-04-14 Cisco Technology, Inc. Mirroring mechanisms for storage area networks and network based virtualization
JP3944449B2 (ja) * 2002-12-19 2007-07-11 株式会社日立製作所 計算機システム、磁気ディスク装置、および、ディスクキャッシュ制御方法
US6957288B2 (en) * 2003-02-19 2005-10-18 Dell Products L.P. Embedded control and monitoring of hard disk drives in an information handling system
US7593996B2 (en) * 2003-07-18 2009-09-22 Netapp, Inc. System and method for establishing a peer connection using reliable RDMA primitives
US7716323B2 (en) * 2003-07-18 2010-05-11 Netapp, Inc. System and method for reliable peer communication in a clustered storage system
US20050278476A1 (en) * 2004-06-10 2005-12-15 Xiotech Corporation Method, apparatus and program storage device for keeping track of writes in progress on multiple controllers during resynchronization of RAID stripes on failover
JP2006285803A (ja) * 2005-04-04 2006-10-19 Sony Corp データ記憶装置、再構築制御装置、再構築制御方法、プログラム及び記憶媒体
JP2006285889A (ja) * 2005-04-05 2006-10-19 Sony Corp データ記憶装置、再構築制御装置、再構築制御方法、プログラム及び記憶媒体
US20070022250A1 (en) * 2005-07-19 2007-01-25 International Business Machines Corporation System and method of responding to a cache read error with a temporary cache directory column delete
US7549079B2 (en) * 2005-11-30 2009-06-16 Oracle International Corporation System and method of configuring a database system with replicated data and automatic failover and recovery
US7599967B2 (en) * 2007-03-20 2009-10-06 Oracle International Corporation No data loss system with reduced commit latency
US7870417B2 (en) * 2007-04-20 2011-01-11 International Business Machines Corporation Apparatus, system, and method for adapter card failover
US20090300282A1 (en) * 2008-05-30 2009-12-03 Promise Technology, Inc. Redundant array of independent disks write recovery system
US8688798B1 (en) 2009-04-03 2014-04-01 Netapp, Inc. System and method for a shared write address protocol over a remote direct memory access connection
CN101571820B (zh) * 2009-05-27 2012-07-04 成都市华为赛门铁克科技有限公司 一种冗余保护方法、装置及系统
US8364905B2 (en) 2010-08-16 2013-01-29 Hewlett-Packard Development Company, L.P. Storage system with middle-way logical volume
CN101980137B (zh) * 2010-10-19 2012-05-30 成都市华为赛门铁克科技有限公司 廉价磁盘冗余阵列重构方法、装置及系统
CN102419697B (zh) * 2011-11-02 2013-12-18 华中科技大学 垂直raid-6编码中单盘重构的方法
JP2013117922A (ja) * 2011-12-05 2013-06-13 Buffalo Inc ディスクシステム、データ保持装置、及びディスクデバイス
CN102722461B (zh) * 2012-05-07 2016-03-30 加弘科技咨询(上海)有限公司 存储管理系统的数据通信系统及通信方法
CN103942112B (zh) * 2013-01-22 2018-06-15 深圳市腾讯计算机系统有限公司 磁盘容错方法、装置及系统
US9262286B2 (en) * 2013-11-19 2016-02-16 International Business Machines Corporation Failover in a data center that includes a multi-density server
CN103647804B (zh) * 2013-11-22 2017-04-26 华为技术有限公司 一种存储单元的数据处理方法、设备及系统
US9853873B2 (en) 2015-01-10 2017-12-26 Cisco Technology, Inc. Diagnosis and throughput measurement of fibre channel ports in a storage area network environment
US9900250B2 (en) 2015-03-26 2018-02-20 Cisco Technology, Inc. Scalable handling of BGP route information in VXLAN with EVPN control plane
US9563522B2 (en) 2015-03-31 2017-02-07 Oracle International Corporation Data recovery for a relational database management system instance in a heterogeneous database system
US9703634B2 (en) * 2015-03-31 2017-07-11 Oracle International Corporation Data recovery for a compute node in a heterogeneous database system
US10222986B2 (en) 2015-05-15 2019-03-05 Cisco Technology, Inc. Tenant-level sharding of disks with tenant-specific storage modules to enable policies per tenant in a distributed storage system
US11588783B2 (en) 2015-06-10 2023-02-21 Cisco Technology, Inc. Techniques for implementing IPV6-based distributed storage space
US10778765B2 (en) 2015-07-15 2020-09-15 Cisco Technology, Inc. Bid/ask protocol in scale-out NVMe storage
US9892075B2 (en) 2015-12-10 2018-02-13 Cisco Technology, Inc. Policy driven storage in a microserver computing environment
US10140172B2 (en) 2016-05-18 2018-11-27 Cisco Technology, Inc. Network-aware storage repairs
US20170351639A1 (en) 2016-06-06 2017-12-07 Cisco Technology, Inc. Remote memory access using memory mapped addressing among multiple compute nodes
US10664169B2 (en) 2016-06-24 2020-05-26 Cisco Technology, Inc. Performance of object storage system by reconfiguring storage devices based on latency that includes identifying a number of fragments that has a particular storage device as its primary storage device and another number of fragments that has said particular storage device as its replica storage device
US11563695B2 (en) 2016-08-29 2023-01-24 Cisco Technology, Inc. Queue protection using a shared global memory reserve
US10545914B2 (en) 2017-01-17 2020-01-28 Cisco Technology, Inc. Distributed object storage
US10243823B1 (en) 2017-02-24 2019-03-26 Cisco Technology, Inc. Techniques for using frame deep loopback capabilities for extended link diagnostics in fibre channel storage area networks
US10713203B2 (en) 2017-02-28 2020-07-14 Cisco Technology, Inc. Dynamic partition of PCIe disk arrays based on software configuration / policy distribution
US10254991B2 (en) 2017-03-06 2019-04-09 Cisco Technology, Inc. Storage area network based extended I/O metrics computation for deep insight into application performance
US10303534B2 (en) 2017-07-20 2019-05-28 Cisco Technology, Inc. System and method for self-healing of application centric infrastructure fabric memory
US10404596B2 (en) 2017-10-03 2019-09-03 Cisco Technology, Inc. Dynamic route profile storage in a hardware trie routing table
US10942666B2 (en) 2017-10-13 2021-03-09 Cisco Technology, Inc. Using network device replication in distributed storage clusters
US10776267B2 (en) 2017-12-11 2020-09-15 Red Hat, Inc. Mirrored byte addressable storage
CN108874312B (zh) * 2018-05-30 2021-09-17 郑州云海信息技术有限公司 数据存储方法以及存储设备
US11188516B2 (en) 2018-08-24 2021-11-30 Oracle International Corproation Providing consistent database recovery after database failure for distributed databases with non-durable storage leveraging background synchronization point

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5269019A (en) * 1991-04-08 1993-12-07 Storage Technology Corporation Non-volatile memory storage and bilevel index structure for fast retrieval of modified records of a disk track
US5680570A (en) * 1991-06-12 1997-10-21 Quantum Corporation Memory system with dynamically allocatable non-volatile storage capability
US5301297A (en) * 1991-07-03 1994-04-05 Ibm Corp. (International Business Machines Corp.) Method and means for managing RAID 5 DASD arrays having RAID DASD arrays as logical devices thereof
JP2888401B2 (ja) * 1992-08-03 1999-05-10 インターナショナル・ビジネス・マシーンズ・コーポレイション 冗長ディスクドライブアレイに対する同期方法
US5416915A (en) * 1992-12-11 1995-05-16 International Business Machines Corporation Method and system for minimizing seek affinity and enhancing write sensitivity in a DASD array
US5579474A (en) * 1992-12-28 1996-11-26 Hitachi, Ltd. Disk array system and its control method
US5432922A (en) * 1993-08-23 1995-07-11 International Business Machines Corporation Digital storage system and method having alternating deferred updating of mirrored storage disks
EP0721162A2 (en) * 1995-01-06 1996-07-10 Hewlett-Packard Company Mirrored memory dual controller disk storage system
US5757642A (en) * 1995-01-20 1998-05-26 Dell Usa L.P. Multi-function server input/output subsystem and method
US5778411A (en) * 1995-05-16 1998-07-07 Symbios, Inc. Method for virtual to physical mapping in a mapped compressed virtual storage subsystem
JPH1153235A (ja) * 1997-08-08 1999-02-26 Toshiba Corp ディスク記憶装置のデータ更新方法、ならびにディスク記憶制御システム
US6381674B2 (en) * 1997-09-30 2002-04-30 Lsi Logic Corporation Method and apparatus for providing centralized intelligent cache between multiple data controlling elements
JP3404289B2 (ja) * 1998-05-22 2003-05-06 富士通株式会社 ディスク制御装置及びその制御方法
US6163856A (en) * 1998-05-29 2000-12-19 Sun Microsystems, Inc. Method and apparatus for file system disaster recovery
US6230240B1 (en) * 1998-06-23 2001-05-08 Hewlett-Packard Company Storage management system and auto-RAID transaction manager for coherent memory map across hot plug interface
US6260124B1 (en) * 1998-08-13 2001-07-10 International Business Machines Corporation System and method for dynamically resynchronizing backup data
US6519677B1 (en) * 1999-04-20 2003-02-11 International Business Machines Corporation Managing access to shared data in data processing networks
US6766430B2 (en) * 2000-07-06 2004-07-20 Hitachi, Ltd. Data reallocation among storage systems
US6678787B2 (en) * 2000-12-21 2004-01-13 International Business Machines Corporation DASD-free non-volatile updates
US6721870B1 (en) * 2001-06-12 2004-04-13 Emc Corporation Prefetch algorithm for short sequences
US6973549B1 (en) * 2001-12-10 2005-12-06 Incipient, Inc. Locking technique for control and synchronization
US6820180B2 (en) * 2002-04-04 2004-11-16 International Business Machines Corporation Apparatus and method of cascading backup logical volume mirrors

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI416318B (zh) * 2005-12-13 2013-11-21 Ibm 在鏡像系統中管理失敗之方法、系統和設備

Also Published As

Publication number Publication date
TWI239444B (en) 2005-09-11
US20040019821A1 (en) 2004-01-29
CN1234071C (zh) 2005-12-28
CN1480843A (zh) 2004-03-10
US7069465B2 (en) 2006-06-27

Similar Documents

Publication Publication Date Title
TW200401970A (en) Method and apparatus for reliable failover involving incomplete raid disk writes in a clustering system
JP4791051B2 (ja) 任意数のバックアップ・コンポーネント用のシステム・アーキテクチャのための方法、システム、およびコンピュータ・プログラム
JP3149325B2 (ja) 災害復旧機能を提供するために整合性グループを形成する方法および関連するシステム
JP6344798B2 (ja) データ送信方法、データ受信方法、及びストレージデバイス
US7631157B2 (en) Offsite management using disk based tape library and vault system
US9830088B2 (en) Optimized read access to shared data via monitoring of mirroring operations
US8381029B2 (en) Processing method, storage system, information processing apparatus, and computer-readable storage medium storing program
US20120144110A1 (en) Methods and structure for storage migration using storage array managed server agents
CN100524235C (zh) 存储网络中的恢复操作
US9471449B2 (en) Performing mirroring of a logical storage unit
US9773012B2 (en) Updating map structures in an object storage system
JPH07239799A (ja) 遠隔データ・シャドーイングを提供する方法および遠隔データ二重化システム
TW201019100A (en) Active-active failover for a direct-attached storage system
JP2002229837A (ja) 共有ディスク・パラレル・データ・ファイル内のデータに対するアクセスを制御する方法
US6446220B1 (en) Updating data and parity data with and without read caches
JP4398464B2 (ja) 1つのターゲット・ボリュームと1つのソース・ボリュームとの間のポイント・イン・タイム・コピー関連性を管理するためのシステム、方法、及びプログラム
JP2009064363A (ja) ストレージ装置及びそのデータ検証方法
JP6133396B2 (ja) 計算機システム、サーバ、及び、データ管理方法
JP6652647B2 (ja) ストレージシステム
WO2023207492A1 (zh) 一种数据处理方法、装置、设备及可读存储介质
US7529776B2 (en) Multiple copy track stage recovery in a data storage system
JP6277878B2 (ja) ストレージ装置の制御装置、ストレージ装置の制御方法及びストレージ装置の制御プログラム
US20140040349A1 (en) Server computer, server computer system, and server computer control method
TWI522805B (zh) 用來於一儲存系統中進行快取管理之方法與裝置
CN102457547A (zh) 多控制器的储存区域网络设备的升级方法

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees