TW200907701A - Fault recovery on a parallel computer system with a torus network - Google Patents

Fault recovery on a parallel computer system with a torus network Download PDF

Info

Publication number
TW200907701A
TW200907701A TW097113659A TW97113659A TW200907701A TW 200907701 A TW200907701 A TW 200907701A TW 097113659 A TW097113659 A TW 097113659A TW 97113659 A TW97113659 A TW 97113659A TW 200907701 A TW200907701 A TW 200907701A
Authority
TW
Taiwan
Prior art keywords
node
network
computer system
cut
ring network
Prior art date
Application number
TW097113659A
Other languages
English (en)
Inventor
David L Darrington
Patrick Joseph Mccarthy
Amanda Peters
Albert Sidelnik
Original Assignee
Ibm
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ibm filed Critical Ibm
Publication of TW200907701A publication Critical patent/TW200907701A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2002Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
    • G06F11/2007Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication media
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • G06F15/163Interprocessor communication
    • G06F15/173Interprocessor communication using an interconnection network, e.g. matrix, shuffle, pyramid, star, snowflake
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Multi Processors (AREA)
  • Hardware Redundancy (AREA)

Description

200907701 九、發明說明: 【發明所屬之技術領域】 ,且更特 環形網路 本發明大體係關於平行計算系統中之缺陷回復 定言之係關於一種用於在大量平行超級電腦中自 的故障部分之缺陷回復的裝置。 【先前技術】 有效缺陷回復係重要的,以減少複雜電腦系統之停機時 間及修理成本。在具有大量計算節點之平行電腦系統上, 單-組件之故障可能引起電狀大科停止執行而進行修 理0 大量平行電腦系統為一個類型之具有大量互連計算節點 之平行電腦系統。此等大量平行電腦之家族由國際商業機 器公司(IBM)以名稱Blue Gene(藍色基因)而開發。扪此 Gene/L系統為計算節點之當前最大數目為65,536之可擴充 系統。Blue Gene/L節點由具有2個CPU及記憶體之單一 ASIC(特殊應用積體電路)組成。整個電腦收納於每一托架 中具有32個節點板之64個托架或機櫃中。
Blue Gene/L超級電腦經由若干通信網路進行通信。 65,536個計算節點配置於邏輯樹狀網路及三維環形網路二 者中。邏輯樹狀網路連接樹狀結構中之計算節點,以使得 每一節點與一母或一或兩個子進行通信。環形網路在允許 每一計算節點與電腦之一區段中其最接近之6個相鄰者進 行通k之二維晶格狀結構中邏輯地連接計算節點。由於計 算節點配置於要求與鄰近節點進行通信之環形及樹狀網路 I30I45.doc 200907701 I ’故單—節點之硬體故障可^起系統之大部分停止直至 2陷硬體可經修理為止。舉例而言,單-節點故障或網 連接可在電腦系統之分龍中使得環形網路之—個維度 =:操作。此外,指派給故障之分割區之所有硬體可能亦 需要停止執行直至故障經校正為止。 Γ 在具有環形網路之先前技術系統上,單—節點或網路連 常常要求電腦停止執行而進行修理。當環形網路 =生故障時’㈣儘可能快且有效地克服故障係有利的。 在無更加有效地克服環形網路故障之方式的情況下,平行 浪費潛在電腦處理時間且增加操作及維護 【發明内容】 2據較佳!施例’描述一種用於在平行電腦系統中克服 :跋Γ路故11 早之裝置及方法。電腦系統之服務節點中之網 =網路。網格路由機制利用每一節點中之 陷節點或網路連接。 个芽過有缺 置ΙΓί揭示㈣針對Blue Gene架構,但擴展至具有配 置於網路結構巾之多個處理 節點硬體處置來自其他節點之切入訊務系統’其中 見=其:特徵及優點將自以τ更特定描述而顯而易 見,如在隨附圖式中所說明。 匆 【實施方式】 130145.doc 200907701 將’。σ所附圖式描述本揭不案,其中相似名稱表示相似 元件。 本文之揭示案及申請專利範圍係針對用於在平行電腦系 統中克服環形網路故障之裝置及方法。電腦系統之服務節 點中之網格路由機制在每一節點中使用切斷暫存器將節點 自環形網路組態為網格網路,以路由節點至節點資料轉移 繞過有缺陷節點或網路連接。將關於由國際商業機器公司 (IBM)開發之mue Gene/L大量平行電腦描述較佳實施例。 圖1展示表示諸如Blue Gene/L電腦系統之大量平行電腦 系統1〇〇之方塊圖。Bhie Gene/L系統為計算節點之最大數 目為65,536之可擴充系統。每一節點11〇具有特殊應用積 體電路(ASIC)112,亦稱為Blue Gene/L計算晶片112,其併 有兩個處理器或中央處理器單元(cpu)。節點通常亦具有 512個百萬位元組之區域記憶體(未圖示)。用於兩個節點之 計算晶片及記憶體安裝於節點計算卡114上。節點板12〇容 納16個各自具有兩個節點11〇之節點計算卡114。因此,每 一節點板具有32個節點,2個處理器用於每一節點,且相 關聯之s己憶體用於每一處理器。托架13〇為含有32個連接 至兩個中平面132中之節點板12〇的外殼。節點板12〇中之 每一者以一中平面連接器134連接入中平面印刷電路板 132。中平面132在托架内部且未在圖i中展示。整個Biue Gene/L電腦系統將被收納於每一者中具有32個節點板之64 個托架130或機櫃中。整個系統接著將具有65,536個節點 及13 1,072個CPU(64個托架X w個節點板x32個節點心個 130145.doc 200907701 CPU)。 B/ue Gene/L電腦系統結構可描述為具有I/〇節點表面之 計算節點核心,其中至1〇24個計算節點11〇之通信由具有 連接々至服務節點140的1/〇處理器17〇之每一 ι/〇節點處置。 I/O郎點不具有區域儲存器。1/〇節點經由邏輯樹狀網路連 接至計异節點且亦具有經由功能網路(未圖示)之功能廣域 . 網路能力。功能網路連接至位於節點板120上之處置自服 務節點uo至多個節點的通信之1/〇處理器(或mue 〇 鍵路晶片)170。Blue Gene/L系統在連接至節點板120之1/〇 板(未圖不)上具有一或多個1/〇處理器17〇。1/〇處理器可經 組態以與8個、32個或64個節點進行通信。除了1/〇節點不 連接至環形網路,至1/〇節點之連接類似於至計算節點之 連接。 ’ 再次參看圖1,電腦系統1〇〇包括以軟體處置節點的加載 且控制整個系統之操作的服務節點14〇。服務節點Μ。通常 為諸如以控制台(未圖示)執行Linux之IBM p系列伺服器的 微型電腦系統。服務節點14〇以控制系統網路15〇連接至計 算節點110之托架130。控制系統網路提供針對Blue Ge此几 系統之控制、測試及提昇基礎結構。控制系統網路包 括為大畺平行電腦系統提供必要通信之各種網路介面。下 文進一步描述網路介面。 服務節點140管理專用於系統管理之控制系統網路15〇。 控制系統網路150包括連接至Id〇晶片18〇的私用1〇〇_Mb/s 乙太網路’ Ido晶片180位於節點板12〇上處置自服務節點 130145.doc 200907701 140至多個節點的通信。由於此網路使用JTAG協定進行通 故有時稱其為JTAG網路。節點板120上之計算節點 110之所有控制、測試及提昇係經由與服務節點進行通信 之JTAG埠而支配。另外,服務節點14〇包括當環形網路中 存在故障時將環形網路組態為網格網路之網格路由機制 142。網格路由機制向節點中之切斷暫存器指派值以將節 點訊務路由繞過環形網路中之缺陷。網格路由機制142包 含在服務節點140中之軟體,但可能由在系統之節點上執 行之作業系統軟體協助。
Blue Gene/L超級電腦經由若干通信網路進行通信。圖2 展不方塊圖,其展示mue (^加几電腦系統上計算節點之 I/O連接。65,536個計算節點及1〇24個1/〇處理器17〇配置於 邏輯樹狀網路及邏輯三維環形網路二者中。環形網路在允 許每一計算節點110與其最接近之6個相鄰者進行通信之晶 格狀結構令邏輯地連接計算節點。在圖2中,由將節點連 接至六個各別鄰近節點之χ+、χ_、γ+、γ_、Z+及^網路 連接說明環形網路。樹狀網路在圖2中由樹〇、樹丨及樹2連 接表示《連接至節點之其他通信網路包括網路及總 體中斷網路。J T A G ·網路提供用於經由圖i中所示之控制: 統網路150來自服務節點14〇之測試及控制的通信。總體中 斷網路用以針對計算節點上類似處理之同步而實施軟體障 壁以在完成某任務後即移動至處理之不同階段。總體中斷 網路可因此用以啟動、停止及暫停在節點之分龍上執行 之應用程式。此外’存在至每一計算節點ιι〇之時脈及功 130145.doc •10- 200907701 率信號。
Blue Gene/L環形網路在邏輯3D笛卡爾陣列中將每一節 點連接至其六個最近之相鄰者(χ+、χ_、Y+、γ_、z+、 Ζ-)。至該六個相鄰者之連接在節點層及在中平面層處完 成。每一中平面為8x8x8節點之陣列。中平面中節點陣列 之六個面(Χ+、X-、Υ+、γ·、ζ+、ζ_)尺寸上各自為 8x8=64個節點。來自六個面中之每一者上的以個節點之每 一環形網路信號經由連接至中平面的鏈路卡(未圖示)通信 至鄰近中平面中之相應節點。當中平面用於在任何維度中 具有一個中平面之深度的分割區中時,每一面之信號亦可 路由回至在相對面上之同一中平面的輸入。 圖3說明根據先前技術之Blue Gene/L電腦系統中計算節 點11〇之方塊圖。計算節點110具有節點計算晶片112,節 點計算晶片112具有兩個處理單元3 1〇A、3 1〇B。每一處理 單元310具有一處理核心312。處理單元31〇連接至層次三 記憶體快取記憶體(L3快取記憶體)32〇,且至靜態隨機存 取e憶體(SRAM)記憶體組330。來自L3快取記憶體320之 資料借助於雙資料速率(DDR)記憶體控制器35〇加載至ddr 同步動態隨機存取記憶體(SDRAM)340之組。 再次參看圖3,SRAM記憶體330連接至通信離開計算晶 片112至Id〇晶片i 80之JTAG介面36〇。服務節點經由乙太網 路鏈路通過Ho晶片U0與計算節點進行通信,該乙太網路 鏈路為控制系統網路150(上文參看圖丨描述)之部分。在 Blue Gene/L系統中,每一節點板12〇存在一個μ〇晶片,且 130145.doc 200907701 其他在每一中平面13 2(圖1)中之板上。ido晶片使用原始 UDP封包經由可信賴之私用100 Mbit/s乙太網路控制網路 接收來自服務郎點之命令。Ido晶片支援用於與計算節點 之通信之多種系列協定。JTAG協定用於自服務節點14〇(圖 1)向計算節點110中SRAM 330之任何位址進行讀及寫且用 於系統初始化及引導(booting)處理。 說明於圖3中之節點計算晶片112進一步包括網路硬體 390。網路硬體390包括用於環392、樹394及總體中斷396 Γ
網路之硬體。Blue Gene/L之此等網路用於計算節點11〇以 如上文簡要描述而與系統中之其他節點進行通信。網路硬 體390允許計算節點經由環形網路接收且傳遞資料封包。 網路硬體39〇獨立地處置網路資料訊務,因此計算節點之 處理器不承受由在環形網路上流動之資料的量所引起之 擔。 、 如圖3中所說明,SRAM 33〇包括個人專用器件335。在 引導處理期間’服務節點儲存對於個人專用器件中之個別 節點為特定之資訊。個人專用器件包括用於係環形網路硬 體”2之部分的χ_、χ+、γ_、γ+、乙及z+切斷暫存器軌 ^資料336(下文更多描述)。當節點經初始化時,初始化 ^使用個人專用器件335中之切斷資料说來組態切斷暫 =。服務節點可改變χ、γ、ζ切斷資料说且導引節 點來更新切斷暫存乂 哭脸存器398在先别技術卜使用切斷暫存 加人^網路改變為對於—些類型之電腦應用程式而言更 口口、之網格網路。切斷暫存器之先前技術特徵由網格路 130145.doc -12- 200907701 由機制142(圖1)以—#1 新穎方式使用以克服如下文進一步描 述之節點故障或網路缺陷。 圖4說明bG/L電腦系 于、既之中千面132。如上文所述,節 =母—托架分為兩個中平面。中平面中之每—者連接至 ^ 如由來自中平面132之每一面的箭頭所 曰不、’、個鄰近之相鄰者。除各自具有32個BG/L計算節點 —個即點卡之外,對每中平面總共Μ個鍵路晶片而言, :一中平面含有四個鏈路卡41〇,每一鍵路卡上具有六個 鍵路晶片51G(未圖示)。在_平面邊界處,所有職網路 通過鏈路晶片。鏈路晶片供應兩個功能。首先,其經由中 平面之間的電纜重新驅動信號,在不同中平面上之計算 A^C之間的長有損耗迹線_電規_迹線連接之中間復原高速 W形狀及振幅。第二’鏈路晶片可在其不同璋之間重定 向信號。&重定向功能允許BG/L經分割為多個邏輯上獨立 之系統。 再次參看圖4,每一中平面在環形網路上與其㈣相鄰中 平面進行通信。至6個鄰近中平面之連接由其關於中平面 之笛卡爾座標指定且因此如所展示而位於χ+、χ_、γ+、 Υ-、Ζ+及Ζ-方向上。另夕卜,在χ軸中存在稱為乂分裂電纖 之額外連接集合(未圖示)。χ分裂電纜包括χ+分裂電纜及 X-分裂電規。X分裂電蜆藉由提供用於在χ維度中連接環 形網路之額外路由而提供—增強分割功能性之方式。在 BG/L系統中,鏈路卡且有彡接白 _ ^ /韦又搔自一個中平面路由環形網路 信號至下-個中平面之多個鍵路晶片(未圖示)。此路由在 -η· 130145.doc 200907701 建立刀割區時由主機設定且為靜態的,直至另一分割區經 建立或者重組態為止。每—鏈路晶片璋支援η個差動對 (16個資料信f虎,防止無動力晶片由來自電纜之另一端之 驅動器輸出驅動之感測信號,備用信I ’同位信號及兩個 非同步總體中斷信號)。 BG/L%形互連要求節點在邏輯3D笛卡爾陣列中經連接 至其六個最靠近之相鄰者(χ+、χ_、γ+、γ_、z+、Z_)。 至忒7個相姊者之連接在節點層及在中平面層處完成。每 中平面為8 X 8 X 8節點陣列。中平面中節點陣列之六個面 (X+、X_、Y+、Y·、Z+、Z_)尺寸上各自為 8x8=64 個節 點。來自六個面中之每一者上的64個節點之每一環形網路 信號經由鏈路晶片通信至鄰近中平面中之相應節點。當中 平面用於在任何維度中具有__個中平面之深度的分割區中 時,每一面之信號亦可路由回至在相對面上之同—中平面 的輸入。每一鏈路晶片埠供應使用21對資料信號通過每一 埠進入或退出中平面之16個單向環形鏈路。由每一埠上具 有16個資料信號之每一鏈路晶片具兩個埠的24個鏈路晶片 供應每一中平面。因此,具64個節點之六個面需要由每一 埠支援16個資科信號之24個鏈路晶片上的2個埠所供應之 384個輸入及384個輸出資料信號(16χ24 = 384個用於輸入且 384個用於輸出)。 圖5說明具諸如Blue Gene/L電腦系統之大量平行電腦系 統的中平面512A至512P之配置於X維度中的分割區中之托 架510A至5 10H的集合500。托架510A至51〇H中之每一者表 130145.doc •14- 200907701 示如圖1中展示之托架130且中平面512A至512P中之每一者 為亦展示於圖1中之中平面132。每一中平面5 12A至51 0P經 配置以連接節點為8 X 8 X 8環,其中環之座標為X、γ及z。 由於每一托架之兩個中平面配置於Z維度中,故每一托架 配置於8x8x16環中。第一托架510A為托架〇(R〇)且具有兩 個中平面R00 512及R01 514。類似地,托架R1具有兩個中 平面尺10 521(:及1111512〇。在托架112至托架117中剩餘中 平面5 12C-5 1 2P類似地編號為R20至R7 1。在所說明之分割 區中,X電纜520在X維度中連接8個托架且γ及z維度捲繞 於單一中平面中’從而意謂Y及Z維度中之托架的面上之 希點連接回至同一托架的相對面上之節點以使環完整。X 刀裂電纜在此實例中未展示。因此,圖5中展示之分割為 128x8x8環。可見X維度電纜52〇藉由遵循χ電纜至托架中 且接著離開托架至下一托架之方向而以r〇、Rl、R3、 R5、R7、R6、R4、R2之次序連接托架。 圖6說明在諸如BiUe Gene/L電腦系統之大量平行電腦系 統的分割區中由環形網路612連接之節點110的集合6〇〇。 圖6展示在圖5中展示之系統中連接於環中之節點的邏輯表 不。節點之數目可如由最後的節點614中之可變數N所說明 視包括於分割區中之托架的數目而變化。在本文之說明 中,X+維度為自左至右,且χ_維度為自右至左。圖6中展 不之邏輯表示僅表示配置於χ維度中之節點。環形網路之 其他維度以相同方式配置。上文描述之網格路由機制M2 可將圖6中展示之環形網路變換為網格網路,其本質上係 130145.doc •15- 200907701 斷開環,或係-或多個維度中之節點之線性連接的網路。 網格路由機制142可藉由路由所有 力艰开)訊務遠離缺陷而* 服節點中或節點之間的連接中之缺陷。 對於環中每一方向(x+、x_、γ+ _ r , , ζ+、ζ_)而言, 母即點中存在如上文參看圖3討論之Μ盔+77 _ + ^ M ^ ^ _之稱為切斷暫存器398 之特殊暫存器。網格路由機制使用切斷暫存器告知節點如 何路由網路訊務來路由網路資料訊 i車蛀由+ α ^ 竹阳不穿過卽點或網路 Ο
Cj :中之缺I如下文所描述向切斷暫存器指派一 =網路上路由資料而不穿過引起環形網路之故障 ^郎點或網路。在先前技術中’藉由設定Χ+維度中之切斷 為Χ維度中節點之數目及χ_ 铜捻^ , 又中之切斷為〇將環程式化為 料。對比而言,本文揭示之網格路由機制設定切斷暫存 益/使得任何故障節點及/或網路自環消除 剩餘之網格網路。 J ~用 藉由平行電胳系統之故障偵測 ..,θ ω , Α Μ及軟體為網格路由機 制k供故障節點或網路之位 網格路由機制接著判定如 何指派切斷暫存器以經由斷 m暗〜 辦開環(網格網路)路由資料而不 % ^ ^ ^ 接下文描述如何指派切 斷暫存益之實例。切斷暫存薄夕枯位#儿 值接者作為切斷資料加載 入如上文參看圖3所描述的 經會㈣即點之個人專用器件。當節點 ,攻重扠時,卽點重設軟體接著 件之切斷資料以設定切斷暫存:::即點之個人專用器 ^ "凋格網路接著可由經初 始化以在平行電m執行之應靠式利用。 切斷暫存器各自由網格路由 俗由機制(圖1中之142)指派一值 130145.doc "16 - 200907701 以用於路由資料繞過故障節點。當在環形網路中存在間斷 時,兩個節點之間的間斷將在網路中之一個節點之x+鏈路 及下一節點之X-鏈路中。網格路由機制可指派每一切斷暫 存器以如下路由繞過故障節點: 其中break_plus為X+鏈路間斷處之節點; ' 其中break_minus為X-鍵路間斷處之節點;且 - node_coord為針對正經判定之切斷暫存器的節點之值〇 至N(對應於節點0至節點N); ^ f If (node coord <=break_plus)
Then assign x-cutoff=0, and x+cutoff=break_plus;
Else assign x-cutoff=break_minus, and x+cutoff=max node in X dimension 在切斷暫存器如上文所描述經指派之情況下,使用下文描 述之路由方法路由資料繞過網路中之故障鏈路。 當資料封包經由環形鏈路發送時,根據下文描述之方 C 法,結合切斷暫存器使用發送節點及目的地節點之座標來 判定在X維度中於哪個方向上發送資料封包。對γ及z維度 . 使用類似方法。 在X維度中:
If (sending node > destination node ) // this implies X- direction and if (destination node >=cutoff for x- direction) send in X- direction else send in X+ direction
If (sending node < destination node) // this implies X+ direction and if (destination node <=cutoff for x+ direction) send in X+ direction else send in X- direction -17· 130145.doc 200907701 現將參看圖7描述以網格路由機制142克服缺陷之實例。 圖7說明類似於圖6中展示之節點的節點 維度中之兩個相鄰者。此外,每一節點711至7ΐ5具有X—切 斷暫存器718及Χ+切斷暫存器72〇。此等暫存器中之每一者 之内容展示於圓括號中。對於圖7中展示之實例而言,假 設在環形網路中存在間斷以使得網路中之鍵路在節則 712與節點2 7丨3之間出現故障。切斷暫存器中之值如上文 所描述經指派。對於此實例而言,由於網路中之間斷在節 點1之Χ+财’故break—plus為”"。類似地,由於網路中 之間斷在節點2之X-側上,故對於小於 或等於break一plus之節點(節點〇及節點1為<=1)而言,設定 X-切斷為"0”且設定X+切斷為” i "。類似地,對於大於 break—plus之節點而言,設定χ_切斷為"2”且設定χ+切斷為 X (4)中之最大節點。 再次參看圖7,在切斷暫存器現被指派如圖7中展示且上 文所描述之值的情況下,現假設節點2 713需要發送資料 至節點1 712且將此情形應用於上文之方法。由於發送節 點大於目的地節點,故其暗示除非例外適用,否則將在χ_ 方向上進行發送。由於目的地節點(1)不大於或等於又_切 斷(〇) ’故例外適用且將在Χ+方向上進行發送。類似地, 假没郎點4 7 1 5需要發送資料至節點2 7 12且應用該方法。 由於發送節點(節點5)大於目的地節點(節點2),故其暗示 將在X-方向上進行發送。由於目的地節點(節點2)等於切 130145.doc • 18 - 200907701 斷(2),故在X-方向上進行發送.因此,環已形成為網 格’且環在節點丨712與節點2 713之間的連接處”斷開”。
現將參看圖8描述克服缺陷之另一實例。圖8說明類似於 圖7之由環形網路816連接的節點811至815之集合的邏輯表 示。每一節點811至815具有X-切斷暫存器818及乂+切斷暫 存器820。此等暫存器中之每一者之内容展示於圓括號 中。對於此實例而言,假設在節點3 814與節點4 8is之間 的環形網路中存在間斷810。切斷暫存器中之值如上文所 描述經指派。對於此實例而言,由於網路中之間斷在節點 3之X+侧中,故break_plus為"3"。類似地,由於網路中之 間斷在節點4之X-侧上,故break一minus為"4"。對於小於或 等於break_Plus之節點(節點〇至節點3為<=3)而言,設定X 切斷為,,0”且設定x+切斷為"3”。類似地,對於大於 break 一 plus之節點(節點4)而言,設定χ_切斷為”4”且設定 Χ+切斷為X (4)中之最大節點。 再次參看圖8,在切斷暫存器現被指派如圖8中展示且上 文所描述之值的情況下,現假設節點2需要發送資料至節 點1且將此情形應用於上文之方法。由於發送節點大於: 的地節點,故其暗示除非例外適用,否則將在尽方向上進 行發送。由於目的地節點(1)大於或者等於χ_切斷(0),故 在X-方向上進行發送。類似地,假設節點4 815需要發送 資料至節點2 812且應用該方法。由於發送節點(節點4)大 -方向上進行發 等於切斷(節點 於目的地節點(節點2),故其暗示將在χ 送。由於目的地節點(節點2)不小於或者 130145.doc -19- 200907701 4) ’故在Χ+方向上進行發送。 圖9展示用於網格路由機制142在平行電腦系統上路由繞 過故障節點或網路連接之方法9〇〇。首先,在節點及/或環 形網路連接中偵測缺陷(步驟91〇)。接著,判定切斷暫存器 路由繞過故障節點或網路連接之值(步驟9 2 〇)。接著以新值 設定切斷暫存器(步驟93〇)。接著重設硬體且在分割區上重 新加載應用程式軟體(步驟9〇4)。方法則完成。
Ο 本文之揭示案包括用於在—平行電腦㈣中克服環形網 路故障之方法及裝置。網格路由機制利用每一節點中之切 斷暫存$以將㈣至節點轉移路由繞過有缺陷節點或網路 連接以針對電腦系統的增加之效率減少停機時間量。 熟習此項技術者將瞭解,許多變化在巾請專利範圍之範 可内係可肊的。因& ’儘管本揭示案在上文中特定地展示 且描述,但彼等熟習此項技術者將理解,在不背離申請專 利範圍之精神及料之情況下可在其中進行形式及細節上 之此等及其他改變。 【圖式簡單說明】 圖1為根據較佳實施例之大量平行電腦线之方塊圖; 圖2為展示大量平行電腦系統"算節點之輸入及輸出 連接的方塊圖; 圖3為大量平行電腦系統中計算節點之方塊圖; 圖4為大量平行電腦系統中之中平面之方塊圖,· 圖二為表示諸如大量平行電腦系統之高互連電腦系統之 刀口J區的方塊圖; 130I45.doc -20· 200907701 圖6為與環形纟轉連接之節點序敎方塊圖. 圖7為說明使用切斷暫存器來路由網’ 的實例之方塊圖; °務之即點通信 圖8為展示使用切斷暫存器 的實例之另-方塊圖;& 肖路訊務之節點通信 圖9為用於使用切斷暫在 圖 ㈣存益以路由網路訊務之方法流程 υ 【主要元件符號說明】 100 大量平行電腦系統 110 計算節點 112 用積體電路(ASIC)//Blue 叶鼻晶片 114 節點計算卡 120 節點板 130 托架 132 中平面印刷電路板/中平面 134 中平面連接器 140 服務節點 142 網格路由機制 150 控制系統網路 170 I/O處理器 180 Ido晶片 310Α 處理單元 310Β 處理單元 130145.doc 200907701 Ο 312 處理核心 320 層次三記憶體快取記憶體(L3快 體) 330 靜態隨機存取記憶體(SRAM)記憶 335 個人專用器件 336 切斷資料 340 雙倍資料速率(DDR)同步動態隨 記憶體(SDRAM) 350 DDR記憶體控制器 360 JTAG介面 390 網路硬體 392 環/環形網路路硬體 394 樹 396 總體中斷 398 切斷暫存器 410 鏈路卡 500 集合 510Α至 510Η 托架 512Α至 512Ρ 中平面 520Χ 電纜/X維度電缆 600 集合 612 環形網路 614 最後的節點 711 節點 712 節點 130145.doc -22- 200907701 713 節點 714 節點 715 節點 716 環形網路 718 X-切斷暫存器 720 X+切斷暫存器/鏈路 810 間斷 811 節點 812 節點 813 節點 814 節點 815 節點 816 環形網路 818 X-切斷暫存器 820 X+切斷暫存器
U 130145.doc -23 -

Claims (1)

  1. 200907701 、申請專利範圍·· 1. 一種平行電腦系統,其包含·· 複數個互連之計笪 -網格“ 與一環形網路連接;及 一缺=制,其在該環形網路中之-鏈路中發生 -缺陷時將該環形網路轉換為一網袼網路。 2.如請求項I之平耔 十仃電猫系統,其進—步包 中的每一斗曾ΛΛ· /匕3用於一 X維度 器,且二之—χ·切斷暫存器一切斷暫存 等h網格路由機制㈣該環形網路中之該缺陷 :二斷暫存器及該等x+切斷暫存器中之每-者 各鄰近rf/乂導51該等計算節點在一網格網路中通信至 各鄰近即點而不穿過該缺陷。 3. 如請求項1之平行電腦系統,並 雷m^ 八中該網格路由機制在該 罨腩系統之—服務節點中。 4. 如請求項丨之平行電腦系統,1 ^ M _ . 八甲該專汁异節點與該環 形網路互連以連接每一鲔 衣 靠近相鄰者。 *厌甲的,、個蚨 5. 如請求項4之平行電腦系 別包含Y+ v 其進一步在Y及Z維度中分 別已3 γ+、γ-、Z+及Z-切斷暫存器。 6. 如請求们之平行電腦系統,其; 平行電腦系統。 购系統為大1 7_ —種用於在一平行電腦系 T之缺陷回後之電腦實施方 在互連複數個計算節點之jf # ^ ώ & Λ _ τ 〈環形網路中偵測一缺陷; 隹孩平行電腦系統之該 吸敌個叶异節點中判定用於各 130145.doc 200907701 切斷暫存器之各值以避開該缺陷; 在該等切斷暫存器中設定若干新值;及 一重設硬體及軟體以使用該等切斷暫存器中之該等新值 、&由該環形網路路由資料以避開該缺陷。 8.如請求項7之電腦實施方法,其十判定用於該等切斷暫 。。之各新值的步驟由該電腦系統中之—服務節點中的 一網格路由機制執行。 9. 如請求項7之電腦實施方法’其中該等計算節點與該環 罔路互連以連接每一節點與其在三個維度中的六個最 靠近相鄰者。 陳如請求項9之電腦實施方法,其進一步在維度 中分別包含x+、x-、Y+、及z_切斷暫存器。 "•如請求項7之電腦實施方法,其中該電腦系統為—大量 平行電腦系統。 12. -種祕在—平行電腦系統中之缺陷回復之製品,其包含: 一環形網路’其在-平行電腦系統中連接複數個計算 節點; 一網格路由機制,其在發生-缺陷時將該環形網路轉 換為一網格網路以斷開該環形網路;及 電腦可記錄媒體’其承载該網格路由機制。 13. 如晴求項12之製品,其中該網格路由機制關於該環形網 路t之該缺陷而在該複數個計算節點中之每一者令針對 -X維度為-X-切斷暫存器及_χ+切斷暫存器指派一 值’以導引該等計算節點在—網格網路中通信至各鄰近 130145.doc 200907701 節點而不穿過該缺陷。 1斗·如請求項12之製品,其中該網格路由機制在該電腦系統 之一服務節點中。 其中該電腦系 蛛為一大量平行電腦 15.如請求項12之製品 系統。 16. 如請求項13之製品 維度中分別包含一 z+切斷暫存器及— ,其 進一步針對每_ 計算節點在Y及Z 切斷暫存器 Z-切斷暫存器。 切斷暫存器
    I30145.doc
TW097113659A 2007-04-18 2008-04-15 Fault recovery on a parallel computer system with a torus network TW200907701A (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US11/736,923 US7765385B2 (en) 2007-04-18 2007-04-18 Fault recovery on a parallel computer system with a torus network

Publications (1)

Publication Number Publication Date
TW200907701A true TW200907701A (en) 2009-02-16

Family

ID=39705036

Family Applications (1)

Application Number Title Priority Date Filing Date
TW097113659A TW200907701A (en) 2007-04-18 2008-04-15 Fault recovery on a parallel computer system with a torus network

Country Status (8)

Country Link
US (1) US7765385B2 (zh)
EP (1) EP2147375B1 (zh)
JP (1) JP5285061B2 (zh)
KR (1) KR101091360B1 (zh)
CN (1) CN101657796B (zh)
AT (1) ATE517387T1 (zh)
TW (1) TW200907701A (zh)
WO (1) WO2008128837A1 (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8516444B2 (en) 2006-02-23 2013-08-20 International Business Machines Corporation Debugging a high performance computing program
US7796527B2 (en) * 2006-04-13 2010-09-14 International Business Machines Corporation Computer hardware fault administration
US9330230B2 (en) * 2007-04-19 2016-05-03 International Business Machines Corporation Validating a cabling topology in a distributed computing system
US7831866B2 (en) * 2007-08-02 2010-11-09 International Business Machines Corporation Link failure detection in a parallel computer
US8145880B1 (en) 2008-07-07 2012-03-27 Ovics Matrix processor data switch routing systems and methods
US8131975B1 (en) * 2008-07-07 2012-03-06 Ovics Matrix processor initialization systems and methods
US7958341B1 (en) 2008-07-07 2011-06-07 Ovics Processing stream instruction in IC of mesh connected matrix of processors containing pipeline coupled switch transferring messages over consecutive cycles from one link to another link or memory
US8327114B1 (en) 2008-07-07 2012-12-04 Ovics Matrix processor proxy systems and methods
JP2010218364A (ja) 2009-03-18 2010-09-30 Fujitsu Ltd 情報処理システム、通信制御装置および方法
CN101567805B (zh) * 2009-05-22 2011-12-28 清华大学 并行文件系统发生故障后的恢复方法
US9565094B2 (en) * 2009-11-13 2017-02-07 International Business Machines Corporation I/O routing in a multidimensional torus network
US9954760B2 (en) 2010-01-29 2018-04-24 International Business Machines Corporation I/O routing in a multidimensional torus network
JP5750963B2 (ja) * 2011-03-22 2015-07-22 富士通株式会社 並列計算機システム、制御装置、並列計算機システムの制御方法および並列計算機システムの制御プログラム
US20120331153A1 (en) * 2011-06-22 2012-12-27 International Business Machines Corporation Establishing A Data Communications Connection Between A Lightweight Kernel In A Compute Node Of A Parallel Computer And An Input-Output ('I/O') Node Of The Parallel Computer
NO2776466T3 (zh) * 2014-02-13 2018-01-20
CN104065575B (zh) * 2014-07-16 2017-08-04 曙光信息产业(北京)有限公司 一种基于节点数指示路由及路由信息的方法及装置
KR101995056B1 (ko) 2015-12-30 2019-07-02 한국전자통신연구원 분산 파일 시스템 및 이의 운영방법
CN110210614B (zh) * 2019-05-31 2020-08-25 中科寒武纪科技股份有限公司 运算方法、装置及相关产品

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6346029A (ja) * 1986-08-13 1988-02-26 Hitachi Ltd ル−プバツク制御方式
JPH02121547A (ja) * 1988-10-31 1990-05-09 Toshiba Corp ローカルエリアネットワーク
JP2784080B2 (ja) * 1990-05-09 1998-08-06 富士通株式会社 リングネットワーク及びその障害復旧方法並びにリングネットワークに用いられるノード
JP2663687B2 (ja) * 1990-07-27 1997-10-15 日本電気株式会社 デュアルリング網におけるatm通信方式
US5175733A (en) * 1990-12-27 1992-12-29 Intel Corporation Adaptive message routing for multi-dimensional networks
US5442620A (en) * 1992-03-26 1995-08-15 At&T Corp. Apparatus and method for preventing communications circuit misconnections in a bidirectional line-switched ring transmission system
US5533198A (en) * 1992-11-30 1996-07-02 Cray Research, Inc. Direction order priority routing of packets between nodes in a networked system
US5701416A (en) * 1995-04-13 1997-12-23 Cray Research, Inc. Adaptive routing mechanism for torus interconnection network
US6055618A (en) * 1995-10-31 2000-04-25 Cray Research, Inc. Virtual maintenance network in multiprocessing system having a non-flow controlled virtual maintenance channel
US5793746A (en) * 1996-04-29 1998-08-11 International Business Machines Corporation Fault-tolerant multichannel multiplexer ring configuration
US6065052A (en) * 1996-07-01 2000-05-16 Sun Microsystems, Inc. System for maintaining strongly sequentially ordered packet flow in a ring network system with busy and failed nodes
US6230252B1 (en) * 1997-11-17 2001-05-08 Silicon Graphics, Inc. Hybrid hypercube/torus architecture
CA2254606C (en) * 1997-11-28 2003-06-17 Nec Corporation Ring network for sharing protection resource by working communication paths
US6278689B1 (en) * 1998-04-22 2001-08-21 At&T Corp. Optical cross-connect restoration technique
US6269452B1 (en) * 1998-04-27 2001-07-31 Cisco Technology, Inc. System and method for fault recovery for a two line bi-directional ring network
US6912196B1 (en) * 2000-05-15 2005-06-28 Dunti, Llc Communication network and protocol which can efficiently maintain transmission across a disrupted network
WO2000074305A2 (en) * 1999-05-14 2000-12-07 Dunti Corporation Method for routing in hierarchical networks
JP4034497B2 (ja) * 2000-05-08 2008-01-16 富士通株式会社 ネットワークシステム
US6711407B1 (en) * 2000-07-13 2004-03-23 Motorola, Inc. Array of processors architecture for a space-based network router
US6853635B1 (en) * 2000-07-24 2005-02-08 Nortel Networks Limited Multi-dimensional lattice network
US6782198B1 (en) * 2000-11-10 2004-08-24 Lucent Technologies Inc. Switching arrangement for fault recovery in optical WDM ring networks
US7050398B1 (en) * 2000-12-26 2006-05-23 Cisco Technology, Inc. Scalable multidimensional ring networks
JP3758523B2 (ja) * 2001-05-21 2006-03-22 日本電気株式会社 双方向リングネットワーク、ノード装置および双方向リングネットワーク制御方法
EP1357690B1 (en) * 2002-03-27 2005-07-06 Lightmaze Solutions AG Intelligent optical network element
JP4208842B2 (ja) * 2003-03-04 2009-01-14 富士通株式会社 リング型光ネットワークのノード装置
JP4687176B2 (ja) * 2005-03-22 2011-05-25 富士通株式会社 パケット中継装置
WO2007044939A2 (en) * 2005-10-13 2007-04-19 Opvista Incorporated Optical ring networks using circulating optical probe in protection switching with automatic reversion
WO2007083365A1 (ja) * 2006-01-18 2007-07-26 Fujitsu Limited 光ネットワークシステム
JP4760504B2 (ja) * 2006-04-12 2011-08-31 株式会社日立製作所 ネットワークシステムおよび通信装置
US7954095B2 (en) * 2006-11-01 2011-05-31 International Business Machines Corporation Analysis and selection of optimal function implementations in massively parallel computer

Also Published As

Publication number Publication date
CN101657796A (zh) 2010-02-24
EP2147375A1 (en) 2010-01-27
US20080263387A1 (en) 2008-10-23
US7765385B2 (en) 2010-07-27
KR20090119835A (ko) 2009-11-20
WO2008128837A1 (en) 2008-10-30
KR101091360B1 (ko) 2011-12-07
EP2147375B1 (en) 2011-07-20
CN101657796B (zh) 2013-03-27
JP5285061B2 (ja) 2013-09-11
ATE517387T1 (de) 2011-08-15
JP2010525434A (ja) 2010-07-22

Similar Documents

Publication Publication Date Title
TW200907701A (en) Fault recovery on a parallel computer system with a torus network
JP5285690B2 (ja) 並列コンピュータ・システム、並列コンピュータ・システム上のノード・トラフィックを動的に再経路指定するためのコンピュータ実装方法、コンピュータ可読記録媒体及びコンピュータ・プログラム
CN104798349B (zh) 响应于端口故障的故障转移
CN103107960B (zh) 通过开关卡减少交换结构中交换故障的影响的方法和系统
JP5116838B2 (ja) スイッチ・モジュール・システム
US20110320861A1 (en) Switch failover control in a multiprocessor computer system
CN104025063A (zh) 用于共享网络接口控制器的方法和装置
JP2004326775A (ja) 分散ノード環境におけるfru障害分離のための機構
CN109783280A (zh) 共享存储系统和共享存储方法
CN109889411A (zh) 一种数据传输的方法及装置
WO2023121775A1 (en) System, method, apparatus and architecture for dynamically configuring device fabrics
US7656789B2 (en) Method, system and storage medium for redundant input/output access
US7512836B2 (en) Fast backup of compute nodes in failing midplane by copying to nodes in backup midplane via link chips operating in pass through and normal modes in massively parallel computing system
US7930584B2 (en) Cell boundary fault detection system
Tu et al. Seamless fail-over for PCIe switched networks
Killian et al. A new efficient and reliable dynamically reconfigurable network-on-chip
JP2003186578A (ja) 冗長電力を供給する方法および装置
US20060176826A1 (en) All-to-all sequenced fault detection system
KR20110030002A (ko) 활성-활성 멀티플렉싱 유닛 또는 포트 선택자 유닛을 가지는 네트워크 직접 연결 저장 장치
CN108965452A (zh) 存储服务器和存储服务器系统
Stensland Fault-tolerant routing in SCI networks