TWI519942B

TWI519942B - 控制導因於分散式運算系統的運算節點中之故障的錯誤傳播

Info

Publication number: TWI519942B
Application number: TW102148146A
Authority: TW
Inventors: 葛雷格Ｂ雷薩特; 戴爾Ｃ莫里斯; 羅斯Ｗ赫羅爾; 布連恩Ｄ甘瑟
Original assignee: 惠普研發公司
Priority date: 2013-01-30
Filing date: 2013-12-25
Publication date: 2016-02-01
Also published as: WO2014120148A1; US20150355961A1; TW201439746A; BR112015018303A2; JP2016513309A; EP2951706A4; CN104956346A; CN104956346B; US9990244B2; EP2951706A1; EP2951706B1

Description

控制導因於分散式運算系統的運算節點中之故障的錯誤傳播

本發明大體上關於一種控制導因於分散式運算系統的運算節點中之故障的錯誤傳播之方法。

一電腦系統傳統上包含揮發性及非揮發性記憶體裝置兩者。在本方式中，由於它們相對較快速的存取時間，所以例如動態隨機存取記憶體(DRAM)裝置之揮發性記憶體裝置典型地被使用於構成該電腦系統之工作記憶體。為了維持系統關機時的電腦系統資料，資料可被儲存於與例如以磁性媒體或光學媒體為基礎的大量儲存裝置之較低速存取時間相關之非揮發性大量儲存裝置中。

該相當高密度固態持久不斷的記憶體科技發展正接近該二科技間之分歧處；且因此，提供傳統性“記憶”和“儲存”兩功能之持久不斷的以位元組定址的記憶體數量正持續增加使用中。由於成長性使用本記憶體，所以期待分散式運算系統變得越來越普遍。利用一分散式運算系統，運算節點典型地係基於分享或合用該些節點之記憶體和儲存裝置資源目的而與叢集式構造(例如，網路構造)耦接在一起。

一種方法包括：接收一分散式電腦系統中之警示指標，該分散式電腦系統包括由叢集式互連構造耦接在一起之複數個運算節點，該警示指標指示偵測到該複數個運算節點中之第一運算節點內的故障；及回應於該警示指標而調整該第一運算節點和其它運算節點中之至少一者間的通訊以控制導因於該第一運算節點內之故障的錯誤傳播。

一種設備包括：一介面，用以接收來自由叢集式互連構造所耦接在一起之複數個運算節點中的第一運算節點的警示指標以指示偵測到該複數個運算節點中的第一運算節點內之故障；及該叢集式互連構造中之一元件，用以回應於該警示指標而調整該第一運算節點及其它運算節點中之至少一者之間的通訊以容納導因於該第一運算節點內之故障的錯誤傳播並允許由該至少一其它運算節點進行該第一運算節點之故障分析。

一種物件，包括一儲存指令之非短暫性電腦可讀取儲存媒體，當一以處理器為基礎之系統執行指令時，會引起該以處理器為基礎之系統：接收一分散式電腦系統中之警示指標，該分散式電腦系統包括由叢集式互連構造所耦接在一起之複數個運算節點，該警示指標指示偵測到該複數個運算節點中之第一運算節點內的故障；及回應於該警示指標而調整該第一運算節點和其它運算節點中之至少一者之間的通訊以容納導因於該第一運算節點內的故障之錯誤傳播。

100、499‧‧‧分散式運算系統

110、110-1~110-N‧‧‧運算節點

112、521‧‧‧輸出入轉接器

114‧‧‧本地記憶體

120‧‧‧合用記憶體

122‧‧‧通訊

124‧‧‧警示指標器

130‧‧‧叢集式互連構造

140‧‧‧大量儲存裝置

150‧‧‧其餘運算節點

200、300、400‧‧‧技術

202~204、302~304、402~404‧‧‧方塊

500、500-1~500-N‧‧‧實體機器

504‧‧‧機器可執行指令

506‧‧‧作業系統

508‧‧‧應用程式

510‧‧‧裝置驅動器

514‧‧‧故障偵測器

520‧‧‧硬體

524‧‧‧記憶體裝置

526‧‧‧中央處理單元

528‧‧‧網路介面

550‧‧‧元件

552‧‧‧處理器

554‧‧‧記憶體

600、700‧‧‧技術

602~604、702~704‧‧‧方塊

圖1係根據一範例實施方式之分散式運算系統的示意圖。

圖2係根據一範例實施方式來說明一種用以控制導因於一運算節點故障之分散式運算系統中的錯誤傳播之技術的流程圖。

圖3及圖4係根據範例實施方式來說明用以控制導因於一運算節點故障之分散式運算系統中的錯誤傳播之技術的流程圖。

圖5係根據一範例實施方式之分散式運算系統的更詳細示意圖。

圖6係根據一範例實施方式來說明一種使用節點間通訊來控制導因於一運算節點故障之分散式運算系統中的錯誤傳播之技術的流程圖。

圖7係根據範例實施方式來說明一種用以控制導因於一運算節點故障之分散式運算系統中的錯誤傳播而允許該節點故障分析之技術的流程圖。

參考至圖1，一示範性分散式運算系統100包含N個運算節點(例如圖1中所述之運算節點110-1、110-2…110-N)。大體上，該些運算節點110包含可構成該節點110之本地資源的資源以及分享或合用於該些運算節點110之間的資源。在本方式中，該分散式運算系統100可包含記憶體和輸出入(I/O)資源共用物，其係分享於不同運算節點110族群之間。

如同一更特定範例地，該運算節點110-1可包含該運算節點110-1可使用以及其它運算節點110也可存取之輸出入轉接器112。在本方式中，該輸出入轉接器112可為以小型電腦系統介面(SCSI)為基礎之轉接器、光纖通道轉接器或其它輸出入轉接器，其可被使用於存取一或更多大量儲存裝置140(其可為該電腦節點110-1的一部分或獨立於該電腦節點110-1)。該運算節點110-1可進一步包含記憶體裝置(例如，動態隨機存取記憶體(DRAM)裝置及/或固態記憶體裝置)，其可構成該運算節點110-1之本地記憶體114以及其它運算節點110所分享之合用記憶體120。該分散式運算系統100之其它運算節點110可具有類似的本地及/或合用資源。

基於存取該些合用資源之目的，該些運算節點110可透過在此稱之為“叢集式互連構造”之系統構造進行通訊。例如，該叢集式互連構造130可包含熟知此項技術之人士所能理解之以網際網路為基礎的連接構造、以區域網路(LAN)連接為基礎的構造、以廣域網路(WAN)連接為基礎的構造等等。

在它正常操作程序期間，例如該運算節點110-1之一給予運算節點110可遭遇到一硬體或軟體錯誤，其導致發生於該運算節點110-1領域內之故障。該故障可導因於一硬體故障(一輸出入轉接器112、網路介面、記憶體裝置等等之故障)，也可導因於系統軔體中之程式化錯誤、作業系統錯誤等等之軟體故障。無關於該故障資源地，當這類故障發生時，該運算節點110-1所具有之資源(例如，記憶體內容)可在進一步操作該運算節點110-1後立即走樣或變樣。

用以處理發生於一給予運算節點內之故障的一方法係完全隔離該運算節點，使得錯誤不會傳播至該節點外部而影響到其它運算實體。例如，一方法可以是關閉一遭遇到故障之運算節點，使得該節點可基於改正該故障原因並阻止其它運算實體變樣之目的而被離線。儘管傳統上一特定運算實體的故障領域存在於它本身的實體內，使得導因於本故障之錯誤不會傳播至該實體外部，然而不像傳統安排地，該分散式運算系統100合用分享於它的運算節點110之間的輸出入及記憶體資源。

因此，例如，當該運算節點110-1遭遇到一故障時，一或多個其它運算節點110可因為位於該節點110-1上之合用資源而受到直接影響。甚至，該運算節點110-1存取該運算節點110-1外部之資源，例如來自該分散式運算系統100之其它運算節點110的輸出入轉接器112、合用記憶體120等等。因此，該有效故障領域延伸至該故障產生所在之運算節點110-1外部並進入該分散式運算系統100之其它區域中。

基於控制導因於一分散式運算系統100的運算節點110中所發生之故障的錯誤傳播之目的而在此揭示之技術及系統。持續使用該運算節點110-1做為範例，假設一故障發生於與該運算節點110-1之連接中，根據一範例實施方式，一運算節點110-1產生一警示指標124。基於限制該運算節點110-1內之錯誤(其導因於該運算節點110-1發生故障而產生)的目的，本警示指標124接著係基於觸發動作之目的而由該分散式運算系統100中之一或更多元件而利用之。

更特別地，根據一範例實施方式，該警示指標124係由該分散式運算系統100之一其餘運算節點150接收，如此，該其餘運算節點150可採取適當動作以容納該運算節點110-1內之錯誤。注意該運算節點110-1所使用於偵測故障之特定技術可為該熟知此項技術之人士可理解之一些故障偵測技術中之一者。

結合圖1來參考至圖2，如同一更特定範例地，根據一些實施方式，一技術200可基於對資源分享之分散式運算系統內之錯誤傳播遏阻目的而被運用。依據該技術200，一警示指標被接收(方塊202)，其代表經由該分散式運算系統之一運算節點偵測一故障。為了回應本警示指標，依據方塊204調整與該運算節點之通訊，用以控制導因於該故障之錯誤傳播。

如同一更特定範例地，結合圖1來參考至圖3，根據一些實施方式，一技術300可基於控制導因於發生在一給予運算節點內之故障的錯誤傳播之目的而由該分散式運算系統100之叢集式互連構造130來運用之。依據該技術300，一警示指標被接收(方塊302)，其代表經由一運算節點(在此稱為“受影響運算節點”)偵測一故障。為了回應該警示指標，該叢集式互連構造130被使用(方塊304)以選擇性地限制該其它運算節點與該受影響運算節點所實施的操作。

在本方式中，根據範例實施方式，當一特定運算節點110經歷一故障時，來自該受影響運算節點110之對外輸出入通訊被暫停以阻止對內或內行至該節點110之輸出入通訊讀取該受影響節點110之走樣的記憶體內容並傳達本走樣的記憶體內容至該節點110外部不知道該訛誤的另一裝置。因此，根據一些實施方式，該叢集式互連構造130限制或限定透過該構造130之處理對指向停止或暫停與該受影響運算節點110之目前輸出入處理之處理。

根據範例實施方式，已遭遇故障之受影響運算節點110可傳達用以停止或暫停輸出入處理的這類命令至供應至該受影響節點110之全部遠端輸出入轉接器；結果，該叢集式互連構造130允許這些命令被傳達。在進一步範例實施方式中，該叢集式互連構造130可在接收該警示指標124後立即傳達用以停止或暫停代表遭遇該故障之受影響運算節點110的輸出入處理的這類命令至供應至該受影響節點110之全部遠端輸出入轉接器。因此，落於所附申請專利範圍內之許多變化被仔細考慮。

如同在此所進一步揭示地，除了允許該受影響節點110傳達用以停止或暫停輸出入處理之命令外，根據下述進一步實施方式，基於允許使用快取資料來執行故障分析目的，該叢集式互連構造130還進一步允許遭遇該故障之運算節點110傳達快取資料至一或多個其它電腦節點110。

在該運算節點指示著它已發生一故障後，該構造130可接著拒絕接受該運算節點嘗試進行的一些存取類型。例如，該運算節點不被允許快取它快取記憶體內之遠端記憶體中新的部分或只快取用以執行資料聚集序列所需之位置。該運算節點不被允許提供額外記憶體及/或輸出入資源給它本身。甚至，該運算節點不被允許傳送該停止命令以外之命令至遠端輸出入轉接器。

結合圖1來參考至圖4，根據進一步實施方式，該叢集式互連構造130可基於控制來自遭遇故障之受影響運算節點110的錯誤傳播目的而被使用以執行另一及/或一額外步驟。在本方式中，依據一技術400，來自遭遇該故障之運算節點110的一警示指標被接收(方塊402)，其指示該節點已遭遇故障。為了回應該警示指標，該技術400包含使用(方塊404)例如該叢集式互連構造130之系統構造來添加一標籤至源自該受影響運算節點之每一個封包以代表來自那個節點之資料的“可疑狀態”。換言之，除了該受故障影響節點，還有一給予運算節點接收一封包，且本封包內含一指標(或“標籤”)，其指示一可能“可疑狀態”，接著，因為該發送節點已被辨識為一已遭遇故障者，故該接收運算節點小心地處理該封包。根據範例實施方式，該標籤可被添加並由該封包標頭內之一給予欄位(例如，一給予位元欄位)所指示之。

圖5說明根據一進一步實施方式之分散式運算系統499的更詳細代表。對於本實施方式而言，該分散式運算系統499包含構成N個相對應運算節點110-1至110-N之實體機器500(如圖5範例中所述之N個實體機器500-1、500-2、500-3…500-N)。該實體機器500係由真實硬體和軟體所組成之真實機器。

就此而言，如實體機器500-1(構成運算節點110-1本範例)所述地，該實體機器500-1包含機器可執行指令504，其在一或更多中央處理單元(CPU)526執行時，引起該中央處理單元526構成一作業系統506、一或多個應用程式508、一故障偵測器514、一或更多裝置驅動器510等等。如同一範例地，該些應用程式中之一可為一故障分析應用程式。該中央處理單元526只是該實體機器500之硬體520的一範例。就此而言，該實體機器500可包含輸出入轉接器521、一網路介面528及各種記憶體裝置524。

大體上，該些記憶體裝置524可為例如半導體儲存裝置之非短暫性儲存裝置、含磁性儲存裝置、光學儲存裝置、可移除媒體等等，視該特定實施方式而定。

也如圖5所述地，該叢集式互連構造130可基於規劃該些運算節點110間之通訊路徑目的而包含例如閘道器、路由器、交換器等等之各種元件。圖5說明一範例元件550(例如，一交換器、一閘道器或一附接點)，其可包含一或多個處理器552以及一儲存指令之記憶體554，在該處理器552執行指令時，可引起該處理器552執行在此所揭示技術中之一或更多以代表基於控制來自一已遭遇故障之運算節點110的傳播錯誤目的並基於故障分析目的而允許對該節點存取之構造130。

落於所附申請專利範圍內之其它變化被仔細考慮。例如，根據進一步實施方式，除了基於控制來自遭遇故障的節點之錯誤傳播目的的構造130，還有圖6所述技術600可基於使用該分散式運算系統的一或多個元件目的而被使用。在本方式中，依據該技術600之方塊602，一警示指標被接收(方塊602)以代表偵測到一運算節點中的故障。為了回應該警示指標，依據方塊604，一或多個訊息被傳達(方塊604)至一或多個其它運算節點以使該個(該些)節點注意該偵測到故障。例如，根據一些實施方式，遭遇該故障的受影響運算節點可產生該訊息並傳達該訊息至其它運算節點。在進一步實施方式中，除了遭遇該故障的節點，還有另一運算節點可執行本工作；且在進一步實施方式中，該系統構造可傳達這類訊息。依據一給予運算節點所接收之這類訊息，該節點可基於處理這些處理目的而將利用該受影響運算節點的全部未來處理打上“可疑”旗號。

當一給予運算節點經歷一故障時，該運算節點可在它對應至供應至該運算節點的遠端記憶體之處理器快取記憶體中具有一狀態；且該運算節點可具有本地記憶體。本快取資料狀態及該運算節點的本地記憶體狀態可被保留以供故障方析。注意，基於本目的，如果該資料被貼上該資料走樣的指示標籤，所產生之本資料對於其它運算節點為可見的。

對於儲存於一運算節點之快取記憶體內之逐批寫回資料而言，該運算節點在已偵測到一故障後，可嘗試清除它的快取記憶體。儘管這個一般會涉及將一修改後快取單位寫回至遠端記憶體，已被通知該故障的互連構造130可自動地將這些逐批寫回處理貼上在這些處理中的資料係潛在性地走樣之指示標籤。這些貼上標籤的逐批寫回處理可例如儲存於一遠端記憶體中。例如，依據該特定實施方式，處理的貼標籤可由遭遇該故障之運算節點來執行，或由該系統構造來執行。在接下來分析中，已被供應至遭遇該故障的運算節點之遠端記憶體可被使用，且該潛在性走樣指示特別有助於該資料辨識該遠端記憶體之區域，其係故障時儲存於該運算節點，且因此可能是在該故障前最新被參考者。

對於遭遇故障之運算節點上的本地記憶體而言，該運算節點(或代表該運算節點的系統構造130)可實施它本地記憶體的一複本操作至該節點外的一永久保留地點。基於本目的，例如該叢集式互連構造130之系統構造可被指示以分配一些數量的未使用遠端記憶體，以基於本分析目的而保留該資料，或其可為只基於那個目的所保留之遠端記憶體的特定埠。甚至，該叢集式互連構造130可分配這些中之一或更多。在執行本地記憶體的複印時，該構造130可確保該複印係指向該特定分配之遠端記憶體，藉此不允許將該運算節點複印至另一使用中記憶體，即使記憶體已被供應至該節點亦然。該叢集式互連構造130可基於協助該故障分析目的而進一步提供該本地記憶體已被登錄在那裡的某類指示。

因此，參考至圖7，根據一些實施方式，一技術700包含接收(方塊702)代表偵測到一運算節點中之故障的警示指標並控制(方塊704)來自該運算節點的錯誤傳播，同時允許與至少一其它運算節點之通訊以執行故障分析。

根據一些實施方式，該快取資料之逐批寫回可替代性地指向一分配遠端記憶體來登錄，而非指向基於本目的所指定之原遠端記憶體。再者，該構造130可執行這個代表一運算節點的重導向，藉此不依賴該運算節點的能力來正確地產生該故障登錄檔而未使某個其它系統走樣。使用用於公告故障之“登錄”遠端記憶體來儲存該運算節點中之狀態也可具有允許分析在該失敗運算節點最近儲存那個資料前，是什麼在該遠端記憶體中，以及在故障時，在該運算節點的快取記憶體中的對應狀態是什麼之優勢。甚至，使用用於公告故障之獨立“登錄”遠端記憶體來儲存狀態可簡化那個留存狀態、公告故障係可疑的指示。

儘管限量範例已在此被揭示，然具有本揭示利益的那些熟知此項技術之人士會理解到從其中產生的許多修改和變化。想要該些所附申請專利範圍涵蓋全部這類修改和變化。

100‧‧‧分散式運算系統

110、110-1~110-N‧‧‧運算節點

112‧‧‧輸出入轉接器

114‧‧‧本地記憶體

120‧‧‧合用記憶體

122‧‧‧通訊

124‧‧‧警示指標

130‧‧‧叢集式互連構造

140‧‧‧大量儲存裝置

150‧‧‧其餘的運算節點

Claims

一種方法，包括：接收一分散式電腦系統中之警示指標，該分散式電腦系統包括由叢集式互連構造耦接在一起之複數個運算節點，該警示指標指示偵測到該複數個運算節點中之第一運算節點內的故障；及回應於該警示指標而調整該第一運算節點和其它運算節點中之至少一者間的通訊以控制導因於該第一運算節點內之故障的錯誤傳播；其中，有效故障領域會延伸至該第一運算節點外部。
如申請專利範圍第1項所述之方法，其中，調整該通訊包括使用耦接該第一運算節點至其它運算節點的系統構造來選擇性地限制與該第一運算節點所實施之操作。
如申請專利範圍第2項所述之方法，其中，調整該通訊包括除了指向暫停與該第一運算節點之輸入/輸出操作之操作，還阻止在該至少一其它運算節點和該第一運算節點之間所實施的操作。
如申請專利範圍第1項所述之方法，其中，調整該通訊包括使用耦接該第一運算節點至其它運算節點的系統構造來添加一標籤至該第一運算節點所傳達之封包以代表與該些封包有關之可疑狀態，且其中，該可疑狀態指示該第一運算節點的資料為走樣的。
如申請專利範圍第1項所述之方法，其中，接收該警示指標包括自該第一運算節點接收至少一訊息至其它運算節點中之至少一者以使該至少一其它運算節點注意該偵測到的故障。
如申請專利範圍第1項所述之方法，其中，調整該通訊包括傳達儲存於該第一運算節點之資料至專用於偵測到一故障的運算節點之資料儲存的系統中之一記憶體。
如申請專利範圍第1項所述之方法，進一步包括：使用與該第一運算節點之通訊來取得該第一運算節點的快取資料，藉以對該第一運算節點執行一故障分析。
一種設備，包括：一介面，用以接收來自由叢集式互連構造所耦接在一起之複數個運算節點中的第一運算節點的警示指標以指示偵測到該複數個運算節點中的第一運算節點內之故障；及該叢集式互連構造中之一元件，用以回應於該警示指標而調整該第一運算節點及其它運算節點中之至少一者之間的通訊以容納導因於該第一運算節點內之故障的錯誤傳播，並基於允許由該至少一其它運算節點使用該第一運算節點的快取資料來進行該第一運算節點之故障分析的目的，進一步允許該第一運算節點傳達該快取資料至該至少一其它運算節點；其中，有效故障領域會延伸至該第一運算節點外部。
如申請專利範圍第8項所述之設備，其中，該元件包括一交換器、一閘道器或一附接點。
如申請專利範圍第8項所述之設備，其中，該元件係適合回應於該警示指標而選擇性地限制與該第一運算節點所實施之操作。
如申請專利範圍第8項所述之設備，其中，該元件係適合添加一指示器至源自該第一運算節點之訊息以代表與該訊息有關之可疑狀態，且其中，該可疑狀態指示該第一運算節點的資料為走樣的。
如申請專利範圍第8項所述之設備，其中，該元件係適合在該故障偵測後，允許該第一運算節點執行至少一寫回操作以將該故障偵測之前儲存於該第一運算節點之快取資料寫至不屬於該第一運算節點一部分之系統中的一記憶體內。
一種物件，包括一儲存指令之非短暫性電腦可讀取儲存媒體，當一以處理器為基礎之系統執行指令時，會引起該以處理器為基礎之系統：接收一分散式電腦系統中之警示指標，該分散式電腦系統包括由叢集式互連構造所耦接在一起之複數個運算節點，該警示指標指示偵測到該複數個運算節點中之第一運算節點內的故障；及回應於該警示指標而調整該第一運算節點和其它運算節點中之至少一者之間的通訊以容納導因於該第一運算節點內的故障之錯誤傳播；其中，有效故障領域會延伸至該第一運算節點外部。
如申請專利範圍第13項所述之物件，其中，該以處理器為基礎之系統係置於該構造及該至少一其它運算節點中之一者內。
如申請專利範圍第13項所述之物件，其中，在該以處理器為基礎之系統執行該儲存媒體儲存所儲存的指令時會引起該以處理器為基礎之系統基於允許由該至少一其它運算節點使用該第一運算節點的快取資料來進行該第一運算節點之故障分析的目的，進一步允許該第一運算節點傳達該快取資料至該至少一其它運算節點。