TW486637B

TW486637B - Method and apparatus for managing redundant computer-based systems for fault tolerant computing

Info

Publication number: TW486637B
Application number: TW088109143A
Authority: TW
Inventors: Jeffrey Xiaofeng Zhou; Iii Thomas Gilbert Roden; Louis P Bolduc; Dar-Tzen Peng; James W Ernst
Original assignee: Allied Signal Inc
Priority date: 1998-06-02
Filing date: 1999-10-01
Publication date: 2002-05-11
Also published as: CA2334009A1; CN1192309C; US6178522B1; EP1082661A1; CN1311877A; AU4673499A; JP2002517819A; WO1999063440A1; EP1082661A4

Description

486637 _案號88109143_f〇年f月Μ曰修正_ 五、發明說明（1) 發明背景發明範疇本發明與計算環境有關，特別是與管理以電腦為主之冗餘系統的容錯計算之方法有關。發明背景容錯計算保證校正系統中所存在之故障與錯誤的計算結果。冗餘的運用是容錯的主要方法。有許多不同的方法可以管理硬體、軟體、資訊、及時間的冗餘。因為有各種演算法及實施方法，而導致目前大部份的系統使用專有的冗餘管理設計，而這些設計通常與應用軟體及硬體交互編織。與冗餘管理交互編織的應用程式建立更複雜的系統，並嚴重降低系統的延展性。發明總結因此，本發明的一項物件提供管理以電腦為主之冗餘系統的方法，且該系統不會與應用程式交互編織，並且提供分散式計算環境的額外延展性。按照本發明的一項具體實施例，冗餘計算系統是使用多重硬體計算節點（或通道）的方法所建構，並且在分散式環境内的每個個別的節點中安裝冗餘管理模組（R Μ Μ )。 RMS是透過一組演算法、資料結構、操作處理程序、及每個計算系統中處理單元應用的設計所實施的冗餘管理計晝方法。RMS 已廣泛應用在需要高系統可信性的各種領域中，例如：航空、關鍵控制系統、電信、電腦網路、等等。 RMS的實施在實體或邏輯上與應用程式發展分開。如

O:\58\58777.ptc 第6頁 ^86637

Γ^88ΐ〇ϋϋ 知口/n兄明U) 杰Μ發者此，可降低設計系統的複雜性。就本身而言，系統*rMS 可獨立設計應用程式，並信賴RMS提供冗餘管理功能Μ。的與應用程式整含是利用可程式匯流排介面協定將各 ' RMM連接到應角處理器而達成。 g户錯 RMM包括一頊交叉通道資料連結（CCDL)模組及一項執行（FTE)模組。CCDL提供全部通道的資料通Λ 類的執行同化步、表決、故障及錯誤偵測、隔離及修後f系統系統功能。透過表決偵測並遮蔽差錯資枓的方f實^二、容錯，並利用外動態設定架構組態的方式確保ί統=$系性，也就是排除系統故障節點並重新許可正常節點"’ 統的能力。、人、漆施， RMS可用硬體、軟體、或組合軟硬體（即，混:/统一起並與具有處理元件故障之冗餘計算資源的分，ΐ ΐ ίι有運作。視系統圩靠度及容錯需求而定，分散式糸處田声理 2到Μ固通道（或節點）。通道是由一個RMM及一個應用處/於器所組成。通道透過數個CCDL相互連接在一起而構成几餘整體計算系統。因為通道内各別的應用程式並不完全知道其他通^的活動，所以RMM提供系統同步化、維護資料一致性、並形成系統中各種地點所發生之故障及錯誤的整體糸統一致。圖式簡單說明參考下列的詳細說明並配合附圖，可迅速且清楚地認識本發明的完整評論，以及其隨附的優點，圖中相似的g ^ 指示相同或相似的元件，其中〜圖1是根據本發明的一項具體實施例之冗餘管理李、統#

O:\58\58777.ptc 第7頁

486637 修正案號 88109143 五、發明說明（3) 方塊圖；圖2是根據本發明的一項示範性具體實施例之以RMS為主的三通道容錯系統的方塊圖；圖3是根據本發明的一項具體實施例之冗餘管理系統的狀態轉移圖；圖4是根據本發明的一項具體實施例之冗餘管理系統中應用程式交互作用及表決處理程序的方塊圖；圖5是根據本發明的一項具體實施例之容錯執行（f au 11 tolerance executive ;FTE)内容的原理圖；圖6是根據本發明的一項具體實施例之容錯器（F LT )所執行的表決及性能惡化（p e n a 11 y)指派處理程序的方塊圖；圖7是根據本發明的一項具體實施例之冗餘管理系統情況的原理圖；圖8是根據本發明的一項具體實施例之交叉通道資料連結訊息結構的圖式；圖9是根據本發明的一項具體實施例之交叉通道資料連結上層架構的方塊圖；圖1 0是根據本發明的一項具體實施例之交叉通道資料連結發送器的方塊圖；圖1 1是根據本發明的一項具體實施例之交叉通道資料連結接收器的方塊圖；圖式主要元件符號說明 1 0 三通道RMS基架構 1 2冗餘管理系統，VMC-1

O:\58\58777.ptc 第8頁 486637 _案號88109143_年#月（日修正五、發明說明（4) 1 3容錯執行 14VME底板匯流排 16 V e h i c1e Subsystem Manager 18F1i ght Manager 2 0 M i s s i on Manager 22冗餘管理系統，VMC-2 24交叉通道資料連結（CCDL) 32冗餘管理系統，VMC-3 4 0應用資料 4 2應用資料表 4 4副訊框邊界 4 6任務通訊程式（T S C ) 48資料ID順序表（DST) 52 核心（KRL) 5 6資料副本表 5 8表決程式 6 0表決之資料 6 2表決資料表 6 4資料衝突表 6 6表決資料共用記憶體 7 0發送器 72a-d接收器 73a-d光隔離器 7 4 a - b介面 7 6 8位元發送器記憶體

O:\58\58777.ptc 第9頁 486637 _ 案號88109143_p年<P月仏曰修正_ 五、發明說明（5) 7 8 a - d接收器記憶體 8 0同步程式 82移位暫存器電路 84容錯程式（FLT) 9 0位元中心邏輯 9 2時間戳記邏輯 9 4移位電路 9 6控制邏輯發明之詳細說明據本發明的一項具體實施例，冗餘管理系統（RMS)提供下列的冗餘管理功能：1)交叉通道資料通信；2)以訊框為主的系統同步化；3 )資料表決；4)故障及錯誤偵測、隔離及修復；5 )容退化及自行修復。交叉通道資料通信功能是由CCDL模組所提供。CCDL模組具有一個發送器及最多八個序串列的接收器。CCDL模組從自己的本機通道取得資料，並將資料廣播到包括本身通道的所有通道。通信資料被封裝成特定的訊息格式，並使用同位元偵測傳輸錯誤。為了保持通道之間的電子絕緣，所以全部的CCDL接收器使用電子對光學間的轉換。因此，沒有任何單一的接收器故障可以越過其他通道接收器的漏極電流，而造成整個系統的共同模型故障。 RMS是以訊框為主的同步化系統。每個RMS系統具有自己的時間，且利用與全部的通道交換其本機時間並按照表決時鐘調整本機時間的方式來實現系統同步化。分散式協議演算法用於依據任何類型的故障（包括：Byzantine 故障）

O:\58\58777.ptc 第10頁 486637 _ 索龜_M119143 p 主 P q /乙 α 修i------ 五、發明說明（6) 建立故障的全域性時鐘。 R M S採用資料表決作為故障偵測、隔離及修復的主要機制。如果通道所產生的資料與多數表決的資料不同時，表決的資料將作為輸出來遮蔽故障。故障通道將由王域性性能惡化（penal ty)系統識別並懲罰。資料表決包括應用程式^源及系統狀態資料。RMS支援異質計算系統’其中因為分集式硬體與軟體，導致無故障通道並不保證產生完全相同的資料（包括資料影像）。使用者定義的容許範圍定義表決處理程序中出現資料偏差的差錯行為° RMS支援容退化，其方式是利用從一群定義操作集的同步化且無故障之通道中排除故障通道。設計性能惡化 (penal ty)系統的目的是為了懲罰任何故障的通道所犯的差錯行為。故障通道超出其性能惡化（penal ty)限定值時，其他的無故障通道將其本身的組態重新設定成新的操作集，來排除最近識別的故障通道。不允許被排除的通道參與資料表決且其資料只能作為監控用途。RMS也透過動態重新設定組態的方式，而具有重新許可正常通道回到操作集的能力。自行修復功能使RMS可以為擴充式任務保存系統資源。圖1顯示根據本發明具體實施例之RMS系統的上層方塊圖。RMM 12包括一項交叉通道資料連結（CCDL) 24，及一項容錯執行（FTE) 13 cFTE 13 位於 VME(Versa Module E：uropa)介面卡上或其他單主機板電腦上，並且經由VME底板匯流排或其他適合的資料匯流排將FTE 1 3連接到其他的介面卡。第一RMS 12 經由CCDL 24連接到其他位於其他

O:\58\58777.ptc 第11頁 486637 ---_88109143__年 Θ 月 /6 g_修正五、發明說明（7) ------- j丨面卡上的RMM。每個RMM含有自己的CCDL 24，以建立個電腦之間的通信連接。透過CCDL連線所建立的通信連接提，額外的延展性，可監控系統中所有介面卡的完整性。在每個計算節點上實行RMM，並將相同的RMjtf互相連接，如此，就可以比其他的容錯系統更有效率地偵測、隔. 離、及處理系統故障。系統架構 - ，圖2是根據本發明的一項具體實施例之以RMS為主的三通道系統架構的示範圖示。於本架構中，r M S與三台 Vehicle Mission Coumputer(VMC)相互連接，而構成冗餘、容錯的系統。每台VMC具有一個VME母板，而VME母板中具有數個單板電腦（single- board computer)。第一RMM 12 被安裝在VMC 1的第一個插槽，而RMM 12及其他應用板之間則是透過VME底板匯流排14通訊。每台VMC從外部 MIL-STD- 1 5 53匯流排取得輸入。三個主要的應用程式 Vehicle Subsystem Manager 16 'Flight Manager 18 、及M i s s i ο η M a n a g e r 2 0計算其功能，然後將重要資料儲存在V Μ E全域性記憶體（請參閱圖7 )中以利表決。 VMC(Vehicle Mission Computer) 1 、VMC 2 、及 VMC 3 板個別的R Μ Μ 1 2、2 2、及3 2 透過VM E 取得資料，並將區域性資料透過交叉通道資料連結（CCD L ) 2 4廣播到其他 RMM。收到這三項資料複本之後，各個RMM(12，22和32)將馨表決並將已表決之資料寫回到V ME全域性記憶體中，以利應用程式使用。系統容錯

O:\58\58777.ptc 第12頁 486637 复號 88109143 修正五、發明說明（8) / RMS中的每個通道被定義為用於故障偵測、隔離、及修 ^ '故 ^ 牽制區（fault containment region ;FCR)。傳通常具有硬體/軟體元件所形成的領域。FCR的豆他區w疋能夠防止故障及錯誤漫延到另一個區域。因為 ;區i ΐ Z 3 ^ t ΐ，程序该測並校正故障，所以相同時發生之故障數量，視系；^用2故的定。針對非Byzantine故障為中^用+1的\故數篁而道數量，f為故障數量。如果=2i+上，其"為無故障通為N = 3fB+1 ’其中N是無故障通道1 1要Byzantine安全性則數量。、數里，fB是Byzantine故障 RMS可容許不同持續時間間歇性故障、及永久性故障。故纟_卩\’々例如：短暫式故障、持續時間，並且隨機性出現及、、=式故障具有^短暫的頻率定期出現及消失。永久性敌=三間歇性故p早以特定的將會無限期存在。於傳統式容=障右沒有採取校f動作，故障元件可縮短故障等待時、曰=統中的設计，嚴格排除資源，而可能無法成功完i;:?太迅速地降λ系統的其性能惡化（penalty)系統的程、大的要/ 1更5又。十〜紅式。不同的性能惡化 (p e n a 11 y )可對照不同的資料芬/ 的高性能惡化（Penalty)權ί二、ί f f誤指派二ρϊ二故障速排除故障通道。相對於/////現此^/# ’ $ (penalty)權值將允許故障通、//早的低性能惡暮化的拄早通道在一段預先定義的時間内

第13 486637 _案號88109143_年Ρ月曰修4_ 五、發明說明（9) 停留在系統中，使故障通道可透過表決校正故障。根據本發明的RMS系統，當性能惡化（Penal ty)超出使用者定義的排斥限定值時，三節點組態中的故障牵制則會隔絕故障通道。當通道良性行為信用量到達可重新許可的限定值時，則可重新許可通道回到操作集。應用程式或通道資料中的衝突都是利用中間值選擇表決解決。於兩節點組態中，RMS無法偵測或隔絕故障節點。就本身而言，表決無法用於解決衝突。應用程式必須確定故障的節點，並採取適當的動作。 RMM實施如上述，各個RMM 12具有兩項子系統：容錯執行（Fault Tolerant Executive ;FTE)及交叉通道資料連結（Cross Channel Data Link ;CCDL) °FTE進一步由五項模組所組成（圖5) :1)同步程式（Synchronizer)80 ;2)表決程式〇〇七。1：)58;3)容錯程式（卩81111:1'〇16131:〇]：;?1^)84;4) 任務通訊程式（Task Communicator ;TSC)46 ;及5)核心 (Kernal ; KRL)52。本文中將說明這些模組的功能。系統同步化同步程式（SYN)80 (圖5)建立並維護系統的通道同步化。每一個RMS在任何時間内都必須在下列五種狀態中的其中一種狀態，或是在其中一種狀態中運作，這五種狀態為：1)關閉電源（Power-Off) ; 2)啟動（Start-Up) ; 3)冷啟動（Cold-Start) ;4)暖啟動（Warm-Start) ; 5)待命狀態 (Steady-State)。圖2顯示個別RMS的狀態轉移圖及其五種狀態。

O:\58\58777.ptc 第14頁 486637 ______案號88109143_年（f月曰修正____ 五、發明說明（10) 關閉電源（Power-Of f)狀態是RMS未運作，且為了任何原因’相關電壓的電源被關閉。當打開RMS電力時，RMS無條件轉變成啟動（St ar t-Up )。啟動（Start-Up)狀態是電腦剛打開電源後，及初始化所有系統參數、初始化RMS定時機制、和建立通道間通訊連接（即，CCDL)時的狀態。完成啟動處理程序時，RMS 無條件轉變成冷啟動（Cold-Start)。 3)冷啟動（Cold-Start)是RMS無法識別現有的操作集 (Operating Set ;0PS)並正在嘗試建立OPS時的狀態。〇ps 是一群參與正常系統操作及表決的節點。當至少有兩個 RMS在〇ps狀態中時，RMS自動從暖啟動（Warm-Start) 轉換成冷啟動（Cold-Start)。暖啟動（Warm-Start)狀態是RMS確認OPS至少含有兩個 RMS，但本機RMS本身不在OPS中。待命狀態（Steady-State)是R MS節點與OPS同步時的狀態。待命狀態（S t e a d y - S t a t e )節點可在〇 P S内或以外。〇 P S 中的每個節點正在執行其正常操作及表決。不包含在〇 p s 中的節點被排除在表決以外，但是〇PS將監視其資料，以確定重新許可該節點的資格。於冷啟動（Cold-Start)中，交作式收歛演算法 (Interactive Convergence Algorithm)用於同步化通道時鐘，而成為操作集（0PS )的收歛式時間組。全部的構件都必須具有關於OPS中構件的一致性檢視，如同同時切換到待命狀態（Steady-State)模式。於待命狀(Steady-State)模式中，每個通道透過系統

O:\58\58777.ptc 第15頁 486637 修正案號 88109143 五、發明說明（11) 狀態（System State ; SS)訊息將其本機時間廣播給所有的通道。為了維持系統同步，每一個通道都會將其本機時鐘動態調整合全域性時鐘。因為R M S屬於訊框同步化的系統，因此RMS具有稱為軟誤差視窗（Soft - Erroe Window ; S E W )之預先決定的時間視窗，以定義可容許的同步偏離。於S E W所形成的時間間隔中’每個無故障的r μ S應收到其他 SS訊息。因為RMS在分散式環境中使用，所以使用SEW 視窗決定參與通道中同步錯誤本身就具有含糊性。請參閱 P· Thambidurai 、Α·Μ· Finn 、R.M· Kieckhafer 、及 C.J· Walter 於 Proc. IEEE 19th International Symposium on Fault-Tolerant Computing 所發表的 r

Clock Synchronization in MAFT」，此處將合併整份内容以作為參考使用。若要解決含糊性，則是使用名為硬誤差視窗（Hard-Error Window ; HEW)的時間視窗。例如：如果通道A收到通道B的時鐘超出通道A的HEW以外，則通道a 報告通道B同步錯誤。但是，如果通道B(收到其自己的以訊息之後）知道其本身的時鐘在HEW内，則通道B合報止通的同步錯誤報告是錯誤的。相互告發之通道的s含糊\生需要由其他通道檢視通道B時鐘解決。如果通道A正確，則其他通道應觀察通道B時間是否已到達其SEW。利用其他通道錯誤報告的證實，系統可以認定通道B為故障的通道。否則，因為通道A偏離錯誤報告中大多數的檢視切定通道A為故障通道。尼所以w 暖啟動（warm-start)是冷啟動（c〇ld — Start)及待命狀離 (Steady - State)之間的中途。通道可能因為故障及錯誤g

486637 — _ 案號 88109143___宁£>年<?月/ 6曰_修正___ 五、發明說明（12) 被排除在0 P S以外。被排除的通道可完成重設，並嘗試與暖啟動（Warm-Start)模式中的操作集重新同步化。一旦通道彳貞測到其已與操作集的全域性時鐘同步化，則可以切換成待命狀態（Steady-State)模式。一旦通道切換成待命狀態（Steady-State)模式，則會監視被排除的通道稍後重新許可回到OPS。 VMC内的時間同步（Time Synchr onization)禾J用定位監控RMS所產生的中斷，而VSM排程程式使用訊框邊界及中間訊框信號排程任務。跨越VMC電腦的時間同步（Time Synchronization)保證來源一致。C C D L時間表示8 M b i t資料連結上所收到的\ μ s 系統資料訊息的時間。FTE從VMC電腦取得RMS系統資料，並表決所收到之訊息的時間，接著將CCDL本機時間調整為表決值。然後’FTE在同步化訊框邊界產生中斷。° '' 系統表決於RMS中，表決是用於故障偵測、隔離、及修復的主技術。F T E中的R M S表決程式（R M S V 〇 t e r ; V T R )針對系統態、錯誤報告及應用資料進行表決。系統狀態的表決'建，類似0 P S及同步模式中構成之系統操作的一致性檢視'。錯誤報告的表決明確陳述關於哪一個通道有誤差行為及些錯誤之性能惡化（p e n a 11 y)應是什麼的一致性音見”'。$ 決應用資料提供校正應用程式所使用的資料輸出。顯示資料表決順序。 Θ R M S資料表決是由副訊框邊界所驅動的循環操作。框是系統中調用任務的最頻繁期間。如圖4所顯示， §

O:\58\58777.ptc

486637 _案號88109143_%年月曰修正五、發明說明（13) 四通道式系統產生副訊框應用資料4 0 ’並將資料儲存在原始資料共用記憶體，也就是儲存在RMM表決所使用的應用資料表4 2。於副訊框邊界4 4，R Μ Μ的任務通訊程式（τ a s k Communicator ; TSC)46使用資料ID順序表 (Data- ID Sequence Table ;DST)48 作為從應用資料表42 讀取資料的指標。DST 48是決定哪一個資料需要在每個副訊框中表決的資料表決排程，並且也包含表決所需的其他相關資訊。讀取資料後，T S C ( T a s k C 〇 m m u n i c a t 〇 r )將資料封包成特定格式’並將資料傳送到C C D L 2 4。C C D L將自己的本機資料廣播到其他通道，也從其他通道接收資料。資料轉移完成後’核心（Kernel ;KRL)52從CCDL 24取得資料’並將該資料儲存在資料複本表（Data Copies Table)56 中，於資料複本表（Data Copies Table)56 有四份資料複本可供表決（即，三份來自於其他RMM的複本，及一份來自於本身RMM的複本）。表決程式（v〇ter，VTR)58 執行表決及偏差檢查。中值選擇演算法用於整數及實數表決，而多數表決演算法則是用於二進位及離散資料表決。資料類型及其相關偏差容許度也是由D S T 4 8所提供，而 DST 48則是被VTR 58所使用，以便選擇適當的表決演算法。表決之資料6 0被儲存在表決資料表（v 〇 t e d d a t a table )62中。於適當的時間内，TSC模組46從表決表62中讀取資料，並將該資料寫回到應用資料表（appl i cat i〇n data table，或疋表決資料共用記憶體）ββ中。此外，輸出資料的位址是由DST 48所提供。針對每項表決之資料，如果系統只剩下兩個操作通道且VTR偵測到有資料不一致

O:\58\58777.ptc 第18頁 H-OOOJ /

58 可旎會在 I 料衝突表（Data Conflict 料衝突旗標。資料衝突表（心式& # C / ^ e 4位於共用記憶體空間中，所以應用程式权體可存取滚格，以確定表、用轾資料表決選項衣决之貝枓疋否有效。資料類型說明表決演算法 ---~~1 預估表決時間帶符號整數 32位元整數中值選擇 ----- 6· 0秒浮點 IEEE單精度浮點中值選擇 5. 3秒不帶符號整數作為文字表決的32位元字 (可用於表決狀態文字中）中值選擇 6.0秒 32位元表決程式壓縮布林的32位元字。作為32個個別布林表決。 ---—.— 多數表決 12秒表格1 表私1為資料表決選項的示範表，其中指定的資料類型疋A N S I Cπ程式語言的標準資料類型。容錯 ' 利用疋義故障牵制區（Fault Containment Region ; FCR)作為每個通道的方式，fcr(即，通道）可證明錯誤只透過訊息交換到其他FCR(即，通道）。請參閱j. Zhou於 1 9 9 2 年7 月在 NSWC Silver Spring MD 舉行之 Proc· Complex Systems Engineering Synthesis and Assessment Workshop 中所發表的「Design Capture for

O:\58\58777.ptc 第19頁 486637 _案號88109143_年#月Μ日修正 _ 五、發明說明（15)

System Dependability」第107-109頁，此處將合併以作為參考使用。透過表決及其他的錯誤偵測機制，容錯 (FLT) 84 (圖5)將錯誤歸納成表格2中所顯示的1 5種類型。一項1 6位元錯誤向量被運用在記錄及報告偵測的錯誤。錯誤向量被封包成錯誤報告訊息並廣播到其他的通道，以用於在每一個副訊框的一致性及修復動作。

O:\58\58777.ptc 第20頁 486637 案號 881091“ 五發明說明（16) 錯誤ID El (保留）錯誤說明 E2 收到無效訊息類型、節點id、或資料ID的 _訊息__ E3 水平或垂直同位元錯誤、錯誤的訊息長度、或已超出訊息限制__ 收到太多的錯誤報告（Error Rep〇rt)或系統越態（System State)訊魚、__ E5硬誤差視窗（Hard-Erroe Window)内收到非SS 訊息、 —------ g從節點收到一個以上的相同資斜__ 遺失SS訊息，或preSYNC/sync未依正確的順序到達 _、硬誤差視窗（Hard-Erroe Window)内未到達SS 吞fL息軟誤差視窗(Soft-Erroe Window)内未到達SS 訊息所收到之SS訊息的副訊框及/或主訊框號碼^ 本機節點的號碼不同 ΐ點的cs¥^7或NSS與表決的css及/或NSS $ —致____ 來自副訊框中節點的錯誤訊泉遺失資料___ jg點所兔圭的資料值與表決值不一致_^ 來自節點的錯誤訊息中所包含的資訊與表決值的資訊不一致_ 一個主節點所~^的錯誤數量已超出預設限制 E4

iTBD 或TBD Ε8 Ε9 Ε10 Ε16 表格2 (錯誤向量表)1111

或TBD 或TBD 4 或 TBD

O:\58\58777.ptc 第21頁 486637 __案號 88109143 f〇年 β 月 K 日五、發明說明（17) 請參閱圖6，FLT 8 4評估（步驟1 0 4 )錯誤來源通道的性能惡化。於每一個副訊框，全部偵測（報告）的錯誤，包含在錯誤報告1 0 0中，使用性能惡化權值表1 0 2指派性能惡化，而性能惡化總和被儲存在遞增式性能惡化言丨&

(Incremental Penalty Count ; I PC)中。區域性 ipc 被評估（步驟104)，並經由CCDL廣播（106)到其他節點。flt84 對I PC (步驟1 0 8 )進行表決，並將表決結果储存#在基底性能惡化計數（Base Penalty Count ;BPC)(步驟 11〇)中。jpC 擷取特殊副訊框的錯誤，而BPC擷取整個任務期間的的累積誤差。計算/儲存BPC之後，將清除IPC向量步\驟112)'，並經由C C D L將B P C廣播（步驟1 1 4 )到其他節點。每一個副訊框也會表決BPC(步驟116)，而FLT84則會使用表決的BPC來確定是否需要性能惡化指派及表決，以確保所有無故障通道針對系統重新設定組態的動作一致。一旦完成對B P C (步驟1 1 6)的表決之後，FLT會確定是否已到達主訊框邊界（步驟1 1 8 )。如果已到達主訊框邊界，則決定重新設定組態系統（步驟1 2 0 )。如果未到達主訊框邊界，則處理程序會返回錯誤報告1 0 0，再重頭開始。系統重新設定組態包括排除系統故障通道及重新許可正常通道。如果故障通道的基底性能惡化計數（Base Penalty Count ;BPC)超出預先決定的限定值，則RMS開始系統新設定組態。於新設定組態期間，系統將操作集重新編組以隔絕故障通道。一旦通道失去操作集中的構件，則表決處理程序中將不再使用資料及系統狀態。被排除的通道需要完成重設處理程式。如果成功完成重設處理程序，

O:\58\58777.ptc 第22頁 ^1S_88109H3_ 、發明說明（18) 五修正化^ ^可以嘗試與操作集重新同步化，如果成功$ + 除的、s可以切換成待命狀態（3"^8(^-31316)模十、同步 ς 2，道可?在待命狀態（steady_state)模式5:被排所^ ^然在彳呆作集以外。現在，通道接收操作隼作，斤^糸統訊息及應用資料。 /、中郎點的复t，集中的所有構件也接收被排除之通道的訊自 ^ =為。視通道的行為而定，排除之通道的卯0 7並監控 = '夕。如果排除之通道維持無故障操作，則装言加決：if定值以下，在下一個主訊框邊界逐Λ mV°應用介一面個重新設定組態’以重新許可通道。 I前RMS實施使用VME匯流排及共用記憶體作為r ;丨面。無論如何，也只有一項可能的實施與農他… 協定可用於實施介面。TSC46 (圖4)的主功能是從指干j訊二二广取得資料，並將該資料封包成特定的格式以提Ϊ通 RMM12使用。完成表決循環時，TSC46將取得表決 ς 並將該資料傳回到應用程式。貝/斗’ R Μ Μ核心圖5顯示根據本發明的一項具體實施例之容錯執行 (fault tolerance executive ; FTE)内容的原理圖。如圖顯示，核心（K e r n e 1 )為R Μ Μ提供全部的監督操作。核心田 (Kerne 1)52管理RMM12的啟動，呼叫適當的功能將目/標"處理器初始化，並載入所有的初始資料。於啟動處理程序期間，核心（Kerne 1 )52利用載入系統組態資料及正確的操作參數的方式’設定C C D L 2 4的組態。核心（κ e r n e 1 ) 5 2利用監

O:\58\58777.ptc 第23頁 486637 __H⑽143_ 和年/月α 口攸工_ 五、發明說明（19) 控多個R Μ Μ的子系統的狀態並於校正期間採取適當動作的方式’管理RMM12操作節點（即，冷啟動（c〇ld — Start)、暖啟動（Warm - Start)、及待命狀態（Steady一state))之間的轉換。核心（K e r n e 1 ) 5 2使用確定型排程演算法，如此可由自含式時基控制全部的「動作」。於時基循環中已知的「計時」’將一直執行該計時的預先決定之動作。核心 (Kernel)按照時間計時協調FTE功能。像是故障偵測、隔離、及修復之類的R M S活動於副訊框中適當的時間内由核心（Kernel )排程。如果RMS頻道變成故障，則受影響的RMM 中之核心（Kernel )52須負責於適當的時間重新啟動該通道。RMS子系統之間及RMS與多個應用電腦之間的全部資料皆由核心（1^]：1^1)52管理及排程。核心（1(61>1161)52指示其他RMM中的子系統準備各種RMS訊息，並將這些訊息載入 CCDL，以便在核心（Kernel )請求下傳遞。CCDL收到訊息後，核心（Kernel )52取出這些訊息，並將訊息送到正確的子系統以利處理。核心（K e r n e 1 )以迴路方式執行，持續執行所排程的每項動作，並監控R MM狀態。容錯執行（Fault Tolerance Executive ;FTE)13 為四個或四個以上的節點提供B y z a n t i n e故障復原性。於來源一致的條件下，By z an t i n e可為三個節點提供安全性。fte 1 3表決應用資料，移除/恢復FTE的應用程式，並將應用程式同步化，和其他R Μ M F T E小於1 0 0秒偏離。

於一項示範性具體實施例中，FTE大約需要4· 08毫秒 (4 0 %使用率）的時間表決1 5 〇字及執行作業系統功能。F Τ Ε 記憶體是〇· 4 MB快閃記憶體（FI ash，5%使用率）及〇. 4 MB

486637 p年左月仏曰 -S^_88109143 五、發明說明（20) 知道（，k二，Ϊ )。這些數值已提供作為示範用途。必須姜f 在不需要變更本發明的範疇下，項平常技巧可改變這些數值。 ^ t的其中 RMS内容滋圖ί二ΐ ϊ ϋ環境中，rms及vmc之間的rms内容或交換結 β構。X内所轉移的結構包括在ms訊框邊界（RMS Frame Boundary)傳遞的RMS系統資#(RMS以以㈣ 2像是指出誰在操作集之中和以外操作的表決之'目前，下包二個糸統狀態、及在兩個節點組態中使用的等之類的資訊。資料衝突表（Data Conflict Table)在^ 個節點組態中使用，其以對等資料元素為基準，指出益解決的資料衝突。表決資料表6 2包含一個操作集構件^表決所提供每項資料元素的表決值。RMS系統資料（RMS 、及

System Data)、資料衝突表（Data Conflict Table) 表決之輸出（Voted Output)被個別RMM轉移到全域性 (Global )共用記憶體，其中全域性（Global )共用記憶體在 RMM操作時會與區域性VMC通訊。力，並轉移到RMS，該應用程式可以影響RMS決定操作集時所評估的誤差性能惡化（e r r 〇 r p e n a 11 y )。 ' 訊框（Frame)邊界資訊包括發出RMS訊框開始信號的中斷。此項信號訊框將FM(Flight Manager)、VSM(Vehicle Subsystem Manager)、及 MM(Mission Manager)同步匕 0 能原始輸出（Raw Output)是向RMS所提出的資料，以提供待命狀態（Steady-State)模式中的所有節點表決。應用程式錯誤計數（Application Error Count)是系統選擇性的

O:\58\58777.ptc 第25頁 486637 _案號 88109143_年 f 月 β 曰_____ 五、發明說明（21) 中間訊框資訊是另一項提供訊框開始後5亳秒之信號的中斷。應用程式資料備妥（Application Data Ready) 資訊包括RMS所產生的中斷，以信號通知應用程式資料在等待中，並可以取出及處理該資訊。系統重設（S y s t e m R e s e t) 是選擇性控制重設後可使用應用程式。交叉通道資料連結（Cross Channel Data Link ;CCDL) C C D L 2 4提供通道之間的資料通訊。資料被封包成訊息，圖8中顯示該訊息結構。如圖所顯示，訊息結構包括表頭、及按照所傳送及接收的訊息類型的各種訊息類型。下列訊息類型使用於本發明一實施例中：類型0 資料訊息。類型1 系統狀態訊息。類型2 冷啟動訊息。類型3 錯誤報告與性能惡化計數訊息。每個CCDL24具有一個發送器及最多八個接收器。圖 9-1 1中顯示CCDL高層架構、發送器及接收器原理。圖9顯示高層CCDL架構，其包括一個發送器70、四個接收器 72a-72d、及兩個使用DY4 MaxPac 中層協定的介面74a及 74b。一個介面74b有助於基本V ME卡及CCDL記憶體之間的資料交換，而一個介面74a則處理控制邏輯及錯誤報告產生。需要傳送資料時，CCDL介面74b從基本卡取得資料，並將該資料儲存到8位元發送器記憶體7 6。收到資料時，四個接收器7 2 a - 7 2 d分別針對每個節點，在四個接收器記憶體7 8a-7 8d中處理並儲存所收到的資料。然後，FTE1 3在 CCDL24的控制下取得該資料。因為CCDL是建立通道之間實

O:\58\58777.ptc 第26頁 486637 ___案號 88109143_竹）年$月16曰_修正__ 五、發明說明（22) 體連接的唯一子系統，所以為了保證系統的故障牽制區 (Fault Containment Region)，必須強迫執行電子絕緣。本CCDL使用電子到光學間的轉換，將電子信號轉換成光信號。每個接收器72a - 72d具有相應的光隔離器73a-73d，以提供必要的隔離功能。如此，使每一個通道都可以具有自己的電源供應，並且每一個通道彼此之間互相絕緣。圖1 0顯示根據本發明的一項具體實施例之發送器7 〇架構的更詳細圖示。FEL發出「GO」指令時，發送器控制邏輯 8 0從其8位元發送機記憶體7 6讀取資料、將該資料構成3 2 位元格式、並將一個水平字附加到資料的結尾後。移位暫存器電路8 2將資料轉換成序列位元串，並將垂直同位位元插入傳送的資料串·中。圖1 1顯示如何從傳送模式接收序列資料串，及如何將序列資料串儲存到對應的記憶體。位元中心（Bit Center) 邏輯90使用6系統時鐘（即，48MHz)循環以一個資料位元為單位確實記錄。收到資料串的第一個位元時，時間戳記 (Time Stamp)邏輯92記錄時間，以用於同步化用途。移位電路9 4除去垂直同位位元，並將序列資料轉換成8位元格式。垂直位元顯示傳輸錯誤時應報告錯誤。控制邏輯96進一步除去資料的水平同位元，並按照資料隨附的節點號碼資訊，將該資料儲存到接收器記憶體（例如，7 8a )。為了加強通訊的可靠度，水平及垂直同位位元都會附加到資料訊息中。訊息格式是由CCDL24所確認，並且只有有效訊息才會傳送到核心（K e r n e 1 ) 5 2，以利進一步處理。應知道本發明並未限制此處所發表的特殊具體實施例，

O:\58\58777.ptc 第27頁 486637 修正案號 88109143 五、發明說明（23) 作為執行本發明的最佳模式，更確切地說，除了附加的申請專利以外，本發明並未限制本規格書中所說明的特定具體實施例。

O:\58\58777.ptc 第28頁 486637 _案號88109143_f〇年月（么日修正圖式簡單說明

O:\58\58777.ptc 第29頁

Claims

486637 _案號88109143_fb年（f月（6日修正_ 六、申請專利範圍 1 · 一種管理具有多重硬體計算節點（通道）之以電腦為主的冗餘系統的方法，其包含下列步驟：在每個計算節點提供一冗餘管理系統（RMS); 於每個RMS之間建立一通訊連結，以及於每個RMS中執行容錯執行（FTE)，以管理故障及多數的糸統功能。 2 .如申請專利範圍第1項之方法，更包括將系統中每個計算節點同步化的步驟，該同步化步驟是由F T E執行，並由下列步驟所組成：於每個RMS中提供一個時鐘；將每個RMS中的區域性時間與全部其他節點交換；以及按照表決之系統時鐘，調整每一個R M S個別的區域性時鐘。 3. 如申請專利範圍第1項之方法，更包括偵測節點中所產生之資料的故障/錯誤，該偵測及預防步驟進一步包含下列步驟：由每個節點對產生的資料進行表決，以確定一個節點所產生的資料與否與多數表決的資料不同；以及當一特殊節點所產生的資料與多數表決的資料不同時，則使用表決的資料作為輸出，以遮蔽故障。 4. 如申請專利範圍第1項之方法，其中於每個計算節點提供RMS所執行的步驟與應用程式發展無關。 5 ·如申請專利範圍第1項之方法，其中建立步驟是利用

O:\58\58777.ptc 第30頁 486637 修正案號 88109143 六、申請專利範圍合併每個計算節點的RMS之間的一交叉通道資料連結 (CCDL)的方式執行。 6 ·如申請專利範圍第1項之方法，進一步包括下列步驟：將每個計算節點（通道）定義為故障牽制區（f au 11 containment region); 偵測計算節點中所產生之資料的故障/錯誤；以及隔離故障牽制區所偵測的故障，以防止所偵測的故障漫延到另一個計算節點。 7. 如申請專利範圍第6項之方法，其中偵測步驟進一步包括由每個節點對產生之資料進行表決的步驟，以確定一個節點所產生的資料與否與多數表決的資料不同。 8. 如申請專利範圍第7項之方法，其中隔離步驟進一步包括，一特殊節點所產生的資料與多數表決的資料不同時使用表決之資料作為輸出的步驟，以遮蔽故障。 9 ·如申請專利範圍第3項之方法，進一步包括下列的步驟：識別一故障節點，以響應資料表決結果；由全域性性能惡化（p e na 11 y )系統識別並懲罰故障節點；以及當故障節點的性能惡化（pe na 11 y )超出使用者定義之容錯範圍時，將所識別的故障節點排除節點操作集以外。 1 0 .如申請專利範圍第9項之方法，進一步包括下列的步驟：

O:\58\58777.ptc 第31頁 486637 _案號88109143_fo年孑月β曰_修正 _ 六、申請專利範圍監視被排除之節點的資料，以確定被排除之節點的資格是否可以重新許可進入操作集；以及當監控指出節點可接受的效能在預先決定的限制值内時，則可重新許可被排除之節點進入操作集。 1 1 .如申請專利範圍第1 0項之方法，其中預先決定之限制值是由系統操作員所定義。 1 2 . —種在具有多數計算節點（通道）之計算環境中容錯計算的方法，其包括下列步驟：在與應用程式無關的每個計算節點中執行冗餘管理系統（RMS); 於每個RMS之間通訊；以及維護節點操作集（OPS )以增加計算環境的容錯度。 1 3.如申請專利範圍第1 2項之方法，其中通訊步驟是在交叉通道資料連結（CCDL)上執行。 1 4.如申請專利範圍第1 3項之方法，其中通訊步驟進一步包括下列的步驟：利用介面將CCDL與個別RMS的節點連接；於CCDL中提供多數接收器，以便於個別接收每一個多數節點的資料；於CCDL中至少提供一個發送器，以便於處理所接收的資料，並將所接收的資料傳遞到位於RMS中的容錯執行 (FTE);以及必須時至少提供一個接收器記憶體及至少一個發送器記憶體，以接收並儲存個別的資料。

O:\58\58777.ptc 第32頁 486637 _案號88109143_和年孑月U曰_魅_ 六、申請專利範圍 1 5 .如申請專利範圍第1 2項之方法，其中維護節點的一操作集的步驟是在位於RMS内的容錯執行（FTE)所執行，並可進一步包括下列的步驟：接收計算環境中所連接之每一個節點的資料；確定從任何一個節點所接收之資料是否含有故障；關於其他所收到的資料，將排除產生之錯誤的資料；以及重新設定操作集組態，以排除錯誤的節點。 1 6.如申請專利範圍第1 5項之方法，其中確定步驟進一步包括下列的步驟：設定錯誤資料的容許範圍；對所收到之每個節點的全部資料進行表決；確定節點的錯誤資料是否已超出容許範圍。 1 7.如申請專利範圍第1 5項之方法，進一步包括下列的步驟：監控被排除之節點；以及當監控之資料指出已校正被排除之節點上的錯誤資料時，重新許可被排除之節點進行操作集。 1 8.如申請專利範圍第1 6項之方法，其中表決步驟於資料傳輸中每一個副訊框邊界上執行。 1 9 .如申請專利範圍第1 5項之方法，其中重新設定組態步驟是於資料傳輸中每一個主訊框邊界上執行。 2 0 · —種管理具有多重硬體計算節點（通道）之以電腦為主的冗餘系統的裝置，包含：

O:\58\58777.ptc 第33頁 486637 _案號88109143_7〇年（P月W曰修正_ 六、申請專利範圍於每個計算節點中提供冗餘管理系統（RMS)的裝置；於每個RMS之間建立一通訊連結的裝置，以及於每個RMS中執行容錯執行（FTE)，以管理故障及多數的糸統功能。 2 1 .如申請專利範圍第2 0項之裝置，其中建立一通訊連結的裝置包含一連接到每個計算節點中每個冗餘管理系統的交叉通道資料連結。 2 2 .如申請專利範圍第2 0項之裝置，進一步包括：偵測任何一個節點中所產生之資料中的故障/錯誤；以及將節點範圍内所偵測的故障/錯誤與所產生的故障/錯誤隔離的裝置。 2 3.如申請專利範圍第2 2項之裝置，其中偵測裝置進一步包含對每個節點所產生的資料進行表決的裝置，以確定一個節點所產生的資料與否與多數表決的資料不同。 24.如申請專利範圍第23項之裝置，其中隔離裝置進一步包括使用表決之資料遮蔽與多數表決不同之節點所產生之故障的裝置。

O:\58\58777.ptc 第34頁