TW486637B - Method and apparatus for managing redundant computer-based systems for fault tolerant computing - Google Patents

Method and apparatus for managing redundant computer-based systems for fault tolerant computing Download PDF

Info

Publication number
TW486637B
TW486637B TW088109143A TW88109143A TW486637B TW 486637 B TW486637 B TW 486637B TW 088109143 A TW088109143 A TW 088109143A TW 88109143 A TW88109143 A TW 88109143A TW 486637 B TW486637 B TW 486637B
Authority
TW
Taiwan
Prior art keywords
data
node
rms
scope
patent application
Prior art date
Application number
TW088109143A
Other languages
English (en)
Inventor
Jeffrey Xiaofeng Zhou
Iii Thomas Gilbert Roden
Louis P Bolduc
Dar-Tzen Peng
James W Ernst
Original Assignee
Allied Signal Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Allied Signal Inc filed Critical Allied Signal Inc
Application granted granted Critical
Publication of TW486637B publication Critical patent/TW486637B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/18Error detection or correction of the data by redundancy in hardware using passive fault-masking of the redundant circuits
    • G06F11/187Voting techniques
    • G06F11/188Voting techniques where exact match is not required
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/18Error detection or correction of the data by redundancy in hardware using passive fault-masking of the redundant circuits
    • G06F11/181Eliminating the failing redundant component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/18Error detection or correction of the data by redundancy in hardware using passive fault-masking of the redundant circuits
    • G06F11/182Error detection or correction of the data by redundancy in hardware using passive fault-masking of the redundant circuits based on mutual exchange of the output between redundant processing components

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)

Description

486637 _案號88109143_f〇年f月Μ曰 修正_ 五、發明說明(1) 發明背景 發明範疇 本發明與計算環境有關,特別是與管理以電腦為主之冗 餘系統的容錯計算之方法有關。 發明背景 容錯計算保證校正系統中所存在之故障與錯誤的計算結 果。冗餘的運用是容錯的主要方法。有許多不同的方法可 以管理硬體、軟體、資訊、及時間的冗餘。因為有各種演 算法及實施方法,而導致目前大部份的系統使用專有的冗 餘管理設計,而這些設計通常與應用軟體及硬體交互編 織。與冗餘管理交互編織的應用程式建立更複雜的系統, 並嚴重降低系統的延展性。 發明總結 因此,本發明的一項物件提供管理以電腦為主之冗餘系 統的方法,且該系統不會與應用程式交互編織,並且提供 分散式計算環境的額外延展性。 按照本發明的一項具體實施例,冗餘計算系統是使用多 重硬體計算節點(或通道)的方法所建構,並且在分散式環 境内的每個個別的節點中安裝冗餘管理模組(R Μ Μ )。 RMS是透過一組演算法、資料結構、操作處理程序、及 每個計算系統中處理單元應用的設計所實施的冗餘管理計 晝方法。RMS 已廣泛應用在需要高系統可信性的各種領域 中,例如:航空、關鍵控制系統、電信、電腦網路、等 等。 RMS的實施在實體或邏輯上與應用程式發展分開。如
O:\58\58777.ptc 第6頁 ^86637
Γ^88ΐ〇ϋϋ 知口/n兄明U) 杰Μ發者 此,可降低設計系統的複雜性。就本身而言,系統*rMS 可獨立設計應用程式,並信賴RMS提供冗餘管理功能Μ。的 與應用程式整含是利用可程式匯流排介面協定將各 ' RMM連接到應角處理器而達成。 g户錯 RMM包括一頊交叉通道資料連結(CCDL)模組及一項 執行(FTE)模組。CCDL提供全部通道的資料通Λ 類的 執行同化步、表決、故障及錯誤偵測、隔離及修後f系統 系統功能。透過表決偵測並遮蔽差錯資枓的方f實^二、 容錯,並利用外動態設定架構組態的方式確保ί統=$系 性,也就是排除系統故障節點並重新許可正常節點"’ 統的能力。 、人、漆施, RMS可用硬體、軟體、或組合軟硬體(即,混:/统一起 並與具有處理元件故障之冗餘計算資源的分,ΐ ΐ ίι有 運作。視系統圩靠度及容錯需求而定,分散式糸處田声理 2到Μ固通道(或節點)。通道是由一個RMM及一個應用處/於 器所組成。通道透過數個CCDL相互連接在一起而構成几餘 整體計算系統。因為通道内各別的應用程式並不完全知道 其他通^的活動,所以RMM提供系統同步化、維護資料一 致性、並形成系統中各種地點所發生之故障及錯誤的整體 糸統一致。 圖式簡單說明 參考下列的詳細說明並配合附圖,可迅速且清楚地認識 本發明的完整評論,以及其隨附的優點,圖中相似的g ^ 指示相同或相似的元件,其中 〜 圖1是根據本發明的一項具體實施例之冗餘管理李、統#
O:\58\58777.ptc 第7頁
486637 修正 案號 88109143 五、發明說明(3) 方塊圖; 圖2是根據本發明的一項示範性具體實施例之以RMS為主 的三通道容錯系統的方塊圖; 圖3是根據本發明的一項具體實施例之冗餘管理系統的 狀態轉移圖; 圖4是根據本發明的一項具體實施例之冗餘管理系統中 應用程式交互作用及表決處理程序的方塊圖; 圖5是根據本發明的一項具體實施例之容錯執行(f au 11 tolerance executive ;FTE)内容的原理圖; 圖6是根據本發明的一項具體實施例之容錯器(F LT )所執 行的表決及性能惡化(p e n a 11 y)指派處理程序的方塊圖; 圖7是根據本發明的一項具體實施例之冗餘管理系統情 況的原理圖; 圖8是根據本發明的一項具體實施例之交叉通道資料連 結訊息結構的圖式; 圖9是根據本發明的一項具體實施例之交叉通道資料連 結上層架構的方塊圖; 圖1 0是根據本發明的一項具體實施例之交叉通道資料連 結發送器的方塊圖; 圖1 1是根據本發明的一項具體實施例之交叉通道資料連 結接收器的方塊圖; 圖式主要元件符號說明 1 0 三通道RMS基架構 1 2冗餘管理系統,VMC-1
O:\58\58777.ptc 第8頁 486637 _案號88109143_年#月(日 修正 五、發明說明(4) 1 3容錯執行 14VME底板匯流排 16 V e h i c1e Subsystem Manager 18F1i ght Manager 2 0 M i s s i on Manager 22冗餘管理系統,VMC-2 24交叉通道資料連結(CCDL) 32冗餘管理系統,VMC-3 4 0應用資料 4 2應用資料表 4 4副訊框邊界 4 6任務通訊程式(T S C ) 48資料ID順序表(DST) 52 核心(KRL) 5 6資料副本表 5 8表決程式 6 0表決之資料 6 2表決資料表 6 4資料衝突表 6 6表決資料共用記憶體 7 0發送器 72a-d接收器 73a-d光隔離器 7 4 a - b介面 7 6 8位元發送器記憶體
O:\58\58777.ptc 第9頁 486637 _ 案號88109143_p年<P月仏曰 修正_ 五、發明說明(5) 7 8 a - d接收器記憶體 8 0同步程式 82移位暫存器電路 84容錯程式(FLT) 9 0位元中心邏輯 9 2時間戳記邏輯 9 4移位電路 9 6控制邏輯 發明之詳細說明 據本發明的一項具體實施例,冗餘管理系統(RMS)提供 下列的冗餘管理功能:1)交叉通道資料通信;2)以訊框為 主的系統同步化;3 )資料表決;4)故障及錯誤偵測、隔離 及修復;5 )容退化及自行修復。 交叉通道資料通信功能是由CCDL模組所提供。CCDL模組 具有一個發送器及最多八個序串列的接收器。CCDL模組從 自己的本機通道取得資料,並將資料廣播到包括本身通道 的所有通道。通信資料被封裝成特定的訊息格式,並使用 同位元偵測傳輸錯誤。為了保持通道之間的電子絕緣,所 以全部的CCDL接收器使用電子對光學間的轉換。因此,沒 有任何單一的接收器故障可以越過其他通道接收器的漏極 電流,而造成整個系統的共同模型故障。 RMS是以訊框為主的同步化系統。每個RMS系統具有自己 的時間,且利用與全部的通道交換其本機時間並按照表決 時鐘調整本機時間的方式來實現系統同步化。分散式協議 演算法用於依據任何類型的故障(包括:Byzantine 故障)
O:\58\58777.ptc 第10頁 486637 _ 索龜_M119143 p 主 P q /乙 α 修i------ 五、發明說明(6) 建立故障的全域性時鐘。 R M S採用資料表決作為故障偵測、隔離及修復的主要機 制。如果通道所產生的資料與多數表決的資料不同時,表 決的資料將作為輸出來遮蔽故障。故障通道將由王域性性 能惡化(penal ty)系統識別並懲罰。資料表決包括應用程 式^源及系統狀態資料。RMS支援異質計算系統’其中因 為分集式硬體與軟體,導致無故障通道並不保證產生完全 相同的資料(包括資料影像)。使用者定義的容許範圍定義 表決處理程序中出現資料偏差的差錯行為° RMS支援容退化,其方式是利用從一群定義操作集的同 步化且無故障之通道中排除故障通道。設計性能惡化 (penal ty)系統的目的是為了懲罰任何故障的通道所犯的 差錯行為。故障通道超出其性能惡化(penal ty)限定值 時,其他的無故障通道將其本身的組態重新設定成新的操 作集,來排除最近識別的故障通道。不允許被排除的通道 參與資料表決且其資料只能作為監控用途。RMS也透過動 態重新設定組態的方式,而具有重新許可正常通道回到操 作集的能力。自行修復功能使RMS可以為擴充式任務保存 系統資源。 圖1顯示根據本發明具體實施例之RMS系統的上層方塊 圖。RMM 12包括一項交叉通道資料連結(CCDL) 24,及一 項容錯執行(FTE) 13 cFTE 13 位於 VME(Versa Module E:uropa)介面卡上或其他單主機板電腦上,並且經由VME底 板匯流排或其他適合的資料匯流排將FTE 1 3連接到其他 的介面卡。第一RMS 12 經由CCDL 24連接到其他位於其他
O:\58\58777.ptc 第11頁 486637 ---_88109143__年 Θ 月 /6 g_修正 五、發明說明(7) ------- j丨面卡上的RMM。每個RMM含有自己的CCDL 24,以建立個 電腦之間的通信連接。透過CCDL連線所建立的通信 連接提,額外的延展性,可監控系統中所有介面卡的完整 性。在每個計算節點上實行RMM,並將相同的RMjtf互相連 接,如此,就可以比其他的容錯系統更有效率地偵測、隔. 離、及處理系統故障。 系統架構 - ,圖2是根據本發明的一項具體實施例之以RMS為主的三通 道系統架構的示範圖示。於本架構中,r M S與三台 Vehicle Mission Coumputer(VMC)相互連接,而構成冗 餘、容錯的系統。每台VMC具有一個VME母板,而VME母板 中具有數個單板電腦(single- board computer)。第一RMM 12 被安裝在VMC 1的第一個插槽,而RMM 12及其他應用板 之間則是透過VME底板匯流排14通訊。每台VMC從外部 MIL-STD- 1 5 53匯流排取得輸入。三個主要的應用程式 Vehicle Subsystem Manager 16 'Flight Manager 18 、 及M i s s i ο η M a n a g e r 2 0計算其功能,然後將重要資料儲 存在V Μ E全域性記憶體(請參閱圖7 )中以利表決。 VMC(Vehicle Mission Computer) 1 、VMC 2 、及 VMC 3 板個別的R Μ Μ 1 2、2 2、及3 2 透過VM E 取得資料,並將區 域性資料透過交叉通道資料連結(CCD L ) 2 4廣播到其他 RMM。收到這三項資料複本之後,各個RMM(12,22和32)將馨 表決並將已表決之資料寫回到V ME全域性記憶體中,以利 應用程式使用。 系統容錯
O:\58\58777.ptc 第12頁 486637 复號 88109143 修正 五、發明說明(8) / RMS中的每個通道被定義為用於故障偵測、隔離、及修 ^ '故 ^ 牽制區(fault containment region ;FCR)。傳 通常具有硬體/軟體元件所形成的領域。FCR的 豆他區w疋能夠防止故障及錯誤漫延到另一個區域。因為 ;區i ΐ Z 3 ^ t ΐ,程序该測並校正故障,所以相 同時發生之故障數量,視系;^用2故的 定。針對非Byzantine故障為中^用+1的\故數篁而 道數量,f為故障數量。如果=2i+上,其"為無故障通 為N = 3fB+1 ’其中N是無故障通道1 1要Byzantine安全性則 數量。 、數里,fB是Byzantine故障 RMS可容許不同持續時間 間歇性故障、及永久性故障。故纟_卩\’々例如:短暫式故障、 持續時間,並且隨機性出現及、、=式故障具有^短暫的 頻率定期出現及消失。永久性敌=三間歇性故p早以特定的 將會無限期存在。於傳統式容=障右沒有採取校f動作, 故障元件可縮短故障等待時、曰=統中的設计,嚴格排除 資源,而可能無法成功完i;:?太迅速地降λ系統的 其性能惡化(penalty)系統的程、大的要/ 1更5又。十 〜紅式。不同的性能惡化 (p e n a 11 y )可對照不同的資料芬/ 的高性能惡化(Penalty)權ί二、ί f f誤指派二ρϊ二故障 速排除故障通道。相對於/////現此^/# ’ $ (penalty)權值將允許故障通、//早的低性能惡暮化的拄 早通道在一段預先定義的時間内
第13 486637 _案號88109143_年Ρ月曰 修4_ 五、發明說明(9) 停留在系統中,使故障通道可透過表決校正故障。 根據本發明的RMS系統,當性能惡化(Penal ty)超出使用 者定義的排斥限定值時,三節點組態中的故障牵制則會隔 絕故障通道。當通道良性行為信用量到達可重新許可的限 定值時,則可重新許可通道回到操作集。應用程式或通道 資料中的衝突都是利用中間值選擇表決解決。 於兩節點組態中,RMS無法偵測或隔絕故障節點。就本 身而言,表決無法用於解決衝突。應用程式必須確定故障 的節點,並採取適當的動作。 RMM實施 如上述,各個RMM 12具有兩項子系統:容錯執行(Fault Tolerant Executive ;FTE)及交叉通道資料連結(Cross Channel Data Link ;CCDL) °FTE進一步由五項模組所組 成(圖5) :1)同步程式(Synchronizer)80 ;2)表決程式 〇〇七。1:)58;3)容錯程式(卩81111:1'〇16131:〇]:;?1^)84;4) 任務通訊程式(Task Communicator ;TSC)46 ;及5)核心 (Kernal ; KRL)52。本文中將說明這些模組的功能。 系統同步化 同步程式(SYN)80 (圖5)建立並維護系統的通道同步 化。每一個RMS在任何時間内都必須在下列五種狀態中的 其中一種狀態,或是在其中一種狀態中運作,這五種狀態 為:1)關閉電源(Power-Off) ; 2)啟動(Start-Up) ; 3)冷 啟動(Cold-Start) ;4)暖啟動(Warm-Start) ; 5)待命狀態 (Steady-State)。圖2顯示個別RMS的狀態轉移圖及其五種 狀態。
O:\58\58777.ptc 第14頁 486637 ______案號88109143_年(f月曰 修正____ 五、發明說明(10) 關閉電源(Power-Of f)狀態是RMS未運作,且為了任何原 因’相關電壓的電源被關閉。當打開RMS電力時,RMS無 條件轉變成啟動(St ar t-Up )。 啟動(Start-Up)狀態是電腦剛打開電源後,及初始化所 有系統參數、初始化RMS定時機制、和建立通道間通訊連 接(即,CCDL)時的狀態。完成啟動處理程序時,RMS 無條 件轉變成冷啟動(Cold-Start)。 3)冷啟動(Cold-Start)是RMS無法識別現有的操作集 (Operating Set ;0PS)並正在嘗試建立OPS時的狀態。〇ps 是一群參與正常系統操作及表決的節點。當至少有兩個 RMS在〇ps狀態中時,RMS自動從暖啟動(Warm-Start) 轉換 成冷啟動(Cold-Start)。 暖啟動(Warm-Start)狀態是RMS確認OPS至少含有兩個 RMS,但本機RMS本身不在OPS中。 待命狀態(Steady-State)是R MS節點與OPS同步時的狀 態。待命狀態(S t e a d y - S t a t e )節點可在〇 P S内或以外。〇 P S 中的每個節點正在執行其正常操作及表決。不包含在〇 p s 中的節點被排除在表決以外,但是〇PS將監視其資料,以 確定重新許可該節點的資格。 於冷啟動(Cold-Start)中,交作式收歛演算法 (Interactive Convergence Algorithm)用於同步化通道 時鐘,而成為操作集(0PS )的收歛式時間組。全部的構件 都必須具有關於OPS中構件的一致性檢視,如同同時切換 到待命狀態(Steady-State)模式。 於待命狀(Steady-State)模式中,每個通道透過系統
O:\58\58777.ptc 第15頁 486637 修正 案號 88109143 五、發明說明(11) 狀態(System State ; SS)訊息將其本機時間廣播給所有的 通道。為了維持系統同步,每一個通道都會將其本機時鐘 動態調整合全域性時鐘。因為R M S屬於訊框同步化的系 統,因此RMS具有稱為軟誤差視窗(Soft - Erroe Window ; S E W )之預先決定的時間視窗,以定義可容許的同步偏離。 於S E W所形成的時間間隔中’每個無故障的r μ S應收到其他 SS訊息。因為RMS在分散式環境中使用,所以使用SEW 視窗決定參與通道中同步錯誤本身就具有含糊性。請參閱 P· Thambidurai 、Α·Μ· Finn 、R.M· Kieckhafer 、及 C.J· Walter 於 Proc. IEEE 19th International Symposium on Fault-Tolerant Computing 所發表的 r
Clock Synchronization in MAFT」,此處將合併整份内 容以作為參考使用。若要解決含糊性,則是使用名為硬誤 差視窗(Hard-Error Window ; HEW)的時間視窗。例如:如 果通道A收到通道B的時鐘超出通道A的HEW以外,則通道a 報告通道B同步錯誤。但是,如果通道B(收到其自己的以 訊息之後)知道其本身的時鐘在HEW内,則通道B合報止通 的同步錯誤報告是錯誤的。相互告發之通道的s含糊\生 需要由其他通道檢視通道B時鐘解決。如果通道A正確,則 其他通道應觀察通道B時間是否已到達其SEW。利用其他通 道錯誤報告的證實,系統可以認定通道B為故障的通道。 否則,因為通道A偏離錯誤報告中大多數的檢視切 定通道A為故障通道。 尼所以w 暖啟動(warm-start)是冷啟動(c〇ld — Start)及待命狀離 (Steady - State)之間的中途。通道可能因為故障及錯誤g
486637 — _ 案號 88109143___宁£>年<?月/ 6曰_修正___ 五、發明說明(12) 被排除在0 P S以外。被排除的通道可完成重設,並嘗試與 暖啟動(Warm-Start)模式中的操作集重新同步化。一旦通 道彳貞測到其已與操作集的全域性時鐘同步化,則可以切換 成待命狀態(Steady-State)模式。一旦通道切換成待命 狀態(Steady-State)模式,則會監視被排除的通 道稍後重新許可回到OPS。 VMC内的時間同步(Time Synchr onization)禾J用定位監 控RMS所產生的中斷,而VSM排程程式使用訊框邊界及中間 訊框信號排程任務。 跨越VMC電腦的時間同步(Time Synchronization)保證 來源一致。C C D L時間表示8 M b i t資料連結上所收到的\ μ s 系統資料訊息的時間。FTE從VMC電腦取得RMS系統資料, 並表決所收到之訊息的時間,接著將CCDL本機時間調整為 表決值。然後’FTE在同步化訊框邊界產生中斷。° '' 系統表決 於RMS中,表決是用於故障偵測、隔離、及修復的主 技術。F T E中的R M S表決程式(R M S V 〇 t e r ; V T R )針對系統 態、錯誤報告及應用資料進行表決。系統狀態的表決'建, 類似0 P S及同步模式中構成之系統操作的一致性檢視'。 錯誤報告的表決明確陳述關於哪一個通道有誤差行為及 些錯誤之性能惡化(p e n a 11 y)應是什麼的一致性音見”'。$ 決應用資料提供校正應用程式所使用的資料輸出。 顯示資料表決順序。 Θ R M S資料表決是由副訊框邊界所驅動的循環操作。 框是系統中調用任務的最頻繁期間。如圖4所顯示, §
O:\58\58777.ptc
486637 _案號88109143_%年月曰 修正 五、發明說明(13) 四通道式系統產生副訊框應用資料4 0 ’並將資料儲存在原 始資料共用記憶體,也就是儲存在RMM表決所使用的應用 資料表4 2。於副訊框邊界4 4,R Μ Μ的任務通訊程式(τ a s k Communicator ; TSC)46使用資料ID順序表 (Data- ID Sequence Table ;DST)48 作為從應用資料表42 讀取資料的指標。DST 48是決定哪一個資料需要在每個副 訊框中表決的資料表決排程,並且也包含表決所需的其他 相關資訊。讀取資料後,T S C ( T a s k C 〇 m m u n i c a t 〇 r )將資料 封包成特定格式’並將資料傳送到C C D L 2 4。C C D L將自己 的本機資料廣播到其他通道,也從其他通道接收資料。資 料轉移完成後’核心(Kernel ;KRL)52從CCDL 24取得資 料’並將該資料儲存在資料複本表(Data Copies Table)56 中,於資料複本表(Data Copies Table)56 有 四份資料複本可供表決(即,三份來自於其他RMM的複本, 及一份來自於本身RMM的複本)。表決程式(v〇ter,VTR)58 執行表決及偏差檢查。中值選擇演算法用於整數及實數表 決,而多數表決演算法則是用於二進位及離散資料表決。 資料類型及其相關偏差容許度也是由D S T 4 8所提供,而 DST 48則是被VTR 58所使用,以便選擇適當的表決演算 法。表決之資料6 0被儲存在表決資料表(v 〇 t e d d a t a table )62中。於適當的時間内,TSC模組46從表決表62中 讀取資料,並將該資料寫回到應用資料表(appl i cat i〇n data table,或疋表決資料共用記憶體)ββ中。此外,輸 出資料的位址是由DST 48所提供。針對每項表決之資料, 如果系統只剩下兩個操作通道且VTR偵測到有資料不一致
O:\58\58777.ptc 第18頁 H-OOOJ /
58 可旎會在 I 料衝突表(Data Conflict 料衝突旗標。資料衝突表(心 式& # C / ^ e 4位於共用記憶體空間中,所以應用程 式权體可存取滚格,以確定表 、用轾 資料表決選項 衣决之貝枓疋否有效。 資料類型 說明 表決演算法 ---~~1 預估表決時間 帶符號整數 32位元整數 中值選擇 ----- 6· 0秒 浮點 IEEE單精度浮點 中值選擇 5. 3秒 不帶符號整數 作為文字表決的32位元字 (可用於表決狀態文字中) 中值選擇 6.0秒 32位元表決程式 壓縮布林的32位元字。作 為32個個別布林表決。 ---—.— 多數表決 12秒 表格1 表私1為資料表決選項的示範表,其中指定的資料類型 疋A N S I Cπ程式語言的標準資料類型。 容錯 ' 利用疋義故障牵制區(Fault Containment Region ; FCR)作為每個通道的方式,fcr(即,通道)可證明錯誤只 透過訊息交換到其他FCR(即,通道)。請參閱j. Zhou於 1 9 9 2 年7 月在 NSWC Silver Spring MD 舉行之 Proc· Complex Systems Engineering Synthesis and Assessment Workshop 中所發表的「Design Capture for
O:\58\58777.ptc 第19頁 486637 _案號88109143_年#月Μ日 修正 _ 五、發明說明(15)
System Dependability」第107-109頁,此處將合併以作 為參考使用。透過表決及其他的錯誤偵測機制,容錯 (FLT) 84 (圖5)將錯誤歸納成表格2中所顯示的1 5種類型。 一項1 6位元錯誤向量被運用在記錄及報告偵測的錯誤。錯 誤向量被封包成錯誤報告訊息並廣播到其他的通道,以用 於在每一個副訊框的一致性及修復動作。
O:\58\58777.ptc 第20頁 486637 案號 881091“ 五 發明說明(16) 錯誤ID El (保留) 錯誤說明 E2 收到無效訊息類型、節點id、或資料ID的 _訊息__ E3 水平或垂直同位元錯誤、錯誤的訊息長度、或 已超出訊息限制__ 收到太多的錯誤報告(Error Rep〇rt)或系統 越態(System State)訊魚、__ E5硬誤差視窗(Hard-Erroe Window)内收到非SS 訊息 、 —------ g從節點收到一個以上的相同資斜__ 遺失SS訊息,或preSYNC/sync未依正確的順 序到達 _、 硬誤差視窗(Hard-Erroe Window)内未到達SS 吞fL息 軟誤差視窗(Soft-Erroe Window)内未到達SS 訊息 所收到之SS訊息的副訊框及/或主訊框號碼^ 本機節點的號碼不同 ΐ點的cs¥^7或NSS與表決的css及/或NSS $ —致____ 來自副訊框中節點的錯誤訊泉 遺失資料___ jg點所兔圭的資料值與表決值不一致_^ 來自節點的錯誤訊息中所包含的資訊與表決值 的資訊不一致_ 一個主節點所~^的錯誤數量已超出 預設限制 E4
iTBD 或TBD Ε8 Ε9 Ε10 Ε16 表格2 (錯誤向量表)1111
或TBD 或TBD 4 或 TBD
O:\58\58777.ptc 第21頁 486637 __案號 88109143 f〇 年 β 月 K 日 五、發明說明(17) 請參閱圖6,FLT 8 4評估(步驟1 0 4 )錯誤來源通道的性能 惡化。於每一個副訊框,全部偵測(報告)的錯誤,包含在 錯誤報告1 0 0中,使用性能惡化權值表1 0 2指派性能惡化, 而性能惡化總和被儲存在遞增式性能惡化言丨&
(Incremental Penalty Count ; I PC)中。區域性 ipc 被評 估(步驟104),並經由CCDL廣播(106)到其他節點。flt84 對I PC (步驟1 0 8 )進行表決,並將表決結果储存#在基底性能 惡化計數(Base Penalty Count ;BPC)(步驟 11〇)中。jpC 擷取特殊副訊框的錯誤,而BPC擷取整個任務期間的的累 積誤差。計算/儲存BPC之後,將清除IPC向量步\驟112)', 並經由C C D L將B P C廣播(步驟1 1 4 )到其他節點。每一個副訊 框也會表決BPC(步驟116),而FLT84則會使用表決的BPC來 確定是否需要性能惡化指派及表決,以確保所有無故障通 道針對系統重新設定組態的動作一致。一旦完成對B P C (步 驟1 1 6)的表決之後,FLT會確定是否已到達主訊框邊界(步 驟1 1 8 )。如果已到達主訊框邊界,則決定重新設定組態系 統(步驟1 2 0 )。如果未到達主訊框邊界,則處理程序會返 回錯誤報告1 0 0,再重頭開始。 系統重新設定組態包括排除系統故障通道及重新許可正 常通道。如果故障通道的基底性能惡化計數(Base Penalty Count ;BPC)超出預先決定的限定值,則RMS開始 系統新設定組態。於新設定組態期間,系統將操作集重新 編組以隔絕故障通道。一旦通道失去操作集中的構件,則 表決處理程序中將不再使用資料及系統狀態。被排除的通 道需要完成重設處理程式。如果成功完成重設處理程序,
O:\58\58777.ptc 第22頁 ^1S_88109H3_ 、發明說明(18) 五 修正 化^ ^可以嘗試與操作集重新同步化,如果成功$ + 除的、s可以切換成待命狀態(3"^8(^-31316)模十、同步 ς 2,道可?在待命狀態(steady_state)模式5:被排 所^ ^然在彳呆作集以外。現在,通道接收操作隼作, 斤^糸統訊息及應用資料。 /、中郎點的 复t,集中的所有構件也接收被排除之通道的訊自 ^ =為。視通道的行為而定,排除之通道的卯0 7並監控 = '夕。如果排除之通道維持無故障操作,則装言加 決:if定值以下,在下一個主訊框邊界逐Λ mV°應用介一面個重新設定組態’以重新許可通道。 I前RMS實施使用VME匯流排及共用記憶體作為r ;丨面。無論如何,也只有一項可能的實施與農他… 協定可用於實施介面。TSC46 (圖4)的主功能是從指干j訊 二二广取得資料,並將該資料封包成特定的格式以提Ϊ通 RMM12使用。完成表決循環時,TSC46將取得表決 ς 並將該資料傳回到應用程式。 貝/斗’ R Μ Μ核心 圖5顯示根據本發明的一項具體實施例之容錯執行 (fault tolerance executive ; FTE)内容的原理圖。如圖 顯示,核心(K e r n e 1 )為R Μ Μ提供全部的監督操作。核心田 (Kerne 1)52管理RMM12的啟動,呼叫適當的功能將目/標"處 理器初始化,並載入所有的初始資料。於啟動處理程序期 間,核心(Kerne 1 )52利用載入系統組態資料及正確的操作 參數的方式’設定C C D L 2 4的組態。核心(κ e r n e 1 ) 5 2利用監
O:\58\58777.ptc 第23頁 486637 __H⑽143_ 和年/月α 口 攸工_ 五、發明說明(19) 控多個R Μ Μ的子系統的狀態並於校正期間採取適當動作的 方式’管理RMM12操作節點(即,冷啟動(c〇ld — Start)、暖 啟動(Warm - Start)、及待命狀態(Steady一state))之間的 轉換。核心(K e r n e 1 ) 5 2使用確定型排程演算法,如此可由 自含式時基控制全部的「動作」。於時基循環中已知的 「計時」’將一直執行該計時的預先決定之動作。核心 (Kernel)按照時間計時協調FTE功能。像是故障偵測、隔 離、及修復之類的R M S活動於副訊框中適當的時間内由核 心(Kernel )排程。如果RMS頻道變成故障,則受影響的RMM 中之核心(Kernel )52須負責於適當的時間重新啟動該通 道。RMS子系統之間及RMS與多個應用電腦之間的全部資料 皆由核心(1^]:1^1)52管理及排程。核心(1(61>1161)52指示其 他RMM中的子系統準備各種RMS訊息,並將這些訊息載入 CCDL,以便在核心(Kernel )請求下傳遞。CCDL收到訊息 後,核心(Kernel )52取出這些訊息,並將訊息送到正確的 子系統以利處理。核心(K e r n e 1 )以迴路方式執行,持續執 行所排程的每項動作,並監控R MM狀態。 容錯執行(Fault Tolerance Executive ;FTE)13 為四個 或四個以上的節點提供B y z a n t i n e故障復原性。於來源一 致的條件下,By z an t i n e可為三個節點提供安全性。fte 1 3表決應用資料,移除/恢復FTE的應用程式,並將應用程 式同步化,和其他R Μ M F T E小於1 0 0秒偏離。
於一項示範性具體實施例中,FTE大約需要4· 08毫秒 (4 0 %使用率)的時間表決1 5 〇字及執行作業系統功能。F Τ Ε 記憶體是〇· 4 MB快閃記憶體(FI ash,5%使用率)及〇. 4 MB
486637 p年左月仏曰 -S^_88109143 五、發明說明(20) 知道(,k二,Ϊ )。這些數值已提供作為示範用途。必須 姜f 在不需要變更本發明的範疇下, 項平常技巧可改變這些數值。 ^ t的其中 RMS内容 滋圖ί二ΐ ϊ ϋ環境中,rms及vmc之間的rms内容或交換結 β構。X内所轉移的結構包括在ms訊框邊界(RMS Frame Boundary)傳遞的RMS系統資#(RMS以以㈣ 2像是指出誰在操作集之中和以外操作的表決之'目前,下包 二個糸統狀態、及在兩個節點組態中使用的 等之類的資訊。資料衝突表(Data Conflict Table)在^ 個節點組態中使用,其以對等資料元素為基準,指出益 解決的資料衝突。表決資料表6 2包含一個操作集構件^表 決所提供每項資料元素的表決值。RMS系統資料(RMS 、 及
System Data)、資料衝突表(Data Conflict Table) 表決之輸出(Voted Output)被個別RMM轉移到全域性 (Global )共用記憶體,其中全域性(Global )共用記憶體在 RMM操作時會與區域性VMC通訊。 力,並轉移到RMS,該應用程式可以影響RMS決定操作集 時所評估的誤差性能惡化(e r r 〇 r p e n a 11 y )。 ' 訊框(Frame)邊界資訊包括發出RMS訊框開始信號的中 斷。此項信號訊框將FM(Flight Manager)、VSM(Vehicle Subsystem Manager)、及 MM(Mission Manager)同步 匕 0 能 原始輸出(Raw Output)是向RMS所提出的資料,以提供 待命狀態(Steady-State)模式中的所有節點表決。應用程 式錯誤計數(Application Error Count)是系統選擇性的
O:\58\58777.ptc 第25頁 486637 _案號 88109143_年 f 月 β 曰_____ 五、發明說明(21) 中間訊框資訊是另一項提供訊框開始後5亳秒之信號的中 斷。應用程式資料備妥(Application Data Ready) 資訊 包括RMS所產生的中斷,以信號通知應用程式資料在等待 中,並可以取出及處理該資訊。系統重設(S y s t e m R e s e t) 是選擇性控制重設後可使用應用程式。 交叉通道資料連結(Cross Channel Data Link ;CCDL) C C D L 2 4提供通道之間的資料通訊。資料被封包成訊息, 圖8中顯示該訊息結構。如圖所顯示,訊息結構包括表 頭、及按照所傳送及接收的訊息類型的各種訊息類型。下 列訊息類型使用於本發明一實施例中: 類型0 資料訊息。 類型1 系統狀態訊息。 類型2 冷啟動訊息。 類型3 錯誤報告與性能惡化計數訊息。 每個CCDL24具有一個發送器及最多八個接收器。圖 9-1 1中顯示CCDL高層架構、發送器及接收器原理。圖9顯 示高層CCDL架構,其包括一個發送器70、四個接收器 72a-72d、及兩個使用DY4 MaxPac 中層協定的介面74a及 74b。一個介面74b有助於基本V ME卡及CCDL記憶體之間的 資料交換,而一個介面74a則處理控制邏輯及錯誤報告產 生。需要傳送資料時,CCDL介面74b從基本卡取得資料, 並將該資料儲存到8位元發送器記憶體7 6。收到資料時, 四個接收器7 2 a - 7 2 d分別針對每個節點,在四個接收器記 憶體7 8a-7 8d中處理並儲存所收到的資料。然後,FTE1 3在 CCDL24的控制下取得該資料。因為CCDL是建立通道之間實
O:\58\58777.ptc 第26頁 486637 ___案號 88109143_竹)年$月16曰_修正__ 五、發明說明(22) 體連接的唯一子系統,所以為了保證系統的故障牽制區 (Fault Containment Region),必須強迫執行電子絕緣。 本CCDL使用電子到光學間的轉換,將電子信號轉換成光信 號。每個接收器72a - 72d具有相應的光隔離器73a-73d,以 提供必要的隔離功能。如此,使每一個通道都可以具有自 己的電源供應,並且每一個通道彼此之間互相絕緣。 圖1 0顯示根據本發明的一項具體實施例之發送器7 〇架構 的更詳細圖示。FEL發出「GO」指令時,發送器控制邏輯 8 0從其8位元發送機記憶體7 6讀取資料、將該資料構成3 2 位元格式、並將一個水平字附加到資料的結尾後。移位暫 存器電路8 2將資料轉換成序列位元串,並將垂直同位位元 插入傳送的資料串·中。 圖1 1顯示如何從傳送模式接收序列資料串,及如何將序 列資料串儲存到對應的記憶體。位元中心(Bit Center) 邏輯90使用6系統時鐘(即,48MHz)循環以一個資料位元為 單位確實記錄。收到資料串的第一個位元時,時間戳記 (Time Stamp)邏輯92記錄時間,以用於同步化用途。移位 電路9 4除去垂直同位位元,並將序列資料轉換成8位元格 式。垂直位元顯示傳輸錯誤時應報告錯誤。控制邏輯96進 一步除去資料的水平同位元,並按照資料隨附的節點號碼 資訊,將該資料儲存到接收器記憶體(例如,7 8a )。 為了加強通訊的可靠度,水平及垂直同位位元都會附加 到資料訊息中。訊息格式是由CCDL24所確認,並且只有有 效訊息才會傳送到核心(K e r n e 1 ) 5 2,以利進一步處理。 應知道本發明並未限制此處所發表的特殊具體實施例,
O:\58\58777.ptc 第27頁 486637 修正 案號 88109143 五、發明說明(23) 作為執行本發明的最佳模式,更確切地說,除了附加的申 請專利以外,本發明並未限制本規格書中所說明的特定具 體實施例。
O:\58\58777.ptc 第28頁 486637 _案號88109143_f〇年月(么日 修正 圖式簡單說明
O:\58\58777.ptc 第29頁

Claims (1)

  1. 486637 _案號88109143_fb年(f月(6日 修正_ 六、申請專利範圍 1 · 一種管理具有多重硬體計算節點(通道)之以電腦為 主的冗餘系統的方法,其包含下列步驟: 在每個計算節點提供一冗餘管理系統(RMS); 於每個RMS之間建立一通訊連結,以及 於每個RMS中執行容錯執行(FTE),以管理故障及多數 的糸統功能。 2 .如申請專利範圍第1項之方法,更包括將系統中每個 計算節點同步化的步驟,該同步化步驟是由F T E執行,並 由下列步驟所組成: 於每個RMS中提供一個時鐘; 將每個RMS中的區域性時間與全部其他節點交換;以 及 按照表決之系統時鐘,調整每一個R M S個別的區域性 時鐘。 3. 如申請專利範圍第1項之方法,更包括偵測節點中所 產生之資料的故障/錯誤,該偵測及預防步驟進一步包含 下列步驟: 由每個節點對產生的資料進行表決,以確定一個節點 所產生的資料與否與多數表決的資料不同;以及 當一特殊節點所產生的資料與多數表決的資料不同 時,則使用表決的資料作為輸出,以遮蔽故障。 4. 如申請專利範圍第1項之方法,其中於每個計算節點 提供RMS所執行的步驟與應用程式發展無關。 5 ·如申請專利範圍第1項之方法,其中建立步驟是利用
    O:\58\58777.ptc 第30頁 486637 修正 案號 88109143 六、申請專利範圍 合併每個計算節點的RMS之間的一交叉通道資料連結 (CCDL)的方式執行。 6 ·如申請專利範圍第1項之方法,進一步包括下列步 驟: 將每個計算節點(通道)定義為故障牽制區(f au 11 containment region); 偵測計算節點中所產生之資料的故障/錯誤;以及 隔離故障牽制區所偵測的故障,以防止所偵測的故障 漫延到另一個計算節點。 7. 如申請專利範圍第6項之方法,其中偵測步驟進一步 包括由每個節點對產生之資料進行表決的步驟,以確定一 個節點所產生的資料與否與多數表決的資料不同。 8. 如申請專利範圍第7項之方法,其中隔離步驟進一步 包括,一特殊節點所產生的資料與多數表決的資料不同時 使用表決之資料作為輸出的步驟,以遮蔽故障。 9 ·如申請專利範圍第3項之方法,進一步包括下列的步 驟: 識別一故障節點,以響應資料表決結果; 由全域性性能惡化(p e na 11 y )系統識別並懲罰故障節 點;以及 當故障節點的性能惡化(pe na 11 y )超出使用者定義之 容錯範圍時,將所識別的故障節點排除節點操作集以外。 1 0 .如申請專利範圍第9項之方法,進一步包括下列的步 驟:
    O:\58\58777.ptc 第31頁 486637 _案號88109143_fo年孑月β曰_修正 _ 六、申請專利範圍 監視被排除之節點的資料,以確定被排除之節點的資 格是否可以重新許可進入操作集;以及 當監控指出節點可接受的效能在預先決定的限制值内 時,則可重新許可被排除之節點進入操作集。 1 1 .如申請專利範圍第1 0項之方法,其中預先決定之限 制值是由系統操作員所定義。 1 2 . —種在具有多數計算節點(通道)之計算環境中容錯 計算的方法,其包括下列步驟: 在與應用程式無關的每個計算節點中執行冗餘管理系 統(RMS); 於每個RMS之間通訊;以及 維護節點操作集(OPS )以增加計算環境的容錯度。 1 3.如申請專利範圍第1 2項之方法,其中通訊步驟是在 交叉通道資料連結(CCDL)上執行。 1 4.如申請專利範圍第1 3項之方法,其中通訊步驟進一 步包括下列的步驟: 利用介面將CCDL與個別RMS的節點連接; 於CCDL中提供多數接收器,以便於個別接收每一個多 數節點的資料; 於CCDL中至少提供一個發送器,以便於處理所接收的 資料,並將所接收的資料傳遞到位於RMS中的容錯執行 (FTE);以及 必須時至少提供一個接收器記憶體及至少一個發送器 記憶體,以接收並儲存個別的資料。
    O:\58\58777.ptc 第32頁 486637 _案號88109143_和年孑月U曰_魅_ 六、申請專利範圍 1 5 .如申請專利範圍第1 2項之方法,其中維護節點的一 操作集的步驟是在位於RMS内的容錯執行(FTE)所執行,並 可進一步包括下列的步驟: 接收計算環境中所連接之每一個節點的資料; 確定從任何一個節點所接收之資料是否含有故障; 關於其他所收到的資料,將排除產生之錯誤的資料; 以及 重新設定操作集組態,以排除錯誤的節點。 1 6.如申請專利範圍第1 5項之方法,其中確定步驟進一 步包括下列的步驟: 設定錯誤資料的容許範圍; 對所收到之每個節點的全部資料進行表決; 確定節點的錯誤資料是否已超出容許範圍。 1 7.如申請專利範圍第1 5項之方法,進一步包括下列的 步驟: 監控被排除之節點;以及 當監控之資料指出已校正被排除之節點上的錯誤資料 時,重新許可被排除之節點進行操作集。 1 8.如申請專利範圍第1 6項之方法,其中表決步驟於資 料傳輸中每一個副訊框邊界上執行。 1 9 .如申請專利範圍第1 5項之方法,其中重新設定組態 步驟是於資料傳輸中每一個主訊框邊界上執行。 2 0 · —種管理具有多重硬體計算節點(通道)之以電腦為 主的冗餘系統的裝置,包含:
    O:\58\58777.ptc 第33頁 486637 _案號88109143_7〇年(P月W曰 修正_ 六、申請專利範圍 於每個計算節點中提供冗餘管理系統(RMS)的裝置; 於每個RMS之間建立一通訊連結的裝置,以及 於每個RMS中執行容錯執行(FTE),以管理故障及多數 的糸統功能。 2 1 .如申請專利範圍第2 0項之裝置,其中建立一通訊連 結的裝置包含一連接到每個計算節點中每個冗餘管理系統 的交叉通道資料連結。 2 2 .如申請專利範圍第2 0項之裝置,進一步包括: 偵測任何一個節點中所產生之資料中的故障/錯誤; 以及 將節點範圍内所偵測的故障/錯誤與所產生的故障/錯 誤隔離的裝置。 2 3.如申請專利範圍第2 2項之裝置,其中偵測裝置進一 步包含對每個節點所產生的資料進行表決的裝置,以確定 一個節點所產生的資料與否與多數表決的資料不同。 24.如申請專利範圍第23項之裝置,其中隔離裝置進一 步包括使用表決之資料遮蔽與多數表決不同之節點所產生 之故障的裝置。
    O:\58\58777.ptc 第34頁
TW088109143A 1998-06-02 1999-10-01 Method and apparatus for managing redundant computer-based systems for fault tolerant computing TW486637B (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US8773398P 1998-06-02 1998-06-02
US09/140,174 US6178522B1 (en) 1998-06-02 1998-08-25 Method and apparatus for managing redundant computer-based systems for fault tolerant computing

Publications (1)

Publication Number Publication Date
TW486637B true TW486637B (en) 2002-05-11

Family

ID=26777328

Family Applications (1)

Application Number Title Priority Date Filing Date
TW088109143A TW486637B (en) 1998-06-02 1999-10-01 Method and apparatus for managing redundant computer-based systems for fault tolerant computing

Country Status (8)

Country Link
US (1) US6178522B1 (zh)
EP (1) EP1082661A4 (zh)
JP (1) JP2002517819A (zh)
CN (1) CN1192309C (zh)
AU (1) AU4673499A (zh)
CA (1) CA2334009A1 (zh)
TW (1) TW486637B (zh)
WO (1) WO1999063440A1 (zh)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19921179C2 (de) * 1999-05-07 2002-04-25 Astrium Gmbh Logikeinheit nach byzantinem Algorithmus, Rechnereinheit mit solcher Logikeinheit, Verbund aus Logik- oder Rechnereinheiten und Verfahren zum Betreiben eines solchen Verbunds
US6671821B1 (en) * 1999-11-22 2003-12-30 Massachusetts Institute Of Technology Byzantine fault tolerance
US8423674B2 (en) * 2001-06-02 2013-04-16 Ericsson Ab Method and apparatus for process sync restart
US6813527B2 (en) 2002-11-20 2004-11-02 Honeywell International Inc. High integrity control system architecture using digital computing platforms with rapid recovery
GB2395639A (en) * 2002-11-21 2004-05-26 Matsushita Electric Ind Co Ltd System operable in either architecture reconfiguration mode or processing mode depending on the contents of a frame header
US7136793B2 (en) * 2003-01-14 2006-11-14 Lockheed Martin Corporation System and method for modeling a propagation and containment process
US7848361B2 (en) * 2003-05-20 2010-12-07 Nxp B.V. Time-triggered communication system and method for the synchronization of a dual-channel network
DE10394366D2 (de) * 2003-11-17 2006-10-19 Siemens Ag Redundantes Automatisierungssystem zur Steuerung einer technischen Einrichtung sowie Verfahren zum Betrieb eines derartigen Automatisierungssystems
US7350113B2 (en) * 2004-05-11 2008-03-25 International Business Machines Corporation Control method, system, and program product employing an embedded mechanism for testing a system's fault-handling capability
US7499865B2 (en) * 2004-12-17 2009-03-03 International Business Machines Corporation Identification of discrepancies in actual and expected inventories in computing environment having multiple provisioning orchestration server pool boundaries
US20060136490A1 (en) * 2004-12-17 2006-06-22 International Business Machines Corporation Autonomic creation of shared workflow components in a provisioning management system using multi-level resource pools
US7953703B2 (en) * 2005-02-17 2011-05-31 International Business Machines Corporation Creation of highly available pseudo-clone standby servers for rapid failover provisioning
US20070186126A1 (en) * 2006-02-06 2007-08-09 Honeywell International Inc. Fault tolerance in a distributed processing network
US20070220367A1 (en) * 2006-02-06 2007-09-20 Honeywell International Inc. Fault tolerant computing system
US8510596B1 (en) 2006-02-09 2013-08-13 Virsec Systems, Inc. System and methods for run time detection and correction of memory corruption
US20070260939A1 (en) * 2006-04-21 2007-11-08 Honeywell International Inc. Error filtering in fault tolerant computing systems
US8977252B1 (en) * 2006-07-06 2015-03-10 Gryphonet Ltd. System and method for automatic detection and recovery of malfunction in mobile devices
US7685464B2 (en) * 2006-11-20 2010-03-23 Honeywell International Inc. Alternating fault tolerant reconfigurable computing architecture
US7898937B2 (en) * 2006-12-06 2011-03-01 Cisco Technology, Inc. Voting to establish a new network master device after a network failover
WO2008075371A2 (en) * 2006-12-21 2008-06-26 Biokine Therapeutics Ltd. T-140 peptide analogs having cxcr4 super-agonist activity for immunomodulation
US8036805B2 (en) * 2007-07-13 2011-10-11 Honeywell International Inc. Distributed engine control system
US20090106781A1 (en) * 2007-10-23 2009-04-23 Reed Benjamin C Remote call handling methods and systems
US8255732B2 (en) * 2008-05-28 2012-08-28 The United States Of America, As Represented By The Administrator Of The National Aeronautics And Space Administration Self-stabilizing byzantine-fault-tolerant clock synchronization system and method
US8656392B2 (en) * 2009-06-10 2014-02-18 The Boeing Company Consensus based distributed task execution
JP5560113B2 (ja) * 2010-06-25 2014-07-23 株式会社日立製作所 計算機システム及び計算機の管理方法
CN102193835B (zh) * 2011-03-25 2013-01-30 上海磁浮交通发展有限公司 基于3取2计算机系统的预执行方法
EP2691820B1 (en) * 2011-03-30 2020-08-05 Vestas Wind Systems A/S Wind power plant with highly reliable real-time power control
CN102411520B (zh) * 2011-09-21 2013-09-25 电子科技大学 一种基于数据单元的地震数据的灾难恢复方法
CN102622323B (zh) * 2012-03-27 2014-11-19 首都师范大学 动态可重构串行总线中基于开关矩阵的数据传输管理方法
US9849241B2 (en) 2013-04-24 2017-12-26 Fresenius Kabi Deutschland Gmbh Method of operating a control device for controlling an infusion device
US20160149779A1 (en) * 2013-05-27 2016-05-26 Rangaprasad Sampath System state message in software defined networking
US9448548B2 (en) * 2013-06-14 2016-09-20 Honeywell International Inc. Synchronizing and displaying fault tolerant Ethernet (FTE) status
JP6100384B2 (ja) * 2013-09-04 2017-03-22 株式会社東芝 情報処理システム、サーバ装置、情報処理方法及びプログラム
CA2923231C (en) 2013-09-12 2020-06-02 Virsec Systems, Inc. Automated runtime detection of malware
WO2015140942A1 (ja) 2014-03-18 2015-09-24 株式会社東芝 情報処理システム、サーバ装置、情報処理方法およびプログラム
WO2015200508A1 (en) * 2014-06-24 2015-12-30 Virsec Systems, Inc Automated root cause analysis of single or n-tiered applications
CA2953793C (en) 2014-06-24 2021-10-19 Virsec Systems, Inc. System and methods for automated detection of input and output validation and resource management vulnerability
JP6203407B2 (ja) * 2014-08-05 2017-09-27 株式会社東芝 整列装置、データ処理装置、プログラム、整列方法および多重化システム
CN104635745B (zh) * 2015-03-02 2017-03-22 中国航空无线电电子研究所 一种飞行管理系统双机同步的方法
US10025344B2 (en) 2015-04-21 2018-07-17 The United States Of America As Represented By The Administrator Of Nasa Self-stabilizing distributed symmetric-fault tolerant synchronization protocol
WO2017218872A1 (en) 2016-06-16 2017-12-21 Virsec Systems, Inc. Systems and methods for remediating memory corruption in a computer application
CN107145407B (zh) * 2017-05-16 2020-10-27 中林云信(上海)网络技术有限公司 一种对数据进行本地备份的方法
CN112506035A (zh) * 2020-11-03 2021-03-16 中国航空工业集团公司西安航空计算技术研究所 一种作动器控制计算机的同步系统
CN113900979B (zh) * 2021-09-08 2024-03-19 中国航空工业集团公司西安航空计算技术研究所 一种双功能区共单ccdl传输体系
CN114280919B (zh) * 2022-03-08 2022-05-31 浙江中控技术股份有限公司 冗余控制装置

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4228496A (en) 1976-09-07 1980-10-14 Tandem Computers Incorporated Multiprocessor system
US4503535A (en) 1982-06-30 1985-03-05 Intel Corporation Apparatus for recovery from failures in a multiprocessing system
JPS5985153A (ja) 1982-11-08 1984-05-17 Hitachi Ltd 冗長化制御装置
US4634110A (en) 1983-07-28 1987-01-06 Harris Corporation Fault detection and redundancy management system
US4575842A (en) 1984-05-14 1986-03-11 The United States Of America As Represented By The Secretary Of The Air Force Survivable local area network
US4847837A (en) 1986-11-07 1989-07-11 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Local area network with fault-checking, priorities and redundant backup
US4816989A (en) * 1987-04-15 1989-03-28 Allied-Signal Inc. Synchronizer for a fault tolerant multiple node processing system
US4933838A (en) 1987-06-03 1990-06-12 The Boeing Company Segmentable parallel bus for multiprocessor computer systems
US4907232A (en) 1988-04-28 1990-03-06 The Charles Stark Draper Laboratory, Inc. Fault-tolerant parallel processing system
US5068499A (en) 1989-04-14 1991-11-26 Alps Electric Co., Ltd. Control lever type input device
US5261085A (en) 1989-06-23 1993-11-09 Digital Equipment Corporation Fault-tolerant system and method for implementing a distributed state machine
US5173689A (en) 1990-06-25 1992-12-22 Nec Corporation Self-distributed logical channel node failure restoring system
US5325518A (en) 1991-04-02 1994-06-28 Carnegie Mellon University Adaptive distributed system and method for fault tolerance
US5684807A (en) 1991-04-02 1997-11-04 Carnegie Mellon University Adaptive distributed system and method for fault tolerance
US5280607A (en) 1991-06-28 1994-01-18 International Business Machines Corporation Method and apparatus for tolerating faults in mesh architectures
US5349654A (en) 1992-02-20 1994-09-20 The Boeing Company Fault tolerant data exchange unit
US5271014A (en) 1992-05-04 1993-12-14 International Business Machines Corporation Method and apparatus for a fault-tolerant mesh with spare nodes
US5533188A (en) * 1992-10-19 1996-07-02 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Fault-tolerant processing system
US5513313A (en) 1993-01-19 1996-04-30 International Business Machines Corporation Method for generating hierarchical fault-tolerant mesh architectures
US5473771A (en) 1993-09-01 1995-12-05 At&T Corp. Fault-tolerant processing system architecture
US5450578A (en) 1993-12-23 1995-09-12 Unisys Corporation Method and apparatus for automatically routing around faults within an interconnect system
US5561759A (en) 1993-12-27 1996-10-01 Sybase, Inc. Fault tolerant computer parallel data processing ring architecture and work rebalancing method under node failure conditions
FR2721122B1 (fr) 1994-06-14 1996-07-12 Commissariat Energie Atomique Unité de calcul à pluralité de calculateurs redondants.
US5463615A (en) 1994-07-07 1995-10-31 At&T Corp. Node failure restoration tool
JP3447404B2 (ja) 1994-12-08 2003-09-16 日本電気株式会社 マルチプロセッサシステム
US5736933A (en) 1996-03-04 1998-04-07 Motorola, Inc. Method and apparatus for providing redundancy in a communication network
US5790397A (en) 1996-09-17 1998-08-04 Marathon Technologies Corporation Fault resilient/fault tolerant computing

Also Published As

Publication number Publication date
CN1192309C (zh) 2005-03-09
WO1999063440A1 (en) 1999-12-09
CN1311877A (zh) 2001-09-05
JP2002517819A (ja) 2002-06-18
CA2334009A1 (en) 1999-12-09
EP1082661A4 (en) 2005-11-09
AU4673499A (en) 1999-12-20
EP1082661A1 (en) 2001-03-14
US6178522B1 (en) 2001-01-23

Similar Documents

Publication Publication Date Title
TW486637B (en) Method and apparatus for managing redundant computer-based systems for fault tolerant computing
US4816989A (en) Synchronizer for a fault tolerant multiple node processing system
US8671218B2 (en) Method and system for a weak membership tie-break
CN112948063B (zh) 云平台的创建方法、装置、云平台以及云平台实现系统
CN113127270A (zh) 一种基于云计算的3取2安全计算机平台
US5533188A (en) Fault-tolerant processing system
CN112698978A (zh) 基于分布式图处理网络的容错方法和设备
RU2439674C1 (ru) Способ формирования отказоустойчивой вычислительной системы и отказоустойчивая вычислительная система
LALA Advanced information processing system
CN111241200A (zh) 基于SQLite数据库的主备同步处理方法及装置
CN110677288A (zh) 一种通用于多场景部署的边缘计算系统及方法
JP2004527829A (ja) フォールト・トレラント計算機配列およびその作動方法
EP2690557B1 (en) Computer system, data processing method, and data processing program
Hébert et al. A cost-effective solution to increase system reliability and maintain global performance under unreliable silicon in MPSoC
Gessner et al. Experimental evaluation of network component crashes and trigger message omissions in the Flexible Time-Triggered Replicated Star for Ethernet
Pimentel et al. A fault management protocol for TTP/C
CN103580926B (zh) 一种轻量热备系统同步方法
Evangelisti et al. Towards a Node Active Replication Schema for Highly Reliable Distributed Control Systems Based on TSN
CN201122978Y (zh) 一种基于高级电信计算平台的高可用性系统
van der Stok et al. Prevention of replication induced failures in the context of integrated modular avionics
Yu et al. D-CAST: Distributed Consensus Switch in Wireless Trustworthy Autonomous System
CN116414535A (zh) 一种冗余软件单元同步的事件调度方法、设备及介质
Sherwood et al. Netcastle: Network Infrastructure Testing At Scale
CN115664915A (zh) 一种集群故障处理方法、系统、设备以及存储介质
Colnaric et al. Communication infrastructure for IFATIS distributed embedded control application

Legal Events

Date Code Title Description
GD4A Issue of patent certificate for granted invention patent
MM4A Annulment or lapse of patent due to non-payment of fees