TW486637B - Method and apparatus for managing redundant computer-based systems for fault tolerant computing - Google Patents
Method and apparatus for managing redundant computer-based systems for fault tolerant computing Download PDFInfo
- Publication number
- TW486637B TW486637B TW088109143A TW88109143A TW486637B TW 486637 B TW486637 B TW 486637B TW 088109143 A TW088109143 A TW 088109143A TW 88109143 A TW88109143 A TW 88109143A TW 486637 B TW486637 B TW 486637B
- Authority
- TW
- Taiwan
- Prior art keywords
- data
- node
- rms
- scope
- patent application
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/18—Error detection or correction of the data by redundancy in hardware using passive fault-masking of the redundant circuits
- G06F11/187—Voting techniques
- G06F11/188—Voting techniques where exact match is not required
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/18—Error detection or correction of the data by redundancy in hardware using passive fault-masking of the redundant circuits
- G06F11/181—Eliminating the failing redundant component
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/18—Error detection or correction of the data by redundancy in hardware using passive fault-masking of the redundant circuits
- G06F11/182—Error detection or correction of the data by redundancy in hardware using passive fault-masking of the redundant circuits based on mutual exchange of the output between redundant processing components
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Hardware Redundancy (AREA)
- Multi Processors (AREA)
Description
486637 _案號88109143_f〇年f月Μ曰 修正_ 五、發明說明(1) 發明背景 發明範疇 本發明與計算環境有關,特別是與管理以電腦為主之冗 餘系統的容錯計算之方法有關。 發明背景 容錯計算保證校正系統中所存在之故障與錯誤的計算結 果。冗餘的運用是容錯的主要方法。有許多不同的方法可 以管理硬體、軟體、資訊、及時間的冗餘。因為有各種演 算法及實施方法,而導致目前大部份的系統使用專有的冗 餘管理設計,而這些設計通常與應用軟體及硬體交互編 織。與冗餘管理交互編織的應用程式建立更複雜的系統, 並嚴重降低系統的延展性。 發明總結 因此,本發明的一項物件提供管理以電腦為主之冗餘系 統的方法,且該系統不會與應用程式交互編織,並且提供 分散式計算環境的額外延展性。 按照本發明的一項具體實施例,冗餘計算系統是使用多 重硬體計算節點(或通道)的方法所建構,並且在分散式環 境内的每個個別的節點中安裝冗餘管理模組(R Μ Μ )。 RMS是透過一組演算法、資料結構、操作處理程序、及 每個計算系統中處理單元應用的設計所實施的冗餘管理計 晝方法。RMS 已廣泛應用在需要高系統可信性的各種領域 中,例如:航空、關鍵控制系統、電信、電腦網路、等 等。 RMS的實施在實體或邏輯上與應用程式發展分開。如
O:\58\58777.ptc 第6頁 ^86637
Γ^88ΐ〇ϋϋ 知口/n兄明U) 杰Μ發者 此,可降低設計系統的複雜性。就本身而言,系統*rMS 可獨立設計應用程式,並信賴RMS提供冗餘管理功能Μ。的 與應用程式整含是利用可程式匯流排介面協定將各 ' RMM連接到應角處理器而達成。 g户錯 RMM包括一頊交叉通道資料連結(CCDL)模組及一項 執行(FTE)模組。CCDL提供全部通道的資料通Λ 類的 執行同化步、表決、故障及錯誤偵測、隔離及修後f系統 系統功能。透過表決偵測並遮蔽差錯資枓的方f實^二、 容錯,並利用外動態設定架構組態的方式確保ί統=$系 性,也就是排除系統故障節點並重新許可正常節點"’ 統的能力。 、人、漆施, RMS可用硬體、軟體、或組合軟硬體(即,混:/统一起 並與具有處理元件故障之冗餘計算資源的分,ΐ ΐ ίι有 運作。視系統圩靠度及容錯需求而定,分散式糸處田声理 2到Μ固通道(或節點)。通道是由一個RMM及一個應用處/於 器所組成。通道透過數個CCDL相互連接在一起而構成几餘 整體計算系統。因為通道内各別的應用程式並不完全知道 其他通^的活動,所以RMM提供系統同步化、維護資料一 致性、並形成系統中各種地點所發生之故障及錯誤的整體 糸統一致。 圖式簡單說明 參考下列的詳細說明並配合附圖,可迅速且清楚地認識 本發明的完整評論,以及其隨附的優點,圖中相似的g ^ 指示相同或相似的元件,其中 〜 圖1是根據本發明的一項具體實施例之冗餘管理李、統#
O:\58\58777.ptc 第7頁
486637 修正 案號 88109143 五、發明說明(3) 方塊圖; 圖2是根據本發明的一項示範性具體實施例之以RMS為主 的三通道容錯系統的方塊圖; 圖3是根據本發明的一項具體實施例之冗餘管理系統的 狀態轉移圖; 圖4是根據本發明的一項具體實施例之冗餘管理系統中 應用程式交互作用及表決處理程序的方塊圖; 圖5是根據本發明的一項具體實施例之容錯執行(f au 11 tolerance executive ;FTE)内容的原理圖; 圖6是根據本發明的一項具體實施例之容錯器(F LT )所執 行的表決及性能惡化(p e n a 11 y)指派處理程序的方塊圖; 圖7是根據本發明的一項具體實施例之冗餘管理系統情 況的原理圖; 圖8是根據本發明的一項具體實施例之交叉通道資料連 結訊息結構的圖式; 圖9是根據本發明的一項具體實施例之交叉通道資料連 結上層架構的方塊圖; 圖1 0是根據本發明的一項具體實施例之交叉通道資料連 結發送器的方塊圖; 圖1 1是根據本發明的一項具體實施例之交叉通道資料連 結接收器的方塊圖; 圖式主要元件符號說明 1 0 三通道RMS基架構 1 2冗餘管理系統,VMC-1
O:\58\58777.ptc 第8頁 486637 _案號88109143_年#月(日 修正 五、發明說明(4) 1 3容錯執行 14VME底板匯流排 16 V e h i c1e Subsystem Manager 18F1i ght Manager 2 0 M i s s i on Manager 22冗餘管理系統,VMC-2 24交叉通道資料連結(CCDL) 32冗餘管理系統,VMC-3 4 0應用資料 4 2應用資料表 4 4副訊框邊界 4 6任務通訊程式(T S C ) 48資料ID順序表(DST) 52 核心(KRL) 5 6資料副本表 5 8表決程式 6 0表決之資料 6 2表決資料表 6 4資料衝突表 6 6表決資料共用記憶體 7 0發送器 72a-d接收器 73a-d光隔離器 7 4 a - b介面 7 6 8位元發送器記憶體
O:\58\58777.ptc 第9頁 486637 _ 案號88109143_p年<P月仏曰 修正_ 五、發明說明(5) 7 8 a - d接收器記憶體 8 0同步程式 82移位暫存器電路 84容錯程式(FLT) 9 0位元中心邏輯 9 2時間戳記邏輯 9 4移位電路 9 6控制邏輯 發明之詳細說明 據本發明的一項具體實施例,冗餘管理系統(RMS)提供 下列的冗餘管理功能:1)交叉通道資料通信;2)以訊框為 主的系統同步化;3 )資料表決;4)故障及錯誤偵測、隔離 及修復;5 )容退化及自行修復。 交叉通道資料通信功能是由CCDL模組所提供。CCDL模組 具有一個發送器及最多八個序串列的接收器。CCDL模組從 自己的本機通道取得資料,並將資料廣播到包括本身通道 的所有通道。通信資料被封裝成特定的訊息格式,並使用 同位元偵測傳輸錯誤。為了保持通道之間的電子絕緣,所 以全部的CCDL接收器使用電子對光學間的轉換。因此,沒 有任何單一的接收器故障可以越過其他通道接收器的漏極 電流,而造成整個系統的共同模型故障。 RMS是以訊框為主的同步化系統。每個RMS系統具有自己 的時間,且利用與全部的通道交換其本機時間並按照表決 時鐘調整本機時間的方式來實現系統同步化。分散式協議 演算法用於依據任何類型的故障(包括:Byzantine 故障)
O:\58\58777.ptc 第10頁 486637 _ 索龜_M119143 p 主 P q /乙 α 修i------ 五、發明說明(6) 建立故障的全域性時鐘。 R M S採用資料表決作為故障偵測、隔離及修復的主要機 制。如果通道所產生的資料與多數表決的資料不同時,表 決的資料將作為輸出來遮蔽故障。故障通道將由王域性性 能惡化(penal ty)系統識別並懲罰。資料表決包括應用程 式^源及系統狀態資料。RMS支援異質計算系統’其中因 為分集式硬體與軟體,導致無故障通道並不保證產生完全 相同的資料(包括資料影像)。使用者定義的容許範圍定義 表決處理程序中出現資料偏差的差錯行為° RMS支援容退化,其方式是利用從一群定義操作集的同 步化且無故障之通道中排除故障通道。設計性能惡化 (penal ty)系統的目的是為了懲罰任何故障的通道所犯的 差錯行為。故障通道超出其性能惡化(penal ty)限定值 時,其他的無故障通道將其本身的組態重新設定成新的操 作集,來排除最近識別的故障通道。不允許被排除的通道 參與資料表決且其資料只能作為監控用途。RMS也透過動 態重新設定組態的方式,而具有重新許可正常通道回到操 作集的能力。自行修復功能使RMS可以為擴充式任務保存 系統資源。 圖1顯示根據本發明具體實施例之RMS系統的上層方塊 圖。RMM 12包括一項交叉通道資料連結(CCDL) 24,及一 項容錯執行(FTE) 13 cFTE 13 位於 VME(Versa Module E:uropa)介面卡上或其他單主機板電腦上,並且經由VME底 板匯流排或其他適合的資料匯流排將FTE 1 3連接到其他 的介面卡。第一RMS 12 經由CCDL 24連接到其他位於其他
O:\58\58777.ptc 第11頁 486637 ---_88109143__年 Θ 月 /6 g_修正 五、發明說明(7) ------- j丨面卡上的RMM。每個RMM含有自己的CCDL 24,以建立個 電腦之間的通信連接。透過CCDL連線所建立的通信 連接提,額外的延展性,可監控系統中所有介面卡的完整 性。在每個計算節點上實行RMM,並將相同的RMjtf互相連 接,如此,就可以比其他的容錯系統更有效率地偵測、隔. 離、及處理系統故障。 系統架構 - ,圖2是根據本發明的一項具體實施例之以RMS為主的三通 道系統架構的示範圖示。於本架構中,r M S與三台 Vehicle Mission Coumputer(VMC)相互連接,而構成冗 餘、容錯的系統。每台VMC具有一個VME母板,而VME母板 中具有數個單板電腦(single- board computer)。第一RMM 12 被安裝在VMC 1的第一個插槽,而RMM 12及其他應用板 之間則是透過VME底板匯流排14通訊。每台VMC從外部 MIL-STD- 1 5 53匯流排取得輸入。三個主要的應用程式 Vehicle Subsystem Manager 16 'Flight Manager 18 、 及M i s s i ο η M a n a g e r 2 0計算其功能,然後將重要資料儲 存在V Μ E全域性記憶體(請參閱圖7 )中以利表決。 VMC(Vehicle Mission Computer) 1 、VMC 2 、及 VMC 3 板個別的R Μ Μ 1 2、2 2、及3 2 透過VM E 取得資料,並將區 域性資料透過交叉通道資料連結(CCD L ) 2 4廣播到其他 RMM。收到這三項資料複本之後,各個RMM(12,22和32)將馨 表決並將已表決之資料寫回到V ME全域性記憶體中,以利 應用程式使用。 系統容錯
O:\58\58777.ptc 第12頁 486637 复號 88109143 修正 五、發明說明(8) / RMS中的每個通道被定義為用於故障偵測、隔離、及修 ^ '故 ^ 牽制區(fault containment region ;FCR)。傳 通常具有硬體/軟體元件所形成的領域。FCR的 豆他區w疋能夠防止故障及錯誤漫延到另一個區域。因為 ;區i ΐ Z 3 ^ t ΐ,程序该測並校正故障,所以相 同時發生之故障數量,視系;^用2故的 定。針對非Byzantine故障為中^用+1的\故數篁而 道數量,f為故障數量。如果=2i+上,其"為無故障通 為N = 3fB+1 ’其中N是無故障通道1 1要Byzantine安全性則 數量。 、數里,fB是Byzantine故障 RMS可容許不同持續時間 間歇性故障、及永久性故障。故纟_卩\’々例如:短暫式故障、 持續時間,並且隨機性出現及、、=式故障具有^短暫的 頻率定期出現及消失。永久性敌=三間歇性故p早以特定的 將會無限期存在。於傳統式容=障右沒有採取校f動作, 故障元件可縮短故障等待時、曰=統中的設计,嚴格排除 資源,而可能無法成功完i;:?太迅速地降λ系統的 其性能惡化(penalty)系統的程、大的要/ 1更5又。十 〜紅式。不同的性能惡化 (p e n a 11 y )可對照不同的資料芬/ 的高性能惡化(Penalty)權ί二、ί f f誤指派二ρϊ二故障 速排除故障通道。相對於/////現此^/# ’ $ (penalty)權值將允許故障通、//早的低性能惡暮化的拄 早通道在一段預先定義的時間内
第13 486637 _案號88109143_年Ρ月曰 修4_ 五、發明說明(9) 停留在系統中,使故障通道可透過表決校正故障。 根據本發明的RMS系統,當性能惡化(Penal ty)超出使用 者定義的排斥限定值時,三節點組態中的故障牵制則會隔 絕故障通道。當通道良性行為信用量到達可重新許可的限 定值時,則可重新許可通道回到操作集。應用程式或通道 資料中的衝突都是利用中間值選擇表決解決。 於兩節點組態中,RMS無法偵測或隔絕故障節點。就本 身而言,表決無法用於解決衝突。應用程式必須確定故障 的節點,並採取適當的動作。 RMM實施 如上述,各個RMM 12具有兩項子系統:容錯執行(Fault Tolerant Executive ;FTE)及交叉通道資料連結(Cross Channel Data Link ;CCDL) °FTE進一步由五項模組所組 成(圖5) :1)同步程式(Synchronizer)80 ;2)表決程式 〇〇七。1:)58;3)容錯程式(卩81111:1'〇16131:〇]:;?1^)84;4) 任務通訊程式(Task Communicator ;TSC)46 ;及5)核心 (Kernal ; KRL)52。本文中將說明這些模組的功能。 系統同步化 同步程式(SYN)80 (圖5)建立並維護系統的通道同步 化。每一個RMS在任何時間内都必須在下列五種狀態中的 其中一種狀態,或是在其中一種狀態中運作,這五種狀態 為:1)關閉電源(Power-Off) ; 2)啟動(Start-Up) ; 3)冷 啟動(Cold-Start) ;4)暖啟動(Warm-Start) ; 5)待命狀態 (Steady-State)。圖2顯示個別RMS的狀態轉移圖及其五種 狀態。
O:\58\58777.ptc 第14頁 486637 ______案號88109143_年(f月曰 修正____ 五、發明說明(10) 關閉電源(Power-Of f)狀態是RMS未運作,且為了任何原 因’相關電壓的電源被關閉。當打開RMS電力時,RMS無 條件轉變成啟動(St ar t-Up )。 啟動(Start-Up)狀態是電腦剛打開電源後,及初始化所 有系統參數、初始化RMS定時機制、和建立通道間通訊連 接(即,CCDL)時的狀態。完成啟動處理程序時,RMS 無條 件轉變成冷啟動(Cold-Start)。 3)冷啟動(Cold-Start)是RMS無法識別現有的操作集 (Operating Set ;0PS)並正在嘗試建立OPS時的狀態。〇ps 是一群參與正常系統操作及表決的節點。當至少有兩個 RMS在〇ps狀態中時,RMS自動從暖啟動(Warm-Start) 轉換 成冷啟動(Cold-Start)。 暖啟動(Warm-Start)狀態是RMS確認OPS至少含有兩個 RMS,但本機RMS本身不在OPS中。 待命狀態(Steady-State)是R MS節點與OPS同步時的狀 態。待命狀態(S t e a d y - S t a t e )節點可在〇 P S内或以外。〇 P S 中的每個節點正在執行其正常操作及表決。不包含在〇 p s 中的節點被排除在表決以外,但是〇PS將監視其資料,以 確定重新許可該節點的資格。 於冷啟動(Cold-Start)中,交作式收歛演算法 (Interactive Convergence Algorithm)用於同步化通道 時鐘,而成為操作集(0PS )的收歛式時間組。全部的構件 都必須具有關於OPS中構件的一致性檢視,如同同時切換 到待命狀態(Steady-State)模式。 於待命狀(Steady-State)模式中,每個通道透過系統
O:\58\58777.ptc 第15頁 486637 修正 案號 88109143 五、發明說明(11) 狀態(System State ; SS)訊息將其本機時間廣播給所有的 通道。為了維持系統同步,每一個通道都會將其本機時鐘 動態調整合全域性時鐘。因為R M S屬於訊框同步化的系 統,因此RMS具有稱為軟誤差視窗(Soft - Erroe Window ; S E W )之預先決定的時間視窗,以定義可容許的同步偏離。 於S E W所形成的時間間隔中’每個無故障的r μ S應收到其他 SS訊息。因為RMS在分散式環境中使用,所以使用SEW 視窗決定參與通道中同步錯誤本身就具有含糊性。請參閱 P· Thambidurai 、Α·Μ· Finn 、R.M· Kieckhafer 、及 C.J· Walter 於 Proc. IEEE 19th International Symposium on Fault-Tolerant Computing 所發表的 r
Clock Synchronization in MAFT」,此處將合併整份内 容以作為參考使用。若要解決含糊性,則是使用名為硬誤 差視窗(Hard-Error Window ; HEW)的時間視窗。例如:如 果通道A收到通道B的時鐘超出通道A的HEW以外,則通道a 報告通道B同步錯誤。但是,如果通道B(收到其自己的以 訊息之後)知道其本身的時鐘在HEW内,則通道B合報止通 的同步錯誤報告是錯誤的。相互告發之通道的s含糊\生 需要由其他通道檢視通道B時鐘解決。如果通道A正確,則 其他通道應觀察通道B時間是否已到達其SEW。利用其他通 道錯誤報告的證實,系統可以認定通道B為故障的通道。 否則,因為通道A偏離錯誤報告中大多數的檢視切 定通道A為故障通道。 尼所以w 暖啟動(warm-start)是冷啟動(c〇ld — Start)及待命狀離 (Steady - State)之間的中途。通道可能因為故障及錯誤g
486637 — _ 案號 88109143___宁£>年<?月/ 6曰_修正___ 五、發明說明(12) 被排除在0 P S以外。被排除的通道可完成重設,並嘗試與 暖啟動(Warm-Start)模式中的操作集重新同步化。一旦通 道彳貞測到其已與操作集的全域性時鐘同步化,則可以切換 成待命狀態(Steady-State)模式。一旦通道切換成待命 狀態(Steady-State)模式,則會監視被排除的通 道稍後重新許可回到OPS。 VMC内的時間同步(Time Synchr onization)禾J用定位監 控RMS所產生的中斷,而VSM排程程式使用訊框邊界及中間 訊框信號排程任務。 跨越VMC電腦的時間同步(Time Synchronization)保證 來源一致。C C D L時間表示8 M b i t資料連結上所收到的\ μ s 系統資料訊息的時間。FTE從VMC電腦取得RMS系統資料, 並表決所收到之訊息的時間,接著將CCDL本機時間調整為 表決值。然後’FTE在同步化訊框邊界產生中斷。° '' 系統表決 於RMS中,表決是用於故障偵測、隔離、及修復的主 技術。F T E中的R M S表決程式(R M S V 〇 t e r ; V T R )針對系統 態、錯誤報告及應用資料進行表決。系統狀態的表決'建, 類似0 P S及同步模式中構成之系統操作的一致性檢視'。 錯誤報告的表決明確陳述關於哪一個通道有誤差行為及 些錯誤之性能惡化(p e n a 11 y)應是什麼的一致性音見”'。$ 決應用資料提供校正應用程式所使用的資料輸出。 顯示資料表決順序。 Θ R M S資料表決是由副訊框邊界所驅動的循環操作。 框是系統中調用任務的最頻繁期間。如圖4所顯示, §
O:\58\58777.ptc
486637 _案號88109143_%年月曰 修正 五、發明說明(13) 四通道式系統產生副訊框應用資料4 0 ’並將資料儲存在原 始資料共用記憶體,也就是儲存在RMM表決所使用的應用 資料表4 2。於副訊框邊界4 4,R Μ Μ的任務通訊程式(τ a s k Communicator ; TSC)46使用資料ID順序表 (Data- ID Sequence Table ;DST)48 作為從應用資料表42 讀取資料的指標。DST 48是決定哪一個資料需要在每個副 訊框中表決的資料表決排程,並且也包含表決所需的其他 相關資訊。讀取資料後,T S C ( T a s k C 〇 m m u n i c a t 〇 r )將資料 封包成特定格式’並將資料傳送到C C D L 2 4。C C D L將自己 的本機資料廣播到其他通道,也從其他通道接收資料。資 料轉移完成後’核心(Kernel ;KRL)52從CCDL 24取得資 料’並將該資料儲存在資料複本表(Data Copies Table)56 中,於資料複本表(Data Copies Table)56 有 四份資料複本可供表決(即,三份來自於其他RMM的複本, 及一份來自於本身RMM的複本)。表決程式(v〇ter,VTR)58 執行表決及偏差檢查。中值選擇演算法用於整數及實數表 決,而多數表決演算法則是用於二進位及離散資料表決。 資料類型及其相關偏差容許度也是由D S T 4 8所提供,而 DST 48則是被VTR 58所使用,以便選擇適當的表決演算 法。表決之資料6 0被儲存在表決資料表(v 〇 t e d d a t a table )62中。於適當的時間内,TSC模組46從表決表62中 讀取資料,並將該資料寫回到應用資料表(appl i cat i〇n data table,或疋表決資料共用記憶體)ββ中。此外,輸 出資料的位址是由DST 48所提供。針對每項表決之資料, 如果系統只剩下兩個操作通道且VTR偵測到有資料不一致
O:\58\58777.ptc 第18頁 H-OOOJ /
58 可旎會在 I 料衝突表(Data Conflict 料衝突旗標。資料衝突表(心 式& # C / ^ e 4位於共用記憶體空間中,所以應用程 式权體可存取滚格,以確定表 、用轾 資料表決選項 衣决之貝枓疋否有效。 資料類型 說明 表決演算法 ---~~1 預估表決時間 帶符號整數 32位元整數 中值選擇 ----- 6· 0秒 浮點 IEEE單精度浮點 中值選擇 5. 3秒 不帶符號整數 作為文字表決的32位元字 (可用於表決狀態文字中) 中值選擇 6.0秒 32位元表決程式 壓縮布林的32位元字。作 為32個個別布林表決。 ---—.— 多數表決 12秒 表格1 表私1為資料表決選項的示範表,其中指定的資料類型 疋A N S I Cπ程式語言的標準資料類型。 容錯 ' 利用疋義故障牵制區(Fault Containment Region ; FCR)作為每個通道的方式,fcr(即,通道)可證明錯誤只 透過訊息交換到其他FCR(即,通道)。請參閱j. Zhou於 1 9 9 2 年7 月在 NSWC Silver Spring MD 舉行之 Proc· Complex Systems Engineering Synthesis and Assessment Workshop 中所發表的「Design Capture for
O:\58\58777.ptc 第19頁 486637 _案號88109143_年#月Μ日 修正 _ 五、發明說明(15)
System Dependability」第107-109頁,此處將合併以作 為參考使用。透過表決及其他的錯誤偵測機制,容錯 (FLT) 84 (圖5)將錯誤歸納成表格2中所顯示的1 5種類型。 一項1 6位元錯誤向量被運用在記錄及報告偵測的錯誤。錯 誤向量被封包成錯誤報告訊息並廣播到其他的通道,以用 於在每一個副訊框的一致性及修復動作。
O:\58\58777.ptc 第20頁 486637 案號 881091“ 五 發明說明(16) 錯誤ID El (保留) 錯誤說明 E2 收到無效訊息類型、節點id、或資料ID的 _訊息__ E3 水平或垂直同位元錯誤、錯誤的訊息長度、或 已超出訊息限制__ 收到太多的錯誤報告(Error Rep〇rt)或系統 越態(System State)訊魚、__ E5硬誤差視窗(Hard-Erroe Window)内收到非SS 訊息 、 —------ g從節點收到一個以上的相同資斜__ 遺失SS訊息,或preSYNC/sync未依正確的順 序到達 _、 硬誤差視窗(Hard-Erroe Window)内未到達SS 吞fL息 軟誤差視窗(Soft-Erroe Window)内未到達SS 訊息 所收到之SS訊息的副訊框及/或主訊框號碼^ 本機節點的號碼不同 ΐ點的cs¥^7或NSS與表決的css及/或NSS $ —致____ 來自副訊框中節點的錯誤訊泉 遺失資料___ jg點所兔圭的資料值與表決值不一致_^ 來自節點的錯誤訊息中所包含的資訊與表決值 的資訊不一致_ 一個主節點所~^的錯誤數量已超出 預設限制 E4
iTBD 或TBD Ε8 Ε9 Ε10 Ε16 表格2 (錯誤向量表)1111
或TBD 或TBD 4 或 TBD
O:\58\58777.ptc 第21頁 486637 __案號 88109143 f〇 年 β 月 K 日 五、發明說明(17) 請參閱圖6,FLT 8 4評估(步驟1 0 4 )錯誤來源通道的性能 惡化。於每一個副訊框,全部偵測(報告)的錯誤,包含在 錯誤報告1 0 0中,使用性能惡化權值表1 0 2指派性能惡化, 而性能惡化總和被儲存在遞增式性能惡化言丨&
(Incremental Penalty Count ; I PC)中。區域性 ipc 被評 估(步驟104),並經由CCDL廣播(106)到其他節點。flt84 對I PC (步驟1 0 8 )進行表決,並將表決結果储存#在基底性能 惡化計數(Base Penalty Count ;BPC)(步驟 11〇)中。jpC 擷取特殊副訊框的錯誤,而BPC擷取整個任務期間的的累 積誤差。計算/儲存BPC之後,將清除IPC向量步\驟112)', 並經由C C D L將B P C廣播(步驟1 1 4 )到其他節點。每一個副訊 框也會表決BPC(步驟116),而FLT84則會使用表決的BPC來 確定是否需要性能惡化指派及表決,以確保所有無故障通 道針對系統重新設定組態的動作一致。一旦完成對B P C (步 驟1 1 6)的表決之後,FLT會確定是否已到達主訊框邊界(步 驟1 1 8 )。如果已到達主訊框邊界,則決定重新設定組態系 統(步驟1 2 0 )。如果未到達主訊框邊界,則處理程序會返 回錯誤報告1 0 0,再重頭開始。 系統重新設定組態包括排除系統故障通道及重新許可正 常通道。如果故障通道的基底性能惡化計數(Base Penalty Count ;BPC)超出預先決定的限定值,則RMS開始 系統新設定組態。於新設定組態期間,系統將操作集重新 編組以隔絕故障通道。一旦通道失去操作集中的構件,則 表決處理程序中將不再使用資料及系統狀態。被排除的通 道需要完成重設處理程式。如果成功完成重設處理程序,
O:\58\58777.ptc 第22頁 ^1S_88109H3_ 、發明說明(18) 五 修正 化^ ^可以嘗試與操作集重新同步化,如果成功$ + 除的、s可以切換成待命狀態(3"^8(^-31316)模十、同步 ς 2,道可?在待命狀態(steady_state)模式5:被排 所^ ^然在彳呆作集以外。現在,通道接收操作隼作, 斤^糸統訊息及應用資料。 /、中郎點的 复t,集中的所有構件也接收被排除之通道的訊自 ^ =為。視通道的行為而定,排除之通道的卯0 7並監控 = '夕。如果排除之通道維持無故障操作,則装言加 決:if定值以下,在下一個主訊框邊界逐Λ mV°應用介一面個重新設定組態’以重新許可通道。 I前RMS實施使用VME匯流排及共用記憶體作為r ;丨面。無論如何,也只有一項可能的實施與農他… 協定可用於實施介面。TSC46 (圖4)的主功能是從指干j訊 二二广取得資料,並將該資料封包成特定的格式以提Ϊ通 RMM12使用。完成表決循環時,TSC46將取得表決 ς 並將該資料傳回到應用程式。 貝/斗’ R Μ Μ核心 圖5顯示根據本發明的一項具體實施例之容錯執行 (fault tolerance executive ; FTE)内容的原理圖。如圖 顯示,核心(K e r n e 1 )為R Μ Μ提供全部的監督操作。核心田 (Kerne 1)52管理RMM12的啟動,呼叫適當的功能將目/標"處 理器初始化,並載入所有的初始資料。於啟動處理程序期 間,核心(Kerne 1 )52利用載入系統組態資料及正確的操作 參數的方式’設定C C D L 2 4的組態。核心(κ e r n e 1 ) 5 2利用監
O:\58\58777.ptc 第23頁 486637 __H⑽143_ 和年/月α 口 攸工_ 五、發明說明(19) 控多個R Μ Μ的子系統的狀態並於校正期間採取適當動作的 方式’管理RMM12操作節點(即,冷啟動(c〇ld — Start)、暖 啟動(Warm - Start)、及待命狀態(Steady一state))之間的 轉換。核心(K e r n e 1 ) 5 2使用確定型排程演算法,如此可由 自含式時基控制全部的「動作」。於時基循環中已知的 「計時」’將一直執行該計時的預先決定之動作。核心 (Kernel)按照時間計時協調FTE功能。像是故障偵測、隔 離、及修復之類的R M S活動於副訊框中適當的時間内由核 心(Kernel )排程。如果RMS頻道變成故障,則受影響的RMM 中之核心(Kernel )52須負責於適當的時間重新啟動該通 道。RMS子系統之間及RMS與多個應用電腦之間的全部資料 皆由核心(1^]:1^1)52管理及排程。核心(1(61>1161)52指示其 他RMM中的子系統準備各種RMS訊息,並將這些訊息載入 CCDL,以便在核心(Kernel )請求下傳遞。CCDL收到訊息 後,核心(Kernel )52取出這些訊息,並將訊息送到正確的 子系統以利處理。核心(K e r n e 1 )以迴路方式執行,持續執 行所排程的每項動作,並監控R MM狀態。 容錯執行(Fault Tolerance Executive ;FTE)13 為四個 或四個以上的節點提供B y z a n t i n e故障復原性。於來源一 致的條件下,By z an t i n e可為三個節點提供安全性。fte 1 3表決應用資料,移除/恢復FTE的應用程式,並將應用程 式同步化,和其他R Μ M F T E小於1 0 0秒偏離。
於一項示範性具體實施例中,FTE大約需要4· 08毫秒 (4 0 %使用率)的時間表決1 5 〇字及執行作業系統功能。F Τ Ε 記憶體是〇· 4 MB快閃記憶體(FI ash,5%使用率)及〇. 4 MB
486637 p年左月仏曰 -S^_88109143 五、發明說明(20) 知道(,k二,Ϊ )。這些數值已提供作為示範用途。必須 姜f 在不需要變更本發明的範疇下, 項平常技巧可改變這些數值。 ^ t的其中 RMS内容 滋圖ί二ΐ ϊ ϋ環境中,rms及vmc之間的rms内容或交換結 β構。X内所轉移的結構包括在ms訊框邊界(RMS Frame Boundary)傳遞的RMS系統資#(RMS以以㈣ 2像是指出誰在操作集之中和以外操作的表決之'目前,下包 二個糸統狀態、及在兩個節點組態中使用的 等之類的資訊。資料衝突表(Data Conflict Table)在^ 個節點組態中使用,其以對等資料元素為基準,指出益 解決的資料衝突。表決資料表6 2包含一個操作集構件^表 決所提供每項資料元素的表決值。RMS系統資料(RMS 、 及
System Data)、資料衝突表(Data Conflict Table) 表決之輸出(Voted Output)被個別RMM轉移到全域性 (Global )共用記憶體,其中全域性(Global )共用記憶體在 RMM操作時會與區域性VMC通訊。 力,並轉移到RMS,該應用程式可以影響RMS決定操作集 時所評估的誤差性能惡化(e r r 〇 r p e n a 11 y )。 ' 訊框(Frame)邊界資訊包括發出RMS訊框開始信號的中 斷。此項信號訊框將FM(Flight Manager)、VSM(Vehicle Subsystem Manager)、及 MM(Mission Manager)同步 匕 0 能 原始輸出(Raw Output)是向RMS所提出的資料,以提供 待命狀態(Steady-State)模式中的所有節點表決。應用程 式錯誤計數(Application Error Count)是系統選擇性的
O:\58\58777.ptc 第25頁 486637 _案號 88109143_年 f 月 β 曰_____ 五、發明說明(21) 中間訊框資訊是另一項提供訊框開始後5亳秒之信號的中 斷。應用程式資料備妥(Application Data Ready) 資訊 包括RMS所產生的中斷,以信號通知應用程式資料在等待 中,並可以取出及處理該資訊。系統重設(S y s t e m R e s e t) 是選擇性控制重設後可使用應用程式。 交叉通道資料連結(Cross Channel Data Link ;CCDL) C C D L 2 4提供通道之間的資料通訊。資料被封包成訊息, 圖8中顯示該訊息結構。如圖所顯示,訊息結構包括表 頭、及按照所傳送及接收的訊息類型的各種訊息類型。下 列訊息類型使用於本發明一實施例中: 類型0 資料訊息。 類型1 系統狀態訊息。 類型2 冷啟動訊息。 類型3 錯誤報告與性能惡化計數訊息。 每個CCDL24具有一個發送器及最多八個接收器。圖 9-1 1中顯示CCDL高層架構、發送器及接收器原理。圖9顯 示高層CCDL架構,其包括一個發送器70、四個接收器 72a-72d、及兩個使用DY4 MaxPac 中層協定的介面74a及 74b。一個介面74b有助於基本V ME卡及CCDL記憶體之間的 資料交換,而一個介面74a則處理控制邏輯及錯誤報告產 生。需要傳送資料時,CCDL介面74b從基本卡取得資料, 並將該資料儲存到8位元發送器記憶體7 6。收到資料時, 四個接收器7 2 a - 7 2 d分別針對每個節點,在四個接收器記 憶體7 8a-7 8d中處理並儲存所收到的資料。然後,FTE1 3在 CCDL24的控制下取得該資料。因為CCDL是建立通道之間實
O:\58\58777.ptc 第26頁 486637 ___案號 88109143_竹)年$月16曰_修正__ 五、發明說明(22) 體連接的唯一子系統,所以為了保證系統的故障牽制區 (Fault Containment Region),必須強迫執行電子絕緣。 本CCDL使用電子到光學間的轉換,將電子信號轉換成光信 號。每個接收器72a - 72d具有相應的光隔離器73a-73d,以 提供必要的隔離功能。如此,使每一個通道都可以具有自 己的電源供應,並且每一個通道彼此之間互相絕緣。 圖1 0顯示根據本發明的一項具體實施例之發送器7 〇架構 的更詳細圖示。FEL發出「GO」指令時,發送器控制邏輯 8 0從其8位元發送機記憶體7 6讀取資料、將該資料構成3 2 位元格式、並將一個水平字附加到資料的結尾後。移位暫 存器電路8 2將資料轉換成序列位元串,並將垂直同位位元 插入傳送的資料串·中。 圖1 1顯示如何從傳送模式接收序列資料串,及如何將序 列資料串儲存到對應的記憶體。位元中心(Bit Center) 邏輯90使用6系統時鐘(即,48MHz)循環以一個資料位元為 單位確實記錄。收到資料串的第一個位元時,時間戳記 (Time Stamp)邏輯92記錄時間,以用於同步化用途。移位 電路9 4除去垂直同位位元,並將序列資料轉換成8位元格 式。垂直位元顯示傳輸錯誤時應報告錯誤。控制邏輯96進 一步除去資料的水平同位元,並按照資料隨附的節點號碼 資訊,將該資料儲存到接收器記憶體(例如,7 8a )。 為了加強通訊的可靠度,水平及垂直同位位元都會附加 到資料訊息中。訊息格式是由CCDL24所確認,並且只有有 效訊息才會傳送到核心(K e r n e 1 ) 5 2,以利進一步處理。 應知道本發明並未限制此處所發表的特殊具體實施例,
O:\58\58777.ptc 第27頁 486637 修正 案號 88109143 五、發明說明(23) 作為執行本發明的最佳模式,更確切地說,除了附加的申 請專利以外,本發明並未限制本規格書中所說明的特定具 體實施例。
O:\58\58777.ptc 第28頁 486637 _案號88109143_f〇年月(么日 修正 圖式簡單說明
O:\58\58777.ptc 第29頁
Claims (1)
- 486637 _案號88109143_fb年(f月(6日 修正_ 六、申請專利範圍 1 · 一種管理具有多重硬體計算節點(通道)之以電腦為 主的冗餘系統的方法,其包含下列步驟: 在每個計算節點提供一冗餘管理系統(RMS); 於每個RMS之間建立一通訊連結,以及 於每個RMS中執行容錯執行(FTE),以管理故障及多數 的糸統功能。 2 .如申請專利範圍第1項之方法,更包括將系統中每個 計算節點同步化的步驟,該同步化步驟是由F T E執行,並 由下列步驟所組成: 於每個RMS中提供一個時鐘; 將每個RMS中的區域性時間與全部其他節點交換;以 及 按照表決之系統時鐘,調整每一個R M S個別的區域性 時鐘。 3. 如申請專利範圍第1項之方法,更包括偵測節點中所 產生之資料的故障/錯誤,該偵測及預防步驟進一步包含 下列步驟: 由每個節點對產生的資料進行表決,以確定一個節點 所產生的資料與否與多數表決的資料不同;以及 當一特殊節點所產生的資料與多數表決的資料不同 時,則使用表決的資料作為輸出,以遮蔽故障。 4. 如申請專利範圍第1項之方法,其中於每個計算節點 提供RMS所執行的步驟與應用程式發展無關。 5 ·如申請專利範圍第1項之方法,其中建立步驟是利用O:\58\58777.ptc 第30頁 486637 修正 案號 88109143 六、申請專利範圍 合併每個計算節點的RMS之間的一交叉通道資料連結 (CCDL)的方式執行。 6 ·如申請專利範圍第1項之方法,進一步包括下列步 驟: 將每個計算節點(通道)定義為故障牽制區(f au 11 containment region); 偵測計算節點中所產生之資料的故障/錯誤;以及 隔離故障牽制區所偵測的故障,以防止所偵測的故障 漫延到另一個計算節點。 7. 如申請專利範圍第6項之方法,其中偵測步驟進一步 包括由每個節點對產生之資料進行表決的步驟,以確定一 個節點所產生的資料與否與多數表決的資料不同。 8. 如申請專利範圍第7項之方法,其中隔離步驟進一步 包括,一特殊節點所產生的資料與多數表決的資料不同時 使用表決之資料作為輸出的步驟,以遮蔽故障。 9 ·如申請專利範圍第3項之方法,進一步包括下列的步 驟: 識別一故障節點,以響應資料表決結果; 由全域性性能惡化(p e na 11 y )系統識別並懲罰故障節 點;以及 當故障節點的性能惡化(pe na 11 y )超出使用者定義之 容錯範圍時,將所識別的故障節點排除節點操作集以外。 1 0 .如申請專利範圍第9項之方法,進一步包括下列的步 驟:O:\58\58777.ptc 第31頁 486637 _案號88109143_fo年孑月β曰_修正 _ 六、申請專利範圍 監視被排除之節點的資料,以確定被排除之節點的資 格是否可以重新許可進入操作集;以及 當監控指出節點可接受的效能在預先決定的限制值内 時,則可重新許可被排除之節點進入操作集。 1 1 .如申請專利範圍第1 0項之方法,其中預先決定之限 制值是由系統操作員所定義。 1 2 . —種在具有多數計算節點(通道)之計算環境中容錯 計算的方法,其包括下列步驟: 在與應用程式無關的每個計算節點中執行冗餘管理系 統(RMS); 於每個RMS之間通訊;以及 維護節點操作集(OPS )以增加計算環境的容錯度。 1 3.如申請專利範圍第1 2項之方法,其中通訊步驟是在 交叉通道資料連結(CCDL)上執行。 1 4.如申請專利範圍第1 3項之方法,其中通訊步驟進一 步包括下列的步驟: 利用介面將CCDL與個別RMS的節點連接; 於CCDL中提供多數接收器,以便於個別接收每一個多 數節點的資料; 於CCDL中至少提供一個發送器,以便於處理所接收的 資料,並將所接收的資料傳遞到位於RMS中的容錯執行 (FTE);以及 必須時至少提供一個接收器記憶體及至少一個發送器 記憶體,以接收並儲存個別的資料。O:\58\58777.ptc 第32頁 486637 _案號88109143_和年孑月U曰_魅_ 六、申請專利範圍 1 5 .如申請專利範圍第1 2項之方法,其中維護節點的一 操作集的步驟是在位於RMS内的容錯執行(FTE)所執行,並 可進一步包括下列的步驟: 接收計算環境中所連接之每一個節點的資料; 確定從任何一個節點所接收之資料是否含有故障; 關於其他所收到的資料,將排除產生之錯誤的資料; 以及 重新設定操作集組態,以排除錯誤的節點。 1 6.如申請專利範圍第1 5項之方法,其中確定步驟進一 步包括下列的步驟: 設定錯誤資料的容許範圍; 對所收到之每個節點的全部資料進行表決; 確定節點的錯誤資料是否已超出容許範圍。 1 7.如申請專利範圍第1 5項之方法,進一步包括下列的 步驟: 監控被排除之節點;以及 當監控之資料指出已校正被排除之節點上的錯誤資料 時,重新許可被排除之節點進行操作集。 1 8.如申請專利範圍第1 6項之方法,其中表決步驟於資 料傳輸中每一個副訊框邊界上執行。 1 9 .如申請專利範圍第1 5項之方法,其中重新設定組態 步驟是於資料傳輸中每一個主訊框邊界上執行。 2 0 · —種管理具有多重硬體計算節點(通道)之以電腦為 主的冗餘系統的裝置,包含:O:\58\58777.ptc 第33頁 486637 _案號88109143_7〇年(P月W曰 修正_ 六、申請專利範圍 於每個計算節點中提供冗餘管理系統(RMS)的裝置; 於每個RMS之間建立一通訊連結的裝置,以及 於每個RMS中執行容錯執行(FTE),以管理故障及多數 的糸統功能。 2 1 .如申請專利範圍第2 0項之裝置,其中建立一通訊連 結的裝置包含一連接到每個計算節點中每個冗餘管理系統 的交叉通道資料連結。 2 2 .如申請專利範圍第2 0項之裝置,進一步包括: 偵測任何一個節點中所產生之資料中的故障/錯誤; 以及 將節點範圍内所偵測的故障/錯誤與所產生的故障/錯 誤隔離的裝置。 2 3.如申請專利範圍第2 2項之裝置,其中偵測裝置進一 步包含對每個節點所產生的資料進行表決的裝置,以確定 一個節點所產生的資料與否與多數表決的資料不同。 24.如申請專利範圍第23項之裝置,其中隔離裝置進一 步包括使用表決之資料遮蔽與多數表決不同之節點所產生 之故障的裝置。O:\58\58777.ptc 第34頁
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US8773398P | 1998-06-02 | 1998-06-02 | |
US09/140,174 US6178522B1 (en) | 1998-06-02 | 1998-08-25 | Method and apparatus for managing redundant computer-based systems for fault tolerant computing |
Publications (1)
Publication Number | Publication Date |
---|---|
TW486637B true TW486637B (en) | 2002-05-11 |
Family
ID=26777328
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW088109143A TW486637B (en) | 1998-06-02 | 1999-10-01 | Method and apparatus for managing redundant computer-based systems for fault tolerant computing |
Country Status (8)
Country | Link |
---|---|
US (1) | US6178522B1 (zh) |
EP (1) | EP1082661A4 (zh) |
JP (1) | JP2002517819A (zh) |
CN (1) | CN1192309C (zh) |
AU (1) | AU4673499A (zh) |
CA (1) | CA2334009A1 (zh) |
TW (1) | TW486637B (zh) |
WO (1) | WO1999063440A1 (zh) |
Families Citing this family (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19921179C2 (de) * | 1999-05-07 | 2002-04-25 | Astrium Gmbh | Logikeinheit nach byzantinem Algorithmus, Rechnereinheit mit solcher Logikeinheit, Verbund aus Logik- oder Rechnereinheiten und Verfahren zum Betreiben eines solchen Verbunds |
US6671821B1 (en) * | 1999-11-22 | 2003-12-30 | Massachusetts Institute Of Technology | Byzantine fault tolerance |
US8423674B2 (en) * | 2001-06-02 | 2013-04-16 | Ericsson Ab | Method and apparatus for process sync restart |
US6813527B2 (en) | 2002-11-20 | 2004-11-02 | Honeywell International Inc. | High integrity control system architecture using digital computing platforms with rapid recovery |
GB2395639A (en) * | 2002-11-21 | 2004-05-26 | Matsushita Electric Ind Co Ltd | System operable in either architecture reconfiguration mode or processing mode depending on the contents of a frame header |
US7136793B2 (en) * | 2003-01-14 | 2006-11-14 | Lockheed Martin Corporation | System and method for modeling a propagation and containment process |
CN1792052B (zh) * | 2003-05-20 | 2011-04-13 | Nxp股份有限公司 | 时间触发的通信系统以及用于同步双信道网络的方法 |
DE10394366D2 (de) * | 2003-11-17 | 2006-10-19 | Siemens Ag | Redundantes Automatisierungssystem zur Steuerung einer technischen Einrichtung sowie Verfahren zum Betrieb eines derartigen Automatisierungssystems |
US7350113B2 (en) * | 2004-05-11 | 2008-03-25 | International Business Machines Corporation | Control method, system, and program product employing an embedded mechanism for testing a system's fault-handling capability |
US20060136490A1 (en) * | 2004-12-17 | 2006-06-22 | International Business Machines Corporation | Autonomic creation of shared workflow components in a provisioning management system using multi-level resource pools |
US7499865B2 (en) * | 2004-12-17 | 2009-03-03 | International Business Machines Corporation | Identification of discrepancies in actual and expected inventories in computing environment having multiple provisioning orchestration server pool boundaries |
US7953703B2 (en) * | 2005-02-17 | 2011-05-31 | International Business Machines Corporation | Creation of highly available pseudo-clone standby servers for rapid failover provisioning |
US20070186126A1 (en) * | 2006-02-06 | 2007-08-09 | Honeywell International Inc. | Fault tolerance in a distributed processing network |
US20070220367A1 (en) * | 2006-02-06 | 2007-09-20 | Honeywell International Inc. | Fault tolerant computing system |
US8510596B1 (en) | 2006-02-09 | 2013-08-13 | Virsec Systems, Inc. | System and methods for run time detection and correction of memory corruption |
US20070260939A1 (en) * | 2006-04-21 | 2007-11-08 | Honeywell International Inc. | Error filtering in fault tolerant computing systems |
US8977252B1 (en) * | 2006-07-06 | 2015-03-10 | Gryphonet Ltd. | System and method for automatic detection and recovery of malfunction in mobile devices |
US7685464B2 (en) * | 2006-11-20 | 2010-03-23 | Honeywell International Inc. | Alternating fault tolerant reconfigurable computing architecture |
US7898937B2 (en) * | 2006-12-06 | 2011-03-01 | Cisco Technology, Inc. | Voting to establish a new network master device after a network failover |
EP3011961B1 (en) * | 2006-12-21 | 2020-11-11 | Biokine Therapeutics LTD. | 4f-benzoyl-tn14003 for the mobilisation of hematopoietic progenitor cells in view of transplantation |
US8036805B2 (en) * | 2007-07-13 | 2011-10-11 | Honeywell International Inc. | Distributed engine control system |
US20090106781A1 (en) * | 2007-10-23 | 2009-04-23 | Reed Benjamin C | Remote call handling methods and systems |
US8255732B2 (en) * | 2008-05-28 | 2012-08-28 | The United States Of America, As Represented By The Administrator Of The National Aeronautics And Space Administration | Self-stabilizing byzantine-fault-tolerant clock synchronization system and method |
US8656392B2 (en) * | 2009-06-10 | 2014-02-18 | The Boeing Company | Consensus based distributed task execution |
JP5560113B2 (ja) * | 2010-06-25 | 2014-07-23 | 株式会社日立製作所 | 計算機システム及び計算機の管理方法 |
CN102193835B (zh) * | 2011-03-25 | 2013-01-30 | 上海磁浮交通发展有限公司 | 基于3取2计算机系统的预执行方法 |
CN103562805B (zh) * | 2011-03-30 | 2017-06-30 | 维斯塔斯风力系统集团公司 | 具有高度可靠实时功率控制的风力发电厂 |
CN102411520B (zh) * | 2011-09-21 | 2013-09-25 | 电子科技大学 | 一种基于数据单元的地震数据的灾难恢复方法 |
CN102622323B (zh) * | 2012-03-27 | 2014-11-19 | 首都师范大学 | 动态可重构串行总线中基于开关矩阵的数据传输管理方法 |
US9849241B2 (en) | 2013-04-24 | 2017-12-26 | Fresenius Kabi Deutschland Gmbh | Method of operating a control device for controlling an infusion device |
WO2014192005A1 (en) * | 2013-05-27 | 2014-12-04 | Hewlett-Packard Development Company, L.P. | System state message in software defined networking |
US9448548B2 (en) * | 2013-06-14 | 2016-09-20 | Honeywell International Inc. | Synchronizing and displaying fault tolerant Ethernet (FTE) status |
JP6100384B2 (ja) * | 2013-09-04 | 2017-03-22 | 株式会社東芝 | 情報処理システム、サーバ装置、情報処理方法及びプログラム |
JP2016534479A (ja) | 2013-09-12 | 2016-11-04 | ヴァーセック・システムズ・インコーポレーテッドVirsec Systems,Inc. | マルウェアのランタイム中の自動検出 |
JP6158425B2 (ja) * | 2014-03-18 | 2017-07-05 | 株式会社東芝 | 情報処理システム、サーバ装置、情報処理方法およびプログラム |
WO2015200511A1 (en) | 2014-06-24 | 2015-12-30 | Virsec Systems, Inc. | System and methods for automated detection of input and output validation and resource management vulnerability |
WO2015200508A1 (en) * | 2014-06-24 | 2015-12-30 | Virsec Systems, Inc | Automated root cause analysis of single or n-tiered applications |
JP6203407B2 (ja) * | 2014-08-05 | 2017-09-27 | 株式会社東芝 | 整列装置、データ処理装置、プログラム、整列方法および多重化システム |
CN104635745B (zh) * | 2015-03-02 | 2017-03-22 | 中国航空无线电电子研究所 | 一种飞行管理系统双机同步的方法 |
US10025344B2 (en) | 2015-04-21 | 2018-07-17 | The United States Of America As Represented By The Administrator Of Nasa | Self-stabilizing distributed symmetric-fault tolerant synchronization protocol |
CA3027728A1 (en) | 2016-06-16 | 2017-12-21 | Virsec Systems, Inc. | Systems and methods for remediating memory corruption in a computer application |
CN107145407B (zh) * | 2017-05-16 | 2020-10-27 | 中林云信(上海)网络技术有限公司 | 一种对数据进行本地备份的方法 |
CN112506035A (zh) * | 2020-11-03 | 2021-03-16 | 中国航空工业集团公司西安航空计算技术研究所 | 一种作动器控制计算机的同步系统 |
CN113900979B (zh) * | 2021-09-08 | 2024-03-19 | 中国航空工业集团公司西安航空计算技术研究所 | 一种双功能区共单ccdl传输体系 |
CN114280919B (zh) * | 2022-03-08 | 2022-05-31 | 浙江中控技术股份有限公司 | 冗余控制装置 |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4228496A (en) | 1976-09-07 | 1980-10-14 | Tandem Computers Incorporated | Multiprocessor system |
US4503535A (en) | 1982-06-30 | 1985-03-05 | Intel Corporation | Apparatus for recovery from failures in a multiprocessing system |
JPS5985153A (ja) | 1982-11-08 | 1984-05-17 | Hitachi Ltd | 冗長化制御装置 |
US4634110A (en) | 1983-07-28 | 1987-01-06 | Harris Corporation | Fault detection and redundancy management system |
US4575842A (en) | 1984-05-14 | 1986-03-11 | The United States Of America As Represented By The Secretary Of The Air Force | Survivable local area network |
US4847837A (en) | 1986-11-07 | 1989-07-11 | The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration | Local area network with fault-checking, priorities and redundant backup |
US4914657A (en) | 1987-04-15 | 1990-04-03 | Allied-Signal Inc. | Operations controller for a fault tolerant multiple node processing system |
US4933838A (en) | 1987-06-03 | 1990-06-12 | The Boeing Company | Segmentable parallel bus for multiprocessor computer systems |
US4907232A (en) | 1988-04-28 | 1990-03-06 | The Charles Stark Draper Laboratory, Inc. | Fault-tolerant parallel processing system |
US5068499A (en) | 1989-04-14 | 1991-11-26 | Alps Electric Co., Ltd. | Control lever type input device |
US5261085A (en) | 1989-06-23 | 1993-11-09 | Digital Equipment Corporation | Fault-tolerant system and method for implementing a distributed state machine |
US5173689A (en) | 1990-06-25 | 1992-12-22 | Nec Corporation | Self-distributed logical channel node failure restoring system |
US5325518A (en) | 1991-04-02 | 1994-06-28 | Carnegie Mellon University | Adaptive distributed system and method for fault tolerance |
US5684807A (en) | 1991-04-02 | 1997-11-04 | Carnegie Mellon University | Adaptive distributed system and method for fault tolerance |
US5280607A (en) | 1991-06-28 | 1994-01-18 | International Business Machines Corporation | Method and apparatus for tolerating faults in mesh architectures |
US5349654A (en) | 1992-02-20 | 1994-09-20 | The Boeing Company | Fault tolerant data exchange unit |
US5271014A (en) | 1992-05-04 | 1993-12-14 | International Business Machines Corporation | Method and apparatus for a fault-tolerant mesh with spare nodes |
US5533188A (en) * | 1992-10-19 | 1996-07-02 | The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration | Fault-tolerant processing system |
US5513313A (en) | 1993-01-19 | 1996-04-30 | International Business Machines Corporation | Method for generating hierarchical fault-tolerant mesh architectures |
US5473771A (en) | 1993-09-01 | 1995-12-05 | At&T Corp. | Fault-tolerant processing system architecture |
US5450578A (en) | 1993-12-23 | 1995-09-12 | Unisys Corporation | Method and apparatus for automatically routing around faults within an interconnect system |
US5561759A (en) | 1993-12-27 | 1996-10-01 | Sybase, Inc. | Fault tolerant computer parallel data processing ring architecture and work rebalancing method under node failure conditions |
FR2721122B1 (fr) | 1994-06-14 | 1996-07-12 | Commissariat Energie Atomique | Unité de calcul à pluralité de calculateurs redondants. |
US5463615A (en) | 1994-07-07 | 1995-10-31 | At&T Corp. | Node failure restoration tool |
JP3447404B2 (ja) | 1994-12-08 | 2003-09-16 | 日本電気株式会社 | マルチプロセッサシステム |
US5736933A (en) | 1996-03-04 | 1998-04-07 | Motorola, Inc. | Method and apparatus for providing redundancy in a communication network |
US5790397A (en) | 1996-09-17 | 1998-08-04 | Marathon Technologies Corporation | Fault resilient/fault tolerant computing |
-
1998
- 1998-08-25 US US09/140,174 patent/US6178522B1/en not_active Expired - Lifetime
-
1999
- 1999-06-02 CN CNB998092908A patent/CN1192309C/zh not_active Expired - Fee Related
- 1999-06-02 EP EP99930130A patent/EP1082661A4/en not_active Withdrawn
- 1999-06-02 WO PCT/US1999/012000 patent/WO1999063440A1/en active Application Filing
- 1999-06-02 JP JP2000552586A patent/JP2002517819A/ja not_active Withdrawn
- 1999-06-02 CA CA002334009A patent/CA2334009A1/en not_active Abandoned
- 1999-06-02 AU AU46734/99A patent/AU4673499A/en not_active Abandoned
- 1999-10-01 TW TW088109143A patent/TW486637B/zh not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
CA2334009A1 (en) | 1999-12-09 |
CN1192309C (zh) | 2005-03-09 |
US6178522B1 (en) | 2001-01-23 |
EP1082661A1 (en) | 2001-03-14 |
CN1311877A (zh) | 2001-09-05 |
AU4673499A (en) | 1999-12-20 |
JP2002517819A (ja) | 2002-06-18 |
WO1999063440A1 (en) | 1999-12-09 |
EP1082661A4 (en) | 2005-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TW486637B (en) | Method and apparatus for managing redundant computer-based systems for fault tolerant computing | |
US4816989A (en) | Synchronizer for a fault tolerant multiple node processing system | |
EP1617331B1 (en) | Efficient changing of replica sets in distributed fault-tolerant computing system | |
US8671218B2 (en) | Method and system for a weak membership tie-break | |
CN112948063B (zh) | 云平台的创建方法、装置、云平台以及云平台实现系统 | |
CN113127270A (zh) | 一种基于云计算的3取2安全计算机平台 | |
US5533188A (en) | Fault-tolerant processing system | |
CN112698978A (zh) | 基于分布式图处理网络的容错方法和设备 | |
RU2439674C1 (ru) | Способ формирования отказоустойчивой вычислительной системы и отказоустойчивая вычислительная система | |
LALA | Advanced information processing system | |
CN111241200A (zh) | 基于SQLite数据库的主备同步处理方法及装置 | |
JP2004527829A (ja) | フォールト・トレラント計算機配列およびその作動方法 | |
EP2690557B1 (en) | Computer system, data processing method, and data processing program | |
Hébert et al. | A cost-effective solution to increase system reliability and maintain global performance under unreliable silicon in MPSoC | |
Bravo et al. | Policy-based adaptation of a byzantine fault tolerant distributed graph database | |
Gessner et al. | Experimental evaluation of network component crashes and trigger message omissions in the Flexible Time-Triggered Replicated Star for Ethernet | |
Pimentel et al. | A fault management protocol for TTP/C | |
CN103580926B (zh) | 一种轻量热备系统同步方法 | |
Evangelisti et al. | Towards a node active replication schema for highly reliable distributed control systems based on TSN | |
CN201122978Y (zh) | 一种基于高级电信计算平台的高可用性系统 | |
Robinson et al. | Software fault-tolerance in the Pluribus | |
van der Stok et al. | Prevention of replication induced failures in the context of integrated modular avionics | |
Yu et al. | D-CAST: Distributed Consensus Switch in Wireless Trustworthy Autonomous System | |
CN115883547A (zh) | 一种基于DRBD的NiFi高可用部署方法及系统 | |
CN116414535A (zh) | 一种冗余软件单元同步的事件调度方法、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
GD4A | Issue of patent certificate for granted invention patent | ||
MM4A | Annulment or lapse of patent due to non-payment of fees |