TWI310494B - Method, system, and article for fault resolution in a computer system - Google Patents

Method, system, and article for fault resolution in a computer system Download PDF

Info

Publication number
TWI310494B
TWI310494B TW093122319A TW93122319A TWI310494B TW I310494 B TWI310494 B TW I310494B TW 093122319 A TW093122319 A TW 093122319A TW 93122319 A TW93122319 A TW 93122319A TW I310494 B TWI310494 B TW I310494B
Authority
TW
Taiwan
Prior art keywords
network interface
response
network
node
error
Prior art date
Application number
TW093122319A
Other languages
English (en)
Other versions
TW200511002A (en
Inventor
Sudhir Rao
Bruce Jackson
Mark Davis
Srikanath Sridhara
Original Assignee
Ibm
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ibm filed Critical Ibm
Publication of TW200511002A publication Critical patent/TW200511002A/zh
Application granted granted Critical
Publication of TWI310494B publication Critical patent/TWI310494B/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/66Arrangements for connecting between networks having differing types of switching systems, e.g. gateways
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2002Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
    • G06F11/2007Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication media
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2017Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where memory access, memory control or I/O control functionality is redundant

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • Computer Hardware Design (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Small-Scale Networks (AREA)
  • Debugging And Monitoring (AREA)
  • Hardware Redundancy (AREA)
  • Computer And Data Communications (AREA)

Description

1310494 狄、發明說明: 【發明所屬之技術領域】 本發明與用以解決一電腦、儲存或通信系統中的多 主控(multi-homed)節點之一叢集中的一錯誤有關。特 之,本發明與偵測並隔離該錯誤以判定該錯誤之起源以 動適當的故障復原及修復作用。 【先前技術】 一節點為執行單一或多重作業系統實體的一電腦。 電腦環境中的每個節點具有一網路介面,其使該節點能 於一區域網路中通信。一叢集典型地為一或多個節點的 集合,其透過一儲存區域網路而調節對共享儲存子系統 一集合的存取。對於一組節點而言,與一閘道器通信以 接一區域網路至另一區域網路、一廣域内部網路或一全 區域網路是很常見的。一區域網路中的每個網路介面與 個閘道器包括一識別IP位址。 相關技術人士亦瞭解一區域或廣域網路中的節點包 兩網路介面,亦稱之為“多重主控節點”。該兩網路介面 置提供多餘的連接。多重主控節點具有均可存取兩網路 面之軟體。在與該網路介面之一或沿著該網路介面之路 有關的一失效事件中,該通信可於相同節點上切換至該 二網路介面一即故障復原,而不會從該節點尹斷或遺失 料或服務。 在一網路中解決錯誤的一種形式為在一可疑網路介 重 言 啟 夠 之 連 球 每 括 -i-TX. β又 介 徑 第 資 面 3 1310494
上要求一對等節點(peer node )送出或請求一回應協定訊 息。此解決方案嘗試解決確認該網路路徑遺失之特定問 題,以及判定該錯誤是否與一區域或遠端介面網路有關。 然而,此技術依賴一遠端節點上的一潛在不可靠伺服器送 出一封包查詢指令至該區域網路介面。此技術僅在一單一 錯誤情況下發揮功能。任何影響該遠端節點的網路錯誤或 軟體錯誤將在該區域節點上提供一錯誤結論。 其他解決方案包括節點間的多餘心跳(heartbeat )與 心跳通道,以及連結失效以解決網路錯誤。多餘心跳與心 跳通道的使用能解決與一節點遺失之可靠偵測有關的問 題,但於網路遺失解析的領域中將會失效。類似地,用於 解決網路錯誤的連結失效僅限於提供網路故障復原支援, 但無法提供具有節點與網路監控的一整合高可得性結構以 及整合節點與網路路徑故障復原支援之功能。此外,該連 結失效技術無法判定一網路分割是否已為了該故障復原請 求叢集重新格式化而存在。最後,此種典型地由網路驅動 程式提供的解決方案僅於一單一子網路網路拓樸中有效。 可靠地{貞測並解決一錯誤的該先前技術方法不是在一 整合高可得性結構中為無效率的或不可靠的,便是無法可 靠地在一雙節點叢集中運作。因此,需要一種在一整合高 可得性結構中可靠且有效地偵測並解決一錯誤的方法及系 統。 【發明内容】 4 1310494 本發明包含一方法與系統以於一電腦系統中解決錯 誤。 在本發明之一第一態樣中,提供一種用以在一電腦系 統中解決錯誤的方法。一叢集被設置用於一網路介面之一 閘道器。一作業系統網路控制訊息'協定(ICMP )顯示指令 被送出至該叢集中的對等節點,並回應一心跳遺失偵測而 透過該網路介面被送出至該閘道器。分析對該顯示指令之 一回應以判定該叢集中一錯誤的位置。可回應在一預定時 間間隔中對該顯示指令回應的接收以及回應一心跳遺失偵 測而送出一應用程式層級封包查詢指令至一對等節點。 在本發明之第二態樣中,提供一叢集給一電腦系統, 該叢集具有設置給一網路介面的一閘道器。採用一作業系 統ICMP顯示指令以將其送出至一叢集中的對等節點,並 回應一心跳偵測遺失透過該網路介面送出至該閘道器。採 用源自該顯示指令之一回應以分析該叢集中一錯誤的位 置。可回應在一預定時間間隔中對該顯示指令之接收以及 一心跳遺失偵測而送出一應用程式層級封包查詢指令至一 對等節點。 在本發明之一第三態樣中,提供一電腦可讀取信號攜 帶媒體中的一物件。提供該媒體中的裝置以送出一作業系 統ICMP顯示指令至一叢集中的一對等節點,以及回應一 心跳遺失偵測而透過一網路介面將其送出至一設置的叢集 閘道器。此外,提供該媒體中的裝置以分析源自該顯示指 令的一回應訊息以判定該叢集中一錯誤的位置。也可提供 5 1310494 該媒體中的裝置以回應在一預定時間間隔中對一顯示指令 回應之接收以及一心跳偵測遺失而送出一應用程式層級查 詢指令至一對等節點。 本發明之其他特性與優點將從本發明目前之較佳實施 例的以下詳細描述伴隨該附加圖示而得以顯見。 【實施方式】 綜論 一叢集被設置多重主控節點以及用於每個網路介面之 至少一閘道器。心跳訊息在預定週期間隔中被傳送於該叢 集之對等節點間。回應一心跳訊息之遺失,一 ICMP顯示 指令均透過兩網路介面被傳送至該叢集中的所有節點與閘 道器。傳送該ICMP顯示指令至該叢集中的所有節點與閘 道器有助於解答一錯誤是否已發生、一網路分割是否已存 在,並且判定一節點遺失、與一網路介面有關之一錯誤及/ 或一纜線錯誤的位置。一應用程式層級封包查詢指令可被 送出以進一步找出該錯誤。因此,透過每個網路介面對該 叢集中的每個節點與閘道器使用該ICMP顯示指令可靠地 找出一錯誤並提供該錯誤狀況的一有效解決。 技術細節 在相關技術中已知在預定間隔傳送心跳訊息至一網路 中的對等節點。第1圖為一先前技術多節點電腦系統的一 方塊圖1 0。在此說明令,該箭頭代表心跳而該直線代表網 路路徑。在該系統中有三節點,節點0 2 0、節點丨3 0以及 6 1310494 節點240。每個節點為一多重主控節點。如第1圖所示, 節點〇 2 0具有網路介面! 2 2以及網路介面2 2 4。類似地,節 點! 3 0具有網路介面! 3 2以及網路介面2 3 4,且節點2 4 0具 有網路介面14 2以及網路介面2 4 4。如第1圖所示,心跳 訊息被送至一網路中的鄰近節點。例如,節點〇 2 0分別傳 送第一心跳訊息50與52跨過該第一網路介面22、32與 42至節點1 30與節點240,並分別傳送第二心跳訊息54與 5 6跨過該第二網路介面2 4、3 4與4 4至節點! 3 0以及節點 240。類似地,節點! 3 0分別傳送該第一心跳訊息50與5 8 跨過該第一網路介面22、32與42至節點〇20與節點240, 並分別傳送第二心跳訊息5 4與 6 0跨過該第二網路介面 24、34與44至節點〇20與節點240,且節點240分別傳送 該第一心跳訊息5 2與5 8跨過該第一網路介面2 2、3 2與 42至節點〇20與節點,30,並傳送第二心跳訊息56與60 跨過該第二網路介面2 4、3 4與4 4至節點〇 2 0與節點i 3 0。 本質上,每個節點傳送獨立的週期心跳訊息跨過每個網路 介面至鄰近的對等節點。然而,該心跳訊息並無法解決一 網路遺失。因此,該心跳訊息僅有助於判定一節點層級上 的錯誤,而無法解決此錯誤。 第2圖為一方塊圖100,其為具有用於兩網路介面之 閘道器1 8 0之一多重主控多節點電腦系統的一範例。在此 說明中,該系統中有三節點,節點〇 1 1 0、節點,1 2 0與節點 213 0。每個節點為一多重主控節點。如第2圖所示,節點 〇 Π 0具有網路介面丨1 1 2與網路介面211 4。類似地,節點 7 1310494 i 1 2 0具有網路介面! 1 2 2與網路介面21 2 4,而節點21 3 0具 有網路介面!132與網路介面!134。除了該多重主控介面 外,該系統具有一閘道器1 8 0以與網路介面1 1 1 2、1 2 2與 132以及與網路介面2114、124與134通信。如第2圖所 示,心跳訊息被送至一網路中的鄰近對等節點。舉例來說, 節點〇 1 1 0傳送第一心跳訊息1 5 2與1 5 8跨過該第一網路介 面112、122與132至節點〗120與節點2130,且傳送第二 心跳訊息1 5 0與1 6 0跨過該第二網路節點1 1 4、1 2 4與1 3 4 至節點! 1 2 0與節點21 3 0。類似地,節點,1 2 0個別傳送第 一心跳訊息1 5 2與1 5 6跨過該第一網路介面11 2、1 2 2與 1 3 2至節點01 1 0與節點21 3 0,且傳送第二心跳訊息1 5 0與 154跨過該第二網路介面114、124與134至節點〇110與 節點21 3 0,且節點21 3 0傳送第一心跳訊息1 5 6與1 5 8跨 過該第一網路介面1 1 2、1 22與1 32至節點,1 20與節點 〇 1 1 0,且傳送第二心跳訊息1 5 4與1 6 0跨過該第二網路介 面1 1 4、1 2 4與1 3 4至節點丨1 2 0與節點〇 1 1 0。此外,該閘 道器1 8 0沿著該網路路徑而存在以用於兩網路介面。由於 該心跳訊息為一應用程式層級協定,而該閘道器1 8 0限於 操作系統層級協定,因此該閘道器1 8 0並未接收或傳送心 跳訊息。該閘道器1 8 0的存在允許在一作業系統層級上偵 測一錯誤,例如與一網路路徑或該路徑中的任何元件一如 一插件、切換器或分線器一有關的一錯誤。因此,每個節 點傳送週期性的雙向心跳訊息跨過每個網路節點至鄰近的 對等節點並伴隨存在於該網路拓樸中的一閘道器以監控該 8 1310494 二’ : '*' ' — ;mr : ; , " -·. -: ' ' /: - - v :.: '^—.—…----^ ~ 相關網路中的錯誤。 雙向心跳訊息被用於監控與一節點之通信的遺失。在 一對等節點遺失一心跳訊息的情況中,一 ICMP訊息被用 於與網路操作或其失敗有關的頻帶外訊息。一 ICMP顯示 指令功能在主機之間往返地傳送一網際網路協定封包。類 似地,使用一應用程式層級協定取代一作業系統協定的一 封包查詢指令被用於傳送一種預期被該接收者回應的訊 息。一應用程式層級封包查詢指令在其傳送的每個封包上 放置一唯一序號,並回報其接收回來的序號。此使一系統 操作者可判定封包是否已被丟棄、複製或重新排序。此外, 該封包查詢指令功能在每個封包中放置一時間戳記,其被 回應且可被用於計算每個封包交換所花費的時間,亦即該 往返時間。此外,該封包查詢指令回報其他ICMP訊息, 例如一路由器是否宣告該目標主機無法到達。
第3 A與3 B圖顯示一流程圖2 0 0,其說明使用一心跳 訊息、ICMP顯示指令以及選擇性地使用一應用程式層級 封包查詢指令在第2圖所示之多重主控多重節點電腦系統 1 0 0中找出並解決一錯誤。心跳訊息被傳送至對等節點以 供監控錯誤偵測2 0 2。實施一測試以判定在兩網路介面其 中之一上是否有一心跳遺失204。於步驟204對該詢問之 一否定回應後便返回步驟2 0 2以繼續在預定間隔傳送心跳 訊息之處理。然而,於步驟2 0 4對該詢問之一肯定回應代 表一特定節點遺失一心跳。ICMP顯示指令隨後被該節點 送出以偵測該心跳遺失 206。偵測該心跳遺失的該 ICMP 9 1310494 ·: ., *·>/ ;
",一A 顯示指令自該節點被送出至所有節點以及兩網路介面上的 叢集中的所有對等閘道器。I c Μ P顯示指令之一集合被送 至該第一網路介面上,而ICMP顯示指令之一第二集合被 送至該第二網路介面上。回應一心跳遺失而被送出的顯示 指令數量將如下所示: 顯示指令數量= [(Ν-1) + (閘道器數量)]*(網路介面數 量) 其中N代表該系統中的節點數量。該ICMP顯示指令 被送出至每個節點上的作業系統。因此,顯示指令之送出 請求來自於一或多個節點可能有一錯誤之該叢集中的一或 多個節點上執行之作業系統的一回應訊息。 該ICMP顯示指令回應用於確認一節點遺失或一網路 路徑遺失的懷疑。在送出該ICMP顯示指令之後,便實施 一測試以判定是否已對一網路介面接收至少一顯示指令回 報 20 8。 在步驟2 0 8對於該測試之一青定回應代表沿著該網路 介面之網路路徑仍在運作f 2 1 0。此後,對源自該網路介 面之目標節點集合之顯示指令回應的一比較被實施以判定 該叢集中沿著兩網路介面之一的最佳連接性路徑2 1 2。隨 後實施一測試以判定在選擇的網路路徑上是否有改進的連 接性2 1 4。於步驟2 1 4對該測試的一否定回應之後便返回 至步驟2 0 2。然而,於步驟2 1 4對該詢問之一肯定回應造 10 1310494 H 13 … ----t . .. . Λ
...………J 成一網路路徑故障復原 2 1 6。因此,便可找出並解 一顯示指令回報是否產生一網路連接性問題。 然而,如果於步驟2 0 8對該測試之一回應為否 此代表該錯誤並未位於該網路路徑中。因此便實施 以判定源自該相同對等節點的多餘顯示指令是否已 2 1 8。於步驟2 1 8對該測試的一否定回應為一對等節 的磘認,該對等節點錯誤與該對等節點之節點硬體. 業系統錯誤有關。此後,實施一節點故障復原或叢 格式化 2 2 2。在一節點遺失或一網路遺失均未被該 回應程式回應所確認之情況中,便送出一應用程式 包查詢指令 224。送出該封包查詢指令之後,便實 試以判定是否有對該封包查詢指令之一回應 226。 查詢指令回應暗示一暫時錯誤狀況 2 2 8,而在一預 間隔中不存在一封包查詢指令回應暗示一應用程式 誤2 3 0。如果該錯誤與該網路連結性無關,便實施 試以判定並找出可能伴隨一節點錯誤、一暫時錯誤 一應用程式軟體錯誤而存在的替代錯誤。因此,找 誤協助判定自動復原及/或管理修復作用的最佳作月 優於先前技術之處 在實體電腦系統與應用程式中設置具有用於兩 面以及相關訊息之一路由表的一閘道器。該路由表 息及顯示指令跨過每個網路的有效傳送。此外,該 統被設置用於每個網路介面之一閘道器,其可控制 決至少 定的, 一測試 被回報 點錯誤 I /或作 集重新 ICMP 層級封 施一測 一封包 定時間 軟體錯 後續測 狀況或 出該錯 過程。 網路介 提供訊 電腦系 送出一 11 1310494 ICMP顯示指令至一特定網路。最後,在該網路設置中配 置該閘道器可協助判定一可疑錯誤是否位於該網路中或該 網路中的一節點中。特言之,其一般地協助解決兩節‘點叢 集與網路分割中的錯誤。因此,在該電腦系統中配置該閘 道器在找出與解決該系統中的一錯誤方面可提供改善的效 率與可靠度。 替代實施例 將瞭解雖然已於此處為了說明之目的而描述本發明之 特定實施例,各種修改仍可於不偏離本發明之精神與範圍 的情況下做成。特言之,本發明不應被限於第2圖中所示 之系統的結構佈局。每個網路可包括多個閘道器以及用於 連接該節點與閘道器之替代設計。此外,該網路拓樸可為 一單一子系統、一雙子系統或多餘實體網路。因此,本發 明之保護範圍僅受限於以下的申請專利範圍及其均等物。 【圖式簡單說明】 第1圖為一先前技術多節點電腦系統的一方塊圖。 第2圖為依據本發明之較佳實施例的一多節點電腦系 統的一方塊圖,且被提議以列印於該提出申請專利範圍之 第一頁上。 第3 A與3 B圖為流程圖,其說明找出並解決該電腦系 統中一錯誤的處理。 12 1310494 【元件代表符號簡單說明】 10,100方塊圖 20,30, 40,110,120,130 節點 22,24, 32, 3 4, 42,44, 1 1 2, 1 1 4, 1 22, 1 24, 1 32, 1 34, 208 網路介面 50, 52, 54, 56, 58, 60, 150, 1 52, 1 54, 156, 158, 1 60 心、询匕 訊息 1 8 0閘道器 2 0 0流程圖 202, 204, 206, 208, 2 1 0, 2 12, 2 1 4 步驟 13

Claims (1)

1310494 拾、申請專利範圍:一二二, 1 . 一種用於在一電腦系統中解決錯誤的方法,至少包含: (a) 設置一叢集(cluster),其具有一網路介面用之閘道 3S · σσ , (b) 送出一作業系統ICMP顯示指令(echo)至上述叢集 中的對等節點,並透過上述網路介面送至上述閘 道器,以回應一心跳遺失偵測,;及 (c) 分析源自上述顯示指令的一回應以判定上述叢集 中一錯誤的位置。 2.如申請專利範圍第1項所述之方法,其中分析源自上述 顯示指令之一回應的步驟包括接收上述回應並且判定 上述顯示指令之一預期接收者。 3 .如申請專利範圍第2項所述之方法,其中在一預定時間 間隔中,自上述網路介面之上述對等節點接收上述顯示 指令之一回報表示上述網路介面之操作。 4.如申請專利範圍第2項所述之方法,其中在一預定時間 間隔中,自上述網路介面用之上述閘道器接收上述顯示 指令之一回報表示上述網路介面之操作。 5 .如申請專利範圍第2項所述之方法,其中在一預定時間 14 1310494 間隔中,未有源自上述網路介面之上述對等節點之 顯示指令的一回報表示出現一錯誤,該錯誤係選自 以下組成的群組中:一對等節點錯誤、該對等節點 的一網路錯誤以及前述之組合。 6. 如申請專利範圍第1項所述之方法,另包含送出一 程式層級封包查詢指令至一對等節點的步驟,以回 接收之一預定時間間隔中上述顯示指令回應以及 心跳遺失偵測。 7. 如申請專利範圍第1項所述之方法,另包含比較源 個網路介面之一目標節點集合的一顯示指令回應。 8 .如申請專利範圍第7項所述之方法,其中比較源於 網路介面之一目標節點集合的一顯示指令回應之 包括選自由以下成員組成之群組中的標準,該群 括:上述網路中的節點的最大可得性、上述網路中 述閘道器的可得性以及前述之組合。 9. 一種多處理器電腦系統,至少包含: 一叢集,其具有設置給一網路介面用之一閘 一作業系統ICMP顯示指令,其被送出至一叢 的對等節點以及透過上述網路介面被送出至上述 上述 於由 區域 應用 應所 上述 於每 每個 步驟 組包 的上 32. . , 集中 閘道 15 1310494
器,以回應一心跳遺失偵測;及 一來自上述顯示指令之回應,分析該回應即可 叢集中一錯誤的位置。 1 〇 ·如申請專利範圍第9項所述之系統,其中對源自上 示指令之上述回應的分析包括上述顯示指令之一 接收者的判定。 1 1.如申請專利範圍第1 0項所述之系統,其中在一預 間間隔中,自上述網路介面之上述對等節點接收上 示指令之一回報表示上述網路介面之操作。 1 2.如申請專利範圍第1 0項所述之系統,其中在一預 間間隔中,自上述網路介面用之上述閘道器接收上 示指令之一回報表示上述網路介面之操作。 1 3 .如申請專利範圍第1 1項所述之系統,其中在一預 間間隔中,未有源自上述網路介面之上述對等節點 述顯示指令的一回報表示出現一錯誤,該錯誤係選 以下成員組成之群組中,包括:一對等節點錯誤、 等節點區域的一網路錯誤以及前述之組合。 1 4.如申請專利範圍第9項所述之系統,另包含在一預 得該 述顯 預期 定時 述顯 定時 述顯 定時 之上 自由 該對 定時 16 1310494 她.t !3 ; •.…….. ':. . . ί .',ν …— 間間隔中,送出一應用程式層級封包查詢指令至一對等 節點的步驟,以回應所接收之一預定時間間隔中上述顯 示指令以及一心跳遺失偵測。 1 5.如申請專利範圍第 9項所述之系統,另包含一比較工 具,其被用於比較源於每個網路介面之一目標節點的一 顯示指令回應。 1 6.如申請專利範圍第1 5項所述之系統,其中上述比較工 具依據選自由以下成員組成之群組中的標準來判定一 網路介面路徑,該群組包括:上述網路中的節點的最大 可得性、上述網路中的上述閘道器的可得性以及前述之 組合。 1 7. —種用於在一電腦系統中解決錯誤的物件,至少包含: 一電腦可讀取信號攜帶媒體; 送出裝置,其在該媒體中送出一作業系統ICMP顯 示指令至一叢集中的一對等節點以及透過上述網路介 面送出至一設置的叢集閘道器,以回應心跳遺失偵測; 及 分析裝置,其在該媒體中用於分析源自上述顯示指 令之一回應訊息以判定一錯誤於上述叢集中的位置。 17 1310494 1 8.如申請專利範圍第1 7項所述之物件,其中該媒體選自 一群組,該群組包含:一可記錄資料儲存媒體以及一模 組化載波訊號。 1 9.如申請專利範圍第1 7項所述之物件,其中用於分析源 自上述顯示指令之一回應訊息的裝置包括:接收上述回 應並判定上述顯示指令之一預期接收者。 2 0.如申請專利範圍第1 7項所述之物件,另包含送出裝 置,其在該媒體中,送出一應用程式層級封包查詢指令 至一對等節點,以回應所接收之一預定時間間隔中上述 顯示指令回應以及一心跳遺失偵測。 2 1 .如申請專利範圍第1 7項所述之物件,另包含該媒體中 用於比較源自用於每個網路介面之一目標節點集合之 一顯示指令回應的裝置。 2 2.如申請專利範圍第2 1項所述之物件,其中比較源自用 於每個網路介面之一目標節點集合之一顯示指令回應 包括選自一群組之標準,該群組包含:上述網路中的節 點的最大可得性、上述網路中的上述閘道器的可得性、 以及前者之組合。 18 1310494 渠、指定代表圖: (一) 、本案指定代表圖為:第2圖。 (二) 、本代表圖之元件代表符號簡單說明: 100 方 塊 圖 110 即 點 112 網 路 介 面 114 網 路 介 面 120 /r/T 即 點 122 網 路 介 面 124 網 路 介 面 130 /r/r 即 點 132 網 路 介 面 134 網 路 介 面 150 心 跳 訊 息 152 心 跳 訊 息 154 心 跳 訊 i 156 心 跳 訊 息 158 心 跳 訊 i 160 心 跳 訊 息 180 閘 道 器 捌、本案若有化學式時,請揭示最能顯示發明 特徵的化學式:
TW093122319A 2003-08-27 2004-07-26 Method, system, and article for fault resolution in a computer system TWI310494B (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/649,269 US7284147B2 (en) 2003-08-27 2003-08-27 Reliable fault resolution in a cluster

Publications (2)

Publication Number Publication Date
TW200511002A TW200511002A (en) 2005-03-16
TWI310494B true TWI310494B (en) 2009-06-01

Family

ID=34216906

Family Applications (1)

Application Number Title Priority Date Filing Date
TW093122319A TWI310494B (en) 2003-08-27 2004-07-26 Method, system, and article for fault resolution in a computer system

Country Status (5)

Country Link
US (2) US7284147B2 (zh)
JP (1) JP3903437B2 (zh)
KR (1) KR100617344B1 (zh)
CN (1) CN1303786C (zh)
TW (1) TWI310494B (zh)

Families Citing this family (74)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7149514B1 (en) 1997-07-30 2006-12-12 Bellsouth Intellectual Property Corp. Cellular docking station
US20080194208A1 (en) * 1997-07-30 2008-08-14 Steven Tischer Apparatus, method, and computer-readable medium for communicating between and controlling network devices
US20080192768A1 (en) * 1997-07-30 2008-08-14 Steven Tischer Apparatus, method, and computer-readable medium for interfacing communication devices
US20080207178A1 (en) * 1997-07-30 2008-08-28 Steven Tischer Apparatus and method for restricting access to data
US20080220775A1 (en) * 1997-07-30 2008-09-11 Steven Tischer Apparatus, method, and computer-readable medium for securely providing communications between devices and networks
US20080194225A1 (en) * 1997-07-30 2008-08-14 Steven Tischer Apparatus and method for providing emergency and alarm communications
US20080207179A1 (en) * 1997-07-30 2008-08-28 Steven Tischer Apparatus and method for testing communication capabilities of networks and devices
US20080207197A1 (en) 1997-07-30 2008-08-28 Steven Tischer Apparatus, method, and computer-readable medium for interfacing devices with communications networks
US8000682B2 (en) 2002-07-15 2011-08-16 At&T Intellectual Property I, L.P. Apparatus and method for restricting access to data
US8526466B2 (en) 2002-07-15 2013-09-03 At&T Intellectual Property I, L.P. Apparatus and method for prioritizing communications between devices
US8554187B2 (en) 2002-07-15 2013-10-08 At&T Intellectual Property I, L.P. Apparatus and method for routing communications between networks and devices
US8543098B2 (en) 2002-07-15 2013-09-24 At&T Intellectual Property I, L.P. Apparatus and method for securely providing communications between devices and networks
US8275371B2 (en) 2002-07-15 2012-09-25 At&T Intellectual Property I, L.P. Apparatus and method for providing communications and connection-oriented services to devices
US7200424B2 (en) 2002-07-15 2007-04-03 Bellsouth Intelectual Property Corporation Systems and methods for restricting the use and movement of telephony devices
US8416804B2 (en) 2002-07-15 2013-04-09 At&T Intellectual Property I, L.P. Apparatus and method for providing a user interface for facilitating communications between devices
US20050036483A1 (en) * 2003-08-11 2005-02-17 Minoru Tomisaka Method and system for managing programs for web service system
US7280486B2 (en) * 2004-01-07 2007-10-09 Cisco Technology, Inc. Detection of forwarding problems for external prefixes
US7965646B2 (en) * 2004-08-11 2011-06-21 Qwest Communications International Inc Wireless code-passing system for stateful connection monitoring
US20060246889A1 (en) * 2005-05-02 2006-11-02 Buchhop Peter K Wireless Data Device Performance Monitor
CN101199165A (zh) 2005-06-14 2008-06-11 艾利森电话股份有限公司 用于网络中的故障处理的方法和配置
US8195976B2 (en) 2005-06-29 2012-06-05 International Business Machines Corporation Fault-tolerance and fault-containment models for zoning clustered application silos into continuous availability and high availability zones in clustered systems during recovery and maintenance
CN100454849C (zh) * 2005-08-05 2009-01-21 华为技术有限公司 下一代网络中的故障检测方法
CN1327658C (zh) * 2005-08-09 2007-07-18 华为技术有限公司 网络通信状况探测方法
JP4246248B2 (ja) * 2005-11-11 2009-04-02 富士通株式会社 クラスタシステムのコンピュータにおいて実行されるネットワークモニタ・プログラム、情報処理方法及びコンピュータ
US7539755B2 (en) * 2006-04-24 2009-05-26 Inventec Corporation Real-time heartbeat frequency regulation system and method utilizing user-requested frequency
US20070294596A1 (en) * 2006-05-22 2007-12-20 Gissel Thomas R Inter-tier failure detection using central aggregation point
US8428098B2 (en) * 2006-07-06 2013-04-23 Qualcomm Incorporated Geo-locating end-user devices on a communication network
US8074109B1 (en) * 2006-11-14 2011-12-06 Unisys Corporation Third-party voting to select a master processor within a multi-processor computer
JP2008172592A (ja) * 2007-01-12 2008-07-24 Hitachi Ltd クラスタシステム、コンピュータおよびその異常検出方法
US7890555B2 (en) * 2007-07-10 2011-02-15 International Business Machines Corporation File system mounting in a clustered file system
US7898941B2 (en) * 2007-09-11 2011-03-01 Polycom, Inc. Method and system for assigning a plurality of MACs to a plurality of processors
CN101420335B (zh) 2007-10-26 2011-09-14 华为技术有限公司 对等网络节点故障检测/处理方法及装置
US8195977B2 (en) * 2007-11-19 2012-06-05 International Business Machines Corporation Network fault isolation
US9317432B2 (en) * 2008-01-09 2016-04-19 International Business Machines Corporation Methods and systems for consistently replicating data
CN101562784B (zh) * 2008-04-14 2012-06-06 华为技术有限公司 报文分发方法、设备及系统
US7983175B2 (en) * 2008-09-19 2011-07-19 International Business Machines Corporation System and method for detecting a network failure
JP2010103695A (ja) * 2008-10-22 2010-05-06 Ntt Data Corp クラスタシステム、クラスタサーバ及びクラスタ制御方法
US8918670B2 (en) * 2008-10-29 2014-12-23 Hewlett-Packard Development Company, L.P. Active link verification for failover operations in a storage network
US8671218B2 (en) * 2009-06-16 2014-03-11 Oracle America, Inc. Method and system for a weak membership tie-break
JP5594363B2 (ja) * 2010-05-28 2014-09-24 富士通株式会社 伝送装置及び伝送装置制御方法
US8433760B2 (en) 2010-12-03 2013-04-30 International Business Machines Corporation Inter-node communication scheme for node status sharing
US8634328B2 (en) 2010-12-03 2014-01-21 International Business Machines Corporation Endpoint-to-endpoint communications status monitoring
US8634330B2 (en) 2011-04-04 2014-01-21 International Business Machines Corporation Inter-cluster communications technique for event and health status communications
EP2704356B1 (en) * 2011-05-30 2019-09-04 Huawei Technologies Co., Ltd. Method and service node for determining fault state
US8903893B2 (en) * 2011-11-15 2014-12-02 International Business Machines Corporation Diagnostic heartbeating in a distributed data processing environment
US8756453B2 (en) 2011-11-15 2014-06-17 International Business Machines Corporation Communication system with diagnostic capabilities
US8769089B2 (en) 2011-11-15 2014-07-01 International Business Machines Corporation Distributed application using diagnostic heartbeating
US8874974B2 (en) * 2011-11-15 2014-10-28 International Business Machines Corporation Synchronizing a distributed communication system using diagnostic heartbeating
US9244796B2 (en) 2011-11-15 2016-01-26 International Business Machines Corporation Diagnostic heartbeat throttling
EP2798776A4 (en) 2011-12-29 2015-08-26 Intel Corp SECURE GEOLOCALIZATION OF A CALCULATION RESOURCE
US9559894B2 (en) * 2012-08-22 2017-01-31 Oracle International Corporation System and method for supporting high available (HA) network communication in a middleware machine environment
US20140095925A1 (en) * 2012-10-01 2014-04-03 Jason Wilson Client for controlling automatic failover from a primary to a standby server
US9501363B1 (en) * 2013-03-15 2016-11-22 Nuodb, Inc. Distributed database management system with node failure detection
US10102088B2 (en) * 2013-12-25 2018-10-16 Nec Solution Innovators, Ltd. Cluster system, server device, cluster system management method, and computer-readable recording medium
JP6278868B2 (ja) * 2014-08-28 2018-02-14 三菱電機株式会社 通信制御装置および計算装置
US9760420B1 (en) * 2014-09-03 2017-09-12 Amazon Technologies, Inc. Fleet host rebuild service implementing vetting, diagnostics, and provisioning pools
US9823637B2 (en) * 2014-09-05 2017-11-21 Southern States, Llc Fault detection and isolation using a common reference clock
US10003525B2 (en) * 2014-11-14 2018-06-19 Fisher-Rosemount Systems, Inc. Methods and apparatus to provide redundancy in a process control system
GB2537087A (en) 2014-12-18 2016-10-12 Ipco 2012 Ltd A system, method and computer program product for receiving electronic messages
GB2533379A (en) 2014-12-18 2016-06-22 Ipco 2012 Ltd A system and server for receiving transaction requests
GB2533432A (en) 2014-12-18 2016-06-22 Ipco 2012 Ltd A device system, method and computer program product for processing electronic transaction requests
GB2533562A (en) 2014-12-18 2016-06-29 Ipco 2012 Ltd An interface, method and computer program product for controlling the transfer of electronic messages
CN105450466B (zh) * 2015-11-10 2018-11-02 浪潮(北京)电子信息产业有限公司 一种icmp请求报文保活控制方法及系统
JP6409812B2 (ja) * 2016-04-01 2018-10-24 横河電機株式会社 冗長化装置、冗長化システム、及び冗長化方法
CN106452957B (zh) * 2016-09-30 2019-09-10 邦彦技术股份有限公司 心跳检测方法及节点系统
CN106559288B (zh) * 2016-11-23 2019-11-12 北京航天自动控制研究所 一种基于icmp报文的快速故障检测方法
CN107426003B (zh) * 2017-05-02 2019-12-13 华为技术有限公司 一种故障检测方法及装置
CN107566219B (zh) * 2017-09-27 2020-09-18 华为技术有限公司 应用于集群系统的故障诊断方法、节点设备和计算机设备
WO2019178714A1 (zh) * 2018-03-19 2019-09-26 华为技术有限公司 一种故障检测的方法、装置及系统
US11595407B2 (en) * 2018-04-27 2023-02-28 Dell Products L.P. Information handling system threat management
KR102040115B1 (ko) * 2018-08-30 2019-11-27 주식회사 동희산업 네트워크 장애처리 자동화 시스템 및 방법
CN111092996A (zh) * 2019-10-31 2020-05-01 国网山东省电力公司信息通信公司 一种集中式调度录音系统及控制方法
US11397632B2 (en) * 2020-10-30 2022-07-26 Red Hat, Inc. Safely recovering workloads within a finite timeframe from unhealthy cluster nodes
CN114172824A (zh) * 2021-12-15 2022-03-11 国家石油天然气管网集团有限公司 油气管道高速总线与控制器进行冗余切换方法和装置

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5371852A (en) * 1992-10-14 1994-12-06 International Business Machines Corporation Method and apparatus for making a cluster of computers appear as a single host on a network
US5918017A (en) 1996-08-23 1999-06-29 Internatioinal Business Machines Corp. System and method for providing dynamically alterable computer clusters for message routing
US5909540A (en) * 1996-11-22 1999-06-01 Mangosoft Corporation System and method for providing highly available data storage using globally addressable memory
US6031528A (en) * 1996-11-25 2000-02-29 Intel Corporation User based graphical computer network diagnostic tool
US6072857A (en) 1996-12-19 2000-06-06 Bellsouth Intellectual Property Management Corporation Methods and system for monitoring the operational status of a network component in an advanced intelligent network
JPH1127326A (ja) 1997-07-08 1999-01-29 Hitachi Ltd 階層lanスイッチネットワーク
US6246666B1 (en) 1998-04-09 2001-06-12 Compaq Computer Corporation Method and apparatus for controlling an input/output subsystem in a failed network server
US6363416B1 (en) * 1998-08-28 2002-03-26 3Com Corporation System and method for automatic election of a representative node within a communications network with built-in redundancy
US6430610B1 (en) * 1998-09-02 2002-08-06 Steeleye Technology, Inc. TCP/IP address protection mechanism in a clustered server environment
KR100279660B1 (ko) * 1998-12-08 2001-02-01 이계철 인터넷 제어 메시지 프로토콜(icmp)을 이용한 분산처리 장치의 장애감시 이중화 방법
US6581166B1 (en) * 1999-03-02 2003-06-17 The Foxboro Company Network fault detection and recovery
JP2000307600A (ja) 1999-04-23 2000-11-02 Nec Corp デバイス装置のハートビート回路
US6654914B1 (en) 1999-05-28 2003-11-25 Teradyne, Inc. Network fault isolation
US7165107B2 (en) * 2001-01-22 2007-01-16 Sun Microsystems, Inc. System and method for dynamic, transparent migration of services
US7275102B2 (en) * 2001-01-22 2007-09-25 Sun Microsystems, Inc. Trust mechanisms for a peer-to-peer network computing platform
US7120693B2 (en) * 2001-05-08 2006-10-10 International Business Machines Corporation Method using two different programs to determine state of a network node to eliminate message response delays in system processing
US6944785B2 (en) * 2001-07-23 2005-09-13 Network Appliance, Inc. High-availability cluster virtual server system
US7512649B2 (en) * 2002-03-22 2009-03-31 Sun Microsytems, Inc. Distributed identities
KR20040038266A (ko) * 2002-10-31 2004-05-08 주식회사 현대시스콤 이중화된 에이에이에이 서버에서 고가용성 메시지를 통한프로세스 상호간 상태 감시 방법

Also Published As

Publication number Publication date
US20100115338A1 (en) 2010-05-06
KR20050022329A (ko) 2005-03-07
US7284147B2 (en) 2007-10-16
US20050050398A1 (en) 2005-03-03
TW200511002A (en) 2005-03-16
US7941690B2 (en) 2011-05-10
CN1303786C (zh) 2007-03-07
JP3903437B2 (ja) 2007-04-11
CN1592225A (zh) 2005-03-09
KR100617344B1 (ko) 2006-08-31
JP2005073277A (ja) 2005-03-17

Similar Documents

Publication Publication Date Title
TWI310494B (en) Method, system, and article for fault resolution in a computer system
Sherwood et al. Touring the Internet in a TCP sidecar
JP6988511B2 (ja) 障害検知方法、ノード装置、通信システム
EP1817855B1 (en) System and methods for detecting network failure
US7864687B2 (en) Methods and apparatus for fault identification in border gateway protocol networks
US7907534B2 (en) Identifying faulty network components during a network exploration
KR101046028B1 (ko) 보증된 분산 장애 통지를 제공하기 위한 방법
JP5033856B2 (ja) ネットワーク構成の想定のための装置、システム
US20130128751A1 (en) Multi-layer network diagnostic tracing
US20040165525A1 (en) System and method for network redundancy
CN101562531B (zh) 一种网络故障处理方法、系统及路由器
JP2001249856A (ja) ストレージ・エリア・ネットワーク(san)内でのエラー処理方法及びデータ処理システム
CA2498037C (en) Root cause correlation in connectionless networks
US20100074118A1 (en) System and method for detecting a network failure
CN101174975A (zh) 一种以太网中的链路故障定位方法及系统
CN102457403A (zh) 一种网络连接的故障检测方法及装置
JP3556485B2 (ja) 開放型システム間相互接続においてピング機能の能力を拡張する方法
CN107332793B (zh) 一种报文转发方法、相关设备及系统
JP4570582B2 (ja) ネットワーク監視プログラム、ネットワーク監視方法、およびネットワーク監視装置
JP5035219B2 (ja) 通信経路検出方法、通信経路検出プログラム、および通信経路検出装置
JP4888067B2 (ja) レイヤ2スイッチおよびネットワーク監視方法
JP2004500778A (ja) 多数のフォールト・トレラント・ネットワークにおける非フォールト・トレラント・ネットワーク・ノード
CN112422428A (zh) 链路状态获取方法、装置、电子设备及可读存储介质
JP2006319683A (ja) ネットワークシステム監視方式およびネットワークシステム監視装置
JP6512037B2 (ja) 無線通信装置、方法、及びプログラム