KR100617344B1 - 클러스터에서의 확실한 장애 해결 방법 및 시스템 - Google Patents

클러스터에서의 확실한 장애 해결 방법 및 시스템 Download PDF

Info

Publication number
KR100617344B1
KR100617344B1 KR1020040065873A KR20040065873A KR100617344B1 KR 100617344 B1 KR100617344 B1 KR 100617344B1 KR 1020040065873 A KR1020040065873 A KR 1020040065873A KR 20040065873 A KR20040065873 A KR 20040065873A KR 100617344 B1 KR100617344 B1 KR 100617344B1
Authority
KR
South Korea
Prior art keywords
echo
network interface
response
node
network
Prior art date
Application number
KR1020040065873A
Other languages
English (en)
Other versions
KR20050022329A (ko
Inventor
라오수드히르
잭슨브루스
데이비스마크
스리드하라스리카나스
Original Assignee
인터내셔널 비지네스 머신즈 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인터내셔널 비지네스 머신즈 코포레이션 filed Critical 인터내셔널 비지네스 머신즈 코포레이션
Publication of KR20050022329A publication Critical patent/KR20050022329A/ko
Application granted granted Critical
Publication of KR100617344B1 publication Critical patent/KR100617344B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/66Arrangements for connecting between networks having differing types of switching systems, e.g. gateways
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2002Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
    • G06F11/2007Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication media
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2017Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where memory access, memory control or I/O control functionality is redundant

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Hardware Design (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Small-Scale Networks (AREA)
  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)

Abstract

본 발명은 클러스터 환경에서 장애를 위치 검출하여 해결하는 방법 및 시스템에 관한 것이다. 클러스터(100)는 적어도 하나의 멀티 홈 노드(110)와, 각 네트워크 인터페이스에 대한 적어도 하나의 게이트웨이(180)를 포함한다. 피어 노드들 및 게이트웨이 간에는 소정의 주기적인 간격으로 하트비트를 보낸다(단계 202). 어떤 노드 또는 게이트웨이에 의해 하트비트 메시지가 손실되면(단계 204), 각 네트워크 인터페이스를 통해 클러스터의 각 노드와 게이트웨이에 ICMP 에코를 보낸다(단계 206). ICMP 에코 응답에 의해 노드 손실도 네트워크 손실도 아닌 것으로 확인되면, 애플리케이션 레벨의 핑을 발행하여(단계 224), 하트비트 메시지의 부재와 관련된 장애가 일시적인 에러 상태인지(단계 228) 애플리케이션 소프트웨어 장애인지(단계 230)를 판정한다.

Description

클러스터에서의 확실한 장애 해결 방법 및 시스템{RELIABLE FAULT RESOLUTION IN A CLUSTER}
도 1은 종래의 멀티 노드 컴퓨팅 시스템의 블록도.
도 2는 본 발명의 바람직한 실시예에 따른 멀티 노드 컴퓨팅 시스템의 블록도.
도 3a 및 도 3b는 컴퓨터 시스템에서 장애를 위치 검출하여 해결하는 프로세스를 도시한 흐름도.
<도면의 주요 부분에 대한 부호의 설명>
110, 120, 130 : 노드
112, 122, 132 : 네트워크 인터페이스1
114, 124, 134 : 네트워크 인터페이스2
180 : 게이트웨이
본 발명은 멀티 홈 노드 클러스터에서 장애를 해결하는 방법 및 시스템에 관 한 것이다. 더 구체적으로, 본 발명은 장애를 검출 및 분리시켜 장애의 기점을 판정함으로써 적절한 장애 극복(failover) 및 수리 활동을 가능하게 하는 것에 관한 것이다.
노드는 단일 또는 다수의 운영 체계 인스턴스를 실행하는 컴퓨터이다. 컴퓨팅 환경에 있어서 각 노드는 로컬 에어리어 네트워크(local area network : LAN)에서의 통신을 가능하게 해주는 네트워크 인터페이스를 포함한다. 클러스터는 통상적으로 스토리지 에어리어 네트워크를 통한 공유 스토리지 서브시스템 세트에의 액세스를 조정하는 하나 이상의 노드 세트이다. 일반적으로, 노드 그룹은 LAN을 다른 LAN이나 더 넓은 인트라넷 또는 글로벌 에어리어 네트워크에 접속시키는 게이트웨이와 통신한다. LAN에 있어서 각 네트워크 인터페이스와 각 게이트웨이는 식별 IP 어드레스를 갖는다.
또한, 잘 알려진 바와 같이, LAN 또는 WAN에 있어서 노드는 2개의 네트워크 인터페이스를 포함하며, "멀티 홈 노드"로도 알려져 있다. 2개의 네트워크 인터페이스 구성은 리던던트 접속성을 제공한다. 멀티 홈 노드는 양쪽의 네트워크 인터페이스에 액세스하는 소프트웨어를 포함한다. 어느 한 네트워크 인터페이스나 그 네트워크 인터페이스에 따른 경로에 장애가 일어난 경우에, 동일한 노드 상의 다른 네트워크 인터페이스로 통신이 전환될 수 있는데, 즉 그 노드로부터의 데이터 또는 서비스의 중단이나 손실 없이 장애를 극복할 수 있다.
네트워크에서 장애를 해결하는 한 방법은 피어 노드가 의심스러운 네트워크 인터페이스에 요청 응답 프로토콜 메시지를 발행할 것을 요구한다. 이러한 해결책은 네트워크 경로 손실을 확인하고, 장애가 로컬 네트워크 인터페이스와 관련된 것인지 아니면 리모트 네트워크 인터페이스와 관련된 것인지를 판정하는 특정 문제를 해결하려고 한다. 그러나, 이러한 기술은 리모트 노드 상의 어쩌면 신뢰할 수 없는 서버가 로컬 네트워크 인터페이스에 핑(ping)을 발행하는 것에 의존한다. 이러한 기술은 단지 단일 장애 시나리오 하에서만 유효하다. 리모트 노드에 영향을 미치는 네트워크 장애나 소프트웨어 장애는 로컬 노드에 대한 잘못된 판정을 제공할 것이다.
다른 해결책은 노드 간의 리던던트 하트비트 및 하트비트 채널과, 네트워크 장애를 해결하는 링크 장애 기술을 포함한다. 이러한 리던던트 하트비트 및 하트비트 채널을 이용하면, 확실한 노드 손실 검출과 관련된 문제는 해결할 수 있지만, 네트워크 손실과 관련된 문제는 해결할 수 없다. 마찬가지로, 네트워크 장애를 해결하는 링크 장애 기술은 네트워크 장애 극복을 지원할 수 있는 능력은 있지만, 노드와 네트워크로 이루어진 통합된 고이용도의 아키텍처를 감시할 수 있는 능력과, 통합된 노드 및 네트워크 경로 장애 극복을 지원할 수 있는 능력이 없다. 게다가, 링크 장애 기술은 장애 극복 시에 클러스터 재구성을 필요로 하여 네트워크 분할이 일어났는지를 판정할 수 있는 능력이 없다. 마지막으로, 통상적으로 네트워크 드라이버에 의해 제공되는 그러한 해결책은 단일 서브넷 네트워크 토폴로지에서만 유효하다.
장애를 확실하게 검출하여 해결하는 종래의 방법은 통합된 고이용도의 아키 텍처에서 효율적이거나 확실하지 않고, 또한 2개의 노드 클러스터에서 확실하게 문제를 해결하지 못한다. 따라서, 통합된 고이용도의 아키텍처에서 장애를 확실하고 효율적으로 검출하여 해결하는 방법 및 시스템이 요구된다.
본 발명은 컴퓨터 시스템에서 장애를 해결하는 방법 및 시스템을 포함한다.
본 발명의 제1 형태로서, 컴퓨터 시스템에서의 장애 해결 방법이 제공된다. 클러스터는 네트워크 인터페이스에 대한 게이트웨이를 갖도록 구성된다. 하트비트 손실 검출에 응답하여 운영 체계 인터넷 컨트롤 메시지 프로토콜(ICMP) 에코를 상기 네트워크 인터페이스를 통해 상기 클러스터의 모든 피어 노드와 상기 게이트웨이에 발행한다. 상기 클러스터에서의 장애의 위치를 판정하기 위해서 상기 에코로부터의 응답을 분석한다. 소정의 시간 내에 상기 에코 응답을 수신하는 것과 하트비트 손실 검출 모두에 응답하여 애플리케이션 레벨의 핑을 피어 노드에 발행할 수 있다.
본 발명의 제2 형태로서, 네트워크 인터페이스에 대한 게이트웨이를 갖는 클러스터를 포함하는 컴퓨터 시스템이 제공된다. 하트비트 손실 검출에 응답하여 운영 체계 ICMP 에코를 상기 네트워크 인터페이스를 통해 상기 클러스터의 모든 피어 노드와 상기 게이트웨이에 발행한다. 상기 클러스터에서의 장애의 위치를 판정하기 위해서 상기 에코로부터의 응답을 분석한다. 소정의 시간 내에 상기 에코를 수신하는 것과 상기 하트비트 손실 검출 모두에 응답하여 애플리케이션 레벨의 핑을 피어 노드에 발행할 수 있다.
본 발명의 제3 형태로서, 컴퓨터로 판독 가능한 신호 저장 매체를 포함하는 제품이 제공된다. 하트비트 손실 검출에 응답하여 운영 체계 ICMP 에코를 네트워크 인터페이스를 통해 클러스터의 피어 노드와 클러스터의 게이트웨이에 발행하는 매체 내 수단이 제공된다. 또한, 상기 클러스터에서의 장애의 위치를 판정하기 위해서 상기 에코로부터의 응답을 분석하는 매체 내 수단이 제공된다. 소정의 시간 내에 에코 응답을 수신하는 것과 하트비트 손실 검출 모두에 응답하여 애플리케이션 레벨의 핑을 피어 노드에 발행하는 매체 내 수단이 제공될 수 있다.
본 발명의 다른 특징 및 이점은 첨부한 도면과 함께 다음의 바람직한 실시예에 대한 설명으로부터 명백히 알 수 있을 것이다.
바람직한 실시예에 대한 설명
개요
클러스터는 멀티 홈 노드와 각 네트워크 인터페이스에 대한 적어도 하나의 게이트웨이로 구성된다. 클러스터의 피어 노드 간에는 소정의 주기적인 간격으로 하트비트 메시지를 보낸다. 하트비트 메시지가 손실되면, 양쪽의 네트워크 인터페이스를 통해 클러스터의 모든 노드와 게이트웨이에 ICMP 에코를 보낸다. 클러스터의 모든 노드와 게이트웨이에 ICMP 에코를 보내는 것은 장애 발생 여부 및 네트워크 분할 여부를 판정하는 데에 뿐만 아니라, 노드 손실, 네트워크 인터페이스와 관련된 장애 및/또는 케이블 장애의 위치를 판정하는 데에 도움이 된다. 또한, 애플리케이션 레벨의 핑을 발행하여 장애의 위치를 판정할 수도 있다. 따라서, 클러스터의 각 노드와 게이트웨이에 각 네트워크 인터페이스를 통해 ICMP 에코를 보냄으 로써, 장애의 위치를 확실하게 판정할 수 있고 그 장애 상태를 효율적으로 해결할 수 있다.
기술적 상세
네트워크의 피어 노드들에 소정의 간격으로 하트비트 메시지를 보내는 것은 잘 알려져 있다. 도 1은 종래의 멀티 노드 컴퓨팅 시스템의 블록도(10)이다. 이 예에 있어서, 화살표는 하트비트를 나타내고, 직선은 네트워크 경로를 나타낸다. 이 시스템에는 3개의 노드, 즉 노드0(20), 노드1(30), 노드2(40)가 있다. 각 노드는 멀티 홈 노드이다. 도 1에 도시한 바와 같이, 노드0(20)은 네트워크 인터페이스1(22)과 네트워크 인터페이스2(24)를 갖는다. 마찬가지로, 노드1(30)은 네트워크 인터페이스1(32)과 네트워크 인터페이스2(34)를 갖고, 노드2(40)는 네트워크 인터페이스1(42)과 네트워크 인터페이스2(44)를 갖는다. 도 1에 도시한 바와 같이, 네트워크의 인접한 피어 노드들에 하트비트를 보낸다. 예컨대, 노드0(20)은 제1 네트워크 인터페이스(22, 32, 42)를 통해 제1 하트비트 메시지(50, 52)를 각각 노드1(30) 및 노드2(40)에 보내고, 제2 네트워크 인터페이스(24, 34, 44)를 통해 제2 하트비트 메시지(54, 56)를 각각 노드1(30) 및 노드2(40)에 보낸다. 마찬가지로, 노드1(30)은 제1 네트워크 인터페이스(22, 32, 42)를 통해 제1 하트비트 메시지(50, 58)를 각각 노드0(20) 및 노드2(40)에 보내고, 제2 네트워크 인터페이스(24, 34, 44)를 통해 제2 하트비트 메시지(54, 60)를 각각 노드0(20) 및 노드2(40)에 보내며, 노드2(40)는 제1 네트워크 인터페이스(22, 32, 42)를 통해 제1 하트비트 메시지(52, 58)를 노드0(20) 및 노드1(30)에 보내고, 제2 네트워크 인터페이스(24, 34, 44)를 통해 제2 하트비트 메시지(56, 60)를 노드0(20) 및 노드1(30)에 보낸다. 본질적으로, 각 노드는 각 네트워크 인터페이스를 통해 독립적이고 주기적인 하트비트 메시지를 인접한 피어 노드들에 보낸다. 이 하트비트 메시지는 양방향이며 인접한 노드 간에 존재하여 노드 내의 장애를 검사한다. 그러나, 하트비트 메시지는 네트워크 손실을 해결할 수 없다. 따라서, 하트비트 메시지는 그러한 장애가 있다 해도 그것을 해결할 수 없고 단지 노드 레벨의 장애만을 판정하는 데에 유용할 뿐이다.
도 2는 2개의 네트워크 인터페이스에 대한 게이트웨이(180)를 갖는 멀티 홈 멀티 노드 컴퓨팅 시스템의 일례의 블록도이다. 이 예에서, 상기 시스템에는 3개의 노드, 즉 노드0(110), 노드1(120), 노드2(130)가 있다. 각 노드는 멀티 홈 노드이다. 도 2에 도시한 바와 같이, 노드0(110)은 네트워크 인터페이스1(112)과 네트워크 인터페이스2(114)를 갖는다. 마찬가지로, 노드1(120)은 네트워크 인터페이스1 (122)과 네트워크 인터페이스2(124)를 갖고, 노드2(130)는 네트워크 인터페이스1(132)과 네트워크 인터페이스2(134)를 갖는다. 다수의 네트워크 인터페이스 이외에도, 상기 시스템은 네트워크 인터페이스1(112, 122, 132) 및 네트워크 인터페이스2(114, 124, 134)와 통신하는 게이트웨이(180)를 갖는다. 도 2에 도시한 바와 같이, 네트워크의 인접한 피어 노드들에 하트비트를 보낸다. 예컨대, 노드0(110)은 제1 네트워크 인터페이스(112, 122, 132)를 통해 제1 하트비트 메시지(152, 158)를 노드1(120) 및 노드2(130)에 보내고, 제2 네트워크 인터페이스(114, 124, 134)를 통해 제2 하트비트 메시지(150, 160)를 노드1(120) 및 노드2(130)에 보낸다. 마찬가지로, 노드1(120)은 제1 네트워크 인터페이스(112, 122, 132)를 통해 제1 하트비트 메시지(152, 156)를 각각 노드0(110) 및 노드2(130)에 보내고, 제2 네트워크 인터페이스(114, 124, 134)를 통해 제2 하트비트 메시지(150, 154)를 노드0(110) 및 노드2(130)에 보내며, 노드2(130)는 제1 네트워크 인터페이스(112, 122, 132)를 통해 제1 하트비트 메시지(156, 158)를 노드1(120) 및 노드0(110)에 보내고, 제2 네트워크 인터페이스(114, 124, 134)를 통해 제2 하트비트 메시지(154, 160)를 노드1(120) 및 노드0(110)에 보낸다. 또한, 게이트웨이(180)는 양쪽의 네트워크 인터페이스의 네트워크 경로에 존재한다. 게이트웨이(180)는 하트비트 메시지를 송신하거나 수신하지 않는데, 그 이유는 하트비트 메시지가 애플리케이션 레벨의 프로토콜이기 때문이며, 또한 게이트웨이(180)는 운영 체계 레벨의 프로토콜로 제한된다. 게이트웨이(180)가 존재함으로써, 운영 체계 레벨의 장애, 예컨대 네트워크 경로와 관련된 장애나, 네트워크 경로에 있는 구성 요소(예컨대, 카드, 스위치, 허브 등)와 관련된 장애 등을 검출 할 수 있다. 따라서, 각 노드는 주기적인 양방향의 하트비트 메시지를 각 네트워크 인터페이스를 통해 인접한 피어 노드들에 보내어, 네트워크 토폴로지에 있는 게이트웨이와 관련된 네트워크 내의 장애를 감시한다.
양방향 하트비트 메시지는 노드와의 통신의 손실을 감시하는 데에 이용된다. 피어 노드에 의해 하트비트 메시지가 손실된 경우에는, ICMP 메시지가 네트워크 동작 또는 그 장애에 관한 대역외 메시지에 이용된다. ICMP 에코 기능은 호스트 사이를 왕복 이동하는 인터넷 프로토콜 패킷을 보내는 것이다. 마찬가지로, 운영 체계 프로토콜 대신에 애플리케이션 레벨의 프로토콜을 이용하는 핑은 수신처가 에코백(echo back)하려는 메시지를 보내는 데에 이용된다. 애플리케이션 레벨의 핑은 송신하는 각 패킷에 유일한 시퀀스 번호를 부여하고, 다시 수신한 시퀀스 번호가 무엇인지를 보고한다. 이것에 의해, 시스템 오퍼레이터는 패킷이 드롭되었는지, 복사되었는지, 재정렬되었지를 판정할 수 있게 된다. 또한, 이러한 핑 기능은 각 패킷에 타임스탬프를 두는데, 이것은 에코백되어 각 패킷 교환에 걸린 시간, 즉 왕복 이동 시간을 계산하는 데에 이용될 수 있다. 또한, 핑은 예컨대 라우터가 타겟 호스트에의 도달이 불가능함을 나타내는 경우에 다른 ICMP 메시지를 보고한다.
도 3a 및 도 3b는 하트비트 메시지, ICMP 에코 및 선택적인 애플리케이션 레벨의 핑을 이용하여 도 2에 도시한 멀티 홈 멀티 노드 컴퓨팅 시스템(100)에서 장애를 위치 검출하여 해결하는 프로세스를 도시한 흐름도(200)이다. 하트비트 메시지를 피어 노드에 보내어 장애 검출을 감시한다(단계 202). 다음에, 어느 한쪽의 네트워크 인터페이스에 하트비트의 손실이 있는지를 판정한다(단계 204). 단계 204 에서의 질의에 대한 응답이 "아니오"인 경우에는 단계 202로 되돌아가서 소정의 간격으로 하트비트 메시지를 보내는 프로세스를 계속한다. 그러나, 단계 204에서의 질의에 대한 응답이 "예"인 경우에는 특정 노드에 의한 하트비트의 손실을 나타낸다. 다음에, 그 하트비트의 손실을 검출한 노드가 ICMP 에코를 발행한다(단계 206). 그 ICMP 에코는 그 하트비트의 손실을 검출한 노드로부터 양쪽의 네트워크 인터페이스를 통해 클러스터의 모든 피어 노드 및 게이트웨이에 보내어진다. ICMP 에코의 한 세트는 제1 네트워크 인터페이스를 통해 보내어지고, ICMP의 또 다른 한 세트는 제2 네트워크 인터페이스를 통해 보내어진다. 하트비트의 손실에 응답하여 발행되는 에코의 수는 다음과 같다:
에코의 수 = [(N-1) + (게이트웨이의 수)] * (네트워크 인터페이스의 수)
여기서 N은 상기 시스템에 있는 노드의 수를 나타낸다. ICMP 에코는 각 노드 상의 운영 체계에 발행된다. 따라서, 그 에코의 발행은 하나 이상의 노드에 장애가 일어날 수 있는 클러스터의 하나 이상의 노드 상에서 실행되는 운영 체계로부터의 응답 메시지를 요구한다.
ICMP 에코 응답은 노드 손실 또는 네트워크 경로 손실에 대한 의심을 확인하는 기능을 한다. ICMP 에코의 발행 후에는, 어느 한 네트워크 인터페이스에 대해 적어도 하나의 에코 리턴을 수신하였는지를 판정한다(단계 208). 단계 208에서의 질의에 대한 응답이 "예"인 경우에는 그 네트워크 인터페이스에 따른 네트워크 경로가 제대로 기능을 하고 있다는 것을 나타낸다(단계 210). 그 후, 네트워크 인터페이스들에 대해 설정된 타겟 노드로부터의 에코 응답들을 비교하여, 클러스터 내 에서 어느 한쪽의 네트워크 인터페이스에 따른 최상의 접속성의 경로를 판정한다(단계 212). 다음에, 다른 네트워크 경로의 접속성이 개선되었는지를 판정한다(단계 214). 단계 214에서의 질의에 대한 응답이 "아니오"인 경우에는 단계 202로 되돌아간다. 그러나, 단계 214에서의 질의에 대한 응답이 "예"인 경우에는 네트워크 경로 장애가 극복된다(단계 216). 따라서, 적어도 하나의 에코 리턴이 생기면, 네트워크 접속성 문제가 위치 검출되어 해결된다.
그러나, 단계 208에서의 질의에 대한 응답이 "아니오"인 경우에는 그 네트워크 경로에는 장애가 존재하지 않는다는 것을 나타낸다. 그러므로, 동일한 피어 노드로부터 린던던트 에코가 리턴되었는지를 판정한다(단계 218). 단계 218에서의 질의에 대한 응답이 "아니오"인 경우에는 피어 노드의 노드 하드웨어 및/또는 운영 체계 장애에 관한 피어 노드 장애임을 나타낸다(단계 220). 그 후에는, 노드 장애를 극복하거나 클러스터를 재구성한다(단계 222). ICMP 에코 응답에 의해 노드 손실도 네트워크 손실도 아닌 것으로 확인되면, 애플리케이션 레벨의 핑을 발행한다.(단계 224). 그 핑 발행 후에는, 그 핑에 대한 응답이 있는지를 판정한다(단계 226). 핑 응답이 있으면 일시적인 에러 상태임을 나타내고(단계 228), 소정의 시간 내에 핑 응답이 없으면 애플리케이션 소프트웨어 장애임을 나타낸다(단계 230). 네트워크 접속성에 장애가 없으면, 이어서 노드 장애, 일시적인 에러 상태, 또는 애플리케이션 소프트웨어 장애로 존재할 수 있는 다른 장애를 판정하여 위치 검출한다. 따라서 장애의 위치 검출은 자동 복구 활동 및/또는 관리 수리 활동의 최상의 과정을 판정하는 데에 도움이 된다.
종래 기술에 비한 이점
양쪽의 네트워크 인터페이스 및 관련 메시지에 대한 라우팅 테이블을 갖는 게이트웨이는 물리적인 컴퓨터 시스템 및 애플리케이션 소프트웨어 내에 구성된다. 라우팅 테이블은 각 네트워크에 따른 효율적인 메시지 및 에코 전송을 가능하게 한다. 또한, 각 네트워크 인터페이스에 대한 게이트웨이를 갖는 컴퓨터 시스템의 구성은 ICMP 에코의 특정 네트워크에의 발행 제어를 가능하게 한다. 마지막으로, 네트워크 구성 내에 게이트웨이를 배치하는 것은 의심스러운 장애가 네트워크에 존재하는지 아니면 네트워크 내의 노드에 존재하는지를 판정하는 데에 도움이 된다. 특히, 그것은 일반적으로 2개의 노드 클러스터 및 네트워크 분할에서 장애를 해결하는 데에 도움이 된다. 따라서, 컴퓨터 시스템 내에 게이트웨이를 배치하는 것은 상기 시스템에서 장애를 위치 검출하여 해결함에 있어서 향상된 효율성 및 확실성을 제공한다.
다른 실시예
전술한 본 발명의 특정 실시예는 예시적인 것이며, 본 발명의 범위 내에서 다양하게 변형 가능하다. 특히, 본 발명은 도 2에 도시한 시스템의 구조적 레이아웃으로 한정되어서는 안된다. 각 네트워크는 다수의 게이트웨이를 포함할 수 있고, 노드와 게이트웨이의 접속 설계를 변경할 수 있다. 또한, 네트워크 토폴로지는 단일 서브넷이거나 이중 서브넷, 또는 리던던트 물리적 네트워크일 수 있다. 따라서, 본 발명의 보호 범위는 다음의 청구 범위와 그 균등물에 의해서만 한정된다.
본 발명에 의하면, 장애를 검출 및 분리시켜 장애의 기점을 판정함으로써 적절한 장애 극복 및 수리 활동이 가능하다.

Claims (22)

  1. (a) 네트워크 인터페이스에 대한 게이트웨이를 갖는 클러스터를 구성하는 단계와;
    (b) 하트비트 손실 검출에 응답하여 운영 체계 인터넷 컨트롤 메시지 프로토콜(ICMP) 에코를 상기 네트워크 인터페이스를 통해 상기 클러스터의 모든 피어 노드와 상기 게이트웨이에 발행하는 단계와;
    (c) 상기 클러스터에서의 장애의 위치를 판정하기 위해서 상기 에코로부터의 응답을 분석하는 단계를 포함하며,
    상기 에코로부터의 응답을 분석하는 단계 (c)는 상기 응답을 수신하여 상기 에코의 의도된 수신처를 판정하는 단계를 포함하는 것인 컴퓨터 시스템에서의 장애 해결 방법.
  2. 삭제
  3. 제 1항에 있어서,
    소정의 시간 내에 상기 네트워크 인터페이스에 대해 상기 피어 노드들로부터 상기 에코의 리턴을 수신하면, 이것은 상기 네트워크 인터페이스가 제대로 기능을 하고 있다는 것을 나타내는 것인 컴퓨터 시스템에서의 장애 해결 방법.
  4. 제 1항에 있어서,
    소정의 시간 내에 상기 네트워크 인터페이스에 대해 상기 게이트웨이로부터 상기 에코의 리턴을 수신하면, 이것은 상기 네트워크 인터페이스가 제대로 기능을 하고 있다는 것을 나타내는 것인 컴퓨터 시스템에서의 장애 해결 방법.
  5. 제 1항에 있어서,
    소정의 시간 내에 상기 네트워크 인터페이스에 대해 상기 피어 노드들로부터 상기 에코의 리턴을 수신하지 못하면, 이것은 피어 노드 장애, 그 피어 노드와 관련된 네트워크 장애 및 이들 장애의 조합으로 이루어진 그룹으로부터 선택된 장애를 나타내는 것인 컴퓨터 시스템에서의 장애 해결 방법.
  6. 제 1항에 있어서,
    소정의 시간 내에 상기 에코 응답을 수신하는 것과 상기 하트비트 손실 검출 모두에 응답하여 애플리케이션 레벨의 핑을 피어 노드에 발행하는 단계를 더 포함하는 컴퓨터 시스템에서의 장애 해결 방법.
  7. 제 1항에 있어서,
    각 네트워크 인터페이스에 대해 설정된 타겟 노드로부터의 에코 응답을 비교하는 단계를 더 포함하는 컴퓨터 시스템에서의 장애 해결 방법.
  8. 제 7항에 있어서,
    상기 각 네트워크 인터페이스에 대해 설정된 타겟 노드로부터의 에코 응답을 비교하는 단계는 상기 네트워크에서의 최대 노드 유효성, 상기 네트워크에서의 상기 게이트웨이의 유효성 및 이들 유효성의 조합으로 이루어진 그룹으로부터 선택된 기준을 포함하는 것인 컴퓨터 시스템에서의 장애 해결 방법.
  9. 네트워크 인터페이스에 대한 게이트웨이를 갖는 클러스터와;
    하트비트 손실 검출에 응답하여 상기 네트워크 인터페이스를 통해 상기 클러스터의 모든 피어 노드와 상기 게이트웨이에 발행되는 운영 체계 ICMP 에코와;
    상기 클러스터에서의 장애의 위치를 판정하기 위해서 분석되는 상기 에코로부터의 응답을 포함하며,
    상기 에코로부터의 응답을 분석하는 것은 상기 에코의 의도된 수신처를 판정하는 것을 포함하는 것인 멀티프로세서 컴퓨터 시스템.
  10. 삭제
  11. 제 9항에 있어서,
    소정의 시간 내에 상기 네트워크 인터페이스에 대해 상기 피어 노드들로부터 상기 에코의 리턴을 수신하면, 이것은 상기 네트워크 인터페이스가 제대로 기능을 하고 있다는 것을 나타내는 것인 멀티프로세서 컴퓨터 시스템.
  12. 제 9항에 있어서,
    소정의 시간 내에 상기 네트워크 인터페이스에 대해 상기 게이트웨이로부터 상기 에코의 리턴을 수신하면, 이것은 상기 네트워크 인터페이스가 제대로 기능을 하고 있다는 것을 나타내는 것인 멀티프로세서 컴퓨터 시스템.
  13. 제 11항에 있어서,
    소정의 시간 내에 상기 네트워크 인터페이스에 대해 상기 피어 노드들로부터 상기 에코의 리턴을 수신하지 못하면, 이것은 피어 노드 장애, 그 피어 노드와 관련된 네트워크 장애 및 이들 장애의 조합으로 이루어진 그룹으로부터 선택된 장애를 나타내는 것인 멀티프로세서 컴퓨터 시스템.
  14. 제 9항에 있어서,
    소정의 시간 내에 상기 에코를 수신하는 것과 상기 하트비트 손실 검출 모두에 응답하여 피어 노드에 발행하는 애플리케이션 레벨의 핑을 더 포함하는 멀티프로세서 컴퓨터 시스템.
  15. 제 9항에 있어서,
    각 네트워크 인터페이스에 대해 타겟 노드로부터의 에코 응답을 비교하는 비교 툴을 더 포함하는 멀티프로세서 컴퓨터 시스템.
  16. 제 15항에 있어서,
    상기 비교 툴은 상기 네트워크에서의 최대 노드 유효성, 상기 네트워크에서의 상기 게이트웨이의 유효성 및 이들 유효성의 조합으로 이루어진 그룹으로부터 선택된 기준에 기초하여 네트워크 인터페이스 경로를 판정하는 멀티프로세서 컴퓨터 시스템.
  17. 하트비트 손실 검출에 응답하여 운영 체계 ICMP 에코를 네트워크 인터페이스를 통해 클러스터의 피어 노드와 클러스터의 게이트웨이에 발행하게 하는 명령어와;
    상기 클러스터에서의 장애의 위치를 판정하기 위해서 상기 에코로부터의 응답을 분석하게 하는 명령어를 포함하며,
    상기 에코로부터의 응답 메시지를 분석하게 하는 명령어는 상기 응답을 수신하여 상기 에코의 의도된 수신처를 판정하는 것을 포함하는 것인 컴퓨터로 판독 가능한 기록 매체.
  18. 삭제
  19. 삭제
  20. 제 17항에 있어서,
    소정의 시간 내에 에코 응답을 수신하는 것과 하트비트 손실 검출 모두에 응답하여 애플리케이션 레벨의 핑을 피어 노드에 발행하게 하는 명령어를 더 포함하는 것인 컴퓨터로 판독 가능한 기록 매체.
  21. 제 17항에 있어서,
    각 네트워크 인터페이스에 대해 설정된 타겟 노드로부터의 에코 응답을 비교하게 하는 명령어를 더 포함하는 것인 컴퓨터로 판독 가능한 기록 매체.
  22. 제 21항에 있어서,
    각 네트워크 인터페이스에 대해 설정된 타겟 노드로부터의 에코 응답을 비교하게 하는 명령어는 상기 네트워크에서의 최대 노드 유효성, 상기 네트워크에서의 상기 게이트웨이의 유효성 및 이들 유효성의 조합으로 이루어진 그룹으로부터 선택된 기준을 포함하는 것인 컴퓨터로 판독 가능한 기록 매체.
KR1020040065873A 2003-08-27 2004-08-20 클러스터에서의 확실한 장애 해결 방법 및 시스템 KR100617344B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/649,269 2003-08-27
US10/649,269 US7284147B2 (en) 2003-08-27 2003-08-27 Reliable fault resolution in a cluster

Publications (2)

Publication Number Publication Date
KR20050022329A KR20050022329A (ko) 2005-03-07
KR100617344B1 true KR100617344B1 (ko) 2006-08-31

Family

ID=34216906

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020040065873A KR100617344B1 (ko) 2003-08-27 2004-08-20 클러스터에서의 확실한 장애 해결 방법 및 시스템

Country Status (5)

Country Link
US (2) US7284147B2 (ko)
JP (1) JP3903437B2 (ko)
KR (1) KR100617344B1 (ko)
CN (1) CN1303786C (ko)
TW (1) TWI310494B (ko)

Families Citing this family (74)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080207178A1 (en) * 1997-07-30 2008-08-28 Steven Tischer Apparatus and method for restricting access to data
US20080194225A1 (en) * 1997-07-30 2008-08-14 Steven Tischer Apparatus and method for providing emergency and alarm communications
US20080220775A1 (en) * 1997-07-30 2008-09-11 Steven Tischer Apparatus, method, and computer-readable medium for securely providing communications between devices and networks
US20080207179A1 (en) * 1997-07-30 2008-08-28 Steven Tischer Apparatus and method for testing communication capabilities of networks and devices
US20080192768A1 (en) * 1997-07-30 2008-08-14 Steven Tischer Apparatus, method, and computer-readable medium for interfacing communication devices
US20080194208A1 (en) * 1997-07-30 2008-08-14 Steven Tischer Apparatus, method, and computer-readable medium for communicating between and controlling network devices
US7149514B1 (en) 1997-07-30 2006-12-12 Bellsouth Intellectual Property Corp. Cellular docking station
US20080207197A1 (en) 1997-07-30 2008-08-28 Steven Tischer Apparatus, method, and computer-readable medium for interfacing devices with communications networks
US8554187B2 (en) 2002-07-15 2013-10-08 At&T Intellectual Property I, L.P. Apparatus and method for routing communications between networks and devices
US7200424B2 (en) 2002-07-15 2007-04-03 Bellsouth Intelectual Property Corporation Systems and methods for restricting the use and movement of telephony devices
US8526466B2 (en) 2002-07-15 2013-09-03 At&T Intellectual Property I, L.P. Apparatus and method for prioritizing communications between devices
US8543098B2 (en) 2002-07-15 2013-09-24 At&T Intellectual Property I, L.P. Apparatus and method for securely providing communications between devices and networks
US8416804B2 (en) 2002-07-15 2013-04-09 At&T Intellectual Property I, L.P. Apparatus and method for providing a user interface for facilitating communications between devices
US8275371B2 (en) 2002-07-15 2012-09-25 At&T Intellectual Property I, L.P. Apparatus and method for providing communications and connection-oriented services to devices
US8000682B2 (en) 2002-07-15 2011-08-16 At&T Intellectual Property I, L.P. Apparatus and method for restricting access to data
US20050036483A1 (en) * 2003-08-11 2005-02-17 Minoru Tomisaka Method and system for managing programs for web service system
US7280486B2 (en) * 2004-01-07 2007-10-09 Cisco Technology, Inc. Detection of forwarding problems for external prefixes
US7965646B2 (en) * 2004-08-11 2011-06-21 Qwest Communications International Inc Wireless code-passing system for stateful connection monitoring
US20060246889A1 (en) * 2005-05-02 2006-11-02 Buchhop Peter K Wireless Data Device Performance Monitor
JP4681049B2 (ja) 2005-06-14 2011-05-11 テレフオンアクチーボラゲット エル エム エリクソン(パブル) ネットワークにおける障害処理のための方法および装置
US8195976B2 (en) 2005-06-29 2012-06-05 International Business Machines Corporation Fault-tolerance and fault-containment models for zoning clustered application silos into continuous availability and high availability zones in clustered systems during recovery and maintenance
CN100454849C (zh) * 2005-08-05 2009-01-21 华为技术有限公司 下一代网络中的故障检测方法
CN1327658C (zh) * 2005-08-09 2007-07-18 华为技术有限公司 网络通信状况探测方法
WO2007055014A1 (ja) * 2005-11-11 2007-05-18 Fujitsu Limited クラスタシステムのコンピュータにおいて実行されるネットワークモニタ・プログラム、情報処理方法及びコンピュータ
US7539755B2 (en) * 2006-04-24 2009-05-26 Inventec Corporation Real-time heartbeat frequency regulation system and method utilizing user-requested frequency
US20070294596A1 (en) * 2006-05-22 2007-12-20 Gissel Thomas R Inter-tier failure detection using central aggregation point
US8428098B2 (en) * 2006-07-06 2013-04-23 Qualcomm Incorporated Geo-locating end-user devices on a communication network
US8074109B1 (en) * 2006-11-14 2011-12-06 Unisys Corporation Third-party voting to select a master processor within a multi-processor computer
JP2008172592A (ja) * 2007-01-12 2008-07-24 Hitachi Ltd クラスタシステム、コンピュータおよびその異常検出方法
US7890555B2 (en) * 2007-07-10 2011-02-15 International Business Machines Corporation File system mounting in a clustered file system
US7898941B2 (en) * 2007-09-11 2011-03-01 Polycom, Inc. Method and system for assigning a plurality of MACs to a plurality of processors
CN101420335B (zh) 2007-10-26 2011-09-14 华为技术有限公司 对等网络节点故障检测/处理方法及装置
US8195977B2 (en) * 2007-11-19 2012-06-05 International Business Machines Corporation Network fault isolation
US9317432B2 (en) * 2008-01-09 2016-04-19 International Business Machines Corporation Methods and systems for consistently replicating data
CN101562784B (zh) * 2008-04-14 2012-06-06 华为技术有限公司 报文分发方法、设备及系统
US7983175B2 (en) * 2008-09-19 2011-07-19 International Business Machines Corporation System and method for detecting a network failure
JP2010103695A (ja) * 2008-10-22 2010-05-06 Ntt Data Corp クラスタシステム、クラスタサーバ及びクラスタ制御方法
US8918670B2 (en) * 2008-10-29 2014-12-23 Hewlett-Packard Development Company, L.P. Active link verification for failover operations in a storage network
US8671218B2 (en) * 2009-06-16 2014-03-11 Oracle America, Inc. Method and system for a weak membership tie-break
WO2011148510A1 (ja) * 2010-05-28 2011-12-01 富士通株式会社 伝送装置及び伝送装置制御方法
US8634328B2 (en) 2010-12-03 2014-01-21 International Business Machines Corporation Endpoint-to-endpoint communications status monitoring
US8433760B2 (en) 2010-12-03 2013-04-30 International Business Machines Corporation Inter-node communication scheme for node status sharing
US8634330B2 (en) 2011-04-04 2014-01-21 International Business Machines Corporation Inter-cluster communications technique for event and health status communications
CN102918802B (zh) 2011-05-30 2015-03-11 华为技术有限公司 确定故障指示状态的方法、节点和系统
US9244796B2 (en) 2011-11-15 2016-01-26 International Business Machines Corporation Diagnostic heartbeat throttling
US8874974B2 (en) * 2011-11-15 2014-10-28 International Business Machines Corporation Synchronizing a distributed communication system using diagnostic heartbeating
US8769089B2 (en) 2011-11-15 2014-07-01 International Business Machines Corporation Distributed application using diagnostic heartbeating
US8903893B2 (en) 2011-11-15 2014-12-02 International Business Machines Corporation Diagnostic heartbeating in a distributed data processing environment
US8756453B2 (en) 2011-11-15 2014-06-17 International Business Machines Corporation Communication system with diagnostic capabilities
CN104012033B (zh) 2011-12-29 2017-06-09 英特尔公司 计算资源的安全地理定位
US9559894B2 (en) * 2012-08-22 2017-01-31 Oracle International Corporation System and method for supporting high available (HA) network communication in a middleware machine environment
US20140095925A1 (en) * 2012-10-01 2014-04-03 Jason Wilson Client for controlling automatic failover from a primary to a standby server
US9501363B1 (en) * 2013-03-15 2016-11-22 Nuodb, Inc. Distributed database management system with node failure detection
JP6183931B2 (ja) * 2013-12-25 2017-08-23 Necソリューションイノベータ株式会社 クラスタシステム、サーバ装置、クラスタシステムの管理方法、及びプログラム。
JP6278868B2 (ja) * 2014-08-28 2018-02-14 三菱電機株式会社 通信制御装置および計算装置
US9760420B1 (en) * 2014-09-03 2017-09-12 Amazon Technologies, Inc. Fleet host rebuild service implementing vetting, diagnostics, and provisioning pools
US9823637B2 (en) * 2014-09-05 2017-11-21 Southern States, Llc Fault detection and isolation using a common reference clock
US10003525B2 (en) * 2014-11-14 2018-06-19 Fisher-Rosemount Systems, Inc. Methods and apparatus to provide redundancy in a process control system
GB2533432A (en) 2014-12-18 2016-06-22 Ipco 2012 Ltd A device system, method and computer program product for processing electronic transaction requests
GB2533379A (en) 2014-12-18 2016-06-22 Ipco 2012 Ltd A system and server for receiving transaction requests
GB2537087A (en) 2014-12-18 2016-10-12 Ipco 2012 Ltd A system, method and computer program product for receiving electronic messages
GB2533562A (en) 2014-12-18 2016-06-29 Ipco 2012 Ltd An interface, method and computer program product for controlling the transfer of electronic messages
CN105450466B (zh) * 2015-11-10 2018-11-02 浪潮(北京)电子信息产业有限公司 一种icmp请求报文保活控制方法及系统
JP6409812B2 (ja) * 2016-04-01 2018-10-24 横河電機株式会社 冗長化装置、冗長化システム、及び冗長化方法
CN106452957B (zh) * 2016-09-30 2019-09-10 邦彦技术股份有限公司 心跳检测方法及节点系统
CN106559288B (zh) * 2016-11-23 2019-11-12 北京航天自动控制研究所 一种基于icmp报文的快速故障检测方法
CN107426003B (zh) * 2017-05-02 2019-12-13 华为技术有限公司 一种故障检测方法及装置
CN107566219B (zh) * 2017-09-27 2020-09-18 华为技术有限公司 应用于集群系统的故障诊断方法、节点设备和计算机设备
WO2019178714A1 (zh) * 2018-03-19 2019-09-26 华为技术有限公司 一种故障检测的方法、装置及系统
US11595407B2 (en) * 2018-04-27 2023-02-28 Dell Products L.P. Information handling system threat management
KR102040115B1 (ko) * 2018-08-30 2019-11-27 주식회사 동희산업 네트워크 장애처리 자동화 시스템 및 방법
CN111092996A (zh) * 2019-10-31 2020-05-01 国网山东省电力公司信息通信公司 一种集中式调度录音系统及控制方法
US11397632B2 (en) * 2020-10-30 2022-07-26 Red Hat, Inc. Safely recovering workloads within a finite timeframe from unhealthy cluster nodes
CN114172824A (zh) * 2021-12-15 2022-03-11 国家石油天然气管网集团有限公司 油气管道高速总线与控制器进行冗余切换方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6072857A (en) 1996-12-19 2000-06-06 Bellsouth Intellectual Property Management Corporation Methods and system for monitoring the operational status of a network component in an advanced intelligent network
KR20000038701A (ko) * 1998-12-08 2000-07-05 이계철 인터넷 제어 메시지 프로토콜(icmp)을 이용한 분산처리 장치의 장애감시 이중화 방법
JP2000307600A (ja) 1999-04-23 2000-11-02 Nec Corp デバイス装置のハートビート回路
US6246666B1 (en) 1998-04-09 2001-06-12 Compaq Computer Corporation Method and apparatus for controlling an input/output subsystem in a failed network server
US6581166B1 (en) 1999-03-02 2003-06-17 The Foxboro Company Network fault detection and recovery
KR20040038266A (ko) * 2002-10-31 2004-05-08 주식회사 현대시스콤 이중화된 에이에이에이 서버에서 고가용성 메시지를 통한프로세스 상호간 상태 감시 방법

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5371852A (en) * 1992-10-14 1994-12-06 International Business Machines Corporation Method and apparatus for making a cluster of computers appear as a single host on a network
US5918017A (en) 1996-08-23 1999-06-29 Internatioinal Business Machines Corp. System and method for providing dynamically alterable computer clusters for message routing
US5909540A (en) * 1996-11-22 1999-06-01 Mangosoft Corporation System and method for providing highly available data storage using globally addressable memory
US6031528A (en) * 1996-11-25 2000-02-29 Intel Corporation User based graphical computer network diagnostic tool
JPH1127326A (ja) 1997-07-08 1999-01-29 Hitachi Ltd 階層lanスイッチネットワーク
US6363416B1 (en) * 1998-08-28 2002-03-26 3Com Corporation System and method for automatic election of a representative node within a communications network with built-in redundancy
US6430610B1 (en) * 1998-09-02 2002-08-06 Steeleye Technology, Inc. TCP/IP address protection mechanism in a clustered server environment
US6654914B1 (en) 1999-05-28 2003-11-25 Teradyne, Inc. Network fault isolation
US7165107B2 (en) * 2001-01-22 2007-01-16 Sun Microsystems, Inc. System and method for dynamic, transparent migration of services
US7275102B2 (en) * 2001-01-22 2007-09-25 Sun Microsystems, Inc. Trust mechanisms for a peer-to-peer network computing platform
US7120693B2 (en) * 2001-05-08 2006-10-10 International Business Machines Corporation Method using two different programs to determine state of a network node to eliminate message response delays in system processing
US6944785B2 (en) * 2001-07-23 2005-09-13 Network Appliance, Inc. High-availability cluster virtual server system
US7512649B2 (en) * 2002-03-22 2009-03-31 Sun Microsytems, Inc. Distributed identities

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6072857A (en) 1996-12-19 2000-06-06 Bellsouth Intellectual Property Management Corporation Methods and system for monitoring the operational status of a network component in an advanced intelligent network
US6246666B1 (en) 1998-04-09 2001-06-12 Compaq Computer Corporation Method and apparatus for controlling an input/output subsystem in a failed network server
KR20000038701A (ko) * 1998-12-08 2000-07-05 이계철 인터넷 제어 메시지 프로토콜(icmp)을 이용한 분산처리 장치의 장애감시 이중화 방법
US6581166B1 (en) 1999-03-02 2003-06-17 The Foxboro Company Network fault detection and recovery
JP2000307600A (ja) 1999-04-23 2000-11-02 Nec Corp デバイス装置のハートビート回路
KR20040038266A (ko) * 2002-10-31 2004-05-08 주식회사 현대시스콤 이중화된 에이에이에이 서버에서 고가용성 메시지를 통한프로세스 상호간 상태 감시 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
1020040065873 - 610334

Also Published As

Publication number Publication date
TWI310494B (en) 2009-06-01
US20050050398A1 (en) 2005-03-03
TW200511002A (en) 2005-03-16
CN1592225A (zh) 2005-03-09
US20100115338A1 (en) 2010-05-06
CN1303786C (zh) 2007-03-07
JP3903437B2 (ja) 2007-04-11
US7284147B2 (en) 2007-10-16
JP2005073277A (ja) 2005-03-17
KR20050022329A (ko) 2005-03-07
US7941690B2 (en) 2011-05-10

Similar Documents

Publication Publication Date Title
KR100617344B1 (ko) 클러스터에서의 확실한 장애 해결 방법 및 시스템
EP1817855B1 (en) System and methods for detecting network failure
US10454809B2 (en) Automatic network topology detection for merging two isolated networks
US7693045B2 (en) Verifying network connectivity
US20030233473A1 (en) Method for configuring logical connections to a router in a data communication system
CN104168193B (zh) 一种虚拟路由器冗余协议故障检测的方法及路由设备
CA2498037C (en) Root cause correlation in connectionless networks
JP6341914B2 (ja) ミドルウェアマシン環境で高可用性(ha)ネットワーク通信をサポートするためのシステムおよび方法
WO2011100609A2 (en) Methods, systems, and computer readable media for inter-message processor status sharing
CN103036702B (zh) 一种跨网段的n+1备份方法及装置
WO2001039461A2 (en) Network event correlation system using protocol models
EP1601140B1 (en) Method of monitoring a member router in a VRRP group
CN113949649B (zh) 故障检测协议的部署方法、装置、电子设备及存储介质
EP1370918B1 (en) Software-based fault tolerant networking using a single lan
CA2401635A1 (en) Multiple network fault tolerance via redundant network control
US20030120788A1 (en) Method of preserving symmetrical routing in a communication system based upon a server farm
GB2362230A (en) Delegated fault detection in a network by mutual node status checking
CN113805788B (zh) 一种分布式存储系统及其异常处理方法和相关装置
US7808893B1 (en) Systems and methods for providing redundancy in communications networks
Huang et al. A network processor-based fault-tolerance architecture for critical network equipments
CN115632987A (zh) 基于dns与路由发布控制的负载均衡方法
JPH09321800A (ja) 高信頼化ネットワークシステム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20110802

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee