KR20060068873A - 장애 발생에 대한 복구 수행률 향상 방법 및 이를지원하는 클러스터 시스템 - Google Patents

장애 발생에 대한 복구 수행률 향상 방법 및 이를지원하는 클러스터 시스템 Download PDF

Info

Publication number
KR20060068873A
KR20060068873A KR1020040107807A KR20040107807A KR20060068873A KR 20060068873 A KR20060068873 A KR 20060068873A KR 1020040107807 A KR1020040107807 A KR 1020040107807A KR 20040107807 A KR20040107807 A KR 20040107807A KR 20060068873 A KR20060068873 A KR 20060068873A
Authority
KR
South Korea
Prior art keywords
service
node
status information
availability status
network
Prior art date
Application number
KR1020040107807A
Other languages
English (en)
Inventor
김상헌
Original Assignee
엘지엔시스(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지엔시스(주) filed Critical 엘지엔시스(주)
Priority to KR1020040107807A priority Critical patent/KR20060068873A/ko
Publication of KR20060068873A publication Critical patent/KR20060068873A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/24Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using dedicated network management hardware

Abstract

서비스가용상태정보를 관리 및 활용하여 장애 발생에 대한 복구 수행률을 향상시키는 방법 및 이를 지원하는 클러스터 시스템이 개시된다. 대기 노드가 특정 활성 노드의 장애를 감지하면 해당 서비스의 가용 상태를 파악하여 당해 대기 노드의 메모리 및 공유 디스크에 저장하고, 타 대기 노드로부터 브로드캐스팅된 서비스가용상태정보를 미리 저장된 정보와 취합하여 저장한다. 활성 노드에서는 현재 수행중인 서비스 상태정보를 주기적으로 저장하고 있으며, 활성 노드에 장애가 발생하면 특정 대기 노드 또는 공유 디스크로부터의 서비스가용상태정보를 통해 서비스 수행이 가능한 대기 노드가 존재하는 것으로 파악되면 당해 서비스를 중지시키고 상기 서비스상태정보를 중지상태로 갱신한다. 대기 노드에서는 특정 활성 노드의 장애가 감지된 경우 해당 장애발생노드 또는 공유 디스크의 서비스상태정보로부터 해당 서비스가 중지된 것으로 판단되면 당해 대기 노드의 메모리 또는 공유 디스크의 서비스가용상태정보로부터 당해 대기 노드가 복구수행노드인지를 결정하고, 복구수행노드인 경우 소정의 알고리즘에 따라 복구를 실행한다.
클러스터 시스템, 장애 복구, failover, active node, standby node

Description

장애 발생에 대한 복구 수행률 향상 방법 및 이를 지원하는 클러스터 시스템 {Error recovery executing rate improvementing method and cluster system implementing the same}
도 1은 클러스터 시스템에서 특정 활성 노드에 시스템 장애가 발생하고, 이어서 특정 대기 노드에 파일 시스템 또는 서비스망에 장애가 발생한 경우를 도시하는 블럭도.
도 2는 클러스터 시스템에서 특정 활성 노드에 시스템 장애가 발생하고, 이어서 특정 대기 노드의 공중망 및 사설망에 동시에 장애가 발생한 경우를 도시하는 블럭도.
도 3은 본 발명에 의한 클러스터 시스템의 활성 노드의 내부 구성을 도시하는 블럭도.
도 4는 본 발명에 의한 클러스터 시스템의 대기 노드의 내부 구성에 대한 일 실시예를 도시하는 블럭도.
도 5은 활성 노드의 메모리 및 공유 디스크에 저장된 서비스상태정보를 도시하는 데이터 구조도.
도 6은 대기 노드의 메모리 및 공유 디스크에 저장된 서비스가용상태정보를 도시하는 데이터 구조도.
도 7은 본 발명에 의해 서비스가용상태정보를 관리하는 과정을 도시하는 플로우챠트.
도 8은 본 발명에 의해 서비스가용상태정보를 이용하여 장애를 복구하는 과정의 일 실시예를 도시하는 플로우챠트.
도 9는 본 발명에 의해 서비스가용상태정보를 이용하여 장애를 복구하는 과정의 다른 실시예를 도시하는 플로우챠트.
본 발명은 서비스가용상태정보를 관리 및 활용하여 장애 발생에 대한 복구 수행률을 향상시키는 방법 및 이를 지원하는 클러스터 시스템에 관한 것이다.
이하, 도 1 및 도 2를 참고로 종래 클러스터 시스템에 장애가 발생한 경우 불필요한 시스템 복구(Failover)가 수행되어 복구 효율을 떨어뜨리는 메카니즘을 살펴보기로 한다.
도 1은 클러스터 시스템에서 특정 활성 노드에 시스템 장애가 발생하고, 이어서 특정 대기 노드에 파일 시스템 또는 서비스망에 장애가 발생한 경우를 도시하는 블럭도이다. 이러한 경우의 복구 동작 과정을 순차적으로 나열하여 설명하면 다음과 같다.
(a) 대기 노드(Standby node)1(150)에 파일 시스템 또는 서비스 네트워크의 장애가 발생한다. 즉, 대기 노드1(150)은 공중망(Public Network) 및 사설망(Private Network) 등의 통신채널은 모두 정상이지만 상기 장애들로 인하여 서비스 S1을 대체 복구(Failover)할 수 없는 상태이다.
(b) 활성 노드(Active node)1(100)에 시스템 다운 장애가 발생한다. 즉, 활성 노드1(100)에서는 정상적인 서비스 제공이 불가능한 상태이다.
(c) 대기 노드1(150)의 클러스터 장애감지모듈은 활성 노드1(100)의 시스템 다운 장애를 감지하고, 활성 노드1(100)이 수행하던 서비스 S1의 대체 복구를 수행한다. 이때, 대기 노드1(150)은 내부적으로 서비스 S1을 수행하고 있지만, 상기 (a)의 장애로 인하여 외부에 정상적인 서비스를 제공하지 못하는 상태에 있다.
도 2는 클러스터 시스템에서 특정 활성 노드에 시스템 장애가 발생하고, 이어서 특정 대기 노드의 공중망 및 사설망에 동시에 장애가 발생한 경우를 도시하는 블럭도이며, 이러한 경우의 복구 동작 과정을 역시 순차적으로 나열하여 설명하면 다음과 같다.
(a) 대기 노드1(250)의 사설망 및 공중망에 동시에 장애가 발생한다.
(b) 대기 노드1(250)의 클러스터 장애감시모듈은 허트비트 메시지를 수신할 수 없을을 인지하고, 사설망 및 공중망에 ping을 수행하여 장애 발생을 감지한다.
(c) 대기 노드1(250)은 클러스터 시스템에서 통신수단으로 사용하던 모든 통신채털이 단절되었으므로 당해 클러스터 시스템에서 제외되고, 대기 노드로서의 기능은 정지된다.
(d) 활성 노드1(200)에 시스템 다운 장애가 발생한다.
(e) 대기 노드1(250)은 서비스 S1을 대체 복구할 수 있는 상태에 있으나, 당해 클러스터에서 제외되었으므로 복구를 수행하지 않는다.
이와 같이, 종래의 클러스터 시스템에서는 활성 노드에 장애가 발생한 경우 복구할 서비스가 특저 대기 노드에서 정상적으로 수행 가능한지 여부 즉, 서비스 가용 상태를 고려하지 않고 복구를 수행하기 때문에, 대기 노드에서 서비스 제공을 위해 필요한 자원에 장애가 발생한 경우 불필요한 장애 복구를 수행하거나 장애 복구 수행을 할 수 있음에도 이를 하지 않게 되는 구조적인 메카니즘으로 인해 장애 복구의 효율이 감소되는 문제점이 발생하였다.
본 발명은 위와 같은 문제점을 해결하기 위해 제안된 것으로서, 특정 활성 노드에 장애가 발생한 경우 각 대기 노드에서 해당 서비스의 가용 상태를 파악하고 이를 취합하여 소정의 서비스가용상태정보를 생성함으로써 효율적인 장애 복구에 이용될 수 있도록 관리하는 방법 및 이를 지원하는 시스템을 제공하는 데에 있다.
본 발명의 다른 목적은, 특정 활성 노드에 장애가 발생한 경우 당해 활성 노드는 상기 서비스가용상태정보로부터 현재 서비스를 온전하게 복구할 대기 노드가 존재하는지 여부를 판단한 이후에 당해 서비스를 정지시키도록 하여, 파일 시스템 또는 서비스망에 장애가 발생한 대기 노드에 의한 의미없는 서비스 복구가 수행되지 않도록 하는 데에 있다.
본 발명의 다른 목적은, 특정 활성 노드에 장애가 발생한 경우 대기 노드는 상기 서비스가용상태정보로부터 당해 대기 노드가 온전하게 복구 수행이 가능한 노드인지를 판단한 이후에 복구를 수행하도록 하여, 사설망 및 공중망에 모두 장애가 발생한 대기 노드에 의한 의미없는 서비스 복구가 수행되지 않도록 하는 데에 있다.
위와 같은 목적을 달성하기 위한 본 발명의 가용상태정보 관리 시스템은, 서비스망, 공중망 및 사설망과 각각 연결되어 있으면서 소정의 서비스를 제공하는 활성 노드, 장애 발생시 이를 복구하기 위한 대기 노드 및 소정의 서비스 제공을 위한 파일 시스템을 저장하는 공유 디스크를 포함하는 클러스터 시스템에 있어서, 상기 대기 노드는 특정 활성 노드의 장애를 감지하는 장애감지모듈과, 특정 활성 노드의 장애가 감지되면 해당 장애발생노드에서 제공하던 서비스에 대한 가용 상태를 파악하는 가용상태정보측정모듈과, 상기 파악된 서비스가용상태정보를 메모리 및 공유 디스크에 저장한 후 타 대기 노드로 브로드캐스팅하고, 타 대기 노드로부터 브로드캐스팅된 서비스가용상태정보를 미리 저장된 서비스가용상태정보에 취합하여 메모리 및 공유 디스크에 저장하는 가용상태정보저장모듈 및 서비스망, 공중망 및 사설망을 통해 데이터 통신을 하기 위한 네트워크 인터페이스 모듈을 포함하여 구성되는 것을 특징으로 한다.
또한, 본 발명에 의한 가용상태정보를 통한 서비스 복구 시스템은, 서비스망, 공중망 및 사설망과 각각 연결되어 있으면서 소정의 서비스를 제공하는 활성 노드, 장애 발생시 이를 복구하기 위한 대기 노드 및 소정의 서비스 제공을 위한 파일 시스템을 저장하는 공유 디스크를 포함하는 클러스터 시스템에 있어서, 활성 노드는, 자체 발생한 장애를 감지하는 장애감지모듈과, 당해 활성 노드의 작동상태 및 현재 제공중인 서비스의 수행상태를 주기적으로 파악하여 메모리 및 공유 디스크에 저장하는 상태정보저장모듈과, 자체 발생한 장애가 감지되면 특정 대기 노드 또는 공유 디스크로부터 서비스가용상태정보를 전송받아 분석하고, 분석 결과 서비스 수행이 가능한 대기 노드가 존재하면 현재 제공중인 서비스를 중지시키는 장애대응모듈 및 서비스망, 공중망 및 사설망을 통해 데이터 통신을 하기 위한 네트워크 인터페이스 모듈을 포함하여 구성되며, 상기 대기 노드는, 상기 활성 노드의 서비스가 중지되는 경우에 한하여 복구를 수행하는 것을 특징으로 한다. 이때, 상기 서비스가용상태정보는 상기 가용상태정보 관리 시스템의 대기 노드에 의해 생성된 것일 수 있다.
또한, 본 발명에 의한 가용상태정보를 통한 서비스 복구 시스템은, 서비스망, 공중망 및 사설망과 각각 연결되어 있으면서 소정의 서비스를 제공하는 활성 노드, 장애 발생시 이를 복구하기 위한 대기 노드 및 소정의 서비스 제공을 위한 파일 시스템을 저장하는 공유 디스크를 포함하는 클러스터 시스템에 있어서, 상기 대기 노드는, 특정 활성 노드의 장애를 감지하는 장애감지모듈과, 특정 활성 노드의 장애가 감지되면 메모리 또는 공유 디스크로부터 서비스가용상태정보를 읽어와서 당해 대기 노드를 통해 복구를 수행할 것인지를 결정하는 복구결정모듈과, 당해 대기 노드가 복구 수행 노드로 결정되면 소정의 알고리즘에 따라 복구를 실행하는 장애복구모듈 및 서비스망, 공중망 및 사설망을 통해 데이터 통신을 하기 위한 네트워크 인터페이스 모듈을 포함하여 구성되는 것을 특징으로 한다. 이때, 상기 서비스가용상태정보는 상기 가용상태정보 관리 시스템의 대기 노드에 의해 생성된 것일 수 있다.
또한, 상기 복구결정모듈은, 서비스가용상태정보의 서비스 가용 대기 노드의 리스트 중 첫 번째 항목이 당해 대기 노드인 경우, 당해 대기 노드를 복구 수행 노드로 결정하게 된다.
또한, 상기 장애복구모듈은, 장애발생노드의 메모리 또는 공유 디스크로부터 서비스상태정보를 읽어와서, 장애발생노드의 서비스가 중지된 것으로 판단되는 경우에 한하여 장애 복구를 수행한다.
한편, 상기 서비스가용상태정보는, 네트워크 상태 정보 및 파일 시스템 정보를 포함하며, 상기 네트워크 상태 정보는, 상기 네트워크 인터페이스 모듈의 사설망, 공중망 및 서비스망에의 연결 상태 정보 및 I/O 패킷 통계 정보 중 하나 이상을 포함하는 것이고, 상기 파일 시스템 정보는, 파일 시스템의 디바이스 상태 정보 및 리드-온리 마운트(read-only mount) 가능 여부 정보 중 하나 이상을 포함하는 것이다.
이하, 본 발명의 명세서에 첨부된 도면을 참고하여 바람직한 실시예에 대하여 상세하게 설명해 보기로 한다.
본 발명은 크게 서비스가용상태정보를 생성 및 유지하는 관리 방법과, 서비 스가용상태정보를 통해 가용 대기 노드가 있는지를 파악하여 복구를 수행하는 복구수행방법과, 서비스가용상태정보를 통해 실질적으로 복구 가용 능력이 있는 대기 노드 중에서 선택하여 복구를 수행하는 복구수행방법 등 3가지로 나누어 구성된다.
먼저, 본 발명에 의한 서비스가용상태정보의 관리 방법 및 이를 활용한 장애 복구 방법을 지원하는 클러스터 시스템의 각 구성을 도 1을 참고로 하여 살펴본다.
클러스터 시스템은 크게 소정의 서비스를 제공하기 위한 하나 이상의 활성 노드(100, 101)와, 활성 노드 중 어느 하나 이상에 시스템 관련 장애가 발생한 경우 해당 활성 노드가 정상 상태로 돌아오기전까지 그 활성 노드가 수행중이던 특정 서비스를 이어받아 대신 수행하기 위한 하나 이상의 대기 노드(150), 그리고 하나 이상의 활성 노드가 공동으로 이용하며 소정의 서비스를 제공하기 위한 파일 시스템을 저장하는 공유 디스크(Shared disk)로 구성되며, 이러한 활성 노드 및 대기 노드는 서로 공중망, 사설망 및 서비스망으로 연결되어 있다.
활성 노드(100)는 서비스가용상태정보를 통해 가용 대기 노드가 있는지를 먼저 파악한 후 복구를 수행토록 하기 위해 특히 장애감지모듈(300), 상태정보저장모듈(310) 및 장애대응모듈(320)을 포함하여 이루어진다. 도 3은 이러한 활성 노드(100)의 내부 구성에 대한 일 실시예를 도시하고 있다.
장애감지모듈(300)은 당해 활성 노드의 시스템 다운 장애 발생 여부를 감시하고, 상태정보저장모듈(310)은 당해 활성 노드의 상태 및 현재 수행중인 서비스의 상태를 주기적으로 파악하여 메모리 및 공유 디스크에 저장하며, 장애대응모듈(320)은 당해 활성 노드에 장애가 감지되면 대기 노드 또는 공유 디스크로부터 서 비스가용상태정보를 전송받아 분석한 결과 서비스 수행이 가능한 대기 노드가 존재하는 경우에만 당해 활성 노드의 서비스를 중지시킨다.
상기 상태정보저장모듈(310)에 의해 저장되는 서비스상태정보는 당해 활성 노드에 장애가 발생하였는지를 알리는 노드상태필드(500)와 현재 서비스가 계속중인지 또는 중지상태인지를 알리는 서비스상태필드(510)를 특히 포함하고 있으며, 도 5는 이러한 활성 노드의 메모리 및 공유 디스크에 저장된 서비스상태정보의 데이터 구성을 도시하고 있다.
또한, 상기 서비스가용상태정보는 대기 노드들의 리스트 필드(600), 특정 대기 노드에 대한 사설망에의 접속 상태 필드(610), 공중망에의 접속 상태 필드(620), 서비스망에의 접속 상태 필드(630), 공유 디스크의 파일 시스템 상태 필드(640)가 각 서비스별로 구비되어 있으며, 상기 사설망에의 접속 상태 필드(610), 공중망에의 접속 상태 필드(620), 서비스망에의 접속 상태 필드(630)에는 해당 대기 노드에 구비된 네트워크 인터페이스 모듈(430)의 각 망에의 연결 상태 정보 및 I/O 패킷 통계 정보 중 하나 이상이 저장되어 있고, 상기 공유 디스크의 파일 시스템 상태 필드(640)에는 파일 시스템의 디바이스 상태 정보 및 리드-온리 마운트(read-only mount) 가능 여부 정보 중 하나 이상이 저장되어 있다.
이와 같은 서비스가용상태정보를 분석하면, 특정 대기 노드에 대하여 파일 시스템 장애가 발생한 상태인지 여부 및 서비스망에 장애가 발생한 상태인지 여부를 판단할 수 있고, 이를 통해 특정 대기 노드에서 정상적으로 서비스 대체 수행이 사실상 불가능하다고 판단되는 경우라면 다른 대기 노드가 서비스 복구 노드로 선 택되기 전까지 당해 활성 노드의 서비스를 중지시키지 않고 계속 유지시킴으로써, 의미없는 복구 작업이 실행되었다가 다시 복구되어야 하는 등 쓸데 없이 지연되지 않도록 미연에 방지할 수 있게 된다.
대기 노드(150)는 서비스가용상태정보를 생성 및 관리하기 위해 장애감지모듈(400)과 가용상태정보측정모듈(411) 및 가용상태정보저장모듈(412)을 포함한다.
장애감지모듈(400)은 특정 활성 노드의 시스템 다운 장애를 감시하고 있고, 가용상태정보측정모듈(411)은 특정 활성 노드에 장애가 발생한 경우 당해 대기 노드에 대한 해당 장애발생노드에서 제공하던 서비스의 가용 상태를 파악한다.
가용상태정보저장모듈(412)은 상기 파악된 서비스가용상태정보를 메모리 및 공유 디스크에 저장한 후 타 대기 노드로 브로드캐스팅하고, 타 대기 노드로부터 브로드캐스팅된 서비스가용상태정보를 미리 저장된 서비스가용상태정보에 취합하여 메모리 및 공유 디스크에 저장한다.
또한, 대기 노드(150)는 상기 서비스가용상태정보를 통해 실질적으로 복구 가용 능력이 있는 대기 노드 중에서 선택하여 복구를 수행하기 위해 복구결정모듈(421) 및 장애복구모듈(422)를 특히 포함한다.
복구결정모듈(421)은 특정 활성 노드에서의 장애가 감지되는 경우 메모리 또는 공유 디스크로부터 서비스가용상태정보를 읽어와서 당해 대기 노드를 통해 복구를 수행할 것인지를 결정한다. 이때, 복구결정모듈(421)은 서비스가용상태정보의 서비스 가용 대기 노드의 리스트(대기 노드의 리스트(600) 중 특히 가용으로 기록된 대기 노드의 리스트) 중 첫 번째 항목이 당해 대기 노드인 경우, 당해 대기 노 드를 복구 수행 노드로 결정하게 된다.
장애복구모듈(422)은 당해 대기 노드가 복구 수행 노드로 결정되면 소정의 알고리즘에 따라 복구를 수행하며, 상기 소정의 알고리즘은 종래 기술에 의해 공지된 바 있으므로 여기서는 그에 대한 설명은 생략하기로 한다.
한편, 상기 활성 노드(100) 및 대기 노드(150)에는 공히 서비스망, 공중망 및 사설망을 통해 데이터 통신을 하기 위한 네트워크 인터페이스 모듈을 포함한다.
이제, 도 7을 참고하여 본 발명에 의해 서비스가용상태정보를 관리하는 과정을 상세하게 살펴보기로 한다.
대기 노드는 활성 노드들을 감시하고 있다가 특정 활성 노드에 시스템 다운 장애가 발생하면(S701), 해당 장애발생노드에서 제공하던 서비스를 당해 대기 노드에서 대체 수행할 수 있는지 여부 즉, 당해 대기 노드에 있어서 해당 서비스의 가용 여부를 파악한다(S703). 이때, 대기 노드는 각종 네트워크(사설망, 공중망, 서비스망)와 정상적으로 접속되어 있는지, 또는 파일 시스템에는 문제가 없는지 등을 각 네트워크에의 연결 상태를 점검하거나, I/O 패킷의 통계를 산출하거나, 파일 시스템의 디바이스 상태를 파악한다거나 파일 시스템에 리드-온리 마운트(read-only mount)가 가능한지 여부를 파악하는 등의 방법을 통해 상기 서비스의 복구 가능 여부를 파악하게 된다.
그리고, 그렇게 파악된 서비스가용상태정보를 자신의 메모리 및 공유 디스크에 저장한다(S705). 이는 1차적으로 자신의 메모리를 통해 차후 서비스가용상태정 보를 제공하고, 당해 대기 노드와의 통신이 두절된 경우를 대비하여 2차적으로 공유 디스크에 동일한 내용의 정보를 저장하는 것이다.
이어서, 타 대기 노드와 통신이 가능한 상태라면(S707), 네트워크(주로 사설망이 될 것이다)를 통해 타 노드들로 자신의 서비스가용상태정보를 브로드캐스팅한다(S709). 물론 상기 S701 단계 내지 S409 단계는 각 대기 노드마다에서 동일하게 수행되는 과정이므로, 타 대기 노드에서도 자신의 서비스가용상태정보를 생성하게 될 것이고 상기 대기 노드로 동일하게 브로드캐스팅할 것이다.
따라서, 타 대기 노드로부터 브로드캐스팅된 서비스가용상태정보가 당해 대기 노드에 수신된 경우(S711), 당해 메모리 및 공유 디스크에 저장되어 있던 기존의 서비스가용상태정보에 상기 수신된 정보를 더하여 갱신함으로써, 본 발명에 필요한 서비스가용상태정보를 유지 및 관리하게 된다(S713). 이러한 S711 내지 S713 과정은 통신상태에 이상이 없다면 타 대기 노드가 존재하는 수만큼 반복된다.
다음으로, 도 8 및 도 1을 참고하여 본 발명에 따라 서비스가용상태정보를 이용하여 장애를 복구하는 과정의 일 실시예를 살펴보기로 한다.
활성 노드(100)은 주기적으로 현재 수행중인 서비스(S1)의 상태를 "정상작동" 또는 "정지" 등으로 파악하여 자신의 메모리 및 공유 디스크(120)에 저장하고 있다(S801). 이와 같이 파악된 정보를 서비스상태정보라 한다.
한편, 활성 노드(100)는 자신의 장애 발생 여부를 감시하고 있다가(S803), 자신에게 시스템 다운 장애가 발생한 경우 타 대기 노드들과 네트워크 통신이 가능 한 경우라면 소정의 정책에 의해 선택된 대기 노드로부터 그 메모리에 저장된 서비스가용상태정보를 전송받고(S807), 네트워크 통신이 두절된 경우라면 공유 디스크(120)에 저장된 서비스가용상태정보를 읽어온다(S809). 이와 같은 서비스가용상태정보에는 해당 서비스에 대하여 해당 노드의 네트워크 상태 정보 및 파일 시스템 상태 정보가 포함되어 있으며, 이는 상기 도 6에 대한 설명에서 확인해 볼 수 있다.
활성 노드(100)는 상기 전송받은 서비스가용상태정보를 분석하여(S811) 해당 서비스를 온전하게 대체 수행 즉, 복구할 수 있는 대기 노드가 존재한다고 판단되면, 당해 활성 노드(100)의 서비스를 중지시키고(S813), 당해 활성 노드(100)의 메모리 및 공유 디스크(120)에 미리 저장되어 있는 서비스상태정보를 "중지" 등과 같이 갱신시킨다(S817).
그러나, 상기 서비스가용상태정보의 분석 결과, 복구 가능한 대기 노드가 발견되지 않는 경우라면 필요한 대기 노드가 주어질 때까지 해당 서비스를 계속 유지시킨다. 따라서, 현재와 같은 상황에서 특정 대기 노드(150)에 서비스망 장애 또는 파일 시스템 장애가 발생한 경우 상기 대기 노드(150)은 온전하게 해당 서비스의 대체 수행이 불가한 것으로 상기 서비스가용상태정보에 기록될 것이므로, 상기 대기 노드(150)가 유일한 대기 노드라면 상기 활성 노드(100)는 서비스를 계속 유지시켜 공연히 문제 있는 대기 노드(150)가 복구 작업을 수행하는 것을 방지할 것이다.
마지막으로, 도 9 및 도 2를 참고하여 본 발명에 따라 서비스가용상태정보를 이용하여 장애를 복구하는 과정의 다른 실시예를 살펴보기로 한다.
대기 노드(250)는 활성 노드들(200, 201)의 장애 발생 여부를 감시하고 있다가(S901), 특정 활성 노드(200)에 시스템 다운 장애가 발생한 경우, 해당 장애발생노드(200)와 네트워크 통신이 가능한 경우라면 해당 노드(200)로부터 그 메모리에 저장된 서비스상태정보를 전송받고(905), 통신이 두절된 상태라면 공유 디스크(220)에 저장된 서비스상태정보를 전송받는다(907). 이와 같은 서비스상태정보는 상기 도 5에서 소개한 바와 같다.
대기 노드(250)는 상기 전송받은 서비스상태정보를 분석하여 해당 장애발생노드(200)에서 서비스가 중지되어 있는지를 파악하여(S909), 중지된 경우 해당 서비스를 정상적으로 대체 수행할 대기 노드가 존재함을 의미하므로, 자신의 메모리 또는 공유 디스크(220)로부터 서비스가용상태정보를 읽어와서(S911), 자신이 상기 서비스를 복구할 것인지를 결정한다(S913). 이때, 이러한 복구수행 대기 노드를 결정하기 위해 소정의 정책이 적용될 수 있으며, 일 예로 상기 서비스가용상태정보에는 각 대기 노드들에 대한 네트워크 상태 정보 및 파일 시스템 정보가 기록되어 있으며, 이러한 대기 노드들 중에서 특히 온전하게 해당 서비스의 대체 수행이 가능한 대기 노드들을 별도로 리스트화 하거나, 가상으로 리스트화한 것 중에 첫 번째 대기 노드를 복구수행 대기 노드로 결정하는 것을 들 수 있다.
이와 같이 결정된 노드가 바로 자신(250)이라면 당해 대기 노드(250)를 통해 복구를 수행하고, 자신(250)이 아니라면 타 대기 노드에게 복구 수행을 맡긴 채 다시 활성 노드에 장애가 발생했는지 여부를 감시한다.
물론, 현재와 같은 상황에서 특정 대기 노드(250)에 사설망 및 공중망의 접속 장애가 발생한 경우라면, 해당 대기 노드(250)는 내부적으로는 클러스트 시스템에서 제외되었지만 외부적으로는 온전하게 서비스 복구 수행이 가능한 상황이므로 이를 복구불능 노드로 간주하여 복구 수행에서 제외시키는 불합리를 방지할 수 있게 된다.
이상, 본 발명을 몇가지 예를 들어 설명하였지만, 본 발명은 특정 실시예에 한정되는 것은 아니다. 본 발명이 속하는 기술분야에서 통상의 지식을 지닌 자라면 본 발명의 사상에서 벗어나지 않으면서 다양한 수정과 변경을 가할 수 있음을 이해할 것이다.
위와 같은 구성 또는 단계를 구비하는 본 발명에 의하면, 특정 활성 노드에 장애가 발생한 경우 각 대기 노드에서 해당 서비스의 가용 상태를 파악하고 이를 취합하여 소정의 서비스가용상태정보를 생성함으로써 효율적인 장애 복구에 활용할 수 있게 된다. 즉, 특정 활성 노드에 장애가 발생한 경우 당해 활성 노드는 상기 서비스가용상태정보로부터 현재 서비스를 온전하게 복구할 대기 노드가 존재하는지 여부를 판단한 이후에 당해 서비스를 정지시키도록 하여, 파일 시스템 또는 서비스망에 장애가 발생한 대기 노드에 의해 서비스 복구가 수행되는 경우가 발생하지 않도록 예방함으로써 복구 효율을 높일 수 있다. 또한, 대기 노드는 상기 서비스가용 상태정보로부터 당해 대기 노드가 온전하게 복구 수행이 가능한 노드인지를 판단한 이후에 복구를 수행하도록 하여, 사설망 및 공중망에 모두 장애가 발생한 대기 노드에 의해 서비스 복구가 수행되지 않도록 예방하여 복구 효율을 높일 수 있다.

Claims (18)

  1. 서비스망, 공중망 및 사설망과 각각 연결되어 있으면서 소정의 서비스를 제공하는 활성 노드, 장애 발생시 이를 복구하기 위한 대기 노드 및 소정의 서비스 제공을 위한 파일 시스템을 저장하는 공유 디스크를 포함하는 클러스터 시스템에 있어서,
    상기 대기 노드는,
    특정 활성 노드의 장애를 감지하는 장애감지모듈과,
    특정 활성 노드의 장애가 감지되면 해당 장애발생노드에서 제공하던 서비스에 대한 가용 상태를 파악하는 가용상태정보측정모듈과,
    상기 파악된 서비스가용상태정보를 메모리 및 공유 디스크에 저장한 후 타 대기 노드로 브로드캐스팅하고, 타 대기 노드로부터 브로드캐스팅된 서비스가용상태정보를 미리 저장된 서비스가용상태정보에 취합하여 메모리 및 공유 디스크에 저장하는 가용상태정보저장모듈 및
    서비스망, 공중망 및 사설망을 통해 데이터 통신을 하기 위한 네트워크 인터페이스 모듈을 포함하여 구성되는 것을 특징으로 하는 서비스가용상태정보 관리를 위한 클러스터 시스템.
  2. 서비스망, 공중망 및 사설망과 각각 연결되어 있으면서 소정의 서비스를 제공하는 활성 노드, 장애 발생시 이를 복구하기 위한 대기 노드 및 소정의 서비스 제공을 위한 파일 시스템을 저장하는 공유 디스크를 포함하는 클러스터 시스템에 있어서,
    상기 활성 노드는,
    자체 발생한 장애를 감지하는 장애감지모듈과,
    당해 활성 노드의 작동상태 및 현재 제공중인 서비스의 수행상태를 주기적으로 파악하여 메모리 및 공유 디스크에 저장하는 상태정보저장모듈과,
    자체 발생한 장애가 감지되면 특정 대기 노드 또는 공유 디스크로부터 서비스가용상태정보를 전송받아 분석하고, 분석 결과 서비스 수행이 가능한 대기 노드가 존재하면 현재 제공중인 서비스를 중지시키는 장애대응모듈 및
    서비스망, 공중망 및 사설망을 통해 데이터 통신을 하기 위한 네트워크 인터페이스 모듈을 포함하여 구성되며,
    상기 대기 노드는,
    상기 활성 노드의 서비스가 중지되는 경우에 한하여 복구를 수행하는 것을 특징으로 하는 서비스 가용성 상태정보를 이용한 장애복구 클러스터 시스템.
  3. 서비스망, 공중망 및 사설망과 각각 연결되어 있으면서 소정의 서비스를 제공하는 활성 노드, 장애 발생시 이를 복구하기 위한 대기 노드 및 소정의 서비스 제공을 위한 파일 시스템을 저장하는 공유 디스크를 포함하는 클러스터 시스템에 있어서,
    상기 대기 노드는,
    특정 활성 노드의 장애를 감지하는 장애감지모듈과,
    특정 활성 노드의 장애가 감지되면 메모리 또는 공유 디스크로부터 서비스가용상태정보를 읽어와서 당해 대기 노드를 통해 복구를 수행할 것인지를 결정하는 복구결정모듈과,
    당해 대기 노드가 복구 수행 노드로 결정되면 소정의 알고리즘에 따라 복구를 실행하는 장애복구모듈 및
    서비스망, 공중망 및 사설망을 통해 데이터 통신을 하기 위한 네트워크 인터페이스 모듈을 포함하여 구성되는 것을 특징으로 하는 서비스가용상태정보를 이용한 장애복구 클러스터 시스템.
  4. 제 3 항에 있어서,
    상기 복구결정모듈은,
    서비스가용상태정보의 서비스 가용 대기 노드의 리스트 중 첫 번째 항목이 당해 대기 노드인 경우, 당해 대기 노드를 복구 수행 노드로 결정하는 것을 특징으로 하는 서비스가용상태정보를 이용한 장애복구 클러스터 시스템.
  5. 제 3 항에 있어서,
    상기 장애복구모듈은,
    장애발생노드의 메모리 또는 공유 디스크로부터 서비스상태정보를 읽어와서, 장애발생노드의 서비스가 중지된 것으로 판단되는 경우에 한하여 장애 복구를 수행 하는 것을 특징으로 하는 서비스가용상태정보를 이용한 장애복구 클러스터 시스템.
  6. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 서비스가용상태정보는,
    네트워크 상태 정보 및 파일 시스템 정보를 포함하는 것임을 특징으로 하는 서비스가용상태정보를 이용한 장애복구 클러스터 시스템.
  7. 제 6 항에 있어서,
    상기 네트워크 상태 정보는,
    상기 네트워크 인터페이스 모듈의 사설망, 공중망 및 서비스망에의 연결 상태 정보 및 I/O 패킷 통계 정보 중 하나 이상을 포함하는 것임을 특징으로 하는 서비스가용상태정보를 이용한 장애복구 클러스터 시스템.
  8. 제 6 항에 있어서,
    상기 파일 시스템 정보는,
    파일 시스템의 디바이스 상태 정보 및 리드-온리 마운트(read-only mount) 가능 여부 정보 중 하나 이상을 포함하는 것임을 특징으로 하는 서비스가용상태정보를 이용한 장애복구 클러스터 시스템.
  9. 제 2 항 또는 제 3 항에 있어서,
    상기 서비스가용상태정보는,
    제 1 항의 대기 노드에 의해 생성된 것임을 특징으로 하는 서비스가용상태정보를 이용한 장애복구 클러스터 시스템.
  10. 서비스망, 공중망 및 사설망과 각각 연결되어 있으면서 소정의 서비스를 제공하는 활성 노드, 장애 발생시 이를 복구하기 위한 대기 노드 및 소정의 서비스 제공을 위한 파일 시스템을 저장하는 공유 디스크를 포함하는 클러스터 시스템에 있어서,
    특정 활성 노드의 장애를 감지한 대기 노드가 해당 장애발생 활성 노드에서 제공하던 서비스의 가용 상태를 파악하는 제 1 단계;
    상기 파악된 서비스가용상태정보를 메모리 및 공유 디스크에 저장한 후 타 대기 노드로 브로드캐스팅하는 제 2 단계;
    타 대기 노드로부터 브로드캐스팅된 서비스가용상태정보가 수신되면 이를 미리 저장된 서비스가용상태정보와 취합하여 메모리 및 공유 디스크에 저장하는 제 3 단계;
    를 포함하여 이루어지는 것을 특징으로 하는 서비스가용상태정보 관리 방법.
  11. 서비스망, 공중망 및 사설망과 각각 연결되어 있으면서 소정의 서비스를 제공하는 활성 노드, 장애 발생시 이를 복구하기 위한 대기 노드 및 소정의 서비스 제공을 위한 파일 시스템을 저장하는 공유 디스크를 포함하는 클러스터 시스템에 있어서,
    활성 노드가 당해 활성 노드의 상태 및 현재 수행중인 서비스의 상태를 주기적으로 파악하여 메모리 및 공유 디스크에 저장하는 제 1 단계;
    활성 노드가 자신의 장애 발생을 감지하면 특정 대기 노드 또는 공유 디스크로부터 서비스가용상태정보를 전송받아 분석하는 제 2 단계;
    상기 분석 결과 서비스 수행이 가능한 대기 노드가 존재하면 당해 활성 노드의 서비스를 중지시키고 메모리 및 공유 디스크의 서비스상태정보를 중지상태로 갱신하는 제 3 단계;
    상기 활성 노드의 서비스가 중지되는 경우 특정 대기 노드가 복구를 수행하는 제 4 단계;
    를 포함하여 이루어지는 것을 특징으로 하는 서비스가용상태정보를 이용한 장애복구방법.
  12. 서비스망, 공중망 및 사설망과 각각 연결되어 있으면서 소정의 서비스를 제공하는 활성 노드, 장애 발생시 이를 복구하기 위한 대기 노드 및 소정의 서비스 제공을 위한 파일 시스템을 저장하는 공유 디스크를 포함하는 클러스터 시스템에 있어서,
    특정 활성 노드의 장애를 감지한 대기 노드가 메모리 또는 공유 디스크로부터 서비스가용상태정보를 읽어와서 당해 대기 노드를 통해 복구를 수행할 것인지를 결정하는 제 1 단계;
    당해 대기 노드가 복구 수행 노드로 결정되면 소정의 알고리즘에 따라 복구를 실행하는 제 2 단계;
    를 포함하여 이루어지는 것을 특징으로 하는 서비스 가용성 상태정보를 이용한 장애복구방법.
  13. 제 12 항에 있어서,
    상기 제 1 단계 이후에는,
    장애발생노드의 메모리 또는 공유 디스크로부터 서비스상태정보를 읽어와서 분석한 결과, 해당 장애발생노드에서 서비스가 중지된 것으로 판단되는 경우에만 상기 제 2 단계를 수행하도록 하는 제 1-1 단계가 더 포함되는 것을 특징으로 하는 서비스가용상태정보를 이용한 장애복구방법.
  14. 제 12 항에 있어서,
    상기 제 1 단계의 결정은,
    서비스가용상태정보의 서비스 가용 대기 노드의 리스트 중 첫 번째 항목이 당해 대기 노드인 경우, 당해 대기 노드를 복구 수행 노드로 결정하는 것임을 특징으로 하는 서비스가용상태정보를 이용한 장애복구방법.
  15. 제 10 항 내지 제 12 항 중 어느 한 항에 있어서,
    상기 서비스가용상태정보는,
    네트워크 상태 정보 및 파일 시스템 정보를 포함하는 것임을 특징으로 하는 서비스가용상태정보를 이용한 장애복구방법.
  16. 제 15 항에 있어서,
    상기 네트워크 상태 정보는,
    네트워크 인터페이스 모듈의 사설망, 공중망 및 서비스망에의 연결 상태 정보 및 I/O 패킷 통계 정보 중 하나 이상을 포함하는 것임을 특징으로 하는 서비스가용상태정보를 이용한 장애복구방법.
  17. 제 15 항에 있어서,
    상기 파일 시스템 정보는,
    파일 시스템의 디바이스 상태 정보 및 리드-온리 마운트(read-only mount) 가능 여부 정보 중 하나 이상을 포함하는 것임을 특징으로 하는 서비스가용상태정보를 이용한 장애복구방법.
  18. 제 11 항 또는 제 12 항에 있어서,
    상기 서비스가용상태정보는,
    제 12 항의 서비스가용상태정보 관리 방법에 의해 생성된 것임을 특징으로 하는 서비스가용상태정보를 이용한 장애복구방법.
KR1020040107807A 2004-12-17 2004-12-17 장애 발생에 대한 복구 수행률 향상 방법 및 이를지원하는 클러스터 시스템 KR20060068873A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020040107807A KR20060068873A (ko) 2004-12-17 2004-12-17 장애 발생에 대한 복구 수행률 향상 방법 및 이를지원하는 클러스터 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020040107807A KR20060068873A (ko) 2004-12-17 2004-12-17 장애 발생에 대한 복구 수행률 향상 방법 및 이를지원하는 클러스터 시스템

Publications (1)

Publication Number Publication Date
KR20060068873A true KR20060068873A (ko) 2006-06-21

Family

ID=37163121

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020040107807A KR20060068873A (ko) 2004-12-17 2004-12-17 장애 발생에 대한 복구 수행률 향상 방법 및 이를지원하는 클러스터 시스템

Country Status (1)

Country Link
KR (1) KR20060068873A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7930137B2 (en) 2007-12-10 2011-04-19 Electronics And Telecommunications Research Institute Availability prediction method for high availability cluster
KR101447024B1 (ko) * 2013-03-20 2014-10-07 국방과학연구소 서비스 기반의 무기체계용 분산식 다계층 시스템의 고장 복구 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7930137B2 (en) 2007-12-10 2011-04-19 Electronics And Telecommunications Research Institute Availability prediction method for high availability cluster
KR101447024B1 (ko) * 2013-03-20 2014-10-07 국방과학연구소 서비스 기반의 무기체계용 분산식 다계층 시스템의 고장 복구 방법

Similar Documents

Publication Publication Date Title
CN107465721B (zh) 基于双活架构的全局负载均衡方法和系统及调度服务器
CN109726046B (zh) 机房切换方法及切换装置
CN102394914A (zh) 集群脑裂处理方法和装置
CN109491609B (zh) 一种缓存数据处理方法、装置、设备及可读存储介质
US9697078B2 (en) Method and device for auto recovery storage of JBOD array
CN113595836A (zh) 一种高可用集群的心跳检测方法、存储介质和计算节点
CN106330531A (zh) 节点故障记录和处理的方法以及装置
CN110932976A (zh) 基于气象灾害的电网故障业务的恢复方法、装置及设备
CN113489149B (zh) 基于实时状态感知的电网监控系统业务主节点选取方法
CN112887367B (zh) 实现分布式集群高可用的方法、系统及计算机可读介质
JP6418377B2 (ja) 管理対象装置、管理装置及びネットワーク管理システム
US20210120097A1 (en) Scheduling solution configuration method and apparatus, computer readable storage medium thereof, and computer device
CN111309515B (zh) 一种容灾控制方法、装置及系统
CN109617716B (zh) 数据中心异常处理方法及装置
KR20060068873A (ko) 장애 발생에 대한 복구 수행률 향상 방법 및 이를지원하는 클러스터 시스템
CN112491633B (zh) 一种多节点集群的故障恢复方法、系统及相关组件
US20230019241A1 (en) Selecting surviving storage node based on environmental conditions
CN112131201B (zh) 一种网络附加存储高可用性的方法、系统、设备及介质
CN112468330B (zh) 一种故障节点的设置方法、系统、设备以及介质
CN109768925B (zh) 一种主备伪线切换方法及装置
CN112612652A (zh) 分布式存储系统异常节点重启方法及系统
CN116668269A (zh) 一种用于双活数据中心的仲裁方法、装置及系统
CN112269693A (zh) 一种节点自协调方法、装置和计算机可读存储介质
JPH05225161A (ja) ネットワーク監視方式
CN107707402B (zh) 一种分布式系统中服务仲裁的管理系统及其管理方法

Legal Events

Date Code Title Description
N231 Notification of change of applicant
WITN Withdrawal due to no request for examination