KR20060068873A

KR20060068873A - 장애 발생에 대한 복구 수행률 향상 방법 및 이를지원하는 클러스터 시스템

Info

Publication number: KR20060068873A
Application number: KR1020040107807A
Authority: KR
Inventors: 김상헌
Original assignee: 엘지엔시스(주)
Priority date: 2004-12-17
Filing date: 2004-12-17
Publication date: 2006-06-21

Abstract

서비스가용상태정보를 관리 및 활용하여 장애 발생에 대한 복구 수행률을 향상시키는 방법 및 이를 지원하는 클러스터 시스템이 개시된다. 대기 노드가 특정 활성 노드의 장애를 감지하면 해당 서비스의 가용 상태를 파악하여 당해 대기 노드의 메모리 및 공유 디스크에 저장하고, 타 대기 노드로부터 브로드캐스팅된 서비스가용상태정보를 미리 저장된 정보와 취합하여 저장한다. 활성 노드에서는 현재 수행중인 서비스 상태정보를 주기적으로 저장하고 있으며, 활성 노드에 장애가 발생하면 특정 대기 노드 또는 공유 디스크로부터의 서비스가용상태정보를 통해 서비스 수행이 가능한 대기 노드가 존재하는 것으로 파악되면 당해 서비스를 중지시키고 상기 서비스상태정보를 중지상태로 갱신한다. 대기 노드에서는 특정 활성 노드의 장애가 감지된 경우 해당 장애발생노드 또는 공유 디스크의 서비스상태정보로부터 해당 서비스가 중지된 것으로 판단되면 당해 대기 노드의 메모리 또는 공유 디스크의 서비스가용상태정보로부터 당해 대기 노드가 복구수행노드인지를 결정하고, 복구수행노드인 경우 소정의 알고리즘에 따라 복구를 실행한다.

클러스터 시스템, 장애 복구, failover, active node, standby node

Description

장애 발생에 대한 복구 수행률 향상 방법 및 이를 지원하는 클러스터 시스템 {Error recovery executing rate improvementing method and cluster system implementing the same}

도 1은 클러스터 시스템에서 특정 활성 노드에 시스템 장애가 발생하고, 이어서 특정 대기 노드에 파일 시스템 또는 서비스망에 장애가 발생한 경우를 도시하는 블럭도.

도 2는 클러스터 시스템에서 특정 활성 노드에 시스템 장애가 발생하고, 이어서 특정 대기 노드의 공중망 및 사설망에 동시에 장애가 발생한 경우를 도시하는 블럭도.

도 3은 본 발명에 의한 클러스터 시스템의 활성 노드의 내부 구성을 도시하는 블럭도.

도 4는 본 발명에 의한 클러스터 시스템의 대기 노드의 내부 구성에 대한 일 실시예를 도시하는 블럭도.

도 5은 활성 노드의 메모리 및 공유 디스크에 저장된 서비스상태정보를 도시하는 데이터 구조도.

도 6은 대기 노드의 메모리 및 공유 디스크에 저장된 서비스가용상태정보를 도시하는 데이터 구조도.

도 7은 본 발명에 의해 서비스가용상태정보를 관리하는 과정을 도시하는 플로우챠트.

도 8은 본 발명에 의해 서비스가용상태정보를 이용하여 장애를 복구하는 과정의 일 실시예를 도시하는 플로우챠트.

도 9는 본 발명에 의해 서비스가용상태정보를 이용하여 장애를 복구하는 과정의 다른 실시예를 도시하는 플로우챠트.

본 발명은 서비스가용상태정보를 관리 및 활용하여 장애 발생에 대한 복구 수행률을 향상시키는 방법 및 이를 지원하는 클러스터 시스템에 관한 것이다.

이하, 도 1 및 도 2를 참고로 종래 클러스터 시스템에 장애가 발생한 경우 불필요한 시스템 복구(Failover)가 수행되어 복구 효율을 떨어뜨리는 메카니즘을 살펴보기로 한다.

도 1은 클러스터 시스템에서 특정 활성 노드에 시스템 장애가 발생하고, 이어서 특정 대기 노드에 파일 시스템 또는 서비스망에 장애가 발생한 경우를 도시하는 블럭도이다. 이러한 경우의 복구 동작 과정을 순차적으로 나열하여 설명하면 다음과 같다.

(a) 대기 노드(Standby node)1(150)에 파일 시스템 또는 서비스 네트워크의 장애가 발생한다. 즉, 대기 노드1(150)은 공중망(Public Network) 및 사설망(Private Network) 등의 통신채널은 모두 정상이지만 상기 장애들로 인하여 서비스 S1을 대체 복구(Failover)할 수 없는 상태이다.

(b) 활성 노드(Active node)1(100)에 시스템 다운 장애가 발생한다. 즉, 활성 노드1(100)에서는 정상적인 서비스 제공이 불가능한 상태이다.

(c) 대기 노드1(150)의 클러스터 장애감지모듈은 활성 노드1(100)의 시스템 다운 장애를 감지하고, 활성 노드1(100)이 수행하던 서비스 S1의 대체 복구를 수행한다. 이때, 대기 노드1(150)은 내부적으로 서비스 S1을 수행하고 있지만, 상기 (a)의 장애로 인하여 외부에 정상적인 서비스를 제공하지 못하는 상태에 있다.

도 2는 클러스터 시스템에서 특정 활성 노드에 시스템 장애가 발생하고, 이어서 특정 대기 노드의 공중망 및 사설망에 동시에 장애가 발생한 경우를 도시하는 블럭도이며, 이러한 경우의 복구 동작 과정을 역시 순차적으로 나열하여 설명하면 다음과 같다.

(a) 대기 노드1(250)의 사설망 및 공중망에 동시에 장애가 발생한다.

(b) 대기 노드1(250)의 클러스터 장애감시모듈은 허트비트 메시지를 수신할 수 없을을 인지하고, 사설망 및 공중망에 ping을 수행하여 장애 발생을 감지한다.

(c) 대기 노드1(250)은 클러스터 시스템에서 통신수단으로 사용하던 모든 통신채털이 단절되었으므로 당해 클러스터 시스템에서 제외되고, 대기 노드로서의 기능은 정지된다.

(d) 활성 노드1(200)에 시스템 다운 장애가 발생한다.

(e) 대기 노드1(250)은 서비스 S1을 대체 복구할 수 있는 상태에 있으나, 당해 클러스터에서 제외되었으므로 복구를 수행하지 않는다.

이와 같이, 종래의 클러스터 시스템에서는 활성 노드에 장애가 발생한 경우 복구할 서비스가 특저 대기 노드에서 정상적으로 수행 가능한지 여부 즉, 서비스 가용 상태를 고려하지 않고 복구를 수행하기 때문에, 대기 노드에서 서비스 제공을 위해 필요한 자원에 장애가 발생한 경우 불필요한 장애 복구를 수행하거나 장애 복구 수행을 할 수 있음에도 이를 하지 않게 되는 구조적인 메카니즘으로 인해 장애 복구의 효율이 감소되는 문제점이 발생하였다.

본 발명은 위와 같은 문제점을 해결하기 위해 제안된 것으로서, 특정 활성 노드에 장애가 발생한 경우 각 대기 노드에서 해당 서비스의 가용 상태를 파악하고 이를 취합하여 소정의 서비스가용상태정보를 생성함으로써 효율적인 장애 복구에 이용될 수 있도록 관리하는 방법 및 이를 지원하는 시스템을 제공하는 데에 있다.

본 발명의 다른 목적은, 특정 활성 노드에 장애가 발생한 경우 당해 활성 노드는 상기 서비스가용상태정보로부터 현재 서비스를 온전하게 복구할 대기 노드가 존재하는지 여부를 판단한 이후에 당해 서비스를 정지시키도록 하여, 파일 시스템 또는 서비스망에 장애가 발생한 대기 노드에 의한 의미없는 서비스 복구가 수행되지 않도록 하는 데에 있다.

본 발명의 다른 목적은, 특정 활성 노드에 장애가 발생한 경우 대기 노드는 상기 서비스가용상태정보로부터 당해 대기 노드가 온전하게 복구 수행이 가능한 노드인지를 판단한 이후에 복구를 수행하도록 하여, 사설망 및 공중망에 모두 장애가 발생한 대기 노드에 의한 의미없는 서비스 복구가 수행되지 않도록 하는 데에 있다.

위와 같은 목적을 달성하기 위한 본 발명의 가용상태정보 관리 시스템은, 서비스망, 공중망 및 사설망과 각각 연결되어 있으면서 소정의 서비스를 제공하는 활성 노드, 장애 발생시 이를 복구하기 위한 대기 노드 및 소정의 서비스 제공을 위한 파일 시스템을 저장하는 공유 디스크를 포함하는 클러스터 시스템에 있어서, 상기 대기 노드는 특정 활성 노드의 장애를 감지하는 장애감지모듈과, 특정 활성 노드의 장애가 감지되면 해당 장애발생노드에서 제공하던 서비스에 대한 가용 상태를 파악하는 가용상태정보측정모듈과, 상기 파악된 서비스가용상태정보를 메모리 및 공유 디스크에 저장한 후 타 대기 노드로 브로드캐스팅하고, 타 대기 노드로부터 브로드캐스팅된 서비스가용상태정보를 미리 저장된 서비스가용상태정보에 취합하여 메모리 및 공유 디스크에 저장하는 가용상태정보저장모듈 및 서비스망, 공중망 및 사설망을 통해 데이터 통신을 하기 위한 네트워크 인터페이스 모듈을 포함하여 구성되는 것을 특징으로 한다.

또한, 본 발명에 의한 가용상태정보를 통한 서비스 복구 시스템은, 서비스망, 공중망 및 사설망과 각각 연결되어 있으면서 소정의 서비스를 제공하는 활성 노드, 장애 발생시 이를 복구하기 위한 대기 노드 및 소정의 서비스 제공을 위한 파일 시스템을 저장하는 공유 디스크를 포함하는 클러스터 시스템에 있어서, 활성 노드는, 자체 발생한 장애를 감지하는 장애감지모듈과, 당해 활성 노드의 작동상태 및 현재 제공중인 서비스의 수행상태를 주기적으로 파악하여 메모리 및 공유 디스크에 저장하는 상태정보저장모듈과, 자체 발생한 장애가 감지되면 특정 대기 노드 또는 공유 디스크로부터 서비스가용상태정보를 전송받아 분석하고, 분석 결과 서비스 수행이 가능한 대기 노드가 존재하면 현재 제공중인 서비스를 중지시키는 장애대응모듈 및 서비스망, 공중망 및 사설망을 통해 데이터 통신을 하기 위한 네트워크 인터페이스 모듈을 포함하여 구성되며, 상기 대기 노드는, 상기 활성 노드의 서비스가 중지되는 경우에 한하여 복구를 수행하는 것을 특징으로 한다. 이때, 상기 서비스가용상태정보는 상기 가용상태정보 관리 시스템의 대기 노드에 의해 생성된 것일 수 있다.

또한, 본 발명에 의한 가용상태정보를 통한 서비스 복구 시스템은, 서비스망, 공중망 및 사설망과 각각 연결되어 있으면서 소정의 서비스를 제공하는 활성 노드, 장애 발생시 이를 복구하기 위한 대기 노드 및 소정의 서비스 제공을 위한 파일 시스템을 저장하는 공유 디스크를 포함하는 클러스터 시스템에 있어서, 상기 대기 노드는, 특정 활성 노드의 장애를 감지하는 장애감지모듈과, 특정 활성 노드의 장애가 감지되면 메모리 또는 공유 디스크로부터 서비스가용상태정보를 읽어와서 당해 대기 노드를 통해 복구를 수행할 것인지를 결정하는 복구결정모듈과, 당해 대기 노드가 복구 수행 노드로 결정되면 소정의 알고리즘에 따라 복구를 실행하는 장애복구모듈 및 서비스망, 공중망 및 사설망을 통해 데이터 통신을 하기 위한 네트워크 인터페이스 모듈을 포함하여 구성되는 것을 특징으로 한다. 이때, 상기 서비스가용상태정보는 상기 가용상태정보 관리 시스템의 대기 노드에 의해 생성된 것일 수 있다.

또한, 상기 복구결정모듈은, 서비스가용상태정보의 서비스 가용 대기 노드의 리스트 중 첫 번째 항목이 당해 대기 노드인 경우, 당해 대기 노드를 복구 수행 노드로 결정하게 된다.

또한, 상기 장애복구모듈은, 장애발생노드의 메모리 또는 공유 디스크로부터 서비스상태정보를 읽어와서, 장애발생노드의 서비스가 중지된 것으로 판단되는 경우에 한하여 장애 복구를 수행한다.

한편, 상기 서비스가용상태정보는, 네트워크 상태 정보 및 파일 시스템 정보를 포함하며, 상기 네트워크 상태 정보는, 상기 네트워크 인터페이스 모듈의 사설망, 공중망 및 서비스망에의 연결 상태 정보 및 I/O 패킷 통계 정보 중 하나 이상을 포함하는 것이고, 상기 파일 시스템 정보는, 파일 시스템의 디바이스 상태 정보 및 리드-온리 마운트(read-only mount) 가능 여부 정보 중 하나 이상을 포함하는 것이다.

이하, 본 발명의 명세서에 첨부된 도면을 참고하여 바람직한 실시예에 대하여 상세하게 설명해 보기로 한다.

본 발명은 크게 서비스가용상태정보를 생성 및 유지하는 관리 방법과, 서비 스가용상태정보를 통해 가용 대기 노드가 있는지를 파악하여 복구를 수행하는 복구수행방법과, 서비스가용상태정보를 통해 실질적으로 복구 가용 능력이 있는 대기 노드 중에서 선택하여 복구를 수행하는 복구수행방법 등 3가지로 나누어 구성된다.

먼저, 본 발명에 의한 서비스가용상태정보의 관리 방법 및 이를 활용한 장애 복구 방법을 지원하는 클러스터 시스템의 각 구성을 도 1을 참고로 하여 살펴본다.

클러스터 시스템은 크게 소정의 서비스를 제공하기 위한 하나 이상의 활성 노드(100, 101)와, 활성 노드 중 어느 하나 이상에 시스템 관련 장애가 발생한 경우 해당 활성 노드가 정상 상태로 돌아오기전까지 그 활성 노드가 수행중이던 특정 서비스를 이어받아 대신 수행하기 위한 하나 이상의 대기 노드(150), 그리고 하나 이상의 활성 노드가 공동으로 이용하며 소정의 서비스를 제공하기 위한 파일 시스템을 저장하는 공유 디스크(Shared disk)로 구성되며, 이러한 활성 노드 및 대기 노드는 서로 공중망, 사설망 및 서비스망으로 연결되어 있다.

활성 노드(100)는 서비스가용상태정보를 통해 가용 대기 노드가 있는지를 먼저 파악한 후 복구를 수행토록 하기 위해 특히 장애감지모듈(300), 상태정보저장모듈(310) 및 장애대응모듈(320)을 포함하여 이루어진다. 도 3은 이러한 활성 노드(100)의 내부 구성에 대한 일 실시예를 도시하고 있다.

장애감지모듈(300)은 당해 활성 노드의 시스템 다운 장애 발생 여부를 감시하고, 상태정보저장모듈(310)은 당해 활성 노드의 상태 및 현재 수행중인 서비스의 상태를 주기적으로 파악하여 메모리 및 공유 디스크에 저장하며, 장애대응모듈(320)은 당해 활성 노드에 장애가 감지되면 대기 노드 또는 공유 디스크로부터 서 비스가용상태정보를 전송받아 분석한 결과 서비스 수행이 가능한 대기 노드가 존재하는 경우에만 당해 활성 노드의 서비스를 중지시킨다.

상기 상태정보저장모듈(310)에 의해 저장되는 서비스상태정보는 당해 활성 노드에 장애가 발생하였는지를 알리는 노드상태필드(500)와 현재 서비스가 계속중인지 또는 중지상태인지를 알리는 서비스상태필드(510)를 특히 포함하고 있으며, 도 5는 이러한 활성 노드의 메모리 및 공유 디스크에 저장된 서비스상태정보의 데이터 구성을 도시하고 있다.

또한, 상기 서비스가용상태정보는 대기 노드들의 리스트 필드(600), 특정 대기 노드에 대한 사설망에의 접속 상태 필드(610), 공중망에의 접속 상태 필드(620), 서비스망에의 접속 상태 필드(630), 공유 디스크의 파일 시스템 상태 필드(640)가 각 서비스별로 구비되어 있으며, 상기 사설망에의 접속 상태 필드(610), 공중망에의 접속 상태 필드(620), 서비스망에의 접속 상태 필드(630)에는 해당 대기 노드에 구비된 네트워크 인터페이스 모듈(430)의 각 망에의 연결 상태 정보 및 I/O 패킷 통계 정보 중 하나 이상이 저장되어 있고, 상기 공유 디스크의 파일 시스템 상태 필드(640)에는 파일 시스템의 디바이스 상태 정보 및 리드-온리 마운트(read-only mount) 가능 여부 정보 중 하나 이상이 저장되어 있다.

이와 같은 서비스가용상태정보를 분석하면, 특정 대기 노드에 대하여 파일 시스템 장애가 발생한 상태인지 여부 및 서비스망에 장애가 발생한 상태인지 여부를 판단할 수 있고, 이를 통해 특정 대기 노드에서 정상적으로 서비스 대체 수행이 사실상 불가능하다고 판단되는 경우라면 다른 대기 노드가 서비스 복구 노드로 선 택되기 전까지 당해 활성 노드의 서비스를 중지시키지 않고 계속 유지시킴으로써, 의미없는 복구 작업이 실행되었다가 다시 복구되어야 하는 등 쓸데 없이 지연되지 않도록 미연에 방지할 수 있게 된다.

대기 노드(150)는 서비스가용상태정보를 생성 및 관리하기 위해 장애감지모듈(400)과 가용상태정보측정모듈(411) 및 가용상태정보저장모듈(412)을 포함한다.

장애감지모듈(400)은 특정 활성 노드의 시스템 다운 장애를 감시하고 있고, 가용상태정보측정모듈(411)은 특정 활성 노드에 장애가 발생한 경우 당해 대기 노드에 대한 해당 장애발생노드에서 제공하던 서비스의 가용 상태를 파악한다.

가용상태정보저장모듈(412)은 상기 파악된 서비스가용상태정보를 메모리 및 공유 디스크에 저장한 후 타 대기 노드로 브로드캐스팅하고, 타 대기 노드로부터 브로드캐스팅된 서비스가용상태정보를 미리 저장된 서비스가용상태정보에 취합하여 메모리 및 공유 디스크에 저장한다.

또한, 대기 노드(150)는 상기 서비스가용상태정보를 통해 실질적으로 복구 가용 능력이 있는 대기 노드 중에서 선택하여 복구를 수행하기 위해 복구결정모듈(421) 및 장애복구모듈(422)를 특히 포함한다.

복구결정모듈(421)은 특정 활성 노드에서의 장애가 감지되는 경우 메모리 또는 공유 디스크로부터 서비스가용상태정보를 읽어와서 당해 대기 노드를 통해 복구를 수행할 것인지를 결정한다. 이때, 복구결정모듈(421)은 서비스가용상태정보의 서비스 가용 대기 노드의 리스트(대기 노드의 리스트(600) 중 특히 가용으로 기록된 대기 노드의 리스트) 중 첫 번째 항목이 당해 대기 노드인 경우, 당해 대기 노 드를 복구 수행 노드로 결정하게 된다.

장애복구모듈(422)은 당해 대기 노드가 복구 수행 노드로 결정되면 소정의 알고리즘에 따라 복구를 수행하며, 상기 소정의 알고리즘은 종래 기술에 의해 공지된 바 있으므로 여기서는 그에 대한 설명은 생략하기로 한다.

한편, 상기 활성 노드(100) 및 대기 노드(150)에는 공히 서비스망, 공중망 및 사설망을 통해 데이터 통신을 하기 위한 네트워크 인터페이스 모듈을 포함한다.

이제, 도 7을 참고하여 본 발명에 의해 서비스가용상태정보를 관리하는 과정을 상세하게 살펴보기로 한다.

대기 노드는 활성 노드들을 감시하고 있다가 특정 활성 노드에 시스템 다운 장애가 발생하면(S701), 해당 장애발생노드에서 제공하던 서비스를 당해 대기 노드에서 대체 수행할 수 있는지 여부 즉, 당해 대기 노드에 있어서 해당 서비스의 가용 여부를 파악한다(S703). 이때, 대기 노드는 각종 네트워크(사설망, 공중망, 서비스망)와 정상적으로 접속되어 있는지, 또는 파일 시스템에는 문제가 없는지 등을 각 네트워크에의 연결 상태를 점검하거나, I/O 패킷의 통계를 산출하거나, 파일 시스템의 디바이스 상태를 파악한다거나 파일 시스템에 리드-온리 마운트(read-only mount)가 가능한지 여부를 파악하는 등의 방법을 통해 상기 서비스의 복구 가능 여부를 파악하게 된다.

그리고, 그렇게 파악된 서비스가용상태정보를 자신의 메모리 및 공유 디스크에 저장한다(S705). 이는 1차적으로 자신의 메모리를 통해 차후 서비스가용상태정 보를 제공하고, 당해 대기 노드와의 통신이 두절된 경우를 대비하여 2차적으로 공유 디스크에 동일한 내용의 정보를 저장하는 것이다.

이어서, 타 대기 노드와 통신이 가능한 상태라면(S707), 네트워크(주로 사설망이 될 것이다)를 통해 타 노드들로 자신의 서비스가용상태정보를 브로드캐스팅한다(S709). 물론 상기 S701 단계 내지 S409 단계는 각 대기 노드마다에서 동일하게 수행되는 과정이므로, 타 대기 노드에서도 자신의 서비스가용상태정보를 생성하게 될 것이고 상기 대기 노드로 동일하게 브로드캐스팅할 것이다.

따라서, 타 대기 노드로부터 브로드캐스팅된 서비스가용상태정보가 당해 대기 노드에 수신된 경우(S711), 당해 메모리 및 공유 디스크에 저장되어 있던 기존의 서비스가용상태정보에 상기 수신된 정보를 더하여 갱신함으로써, 본 발명에 필요한 서비스가용상태정보를 유지 및 관리하게 된다(S713). 이러한 S711 내지 S713 과정은 통신상태에 이상이 없다면 타 대기 노드가 존재하는 수만큼 반복된다.

다음으로, 도 8 및 도 1을 참고하여 본 발명에 따라 서비스가용상태정보를 이용하여 장애를 복구하는 과정의 일 실시예를 살펴보기로 한다.

활성 노드(100)은 주기적으로 현재 수행중인 서비스(S1)의 상태를 "정상작동" 또는 "정지" 등으로 파악하여 자신의 메모리 및 공유 디스크(120)에 저장하고 있다(S801). 이와 같이 파악된 정보를 서비스상태정보라 한다.

한편, 활성 노드(100)는 자신의 장애 발생 여부를 감시하고 있다가(S803), 자신에게 시스템 다운 장애가 발생한 경우 타 대기 노드들과 네트워크 통신이 가능 한 경우라면 소정의 정책에 의해 선택된 대기 노드로부터 그 메모리에 저장된 서비스가용상태정보를 전송받고(S807), 네트워크 통신이 두절된 경우라면 공유 디스크(120)에 저장된 서비스가용상태정보를 읽어온다(S809). 이와 같은 서비스가용상태정보에는 해당 서비스에 대하여 해당 노드의 네트워크 상태 정보 및 파일 시스템 상태 정보가 포함되어 있으며, 이는 상기 도 6에 대한 설명에서 확인해 볼 수 있다.

활성 노드(100)는 상기 전송받은 서비스가용상태정보를 분석하여(S811) 해당 서비스를 온전하게 대체 수행 즉, 복구할 수 있는 대기 노드가 존재한다고 판단되면, 당해 활성 노드(100)의 서비스를 중지시키고(S813), 당해 활성 노드(100)의 메모리 및 공유 디스크(120)에 미리 저장되어 있는 서비스상태정보를 "중지" 등과 같이 갱신시킨다(S817).

그러나, 상기 서비스가용상태정보의 분석 결과, 복구 가능한 대기 노드가 발견되지 않는 경우라면 필요한 대기 노드가 주어질 때까지 해당 서비스를 계속 유지시킨다. 따라서, 현재와 같은 상황에서 특정 대기 노드(150)에 서비스망 장애 또는 파일 시스템 장애가 발생한 경우 상기 대기 노드(150)은 온전하게 해당 서비스의 대체 수행이 불가한 것으로 상기 서비스가용상태정보에 기록될 것이므로, 상기 대기 노드(150)가 유일한 대기 노드라면 상기 활성 노드(100)는 서비스를 계속 유지시켜 공연히 문제 있는 대기 노드(150)가 복구 작업을 수행하는 것을 방지할 것이다.

마지막으로, 도 9 및 도 2를 참고하여 본 발명에 따라 서비스가용상태정보를 이용하여 장애를 복구하는 과정의 다른 실시예를 살펴보기로 한다.

대기 노드(250)는 활성 노드들(200, 201)의 장애 발생 여부를 감시하고 있다가(S901), 특정 활성 노드(200)에 시스템 다운 장애가 발생한 경우, 해당 장애발생노드(200)와 네트워크 통신이 가능한 경우라면 해당 노드(200)로부터 그 메모리에 저장된 서비스상태정보를 전송받고(905), 통신이 두절된 상태라면 공유 디스크(220)에 저장된 서비스상태정보를 전송받는다(907). 이와 같은 서비스상태정보는 상기 도 5에서 소개한 바와 같다.

대기 노드(250)는 상기 전송받은 서비스상태정보를 분석하여 해당 장애발생노드(200)에서 서비스가 중지되어 있는지를 파악하여(S909), 중지된 경우 해당 서비스를 정상적으로 대체 수행할 대기 노드가 존재함을 의미하므로, 자신의 메모리 또는 공유 디스크(220)로부터 서비스가용상태정보를 읽어와서(S911), 자신이 상기 서비스를 복구할 것인지를 결정한다(S913). 이때, 이러한 복구수행 대기 노드를 결정하기 위해 소정의 정책이 적용될 수 있으며, 일 예로 상기 서비스가용상태정보에는 각 대기 노드들에 대한 네트워크 상태 정보 및 파일 시스템 정보가 기록되어 있으며, 이러한 대기 노드들 중에서 특히 온전하게 해당 서비스의 대체 수행이 가능한 대기 노드들을 별도로 리스트화 하거나, 가상으로 리스트화한 것 중에 첫 번째 대기 노드를 복구수행 대기 노드로 결정하는 것을 들 수 있다.

이와 같이 결정된 노드가 바로 자신(250)이라면 당해 대기 노드(250)를 통해 복구를 수행하고, 자신(250)이 아니라면 타 대기 노드에게 복구 수행을 맡긴 채 다시 활성 노드에 장애가 발생했는지 여부를 감시한다.

물론, 현재와 같은 상황에서 특정 대기 노드(250)에 사설망 및 공중망의 접속 장애가 발생한 경우라면, 해당 대기 노드(250)는 내부적으로는 클러스트 시스템에서 제외되었지만 외부적으로는 온전하게 서비스 복구 수행이 가능한 상황이므로 이를 복구불능 노드로 간주하여 복구 수행에서 제외시키는 불합리를 방지할 수 있게 된다.

이상, 본 발명을 몇가지 예를 들어 설명하였지만, 본 발명은 특정 실시예에 한정되는 것은 아니다. 본 발명이 속하는 기술분야에서 통상의 지식을 지닌 자라면 본 발명의 사상에서 벗어나지 않으면서 다양한 수정과 변경을 가할 수 있음을 이해할 것이다.

위와 같은 구성 또는 단계를 구비하는 본 발명에 의하면, 특정 활성 노드에 장애가 발생한 경우 각 대기 노드에서 해당 서비스의 가용 상태를 파악하고 이를 취합하여 소정의 서비스가용상태정보를 생성함으로써 효율적인 장애 복구에 활용할 수 있게 된다. 즉, 특정 활성 노드에 장애가 발생한 경우 당해 활성 노드는 상기 서비스가용상태정보로부터 현재 서비스를 온전하게 복구할 대기 노드가 존재하는지 여부를 판단한 이후에 당해 서비스를 정지시키도록 하여, 파일 시스템 또는 서비스망에 장애가 발생한 대기 노드에 의해 서비스 복구가 수행되는 경우가 발생하지 않도록 예방함으로써 복구 효율을 높일 수 있다. 또한, 대기 노드는 상기 서비스가용 상태정보로부터 당해 대기 노드가 온전하게 복구 수행이 가능한 노드인지를 판단한 이후에 복구를 수행하도록 하여, 사설망 및 공중망에 모두 장애가 발생한 대기 노드에 의해 서비스 복구가 수행되지 않도록 예방하여 복구 효율을 높일 수 있다.

Claims

서비스망, 공중망 및 사설망과 각각 연결되어 있으면서 소정의 서비스를 제공하는 활성 노드, 장애 발생시 이를 복구하기 위한 대기 노드 및 소정의 서비스 제공을 위한 파일 시스템을 저장하는 공유 디스크를 포함하는 클러스터 시스템에 있어서,

상기 대기 노드는,

특정 활성 노드의 장애를 감지하는 장애감지모듈과,

특정 활성 노드의 장애가 감지되면 해당 장애발생노드에서 제공하던 서비스에 대한 가용 상태를 파악하는 가용상태정보측정모듈과,

상기 파악된 서비스가용상태정보를 메모리 및 공유 디스크에 저장한 후 타 대기 노드로 브로드캐스팅하고, 타 대기 노드로부터 브로드캐스팅된 서비스가용상태정보를 미리 저장된 서비스가용상태정보에 취합하여 메모리 및 공유 디스크에 저장하는 가용상태정보저장모듈 및

서비스망, 공중망 및 사설망을 통해 데이터 통신을 하기 위한 네트워크 인터페이스 모듈을 포함하여 구성되는 것을 특징으로 하는 서비스가용상태정보 관리를 위한 클러스터 시스템.
서비스망, 공중망 및 사설망과 각각 연결되어 있으면서 소정의 서비스를 제공하는 활성 노드, 장애 발생시 이를 복구하기 위한 대기 노드 및 소정의 서비스 제공을 위한 파일 시스템을 저장하는 공유 디스크를 포함하는 클러스터 시스템에 있어서,

상기 활성 노드는,

자체 발생한 장애를 감지하는 장애감지모듈과,

당해 활성 노드의 작동상태 및 현재 제공중인 서비스의 수행상태를 주기적으로 파악하여 메모리 및 공유 디스크에 저장하는 상태정보저장모듈과,

자체 발생한 장애가 감지되면 특정 대기 노드 또는 공유 디스크로부터 서비스가용상태정보를 전송받아 분석하고, 분석 결과 서비스 수행이 가능한 대기 노드가 존재하면 현재 제공중인 서비스를 중지시키는 장애대응모듈 및

서비스망, 공중망 및 사설망을 통해 데이터 통신을 하기 위한 네트워크 인터페이스 모듈을 포함하여 구성되며,

상기 대기 노드는,

상기 활성 노드의 서비스가 중지되는 경우에 한하여 복구를 수행하는 것을 특징으로 하는 서비스 가용성 상태정보를 이용한 장애복구 클러스터 시스템.
서비스망, 공중망 및 사설망과 각각 연결되어 있으면서 소정의 서비스를 제공하는 활성 노드, 장애 발생시 이를 복구하기 위한 대기 노드 및 소정의 서비스 제공을 위한 파일 시스템을 저장하는 공유 디스크를 포함하는 클러스터 시스템에 있어서,

상기 대기 노드는,

특정 활성 노드의 장애를 감지하는 장애감지모듈과,

특정 활성 노드의 장애가 감지되면 메모리 또는 공유 디스크로부터 서비스가용상태정보를 읽어와서 당해 대기 노드를 통해 복구를 수행할 것인지를 결정하는 복구결정모듈과,

당해 대기 노드가 복구 수행 노드로 결정되면 소정의 알고리즘에 따라 복구를 실행하는 장애복구모듈 및

서비스망, 공중망 및 사설망을 통해 데이터 통신을 하기 위한 네트워크 인터페이스 모듈을 포함하여 구성되는 것을 특징으로 하는 서비스가용상태정보를 이용한 장애복구 클러스터 시스템.
제 3 항에 있어서,

상기 복구결정모듈은,

서비스가용상태정보의 서비스 가용 대기 노드의 리스트 중 첫 번째 항목이 당해 대기 노드인 경우, 당해 대기 노드를 복구 수행 노드로 결정하는 것을 특징으로 하는 서비스가용상태정보를 이용한 장애복구 클러스터 시스템.
제 3 항에 있어서,

상기 장애복구모듈은,

장애발생노드의 메모리 또는 공유 디스크로부터 서비스상태정보를 읽어와서, 장애발생노드의 서비스가 중지된 것으로 판단되는 경우에 한하여 장애 복구를 수행 하는 것을 특징으로 하는 서비스가용상태정보를 이용한 장애복구 클러스터 시스템.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,

상기 서비스가용상태정보는,

네트워크 상태 정보 및 파일 시스템 정보를 포함하는 것임을 특징으로 하는 서비스가용상태정보를 이용한 장애복구 클러스터 시스템.
제 6 항에 있어서,

상기 네트워크 상태 정보는,

상기 네트워크 인터페이스 모듈의 사설망, 공중망 및 서비스망에의 연결 상태 정보 및 I/O 패킷 통계 정보 중 하나 이상을 포함하는 것임을 특징으로 하는 서비스가용상태정보를 이용한 장애복구 클러스터 시스템.
제 6 항에 있어서,

상기 파일 시스템 정보는,

파일 시스템의 디바이스 상태 정보 및 리드-온리 마운트(read-only mount) 가능 여부 정보 중 하나 이상을 포함하는 것임을 특징으로 하는 서비스가용상태정보를 이용한 장애복구 클러스터 시스템.
제 2 항 또는 제 3 항에 있어서,

상기 서비스가용상태정보는,

제 1 항의 대기 노드에 의해 생성된 것임을 특징으로 하는 서비스가용상태정보를 이용한 장애복구 클러스터 시스템.
서비스망, 공중망 및 사설망과 각각 연결되어 있으면서 소정의 서비스를 제공하는 활성 노드, 장애 발생시 이를 복구하기 위한 대기 노드 및 소정의 서비스 제공을 위한 파일 시스템을 저장하는 공유 디스크를 포함하는 클러스터 시스템에 있어서,

특정 활성 노드의 장애를 감지한 대기 노드가 해당 장애발생 활성 노드에서 제공하던 서비스의 가용 상태를 파악하는 제 1 단계;

상기 파악된 서비스가용상태정보를 메모리 및 공유 디스크에 저장한 후 타 대기 노드로 브로드캐스팅하는 제 2 단계;

타 대기 노드로부터 브로드캐스팅된 서비스가용상태정보가 수신되면 이를 미리 저장된 서비스가용상태정보와 취합하여 메모리 및 공유 디스크에 저장하는 제 3 단계;

를 포함하여 이루어지는 것을 특징으로 하는 서비스가용상태정보 관리 방법.
서비스망, 공중망 및 사설망과 각각 연결되어 있으면서 소정의 서비스를 제공하는 활성 노드, 장애 발생시 이를 복구하기 위한 대기 노드 및 소정의 서비스 제공을 위한 파일 시스템을 저장하는 공유 디스크를 포함하는 클러스터 시스템에 있어서,

활성 노드가 당해 활성 노드의 상태 및 현재 수행중인 서비스의 상태를 주기적으로 파악하여 메모리 및 공유 디스크에 저장하는 제 1 단계;

활성 노드가 자신의 장애 발생을 감지하면 특정 대기 노드 또는 공유 디스크로부터 서비스가용상태정보를 전송받아 분석하는 제 2 단계;

상기 분석 결과 서비스 수행이 가능한 대기 노드가 존재하면 당해 활성 노드의 서비스를 중지시키고 메모리 및 공유 디스크의 서비스상태정보를 중지상태로 갱신하는 제 3 단계;

상기 활성 노드의 서비스가 중지되는 경우 특정 대기 노드가 복구를 수행하는 제 4 단계;

를 포함하여 이루어지는 것을 특징으로 하는 서비스가용상태정보를 이용한 장애복구방법.
서비스망, 공중망 및 사설망과 각각 연결되어 있으면서 소정의 서비스를 제공하는 활성 노드, 장애 발생시 이를 복구하기 위한 대기 노드 및 소정의 서비스 제공을 위한 파일 시스템을 저장하는 공유 디스크를 포함하는 클러스터 시스템에 있어서,

특정 활성 노드의 장애를 감지한 대기 노드가 메모리 또는 공유 디스크로부터 서비스가용상태정보를 읽어와서 당해 대기 노드를 통해 복구를 수행할 것인지를 결정하는 제 1 단계;

당해 대기 노드가 복구 수행 노드로 결정되면 소정의 알고리즘에 따라 복구를 실행하는 제 2 단계;

를 포함하여 이루어지는 것을 특징으로 하는 서비스 가용성 상태정보를 이용한 장애복구방법.
제 12 항에 있어서,

상기 제 1 단계 이후에는,

장애발생노드의 메모리 또는 공유 디스크로부터 서비스상태정보를 읽어와서 분석한 결과, 해당 장애발생노드에서 서비스가 중지된 것으로 판단되는 경우에만 상기 제 2 단계를 수행하도록 하는 제 1-1 단계가 더 포함되는 것을 특징으로 하는 서비스가용상태정보를 이용한 장애복구방법.
제 12 항에 있어서,

상기 제 1 단계의 결정은,

서비스가용상태정보의 서비스 가용 대기 노드의 리스트 중 첫 번째 항목이 당해 대기 노드인 경우, 당해 대기 노드를 복구 수행 노드로 결정하는 것임을 특징으로 하는 서비스가용상태정보를 이용한 장애복구방법.
제 10 항 내지 제 12 항 중 어느 한 항에 있어서,

상기 서비스가용상태정보는,

네트워크 상태 정보 및 파일 시스템 정보를 포함하는 것임을 특징으로 하는 서비스가용상태정보를 이용한 장애복구방법.
제 15 항에 있어서,

상기 네트워크 상태 정보는,

네트워크 인터페이스 모듈의 사설망, 공중망 및 서비스망에의 연결 상태 정보 및 I/O 패킷 통계 정보 중 하나 이상을 포함하는 것임을 특징으로 하는 서비스가용상태정보를 이용한 장애복구방법.
제 15 항에 있어서,

상기 파일 시스템 정보는,

파일 시스템의 디바이스 상태 정보 및 리드-온리 마운트(read-only mount) 가능 여부 정보 중 하나 이상을 포함하는 것임을 특징으로 하는 서비스가용상태정보를 이용한 장애복구방법.
제 11 항 또는 제 12 항에 있어서,

상기 서비스가용상태정보는,

제 12 항의 서비스가용상태정보 관리 방법에 의해 생성된 것임을 특징으로 하는 서비스가용상태정보를 이용한 장애복구방법.