KR20030067712A

KR20030067712A - 네트웍 매체 링크상태 기능을 이용한 컴퓨터 클러스터링시스템의 가용도 개선방법

Info

Publication number: KR20030067712A
Application number: KR10-2003-7008210A
Authority: KR
Inventors: 프라이스다니엘엠.
Original assignee: 레가토 시스템즈, 인코포레이티드
Priority date: 2000-12-21
Filing date: 2001-12-19
Publication date: 2003-08-14
Also published as: JP4500490B2; US20020083036A1; DE60136739D1; CN1483163A; KR100557399B1; CN1264092C; EP1344133B1; WO2002050678A1; JP2004516575A; WO2002050678A8; ATE415661T1; AU3116702A; US20050033778A1; AU2002231167B2; US7409395B2; EP1344133A4; EP1344133A1; US6785678B2; CA2428251A1

Abstract

본 발명은 제2서버(220)가 정지되었을 때 컴퓨터 클러스터에 포함된 제1서버(210)의 가용도를 증가시키는 방법을 제공한다. 컴퓨터 클러스터내의 각각의 서버(210, 220)는 관련의 대용량 저장장치(214, 224)를 포함하며, 컴퓨터 클러스터에서 네트웍 장치(230, 240, 250)로부터의 요청을 처리할 수 있다. 데이터는 서버(210, 220)의 대용량 저장장치(214, 224) 사이에서 미러링되므로, 각각의 서버내의 대용량 저장장치는 모든 컴퓨터 클러스터 데이터의 완전한 카피를 가질 수 있다. 데이터 미러링은 전용 링크(202)를 통해 이루어지므로써, 나머지 컴퓨터 클러스터의 혼잡을 감소시킨다. 제1서버(210)가 제2서버(220)로부터 통신 손실을 검출하였을 때, 제1서버(210)는 통신 손실이 전용 링크(202)의 작동불능에 의한 것인지를 결정한다. 만일 전용 링크(202)가 손상되었다면, 제1서버(210)는 데이터를 관련의 대용량 저장장치(214)에 기입하는 것을 피하기 위하여 작동정지되며, 이것은 통신 손실로 인해 미러링되지 않는다. 만일 전용 링크(202)가 작동가능하면, 제1서버(210)는 작동을 계속한다. 이러한 두가지 경우에 있어서, 각각의 서버(210, 220)는 네트웍 장치(230, 240, 250)로부터의 요청을 처리할 수 있고 각각의 서버는 모든 네트웍 데이터의 완전한 카피를 갖기 때문에, 컴퓨터 클러스터는 서버가 정지된 후에도 계속 사용될 수 있다.

Description

네트웍 매체 링크상태 기능을 이용한 컴퓨터 클러스터링 시스템의 가용도 개선방법{A METHOD OF IMPROVING THE AVAILABILITY OF A COMPUTER CLUSTERING SYSTEM THROUGH THE USE OF A NETWORK MEDIUM LINK STATE FUNCTION}

전형적인 컴퓨터 클러스터는 컴퓨터 네트웍을 통해 서로 연결된 하나이상의 네트웍 장치와 2개 이상의 서버를 포함한다. 컴퓨터 클러스터의 정상적인 동작중, 서버는 네트웍 장치에 컴퓨터 리소스와, 데이터를 저장 및 회수할 장소를 제공한다. 현존의 컴퓨터 클러스터 형태에 있어서, 컴퓨터 클러스터 데이터는 어떠한 네트웍 서버에 의해서도 억세스되는 공유 컴퓨터 디스크에 저장된다.

도1에 도시된 전형적인 컴퓨터 클러스터는 컴퓨터 네트웍(101)을 통해 네트웍 장치(130, 140, 150)와 통신하는 2개의 네트웍 서버(110, 120)를 포함한다. 상기 네트웍 서버(110, 120)는 통신선(105, 106)을 통해 공유 디스크(104)와 통신한다.

컴퓨터 클러스터를 사용할 때, 특히 컴퓨터 클러스터가 다수의 사용자 워크스테이션과, 퍼스널 컴퓨터 또는 기타 다른 네트웍 클라이언트 장치를 지지하는 컴퓨터 클러스터 리소스의 지속적인 가용도를 제공하는 것이 바람직하다. 또한, 컴퓨터 클러스터링 시스템에 부착된 상이한 파일 서버들 사이에 균일한 데이터를 유지하는 것도 바람직하며, 또한 클라이언트 장치에 대해 데이터 가용도를 일정하게 유지하는 것도 바람직하다. 컴퓨터 클러스터 리소스 및 신뢰성있는 데이터 가용도를 달성하기 위하여, 컴퓨터 클러스터는 소프트웨어 및 하드웨어 문제점이나 결함에 대해 관대할 필요가 있다. 여분의 컴퓨터와 대용량 저장장치는 이를 가능하게 하므로, 고장인 경우에도 백업 컴퓨터 또는 디스크 드라이브가 이를 즉시 접수하는데 매우 유용하다.

도1에 도시된 바와 같은 공유 디스크 형태를 사용하여 컴퓨터 클러스터 리소스 및 데이터에 신뢰성있는 가용도를 실행하는데 현재 사용되고 있는 기법은 정족수(quorum)의 개념을 포함하는데: 이것은 하나의 네트웍 서버가 최소 갯수의 특정 네트웍 장치를 제어하므로써, 다른 네트웍 서버로부터 서비스가 불능인 경우 네트웍 서버는 컴퓨터 리소스 및 데이터의 가용도를 제어할 권리를 갖는 상태와 관련이 있다. 특정 네트웍 서버가 정족수를 얻는 방식은 각각의 서버와 다른 네트웍 장치의 캐스팅 "보트"에 관해 서술될 것이다. 예를 들어, 도1에 도시된 2개의 서버 컴퓨터 클러스터 형태에 있어서, 네트웍 서버(110, 120)는 어떤 네트웍 서버가 정족수를 갖는지를 결정하기 위해 하나의 투표권을 행사한다. 만일 네트웍 서버가 다수의 투표를 얻지 못했다면, 공유 디스크(104)는 2개의 네트웍 서버(110, 120)중 어느 것이 다수를 얻을 것인지를 투표하며, 그 결과 상호이해가능하며 허용될 수있는 방식으로 네트웍 서버들중 하나에 의해 정족수가 얻어진다. 단지 하나의 네트웍 서버만이 정족수를 가질 수 있으며, 만일 네트웍 서버(110, 120) 사이의 통신이 손실된 경우에도 오직 하나의 네트웍 서버가 모든 네트웍을 제어하는 것을 보장한다.

붕괴되었을 경우 네트웍을 사용가능하게 하기 위해 정족수의 사용에 대해 서술하기로 한다. 서버(110)가 서버(120)와의 통신 손실을 검출할 수 있는 일반적인 2가지 이유가 있다. 첫번째 이유는 서버(120)가 정지된 경우 서버(120)가 클라이언트에 네트웍 리소스를 더 이상 제공할 수 없는 경우이다. 두번째 이유는 2개의 서버 사이의 통신 기반이 붕괴된 경우로서, 서버(120)는 네트웍 내에서 지속적으로 작동될 수 있다. 만일 서버(110)가 정족수를 갖지 않는 것으로 결정되었다면, 공유 디스크(104)에 명령을 전송하여 디스크가 투표할 것을 요구하므로써 정족수를 얻는다. 만일 공유 디스크(104)가 서버(110)에 투표하지 않았다면, 이러한 서버는 서버(120)와는 독립적으로 작동되는 것을 피하기 위해 자체적으로 자동차단된다. 이 경우, 서버(110)는 네트웍 서버(120)가 정족수로 작동된다는 것을 가정하고, 서버(120)는 컴퓨터 클러스터스터를 지속적으로 제어한다. 그러나, 만일 공유 디스크(104)가 네트웍 서버(110)에 투표하였다면, 그 서버는 정족수 및 컴퓨터 클러스터의 제어를 획득하게 되어, 네트웍 서버(120)가 기능장애가 발생하였다는 가정하에 계속 작동된다.

네트웍이 붕괴된 경우 다수의 네트웍 서버중 하나의 서버가 지속적으로 네트웍 리소스를 제공하는 것을 보장하기 위해 정족수를 사용하면 만족스럽지만, 공유디스크를 사용하면 전체 네트웍 및 디스크상에 저장된 데이터가 소실될 위험이 있다. 예를 들어, 만일 기능정지된 것이 네트웍 서버(110, 120)중 하나가 아닌 공유 디스크(104)인 경우라면, 서버들중 그 어느 것도 작동될 수 없으며, 데이터는 영구적으로 소실된다. 더구나, 공유 디스크 형태에 있어서, 컴퓨터 클러스터 서버들은 전형적으로 서로에 인접하여 위치된다. 이것은 자연재해나 동력 정지 등에 의해 전체 컴퓨터 클러스터가 정지될 가능성을 제공하게 된다.

본 발명은 컴퓨터 클러스터링 시스템에 관한 것으로서, 특히 컴퓨터 클러스터링 시스템 서버들 사이에 통신이 손실되었을 경우 컴퓨터 클러스터링 시스템 리소스 및 데이터의 가용도(可用度)와 신뢰성을 개선하는 방법에 관한 것이다.

도1은 디스크를 공유하는 서버를 갖는 종래 컴퓨터 클러스터를 도시한 블럭도.

도2는 본 발명에 적합한 작동환경을 제공하는 예시적인 컴퓨터 클러스터를도시한 도면.

도3은 서버가 생존권리라고 가정하는 것을 도와주기 위하여 서버내의 다른 소프트웨어 모듈 사이의 통신을 도시한 도면.

도4는 다른 서버에서의 통신 손실 검출에 따라 생존권리를 갖는지의 여부를 결정하는 방법을 도시한 흐름도.

도5는 생존권리를 갖는 서버가 컴퓨터 클러스터에서 다른 서버의 정지에 응답하는 방법을 도시한 흐름도.

본 발명은 컴퓨터 클러스터링 시스템에서 컴퓨터 클러스터 리소스 및 데이터의 신뢰성 및 가용도를 개선하는 방법에 관한 것이다. 관련의 디스크를 각각 갖는 2개의 서버는 컴퓨터 네트웍을 통해 통신한다. 각각의 서버는 컴퓨터 클러스터 네트웍을 제공할 수 있으며, 컴퓨터 네트웍에 부착된 모든 네트웍 장치를 위해 컴퓨터 클러스터 데이터에 억세스할 수 있다. 통신이 손상된 경우, 각각의 서버는 통신 손실의 이유를 결정할 능력과, 동작을 계속 지속시킬지의 여부를 결정할 능력을 갖는다.

네트웍 서버가 다른 네트웍 서버와의 통신 손실을 검출하였을 때, 통신 손실은 통신 링크의 손상이나 다른 네트웍 서버의 파손이 원인일 수도 있다. 각각의 네트웍 서버는 네트웍 데이터의 미러링된 카피를 갖기 때문에, 통신 손실은 각각의 네트웍 서버에서 일련의 동작실행이 뒤따르면, 이러한 동작은 네트웍 서버가 상호관계없이 동작을 시작하지 않는다는 것을 보장하는 작동상태로 남아있게 된다. 이러한 동작이 없는 경우, 서로 독립적으로 작동되는 다수의 네트웍 서버는 바람직스럽지 못한 "스플릿 브레인(split brain)" 모드로 존재하여, 이러한 모드에서 네트웍 서버간 데이터 미러링(data mirroring)은 실행되지 않으며, 이에 따라 잠재적인 데이터 오염이 유발된다.

컴퓨터 클러스터의 동작이 시작되었을 때, 하나의 서버에는 컴퓨터 클러스터 리소스 및 데이터의 제어가 할당되며, 통신 링크가 손상되어 네트웍 서버간 통신이 손실된 경우 "생존권리"가 제공된다. 편의상, 정상적인 동작중 "생존권리"를 갖는 하나의 네트웍 서버를 "프라이머리"로 표시하고, 정상동작중 "생존권리"를 갖지 못한 다른 서버를 "세컨더리" 서버로 표시한다. 상기 "프라이머리" 및 "세컨더리"라는 용어는 서버의 중요성과는 관련없으며, 네트웍 리스소를 네트웍 장치에 제공하는데 어떤 서버가 책임이 있는지를 의미하는 것도 아니다. 정상적인 작동하에서, 프라이머리 및 세컨더리 서버는 네트웍 리소스 제공이라는 관점에서 서로 바뀔 수 있다. 상기 생존권리는 네트웍 서버간 통신이 손실된 경우, 상기 스플릿 브레인 이라는 문제점이 발생되지 않는 것을 보장하기 위해 디폴트 프로토콜에 사용된다.

프라이머리 네트웍 서버가 통신 손실을 검출하였을 때, 상기 프라이머리 네트웍 서버는 지속적으로 작동되는데, 그 이유는 세컨더리 네트웍 서버가 정지되었거나 또는 세컨더리 네트웍 서버가 계속 작동되지 않는 것으로 가정할 수 있기 때문이다. 통신 손실의 검출에 따라, 세컨더리 네트웍 서버에 의해 실행되는 일련의 동작은 다소 복잡하다. 단순히 동작을 정지시키는 것이 아니라, 세컨더리 네트웍 서버는 통신손실이 프라이머리 네트웍 서버의 손상에 의한 것인지 또는 통신 링크의 손상에 의한 것인지의 여부를 추정하거나 결정한다. 만일 통신 링크가 작동될수 있다면, 세컨더리 네트웍 서버는 프라이머리 네트웍 서버가 손상되어 작동되지 않는 것으로 결론내린다. 이 경우, 세컨더리 네트웍 서버는 스플릿 브레인 이라는 문제점을 유발할 위험성을 내포하지 않고 실질적으로 지속적으로 작동된다. 그러나 만일 세컨더리 네트웍 서버가 통신 링크 손상이라고 결정하였다면, 프라이머리 네트웍 서버가 작동가능한 것으로 가정한다. 이러한 가정에 응답하여, 세컨더리 네트웍 서버의 작동이 종료되어, 스플릿 브레인 모드에서의 작동을 피할 수 있다.

본 발명에 따른 장점은 프라이머리 서버의 통신 손실이 통신 링크의 손상에 의한 것이 아니라고 결정하는 경우, 초기에 생존권리를 갖지 않는 세컨더리 서버가 지속적으로 작동될 수 있다는 점이다. 통신 링크에 대한 그 어떤 분석이 없는 경우, 세컨더리 서버는 프라이머리 서버에서의 통신 손실에 응답하여 자동으로 정지될 것이 요구되어, 스플릿 브레인 이라는 문제점을 피할 수 있다. 상술한 바와 같이 서버간 통신 손실에 응답하는 본 발명의 방법은 네트웍 서버가 전용의 미러링 디스크 또는 대용량 저장장치를 갖는 컴퓨터 클러스터의 신뢰성 및 가용도를 강화시키는데, 그 이유는 스플릿 브레인 모드에서 작동될 가능성에 의해 프라이머리 서버가 작동정지되었을 때 세컨더리 서버가 오프라인으로 갈 것을 강제하지 않기 때문이다.

각각의 네트웍 서버가 전용의 미러링 디스크를 갖는 종래의 "정족수" 규칙의 어플리케이션이 일반적으로 최적인 것은 아니다. 예를 들어, 정족수를 갖는 네트웍 서버가 정지되었을 때는 정족수를 다른 네트웍 서버로 재할당하도록 투표할 공유 디스크가 없다. 그 결과, 이런 형태의 컴퓨터 클러스터에 대한 종래 정족수 규칙의 직접적인 어플리케이션은 정족수를 갖는 네트웍 서버가 정지되었을 때 비정족수 네트웍 서버가 불필요하게 정지되는 것으로 나타난다.

분리된 미러링 디스크에 데이터를 저장하면 네트웍 데이터가 손실될 가능성을 감소시키는데, 이것은 네트웍 서버들중에서 공유된 단일 디스크를 갖는 컴퓨터 클러스터에서 자주 경험하는 문제점이다. 또한, 서버는 본 발명에 따라 단일 디스크를 공유하지 않기 때문에, 서버의 위치는 디스크 드라이브장치에 관련된 케이블 길이에 의해 한정되지 않는다. 따라서, 네트웍 서버나 그 관련의 미러링 디스크는 서로 이격되어 위치될 수 있다. 이것은 자연재해나 동력정지에 의해 전체 컴퓨터 클러스터가 정지될 가능성을 감소시킨다.

본 발명의 또 다른 특징은 첨부된 도면을 참조하여 하기에 상세히 서술될 것이다. 본 발명의 특징 및 장점은 청구범위에 기재된 도구 및 조합체에 의해 실현될 수 있다. 본 발명의 상기 목적과 기타 다른 목적들은 하기의 상세한 설명과 첨부의 청구범위에 의해 보다 명확해질 것이다.

상술한 바와 같은 본 발명의 특징과 장점은 첨부된 도면에 도시된 양호한 실시예에 의해 이해될 것이다. 도면에는 본 발명의 전형적인 실시예만을 도시하였기에, 본 발명은 이에 한정되지 않는다.

본 발명은 컴퓨터 클러스터 시스템에서 컴퓨터 클러스터 리소스 및 데이터의 신뢰성과 가용도를 개선하는 방법에 관한 것이다. 상기 컴퓨터 클러스터는 적어도 2개의 서버를 가지며, 이들 각각의 서버는 전용의 대용량 저장장치를 갖는다. 상기 서버는 다른 네트웍 장치와 마찬가지로 컴퓨터 네트웍을 통해 다른 서버와 통신한다. 데이터는 각 서버의 디스크들 사이에 미러링되므로, 네트웍 장치는 하나의 서버가 정지된 경우에도 신뢰성있는 데이터에 억세스할 수 있다. 서버들 사이에 통신이 손실된 경우 서버가 자체적으로 정지되었는지의 여부를 결정하기 위해 각각의 서버에는 통신 모듈이 작동한다

"생존권리"라는 용어는 서버간 통신 링크에서의 에러로 인해 서버들 사이에 통신 손실이 검출된 경우, 작동을 지속할 수 있는 권리를 갖는지의 여부를 의미한다. 예를 들어, 만일 2개의 서버 사이에 통신 손실이 검출되었고, 그러한 손실이 통신 링크에서의 물리적 파손에 의한 것이라면, 생존권리를 갖고 있는 서버는 계속작동되는 반면에, 생존권리를 갖고 있지 않는 서버는 자체적으로 정지된다. 상술한 바와 같이, "프라이머리" 서버는 통신이 손실되기 전에 생존권리를 가진 서버이고, "세컨더리 서버"는 서버간 통신 손실 이전에 생존권리를 갖지 않은 서버이다.

"스플릿 브레인"이라는 용어는 각각의 네트웍 서버를 위한 대용량 저장장치를 갖는 컴퓨터 클러스터의 네트웍 서버가 미러링없이 서로 독립적으로 작용하는 바람직스럽지 못한 상태를 의미한다. 본 발명이 없을 경우, 이것은 네트웍 서버간 통신이 손실되었을 때, 두 네트웍 서버가 아직 작동중이고, 각각의 노드는 다른 서버가 정지되었다고 가정하고 있는 바람직하지 않는 상태를 의미한다. 스플릿 브레인이 발생되었을 때, 각각의 서버상에 있는 미러링 데이터는 더 이상 매치되지 않아 오염될 수 있다. 통신 링크에서의 물리적 파손에 의해 서버가 통신을 손실하게 되는 상술한 실시예에 있어서, 만일 서버가 그러한 손실이 물리적 파손에 의한 것이라고 결정하지 않을 경우, 각각의 서버는 작동을 계속하게 되고, 그 자신의 데이터를 관련의 대용량 저장장치에 기입한다. 그러나, 통신 링크가 파손되었기 때문에, 상기 데이터는 미러링되지 않고, 대용량 저장장치상의 데이터는 모순되어 버린다. 본 발명은 컴퓨터 클러스터가 스플릿 브레인 모드에서 작동되는 것을 방지하고, 프라이머리 서버의 정지에 의해 통신 손실이 발생된 경우, 세컨더리 서버가 지속적으로 작동할 수 있게 한다.

본 발명의 범주내에 있는 실시예는 컴퓨터-실행가능한 지시나 데이터 구조를 저장하거나 실행하기 위한 컴퓨터-판독가능한 매체를 포함한다. 이러한 컴퓨터-판독가능한 매체는 일반용 컴퓨터나 특수용 컴퓨터에 의해 억세스될 수 있는 그 어떠한 가용매체라도 가능하다. 예를 들어, 컴퓨터-판독가능한 매체는 RAM, ROM, EEPROM, CD-ROM, 또는 기타 광디스크 저장장치, 마그네틱 디스크 저장장치 또는 기타 다른 마그네틱 저장장치, 또는 일반용 및 특수용 컴퓨터에 의해 억세스될 수 있으며, 필요로 하는 프로그램 코드수단을 컴퓨터-실행가능한 지시 또는 데이터 구조 형태로 저장하거나 실행할 수 있는 기타 다른 매체 등을 포함한다. 정보가 네트웍이나 기타 다른 통신 연결장치(하드웨어, 무선 또는 하드웨어나 무선의 조합체)에서 컴퓨터에 전송되거나 제공되었을 때, 컴퓨터는 상기 연결장치를 컴퓨터-판독가능한 매체로 인식한다. 따라서, 그 어떠한 연결장치라도 컴퓨터-판독가능한 매체로 할 수 있다. 상술한 장치들의 조합체도 컴퓨터-판독가능한 매체들의 범주내에 포함된다. 예를 들어, 컴퓨터-판독가능한 지시는 일반용 컴퓨터나 특수용 컴퓨터 또는 특수한 처리장치로 하여금 그러한 기능이나 기능들의 집단을 실행하게 하는 지시 또는 데이터를 포함한다.

도2를 참조하여 본 발명이 실행되는 적절한 연산 환경이 서술될 것이다. 필요한 것은 아니지만, 본 발명은 네트웍 환경에서 컴퓨터에 의해 실행되는, 프로그램 모듈과 같은 컴퓨터-실행가능한 지시의 일반적인 배경에 대해 서술될 것이다. 일반적으로, 프로그램 모듈은 특정한 목적을 실행하거나 특정한 요약 데이터형을 실행하는 루틴, 프로그램 모듈, 목표물, 부품, 데이터 구조 등을 포함한다. 데이터 구조와 연관된 컴퓨터-실행가능한 지시와 프로그램 모듈은 서술되는 바와 같은 방법을 실행한 프로그램 코드수단의 실시예를 제공한다. 이러한 실행가능한 지시의 특정 시컨스 또는 이와 연관된 데이터 구조는 이러한 방법단계에 서술되는 기능을 실행하기 위한 대응의 동작예를 제공한다.

본 기술분야의 숙련자라면 본 발명은 퍼스널 컴퓨터, 핸드헬드 장치, 멀티 프로세서 시스템, 마이크로프로세서 기본형 또는 프로그램가능한 소비자 전자장치, 네트웍 PC, 미니컴퓨터, 메인프레임 컴퓨터 등을 포함하는, 여러 형태의 컴퓨터 시스템을 구비한 네트웍 연산환경에서 실행될 수 있음을 인식할 수 있을 것이다. 본 발명은 통신 링크를 통해 링크된(하드와이어형 링크, 무선 링크 또는 이들의 링크의 조합체에 의해) 로컬 처리장치 및 원격 처리장치에 의해 목표가 실행되는 분배 연산환경에서 실행된다. 상기 분배 연산환경에 있어서, 프로그램 모듈은 로컬 및 원격 메모리 저장장치에 위치될 수 있다.

도2에는 본 발명의 방법이 실행되는 대표적인 컴퓨터 클러스터가 도시되어 있다. 상기 컴퓨터 클러스터는 2개의 서버(A210, B220)를 포함한다. 도2에는 단지 2개의 서버만 도시되었지만, 2개 이상의 네트웍 서버를 갖는 컴퓨터 클러스터에도 일반적인 원리가 쉽게 적용될 수 있을 것이다. 서버(A210, B220)는 파일 운영체인 마이크로소프트 윈도우즈 NT를 작동시키며, 또한 다른 운영체제도 본 발명에 사용될 수 있다. 서버(A210)는 대용량 저장 제어기(213)를 통해 연결되는 대용량 저장장치(214)와, 네트웍 인터페이스(211)를 통해 네트웍(201)에 연결되는 컴퓨터(212)를 포함한다. 이와 마찬가지로, 서버(B220)는 네트웍 인터페이스(200)를 통해 네트웍(201)에 연결된 컴퓨터(222)와, 대용량 저장 제어기(223)를 통해 연결되는 대용량 저장장치(224)를 포함한다. 상기 네트웍(201)은 이더넷, 토큰 링, 아크넷(Arcnet), 또는 서버(A210, B220)가 네트웍 장치(230)와 통신할 수 있는 기타 다른 네트웍 장치(230, 240, 250)일 수도 있다.

서버(A210)는 서버(B220)와 동일한 부품을 가질 필요는 없으며, 대부분의 경우가 이에 해당된다. 또한, 서버(A210, B220)는 상이한 프로세서 형태, 상이한 프로세서 속도, 상이한 크기의 대용량 저장장치 또는 그 어떤 수의 하드웨어 편차(hardware difference)를 가질 수 있다. 서버(A210, B220)에 필요한 모든 것은 이러한 서버들이 파일 운영체제를 작동시킬 수 있어야 한다는 것과, 서버들중 하나에 있는 드라이브가 다른 서버에 미러링되지 않도록 크지 않아야 한다는 점이다.

도2에 도시된 실시예에서, 서버(A210, B220) 사이의 통신은 전용 링크(202)를 사용하여 설정된다. 컴퓨터(212)는 통신 부착부(215)를 통해 전용 링크(202)에 연결되며, 컴퓨터(222)는 통신 부착부(225)를 통해 전용 링크(202)에 연결된다. 상기 전용 링크(202)는 본 기술분야에 공지되어 있는 기법을 사용하여 실행될 수 있다. 일실시예에서, 전용 링크(212)는 이더넷 프로토콜을 사용하는 링크이다. 선택적으로, 고속에서 작동되도록 프로그램되거나 컴퓨터(212, 222)의 평행 인터페이스에서 작동되도록 프로그램된 컴퓨터(212, 222)의 일련의 통신 포트를 사용하는 단계를 포함한다. 또 다른 실시예에 따르면, 전용 링크(202) 및 통신 부착부(215, 225)는 제공되지 않으며, 서버(A210, B220) 사이의 통신은 네트웍(201)을 통해 실행된 실제 회로나 채널에 의해 설정된다. 데이터 전송률이 대용량 저장장치(214, 224)의 전송률에 필적할 수 있어 시스템의 성능이 제한되지 않는다면, 전용 링크(202)를 실행하는데 사용되는 특정형태의 하드웨어는 중요하지 않다.

네트웍 장치(230, 240, 250)는 네트웍 인터페이스(231, 241, 251)를 통해 네트웍(201)에 각각 연결된다. 이러한 장치들은 대용량 저장장치(214, 224)에 저장된 데이터에 억세스하기 위하여 컴퓨터 시스템(210, 220)의 리소스를 사용하는 클라이언트 장치이다. 네트웍 장치(230, 240, 250)는 네트웍(201)을 통해 통신할 수만 있다면 그 어떤 장치라도 무방하다.

컴퓨터 클러스터의 작동중, 서버(A210, B220)는 네트웍 장치(230, 240, 250)에 리소스를 제공할 수 있다. 또한, 서버(A210, B220)는 전용 링크(202)의 무결성(integrity)에 대한 에러를 검출할 수 있다. 이와 마찬가지로, 서버(B220)와 통신중인 네트웍 장치가 대용량 저장장치(224)로부터 데이터를 삭제하거나 더하거나 변화시켰을 때, 업데이트는 전용 링크(202)를 통해 대용량 저장장치(214)로 미러링된다. 도2의 실시예에서 데이터는 전용 링크(202)를 통해 미러링되기 때문에, 네트웍(201)을 혼잡하게 하지 않는다.

미러링에 의해, 대용량 저장장치(214, 224)는 모든 컴퓨터 클러스터 데이터의 동일한 카피들을 포함하게 된다. 따라서, 컴퓨터 클러스터는 대용량 저장장치중 하나가 정지되었을 경우에도 양호한 신뢰성으로 지속적으로 작동될 수 있다. 만일 네트웍 장치(230, 240, 250)가 대용량 저장장치(214)의 정지에 의해 대용량 저장장치(214)상의 데이터에 억세스할 수 없다면, 네트웍 장치는 대용량 저장장치(224)상의 데이터에 억세스할 수 있고, 그 반대의 경우도 가능하다. 서버(A210, B220)는 대용량 저장장치를 공유하지 않기 때문에, 단일의 파손점은 없으며, 이들은 서로 원격으로 위치될 수 있다. 원격위치된 서버(A210, B220)는 대용량 저장장치로 동시에 억세스하는 것을 방지하는 정전이나 자연재해의 가능성을 감소시킨다.

서버(A210, B220)가 초기에 배열되었을 때는 작업자에 의해 이들 서버들중 하나에 생존권리가 할당된다. 이 경우 생존권리는 소프트웨어 플래그로서 표시되며, "온" 또는 "오프"로 설정된다. 일반적으로, 컴퓨터 클러스터의 정상적인 작동중, 생존권리 플래그는 오직 하나의 서버에만 "온"으로 설정된다. 초기 배열후, 생존권리 플래그가 "오프"인 서버는 하기에 상세히 서술되는 바와 같은 네트웍 상태하에서 상기 생존권리를 "온"으로 전환한다.

서버간 통신이 손실되었다면, 상기 생존권리는 어떤 서버가 클러스터 동작을 지속할 것인지, 그리고 어떤 서버가 클러스터 동작을 중단한 것인지를 결정하는데 사용된다. 서버(A210, B220) 사이의 통신 손실에는 2가지 주요한 경우가 있다. 첫번째 경우는 서버들중 하나가 전용 링크(202)를 통해 통신을 중단하였을 때 발생되며, 그 결과 서버는 예를 들어 소프트웨어 에러 또는 서버 동력손실을 경험하게 된다. 두번째 경우는 전용 링크(202)의 무결성의 손실이다.

상술한 바와 같이, 서버(A210, 220)는 통신 손실의 형태를 구별할 수 있다. 하기의 설명에서는 서버(B220)가 프라이머리 서버인 즉, 컴퓨터 클러스터의 초기 정상 동작주기중 생존권리를 갖는 것으로 가정하고, 서버(A210)는 초기에 생존권리가 없는 세컨더리 서버인 것으로 가정한다. 만일 프라이머리 서버(B220)가 서버(A210)에서 통신 손실을 검출하였다면, 서버(B220)는 통신 손실이 통신 링크(202)의 손상에 의한 것인지 또는 서버(A210)의 손상에 의한 것인지의 여부에관계없이 그 생존권리에 의해 계속 작동하게 된다.

세컨더리 서버(A210)가 서버(B220)에서 통신 손실을 검출하였을 때, 서버(A210)는 생존권리를 가정하여 안전하다고 결정되지 않는한 작동을 중단한다. 만일 서버(A210)가 그 통신 손실이 통신 링크(202)의 손상에 의한 것이라고 결정하였다면, 서버(A210)는 프라이머리 서버(B220)가 작동가능한 것으로 가정한다. 따라서, 서버(A210)가 생존권리를 갖고 있지 않기 때문에, 스플릿 브레인 모드에서의 작동을 피하기 위해 서버(A210)는 작동을 정지한다. 그러나, 만일 세컨더리 서버(A210)가 통신 링크(202)가 손상된 것이 아니라고 결정하였다면, 그 통신 손실은 정지된 프라이머리 서버(B220)과 연관된 것으로 가정하며, 그렇지 않을 경우 더 이상 네트웍 서비스를 제공하지 않는다. 이 경우, 세컨더리 서버(A210)는 자체적으로 생존권리를 할당한 후, 컴퓨터 클러스터에서 스플릿 브레인을 유발할 위험없이 작동을 계속한다. 후자의 경우, 서버(A210)는 네트웍 장치(230, 240, 250)로부터의 리소스에 대한 요청을 서비스하며, 그렇지 않을 경우 서버(B220)는 정지된다. 상술한 상태에 있어서, 서버들 사이에 통신 손실이 발생된 후 단지 하나의 서버만 계속 작동되며, 이것은 스플릿 브레인 이라는 문제점이 발생될 위험성을 방지한다.

도3은 본 발명의 일실시예에 따른 대표적인 컴퓨터 시스템에서 작동되는 상이한 소프트웨어 모듈의 상호작용을 도시하고 있다. 도3의 시스템 및 구조는 서버(A210)가 작동지속에 대해 어떻게 결정하는지와, 다른 서버와의 통신 손실이 검출되었을 때 생존권리를 어떻게 가정하는지에 대한 실시예를 도시하고 있다. 생존권리 플래그(306)는 초기에 자동으로 설정되거나, 컴퓨터 클러스터의 작동이 시작될 때 시스템 관리자에 의해 설정된다. 상술한 바와 같이, "온"으로 설정된 생존권리 플래그(306)를 갖는 서버는 통신 손실의 원인이 전용 링크(202)의 무결성에 대한 에러에 의한 것인지, 또는 다른 서버의 정지에 의한 것인지의 여부와 관계없이, 다른 서버와 통신이 손실되었을 때도 계속 작동된다. 본 발명은 초기에 "온"으로 설정된 생존권리 플래그(306)를 가지며 통신 손실을 경험한 후에도 실질적으로 계속 작동되는 프라이머리 서버에 관해 서술되었으며; 도3은 생존권리 플래그(306)가 "오프" 위치로 설정되었지만, 통신이 손실된 세컨더리 서버의 상황에 대해서 도시하고 있다.

서버(A210)가 컴퓨터 클러스터에서 작동할 때, 서버는 도3에 도시된 바와 같이 컴퓨터 클러스터의 부품들 사이로 데이터를 수신 및 전송한다. 데이터(308)는 전용 링크(202)상에서 서버(A210)와 통신하는 서버(B220)의 심장박동 신호를 나타낸다. 상기 "심장박동 신호"는 다른 서버가 작동가능한지를 결정하기 위해 하나의 서버에 의해 사용될 수 있는 포맷을 구비한 신호나 데이터를 의미한다. 통신 부착부 드라이버(301)는 통신 부착부(215)를 제어하고 데이터(308)를 수신하는 소프트웨어 모듈이다. 마찬가지로, 데이터(309)는 네트웍(201)상에 전송된 데이터를 나타낸다. 네트웍 인터페이스 드라이버(302)는 네트웍 인터페이스(211)를 제어하고, 데이터(309)를 수신한다.

서버(A210)는 데이터(308)와, 이러한 데이터(308)를 처리 및 분석하는 모듈과, 생존권리 플래그(306)가 "오프" 위치로 설정된 순간에 서버(B220)와의 통신이 손실되었는지의 결정에 응답하여 작동지속 또는 작동중단여부를 결정하는 전용 링크(210)를 포함한다. 서버(A210)는 데이터(308)가 예상한 대로 수신되었는지의 여부를 결정하기 위해 서버(B220)와의 통신을 관찰하는 서버 통신 검출기를 포함한다. 링크 상태 검출기(304)는 서버(B220)와의 통신이 손실되었을 때 전용 링크(202)가 정지되었는지의 여부를 결정할수 있는, 하드웨어나 소프트웨어 또는 이들의 조합체일 수 있다. 여러 경우에 있어서, 서버 통신 검출기(303)와 링크 상태 검출기(304)는 이러한 두 부품들의 기능성이 단일 구조로 조합될 수도 있지만, 분리된 모듈일 수도 있다.

이러한 실시예에서, 통신 검출기(303) 및 링크 상태 검출기(304)는 데이터(308)와, 전용 링크(202)의 무결성을 관찰한다. 그러나, 서버(B220)와의 통신이 전용 링크(202)가 아닌 네트웍(201)을 사용하여 전송되는 다른 실시예에서, 서버 통신 검출기(303) 및 링크 상태 검출기(304)는 데이터(309)와 네트웍(201)의 무결성을 관찰한다.

이러한 두 경우에 있어서, 서버 통신 검출기(303)는 서버(B220)의 심장박동 신호가 검출되었는지의 여부를 결정한다. 서버(B220)의 심장박동 신호가 손실되었을 경우, 링크 상태 검출기는 심장박동 신호를 이송하는 통신 링크의 무결성을 분석한다[즉, 전용 링크(202) 또는 네트웍(201)]. 서버(B220)와의 통신 손실을 경험하였을 때, 서버 통신 검출기(303) 및 링크 상태 검출기(304)는 통신 매니저(305)에게 이러한 사실을 통보하고, 심상박동 신호를 이송하는 통신 링크 손상이 발견되었는지를 통보한다. 그후, 통신 손실 매니저(305)는 서버 통신 검출기(303) 및 링크 상태 검출기(304)로부터의 정보와 생존권리 플래그(306)에 기초하여,서버(A210)를 정지시킬 것인지 또는 작동시킬 것인지를 결정한다.

통신 손실 매니저(305)에 의해 인가된 규칙을 요약하면, 만일 생존권리 플래그(306)가 서버(A210)가 생존권리를 갖는다는 것을 표시할 경우, 서버(A210)는 계속 작동된다. 그러나, 서버(A210)가 서버(B220)와의 통신이 손실되었을 때 생존권리 플래그(306)에 따른 생존권리를 갖지 않는 세컨더리 서버라고 가정한다면, 통신 손실 매니저(305)는 통신 손실이 통신 링크의 손상에 의한 것이라고 결정되었을 경우 서버(A210)의 작동을 정지시킨다. 만일 통신 손실이 통신 링크에 의한 것이라면, 서버(B220)는 작동가능하며, 이 경우 서버(A210)는 작동이 정지되고, 이에 따라 스플릿 브레인 모드에서 컴퓨터 클러스터가 작동될 가능성을 피할 수 있다.

이와는 달리, 만일 통신 손실 매니저(305)가 서버(A210)가 서버(B220)로부터 통신 손실을 검출하고 통신 링크가 손상된 것으로 결정하였다면, 통신 손실 매니저(305)는 서버(B220)가 작동불능인 것으로 추정한다. 서버(A210)가 세컨더리 서버라는 가정하에서, 생존권리 플래그(306)는 "온" 위치로 설정되어, 서버(A210)가 생존권리를 갖고 있음을 표시하게 된다. 이 경우, 서버(A210)는 서버(B220)에 의해 이루어진 서비스 요청을 시작하므로써 컴퓨터 클러스터를 "리포밍"한다. 서버(A210)는 네트웍 인터페이스 드라이버(302)에 네트웍 장치가 네트웍(201)상에서 서버(B220)로 전송한 서비스 요청을 네트웍 인터페이스 드라이버(302)가 실행시키는 명령을 전송하므로써 상술한 바와 같이 할 수 있다.

도4는 프라이머리 서버(즉, 초기에 생존권리를 갖는 서버)의 정지시 네트웍 리소스의 가용도를 증가시키기 위하여, 본 발명의 일실시예에 따라 컴퓨터 클러스터에서 세컨더리 서버(즉, 생존권리를 갖지 않는 서버)에서 실행되는 방법을 도시한 흐름도이다. 통신 손실에 대한 이유와는 관계없이, 프라이머리 서버는 그 보유한 생존권리에 의해 계속 작동되기 때문에, 하기에 도5를 참조로 상세히 서술되는 바와 같이, 프라이머리 서버는 세컨더리 서버에서 통신이 손실되었을 경우 일반적으로 도4에 도시된 단계를 실행할 필요가 없다.

도4에 있어서, 세컨더리 서버(A)는 결정 블록(401)에서 서버(B)와의 양호한 통신을 검출한다. 만일 서버(A)가 서버(B)와의 양호한 통신을 검출하였다면, 단계(402)로 진행되어, 서버(A)는 일정시간 간격을 기다린 후 결정 블록(401)을 다시 반복한다.

만일 서버(A)가 결정 블록(401)에서 서버(B)와의 양호한 통신을 검출하지 않았다면, 서버(A)는 결정 블록(4036)에서 통신 링크의 신뢰성을 검출한다. 만일 서버(A)가 결정 블록(402)에서 양호한 통신 링크를 검출하지 않았다면, 서버(A)는 스플릿 브레인 모드에서의 작동을 피하기 위하여, 단계(405)에서 클러스터의 동작을 종료시킨다.

그러나, 만일 서버(A)가 결정 블록(403)에서 양호한 통신 링크를 검출하였다면, 결정 블록(407)으로 진행되며, 이러한 블록(407)에서 서버(A)는 서버(B)가 정지되었다고 가정하기 전에 필요로 하는 시간간격 횟수를 기다린다. 결정 블록(407)에 따라 만일 서버(A)가 필요로 하는 시간간격 회수를 기다리지 않았다면, 단계(408)로 진행되며, 이러한 단계에서 서버(A)는 1회의 시간 간격을 기다린다. 단계(408)에서 시간 간격을 기다린 후에, 서버(A)는 결정 블록(409)에서서버(B)와의 양호한 통신을 다시 한번 검출한다. 만일 서버(A)가 단계(409)에서 서버(B)와의 양호한 통신을 검출하였다면, 단계(402)로 진행된다. 클러스터를 리포밍하기 전에 단계(407, 408, 409)에 의해 형성된 루프에 따라 재설정된 통신을 반복하여 체크하면, 서버(B)에서의 그다지 치명적이지 않은 짧은 주기의 소프트웨어 에러에 의해, 서버(A)가 서버(B)를 대신하여 작동개시되는 것을 방지할 수 있다.

만일 서버(A)가 필요한 시도횟수후에도 서버(B)로부터 양호한 통신을 검출하는데 실패하였다면, 서버(A)는 단계(411)에서 자신에게 생존권리를 할당한 후, 단계(412)에서 클러스터를 리포밍한다. 서버(A)가 단계(412)에서 클러스터를 리포밍한 후, 블록(413)에서는 서버(B)로부터의 양호한 통신에 대한 체크를 다시 한번 시작한다. 만일 서버(B)가 종료되지 않은 에러로부터 회복되었다면, 심장박동 신호의 전송을 재개하거나 클러스터가 리포밍된 후 서버(A)와의 통신을 재개한다. 서버(B)로부터 통신이 검출되지 않는한, 서버(A)는 작동을 계속하며, 결정 블록(413) 및 단계(414)에 형성된 루프에서 서버(B)로부터의 통신을 계속 관찰한다. 만일 서버(B)로부터의 통신이 결정 블록(413)에서 검출한 것처럼 재설정되었다면, 단계(415)로 진행되며, 서버(B)는 디스크 억세스가 허용되기 전에 단계(415)에서 정지되므로, 서버(A, B)의 대용량 저장장치와 연관된 데이터 불일치와 스플릿 브레인 모드에서의 작동을 피할 수 있다.

생존권리를 갖는 프라이머리 서버는 본 발명의 일실시예에 따라 다른 서버로부터의 통신 손실에 응답하기 위해 도5에 도시된 단계를 실행한다. 블록(501)에서, 프라이머리 서버(B)는 서버(A)와의 양호한 통신 검출을 시도한다. 만일 서버(B)가 서버(A)와의 양호한 통신을 검출할 수 있다면, 단계(502)로 진행되어, 서버(B)는 일정시간 간격을 기다린 후 결정 블록(501)을 반복한다.

만일 서버(B)가 결정 블록(501)에서 서버(A)와의 양호한 통신을 검출하지 않았으면, 결정 블록(507)으로 진행하고, 서버(A)가 정지되었다고 가정하기 전에, 서버(B)가 필요로 하는 시간간격 횟수를 기다렸는지의 여부가 결정된다. 만일 결정 블록(507)에 따라 서버(B)가 필요로 하는 시간 간격 횟수를 기다리지 않았다면, 단계(508)로 진행하여, 서버(B)는 1회의 시간간격을 기다린다. 단계(508)의 시간 간격을 기다린 후, 서버(B)는 결정 블록(509)에서 서버(A)로부터 다시 한번 양호한 통신 검출을 시도한다. 만일 서버(B)가 단계(509)에서 서버(A)와의 양호한 통신을 검출하였다면, 단계(502)로 진행한다. 클러스터를 리포밍하기 전에 단계(507, 508, 509)에 의해 형성된 루프를 사용하여 재설정된 통신을 반복검출하면, 서버(A)에서의 그다지 치명적이지 않은 짧은 주기의 소프트웨어 에러에 의해, 서버(B)가 서버(A)를 대신하여 작동개시되는 것을 방지할 수 있다.

만일 서버(B)가 서버(A)로부터 필요한 횟수만큼 시도하였는데도 양호한 통신을 검출하는데 실패하였다면, 서버(B)는 단계(512)에서 클러스터를 리포밍한다. 서버(B)가 단계(512)에서 클러스터를 리포밍한 후에는 결정 블록(513)에서 서버(A)로부터 양호한 통신에 대한 체크를 다시 한번 시작한다. 만일 서버(A)가 종료되지 않은 에러로부터 회복되었다면, 심장박동 신호의 전송을 재개하거나 클러스터가 리포밍된 후 서버(B)와의 통신을 재개한다. 서버(A)로부터 통신이 검출되지 않는한,서버(B)는 결정 블록(513, 514)에 의해 도시된 루프에서 서버(A)로부터의 통신을 주기적으로 계속 관찰한다. 만일 서버(A)로부터의 통신이 결정 블록(513)에서 검출된 것처럼 재설정되었다면, 단계(516)로 진행되어, 서버(B)는 서버(A)의 재개된 동작을 수용하기 위해 클러스터를 리포밍한다.

본 발명은 양호한 실시예를 참조로 서술되었기에 이에 한정되지 않으며, 본 기술분야의 숙련자라면 첨부된 청구범위로부터의 일탈없이 본 발명에 다양한 변형과 수정이 가해질 수 있음을 인식해야 한다.

Claims

통신 링크에 의해 서로 연결된 제1서버와 제2서버를 포함하며, 컴퓨터 클러스터링 시스템이 붕괴되었을 때 상기 제2서버에 생존권리가 할당되는 컴퓨터 클러스터링 시스템의 가용도 및 신뢰성을 개선하기 위한 방법에 있어서,

상기 제1서버에 의해 제2서버로부터 제1서버까지 통신 손실을 검출하는 단계와,

통신 링크가 적절히 작동하는지의 여부를 결정하기 위하여, 상기 제1서버가 통신 링크를 분석하는 단계와,

통신 링크가 적절히 작동하고 있는 것으로 결정된 경우, 상기 제1서버가 생존권리를 가정하여 계속 작동하는 단계와,

통신 링크가 적절히 작동하고 있지 않은 것으로 결정된 경우, 상기 제1서버가 작동을 정지하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 클러스터링 시스템의 가용도 및 신뢰성 개선방법.
제1항에 있어서, 통신 손실 검출동작은 제2서버에 의해 생성된 심장박동 신호가 통신 링크상에서 상기 제1서버에 의해 검출될 수 없음을 결정하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 클러스터링 시스템의 가용도 및 신뢰성 개선방법.
제2항에 있어서, 상기 통신 링크는 제1서버와 제2서버를 연결하는 전용 링크를 포함하는 것을 특징으로 하는 컴퓨터 클러스터링 시스템의 가용도 및 신뢰성 개선방법.
제1항에 있어서, 상기 통신 링크는 컴퓨터 네트웍에서 설정된 실제 채널을 포함하며, 상기 컴퓨터 네트웍은 상호연결된 하나이상의 네트웍 장치를 포함하며, 상기 네트웍 장치는 제1서버 및 제2서버에 상호연결되는 것을 특징으로 하는 컴퓨터 클러스터링 시스템의 가용도 및 신뢰성 개선방법.
제1항에 있어서, 상기 제1서버 및 제2서버 각각은 파일 운영체제 및 적어도 하나의 대용량 저장장치를 포함하며; 상기 제1서버 및 제2서버 각각은 다른 네트웍장치로부터의 네트웍 요청을 서비스할 수 있도록 상기 파일 운영체제를 실행하며; 상기 네트웍 요청은 제1서버 및 제2서버의 리소스를 사용하는 요청을 포함하는 것을 특징으로 하는 컴퓨터 클러스터링 시스템의 가용도 및 신뢰성 개선방법.
제5항에 있어서, 상기 제1서버의 적어도 하나의 부착된 저장장치로부터 상기 제2서버의 적어도 하나의 부착된 저장장치까지 데이터를 미러링하는 단계와, 상기 제2서버의 적어도 하나의 부착된 저장장치로부터 상기 제1서버의 적어도 하나의 부착된 저장장치까지 데이터를 미러링하는 단계를 부가로 포함하는 것을 특징으로 하는 컴퓨터 클러스터링 시스템의 가용도 및 신뢰성 개선방법.
제6항에 있어서, 상기 통신 링크는 제1서버 및 제2서버만을 연결하는 전용의 통신 링크이며; 통신 손실을 검출하는 동작은 통신 링크를 통해 상기 제1서버가 제2서버와의 통신을 시도하는 단계와, 제1서버가 제2서버와 통신할 수 없다고 결정하기 위해 상기 제1서버가 통신 링크를 통해 시도한 통신의 결과를 분석하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 클러스터링 시스템의 가용도 및 신뢰성 개선방법.
제1항에 있어서, 통신 링크가 적절히 작동하고 있는지의 여부를 결정하기 위해 통신 링크를 분석하는 단계는, 상기 제1서버가 통신 링크의 전송특성들을 반복해서 체크하고 이러한 특성들이 특정 변수내에 있는지를 결정하는 단계를 부가로 포함하는 것을 특징으로 하는 컴퓨터 클러스터링 시스템의 가용도 및 신뢰성 개선방법.
제1항에 있어서, 상기 제1서버가 네트웍 장치에 의해 이루어진 요청을 제2서버로 서비스하는 단계를 부가로 포함하며, 상기 제1서버는 통신 링크가 적절히 작동하고 있는지의 여부를 결정하는 것을 특징으로 하는 컴퓨터 클러스터링 시스템의 가용도 및 신뢰성 개선방법.
제9항에 있어서, 제1서버가 제2서버로부터의 통신이 복구되었는지의 여부를 결정하는 단계와, 상기 제2서버가 작동을 정지하는 단계를 부가로 포함하는 것을 특징으로 하는 컴퓨터 클러스터링 시스템의 가용도 및 신뢰성 개선방법.
제1항에 있어서, 상기 제1서버의 작동이 정지된 후, 제2서버가 계속 작동하여 제1서버에 의해 이루어진 네트웍 요청을 서비스하는 단계를 부가로 포함하며; 상기 제1서버는 통신 링크가 적절히 작동하고 있지 않음을 결정하는 것을 특징으로 하는 컴퓨터 클러스터링 시스템의 가용도 및 신뢰성 개선방법.
통신 링크에 의해 서로 연결된 제1서버와 제2서버를 포함하며, 컴퓨터 클러스터링 시스템이 붕괴되었을 때 상기 제2서버에 생존권리가 할당되며, 상기 각각의 제1서버 및 제2서버가 적어도 하나의 대용량 저장장치에 기입되거나 이로부터 판독되는 데이터로 나타나는 요청을 수신할 수 있도록, 상기 각각의 제1 및 제2 네트웍 서버는 파일 서버 운영체제와, 이와 관련된 적어도 하나의 대용량 저장장치를 포함하는 컴퓨터 클러스터링 시스템의 가용도 및 신뢰성을 개선하기 위한 방법에 있어서,

제2서버와 관련된 심장박동 신호가 상기 제1서버에 의해 통신 링크상에서 더 이상 검출되지 않음을 결정하는 단계와,

상기 제1서버는 통신 링크의 무결성에 에러가 존재하는지의 여부를 결정하기위해 통신 링크를 분석하는 단계와,

상기 제1서버가 통신 링크의 무결성에 에러가 있음을 결정하였을 경우, 상기 제1서버는 작동을 정지하고, 제2서버는 제1서버로 전송될 요청을 서비스할 수 있도록 컴퓨터 클러스터링 시스템을 리포밍하는 단계와,

상기 제1서버가 통신 링크의 무결성에 에러가 없음을 결정하였을 경우, 제1서버는 자신에게 생존권리를 할당하고, 상기 제1서버는 제2서버로 전송될 요청을 서비스할 수 있도록 컴퓨터 클러스터링 시스템을 리포밍하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 클러스터링 시스템의 가용도 및 신뢰성 개선방법.
제12항에 있어서, 제2서버와 연관된 심장박동 신호가 더 이상 검출되지 않음을 결정하기 전에, 상기 제1서버 및 제2서버가 제1서버의 적어도 하나의 대용량 저장장치와 제2서버의 적어도 하나의 대용량 저장장치에 저장된 데이터를 미러링하는 단계를 부가로 포함하는 것을 특징으로 하는 컴퓨터 클러스터링 시스템의 가용도 및 신뢰성 개선방법.
제13항에 있어서, 상기 데이터 미러링 단계는 제1서버와 제2서버 사이의 통신 링크상에 데이터를 전송하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 클러스터링 시스템의 가용도 및 신뢰성 개선방법.
제13항에 있어서, 상기 제1서버가 제2서버와 연관된 심장박동 신호가 더 이상 검출되지 않음을 결정하는 단계는, 제1서버가 심장박동 신호를 위해 통신 링크를 반복해서 관찰하는 단계와; 특정 시간주기동안 통신 링크를 반복해서 관찰하는 단계중 상기 제1서버가 심장박동 신호를 검출하지 않았을 때, 상기 제1서버가 심장박동 신호가 더 이상 검출되지 않음을 결정하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 클러스터링 시스템의 가용도 및 신뢰성 개선방법.
제12항에 있어서, 상기 제1서버의 컴퓨터 클러스터링 시스템 재구축단계후에, 상기 제1서버가 제2서버와 연관된 심장박동 신호를 다시 검출하는 단계와, 제2서버와 연관된 적어도 하나의 대용량 저장장치에 억세스하기 전에 상기 제2서버가 작동을 정지하는 단계를 부가로 포함하는 것을 특징으로 하는 컴퓨터 클러스터링 시스템의 가용도 및 신뢰성 개선방법.
통신 링크에 의해 서로 연결된 제1서버와 제2서버를 포함하며; 컴퓨터 클러스터링 시스템이 붕괴되었을 때 상기 제2서버에 생존권리가 할당되며; 상기 각각의 제1서버 및 제2서버가 적어도 하나의 대용량 저장장치에 기입되거나 이로부터 판독되는 데이터로 나타나는 요청을 수신할 수 있도록, 상기 각각의 제1서버 및 제2서버는 파일 서버 운영체제와, 이와 관련된 적어도 하나의 대용량 저장장치를 포함하는 컴퓨터 클러스터링 시스템의 가용도 및 신뢰성을 개선하기 위한 방법에 있어서,

컴퓨터 클러스터링 시스템의 정상 작동중, 제1서버와 연관된 적어도 하나의 대용량 저장장치상의 데이터와 제2서버와 연관된 적어도 하나의 대용량 저장장치상의 데이터를, 통신 링크를 사용하여 제1서버와 제2서버 사이로 전송하므로써 이러한 데이터들을 미러링하는 단계와,

제2서버가 적절히 작동하지 않는다는 것을 상기 제1서버가 결정하는 단계와,

상기 제1서버가 컴퓨터 클러스터링 시스템을 제어하는 단계와,

제1서버가 제2서버로 전송될 파일 서버 요청을 수신할 수 있도록, 상기 제1서버가 컴퓨터 클러스터링 시스템을 재구축하는 단계를 포함하며,

상기 제2서버가 적절히 작동하지 않는다는 것을 제1서버가 결정하는 단계는 특정 시간간격중 상기 제1서버가 통신 링크를 분석하는 단계와, 제1서버가 통신 링크상에서 제2서버로부터의 통신 검출에 실패하는 단계와, 상기 제1서버가 통신링크 분석단계에 기초하여 통신링크의 적절한 작동성을 검출하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 클러스터링 시스템의 가용도 및 신뢰성 개선방법.
제17항에 있어서, 상기 제1서버가 컴퓨터 클러스터링 시스템을 제어한 후, 제1서버가 제2서버는 적절한 기능성으로 재구축되었음을 결정하는 단계와, 제2서버와 연관된 적어도 하나의 대용량 저장장치에 억세스하기 전에 상기 제2서버가 작동을 정지하는 단계를 부가로 포함하는 것을 특징으로 하는 컴퓨터 클러스터링 시스템의 가용도 및 신뢰성 개선방법.
제2서버의 정지에 응답하여 제1서버가 컴퓨터 클러스터링 시스템을 제어하는 방법에서, 제2서버와 상기 제2서버와 제1서버를 상호연결하는 통신 링크를 포함하는 컴퓨터 클러스터링 시스템에 내장된 제1서버에서의 실행에 의한 컴퓨터 프로그램 산출물에 있어서,

상기 방법을 실행시키는 컴퓨터-실행가능한 지지를 이송하는 컴퓨터-판독가능한 매체를 포함하며,

상기 컴퓨터-실행가능한 지시는 제1서버가 제2서버로부터의 통신 검출에 실패하였을 때 제1서버가 생존권리를 갖는지의 여부를 결정하는 프로그램 코드수단과; 상기 제2서버로부터 통신 손실을 검출하는 프로그램 코드수단과; 통신 손실에 응답하여 통신 링크가 적절히 작동하고 있는지의 여부를 결정하는 프로그램 코드수단과; 통신링크가 적절히 작동하고 있지 않을 때 제1서버의 작동을 정지시키고, 통신 링크가 적절히 작용하는 경우 제1서버가 초기에 생존권리를 갖지 않고 있음에도 불구하고 제1서버를 계속 작동시키는 프로그램 코드수단을 포함하는 것을 특징으로 하는 컴퓨터 프로그램 산출물.
제19항에 있어서, 상기 통신 링크는 제1서버와 제2서버 사이에 전용 링크를 포함하는 것을 특징으로 하는 컴퓨터 프로그램 산출물.
제19항에 있어서, 상기 통신 링크는 제1서버와 제2서버 및 다수의 네트웍 장치들을 상호연결하는 네트웍에 포함된 실제 채널을 포함하는 것을 특징으로 하는 컴퓨터 프로그램 산출물.
제19항에 있어서, 상기 컴퓨터-실행가능한 지시는 제1서버와 제2서버가 서로 통신될 동안 컴퓨터 클러스터링 시스템의 정상 작동중, 제1서버와 연관된 대용량 저장장치와 제2서버와 연관된 대용량 저장장치 사이에서 데이터를 미러링시키는 프로그램 코드수단을 부가로 포함하는 것을 특징으로 하는 컴퓨터 프로그램 산출물.
제19항에 있어서, 제1서버가 생권권리를 갖는지의 여부를 결정하는 상기 프로그램 코드수단은 제1서버에 저장된 생존권리 플래그를 검사하는 프로그램 코드수단을 포함하는 것을 특징으로 하는 컴퓨터 프로그램 산출물.