KR20070018521A

KR20070018521A - 클러스터 컴퓨터 시스템, 클러스터 컴퓨터 시스템의자동화된 패일오버 운영 서비스 제공 방법 및 이를컴퓨터에서 실행시키기 위한 컴퓨터로 읽을 수 있는기록매체

Info

Publication number: KR20070018521A
Application number: KR1020050073294A
Authority: KR
Inventors: 김환석
Original assignee: 삼성전자주식회사
Priority date: 2005-08-10
Filing date: 2005-08-10
Publication date: 2007-02-14

Abstract

본 발명은 하나의 컴퓨터에서 실패한 동작이 다른 컴퓨터에서 수행되도록 하는 패일오버 기능(failover function)을 갖는 클러스터 컴퓨터 시스템, 클러스터 컴퓨터 시스템의 자동화된 패일오버 운영 서비스 제공 방법 및 그 패일오버 운영 서비스 제공 방법을 컴퓨터에서 실행시키기 위한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다. 본 발명은, 각 컴퓨터에서 접근할 수 있는 공유 저장매체에 저장되며 상기 각 컴퓨터에서 실행되는 프로그램의 실행정보가 기록되는 공유 파일유닛; 실행되는 동안 상기 공유 파일유닛의 실행정보를 생성 또는 갱신하는 애플리케이션 프로세스유닛; 상기 각 컴퓨터에서 실행되며, 상기 공유 파일유닛의 실행정보를 참조하여 자신 및 다른 컴퓨터에서 실행되는 상기 애플리케이션 프로세스유닛을 운영하는 프로세스 운영유닛을 포함하는 클러스터 컴퓨터 시스템에 관한 것이다.

클러스터 컴퓨터 시스템, 패일오버

Description

클러스터 컴퓨터 시스템, 클러스터 컴퓨터 시스템의 자동화된 패일오버 운영 서비스 제공 방법 및 이를 컴퓨터에서 실행시키기 위한 컴퓨터로 읽을 수 있는 기록매체{Clustered computer system, method of providing automated service of failover management and computer readable recording medium for performing the method}

도 1은 본 발명의 클러스터 컴퓨터 시스템을 개략적으로 나타내는 도면이다.

도 2a내지 2c는 본 발명의 클러스터 컴퓨터 시스템을 나타내는 블록다이아그램이다.

도 3은 본 발명에 따른 클러스터 컴퓨터 시스템의 자동화된 패일오버 운영 서비스를 제공하는 방법을 나타내는 순서도이다.

도 4는 본 발명에 따른 클러스터 컴퓨터 시스템의 자동화된 패일오버 운영 서비스를 제공하는 방법을 나타내는 순서도이다.

* 도면의 주요부분에 대한 부호의 설명 *

100 : 클러스터 컴퓨터 시스템

11 : 컴퓨터 20 : 로컬 클러스터 인터페이스

30 : 버스 40 : 공유 저장매체

1a, 1b : 애플리케이션 프로세스유닛

2a, 2b : 프로세스 운영유닛

3a, 3b : 예약 프로세스유닛

본 발명은 클러스터 컴퓨터 시스템(clustered computer system)에 관한 것으로서, 더욱 상세하게는, 하나의 컴퓨터에서 실패한 동작이 다른 컴퓨터에서 수행되도록 하는 패일오버 기능(failover function)을 갖는 클러스터 컴퓨터 시스템에 관한 것이다.

클러스터 컴퓨터 시스템이란 중복되는 리소스(redundant resources)를 가지며 통신용 네트워크를 통하여 상호 연결된 집합적인 컴퓨터 시스템이다. 클러스터 컴퓨터 시스템은 중복되는 리소스에 부하(load)를 적절하게 분배시키고 하나의 리소스가 실패(fail)한 경우 다른 리소스로 패일오버(failover)를 할 수 있는 유연성을 제공할 수 있다. 예를 들면, 근거리통신망(local area network; LAN)에서 사용되는 메일 서버 시스템은 무정지(uninterrupted) 메일 서비스를 제공하기 위하여, 임의의 서버가 실패한 경우 다른 메일 서버의 중복되는 리소스를 사용할 수 있는 클러스터 컴퓨터 시스템으로 구성된다.

일반적으로, 클러스터 컴퓨터 시스템에서 무정지 서비스를 제공하기 위해서는 어느 하나의 컴퓨터에서 실행되고 있는 애플리케이션 프로세스의 실행상태를 진 단(diagnosis)하고, 애플리케이션 프로세스를 복구(recovery)하거나 다른 컴퓨터의 애플리케이션 프로세스를 시작(start)시킴으로서 패일오버를 수행할 수 있어야 한다.

통상적으로, 애플리케이션 프로세스의 실행 상태를 자동으로 진단하기 어렵고, 특히 애플리케이션 프로세스의 업무(mission)가 중요한 경우에는, 패일오버는 운영요원(service personnel)에 의하여 수동적으로 이루어진다. 그 결과, 운영요원이 애플리케이션 프로세스의 로그(log)를 항상 모니터링하고 컴퓨터 시스템의 동작상태를 지속적으로 확인 감시할 필요가 있다.

운영요원에 의한 시간 소모적이며 고비용의 수동적 노력을 절감시킬 수 있도록, 클러스터 컴퓨터 환경을 더욱 자동화하는 것이 요구된다. 특히, 애플리케이션 프로세스가 특정 컴퓨터에서 우선적으로 실행되어야 하고 무정지 서비스가 제공되어야 하는 경우에, 자동으로 애플리케이션 프로세스를 관리할 수 있는 적합한 클러스터 컴퓨터 시스템 환경이 제안된다면 더욱 비용 효과적인 애플리케이션 관리 서비스를 제공할 수 있다.

따라서, 본 발명이 이루고자 하는 기술적 과제는, 클러스터 컴퓨터 시스템에서 하나의 컴퓨터에서 실행 중인 애플리케이션 프로세스의 실행상태를 진단하고, 애플리케이션 프로세스가 실패한 경우 다른 컴퓨터에서 애플리케션 프로세스를 자동으로 시작시킴으로써, 무정지 서비스를 제공할 수 있는 자동화된 패일오버 기능을　갖는 클러스터 컴퓨터 시스템을 제공하는 것이다.

또한, 본 발명이 이루고자 하는 다른 기술적 과제는, 클러스터 컴퓨터 시스템에서 하나의 컴퓨터에서 실행 중인 애플리케이션 프로세스의 실행상태를 진단하고, 애플리케이션 프로세스가 실패한 경우 다른 컴퓨터에서 애플리케션 프로세스를 자동으로 시작시킴으로써, 무정지 서비스를 제공할 수 있는 클러스터 컴퓨터 시스템의 자동화된 패일오버 운영 서비스 제공 방법을 제공하는 것이다.

또한, 본 발명이 이루고자 하는 또 다른 기술적 과제는, 클러스터 컴퓨터 시스템에서 하나의 컴퓨터에서 실행 중인 애플리케이션 프로세스의 실행상태를 진단하고, 애플리케이션 프로세스가 실패한 경우 다른 컴퓨터에서 애플리케이션 프로세스를 자동으로 시작시킴으로써, 무정지 서비스를 제공할 수 있는 클러스터 컴퓨터 시스템의 자동화된 패일오버 운영 서비스 제공 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는 것이다.

상기 기술적 과제를 달성하기 위한 본 발명에 따른 클러스터 컴퓨터 시스템은, 각 컴퓨터에서 접근할 수 있는 공유 저장매체에 저장되며 상기 각 컴퓨터에서 실행되는 프로그램의 실행정보가 기록되는 공유 파일유닛; 실행되는 동안 상기 공유 파일유닛의 실행정보를 생성 또는 갱신하는 애플리케이션 프로세스유닛; 및, 상기 각 컴퓨터에서 실행되며, 상기 공유 파일유닛의 실행정보를 참조하여 자신 및 다른 컴퓨터에서 실행되는 상기 애플리케이션 프로세스 유닛을 운영하는 프로세스 운영유닛을 포함한다.

바람직하게는, 상기 공유 파일유닛의 실행정보는 상기 애플리케이션 프로세 스 유닛이 실행되는 컴퓨터 명, 애플리케이션 프로세스유닛 명, 실행시간 등에 관한 것이다. 상기 공유 파일유닛의 실행정보를 공유 파일유닛의 파일 명으로 사용함으로써, 시스템의 과부하와 처리속도를 개선시킬 수 있다.

바람직하게는, 본 발명의 클러스터 컴퓨터 시스템은, 상기 프로세스 운영유닛이 상기 애플리케이션 프로세스유닛을 운영하기 위하여 참조하며, 상기 애플리케이션 프로세스유닛이 운영되는 컴퓨터 명(computer identification); 애플리케이션 프로세스유닛 명(application process identification); 및 상기 애플리케이션 프로세스유닛의 운영지연시간(delay time for management)에 대한 운영정보를 포함하는 운영 파일유닛을 더 포함할 수 있다. 상기 프로세스 운영유닛은, 상기 운영 파일유닛의 운영정보 또는 상기 운영 파일유닛의 생성 시간이 변경되면 다시 상기 운영 파일유닛을 참조한다.

상기 프로세스 운영유닛은 상기 컴퓨터 중 특정 컴퓨터에서 상기 애플리케이션 프로세스유닛이 선택적 또는 우선적으로 실행할 수 있도록, 선택적 또는 우선적으로 실행되어야 할 컴퓨터 명에 관한 운영정보를 더 포함할 수 있다.

또한, 본 발명의 클러스터 컴퓨터 시스템은 상기 각 컴퓨터에서 실행되며, 상기 프로세스 운영유닛의 실행상태를 주기적으로 진단하여, 상기 프로세스 운영유닛이 소멸된 경우, 재시작(restart)시키는 예약 프로세스유닛을 더 포함할 수 있다. 바람직하게는, 상기 예약 프로세스유닛은 상기 컴퓨터의 운영체제에서 제공되는 영구(daemon) 프로세스유닛이다.

또한, 상기 기술적 과제를 달성하기 위한 본 발명에 따른 클러스터 컴퓨터 시스템의 자동화된 패일오버 운영 서비스 제공 방법은, 각 컴퓨터에서 접근할 수 있는 공유 저장매체에 저장되는 공유파일에 각 컴퓨터에서 실행되는 애플리케이션 프로세스의 실행정보를 생성 또는 갱신하는 단계; 상기 애플리케이션 프로세스의 실행정보를 참조하여 상기 애플리케이션 프로세스를 진단하는 단계; 및 상기 애플리케이션 프로세스의 진단 결과에 따라, 자신 또는 다른 컴퓨터에서 실행되는 상기 애플리케이션 프로세스를 운영하는 단계를 포함한다.

상기 공유파일의 상기 실행정보는 상기 애플리케이션 프로세스가 실행되는 컴퓨터 명, 상기 애플리케이션 프로세스 명, 실행시간을 포함한다. 바람직하게는, 상기 애플리케이션 프로세스의 실행정보를 생성 또는 갱신하는 단계는 상기 애플리케이션 프로세스가 실행되는 동안 일정한 주기로 수행된다.

또한, 상기 애플리케이션 프로세스의 실행여부를 진단하는 단계는 상기 일정한 주기를 초과하여도 상기 애플리케이션 프로세스가 실행정보를 생성 또는 갱신하지 않는 경우에 상기 애플리케이션 프로세스가 비정상 상태인 것으로 진단한다.

바람직하게는, 본 발명의 클러스터 컴퓨터 시스템의 자동화된 패일오버 운영 서비스 제공 방법은 상기 애플리케이션 프로세스를 진단하는 단계 및 상기 애플리케이션 프로세스를 운영하는 단계가 실행되는지 반복적으로 진단하여, 상기 애플리케이션 프로세스를 진단하는 단계 및 상기 애플리케이션 프로세스를 운영하는 단계가 지속적으로 실행되도록 하는 단계를 더 포함할 수 있다.

또한, 상기 기술적 과제를 달성하기 위한 본 발명에 따른 컴퓨터로 읽을 수 있는 기록 매체는, 각 컴퓨터에서 접근할 수 있는 공유 저장매체에 저장되는 공유 파일에 각 컴퓨터에서 실행되는 애플리케이션 프로세스의 실행정보를 생성 또는 갱신하는 단계; 상기 애플리케이션 프로세스의 실행정보를 참조하여 상기 애플리케이션 프로세스를 진단하는 단계; 및 상기 애플리케이션 프로세스의 진단 결과에 따라, 자신 또는 다른 컴퓨터에서 실행되는 상기 애플리케이션 프로세스를 운영하는 단계를 실행시키기 위한 프로그램을 기록한다.

본 발명의 실시예들은 당해 기술 분야에서 통상의 지식을 가진 자에게 본 발명을 더욱 완전하게 설명하기 위하여 제공되는 것이며, 하기 실시예는 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 하기 실시예에 한정되는 것은 아니다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명하기로 한다. 도면에서 구성요소들의 크기는 설명을 명확하게 하기 위하여 과장된 것이다. 또한, 도면에서 동일한 참조 부호는 동일한 구성요소를 지칭한다.

또한, 본 발명의 클러스터 컴퓨터 시스템(100)은 2 대 이상의 컴퓨터를 포함하는 클러스터 컴퓨터 시스템에 적용될 수 있다. 이하, 설명의 편의를 위하여 예시적으로 2 대의 컴퓨터를 포함하는 클러스터 컴퓨터 시스템(100)에 대하여 개시한다.

도 1 은 본 발명의 클러스터 컴퓨터 시스템(100)을 개략적으로 나타내는 도면이다.

도 1을 참조하면, 클러스터 컴퓨터 시스템(100)은 로컬 클러스터 인터페이스(local cluster interface, 20)에 의하여 연결된 복수의 컴퓨터(또는 노드, 11) 및 각 컴퓨터(11)에서 버스(bus, 30)에 의하여 접근할 수 있는 공유 저장매체(40)를 포함한다. 로컬 클러스터 인터페이스(20)는 사내통신망(intranet), 근거리통신망(LAN), 도시지역통신망(MAN) 또는 네트워크 토폴로지, 전송매체 및 네트워크 프로토콜을 이용하는 다른 유형의 통신망일 수 있다. 또는, 로컬 클러스터 인터페이스(20)는 스위치일 수 있다. 컴퓨터(11)는 단일 또는 다중프로세서 컴퓨터 시스템일 수 있다. 예를 들면, 컴퓨터(11)는 개인용 컴퓨터(PC), 컴퓨터, 워크스테이션 또는 컴퓨터 아키텍쳐를 갖는 다른 유사한 시스템일 수 있다. 공유 저장매체(40)는 예를 들면, 버스(30)를 통하여 각 컴퓨터(11)에 자료를 전송할 수 있으며, 컴퓨터(11)가 읽고 실행할 수 있는 데이터 및 코드가 저장될 수 있다. 예를 들면, 공유 저장매체(40)는 하드 디스크 드라이브, 씨디롬, 레코딩 테이프, 반도체 메모리 소자 등이다.

도 2a는 본 발명의 클러스터 컴퓨터 시스템을 나타내는 블록다이아그램이다.

도 2a를 참조하면, 본 발명의 클러스터 컴퓨터 시스템(100)은 제 1 컴퓨터(11a) 및 제 2 컴퓨터(11b) 상에서 각각 실행되는 소프트웨어 구성요소로서 애플리케이션 프로세스유닛(1a, 1b) 및 프로세스 운영유닛(2a, 2b) 그리고 공유 저장매체(40)에 저장되는 공유 파일유닛(4)을 포함한다.

공유 파일유닛(4)은 컴퓨터(11a, 11b)가 읽거나 변경할 수 있는 데이터 파일로서 컴퓨터(11a, 11b)에서 실행되는 프로그램의 실행정보가 기록된다.

애플리케이션 프로세스유닛(1a, 1b)은 클러스터 컴퓨터 시스템(100)이 특정 업무(mission)을 수행하기 위한 응용프로그램으로서 각 컴퓨터(11a, 11b)에서 실행 되는 응용소프트웨어 애플리케이션이다. 애플리케이션 프로세스유닛(1a, 1b)은 실행되는 동안 공유 파일유닛(4)에 자신의 실행상태를 나타내는 실행정보를 생성 또는 갱신한다. 애플리케이션 프로세스유닛(1a, 1b)은 실행정보가 기록될 때마다 공유 파일유닛(4)을 별도로 생성하거나, 단일 공유 파일유닛(4) 내에 컨텐츠로서 실행정보를 누적하여 기록할 수 있다. 바람직하게는, 애플리케이션 프로세스유닛(1a, 1b)은 실행되는 동안 일정한 주기로 공유 파일유닛(4)의 실행정보를 생성 또는 갱신한다.

공유 파일유닛(4)의 실행정보는 애플리케이션 프로세스유닛(1a, 1b)이 실행되고 있는 컴퓨터 명, 애플리케이션 프로세스 명, 실행시간과 같은 애플리케이션 프로세스유닛(1a, 1b)의 실행정보를 포함한다. 바람직하게는, 상기 공유 파일유닛(4)은 상기 실행정보를 공유 파일유닛(4)의 파일 명으로 사용할 수 있다. 예를 들면, UNIX의 운영체제에서 제공되는 touch 명령 또는 C언어에서 제공되는 touch( ) 함수를 이용하여 상기 실행정보를 파일 명으로 하는 공유 파일유닛(4)을 생성시킬 수 있다. 그 결과, 상기 공유 파일유닛(4)을 참조하기 위하여 공유파일 유닛(40)에 대하여 열기(open), 기록(write) 및 닫기(close)와 같은 일련의 절차를 거칠 필요없이, 파일 명과 생성시간만으로 애플리케이션 프로세스유닛(1a, 1b)의 실행정보를 판단할 수 있으므로, 시스템의 과부하와 처리속도를 개선시킬 수 있다.

상기와 같이, 애플리케이션 프로세스유닛(1a, 1b)이 공유파일 유닛(40)의 실행정보를 주기적으로 생성 또는 갱신함으로써, 어느 컴퓨터에서 어느 애플리케이션 프로세스유닛이 실행중이며, 현재 정상적으로 작동하는지에 대한 애플리케이션 프 로세스유닛(1a, 1b)의 실행상태를 보고받을 수 있다.

프로세스 운영유닛(2a, 2b)은 애플리케이션 프로세스유닛(1a, 1b)을 운영(management)하는 소프트웨어 구성요소로서, 애플리케이션 프로세스유닛(1a, 1b)이 생성 또는 갱신한 공유 파일유닛(4)의 실행정보를 참조하여 자신 또는 다른 컴퓨터에서 실행되는 애플리케이션 프로세스유닛(1a, 1b)을 운영할 수 있다. 여기서, 운영이라함은 애플리케이션 프로세스유닛(1a, 1b)의 상태를 감시(monitoring) 또는 진단(diagnosis)하고, 애플리케이션 프로세스유닛(1a, 1b)을 종료(kill) 및 재시작(restart)시키는 애플리케이션 프로세스유닛에 대한 프로세스 제어를 뜻한다.

예를 들면, 공유 파일유닛(4)이 일정시간 동안 생성 또는 갱신되지 않는 경우, 프로세스 운영유닛(2a, 2b)은 애플리케이션 프로세스유닛(1a, 1b)의 실행상태가 비정상이라고 판단한다. 다음으로, 프로세스 운영유닛(2a, 2b)은 자신 또는 다른 컴퓨터 상의 애플리케이션 프로세스유닛(1a, 1b)이 실행되고 있는지 판단한다. 만약 실행한다면, 해당 애플리케이션 프로세스유닛(1a, 1b)이 행업(hang-up) 또는 대기(queue) 상태에 있는 것으로 진단하여, 애플리케이션 프로세스유닛을 종료(kill)시키거나, 종료(kill) 후 재시작(restart)시키는 작업을 수행할 수 있다. 예를 들면, UNIX 기반의 컴퓨터인 경우, 다른 컴퓨터 상에 애플리케이션 프로세스유닛(1a, 1b)의 프로세스가 실행되는지 판단하기 위하여, rsh(remote shell)명령을 이용할 수 있다. 또한, 유사한 방식으로, 프로세스 운영유닛(2a, 2b)은 다른 컴퓨터 상의 애플리케이션 프로세스유닛(1a, 1b)을 호출하여 실행시킬 수 있다.

따라서, 본 발명의 클러스터 컴퓨터 시스템(100)에서는, 프로세스 운영유닛 (2a, 2b)이 공유 파일유닛(4)의 실행정보를 참조하여 각 컴퓨터(11a, 11b)의 애플리케이션 프로세스유닛의 실행상태를 진단하고, 로컬 클러스터 인터페이스(20)를 통하여 자신 및 다른 컴퓨터의 애플리케이션 프로세스유닛을 운영함으로써, 패일오버(failover)를 수행할 수 있다.

도 2b는 본 발명의 클러스터 컴퓨터 시스템을 나타내는 블록다이아그램이다.

도 2b 를 참조하면, 클러스터 컴퓨터 시스템(100)은 각 컴퓨터(11a, 11b)의 프로세스 운영유닛(2a, 2b)이 참조하는 운영 파일유닛(5)을 더 포함할 수 있다. 운영 파일유닛(5)은 컴퓨터(11a, 11b)가 읽거나 변경할 수 있는 데이터 파일로서, 프로세스 운영유닛(2a, 2b)이 애플리케이션 프로세스유닛(1a, 1b)을 운영하기 위하여 참조한다.

운영 파일유닛(5)은 애플리케이션 프로세스유닛(1a, 1b)이 운영되는 컴퓨터 명(computer identification); 애플리케이션 프로세스유닛 명(application process identification); 및 상기 애플리케이션 프로세스유닛의 운영지연시간(delay time for management)에 대한 운영정보를 포함한다.

표 1은 운영 파일유닛의 운영정보를 예시적으로 나타내는 표이다. 표 1을 참조하면, 애플리케이션 프로세스유닛 명에는 해당 애플리케이션 프로세스유닛이 존재하는 경로(path)를 표시할 수 있다.

프로세스 운영유닛(2a, 2b)은 운영 파일유닛(5)의 컴퓨터 명 및 애플리케이션 프로세스유닛 명을 참조하여 해당 애플리케이션 프로세스유닛을 운영한다. 운영지연시간(초단위)은 프로세스 운영유닛이 특정 애플리케이션 프로세스유닛의 프 로세스가 비정상이라고 판단한 시점으로부터 해당 애플리케이션 프로세스유닛을 소멸 또는 재시작시키는 운영 조치를 개시하기 위해서 경과되어야 하는 지연시간(delay time)이다.

운영정보	컴퓨터 명	애플리케이션 프로세스 유닛 명	운영지연시간	생성시간
예 1	comp_1	Prc=/usr/usrs/bin/ user_appication_1	R = 120 초	2005.8.3, 21:00
예 2	Comp_2	Prc=/usr/usrs/bin/ user_appication_1	R = 120 초	2005.8.5, 12.00

운영 파일유닛(5)은 운영정보(예1, 2)마다 별도로 생성되거나, 단일 운영 파일유닛(5) 내에 운영정보(예1, 2)를 누적하여 기록할 수 있다.

운영 파일유닛(5)의 운영정보가 변경된 경우 또는 운영 파일유닛의 생성 시간이 변경된 경우, 프로세스 운영유닛(2a, 2b)은 자동으로 운영 파일유닛(5)을 로드(load)하여 참조한다. 바람직하게는, 각 컴퓨터(11a, 11b)에서 접근할 수 있는 공유 저장매체에 운영 파일유닛(5)을 기록함으로써, 운영 파일유닛(5)이 변경된 경우 각 프로세스 운영유닛(2a, 2b)에 변경된 운영정보를 일괄적으로 제공할 수 있다.

운영파일 유닛(5)의 운영정보는 복수의 프로세스 운영유닛(2a, 2b)이 애플리케이션 프로세스유닛(1a, 1b)을 특정 컴퓨터(11a, 11b)에서 선택적으로 또는 우선적으로 실행할 수 있도록, 애플리케이션 프로세스유닛이 선택적 또는 우선적으로 실행되어야 할 컴퓨터 명을 더 포함할 수 있다. 표 2는 특정 컴퓨터에서 애플리케이션 프로세스유닛을 선택적 또는 우선적으로 실행시키기 위한 운영정보를 예시적으로 나타내는 표이다.

예 1은, P1 및 P2에 각각 클러스터 컴퓨터 시스템(100)의 특정 컴퓨터인 comp_1(11a) 및 comp_2(11b)를 지정함으로써, 복수의 컴퓨터 중 컴퓨터 comp_1(11a) 및 comp_2(11b)에서만 특정 애플리케이션 프로세스유닛 user_appication_1 이 선택적으로 실행될 수 있음을 나타낸다.

예 2는, 선순위를 갖는 주컴퓨터 P 및 후순위를 갖는 보조컴퓨터 S(주컴퓨터가 비이상적 동작을 하는 경우에 보조적을 실행되는 역할을 함)에 각각comp_1(11a) 및 comp_2(11b)를 지정함으로써, 컴퓨터 comp_1 및 comp_2에서 우선순위를 부여하여 애플리케이션 프로세스유닛 user_appication_1이 실행되는 컴퓨터(11a, 11b)에 순서를 부여할 수 있음을 나타낸다.

바람직하게는, 운영파일 유닛(5)은 다른 컴퓨터의 애플리케이션 프로세스를 동작시키기 위한 애플리케이션 프로세스의 패일오버시간(failover time)에 관한 운영정보를 더 포함한다. 패일오버시간은, 특정 컴퓨터에서 실행되는 애플리케이션 프로세스유닛의 프로세스가 비정상인 경우 다른 컴퓨터의 애플리케이션 프로세스유닛을 호출하여 실행시키기 위해 경과되어야 하는 시간이다.

예를 들면, 프로세스 운영유닛(2a)은, 자신의 컴퓨터(11a)에서 실행되는 애플리케이션 프로세스유닛(1a)의 프로세스가 비정상이라고 판단한 시점으로부터 운영지연시간(예를 들면, R = 120초)이 경과하면, 애플리케이션 프로세스유닛(1a)의 프로세스를 복구시키려고 노력한다. 그러나, 애플리케이션 프로세스유닛(1a)의 프로세스의 복구가 실패하여 애플리케이션 프로세스유닛(1a)의 비정상 상태가 패일오버시간(예를 들면, 예 1의 F = 240초)을 경과하여 지속된다면, 프로세스 운영유닛(2a, 2b)은 다른 컴퓨터(11b)의 애플리케이션 프로세스유닛(1b)을 호출하여 실행시킨다.

특히, 예 2와 같이 특정 컴퓨터comp_1(11a)에서 애플리케이션 프로세스유닛 user_appication_1을 우선적으로 실행시키는 경우에는, 프로세스 운영유닛(2a, 2b)이 comp_2(11b)의 애플리케이션 프로세스유닛(1b)을 호출하여 실행시킨 후에도, comp_1(11a)의 애플리케이션 프로세스유닛(1a)의 프로세스를 복구시키기 위하여 노력한다. 만약, comp_1(11a)의 애플리케이션 프로세스유닛(1a)의 프로세스가 복구되어 정상적으로 동작하면, 프로세스 운영유닛(2a, 2b)은 제 2 컴퓨터의 애플리케이션 프로세스유닛(1b)을 소멸시켜, comp_1(11a)의 애플리케이션 프로세스유닛(1a)만 작동하도록 한다.

바람직하게는, 복수의 프로세스 운영유닛(2a, 2b)이 동일한 애플리케이션 프로세스유닛(1a, 1b)을 중복하여 호출, 시작 및 종료시키는 것을 방지하기 위하여, 프로세스 운영유닛(2a, 2b) 사이에 우선권을 부여할 수 있다.

실시예	컴퓨터 명	컴퓨터 명	애플리케이션 프로세스 유닛 명	운영지연 시간	패일오버시간	생성시간
예 1	P1= comp_1	P2 = comp_2	Prc=/usr/usrs/bin/ user_appication_1	R = 120 초	F = 240 초	2005.8.3 21:00
예 2	P= comp_1	S = Comp_2	Prc=/usr/usrs/bin/ user_appication_1	R = 120 초	F = 360 초	2005.8.5 12.00

도 2c는 본 발명의 클러스터 컴퓨터 시스템을 나타내는 블록다이아그램이다.

도 2c를 참조하면, 클러스터 컴퓨터 시스템(100)은 각 컴퓨터(11a, 11b)에서 실행되며, 자신의 프로세스 운영유닛(2a, 2b)의 실행 여부를 주기적으로 진단하여, 프로세스 운영유닛(2a, 2b)의 프로세스가 소멸된 경우, 재시작(restart)시키는 예약 프로세스유닛(3a, 3b)을 더 포함한다. 바람직하게는, 예약 프로세스유닛(3a, 3b)은 각 컴퓨터(11a, 11b)의 운영체제(operation system)에서 제공되는 영구(daemon) 프로세스유닛일 수 있다. 예를 들면, 클러스터 컴퓨터 시스템을 구성하는 컴퓨터의 운영체제가 UNIX 기반인 경우, w 제공되는 'crontab'이라는 일종의 영구 프로세스를 이용할 수 있다. UNIX 시스템의 배치잡(batch job)을 관리하는 crontab은, 일정한 주기로 프로세스 운영유닛(2a, 2b)이 실행되는지 검사하고 프로세스 운영유닛(2a, 2b)의 프로세스가 소멸된 경우 이를 재시작시키는 것을 자동으로 수행하는 예약 명령어를 실행시킬 수 있다. 그 결과, 본 발명의 클러스터 컴퓨터 시스템(100)은 운영요원이 장시간 운용관리를 할 수 없는 무인관리 시스템에 적용할 수 있다.

도 3을 참조하면, 본 발명의 자동화된 패일오버 운영 서비스를 제공하는 방법은, 애플리케이션 프로세스의 실행정보를 생성 또는 갱신하는 단계(S10); 애플리케이션 프로세스를 진단하는 단계(S20); 애플리케이션 프로세스를 운영하는 단계(S30)를 포함한다. 여기서, 애플리케이션 프로세스란 클러스터 컴퓨터 시스템내에서 특정 작업(mission)을 수행하는 응용프로그램의 실행상태를 지칭한다.

애플리케이션 프로세스의 실행정보를 생성 또는 갱신하는 단계(S10)는, 각 컴퓨터에서 접근할 수 있는 공유 저장매체, 예를 들면, 하드 디스크 드라이브, 씨디롬, 레코딩 테이프, 반도체 메모리 소자 등에 저장되는 공유파일의 실행정보를 각 컴퓨터에서 실행되는 애플리케이션 프로세스가 생성 또는 갱신함으로써 수행된다. 상기 공유파일의 실행정보는 상기 애플리케이션 프로세스가 실행되는 컴퓨터 명, 애플리케이션 프로세스 명, 실행시간 등을 포함할 수 있다. 애플리케이션 프로세스의 실행정보를 생성 또는 갱신하는 단계(S10)는 수행될 때마다 별도로 공유파일을 생성시키거나, 단일 공유파일내에 실행정보를 누적하여 기록함으로써 수행된다.

바람직하게는, 상기 애플리케이션 프로세스의 실행정보를 생성 또는 갱신하는 단계(S10)는 상기 애플리케이션 프로세스가 실행되는 동안 일정한 주기로 수행된다. 그 결과, 어느 컴퓨터에서 어느 애플리케이션 프로세스가 실행중이며, 현재 정상적으로 동작하는지에 대한 상기 애플리케이션 프로세스의 실행상태가 주기적으로 보고될 수 있다.

애플리케이션 프로세스를 진단하는 단계(S20)는 상기 공유파일의 실행정보를 참조하여, 각 컴퓨터에서 실행되는 상기 애플리케이션 프로세스의 실행여부를 판단한다. 애플리케이션 프로세스를 진단하는 단계(S20)는 애플리케이션 프로세스를 운영하는 소프트웨어 프로그램에 의하여 자동으로 수행된다. 상기 애플리케이션 프로세스를 운영하는 소프트웨어 프로그램은 도 2a의 프로세스 운영유닛(2a, 2b)에 해당한다.

상기 프로세스 운영유닛은 상기 공유파일에 대하여 열기(open), 읽기(read), 기록(write) 및 닫기(close)와 같은 일련의 절차를 수행함으로써 상기 애플리케이션 프로세스의 실행정보를 참조한다. 상기 프로세스 운영유닛은 공유파일의 실행정보가 일정시간 동안 생성 또는 갱신되지 않는 경우, 상기 애플리케이션 프로세스가 비정상이라고 판단한다. 다음으로, 상기 프로세스 운영유닛은 자신 또는 다른 컴퓨터 상에 애플리케이션 프로세스가 존재하는지 판단한다. 상기 프로세스 운영유닛은 상기 공유파일의 실행정보 및 각 컴퓨터 상에 상기 애플리케이션 프로세스가 존재하는지 검사하여, 해당 애플리케이션 프로세스가 소멸 또는 행업(hang-up) 및 대기(queue) 상태인지 진단한다.

애플리케이션 프로세스를 운영하는 단계(S30)는 상기 애플리케이션 프로세스의 진단 결과에 따라, 자신 또는 다른 컴퓨터에서 실행되는 상기 애플리케이션 프로세스를 운영한다. 예를 들면, 상기 프로세스 운영유닛은 상기 애플리케이션 프로세스가 컴퓨터 상에서 소멸된 경우 이를 호출하여 다시 시작시키며, 상기 애플리케이션 프로세스가 행업 상태인 경우 이를 종료(kill)시킨 후 재시동(restart)시킴으로써 애플리케이션 프로세스를 제어한다.

도 4를 참조하면, 본 발명의 자동화된 패일오버 운영 서비스를 제공하는 방법은, 애플리케이션 프로세스를 진단하는 단계(S20) 및 애플리케이션 프로세스를 운영하는 단계(S30)가 실행되는지 반복적으로 진단하여, 애플리케이션 프로세스를 진단하는 단계(S20) 및 애플리케이션 프로세스를 운영하는 단계(S30)가 지속적으로 실행되도록 하는 단계(S40)를 더 포함한다. 예를 들면, 클러스터 컴퓨터 시스템을 구성하는 컴퓨터의 운영체제가 UNIX 기반인 경우, 자체적으로 제공되는 'crontab'이라는 일종의 영구 프로세스를 이용할 수 있다. UNIX 시스템의 배치잡(batch job)을 관리하는 crontab은, 일정한 주기로 프로세스 운영유닛이 실행되는지 검사하고 프로세스 운영유닛의 프로세스가 소멸된 경우 이를 재시작시키는 것을 자동으로 수행하는 예약 명령어를 실행시킬 수 있다.

그 결과, 본 발명의 자동화된 패일오버 운영 서비스를 제공하는 방법은, 리소스 사이의 부하(load)를 적절하게 분배시키고 하나의 리소스가 실패한 경우 다른 리소스로 패일오버를 할 수 있는 유연성을 갖는 자동화된 무정지 서비스(automated uninterrupted service)를 제공할 수 있다.

또한, 본 발명의 클러스터 컴퓨터 시스템의 자동화된 운영 서비스 제공 방법은 이를 수행하기 위한 프로그램으로서 컴퓨터에서 실행시키기 위해 컴퓨터가 읽을 수 있는 기록매체에 기록될 수 있다.

이상에서 설명한 본 발명이 전술한 실시예 및 첨부된 도면에 한정되지 않으며, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러가지 치환, 변형 및 변경이 가능하다는 것은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 명백할 것이다.

상술한 바와 같이 본 발명의 클러스터 컴퓨터 시스템은, 공유 저장매체에 기록된 공유 파일유닛을 참조하여 애플리케이션 프로세스유닛의 실행상태를 진단하 고, 운영 파일유닛을 참조하여 실패한 애플리케이션 프로세스유닛을 다른 컴퓨터에서 자동으로 시작시킴으로써, 무정지 서비스를 제공할 수 있는 자동화된 패일오버 기능을 제공한다.

또한, 본 발명의 클러스터 컴퓨터 시스템의 자동화된 패일오버 운영 서비스 제공 방법 및 이를 실행시키기 위한 컴퓨터로 읽을 수 있는 기록매체는, 공유 저장매체에 기록된 공유파일을 참조하여 애플리케이션 프로세스의 실행상태를 진단하고, 운영파일을 참조하여 실패한 애플리케이션 프로세스를 다른 컴퓨터에서 자동으로 시작시킴으로써, 무정지 서비스를 제공할 수 있는 자동화된 패일오버 기능을 제공한다.

Claims

각 컴퓨터에서 접근할 수 있는 공유 저장매체에 저장되며 상기 각 컴퓨터에서 실행되는 프로그램의 실행정보가 기록되는 공유 파일유닛;

실행되는 동안 상기 공유 파일유닛의 실행정보를 생성 또는 갱신하는 애플리케이션 프로세스유닛;

상기 각 컴퓨터에서 실행되며, 상기 공유 파일유닛의 실행정보를 참조하여 자신 및 다른 컴퓨터에서 실행되는 상기 애플리케이션 프로세스유닛을 운영하는 프로세스 운영유닛을 포함하는 것을 특징으로 하는 클러스터 컴퓨터 시스템.
제 1 항에 있어서,

상기 공유 파일유닛의 실행정보는 상기 애플리케이션 프로세스유닛이 실행되는 컴퓨터 명, 애플리케이션 프로세스유닛 명, 실행시간을 포함하는 것을 특징으로 하는 클러스터 컴퓨터 시스템.
제 1 항에 있어서,

상기 공유 파일유닛은 상기 실행정보를 공유 파일유닛의 파일 명으로 사용하는 것을 특징으로 하는 클러스터 컴퓨터 시스템.
제 1 항에 있어서,

상기 애플리케이션 프로세스유닛은 실행되는 동안 일정한 주기로 상기 공유 파일유닛의 실행정보를 생성 또는 갱신하는 것을 특징으로 하는 클러스터 컴퓨터 시스템.
제 1 항에 있어서,

상기 프로세스 운영유닛은, 복수의 프로세스 운영유닛이 상기 애플리케이션 프로세스유닛을 중복하여 운영하지 않도록, 상기 애플리케이션 프로세스유닛을 배타적으로 운영하는 우선권이 부여되는 것을 특징으로 하는 클러스터 컴퓨터 시스템.
제 1 항에 있어서,

상기 프로세스 운영유닛이 상기 애플리케이션 프로세스유닛을 운영하기 위하여 참조하며,

상기 애플리케이션 프로세스유닛이 운영되는 컴퓨터 명(computer identification); 상기 애플리케이션 프로세스유닛 명(application process identification); 및 상기 애플리케이션 프로세스유닛의 운영지연시간(delay time for management)에 대한 운영정보를 포함하는 운영 파일유닛을 더 포함하는 것을 특징으로 하는 클러스터 컴퓨터 시스템.
제 6 항에 있어서,

상기 프로세스 운영유닛은, 상기 운영 파일유닛의 운영정보 또는 생성시간이 변경되면 다시 상기 운영 파일유닛을 참조하는 것을 특징으로 하는 클러스터 컴퓨터 시스템.
제 6 항에 있어서,

상기 운영 파일유닛은, 상기 프로세스 운영유닛이 상기 컴퓨터 중 특정 컴퓨터에서 상기 애플리케이션 프로세스유닛을 선택적으로 실행할 수 있도록, 선택적으로 실행되어야 할 컴퓨터 명에 대한 운영정보를 더 포함하는 것을 특징으로 하는 클러스터 컴퓨터 시스템.
제 6 항에 있어서,

상기 운영 파일유닛은, 상기 프로세스 운영유닛이 상기 컴퓨터 중 우선권이 부여된 특정 컴퓨터에서 상기 애플리케이션 프로세스유닛을 우선적으로 실행시킬 수 있도록, 우선적으로 실행되어야 할 컴퓨터 명에 대한 운영정보를 더 포함하는 것을 특징으로 하는 클러스터 컴퓨터 시스템.
제 6 항에 있어서,

상기 운영파일 유닛은 다른 컴퓨터의 애플리케이션 프로세스유닛을 가동시키기 위한 상기 애플리케이션 프로세스유닛의 패일오버시간(failover time)에 대한 운영정보를 더 포함하는 것을 특징으로 하는 클러스터 컴퓨터 시스템.
제 6 항에 있어서,

상기 운영 정보유닛은 상기 각 컴퓨터에서 접근할 수 있는 공유 저장매체에 기록되는 것을 특징으로 하는 클러스터 컴퓨터 시스템.
제 1 항에 있어서,

상기 각 컴퓨터에서 실행되며, 상기 각 컴퓨터의 프로세스 운영유닛의 실행상태를 주기적으로 진단하여, 상기 프로세스 운영유닛이 소멸된 경우, 재시작(restart)시키는 예약 프로세스유닛을 더 포함하는 것을 클러스터 컴퓨터 시스템.
제 12 항에 있어서,

상기 예약 프로세스유닛은 상기 컴퓨터의 운영체제에서 제공되는 영구(daemon) 프로세스유닛인 것을 특징으로 하는 클러스터 컴퓨터 시스템.
각 컴퓨터에서 접근할 수 있는 공유 저장매체에 저장되는 공유파일에 각 컴퓨터에서 실행되는 애플리케이션 프로세스의 실행정보를 생성 또는 갱신하는 단계;

상기 애플리케이션 프로세스의 실행정보를 참조하여 상기 애플리케이션 프로세스를 진단하는 단계; 및

상기 애플리케이션 프로세스의 진단 결과에 따라, 자신 또는 다른 컴퓨터에서 실행되는 상기 애플리케이션 프로세스를 운영하는 단계를 포함하는 것을 특징으 로 하는 클러스터 컴퓨터 시스템의 자동화된 패일오버 운영 서비스 제공 방법.
제 14 항에 있어서,

상기 공유파일의 실행정보는 상기 애플리케이션 프로세스가 실행되는 컴퓨터 명, 애플리케이션 프로세스 명, 실행시간을 포함하는 것을 특징으로 하는 클러스터 컴퓨터 시스템의 자동화된 패일오버 운영 서비스 제공 방법.
제 14 항에 있어서,

상기 애플리케이션 프로세스의 실행정보를 생성 또는 갱신하는 단계는 상기 애플리케이션 프로세스가 실행되는 동안 일정한 주기로 수행되는 것을 특징으로 하는 클러스터 컴퓨터 시스템의 자동화된 패일오버 운영 서비스 제공 방법.
제 16 항에 있어서,

상기 애플리케이션 프로세스를 진단하는 단계는 상기 일정한 주기를 초과하여도 상기 애플리케이션 프로세스가 실행정보를 생성 또는 갱신하지 않는 경우에 상기 애플리케이션 프로세스가 비정상 상태인 것으로 진단하는 것을 특징으로 하는 클러스터 컴퓨터 시스템의 자동화된 패일오버 운영 서비스 제공 방법.
제 14 항에 있어서,

상기 애플리케이션 프로세스를 진단하는 단계 및 상기 애플리케이션 프로세 스를 운영하는 단계가 실행되는지 반복적으로 진단하여, 상기 애플리케이션 프로세스를 진단하는 단계 및 상기 애플리케이션 프로세스를 운영하는 단계가 지속적으로 실행되도록 하는 단계를 더 포함하는 것을 특징으로 하는 클러스터 컴퓨터 시스템의 자동화된 패일오버 운영 서비스 제공 방법.
각 컴퓨터에서 접근할 수 있는 공유 저장매체에 저장되는 공유파일에 각 컴퓨터에서 실행되는 애플리케이션 프로세스의 실행정보를 생성 또는 갱신하는 단계;

상기 애플리케이션 프로세스의 실행정보를 참조하여 상기 애플리케이션 프로세스를 진단하는 단계; 및

상기 애플리케이션 프로세스의 진단 결과에 따라, 자신 또는 다른 컴퓨터에서 실행되는 상기 애플리케이션 프로세스를 운영하는 단계를 포함하는 것을 특징으로 하는 클러스터 컴퓨터 시스템의 자동화된 패일오버 운영 서비스 제공 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
제 19 항에 있어서,

상기 공유파일의 실행정보는 상기 애플리케이션 프로세스가 실행되는 컴퓨터 명, 애플리케이션 프로세스 명, 실행시간을 포함하는 것을 특징으로 하는 클러스터 컴퓨터 시스템의 자동화된 패일오버 운영 서비스 제공 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
제 19 항에 있어서,

상기 애플리케이션 프로세스의 실행정보를 생성 또는 갱신하는 단계는 상기 애플리케이션 프로세스가 실행되는 동안 일정한 주기로 수행되는 것을 특징으로 하는 클러스터 컴퓨터 시스템의 자동화된 패일오버 운영 서비스 제공 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
제 21 항에 있어서,

상기 애플리케이션 프로세스를 진단하는 단계는 상기 일정한 주기를 초과하여도 상기 애플리케이션 프로세스가 실행정보를 생성 또는 갱신하지 않는 경우에 상기 애플리케이션 프로세스가 비정상 상태인 것으로 진단하는 것을 특징으로 하는 클러스터 컴퓨터 시스템의 자동화된 패일오버 운영 서비스 제공 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
제 19 항에 있어서,

상기 애플리케이션 프로세스를 진단하는 단계 및 상기 애플리케이션 프로세스를 운영하는 단계가 실행되는지 반복적으로 진단하여, 상기 애플리케이션 프로세스를 진단하는 단계 및 상기 애플리케이션 프로세스를 운영하는 단계가 지속적으로 실행되도록 하는 단계를 더 포함하는 것을 특징으로 하는 클러스터 컴퓨터 시스템의 자동화된 패일오버 운영 서비스 제공 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.