KR19990050460A

KR19990050460A - 고 가용성 시스템의 장애 복구방법 및 장치

Info

Publication number: KR19990050460A
Application number: KR1019970069586A
Authority: KR
Inventors: 김재민
Original assignee: 구자홍; 엘지전자 주식회사
Priority date: 1997-12-17
Filing date: 1997-12-17
Publication date: 1999-07-05

Abstract

본 발명은 고 가용성 시스템의 장애 복구방법 및 장치에 관한것으로서, 다중 프로세서 시스템을 이중화 시스템으로 구성하고, 시스템 동작시에 상대 시스템의 장애를 감지하는 기능을 제공함과 아울러 장애 발생시 상대 시스템에게 현재 작업중인 서비스를 제공함으로써, 장애 발생시에 시스템의 정지 시간을 최소하하여 업무 효율성을 향상시키도록 한 것이다.

이와같은 고 가용성 시스템의 장애 복구방법은 동일한 구성을 가지는 두 개의 시스템 기동시, 상호 시스템의 동기를 맞추고 각각 고가용성 시스템 환경으로 액티브시키는 과정; 고가용성 시스템 환경으로 액티브 된후, 시스템의 정의된 서비스를 수행하는 과정; 서비스 수행도중, 상대 시스템의 상태 정보를 파악하기 위한 검사를 수행하고, 장애 발생시에 다른 시스템에 서비스를 제공하는 과정; 서비스 제공이 완료되면 고 가용성 시스템의 상태를 해제시키는 과정을 포함함으로써 달성된다.

Description

고 가용성 시스템의 장애 복구방법 및 장치

본 발명은 고 가용성 시스템(High Availability System)에 관한것으로서, 보다 상세하게는 다중 프로세서 시스템을 이중화하여, 시스템 동작중에 상대 시스템의 상태 정보를 제공받아 장애 여부를 판단하고, 장애가 발생된 상대 시스템에서 서비스하던 작업을 제공받아 지속적으로 동작시켜 시스템의 정지시간(Down time)을 최소하 하도록 하는 고가용성 시스템의 장애 복구방법 및 장치에 관한 것이다.

일반적으로, 컴퓨터 시스템은 소프트웨어, 하드웨어등에 의한 장애 발생등으로 인한 시스템이 정지되는 것을 방지하고, 프로세서의 내부 동작이 불안정으로 동작하고 있는가등을 검사하는 프로그램을 준비하여 데이터의 완전성을 유지하고, 만일 장애가 발생되면 장애 부위를 조기에 발견하여 자동적으로 장애 상태를 판단할수 있도록 하여 시스템의 신뢰성, 가용성, 보수성등을 향상시키고 있다.

이와 같이 시스템의 성능을 향상시키기 위해서 하드웨어 기술과 소프트 웨어의 기술적인 연계가 필요하게 되었고, 통상 상대 시스템의 상태 감시는 네트워크 채널 및 시스템 주변기기 제어용 버스인 스카시(SCSI : Small Computer System Interface) 버스를 이용하여 수행되었다.

한편, 도 1은 일반적인 다중 프로세서 시스템의 개략적인 블록구성도로서, 이에 도시된 바와 같이 시스템 버스(System Bus)를 공유하며, 다수개의 프로세서로 구성되는 마이크로 프로세서 보드(MPU)(10 ~ 10n)와, 상기 시스템 버스를 공유하며, 각 데이터를 저장 및 판독하도록 다수개의 메모리를 탑재한 메모리 보드(12)와, 상기 시스템 버스에 연결된 각 시스템을 제어하기 위한 시스템 제어 보드(System Control Module : 이하 "SCM"이라 약칭함)(16)와, 각 MPU(10 ~ 10n)로부터 입/출력 요구를 받아 이를 처리하고, SCM(16)과 입/출력 주변 장치들 사이에서 브이엠이 버스(VME BUS) 또는 스카시 버스를 통해 전송되는 데이터를 버퍼링하는 입/출력 처리 보드(IOP)(14)로 구성된다.

여기서, SCM(16)에 연결되는 VME 버스에는 WAN 제어부(18), 랜 제어부(20), 터미널 제어부(22)등이 접속된다.

이와 같이 구성된 다중 프로세서 시스템에서, 특정 데이터를 출력하고자 하는 경우에 마이크로 프로세서(10 ~ 10n)는 사용자가 요구한 데이터에 대한 어드레스를 시스템 버스에 구동시키고, 이후 메모리 보드(12)로부터 해당 어드레스에 저장되어 있는 데이터를 프린터와 같은 출력 수단을 통해 사용자에게 제공한다.

다시 말해, 컴퓨터 입/출력 버스의 정보 흐름을 관리하고 입/출력 제어를 가지는 마이크로 프로세서(10 ~ 10n)는 프로그램 메모리로부터 제어 명령어를 받아 시스템 제어보드(16)와 연결되는 WAN 제어부(18),랜 제어부(20), 터미널 제어부(22)를 제어한다.

그러나, 상기한 종래 기술에 따른 다중 프로세서 시스템은 시스템에 장애가 발생시에 장애 내용을 파악하기가 어렵고, 또한 장애 복구가 어려운 문제점이 있었다.

즉, 이러한 다중 프로세서 시스템은 장애가 발생하는 경우, 장시간동안 시스템을 복구하기 위해 시스템이 정지된 상태로 있어야 한다. 장애 내용이 소프트 웨어의 순간적인 장애인 경우는 시스템을 재부팅 하면 되지만, 하드웨어에 장애가 발생된 경우에는 장애 부분을 파악하고 복구하는데 많은 시간이 소요된다. 이에 따라 다중 프로세서 시스템을 사용하는 사용자는 장애 복구시까지 기다려야 하는 문제점이 있었다.

따라서, 본 발명의 목적은 다중 프로세서 시스템을 이중화 시스템으로 구성하고, 시스템 동작시에 상대방 시스템의 장애를 감지하는 기능을 제공함과 아울러 장애 발생시 상대방 시스템에게 현재 작업중인 서비스를 제공(Take Over)하는 고 가용성 시스템의 장애 복구방법 및 장치를 제공함에 있다.

도 1은 일반적인 다중 프로세서 시스템을 보인 블록 구성도이고,

도 2는 본 발명에 따른 고 가용성 시스템의 장애 복구장치를 보인 블록 구성도이고,

도 3은 본 발명에 따른 장애 복구과정을 보인 흐름도이다.

<도면의 주요 부분에 대한 부호의 설명>

30 : 클러스터 관리 시스템 32, 34 : 제 1시스템, 제 2시스템

32a, 34a : 대몬 프로세스 32b, 34b : 서버 프로세스

32c, 34c : 클라이언트 프로세스 32d, 32d : 오류검출 프로세스

36 : 공유 디스크

상기와 같은 목적을 달성하기 위하여 본 발명의 하나의 양태에 따른 고 가용성 시스템의 장애 복구방법은, 동일한 구성을 가지는 두 개의 시스템 기동시, 상호 시스템의 동기를 맞추고 각각 고가용성 시스템 환경으로 액티브시키는 과정; 상기 고가용성 시스템 환경으로 액티브 된후, 상기 시스템의 정의된 서비스를 수행하는 과정; 상기 서비스 수행도중, 상대 시스템의 상태 정보를 파악하기 위한 검사를 수행하고, 장애 발생시에 다른 시스템에 서비스를 제공하는 과정; 상기 서비스 제공이 완료되면 고 가용성 시스템의 상태를 해제시키는 과정을 포함한다.

바람직하게, 상기 고가용성 시스템 환경이 인액티브인 경우, 고 가용성 시스템 환경으로 셋업하기 위한 프로세스를 수행시키는 것을 특징으로 한다.

바람직하게, 상기 프로세스는 고가용성 관리 프로세스, 오류 검출 프로세스 및 대몬 프로세스를 포함하는 것을 특징으로 한다.

또한, 상기된 바와 같은 목적을 달성하기 위하여, 본 발명의 또 다른 양태에 따른 고 가용성 시스템의 장애 복구장치는, 공중망에 인터페이스 연결되는 관리 시스템 및 제 1시스템, 제 2시스템과 상기 제 1시스템, 제 2시스템은 각각 버스를 통해 공유 디스크를 공유하는 이중화 시스템에 있어서; 상기 제 1시스템, 제 2시스템은 서비스를 제공하고 요구하는 서버 및 클라이언트 프로세스와, 상기 서버 및 클라이언트 프로세스가 동작중에 오류를 검색하는 오류 검출 프로세스와, 상기 관리 시스템의 대몬 프로세스를 포함한다.

선택적으로, 상기 제 1시스템과 제 2시스템의 상호 상태 정보 제공은 상기 제 1시스템과 제 2시스템을 상호 연결하는 시리얼 라인과, 상기 공중망을 통해 제공받는 것을 특징으로 한다.

이하, 본 발명의 바람직한 실시예를 첨부된 도면을 참고하여 상세히 설명하면 다음과 같다.

도 2는 본 발명에 따른 고 가용성 시스템의 장애 복구장치를 보인 블록 구성도로서, 이에 도시된 바와 같이 공중 망에 인터페이스를 통해 연결되는 제 1시스템(32), 제 2시스템(34) 및 클러스터 관리 시스템(30), 시리얼 라인을 통해 제 1시스템(32)과 제 2시스템(34)이 상호 연결되며, 이들이 각각 공유하는 공유디스크(36)로 구성된다.

바람직하게, 제 1시스템(32)과 제 2시스템(34)은 각각 서버/클라이언트 프로세스(32b)(32c)(34b)(34c)와, 오류를 검출하는 오류 검출 프로세스(32d)(34d), 클러스터 관리 대몬 프로세스(CMSD :이하 대몬 프로세스라 약칭함)(32a)(34a)를 포함한다.

이와 같이 구성된 고 가용성 시스템의 장애 복구과정을 도 3을 참고하여 상세히 설명하면 다음과 같다.

먼저, 제 1, 제 2 시스템(32)(34)이 기동되는 경우, 상대(Remote) 시스템과의 동기를 맞추기 위하여 고가용성 셋업 프로세스(HASETUP Process)를 수행한다(ST10)(ST11).

고가용성 셋업 프로세스는 제 1, 제 시스템(32)(34)에서 각각 수행되며, 이때 상대 시스템의 상태를 감시하기 위해(Heart beat) 상호 시스템을 연결시키는 시리얼 라인(Serial Line)을 SLIP(Serial line Internet Protocol)으로 셋업시킨다(ST12)(ST13).

이후, 고가용성 셋업 프로세스는 시리얼 라인의 상태 감시기능을 이용하여 상대 시스템이 준비된 상태인지를 검사하고, 만약 준비가 되지 않는 상태이면 준비될때까지 상대 시스템을 폴링(Polling)한다. 즉, 제 2시스템(34)을 검사하는 경우, 제 1시스템(32)이 시리얼 라인(Serial line)을 통해 시스템이 액티브될때까지 정기적으로 제 2시스템(34)의 상태를 검사한다(ST14)(ST15).

계속해서, 상대 시스템이 액티브 상태가 되면, 이후 상대 시스템이 고가용성 상태로 액티브 되었는지를 검사한다(ST16)(ST17). 이때, 상대 시스템이 고가용성 환경으로 액티브 된 상태이면 다른 시스템의 자원을 해제시킨후, 해제 완료 명령을 기다리고, 시리얼 라인을 이용한 상대 시스템의 상태 감시 정보를 시작한다(ST18)(ST19)(ST23).

만약, 상대 시스템이 고가용성 상태로 액티브 된 상태가 아니면 제 1, 제 2시스템(32)(34)은 모두 초기 상태이므로, 공중망(Public Lan)을 셋업하고, 고 가용성 시스템을 구성하기 위해 필요한 HAM(High Availability Manager)프로세스, 오류 검출 프로세스(Fault Detection) 및 대몬 프로세스를 수행시킨다(ST20)(ST22).

즉, 고가용성 셋업 프로세스에 의해 수행된 고가용성 프로세스는, 고가용성 시스템을 구성하기 위하여 상대 시스템을 호출하기 위한 RPC(Remote Procedure Call)을 이용하여 상대 시스템의 상태 정보를 주기적으로 폴링한다. 이때 상대 시스템의 상태 정보를 제공받는 경로는 상기에서 기술한 공중망을 이용한 방법과 시리얼 라인을 이용하는 방법이 사용된다.

이와 같은 방법에 의하여 상대 시스템의 상태 정보를 감시하는데, 첫 번째 방법인 공중망을 이용하여 상대 시스템의 상태 정보를 제공받는 방법이 실패하는 경우(ST24), 두 번째 방법인 시리얼 라인을 이용하여 상대방 시스템의 상태 정보를 검사한다(ST26). 시리얼 라인을 통한 상태 정보 검사도 실패인 경우는 상대 시스템에 장애가 발생된 상태이다(ST28). 이때는 클러스터 관리 시스템(30)을 검사하고, 상대 시스템이 제공하던 서비스를 다른 시스템에 제공하기 위한 작업이 수행된다(ST30).

이와 같은 서비스 제공은, 먼저 제 1, 제 2시스템(32)(34)의 클라이언트 프로세스(32c)(34c)들은 서버 프로세스(32b)(34b)에 장애가 발생한 것과는 무관하게 계속적으로 작업이 이루어져야 한다. 즉, 서비스를 요구하는 클라이언트 프로세스(32c)(34c)는 지속적인 동작이 필요하며, 이에 따라 인터넷 프로토콜(Internet Protocol)에 의한 서비스 제공을 수행한다. 인터넷 프로토콜에 의한 클라이언트 프로세스(32c)(34c)의 서비스 제공은 동일한 서버 프로세스(32b)(34b)의 인터넷 프로토콜 어드레스로 억세스하여도 가능하게 하기 위하여 동일 인터넷 프로토콜 어드레스로 셋업하여 서비스가 되도록 한다.

이후, 장애가 발생된 시스템에서 제공하던 서비스를 상대 시스템에 인계하여 계속적으로 시스템을 동작시키고, 서비스 제공이 완료되면 상기와 같은 서비스 제공 과정을 해제 명령에 따라 해제시키고, 보통 상태로 시스템을 전환시킨다(ST32 ~ ST38).

이상에서 상세히 설명한 바와 같이, 본 발명은 다중 프로세서 시스템을 이중화 시스템으로 구성하고, 시스템 동작시에 상대 시스템의 장애를 감지하는 기능을 제공함과 아울러 장애 발생시 상대 시스템에게 현재 작업중인 서비스를 제공함으로써, 장애 발생시에 시스템의 정지 시간을 최소하하여 사용자가 전산 업무 수행시 업무 효율성을 향상시키는 효과가 있다.

Claims

동일한 구성을 가지는 두 개의 시스템 기동시, 상호 시스템의 동기를 맞추고 각각 고가용성 시스템 환경으로 액티브시키는 과정; 상기 고가용성 시스템 환경으로 액티브 된후, 상기 시스템의 정의된 서비스를 수행하는 과정; 상기 서비스 수행도중, 상대 시스템의 상태 정보를 파악하기 위한 검사를 수행하고, 장애 발생시에 다른 시스템에 서비스를 제공하는 과정; 상기 서비스 제공이 완료되면 고 가용성 시스템의 상태를 해제시키는 과정을 포함하는 것을 특징으로 하는 고 가용성 시스템의 장애 복구방법.
제 1항에 있어서, 상기 고가용성 시스템 환경이 인액티브인 경우, 고 가용성 시스템 환경으로 셋업하기 위한 프로세스를 수행시키는 것을 특징으로 하는 고 가용성 시스템의 장애 복구방법.
제 2항에 있어서, 상기 프로세스는 고가용성 관리 프로세스, 오류 검출 프로세스 및 대몬 프로세스를 포함하는 것을 특징으로 하는 고 가용성 시스템의 장애 복구 방법.
공중망에 인터페이스 연결되는 관리 시스템 및 제 1시스템, 제 2시스템과 상기 제 1시스템, 제 2시스템은 각각 버스를 통해 공유 디스크를 공유하는 이중화 시스템에 있어서;

상기 제 1시스템, 제 2시스템은 서비스를 제공하고 요구하는 서버 및 클라이언트 프로세스와, 상기 서버 및 클라이언트 프로세스가 동작중에 오류를 검색하는 오류 검출 프로세스와, 상기 관리 시스템의 대몬 프로세스를 포함하는 것을 특징으로 하는 고 가용성 시스템의 장애 복구장치.
제 4항에 있어서, 상기 제 1시스템과 제 2시스템의 상호 상태 정보 제공은 상기 제 1시스템과 제 2시스템을 상호 연결하는 시리얼 라인과, 상기 공중망을 통해 제공받는 것을 특징으로 하는 고 가용성 시스템의 장애 복구장치.