KR19990050460A - 고 가용성 시스템의 장애 복구방법 및 장치 - Google Patents

고 가용성 시스템의 장애 복구방법 및 장치 Download PDF

Info

Publication number
KR19990050460A
KR19990050460A KR1019970069586A KR19970069586A KR19990050460A KR 19990050460 A KR19990050460 A KR 19990050460A KR 1019970069586 A KR1019970069586 A KR 1019970069586A KR 19970069586 A KR19970069586 A KR 19970069586A KR 19990050460 A KR19990050460 A KR 19990050460A
Authority
KR
South Korea
Prior art keywords
high availability
service
failure
counterpart
systems
Prior art date
Application number
KR1019970069586A
Other languages
English (en)
Inventor
김재민
Original Assignee
구자홍
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구자홍, 엘지전자 주식회사 filed Critical 구자홍
Priority to KR1019970069586A priority Critical patent/KR19990050460A/ko
Publication of KR19990050460A publication Critical patent/KR19990050460A/ko

Links

Landscapes

  • Hardware Redundancy (AREA)

Abstract

본 발명은 고 가용성 시스템의 장애 복구방법 및 장치에 관한것으로서, 다중 프로세서 시스템을 이중화 시스템으로 구성하고, 시스템 동작시에 상대 시스템의 장애를 감지하는 기능을 제공함과 아울러 장애 발생시 상대 시스템에게 현재 작업중인 서비스를 제공함으로써, 장애 발생시에 시스템의 정지 시간을 최소하하여 업무 효율성을 향상시키도록 한 것이다.
이와같은 고 가용성 시스템의 장애 복구방법은 동일한 구성을 가지는 두 개의 시스템 기동시, 상호 시스템의 동기를 맞추고 각각 고가용성 시스템 환경으로 액티브시키는 과정; 고가용성 시스템 환경으로 액티브 된후, 시스템의 정의된 서비스를 수행하는 과정; 서비스 수행도중, 상대 시스템의 상태 정보를 파악하기 위한 검사를 수행하고, 장애 발생시에 다른 시스템에 서비스를 제공하는 과정; 서비스 제공이 완료되면 고 가용성 시스템의 상태를 해제시키는 과정을 포함함으로써 달성된다.

Description

고 가용성 시스템의 장애 복구방법 및 장치
본 발명은 고 가용성 시스템(High Availability System)에 관한것으로서, 보다 상세하게는 다중 프로세서 시스템을 이중화하여, 시스템 동작중에 상대 시스템의 상태 정보를 제공받아 장애 여부를 판단하고, 장애가 발생된 상대 시스템에서 서비스하던 작업을 제공받아 지속적으로 동작시켜 시스템의 정지시간(Down time)을 최소하 하도록 하는 고가용성 시스템의 장애 복구방법 및 장치에 관한 것이다.
일반적으로, 컴퓨터 시스템은 소프트웨어, 하드웨어등에 의한 장애 발생등으로 인한 시스템이 정지되는 것을 방지하고, 프로세서의 내부 동작이 불안정으로 동작하고 있는가등을 검사하는 프로그램을 준비하여 데이터의 완전성을 유지하고, 만일 장애가 발생되면 장애 부위를 조기에 발견하여 자동적으로 장애 상태를 판단할수 있도록 하여 시스템의 신뢰성, 가용성, 보수성등을 향상시키고 있다.
이와 같이 시스템의 성능을 향상시키기 위해서 하드웨어 기술과 소프트 웨어의 기술적인 연계가 필요하게 되었고, 통상 상대 시스템의 상태 감시는 네트워크 채널 및 시스템 주변기기 제어용 버스인 스카시(SCSI : Small Computer System Interface) 버스를 이용하여 수행되었다.
한편, 도 1은 일반적인 다중 프로세서 시스템의 개략적인 블록구성도로서, 이에 도시된 바와 같이 시스템 버스(System Bus)를 공유하며, 다수개의 프로세서로 구성되는 마이크로 프로세서 보드(MPU)(10 ~ 10n)와, 상기 시스템 버스를 공유하며, 각 데이터를 저장 및 판독하도록 다수개의 메모리를 탑재한 메모리 보드(12)와, 상기 시스템 버스에 연결된 각 시스템을 제어하기 위한 시스템 제어 보드(System Control Module : 이하 "SCM"이라 약칭함)(16)와, 각 MPU(10 ~ 10n)로부터 입/출력 요구를 받아 이를 처리하고, SCM(16)과 입/출력 주변 장치들 사이에서 브이엠이 버스(VME BUS) 또는 스카시 버스를 통해 전송되는 데이터를 버퍼링하는 입/출력 처리 보드(IOP)(14)로 구성된다.
여기서, SCM(16)에 연결되는 VME 버스에는 WAN 제어부(18), 랜 제어부(20), 터미널 제어부(22)등이 접속된다.
이와 같이 구성된 다중 프로세서 시스템에서, 특정 데이터를 출력하고자 하는 경우에 마이크로 프로세서(10 ~ 10n)는 사용자가 요구한 데이터에 대한 어드레스를 시스템 버스에 구동시키고, 이후 메모리 보드(12)로부터 해당 어드레스에 저장되어 있는 데이터를 프린터와 같은 출력 수단을 통해 사용자에게 제공한다.
다시 말해, 컴퓨터 입/출력 버스의 정보 흐름을 관리하고 입/출력 제어를 가지는 마이크로 프로세서(10 ~ 10n)는 프로그램 메모리로부터 제어 명령어를 받아 시스템 제어보드(16)와 연결되는 WAN 제어부(18),랜 제어부(20), 터미널 제어부(22)를 제어한다.
그러나, 상기한 종래 기술에 따른 다중 프로세서 시스템은 시스템에 장애가 발생시에 장애 내용을 파악하기가 어렵고, 또한 장애 복구가 어려운 문제점이 있었다.
즉, 이러한 다중 프로세서 시스템은 장애가 발생하는 경우, 장시간동안 시스템을 복구하기 위해 시스템이 정지된 상태로 있어야 한다. 장애 내용이 소프트 웨어의 순간적인 장애인 경우는 시스템을 재부팅 하면 되지만, 하드웨어에 장애가 발생된 경우에는 장애 부분을 파악하고 복구하는데 많은 시간이 소요된다. 이에 따라 다중 프로세서 시스템을 사용하는 사용자는 장애 복구시까지 기다려야 하는 문제점이 있었다.
따라서, 본 발명의 목적은 다중 프로세서 시스템을 이중화 시스템으로 구성하고, 시스템 동작시에 상대방 시스템의 장애를 감지하는 기능을 제공함과 아울러 장애 발생시 상대방 시스템에게 현재 작업중인 서비스를 제공(Take Over)하는 고 가용성 시스템의 장애 복구방법 및 장치를 제공함에 있다.
도 1은 일반적인 다중 프로세서 시스템을 보인 블록 구성도이고,
도 2는 본 발명에 따른 고 가용성 시스템의 장애 복구장치를 보인 블록 구성도이고,
도 3은 본 발명에 따른 장애 복구과정을 보인 흐름도이다.
<도면의 주요 부분에 대한 부호의 설명>
30 : 클러스터 관리 시스템 32, 34 : 제 1시스템, 제 2시스템
32a, 34a : 대몬 프로세스 32b, 34b : 서버 프로세스
32c, 34c : 클라이언트 프로세스 32d, 32d : 오류검출 프로세스
36 : 공유 디스크
상기와 같은 목적을 달성하기 위하여 본 발명의 하나의 양태에 따른 고 가용성 시스템의 장애 복구방법은, 동일한 구성을 가지는 두 개의 시스템 기동시, 상호 시스템의 동기를 맞추고 각각 고가용성 시스템 환경으로 액티브시키는 과정; 상기 고가용성 시스템 환경으로 액티브 된후, 상기 시스템의 정의된 서비스를 수행하는 과정; 상기 서비스 수행도중, 상대 시스템의 상태 정보를 파악하기 위한 검사를 수행하고, 장애 발생시에 다른 시스템에 서비스를 제공하는 과정; 상기 서비스 제공이 완료되면 고 가용성 시스템의 상태를 해제시키는 과정을 포함한다.
바람직하게, 상기 고가용성 시스템 환경이 인액티브인 경우, 고 가용성 시스템 환경으로 셋업하기 위한 프로세스를 수행시키는 것을 특징으로 한다.
바람직하게, 상기 프로세스는 고가용성 관리 프로세스, 오류 검출 프로세스 및 대몬 프로세스를 포함하는 것을 특징으로 한다.
또한, 상기된 바와 같은 목적을 달성하기 위하여, 본 발명의 또 다른 양태에 따른 고 가용성 시스템의 장애 복구장치는, 공중망에 인터페이스 연결되는 관리 시스템 및 제 1시스템, 제 2시스템과 상기 제 1시스템, 제 2시스템은 각각 버스를 통해 공유 디스크를 공유하는 이중화 시스템에 있어서; 상기 제 1시스템, 제 2시스템은 서비스를 제공하고 요구하는 서버 및 클라이언트 프로세스와, 상기 서버 및 클라이언트 프로세스가 동작중에 오류를 검색하는 오류 검출 프로세스와, 상기 관리 시스템의 대몬 프로세스를 포함한다.
선택적으로, 상기 제 1시스템과 제 2시스템의 상호 상태 정보 제공은 상기 제 1시스템과 제 2시스템을 상호 연결하는 시리얼 라인과, 상기 공중망을 통해 제공받는 것을 특징으로 한다.
이하, 본 발명의 바람직한 실시예를 첨부된 도면을 참고하여 상세히 설명하면 다음과 같다.
도 2는 본 발명에 따른 고 가용성 시스템의 장애 복구장치를 보인 블록 구성도로서, 이에 도시된 바와 같이 공중 망에 인터페이스를 통해 연결되는 제 1시스템(32), 제 2시스템(34) 및 클러스터 관리 시스템(30), 시리얼 라인을 통해 제 1시스템(32)과 제 2시스템(34)이 상호 연결되며, 이들이 각각 공유하는 공유디스크(36)로 구성된다.
바람직하게, 제 1시스템(32)과 제 2시스템(34)은 각각 서버/클라이언트 프로세스(32b)(32c)(34b)(34c)와, 오류를 검출하는 오류 검출 프로세스(32d)(34d), 클러스터 관리 대몬 프로세스(CMSD :이하 대몬 프로세스라 약칭함)(32a)(34a)를 포함한다.
이와 같이 구성된 고 가용성 시스템의 장애 복구과정을 도 3을 참고하여 상세히 설명하면 다음과 같다.
먼저, 제 1, 제 2 시스템(32)(34)이 기동되는 경우, 상대(Remote) 시스템과의 동기를 맞추기 위하여 고가용성 셋업 프로세스(HASETUP Process)를 수행한다(ST10)(ST11).
고가용성 셋업 프로세스는 제 1, 제 시스템(32)(34)에서 각각 수행되며, 이때 상대 시스템의 상태를 감시하기 위해(Heart beat) 상호 시스템을 연결시키는 시리얼 라인(Serial Line)을 SLIP(Serial line Internet Protocol)으로 셋업시킨다(ST12)(ST13).
이후, 고가용성 셋업 프로세스는 시리얼 라인의 상태 감시기능을 이용하여 상대 시스템이 준비된 상태인지를 검사하고, 만약 준비가 되지 않는 상태이면 준비될때까지 상대 시스템을 폴링(Polling)한다. 즉, 제 2시스템(34)을 검사하는 경우, 제 1시스템(32)이 시리얼 라인(Serial line)을 통해 시스템이 액티브될때까지 정기적으로 제 2시스템(34)의 상태를 검사한다(ST14)(ST15).
계속해서, 상대 시스템이 액티브 상태가 되면, 이후 상대 시스템이 고가용성 상태로 액티브 되었는지를 검사한다(ST16)(ST17). 이때, 상대 시스템이 고가용성 환경으로 액티브 된 상태이면 다른 시스템의 자원을 해제시킨후, 해제 완료 명령을 기다리고, 시리얼 라인을 이용한 상대 시스템의 상태 감시 정보를 시작한다(ST18)(ST19)(ST23).
만약, 상대 시스템이 고가용성 상태로 액티브 된 상태가 아니면 제 1, 제 2시스템(32)(34)은 모두 초기 상태이므로, 공중망(Public Lan)을 셋업하고, 고 가용성 시스템을 구성하기 위해 필요한 HAM(High Availability Manager)프로세스, 오류 검출 프로세스(Fault Detection) 및 대몬 프로세스를 수행시킨다(ST20)(ST22).
즉, 고가용성 셋업 프로세스에 의해 수행된 고가용성 프로세스는, 고가용성 시스템을 구성하기 위하여 상대 시스템을 호출하기 위한 RPC(Remote Procedure Call)을 이용하여 상대 시스템의 상태 정보를 주기적으로 폴링한다. 이때 상대 시스템의 상태 정보를 제공받는 경로는 상기에서 기술한 공중망을 이용한 방법과 시리얼 라인을 이용하는 방법이 사용된다.
이와 같은 방법에 의하여 상대 시스템의 상태 정보를 감시하는데, 첫 번째 방법인 공중망을 이용하여 상대 시스템의 상태 정보를 제공받는 방법이 실패하는 경우(ST24), 두 번째 방법인 시리얼 라인을 이용하여 상대방 시스템의 상태 정보를 검사한다(ST26). 시리얼 라인을 통한 상태 정보 검사도 실패인 경우는 상대 시스템에 장애가 발생된 상태이다(ST28). 이때는 클러스터 관리 시스템(30)을 검사하고, 상대 시스템이 제공하던 서비스를 다른 시스템에 제공하기 위한 작업이 수행된다(ST30).
이와 같은 서비스 제공은, 먼저 제 1, 제 2시스템(32)(34)의 클라이언트 프로세스(32c)(34c)들은 서버 프로세스(32b)(34b)에 장애가 발생한 것과는 무관하게 계속적으로 작업이 이루어져야 한다. 즉, 서비스를 요구하는 클라이언트 프로세스(32c)(34c)는 지속적인 동작이 필요하며, 이에 따라 인터넷 프로토콜(Internet Protocol)에 의한 서비스 제공을 수행한다. 인터넷 프로토콜에 의한 클라이언트 프로세스(32c)(34c)의 서비스 제공은 동일한 서버 프로세스(32b)(34b)의 인터넷 프로토콜 어드레스로 억세스하여도 가능하게 하기 위하여 동일 인터넷 프로토콜 어드레스로 셋업하여 서비스가 되도록 한다.
이후, 장애가 발생된 시스템에서 제공하던 서비스를 상대 시스템에 인계하여 계속적으로 시스템을 동작시키고, 서비스 제공이 완료되면 상기와 같은 서비스 제공 과정을 해제 명령에 따라 해제시키고, 보통 상태로 시스템을 전환시킨다(ST32 ~ ST38).
이상에서 상세히 설명한 바와 같이, 본 발명은 다중 프로세서 시스템을 이중화 시스템으로 구성하고, 시스템 동작시에 상대 시스템의 장애를 감지하는 기능을 제공함과 아울러 장애 발생시 상대 시스템에게 현재 작업중인 서비스를 제공함으로써, 장애 발생시에 시스템의 정지 시간을 최소하하여 사용자가 전산 업무 수행시 업무 효율성을 향상시키는 효과가 있다.

Claims (5)

  1. 동일한 구성을 가지는 두 개의 시스템 기동시, 상호 시스템의 동기를 맞추고 각각 고가용성 시스템 환경으로 액티브시키는 과정; 상기 고가용성 시스템 환경으로 액티브 된후, 상기 시스템의 정의된 서비스를 수행하는 과정; 상기 서비스 수행도중, 상대 시스템의 상태 정보를 파악하기 위한 검사를 수행하고, 장애 발생시에 다른 시스템에 서비스를 제공하는 과정; 상기 서비스 제공이 완료되면 고 가용성 시스템의 상태를 해제시키는 과정을 포함하는 것을 특징으로 하는 고 가용성 시스템의 장애 복구방법.
  2. 제 1항에 있어서, 상기 고가용성 시스템 환경이 인액티브인 경우, 고 가용성 시스템 환경으로 셋업하기 위한 프로세스를 수행시키는 것을 특징으로 하는 고 가용성 시스템의 장애 복구방법.
  3. 제 2항에 있어서, 상기 프로세스는 고가용성 관리 프로세스, 오류 검출 프로세스 및 대몬 프로세스를 포함하는 것을 특징으로 하는 고 가용성 시스템의 장애 복구 방법.
  4. 공중망에 인터페이스 연결되는 관리 시스템 및 제 1시스템, 제 2시스템과 상기 제 1시스템, 제 2시스템은 각각 버스를 통해 공유 디스크를 공유하는 이중화 시스템에 있어서;
    상기 제 1시스템, 제 2시스템은 서비스를 제공하고 요구하는 서버 및 클라이언트 프로세스와, 상기 서버 및 클라이언트 프로세스가 동작중에 오류를 검색하는 오류 검출 프로세스와, 상기 관리 시스템의 대몬 프로세스를 포함하는 것을 특징으로 하는 고 가용성 시스템의 장애 복구장치.
  5. 제 4항에 있어서, 상기 제 1시스템과 제 2시스템의 상호 상태 정보 제공은 상기 제 1시스템과 제 2시스템을 상호 연결하는 시리얼 라인과, 상기 공중망을 통해 제공받는 것을 특징으로 하는 고 가용성 시스템의 장애 복구장치.
KR1019970069586A 1997-12-17 1997-12-17 고 가용성 시스템의 장애 복구방법 및 장치 KR19990050460A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019970069586A KR19990050460A (ko) 1997-12-17 1997-12-17 고 가용성 시스템의 장애 복구방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019970069586A KR19990050460A (ko) 1997-12-17 1997-12-17 고 가용성 시스템의 장애 복구방법 및 장치

Publications (1)

Publication Number Publication Date
KR19990050460A true KR19990050460A (ko) 1999-07-05

Family

ID=66090905

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019970069586A KR19990050460A (ko) 1997-12-17 1997-12-17 고 가용성 시스템의 장애 복구방법 및 장치

Country Status (1)

Country Link
KR (1) KR19990050460A (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020069329A (ko) * 2001-02-24 2002-08-30 부동산일일사 주식회사 인트라웹 기반의 부동산 거래 저보망 서비스 방법
KR20030048503A (ko) * 2001-12-12 2003-06-25 주식회사 엘지이아이 이중화 서버 구조의 데이터 동기화를 위한 통신 시스템 및방법
KR20030058030A (ko) * 2001-12-29 2003-07-07 엘지전자 주식회사 이중화 시스템의 이중화 방법
KR100420266B1 (ko) * 2001-10-23 2004-03-02 한국전자통신연구원 클러스터 컴퓨터 시스템의 소프트웨어 가용도 개선 방법및 그 장치
KR100450868B1 (ko) * 2000-08-03 2004-10-01 인터내셔널 비지네스 머신즈 코포레이션 자원 복구를 통한 최적의 시스템의 가용성을 위한 방법
KR100793446B1 (ko) * 2006-02-07 2008-01-14 에스케이 텔레콤주식회사 이중화 통신 시스템의 페일 오버 및 원복 처리 방법

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100450868B1 (ko) * 2000-08-03 2004-10-01 인터내셔널 비지네스 머신즈 코포레이션 자원 복구를 통한 최적의 시스템의 가용성을 위한 방법
KR20020069329A (ko) * 2001-02-24 2002-08-30 부동산일일사 주식회사 인트라웹 기반의 부동산 거래 저보망 서비스 방법
KR100420266B1 (ko) * 2001-10-23 2004-03-02 한국전자통신연구원 클러스터 컴퓨터 시스템의 소프트웨어 가용도 개선 방법및 그 장치
KR20030048503A (ko) * 2001-12-12 2003-06-25 주식회사 엘지이아이 이중화 서버 구조의 데이터 동기화를 위한 통신 시스템 및방법
KR20030058030A (ko) * 2001-12-29 2003-07-07 엘지전자 주식회사 이중화 시스템의 이중화 방법
KR100793446B1 (ko) * 2006-02-07 2008-01-14 에스케이 텔레콤주식회사 이중화 통신 시스템의 페일 오버 및 원복 처리 방법

Similar Documents

Publication Publication Date Title
US5696895A (en) Fault tolerant multiple network servers
US6266781B1 (en) Method and apparatus for providing failure detection and recovery with predetermined replication style for distributed applications in a network
US5398331A (en) Shared storage controller for dual copy shared data
US6195760B1 (en) Method and apparatus for providing failure detection and recovery with predetermined degree of replication for distributed applications in a network
KR100557399B1 (ko) 네트웍 매체 링크상태 기능을 이용한 컴퓨터 클러스터링시스템의 가용도 개선방법
EP1533701B1 (en) System and method for failover
US7028218B2 (en) Redundant multi-processor and logical processor configuration for a file server
US5121486A (en) Network control system for dynamically switching a logical connection between an identified terminal device and an indicated processing unit
US7062676B2 (en) Method and system for installing program in multiple system
EP0575067A2 (en) Shared, distributed lock manager for loosely coupled processing systems
JP5392594B2 (ja) 仮想計算機冗長化システム、コンピュータシステム、仮想計算機冗長化方法、及びプログラム
CA2530913A1 (en) Fault tolerant computer system and interrupt control method for the same
JPH0934809A (ja) 高信頼化コンピュータシステム
KR19990050460A (ko) 고 가용성 시스템의 장애 복구방법 및 장치
JPH07306794A (ja) 分散システム及び分散システムの高信頼化方法
KR20030048503A (ko) 이중화 서버 구조의 데이터 동기화를 위한 통신 시스템 및방법
JPH06242979A (ja) 二重化コンピュータ装置
JPH09293001A (ja) 無停止保守システム
KR19990050461A (ko) 고 가용성 시스템의 오류 처리방법
JP3332098B2 (ja) 二重化プロセッサ装置
JP2785992B2 (ja) サーバプログラムの管理処理方式
CN117827544B (zh) 热备份系统、方法、电子设备及存储介质
EP1845447B1 (en) Method, apparatus and software for preventing switch failures in the presence of faults
JP3743381B2 (ja) ホスト間処理同期方式
KR20010010293A (ko) 고장감내 교환제어 시스템내 관리시스템에서의 오류관리시스템 및 오류 복구방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application