KR20030058144A

KR20030058144A - 정보통신 시스템의 프로세스 장애 감시방법 및 복구방법

Info

Publication number: KR20030058144A
Application number: KR1020010088531A
Authority: KR
Inventors: 김상헌
Original assignee: 엘지엔시스(주)
Priority date: 2001-12-29
Filing date: 2001-12-29
Publication date: 2003-07-07
Also published as: KR100832890B1

Abstract

본 발명은 정보통신 시스템의 프로세스 장애 감시방법 및 복구방법에 관한 것으로, 프로세스 감시를 위한 하나의 쓰레드를 생성하여 다수의 서비스 프로세스들에 대하여 일괄적으로 프로세스 장애를 감시함으로써, 서비스 프로세스 감시절차를 단순화하여 감시 결과에 대한 빠른 복구를 수행하도록 한 것이다. 이를 위하여 본 발명은 서비스 프로세스를 감시하기 위하여, 정보통신 프로세스에 의해 하나의 쓰레드를 생성하는 제1 과정과; 상기 하나의 쓰레드를 반복적으로 수행하여, 감시 프로세스 목록에서 프로세스의 상태가 정상인지를 판단하는 제2 과정과; 상기 제2 과정의 판단결과, 프로세스의 상태가 비정상적이면, 서비스 재구동 및 인계 절차를 수행한후 감시 프로세스 목록을 갱신하는 제3 과정으로 이루어진다.

Description

정보통신 시스템의 프로세스 장애 감시방법 및 복구방법{PROCESS OBSTACLE LOOKOUT METHOD AND RECOVERY METHOD FOR INFORMATION COMMUNICATION}

본 발명은 정보통신 시스템의 프로세스 장애 감시방법 및 복구방법에 관한 것으로, 특히 프로세스 감시를 위한 하나의 쓰레드를 생성하여 다수의 서비스 프로세스들에 대하여 일괄적으로 프로세스 장애를 감시함으로써, 서비스 프로세스 감시 절차를 단순화하여 감시 결과에 대한 빠른 복구를 수행하도록 한 정보통신 시스템의 프로세스 장애 감시방법 및 복구방법에 관한 것이다.

일반적으로, 정보통신 시스템은, 2대 이상의 다중 프로세스 시스템, 공유디스크,허트비트 네트워크와 정보통신 소프트웨어로 구성되어지며, 정보통신 소프트웨어는 시스템의 상태를 분석하여 다른 노드에 그 정보를 전달하고, 노드에 장애가 발생하면, 그 노드에서 수행하던 서비스를 다른 노드로 인계하는 역할을 수행하는 중요한 구성요소이다.

그리고, 상기 정보통신 시스템은 서비스를 제공하는 어떤 시스템에서 하드웨어나 소프트웨어 장애가 발생하여 서비스를 제공할 수 없을 때, 그 장애를 인지하고 장애가 발생한 시스템의 서비스를 인계하여 서비스의 연속성을 보장하는 시스템이다.

최근, 정보기술이 발전하면서 하드웨어의 성능과 안정성은 급격히 향상되고 있지만, 소프트웨어의 복잡도가 상대적으로 증가함으로써 소프트웨어는 많은 장애의 원인을 제공하고 있다.

따라서 정보통신 시스템에서 소프트웨어 장애를 감시하고 극복하는 기능은 점점 그 중요성이 커지고 있다고 할 수 있다.

도1는 정보통신 시스템의 전형적인 구조를 보인 블록도로서, 여러개의 멀티 프로세스 시스템(노드)과, 상기 멀티 프로세스 시스템을 서로 감시하고 정보를 교환하기 위한 허트비트(heartbeat) 네트워크와, 데이터를 공유하기 위한 공유디스크와, 상기 멀티 프로세스 시스템의 상태감시와 장애복구를 수행하는 정보통신 소프트웨어로 구성된다.

상기 정보통신 소프트웨어의 일례인 Safeworker3.0은 서비스 수행중 하드웨어 장애나 소프트웨어 장애가 발생했을 때 그 장애를 인지하고 서비스를 재구동 및 인계하여 서비스 중단시간을 최소화하는 기능을 개선 및 확장하는 것이다.

상기 Safeworker3.0은 하드웨어와 소프트웨어 장애(이하 프로세스 장애) 감시 및 복구기능을 개선하는 것으로, Safeworker3.0에서 소프트웨어 장애는 서비스 프로셋스가 죽어서 클라이언트에게 서비스를 더 이상 제공할 수 없는 상태를 의미하는데, 그 Safeworker3.0은 서비스 프로세스를 감시하고, 그 프로세스에 장애가 발생할 경우 서비스를 다른 시스템에 인계하는 기능을 구현한다.

여기서, 도2는 상기 정보통신 시스템의 일례인 Safeworke3.0에서 프로세스 장애 감시 구조로서, "정보통신 프로세스"는 정보통신 소프트웨어를 나타내며, 정보통신 소프트웨어의 실체인 정보통신 프로세스는 감시해야 할 서비스 프로세스에 대한 목록을 유지하고 있다.

상기 정보통신 프로세스는 서비스 프로세스를 감시하기 위해서 각각의 서비스 프로세스에 대하여 도2와 같이, 쓰레드를 생성하는 방법을 사용하는데, 프로세스 장애 감시모듈은 쓰레드가 프로세스의 장애를 감시하기 위해서 수행하는 모듈이며, 그 모듈은 시스템의 프로세스 테이블을 검색하여 프로세스의 상태를 판단하는 역할을 한다.

상기 정보통신 시스템을 이용한 프로세스 장애 감시 방법의 동작을 도3을 참조하여 설명하면, 우선, 정보통신 소프트웨어인 정보통신 프로세스는 서비스 프로세스들의 목록에 있는 N개의 프로세스에 대하여 N개의 쓰레드를 생성한다.

그 다음, 상기에서 생성된 N개의 쓰레드는 각각 별도로 프로세스 감시모듈을 수행하고, 해당 프로세스의 상태를 판단하여 그 결과를 반환한다.

상기 판단결과, 프로세스가 정상상태가 아니면 서비스 프로세스 장애를 복구하기 위한 절차를 수행하는데, 이러한 프로세스 장애는 언제 발생할지 예측할 수 없으므로 정보통신프로세스는 프로세스 장애를 감시하는 쓰레드를 일정한 주기를 가지고 반복적으로 수행한다.

상술한 정보통신 시스템의 서비스 프로세스 장애 감시방법의 장점은, 다수의 서비스 프로세스에 대하여 동시에 감시 모듈을 수행하기 때문에 각 프로세스의 상태에 대하여 거의 동일한 응답시간을 얻을 수 있고, 프로세스 감시모듈이 완전히 지역화되어 다수의 프로세스에 대한 장애 감시시, 의존성이 없다.

그러나, 상술한 정보통신 시스템 소프트웨어는 각각의 서비스 프로세스에 대하여 별개의 쓰레드를 생성하여 감시모듈을 수행하므로, 감시해야 할 서비스 프로세스의 수가 증가할수록 더 많은 쓰레드를 생성해야 하므로 시스템의 자원소비와부하를 가중시키는 문제점이 있다.

또한, 다수의 쓰레드가 동일한 프로세스 장애감시 모듈을 중복하여 수행하고, 매번 프로세스 테이블을 읽어서 해당 프로세스의 상태를 검색하는 방법은 시스템의 부하를 초래할 뿐 아니라 구조적으로 효율이 저하되는 문제점이 있다.

본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로, 프로세스 감시를 위한 하나의 쓰레드를 생성하여 다수의 서비스 프로세스들에 대하여 일괄적으로 프로세스 장애를 감시함으로써, 서비스 프로세스 감시절차를 단순화하여 감시 결과에 대한 빠른 복구를 수행하도록 한 정보통신 시스템의 서비스 프로세스 장애 감시방법 및 복구방법을 제공함에 그 목적이 있다.

도1은 일반적인 정보통신 시스템의 구성을 보인 개략도.

도2는 종래 정보통신 시스템에서 다수의 쓰레드를 사용하는 프로세스 장애 감시 구조를 보인 개략도.

도3은 종래 정보통신 시스템의 프로세스 장애 감시방법에 대한 동작흐름도.

도4는 본 발명 정보통신 시스템의 프로세스 장애 감시방법에 대한 동작흐름도.

도5는 본 발명 정보통신 시스템의 프로세스 장애 복구방법에 대한 동작을 보인 개략도.

도6은 본 발명 정보통신 시스템에서 하나의 쓰레드를 사용하는 프로세스 장애 감시 구조를 보인 개략도.

도7은 도5에 있어서, 정보통신 시스템에서 교환하는 메시지의 구성을 보인 개략도.

상기와 같은 목적을 달성하기 위한 본 발명은, 서비스 프로세스를 감시하기 위하여, 정보통신 프로세스에 의해 하나의 쓰레드를 생성하는 제1 과정과; 상기 하나의 쓰레드를 반복적으로 수행하여, 감시 프로세스 목록에서 프로세스의 상태가 정상인지를 판단하는 제2 과정과; 상기 제2 과정의 판단결과, 프로세스의 상태가 비정상적이면, 서비스 재구동 및 인계 절차를 수행한후 감시 프로세스 목록을 갱신하는 제3 과정으로 수행함을 특징으로 한다.

상기와 같은 목적을 달성하기 위한 본 발명은, 노드A에 서비스 프로세스 장애가 발생하면, 그 장애 발생정보에 대한 메시지를 허트 비트 네트워크를 통해 다른 노드B에 전달하고, 상기 노드A에 의해 서비스 프로세스의 재구동을 시도하는제1 과정과; 상기 제1 과정의 서비스 재구동이 실패하면, 상기 노드B에서 노드A로 서비스 인계 요청에 대한 메시지를 전송하는 제2 과정과; 상기 노드 A는 구동된 모든 서비스 프로세스를 중단시킨후, 상기 노드B의 서비스 인계 요청을 수락하는 제3 과정과; 상기 노드B는, 서비스 인계를 시도하여 중단된 서비스를 복구하는 제4 과정으로 수행함을 특징으로 한다.

이하, 본 발명에 의한 정보통신 시스템의 서비스 프로세스 장애 감시방법 및 복구방법에 대한 작용 및 효과를 첨부한 도면을 참조하여 상세히 설명한다.

도4는 본 발명 정보통신 시스템의 서비스 프로세스 장애 감시방법에 대한 동작흐름도로서, 이에 도시한 바와같이 서비스 프로세스를 감시하기 위하여, 정보통신 프로세스에 의해 하나의 쓰레드를 생성하는 제1 과정과; 감시 프로세스 목록에서 프로세스 테이블 검색 및 프로세스 상태를 파악한후, 감시 프로세스 리스트에 프로세스 상태를 저장하는 제2 과정과; 상기 하나의 쓰레드를 반복적으로 수행하여, 감시 프로세스 목록에서 프로세스의 상태가 정상인지를 판단하는 제3 과정과; 상기 제3 과정의 판단결과, 프로세스의 상태가 비정상적이면, 서비스 재구동 및 인계 절차를 수행한후 감시 프로세스 목록을 갱신하는 제4 과정으로 이루어진다.

도5는 본 발명 정보통신 시스템의 서비스 프로세스 장애 복구방법에 대한 동작흐름도로서,이에 도시한 바와같이 노드A에 서비스 프로세스 장애가 발생하면, 그 장애 발생정보에 대한 메시지를 허트 비트 네트워크를 통해 다른 노드B에 전달하고, 상기 노드A에 의해 서비스 프로세스의 재구동을 시도하는 제1 과정(a,b)과; 상기 제1 과정의 서비스 재구동이 실패하면, 상기 노드B에서 노드A로 서비스 인계 요청에 대한 메시지를 전송하는 제2 과정(c,d,e)과; 상기 노드A는 구동된 모든 서비스 프로세스를 중단시킨후, 상기 노드B의 서비스 인계 요청을 수락하는 제3 과정(f)과; 상기 노드B는, 서비스 인계를 시도하여 중단된 서비스를 복구하는 제4 과정(g,h)으로 이루어지며, 이와같은 본 발명의 동작을 설명한다.

먼저, 도6은 하나의 쓰레드를 사용하는 서비스 프로세스 장애 감시 구조를 보인 개략도로서, 정보통신 소프트웨어인 정보통신프로세스는 시작과 함께 서비스 프로세스를 감시하기 위하여 쓰레드를 형성하며, 이 쓰레드는 반복적으로 수행되면서 감시 프로세스 목록에 있는 여러 프로세스에 대하여 장애 발생 여부를 감시하고, 그 결과를 감시 프로세스 목록에 저장한다.

또한, 감시 프로세스 목록에서 프로세스 테이블 검색 및 프로세스 상태를 파악한후, 감시 프로세스 리스트에 프로세스 상태를 저장한다.

여기서, 상기 프로세스 상태는, 프로세스가 살아서 서비스를 수행하는 상태인 NORMAL, 프로세스가 죽어서 프로세스 테이블에 없는 상태인 DOWN, 자식 프로세스가 종료되길 기다리지 않고, 부모 프로세스가 먼저 종료한 상태인 ZOMBIE, 프로세스가 정지한 상태인 STOP으로 구분하며, NORMAL을 제외한 나머지 상태는 서비스 수행이 불가능하거나 문제점을 내포하고 있으므로 프로세스 장애로 간주하여 서비스를 재구동하거나 인계한다.

실제로 쓰레드는 정보통신 프로세스가 서비스를 시작하고 감시 대상 프로세스를 감시 프로세스 목록에 추가한 이후에 프로세스 장애 감시모듈을 수행하기 시작한다.

이때부터, 쓰레드는 반복적으로 수행하면서, 서비스 프로세스의 장애 여부를 감시하여 그 결과를 감시 프로세스 목록에 저장한다.

만약, 프로세스 장애가 발생하여, 정보통신 프로세스 서비스를 중지하는 과정을 수행하면 정보통신프로세스는 해당 서비스 프로세스를 감시 프로세스 목록에서 제거하는 과정을 수행하며, 반대로 프로세스 장애를 인계하는 시스템의 정보통신 프로세스는 서비스를 시작하고 감시 프로세스 목록에 해당 서비스 프로세스를 추가한다.

보다 상세하게 도4를 참조하여 설명하면, 서비스 프로세스를 감시하기 위하여, 정보통신 프로세스에 의해 하나의 쓰레드를 생성하고, 그 하나의 쓰레드를 반복적으로 수행하여, 감시 프로세스 목록에서 프로세스의 상태가 정상인지를 판단한다.

상기 판단결과, 서비스 프로세스의 상태가 비정상적이면, 서비스 재구동 및 인계 절차를 수행한후 감시 프로세스 목록을 갱신하는데, 서비스 프로세스 장애가 발생하여 정보통신 프로세스가 서비스를 중지하면, 그 정보통신 프로세스에 의해 해당 서비스 프로세스를 감시 프로세스 목록에서 제거하고, 반대로, 정보통신 프로세스에 의해, 서비스 프로세스의 장애를 인계하면, 그 서비스 프로세스를 감시 프로세스 목록에 추가한다.

즉, 상기 정보통신프로세스는 감시 프로세스 목록에서 프로세스의 상태를 파악하여 만약, 프로세스의 상태가 비정상적인 상태라면, 서비스의 중단시간을 최소화하기 위하여 서비스 재구동 및 인계하는 절차를 수행하여 서비스를 복구하는데,이러한 복구동작을 도5를 참조하여 설명한다.

우선, 노드A에 서비스 프로세스 장애가 발생하면, 그 장애 발생정보에 대한 메시지를 허트 비트 네트워크를 통해 다른 노드B에 전달하고(a), 상기 노드A에 의해 서비스 프로세스의 재구동을 시도한다(b).

일반적으로 프로세스 장애는 소프트웨어적인 결함으로 발생하였을 경우, 다른 노드에 서비스를 인계하지 않아도 복구할 수 있는 가능성이 있기 때문에, 현재 노드A에서 재구동을 시도한다.

만약, 서비스 프로세스 장애가 계속하여 발생하고(c), 상기 노드A에서 서비스 재구동이 실패하면(d), 상기 노드B에서 노드A로 서비스 인계 요청에 대한 메시지를 전송한다(e).

이후, 상기 노드A는 구동된 모든 서비스 프로세스를 중단시킨후, 상기 노드B의 서비스 인계 요청을 수락하고(f), 상기 노드B는, 서비스 인계를 시도하여 중단된 서비스를 복구한다(g,h).

여기서, 상기 메시지는 도7에 도시한 바와같이, 노드 아이디,서비스 프로세스 아이디, 장애 프로세스 아이디, 대응방법,현재 상태에 대한 정보로 이루어진다.

상기 본 발명의 상세한 설명에서 행해진 구체적인 실시 양태 또는 실시예는 어디까지나 본 발명의 기술 내용을 명확하게 하기 위한 것으로 이러한 구체적 실시예에 한정해서 협의로 해석해서는 안되며, 본 발명의 정신과 다음에 기재된 특허 청구의 범위내에서 여러가지 변경 실시가 가능한 것이다.

이상에서 상세히 설명한 바와같이 본 발명은, 프로세스 장애를 감시하기 위하여 하나의 쓰레드를 생성하기 때문에 쓰레드 생성에 따른 시스템 자원의 낭비를 줄일 수 있는 효과가 있고, 또한 하나의 쓰레드에서 모든 서비스 프로세스의 장애를 감시하기 때문에 프로세스 감시 모듈의 중복 수행에서 발생하는 부하를 줄일 수 있는 효과가 있으며, 또한 서비스 프로세스 감시절차를 단순화하여 감시 결과에 대한 빠른 응답을 제공하는 효과가 있다.

Claims

서비스 프로세스를 감시하기 위하여, 정보통신 프로세스에 의해 하나의 쓰레드를 생성하는 제1 과정과;

상기 하나의 쓰레드를 반복적으로 수행하여, 감시 프로세스 목록에서 프로세스의 상태가 정상인지를 판단하는 제2 과정과;

상기 제2 과정의 판단결과, 프로세스의 상태가 비정상적이면, 서비스 재구동 및 인계 절차를 수행한후 감시 프로세스 목록을 갱신하는 제3 과정으로 수행함을 특징으로 하는 정보통신 시스템의 프로세스 장애 감시방법.
제1 항에 있어서, 상기 프로세스 상태는, 프로세스가 살아서 서비스를 수행하는 상태인 NORMAL과, 프로세스가 죽어서 프로세스 테이블에 없는 상태인 DOWN과, 자식 프로세스가 종료되길 기다리지 않고 부모 프로세스가 먼저 종료한 상태인 ZOMBIE와, 프로세스가 정지한 상태인 STOP으로 구분되는 것을 특징으로 하는 정보통신 시스템의 프로세스 장애 감시방법.
제1 항에 있어서, 감시 프로세스 목록에서 프로세스 테이블 검색 및 프로세스 상태를 파악한후, 감시 프로세스 리스트에 프로세스 상태를 저장하는 과정을 더 포함하는 것을 특징으로 하는 정보통신 시스템의 프로세스 장애 감시방법.
제1 항에 있어서, 제3 과정은,

서비스 프로세스 장애가 발생하여 정보통신 프로세스가 서비스를 중지하면, 그 정보통신 프로세스에 의해 해당 서비스 프로세스를 감시 프로세스 목록에서 제거하는 단계를 포함하는 것을 특징으로 하는 정보통신 시스템의 프로세스 장애 감시방법
제1 항에 있어서, 제3 과정은,

정보통신 프로세스에 의해, 서비스 프로세스의 장애를 인계하면, 그 서비스 프로세스를 감시 프로세스 목록에 추가하는 단계를 포함하는 것을 특징으로 하는 정보통신 시스템의 프로세스 장애 감시방법.
노드A에 서비스 프로세스 장애가 발생하면, 그 장애 발생정보에 대한 메시지를 허트 비트 네트워크를 통해 다른 노드B에 전달하고, 상기 노드A에 의해 서비스 프로세스의 재구동을 시도하는 제1 과정과;

상기 제1 과정의 서비스 재구동이 실패하면, 상기 노드B에서 노드A로 서비스 인계 요청에 대한 메시지를 전송하는 제2 과정과;

상기 노드A는 구동된 모든 서비스 프로세스를 중단시킨후, 상기 노드B의 서비스 인계 요청을 수락하는 제3 과정과;

상기 노드B는, 서비스 인계를 시도하여 중단된 서비스를 복구하는 제4 과정으로 수행함을 특징으로 하는 정보통신 시스템의 프로세스 장애 복구방법.
제6 항에 있어서, 메시지는,

노드 아이디,서비스 프로세스 아이디, 장애 프로세스 아이디, 대응방법,현재 상태에 대한 정보로 이루어진 것을 특징으로 하는 정보통신 시스템의 프로세스 장애 복구방법.