KR20050068326A

KR20050068326A - 노드 장애 감지 방법 및 시스템

Info

Publication number: KR20050068326A
Application number: KR1020030099585A
Authority: KR
Inventors: 윤형수
Original assignee: 엘지엔시스(주)
Priority date: 2003-12-30
Filing date: 2003-12-30
Publication date: 2005-07-05
Also published as: KR100693663B1

Abstract

본 발명은 허트비트 채널로 구성된 시스템에서 노드 장애를 감지하는 방법에 있어서, 노드에 대한 자원 동작 정보가 수신되면, 상기 자원 동작 정보를 분석하여 동작이 정지된 자원이 존재하는지의 여부를 판단하고, 상기 판단결과 동작이 정지된 자원이 존재하면, 해당 노드에 장애가 발생한 것으로 판단하여 다른 노드에게 장애 발생 정보를 전송하고, 다른 노드에 상기 장애가 발생한 노드가 수행하던 서비스의 수행 명령을 전송하여 다른 노드에서 상기 장애가 발생한 노드에서 수행하던 서비스를 수행하는 것으로서, 시스템에 대한 장애 감지이므로 고가용성이나 클러스터링 시스템에도 사용하여 노드 장애의 감지/극복을 빨리 이루어 지속적인 서비스를 제공할 수 있다.

Description

노드 장애 감지 방법 및 시스템{System and Method for detecting obstacle of node}

본 발명은 허트비트 채널로 구성된 시스템 환경에서, 노드의 제어 보드를 이용하여 상대방 노드가 장애인지를 검사하여 노드들간의 빠른 장애 감지/극복을 할 수 있는 노드 장애 감지 방법 및 시스템에 관한 것이다.

일반적으로, 정보통신 시스템은, 2대 이상의 다중 프로세스 시스템, 공유디스크, 허트비트 네트워크와 정보통신 소프트웨어로 구성되어지며, 정보통신 소프트웨어는 시스템의 상태를 분석하여 다른 노드에 그 정보를 전달하고, 노드에 장애가 발생하면, 그 노드에서 수행하던 서비스를 다른 노드로 인계하는 역할을 수행하는 중요한 구성요소이다.

그리고, 상기 정보통신 시스템은 서비스를 제공하는 어떤 시스템에서 하드웨어나 소프트웨어 장애가 발생하여 서비스를 제공할 수 없을 때, 그 장애를 인지하고 장애가 발생한 시스템의 서비스를 인계하여 서비스의 연속성을 보장하는 시스템이다.

최근, 정보기술이 발전하면서 하드웨어의 성능과 안정성은 급격히 향상되고 있지만, 소프트웨어의 복잡도가 상대적으로 증가함으로써 소프트웨어는 많은 장애의 원인을 제공하고 있다.

따라서 정보통신 시스템에서 소프트웨어 장애를 감시하고 극복하는 기능은 점점 그 중요성이 커지고 있다고 할 수 있다.

도 1은 종래의 정보 통신 시스템의 구조를 나타낸 도면이다.

도 1을 참조하면, 정보통신 시스템은 다수의 노드(100a, 100b, ...100n, 아하 100이라 칭함), 상기 노드(100)를 서로 감시하고 정보를 교환하기 위한 허트비트(heartbeat) 네트워크와, 데이터를 공유하기 위한 공유디스크(120)로 구성된다.

상기와 같이 구성된 정보 통신 시스템에서 장애를 감지하여 처리하는 방법에 대하여 설명하기로 한다.

정보 통신 시스템은 노드(100)들간에 연결된 허트비트 채널을 통하여 서로 정보를 송수신함으로써 장애를 인지한다.

상가 허트비트 채널을 통하여 노드(100)의 장애를 인지하는 방법은 다음과 같은 방법이 있다.

먼저, 네트워크를 이용하는 방법이 있다.

상기 방법은 노드(100)들간에 연결되어 있는 네트워크를 통하여 상대 노드로부터 오는 패킷으로 상대 노드가 살았는지 또는 상대 노드에서 서비스가 동작중인지를 검사하는 방법이다.

제1 노드에서 상대 노드로 보내야되는 정보를 노드들간에 약속한 포맷에 맞춰 송신하면, 다른 노드에서는 이 패킷을 수신하여 상대 노드에서 수행중인 서비스가 정상적으로 동작하고 있는지를 검사한다. 상기 검사 결과 상기 상대 노드에서 수행중인 서비스가 정상적으로 동작하지 않으면 장애가 발생한 것으로 인지하여 상대 노드에서 수행중인 서비스를 자신의 노드에서 수행한다.

다음으로 공유 디스크(120)를 이용하는 방법이 있다.

공유 디스크(120)를 이용하는 방법은 노드(100)들이 공통으로 액세스하여 사용하는 장치를 이용하여 상대 노드의 장애를 검사하는 방법이다. 공유 디스크(120)는 네트워크를통한 통신을 할수 없을때 상대 노드의 장애를 인지하는데 사용된다.

네트워크를 통하여 상대 노드의 정보를 수집할 수 없을때 상대 노드가 공유 디스크(120)에 지속적으로 접촉을 하고 있으면 정상으로 판단하고 일정 시간동안이 지났는데도 접촉을 하지 않으면 장애로 인지한다. 공유 디스크(120)에 사용되는 장치의 예를 든다면, 디스크 에레이, 테이프 라이브러리와 같은 저장장치를 말한다.

상기와 같은 방법에 의하여 행해진 노드의 장애 판단 방법에 대하여 도 2를 참조하여 정리하기로 한다.

도 2는 종래의 노드의 장애 판단 방법을 나타낸 흐름도이다.

도 2를 참조하면, 제1 노드가 행(hang) 상태로 장애가 발생하면(S200), 정상 노드는 상기 제1 노드로부터 패킷을 수신하지 못한다(S202). 그러면, 상기 정상 노드는 상기 장애가 발생한 장애 노드가 공유 디스크를 사용하지 않는다는 것을 인지한다.

단계 202가 수행되면, 상기 정상 노드는 상기 제1 노드에게 노드 자원 동작 정보 요청 명령을 전송한다(S204). 여기서, 상기 노드 자원은 CPU, 메모리, 디스크등을 말할 수 있다.

그런다음 상기 정상 노드는 상기 제1 노드로부터 상기 노드 자원 동작 정보 요청 명령에 상응한 동작 응답 정보가 수신되는지의 여부를 판단한다(S206).

단계 206의 판단결과 상기 제1 노드로부터 동작 응답 정보가 수신되면, 상기 정상 노드는 상기 제1 노드를 정상으로 판단하여 상기 제1 노드가 수행하던 서비스를 클라이언트에게 제공하지 못한다(S208). 즉, 상기 정상 노드는 상기 제1 노드로부터 동작 응답 정보가 수신되면, 상기 제1 노드를 정상으로 판단하여 상기 제1 노드가 수행하던 서비스를 수행하지 않는다. 그러므로, 상기 제1 노드가 수행하던 서비스는 클라이언트에게 제공되지 못한다.

만약, 단계 206의 판단결과 상기 제1 노드로부터 동작 응답 정보가 수신되지 않으면, 상기 정상 노드는 상기 제1 노드에 장애가 발생한것으로 판단하여 상기 제1 노드가 수행하던 서비스를 다른 정상 노드가 수행하게 한다(S210).

그러나 상기와 같은 종래에는 운영 시스템이 행(hang)상태인 노드는 다른 노드에게는 정상 노드로 인지되는 문제점이 있다.

또한, 핑 명령어는 OSI계층중 2계층만 사용하기 때문에 운영 시스템이 행 상태에 영향을 받지 않으므로 다른 노드들은 이 노드를 동작 상태로 인지하여 장애 노드의 서비스를 수행하지 않는 문제점이 있다.

따라서, 본 발명의 목적은 허트비트 채널로 구성된 시스템 환경에서, 노드의 제어 보드를 이용하여 상대방 노드가 장애인지를 검사하여 노드들간의 빠른 장애 감지/극복을 할 수 있는 노드 장애 감지 방법 및 시스템을 제공하는데 있다.

상기 목적들을 달성하기 위하여 본 발명의 일 측면에 따르면, 허트비트 채널로 구성된 시스템에서 노드 장애를 감지하는 방법에 있어서, 노드에 대한 자원 동작 정보가 수신되면, 상기 자원 동작 정보를 분석하여 동작이 정지된 자원이 존재하는지의 여부를 판단하고, 상기 판단결과 동작이 정지된 자원이 존재하면, 해당 노드에 장애가 발생한 것으로 판단하여 다른 노드에게 장애 발생 정보를 전송하고, 다른 노드에 상기 장애가 발생한 노드가 수행하던 서비스의 수행 명령을 전송하여 다른 노드에서 상기 장애가 발생한 노드에서 수행하던 서비스를 수행하는 것을 특징으로 하는 노드 장애 감지 방법을 제공할 수 있다.

상기 장애 발생 정보는 장애가 발생한 노드 고유번호, 상기 장애가 발생한 노드에서 수행하는 서비스 종류를 포함한다.

상기 서비스 수행 명령은 해당 서비스 등록 명령을 포함하여 상기 서비스 수행 명령을 수신한 다른 노드는 상기 서비스 수행 명령내의 서비스 등록 명령에 상응하여 해당 서비스를 등록한 후, 실행한다.

본 발명의 다른 측면에 따르면, 제어 보드가 내장되어 있는 노드, 상기 노드를 서로 감시하고 정보를 교환하기 위한 허트비트 네트워크, 상기 노드의 상태를 감시하고 장애 복구를 수행하는 관리모듈을 포함하는 것을 특징으로 하는 노드 장애 감지 시스템이 제공된다.

상기 제어보드는 노드의 자원 동작 정보를 수집하는 정보 모듈과 상기 수집된 자원 동작 정보를 상기 관리 모듈에 전송하는 통신 모듈로 구성된다.

상기 관리 모듈은 노드내에 또는 사용자 단말기에 설치되어 상기 제어 보드와 연결된 것으로서, 상기 제어보드로부터 전송된 자원 동작 정보를 분석하여 해당 노드의 장애 여부를 판단한다.

상기 관리 모듈은 장애가 발생한 노드가 감지되면, 다른 노드에 장애 발생 정보를 전송하여 다른 노드에서 상기 장애 발생 노드가 수행하던 서비스를 수행하게 한다.

이하 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명하기로 한다.

도 3은 본 발명의 바람직한 일 실시예에 따른 노드 장애를 감시하기 위한 정보통신 시스템의 구성을 개략적으로 나타낸 도면이다.

도 3을 참조하면, 정보통신 시스템은 다수의 노드(300a, 300b,..., 300n, 이하 300이라 칭함), 상기 노드(300)를 서로 감시하고 정보를 교환하기 위한 허트비트 네트워크, 데이터를 공유하기 위한 공유 디스크(320), 상기 노드(300)의 상태를 감시하고 장애복구를 수행하는 관리 모듈(310)을 포함한다.

각 노드(300)는 허트비트 채널을 통하여 연결되어 있고, 각 노드(300)에는 제어보드가 내장되어 있다.

상기 제어 보드는 노드의 자원인 CPU, 메모리, 하드 디스크의 동작 정보를 수집하는 정보 모듈과 상기 관리 모듈(310)과 통신하는 통신 모듈로 구성된다. 상기 정보 모듈은 상기 관리 모듈(310)에서 사용자에 의해 미리 설정된 환경 정보에 상응한 상기 자원의 동작 정보를 수집하여 상기 통신 모듈을 통하여 상기 관리 모듈(310)에 전송한다.

상기 관리 모듈(310)은 상기 제어 보드로부터 전송된 자원 동작 정보를 분석하여 해당 노드의 장애 여부를 판단하여 장애가 발생된 것으로 판단된 노드에 대해서는 다른 노드에 알려주어 다른 노드가 상기 장애가 발생한 노드의 서비스를 수행하게한다.

상기 관리 모듈(310)은 노드 또는 사용자 단말기에 설치되어 상기 제어 보드와 연결된다.

또한, 상기 관리 모듈(310)에는 감시해야할 자원 노드를 선택하게 하는 자원 선택 메뉴, 장애 노드에서 수행중인 서비스를 다른 노드에서 수행하기 위한 서비스 등록 메뉴로 구성된 관리 프로그램이 있다.

따라서, 사용자는 관리모듈(310)에서 자신의 원하는 자원 노드를 선택하여 노드 자원에 대한 환경 설정 정보를 변경할 수 있다.

도 4는 본 발명의 바람직한 일 실시예에 따른 노드 자원에 대한 환경 설정 정보 변경 방법에 대한 흐름도이다.

도 4를 참조하면, 관리 모듈은 관리 프로그램을 실행하여 제어 보드와 접속한다(S400).

그런다음 상기 관리 모듈은 사용자 인증을 한후(S402), 상기 제어 보드에 각 노드의 자원 동작 정보 요청 명령을 전송한다(S404). 상기 사용자 인증은 사용자로부터 사용자 고유번호, 비밀번호등을 수신하여 상기 수신된 정보가 미리 등록되어 있는지의 여부를 판단하여 사용자 인증을 수행한다.

그러면, 상기 제어 보드는 상기 자원 동작 정보 요청 명령에 상응하여 자원 동작 정보를 전송하고, 상기 관리 모듈은 상기 제어보드로부터 전송된 자원 동작 정보를 수신한다(S406). 상기 자원 동작 정보에는 노드에 포함된 모든 자원의 동작 정보를 포함한다.

그런다음 상기 관리 모듈은 상기 수신된 노드 자원 동작 정보를 디스플레이하고(S408), 상기 사용자에게 노드 자원에 대한 환경 설정 정보의 변경을 원하는지의 여부를 질의한다(S410). 즉, 상기 관리 모듈은 상기 사용자에게 모든 자원에 대한 동작 정보를 원하는지, 원하는 몇몇 자원에 대한 동작 정보를 원하는지를 질의하는 것이다.

단계 410의 질의 결과 상기 사용자가 상기 노드 자원에 대한 환경 설정 정보의 변경을 원하여 자원의 선택 및 해제를 수행하면, 상기 관리 모듈은 상기 사용자에 의해 수행된 자원의 선택 및 해제에 의하여 노드 자원에 대한 환경 설정 정보를 변경한다(S412).

그러면, 상기 제어 보드는 상기 변경된 환경 설정 정보에 상응하는 자원 동작 정보만을 상기 관리 모듈에 전송한다.

도 5는 본 발명의 바람직한 일 실시예에 따른 노드의 장애 판단 방법을 나타낸 흐름도이다.

도 5를 참조하면, 관리 프로그램을 실행하여 제어 보드에 접속하면(S500), 관리 모듈은 미리 설정된 환경 설정 정보에 상응한 노드 자원 동작 정보를 상기 제어 보드로부터 수신한다(S502). 즉, 상기 관리 모듈은 제어 보드에 접속한 후, 상기 제어보드에 노드 자원 동작 정보 요청 명령을 전송한다. 그러면, 상기 제어보드는 상기 노드 자원 동작 정보 요청 명령에 상응한 자원 동작 정보를 수집하여 상기 관리 모듈에 전송한다.

단계 502의 수행후, 상기 관리 모듈은 상기 수신된 노드 자원 동작 정보를 분석하여 동작이 정지된 자원이 존재하는지의 여부를 판단한다(S504).

단계 504의 판단결과 동작이 정지된 자원이 존재하면, 상기 관리 모듈은 해당 노드에 장애가 발생한 것으로 판단하여 다른 노드에게 장애 발생 정보를 전송한다(S506). 여기서, 상기 장애 발생 정보는 장애가 발생한 노드, 상기 장애가 발생한 노드가 수행하던 서비스 종류 등을 포함한다.

단계 506의 수행후, 상기 관리 모듈은 다른 노드에게 상기 장애 발생 노드가 수행하던 서비스의 수행 명령을 전송한다(S508). 이때, 상기 관리 모듈은 상기 장애 발생 노드에서 수행하던 서비스를 다른 노드에서 수행하게 하기 위하여 해당 서비스를 등록한다. 즉, 상기 서비스 수행 명령에는 해당 서비스 등록 명령을 포함할 수 있다.

상기 서비스 수행 명령을 수신한 노드는 해당 서비스를 등록하여 수행한다.

만약, 단계 504의 판단결과 동작이 정지된 자원이 존재하지 않으면, 상기 관리 모듈은 해당 노드를 정상으로 판단한다(S510).

본 발명은 상기 실시예에 한정되지 않으며, 많은 변형이 본 발명의 사상 내에서 당 분야에서 통상의 지식을 가진 자에 의하여 가능함은 물론이다.

상술한 바와 같이 본 발명에 따르면, 시스템에 대한 장애 감지이므로 고가용성이나 클러스터링 시스템에도 사용하여 노드 장애의 감지/극복을 빨리 이루어 지속적인 서비스를 제공할 수 있는 노드 장애 감시 방법 및 시스템을 제공할 수 있다.

또한, 본 발명에 따르면, 시스템 자원이 부족한 경우에도 자원을 늘려 자원 가용성을 높일 수 있고, 자원을 하드웨어 신호로 검사하므로 구현에 있어서도 비용이 높지 않는 노드 장애 감시 방법 및 시스템을 제공할 수 있다.

또한, 본 발명에 따르면, 운영 시스템은 정상적이나 특정 서비스가 비정상적으로 동작을 하는 경우에도 장애 발생 여부를 알수 있으므로 빠른 조치를 취하여 지속적인 서비스를 제공할 수 있고, 사용자의 전산 업무 효율성을 높일 수 있는 노드 장애 방법 및 시스템을 제공할 수 있다.

도 1은 종래의 정보 통신 시스템의 구조를 나타낸 도면.

도 2는 종래의 노드의 장애 판단 방법을 나타낸 흐름도.

도 3은 본 발명의 바람직한 일 실시예에 따른 노드 장애를 감시하기 위한 정보통신 시스템의 구성을 개략적으로 나타낸 도면.

도 4는 본 발명의 바람직한 일 실시예에 따른 노드 자원에 대한 환경 설정 정보 변경 방법에 대한 흐름도.

도 5는 본 발명의 바람직한 일 실시예에 따른 노드의 장애 판단 방법을 나타낸 흐름도.

<도면의 주요 부분에 대한 부호의 설명>

300 : 노드 310 : 관리 모듈

320 : 공유 디스크

Claims

허트비트 채널로 구성된 시스템에서 노드 장애를 감지하는 방법에 있어서,

노드에 대한 자원 동작 정보가 수신되면, 상기 자원 동작 정보를 분석하여 동작이 정지된 자원이 존재하는지의 여부를 판단하는 단계;

상기 판단결과 동작이 정지된 자원이 존재하면, 해당 노드에 장애가 발생한 것으로 판단하여 다른 노드에게 장애 발생 정보를 전송하는 단계;

다른 노드에 상기 장애가 발생한 노드가 수행하던 서비스의 수행 명령을 전송하여 다른 노드에서 상기 장애가 발생한 노드에서 수행하던 서비스를 수행하는 단계

를 포함하는 것을 특징으로 하는 노드 장애 감지 방법.
제1항에 있어서,

상기 장애 발생 정보는 장애가 발생한 노드 고유번호, 상기 장애가 발생한 노드에서 수행하는 서비스 종류를 포함하는 것을 특징으로 하는 노드 장애 감지 방법.
제1항에 있어서,

상기 서비스 수행 명령은 해당 서비스 등록 명령을 포함하는 것을 특징으로 하는 노드 장애 감지 방법.
제1항 또는 제3항에 있어서,

상기 서비스 수행 명령을 수신한 다른 노드는 상기 서비스 수행 명령내의 서비스 등록 명령에 상응하여 해당 서비스를 등록한 후, 실행하는 것을 특징으로 하는 노드 장애 감지 방법.
제어 보드가 내장되어 있는 노드;

상기 노드를 서로 감시하고 정보를 교환하기 위한 허트비트 네트워크;

상기 노드의 상태를 감시하고 장애 복구를 수행하는 관리모듈

을 포함하는 것을 특징으로 하는 노드 장애 감지 시스템.
제5항에 있어서,

상기 제어보드는 노드의 자원 동작 정보를 수집하는 정보 모듈과 상기 수집된 자원 동작 정보를 상기 관리 모듈에 전송하는 통신 모듈로 구성된 것을 특징으로 하는 노드 장애 감지 시스템.
제5항에 있어서,

상기 관리 모듈은 노드내에 또는 사용자 단말기에 설치되어 상기 제어 보드와 연결되는 것을 특징으로 하는 노드 장애 감지 시스템.
제5항 또는 제7항에 있어서,

상기 관리모듈은 상기 제어보드로부터 전송된 자원 동작 정보를 분석하여 해당 노드의 장애 여부를 판단하는 것을 특징으로 하는 노드 장애 감지 시스템.
제8항에 있어서,

상기 관리 모듈은 장애가 발생한 노드가 감지되면, 다른 노드에 장애 발생 정보를 전송하여 다른 노드에서 상기 장애 발생 노드가 수행하던 서비스를 수행하게 하는 것을 특징으로 하는 노드 장애 감지 시스템.