KR20080051040A

KR20080051040A - 가상화 기반 고가용성 클러스터 시스템 및 고가용성클러스터 시스템에서 장애 관리 방법

Info

Publication number: KR20080051040A
Application number: KR1020070106754A
Authority: KR
Inventors: 고광원; 배승조; 김진미; 정영우; 우영춘; 김명준
Original assignee: 한국전자통신연구원
Priority date: 2006-12-04
Filing date: 2007-10-23
Publication date: 2008-06-10
Also published as: US8032780B2; US20100077250A1; KR100930576B1

Abstract

본 발명은 가상화된 시스템을 이용하여 생성한 고가용성 클러스터 시스템 및 그 고가용성 클러스터 시스템에서 장애 관리 방법에 관한 것으로, 복수의 가상 노드들; 및 상기 복수의 가상 노드들이 정상 상태임을 알리는 메시지를 생성하여 동일한 물리 노드에 존재하는 가상 노드들에게 전달하는 메시지를 생성하여 전송하는 메시지 생성기를 포함하는 복수의 물리 노드들을 포함하되, 상기 복수의 물리 노드들 중 제 1 물리 노드에 포함된 어느 하나의 가상 노드에 장애가 발생한 경우, 상기 복수의 물리 노드들 중 제 2 물리 노드에 포함된 어느 하나의 가상 노드가 서비스에 관련된 자원을 페일오버(failover)하는 것을 특징으로 하는 고가용성 클러스터 시스템 및 이러한 고가용성 클러스터 시스템에서 장애 관리 방법을 제공한다.

가상화 시스템, 고가용성 클러스터 시스템, 가상 노드, 물리 노드

Description

가상화 기반 고가용성 클러스터 시스템 및 고가용성 클러스터 시스템에서 장애 관리 방법{VIRTUALIZATION BASED HIGH AVAILABILITY CLUSTER SYSTEM AND METHOD FOR MANAGING ERROR IN VIRTUALIZATION BASED HIGH AVAILABILITY CLUSTER SYSTEM}

본 발명은 가상화 기반 고가용성 클러스터 시스템 및 가상화 기반 고가용성 클러스터 시스템에서 장애 관리 방법에 관한 것이다.

본 발명은 정보통신부 및 정보통신연구진흥원의 IT신성장동력핵심기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2006-S-035-01, 과제명: 분산이기종 서버 환경을 위한 공개 SW기반 가상 인프라 구현 기술개발].

먼저, 가상화 기반 시스템이란 물리 노드의 가상화를 통해서 복수개의 가상 노드를 제공하는 것이다. 이를 통해서 비즈니스의 급작스런 변화에 따라서 가상 노드에 가해지는 워크로드에 따라서 해당 노드에서 사용되는 자원들을 동적으로 할당/회수함으로 자원의 활용성을 높이기 위한 것이다. 이를 진행하기 위해서 가상화 플랫폼을 통해서 물리 노드가 복수의 가상 노드로 분할된다.

이에 고가용성 시스템이란, 기업의 기간 업무, 비즈니스에 따라 인터넷 혹은 셀룰러 망을 통해서 대상 사용자에게 직접적으로 제공되는 서비스 등을 제공함에 있어서, 궁극적으로 그 서비스의 안전성을 높이기 위한 것이다. 그리고, 이를 제공함에 있어, 일반적으로 해당 서비스를 진행하기 위한 콘텐츠들을 공유 스토리지를 통해서 공유하는 N개의 노드를 통해서 클러스터링 되게 된다.

이와 같이, 고가용성을 위한 클러스터링 시스템은, 일반적으로 2개의 서버를 연결하여 주 노드/부 노드 구성을 제공하게 되고, 주 노드가 서비스를 제공하기 위한 자원을 점유하고 서비스를 제공함과 동시에 부 노드가 주 노드에 대한 감시를 진행하게 된다. 이때, 상기 주 노드에 대해서 장애가 발생할 경우, 상기 부 노드가 장애가 발생한 서버의 자원을 취득하고 이를 기반으로 서비스를 재개하게 된다. 이를 통해서 대상 사용자에게 서비스를 끊김 없이 제공할 수 있다.

이하에서는, 도 1을 참조하여, 종래 기술에 따른 1+1 고가용성 시스템에 대하여 설명하도록 한다.

도 1에 도시된 바와 같이, 상기 1+1 고가용성 시스템은, 서비스 제공 서버인 하나의 액티브 노드(100-1)와 액티브 노드(100-1)를 감시하기 위한 하나의 백업 노드(100-2)로 구성된다.

상기 액티브 노드(100-1)와 백업 노드(100-2) 각각에는, 각각의 고가용성 관리자(110-1, 110-2)가 구비된다. 따라서, 상기 액티브 노드(100-1)의 고가용성 관리자(110-1)는, 일정 주기로 자신의 시스템의 상태를 하트 비트(HEARTBEAT) 메시지의 형태로 전송함으로써, 상기 백업 노드(100-2)의 고가용성 관리자(110-2)로 하여금 액티브 노드(100-1)가 정상적으로 서비스를 제공하고 있음을 알리게 된다.

만약, 하트 비트 메시지를 통해 액티브 노드(100-1)에 장애가 발생했음을 알 려주거나 액티브 노드(100-1)에서 발생시키는 하트 비트 메시지를 백업 노드 (100-2)가 받지 못할 경우, 백업 노드(100-2)는, 액티브 노드(100-1)에 장애가 발생했다고 판단하고 액티브 노드(100-1)에서 제공하고 있는 서비스의 자원에 대해서 페일오버(failover)를 진행하게 된다.

그러나, 상술한 1+1 고가용성 시스템에서는, 백업 노드에도 장애가 발생한 경우에 더 이상 서비스를 제공할 수 없는 가용성의 한계를 가진다. 또한, 2개 서버를 통해서 구성된 1+1 고가용성 클러스터링 시스템은, 사업의 중요도에 따라 요구되는 다중 백업 시스템을 구성하지 못함으로써, 통상적으로 다단계 고가용성 시스템을 구성하는 통신 장비 서버와 같은 환경에서 적용이 어려운 단점이 있다.

도 2를 참조하여, 종래 기술에 따른 1+m 고가용성 시스템에 대하여 설명하도록 한다.

도 2에 도시된 바와 같이, 상기 1+m 고가용성 시스템은, 하나의 액티브 노드(200-1)와 N-1개의 백업 노드(200-2~200-N)로 구성된다. 그리고, 상기 액티브 노드(200-1) 및 백업 노드(200-2~200-N)는, 각 시스템 상태를 알리는 하트 비트 메시지를 생성하여 전송하는 고가용성 관리자(210-1~210-N)를 포함한다.

예를 들어, 액티브 노드(2001-1)에 장애가 발생한 경우에, 모든 백업 노드 (200-2~200-N)는, 장애 발생을 인지함에 따라, 액티브 노드(200-1)로 상태를 전이하여 제공 서비스에 대한 자원을 페일오버할 백업 노드를 선출한다. 그리고, 상기 선출된 백업 노드는, 액티브 노드(200-1)에서 제공하던 서비스에 관련된 자원들을 페일오버한다.

그러나, 상술한 1+m 고가용성 시스템에 의하면, N-1개의 백업 노드가 존재하여 1+1 고가용성 시스템보다 더 높은 가용성을 제공할 수 있으나, 모든 노드가 클러스터 멤버쉽 정보를 공유하기 위해 하트 비트 메시지를 지속적으로 발생함으로 클러스터 노드가 증가를 초래하고, 결과적으로 네트워크와 각 노드에서의 하트 비트 메시지 처리에 많은 오버헤드가 발생하게 된다. 또한, 액티브 노드를 제외한 백업 노드들에 대한 자원 활용률이 떨어지게 되며, 실제 서비스를 제공하지 않는 노드들의 증가로 인한 관리 비용이 증가하게 된다.

본 발명은 상기와 같은 문제점을 해결하기 위한 것으로서, 가상 노드에서 발생한 장애를 효율적으로 관리함에 따라, 서비스를 지속적으로 끊어짐 없이 제공할 수 있는 고가용성 클러스터 시스템 및 고가용성 클러스터 시스템에서의 장애 관리 방법을 제공하는데 그 목적이 있다.

상기의 목적을 달성하기 위하여, 본 발명에 따른 가상화 기반 고가용성 클러스터 시스템은, 복수의 가상 노드들; 및 상기 복수의 가상 노드들이 정상 상태임을 알리는 메시지를 생성하여 동일한 물리 노드 상에 존재하는 가상 노드들에게 전송하는 메시지 생성기를 포함하는 복수의 물리 노드들을 포함하되, 상기 복수의 물리 노드들 중 제 1 물리 노드에 포함된 어느 하나의 가상 노드에 장애가 발생한 경우, 동일 물리 노드 상에 존재하는 가상 노드가 아닌, 상기 복수의 물리 노드들 중 제 2 물리 노드에 포함된 어느 하나의 가상 노드가 서비스에 관련된 자원을 페일오버(failover)하는 것을 특징으로 한다.

또한, 상기의 목적을 달성하기 위하여, 본 발명에 따른 고가용성 클러스터 시스템에서 장애 관리 방법은, 제 1 물리 노드의 제 1 가상 노드에서 장애가 발생하는 단계; 제 2 물리 노드에서 운영하는 복수의 가상 노드들 중 서비스에 관련된 자원을 페일오버할 가상 노드를 선정하는 단계; 및 상기 선정된 가상 노드를 통하여 상기 서비스에 관련된 자원을 페일오버하는 단계를 포함한다.

상술한 본 발명에 의하면, 소수의 물리 노드를 이용하여 신뢰성이 있는 고가용성 클러스터 시스템을 구축하여 고가용성 서비스를 제공할 수 있다. 이는, 서비스를 지원하는 시스템으로서의 신뢰성을 향상시키고, 서비스를 제공하는 가상 노드가 증가함에 대해서도 그 노드의 효율성을 떨어뜨리지 않으며, 낮은 관리비용으로 유지되는 고가용성 클러스터 시스템을 제공한다. 따라서, 본 발명은, 종래 기술이 가졌던 낮은 고가용성과 낮은 자원 효율성, 그리고 소프트웨어 및 하드웨어 장애를 극복할 수 있는 효과적인 고가용성 클러스터 시스템을 제공하게 된다.

또한, 상술한 본 발명에 의하면, 종래 기술에 따른 1+M 고가용성 시스템에서 제공되는 확장성과 가상화 플랫폼 기반 고가용성 시스템에서 제공하는 효율성을 결합하여, 중요 기간 업무 혹은 인프라 관련 서비스를 진행함에 있어서 높은 확장성을 통해 안정적인 서비스를 제공할 수 있고, 높은 효율성을 기반으로 낮은 관리비용이 요구되는 고가용성 시스템을 제공할 수 있다.

상술한 목적, 특징들 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 더욱 분명해 질 것이다. 이하 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명하도록 한다. 또한, 본 발명의 요지를 흐리게 할 우려가 있다고 판단되는 공지기술에 대하여서는 그 상세한 설명을 생략하도록 한다.

도 3을 참조하여, 본 발명에 따른 고가용성 클러스터 시스템에 대하여 상세히 설명하도록 한다. 도 3은, 본 발명에 따른 가상화 기반 고가용성 클러스터 시스 템에서 제 1 차 장애 발생시를 도시한다.

도 3에 도시된 바와 같이, 상기 고가용성 클러스터 시스템은, 가상화된 복수의 물리 노드들(300-1, 300-2), 상기 복수의 물리 노드들(300-1, 300-2) 각각에 포함되어 각 가상화 플랫폼상에서 운영되는 복수의 가상 노드들(310-1~310-N, 320-1~320-N) 및 상기 복수의 물리 노드들(300-1, 300-2) 각각에 포함되어 가상화 플랫폼 수준에서 하나의 메시지 생성기(350-1, 350-2)를 포함한다. 또한, 상기 복수의 가상 노드들(310-1~310-N, 320-1~320-N) 상에서 자신들이 장애 없음을 모든 가상 노드들에 알리기 위한 메시지를 생성하여 전송하는 고가용성 관리자(330-1~330-N, 340-1~340-N)들을 포함한다.

특히, 도 3에서는, 가상 노드 수준에서 하나의 액티브 노드(310-1)와 백업 노드(310-2~310-N, 320-1~320-N)로 동작하는 것을 제시한다. 또한, 상기 액티브 노드(310-1)에서 장애가 발생하는 경우에는, 서비스에 관련된 자원을 페일오버하는 백업 노드가 액티브 노드로서 동작하게 된다. 따라서, 상기 액티브 노드의 지위는, 장애 발생 위치 및 시점에 따라 변경될 수 있다.

이때, 상기 메시지 생성기(350-1, 350-2) 및 고가용성 관리자(330-1~330-N, 340-1~340-N)에서 생성하는 메시지는, 하트 비트 메시지일 수 있다.

상기 메시지 생성기(350-1, 350-2)는, 각각의 물리 노드(300-1, 300-2)에 존재하는 모든 가상 노드들(310-1~310-N, 320-1~320-N)에게 그 상태와 관계없이, 같은 물리 노드에 존재하는 모든 가상 노드들이 정상 상태임을 알리는 메시지를 생성하여 전달한다.

이와 같은 상황에서, 액티브 노드(310-1)에 대해서 장애가 발생한 경우, 액티브 노드(310-1)와 같은 물리 노드(300-1)에서 운영되는 백업 노드들(310-2~310-N)은, 메시지 생성기(350-1)에서 생성된 액티브 노드(310-1)의 정상 상태에 대한 신호로 인해서 액티브 노드(310-1)의 장애를 인지하지 못한다.

결과적으로, 장애가 발생한 액티브 노드(310-1)와 물리적으로 다른 물리 노드(300-2)에 존재하는 백업 노드들(320-1~320-N)만이 액티브 노드(310-1)의 장애를 인지하게 된다. 그리고, 백업 노드들(320-1~320-N) 중에서 하나를 선출하여, 액티브 노드(310-1)로부터 서비스에 관련된 자원(360-1)을 페일오버하게 된다. 즉, 상기 선출된 백업 노드는, 액티브 노드의 지위를 갖게 된다.

도 4를 참조하여, 본 발명에 따른 고가용성 클러스터 시스템에 대하여 상세히 설명하도록 한다. 도 4는, 본 발명에 따른 가상화 기반 확장성을 지원하는 고가용성 클러스터 시스템에서 제 2 차 장애 발생시를 도시한다.

도 3에서 설명한 바와 마찬가지로, 액티브 노드(440-1)의 장애에 대해서 물리적으로 다른 물리 노드(400-1)에 존재하는 백업 노드들(410-2~410-N)만이 장애를 인지하게 된다. 그리고, 장애를 인지한 백업 노드들(410-2~410-N) 중에서 선출된 백업 노드가 액티브 노드로 전이하여 서비스에 관련된 자원을 페일오버하게 된다.

도 5를 참조하여, 본 발명에 따른 고가용성 클러스터 시스템에서 장애 관리 방법을 설명하도록 한다. 도 5는, 가상화 기반 확장성을 지원하는 고가용성 시스템에서의 장애 관리 방법을 도시한다.

먼저, 제 1 물리 노드에서 구동되는 객체가 메시지 생성기인지를 확인한 다(510-1). 상기 확인 결과 메시지 생성기가 아닌 경우에는 가상 노드이기 때문에, 클러스터 멤버쉽을 구성하고(510-2), 고가용성 시스템에서의 가상 노드로 가상화 플랫폼에 입력한다(510-3).

그리고, 상기 가상 노드가 액티브 노드인지를 확인하여(520-2), 액티브 노드라고 판단되면, 액티브 노드에 대하여 메시지를 발생하게 된다(510-4). 그리고, 종료 신호가 입력되는지를 판단하여(510-5), 종료 신호가 입력되지 않은 경우에는 계속하여 메시지를 발생하고(510-4), 종료 신호가 입력된 경우에는 종료 상태로 전이한다(500-2).

한편, 상기 판단 결과 액티브 노드 아닌 경우에는 백업 노드라는 것을 의미하게 되고, 백업 노드에 대하여 메시지를 발생하게 된다(520-2). 그리고, 액티브 노드를 모니터링하는 중에(520-3), 액티브 노드에 대한 장애 발생 신호가 입력되었는지를 판단한다(530-1).

상기 판단 결과 장애 발생 신호가 입력되었다면, 제 1 물리 노드가 아닌 물리 노드, 예를 들어 제 2 물리 노드를 구성하는 백업 노드들 중에서 액티브 노드를 선출한다(530-2).

그리고, 상기 백업 노드들 중에 임의의 백업 노드는, 자신이 액티브 노드로 선출되었는지를 판단하여(540-1), 액티브 노드로 선출되지 못한 백업 노드인 경우에는 메시지를 계속하여 발생하고(520-2), 액티브 노드로 선출된 백업 노드인 경우에는 액티브 노드로서 페일오버를 진행하여 서비스에 관련된 자원을 획득한다(540-2).

한편, 제 1 물리 노드에서 구동되는 객체가 메시지 생성기라고 판단되는 경우에, 가상화 플랫폼으로부터 제 1 물리 노드 상의 가상 노드의 목록을 확인한 후(560-1), 확인한 가상 노드들에 대해서 메시지를 발생한다(560-2). 그리고, 이를 확인한 가상 노드들에 대해서 상기 발생한 메시지를 전송하게 된다(560-3). 그리고, 메시지를 전송 후 들어온 메시지에 대해서 종료 신호인지를 판단하여 (570-1), 종료 신호가 아니라면 다시 가상 노드 목록을 확인하고(560-1), 종료 신호라면 종료상태로 전이하게 된다(500-2).

이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로, 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.

도 1은 종래 기술에 따른 1+1 고가용성 시스템 구성도.

도 2는 종래 기술에 따른 1+m 고가용성 시스템 구성도.

도 3은 본 발명에 따른 고가용성 시스템에서 가상 노드에서 제 1 차 장애가 발생한 경우의 시스템 구성도.

도 4는 본 발명에 따른 고가용성 클러스터 시스템에서 가상 노드에서 제 2 차 장애가 발생한 경우의 시스템 구성도.

도 5는 본 발명에 따른 고가용성 클러스터 시스템에서 장애 관리 방법을 나타낸 흐름도.

<도면 주요 부분에 대한 설명>

100-1 ~ 100-2 : 물리 노드(클러스터 노드)

110-1 ~ 110-2 : 고가용성 관리자

200-1 ~ 200-N : 물리 노드(클러스터 노드)

210-1 ~ 210-N : 고가용성 관리자

300-1 ~ 300-2 : 물리 노드

310-1 ~ 310-N : 물리 노드 300-1상에서 운영되는 가상 노드

320-1 ~ 320-N : 물리 노드 300-2상에서 운영되는 가상 노드

330-1 ~ 330-N : 고가용성 관리자

340-1 ~ 340-N : 고가용성 관리자

350-1 ~ 350-2 : 메시지 생성기

360-1 : 고가용성 서비스 접근 주소

400-1 ~ 400-2 : 물리 노드

410-1 ~ 410-N : 물리 노드 400-1상에서 운영되는 가상 노드

420-1 ~ 420-N : 물리 노드 400-2상에서 운영되는 가상 노드

430-1 ~ 430-N : 고가용성 관리자

440-1 ~ 440-N : 고가용성 관리자

450-1 ~ 450-2 : 메시지 생성기

460-1 : 고가용성 서비스 접근 주소

Claims

복수의 가상 노드들; 및

상기 복수의 가상 노드들이 정상 상태임을 알리는 메시지를 생성하여 동일 물리 노드에 존재하는 가상 노드에 전달하는 메시지를 생성하여 전송하는 메시지 생성기를 포함하는 복수의 물리 노드들을 포함하되,

상기 복수의 물리 노드들 중 제 1 물리 노드에 포함된 어느 하나의 가상 노드에 장애가 발생한 경우, 상기 복수의 물리 노드들 중 제 1 물리 노드에 포함되지 않은 어느 하나의 가상 노드가 서비스에 관련된 자원을 페일오버(failover)하는 것을 특징으로 하는 고가용성 클러스터 시스템.
제 1 항에 있어서, 상기 가상 노드는,

상기 가상 노드에 장애가 없음을 모든 가상 노드들에 알리는 메시지를 생성하여 동일 물리 노드에 존재하는 가상 노드에 전송하는 고가용성 관리자를 포함하는 고가용성 클러스터 시스템.
제 1 물리 노드의 제 1 가상 노드에서 장애가 발생하는 단계;

제 2 물리 노드에서 운영하는 복수의 가상 노드들 중 서비스에 관련된 자원을 페일오버할 가상 노드를 선정하는 단계; 및

상기 선정된 가상 노드를 통하여 상기 서비스에 관련된 자원을 페일오버하는 단계를 포함하는 고가용성 클러스터 시스템에서 장애 관리 방법.
제 3 항에 있어서,

상기 제 1 가상 노드에서 장애가 발생하였음을 상기 제 1 물리 노드를 제외한 물리 노드 상에서 운영하는 복수의 가상 노드들이 인지하는 단계를 더 포함하는 고가용성 클러스터 시스템에서 장애 관리 방법.
제 3 항에 있어서,

상기 선정된 가상 노드에서 장애가 발생하는 경우에, 상기 제 2 물리 노드를 제외한 물리 노드들에 포함된 복수의 가상 노드들 중 상기 제 1 가상 노드를 제외한 가상 노드들 중 어느 하나의 가상 노드에서 상기 서비스에 관련된 자원을 페일오버하는 단계를 더 포함하는 고가용성 클러스터 시스템에서 장애 관리 방법.