KR20090060910A - 고가용 클러스터의 가용성 예측 방법 - Google Patents

고가용 클러스터의 가용성 예측 방법 Download PDF

Info

Publication number
KR20090060910A
KR20090060910A KR1020070127904A KR20070127904A KR20090060910A KR 20090060910 A KR20090060910 A KR 20090060910A KR 1020070127904 A KR1020070127904 A KR 1020070127904A KR 20070127904 A KR20070127904 A KR 20070127904A KR 20090060910 A KR20090060910 A KR 20090060910A
Authority
KR
South Korea
Prior art keywords
availability
nodes
probability
cluster
node
Prior art date
Application number
KR1020070127904A
Other languages
English (en)
Other versions
KR100962401B1 (ko
Inventor
이용주
민옥기
김창수
박유현
박춘서
석성우
정진환
이원재
김학영
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020070127904A priority Critical patent/KR100962401B1/ko
Priority to US12/184,707 priority patent/US7930137B2/en
Publication of KR20090060910A publication Critical patent/KR20090060910A/ko
Application granted granted Critical
Publication of KR100962401B1 publication Critical patent/KR100962401B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/008Reliability or availability analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2002Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
    • G06F11/2007Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication media
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2035Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant without idle spare hardware

Abstract

본 발명은 고가용 클러스터의 가용성 예측 방법에 대하여 개시한다. 본 발명은 (a) 클러스터 시스템의 두 노드 중 일노드에 장애가 발생하면, 타 노드가 일노드가 복구될 때까지 생존할 확률
Figure 112007088763913-PAT00001
을 구하는 단계와, (b) 클러스터 시스템의 기준 가용성 확률을 정하는 단계와, (c) 상기
Figure 112007088763913-PAT00002
을 이용하여 상기 기준 가용성 확률을 만족하는 이상적인 헤드 노드 수 n(2≤n)을 구하는 단계를 포함하는 점에 그 특징이 있다.
본 발명은 고가용 클러스터 구축시에 기준 가용성 확률 조건에 부합하는 노드 수를 결정하고, 능동/수동 노드의 조합 및 헤드 노드/스위치의 조합에 대한 가용성 확률을 연산하여 최적의 노드를 구성할 수 있다.
클러스터(Cluster), 고가용성(High Availability), 마르코브 체인(Markov Chain)

Description

고가용 클러스터의 가용성 예측 방법 { Availablity Prediction Method for HA Cluster }
본 발명은 고가용 클러스터의 가용성 예측 방법에 관한 것으로, 특히 요구 가용성 수준을 정하여 이를 만족하는 최적의 노드 수 및 운용 방법을 결정할 수 있는 고가용 클러스터의 가용성 예측 방법에 관한 것이다.
본 발명은 정보통신부 및 정보통신연구진흥원의 IT신성장동력핵심기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호:2007-S-016-01, 과제명:저비용 대규모 글로벌 인터넷 서비스 솔루션 개발].
일반적으로 클러스터 시스템이라 함은 유사성을 갖는 다수의 노드를 그룹으로 분류하여 가상 이미지의 프로그램을 통합 운영하는 시스템을 의미한다.
현재, 고가용성(HA, High Availability), 부하분산(Load-balancing), 고성능 컴퓨팅(High performance computing), 그리드 컴퓨팅(Grid computing) 등의 여러 분야에서 그 연구가 이루어지고 있으며, 특히 고가용성은 오늘날의 인터넷 환경에서 사용자의 요구에 고장(Failure)없이 서비스를 제공하기 위한 클러스터 기술의 중요한 측면이다.
고가용 클러스터는 하나 이상의 노드를 가짐으로써 그중 일부에 고장이 발생할 경우를 대비한다. 또한, 개별 노드 상태를 수시로 확인하여 클러스터에서 고장난 노드를 동적으로 제거하고, 해당 노드가 수행하던 작업을 다른 노드가 대신하도록 하며, 복구된 노드는 다시 클러스터에 합류시킨다.
도 1a는 종래 기술에 따른 비대칭 클러스터 시스템 구성을 도시한 블록도이다. 비대칭 클러스터 시스템(100)은 계산 노드(130)를 모니터링하는 헤드 노드(Head Node)(110), 헤드 노드(110)와 계산 노드(130) 사이에 존재하는 스위치(Switch Node)(120), 헤드 노드(110)에 의해 사용자의 요구를 수행하는 계산 노드(Compute Node)(130)로 구성된다.
헤드 노드(110)는 클러스터 관련 소프트웨어 배포하고, 계산 노드(130)를 모니터링하여 고장 감지 및 회복을 수행하고 최적의 시스템 가용성을 유지하도록 한다. 실제 클러스터 시스템 운용에서 노드의 고장을 최소화하는 것은 매우 중요하다.
헤드 노드(110)는 두 개의 이더넷(Ethernet) 장치를 가지는데 하나는 스위치(120)를 통하여 계산 노드(130)로 연결되는 전용망(Private Network)을 통해 사용자의 요구를 수행하게 하며, 다른 하나는 공중망(Public Network)을 통하여 사용자의 서비스를 받는다.
스위치(120)는 전용망에 연결되어 헤드 노드(100)에서 계산 노드(130)로 이르는 경로를 제공한다.
계산 노드(130)는 전용망에 연결되어 헤드 노드(100)의 명령에 따라 소정의 연산을 수행한다.
도 1b는 종래 기술에 따른 고가용 클러스터 시스템 구성을 도시한 블록도이다. 도 1b에 도시된 바와 같이, 고가용 클러스터 시스템은 두 개의 헤드 노드(211, 212), 두 개의 스위치(221, 222), m개의 계산 노드(230_1~230_m)로 구성된다.
두 개의 헤드 노드(211, 212)는 노드를 이중화하여 하나의 헤드 노드(211)에 고장이 발생했을 때 다른 헤드 노드(212)로 대체할 수 있다.
스위치(221, 222)도 역시 2대가 사용되어 하나의 스위치에 고장이 발생하면 다른 하나로 대체 가능하다.
이때, 두 대의 스위치(221, 222)가 사용되므로 헤드 노드(211, 212)에는 각각 3개의 이더넷 장치가 장착된다.
도 2는 일반적인 고가용 클러스터 시스템 구성을 도시한 블록도이다. 도 2에 도시된 바와 같이, 고가용 클러스터 시스템은 복수 개의 헤드 노드(250_1~250_n), 복수 개의 스위치(260_1, 260_l), 계산 노드(270_1~270_m)로 구성된다. 헤드 노드(250_1~250_n)의 수 n에 따라서 가용성을 나타내는 수치인 "number of nines"의 값이 달라진다.
이러한 가용성 수치는 노드 수 n, 능동 노드와 수동 노드의 수, 노드의 구성(예컨대, 헤드 노드만으로 구성 또는 헤드 노드 및 스위치로 노드를 구성)에 따라서 달라진다.
물론, n이 증가할수록 가용성 확률은 점점 증가하지만 무한정 노드를 증가시킬수는 없으므로 고가용 클러스터 시스템 구축시 가용성 확률을 고려하여 원하는 수준의 n을 예측하여 시스템을 구축하는 방법은 매우 유용한 기법이다.
본 발명은 클러스터 시스템 구성시 소정 수준의 가용성 확률을 정하여 상기 수준을 만족하는 최적의 노드 수 및 운용 방법을 결정할 수 있는 고가용 클러스터의 가용성 예측 방법을 제공함에 그 목적이 있다.
전술한 목적을 달성하기 위해서 본 발명에 따른 고가용 클러스터의 가용성 예측 방법은, (a) 클러스터 시스템의 두 노드 중 일노드에 장애가 발생하면, 타 노드가 일노드가 복구될 때까지 생존할 확률
Figure 112007088763913-PAT00003
을 구하는 단계와, (b) 클러스터 시스템의 기준 가용성 확률을 정하는 단계와, (c) 상기
Figure 112007088763913-PAT00004
을 이용하여 상기 기준 가용성 확률을 만족하는 이상적인 헤드 노드 수 n(2≤n)을 구하는 단계를 포함하는 점에 그 특징이 있다.
여기서, 상기 (c)단계는 (c-1) 노드 수 n을 2로 초기화하는 단계와, (c-2) 노드 수가 n일 때의 가용성 확률
Figure 112007088763913-PAT00005
을 연산하는 단계와, (c-3) 상기 가용성 확률
Figure 112007088763913-PAT00006
이 상기 기준 가용성 확률 이상인지 비교하는 단계와, (c-4) 상기 연산한 가용성 확률
Figure 112007088763913-PAT00007
이 상기 기준 가용성 확률 이상인 n을 출력하는 단계를 포함한다.
또한, 상기 (c-3)단계에서, 상기 가용성 확률
Figure 112007088763913-PAT00008
이 상기 기준 가용성 확률보다 적으면, 노드 수 n을 1만큼 증가하고, 상기 (c-2)단계로 돌아가며, 상기 (c- 4)단계에서 상기 노드 수 n은 최초 값 또는 소정의 횟수 번 출력 값 중 최대 값이다.
그리고, 상기 가용성 확률
Figure 112007088763913-PAT00009
은 다음 수학식
Figure 112007088763913-PAT00010
에 의해 산출되며, 상기 정족수
Figure 112007088763913-PAT00011
은, 상기 노드 수 n에 1을 더한 값을 2로 나눈 값이다.
본 발명의 다른 특징에 따른, n 노드가 있는 클러스터 시스템에서 능동 노드 및 수동 노드의 수를 결정하는 방법에 있어서, (d) 1개 이상의 능동 노드와 전체 노드에서 능동 노드를 뺀 개수의 수동 노드로 조합가능한 클러스터 시스템 구성을 나열하는 단계와, (e) 상기 나열한 시스템 구성에 대한 가용성 확률
Figure 112007088763913-PAT00012
를 마르코브 체인을 이용하여 연산하는 단계와, (f) 상기 시스템 구성중 상기 연산한 가용성 확률
Figure 112007088763913-PAT00013
가 최대인 시스템 구성을 예측하는 단계를 포함하는 점에 그 특징이 있는 고가용 클러스터의 가용성 예측 방법이 제공된다.
본 발명의 또 다른 특징에 따른, 전체 노드가 U (1≤U)개일 때 하나 이상 전체 노드 이하 개 헤드 노드 수(
Figure 112007088763913-PAT00014
) 및 하나 이상 전체 노드 이하 개의 스위치 수(
Figure 112007088763913-PAT00015
)를 결정하는 방법에 있어서, (g) 상기
Figure 112007088763913-PAT00016
개의 헤드 노드와 상기
Figure 112007088763913-PAT00017
개의 스위치로 구성가능한 클러스터 시스템 구성을 나열하는 단계와, (h) 상기 나 열한 시스템 구성에 대한 가용성 확률
Figure 112007088763913-PAT00018
을 연산하는 단계와, (i) 상기 가용성 확률
Figure 112007088763913-PAT00019
이 최대인 시스템 구성을 확인하는 단계를 포함하는 점에 그 특징이 있는 고가용 클러스터의 가용성 예측 방법이 제공된다.
여기서, 상기 가용성 확률은 개별 노드의 확률의 합 또는 시스템의 전체 확률
Figure 112007088763913-PAT00020
에서 시스템이 생존할 확률
Figure 112007088763913-PAT00021
을 나눈 결과이며, 상기 시스템이 생존할 확률
Figure 112007088763913-PAT00022
는, 다음 수학식
Figure 112007088763913-PAT00023
에 의해 산출되며, 상기 시스템의 전체 확률
Figure 112007088763913-PAT00024
는, 다음 수학식
Figure 112007088763913-PAT00025
에 의해 산출된다.
여기서, 상기
Figure 112007088763913-PAT00026
및 상기
Figure 112007088763913-PAT00027
는, MTTF(Mean Time To Failure)의 역수이며, 상기
Figure 112007088763913-PAT00028
및 상기
Figure 112007088763913-PAT00029
는 MTTR(Mean Time To Repair)의 역수이다.
본 발명에 따른 고가용 클러스터의 가용성 예측 방법은 클러스터 시스템 구성시 요구 가용성 수준을 정하여 상기 수준을 만족하는 최적의 노드 수 및 운용 방법을 결정할 수 있다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명하 기로 한다. 이하의 실시예에서는 이 기술분야에서 통상적인 지식을 가진 자에게 본 발명이 충분히 이해되도록 제공되는 것으로서, 여러 가지 형태로 변형될 수 있으며, 본 발명의 범위가 다음에 기술되는 실시예에 한정되는 것은 아니다.
도 3은 본 발명의 일실시예에 따른 노드의 가용성 확률을 나타낸 테이블이다. 도 3에 도시된 테이블은 5개의 노드에 대한 생존 확률로 가용성 확률을 나타낸다.
노드 상태(310)는 1비트로 개별 노드의 동작 여부를 표시한다. 즉, 비트 "0"이면 그 노드는 액티브 노드(Active Node)이며, 비트 "1"이면 그 노드는 다운 노드(Down Node)이다.
도 3에서는, 하나의 노드가 다운 노드라는 가정하에 나머지 4개의 노드 상태를 변화시킨 16(2의 4승)개 경우를 나열하여 각각 클러스터 시스템의 생존 상태(320) 및 가용성 확률(330)을 도시하였다.
생존 상태(320)는 클러스터 시스템의 생존 상태로 동작 상태에 있는 노드인 액티브 노드 수가 필요한 노드의 수인 정족수
Figure 112007088763913-PAT00030
(Quorum number) 이상일 때 시스템 생존은 성공 상태이고, 반대로 정족수가 액티브 노드의 수를 초과하면 시스템 생존상태는 실패 상태이다.
가용성 확률(330)
Figure 112007088763913-PAT00031
은 다음 수학식 1에 의해 산출되며 여기서,
Figure 112007088763913-PAT00032
은 두 노드 중 일노드에 장애가 발생하면, 타 노드가 일노드가 복구될 때까지 생존할 확률이다.
Figure 112007088763913-PAT00033
Figure 112007088763913-PAT00034
이때, 클러스터 시스템에 2 대의 노드가 있을 경우
Figure 112007088763913-PAT00035
동안 일노드의 고장을 복구하지 못하면 전체 시스템의 가용성은 0%가 된다. 따라서, 2 노드에 대한 가용성 확률
Figure 112007088763913-PAT00036
은 시스템이 생존할 확률이다.
도 3에서 첫 번째 경우는 4 대의 노드가 모두 액티브 노드이므로 가용성 확률은 각 노드의 확률
Figure 112007088763913-PAT00037
을 네 번 곱한
Figure 112007088763913-PAT00038
이다.
두 번째 경우는 3 대의 노드가 액티브 노드이고 나머지 1 대의 노드는 다운 노드이므로 가용성 확률(330)은 3 대의 노드의 확률
Figure 112007088763913-PAT00039
과 나머지 1 대의 노드의 확률
Figure 112007088763913-PAT00040
의 곱이다.
그리고, 네 번째 경우와 같이 시스템의 생존 상태(320)가 실패인 경우는 가용성 확률은 0이며, 그 이외의 경우도 전술한 계산 방식으로 가용성 확률(330)이 산출된다.
도 4는 본 발명의 일시예에 따른 고가용 클러스터 시스템을 가용성 확률을 도시한 테이블이다. 도 4에 도시된 테이블은 노드의 수를 2 내지 n개 정족수를 2 내지
Figure 112007088763913-PAT00041
개로 변화시켰을 때의 가용성 확률
Figure 112007088763913-PAT00042
내지
Figure 112007088763913-PAT00043
을 도시하였다.
상세하게는, 노드 수가 2이고 정족수가 없을 때의 가용성 확률은
Figure 112007088763913-PAT00044
이고, 노드 수가 3이고 정족수가 2 일 때의 가용성 확률은
Figure 112007088763913-PAT00045
, 노드 수가 4이고 정족수가 3일 때의 가용성 확률은
Figure 112007088763913-PAT00046
, 노드 수가 5이고 정족수가 3일 때의 가용성 확률은
Figure 112007088763913-PAT00047
, 노드 수가 6이고 정족수가 4일 때의 가용성 확률은
Figure 112007088763913-PAT00048
이며, 노드 수가 n이고 정족수가
Figure 112007088763913-PAT00049
일 때의 가용성 확률은
Figure 112007088763913-PAT00050
이다.
도 5는 본 발명의 일실시예에 따른 기준 가용성 확률이상의
Figure 112007088763913-PAT00051
을 제공하는 고가용 클러스터의 노드 수 n을 구하는 방법을 도시한 흐름도이다. 이하, 도 5를 참조하여 설명한다.
먼저, 클러스터 시스템의 두 노드 중 일노드에 장애가 발생하면, 타 노드가 일노드가 복구될 때까지 생존할 확률
Figure 112007088763913-PAT00052
을 구한다(S510). 이때,
Figure 112007088763913-PAT00053
은 시스템의 환경에 따라 다를 수 있다.
이어서, 클러스터 시스템의 기준 가용성 확률을 정한다(S520). 구성 또는 변경할 클러스터 시스템에 소정의 기준 가용성 확률을 정함으로써 헤드 노드 수를 연산할 수 있다.
그 다음으로, n에 2를 대입하고(S530), 상기 수학식 1로 가용성 확률
Figure 112007088763913-PAT00054
을 연산한다(S540).
그리고, 연산한
Figure 112007088763913-PAT00055
이 상기 기준 가용성 확률 이상인지 비교한다(S550).
연산한
Figure 112007088763913-PAT00056
이 기준 가용성 확률 이상이면, 그때의 헤드 노드 수 n값을 출력한다(S560).
이때, n은 최초 값, 또는 소정의 횟수 번 결정된 값 중 최대값으로 결정할 수 있다.
한편, 연산한
Figure 112007088763913-PAT00057
이 상기 기준 가용성 확률보다 적으면(S550), n을 1만큼 증가시키고(S570), 단계 (S540)으로 돌아간다.
도 6은 본 발명의 일실시예에 따른 n개의 노드 중 능동/수동 노드 수를 결정하는 방법을 도시한 흐름도이다. 이하, 도 6을 참조하여 설명한다.
즉, 도 5 흐름도의 과정 등을 통하여 전체 노드 수 n이 결정되었다는 가정하에 능동 노드(Active Node)와 수동 노드(Passive Node) 수를 결정하는 방법이다.
먼저, 1개 이상의 능동 노드와 (n - 능동 노드)개의 수동 노드로 조합가능한 클러스터 시스템의 종류를 나열한다(S610).
이어서, 나열한 종류에 대하여 도 7 내지 9와 같이 마르코브 체인(Markov Chain)을 이용하여 가용성 확률을 연산한다(S620).
마르코브 체인(Markov Chain)은 다양한 경영 시스템을 모형화하는 수학적 기 법으로 과거의 변화를 토대로 시스템의 여러 변수들이 갖고 있는 동적 성격을 파악하여 미래에 있을 변화를 연속적으로 예측하는 기법이다.
그리고, 나열한 시스템 중 연산한 가용성 확률이 최대인 시스템을 예측한다(S630).
도 7 내지 9는 마르코브 체인을 이용하여 본 발명의 일실시예에 따른 클러스터 시스템의 가용성 확률 연산과정을 도시한 상태도이다.
도 7은 하나의 능동 노드가 존재하는 경우의 가용성 확률을 마르코브 체인으로 도시하였다.
이 경우 2 개의 상태(State)가 존재하며, 상태 1은 노드가 살아 있는 경우(Active Node)이고, 상태 2는 노드가 죽은 상태(Down Node)이다.
상태 1에 머무를 확률을 π1, 상태 2에 머무를 확률을 π2, 상태 1에서 상태 2로 갈 확률은 α1, 상태 2에서 상태 1로 갈 확률은 β1이라고 하면, 가용성 확률(Availability Probability) A는 π1이 된다. 나머지 개별 확률에 대한 수학적인 관계성은 다음 수학식 2와 같다.
Figure 112007088763913-PAT00058
Figure 112007088763913-PAT00059
여기서, α1는 MTTF(Mean Time To Failure) 노드가 죽을 확률이며, β1는 MTTR(Mean Time To Repair) 노드의 고장을 수리하여 다시 생존할 확률이다.
도 8은 두 노드 중 하나는 능동 노드이고 다른 하나는 수동 노드인 경우의 가용성 확률을 마르코브 체인으로 도시하였다.
이 경우는 모두 4개의 상태(State)가 존재하며, 상태 1은 능동 노드와 수동 노드가 살아있는 상태이며, 상태 2는 능동 노드가 죽고 수동 노드를 능동 노드로 전환하는 상태이고, 상태 3은 수동 노드가 능동 노드의 역할을 수행하는 상태이며, 상태 4는 두 노드 모두 죽은 상태이다.
개별 상태에 대한 확률은 수학식 3에 나타내었으며, 이 경우의 가용성 확률은
Figure 112007088763913-PAT00060
이다.
Figure 112007088763913-PAT00061
Figure 112007088763913-PAT00062
도 9는 두 대가 모두 능동 노드인 경우의 가용성 확률을 마르코브 체인으로 도시하였다.
이 경우는 모두 5 개의 상태가 존재하며, 개별 상태의 가용성 확률은 다음 수학식 4와 같이 나타나며, 가용성 확률 A는 상태 1, 상태 2의 합과, 시스템을 1/2 확률만큼 가용가능한 상태 2, 상태 5의 합인
Figure 112007088763913-PAT00063
이다.
Figure 112007088763913-PAT00064
Figure 112007088763913-PAT00065
Figure 112007088763913-PAT00066
도 10은 본 발명의 일실시예에 따른 가변적인 능동/수동 노드 설정에서 MTTF의 변화에 따른 가용성 확률 예측 테이블이다. 도 10은 도 7 내지 9 및 그 이외 경우를 요약한 테이블이다.
노드가 5 대인 경우(1035)에는 그 이하의 경우(1032, 1033, 1034)보다 작은 값의 MTTF(1020)에 덜 민감하며, 가용성 확률 "number of nines"(1010)가 높은 것을 알 수 있다.
도 11은 본 발명의 일실시예에 따른 하나 이상의 헤드 노드 및 하나 이상의 스위치가 있는 클러스터 시스템에 대해 가용성 확률이 최대가 되는 헤드 노드와 스위치 수를 결정하는 방법을 도시한 흐름도이다.
먼저,
Figure 112007088763913-PAT00067
개의 헤드 노드 ,
Figure 112007088763913-PAT00068
개의 스위치로 구성가능한 클러스터 시스템 종류를 나열한다(S1110).
여기서, 전체 노드가 U (1≤U)개일 때
Figure 112007088763913-PAT00069
Figure 112007088763913-PAT00070
,
Figure 112007088763913-PAT00071
Figure 112007088763913-PAT00072
이다.
이어서, 나열한 시스템에 대한 다음 수학식 5에 의해 산출되는 가용성 확률
Figure 112007088763913-PAT00073
을 연산한다(S1120).
Figure 112007088763913-PAT00074
Figure 112007088763913-PAT00075
Figure 112007088763913-PAT00076
Figure 112007088763913-PAT00077
Figure 112007088763913-PAT00078
(MTTF, Mean Time To Failure)
Figure 112007088763913-PAT00079
(MTTR, Mean Time To Repair)
Figure 112007088763913-PAT00080
여기서,
Figure 112007088763913-PAT00081
는 시스템이 생존할 확률이며, 상기
Figure 112007088763913-PAT00082
는 시스템의 전체 확률 이고,
Figure 112007088763913-PAT00083
는 상태별 확률이다.
그리고, 나열한 시스템 중에 연산한
Figure 112007088763913-PAT00084
가 최대인 시스템을 확인한다(S1130). 이후, 클러스터 시스템 구축 시에
Figure 112007088763913-PAT00085
가 최대인 경우를 참조하면 이상적인 클러스터 시스템을 구성할 수 있다.
도 12는 CTMC(Continuous-Time Markov Chain)을 이용하여 본 발명의 일실시예에 따른 두 대의 헤드 노드와 하나의 스위치가 있는 클러스터 시스템의 가용성 확률을 예측한 상태도이다. 이하, 도 12 및 표 1을 참조하여 설명한다.
상태 헤드 노드 스위치 시스템 상태
상태 1 2 1 액 티 브
상태 2 1 1 액 티 브
상태 3 0 1 다운
상태 4 2 0 다운
상태 5 1 0 다운
표 1의 상태 1는 2 대의 헤드 노드와 1 대의 스위치가 생존할 경우, 상태 2는 1 대의 헤드 노드와 1 대의 스위치가 생존할 경우, 상태 3은 1 대의 스위치만 생존할 경우, 상태 4는 2 대의 헤드 노드만 생존할 경우, 상태 5는 1 대의 헤드 노드만 생존할 경우를 도시하였다.
여기서, 상태 1 및 상태 2에서 클러스터 시스템은 액티브 상태이고, 상태 3, 상태 4, 상태 5에서 클러스터 시스템은 다운 상태이다.
도 12의 CTMC(Continuous-Time Markov Chain)을 이용하여 개별 상태 및 상태 변화시의 개별 확률을 살펴본다.
이때, 헤드 노드 2대가 생존하기 때문에 상태 1에서 상태 2로 갈 확률은 2λhn이며, 헤드 노드 1대가 생존하기 때문에 상태 2에서 상태 3으로 갈 확률이 λhn, 상태 3에서 상태 2 및 상태 2에서 상태 1로 확률은δhn이다.
또한, 스위치 1대가 생존하기 때문에 상태 1에서 상태 4 및 상태 2에서 상태 5로 갈 확률은 λsw, 상태 4에서 상태 1 및 상태 5에서 상태 2로 갈 확률은 δsw이다.
이상, 바람직한 실시예 및 첨부 도면을 통해 본 발명의 구성에 대하여 설명하였다. 그러나, 이는 예시에 불과한 것으로서 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 본 기술 분야의 지식을 가진자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것인바, 본 발명의 진정한 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.
도 1a 및 도 1b은 종래 기술에 따른 비대칭 클러스터 시스템 구성을 도시한 블록도.
도 2는 일반적인 고가용 클러스터 시스템 구성을 도시한 블록도.
도 3은 본 발명에 따른 노드의 가용성을 나타낸 테이블.
도 4는 본 발명에 따른 가용성 클러스터 시스템의 가용성 확률을 도시한 테이블.
도 5는 본 발명에 따른 기준 가용성 확률이상인
Figure 112007088763913-PAT00113
을 제공하는 고가용 클러스터의 노드 수 n을 구하는 방법을 도시한 흐름도.
도 6은 본 발명에 따른 n개의 노드 중 능동/수동 노드 수를 결정하는 방법을 도시한 흐름도.
도 7 내지 9는 마르코브 체인을 이용하여 본 발명에 따른 클러스터 시스템의 가용성 확률 연산과정을 도시한 상태도.
도 10은 본 발명에 따른 가변적인 능동/수동 노드 설정에서 MTTF의 변화에 따른 가용성 확률 예측 테이블.
도 11은 본 발명에 따른 클러스터 시스템에 대해 가용성 확률이 최대가 되는 헤드 노드와 스위치 수를 결정하는 방법을 도시한 흐름도.
도 12는 CTMC(Continuous-Time Markov Chain)을 이용하여 본 발명에 따른 클러스터 시스템의 가용성 확률을 예측한 상태도.

Claims (11)

  1. (a) 클러스터 시스템의 두 노드 중 일노드에 장애가 발생하면, 타 노드가 일노드가 복구될 때까지 생존할 확률
    Figure 112007088763913-PAT00086
    을 구하는 단계와,
    (b) 클러스터 시스템의 기준 가용성 확률을 정하는 단계와,
    (c) 상기
    Figure 112007088763913-PAT00087
    을 이용하여 상기 기준 가용성 확률을 만족하는 이상적인 헤드 노드 수 n(2≤n)을 구하는 단계
    를 포함하는 것을 특징으로 하는 고가용 클러스터의 가용성 예측 방법.
  2. 제1항에 있어서, 상기 (c)단계는,
    (c-1) 노드 수 n을 2로 초기화하는 단계와,
    (c-2) 노드 수가 n일 때의 가용성 확률
    Figure 112007088763913-PAT00088
    을 연산하는 단계와,
    (c-3) 상기 가용성 확률
    Figure 112007088763913-PAT00089
    이 상기 기준 가용성 확률 이상인지 비교하는 단계와,
    (c-4) 상기 연산한 가용성 확률
    Figure 112007088763913-PAT00090
    이 상기 기준 가용성 확률 이상인 n을 출력하는 단계
    를 포함하는 것을 특징으로 하는 고가용 클러스터의 가용성 예측 방법.
  3. 제2항에 있어서, 상기 (c-3)단계에서,
    상기 가용성 확률
    Figure 112007088763913-PAT00091
    이 상기 기준 가용성 확률보다 적으면, 노드 수 n을 1만큼 증가하고, 상기 (c-2)단계로 돌아가는 것을 특징으로 하는 고가용 클러스터의 가용성 예측 방법.
  4. 제2항에 있어서, 상기 (c-4)단계에서 상기 노드 수 n은,
    최초 값 또는 소정의 횟수 번 출력 값 중 최대 값
    인 것을 특징으로 하는 고가용 클러스터의 가용성 예측 방법.
  5. 제2항에 있어서, 상기 가용성 확률
    Figure 112007088763913-PAT00092
    은,
    다음 수학식
    Figure 112007088763913-PAT00093
    에 의해 산출되는 것을 특징으로 하는 고가용 클러스터의 가용성 예측 방법.
  6. 제5항에 있어서, 상기 정족수
    Figure 112007088763913-PAT00094
    은,
    상기 노드 수 n에 1을 더한 값을 2로 나눈 값
    인 것을 특징으로 하는 고가용 클러스터의 가용성 예측 방법.
  7. n 노드가 있는 클러스터 시스템에서 능동 노드 및 수동 노드의 수를 결정하 는 방법에 있어서,
    (d) 1개 이상의 능동 노드와 전체 노드에서 능동 노드를 뺀 개수의 수동 노드로 조합가능한 클러스터 시스템 구성을 나열하는 단계와,
    (e) 상기 나열한 시스템 구성에 대한 가용성 확률
    Figure 112007088763913-PAT00095
    를 마르코브 체인을 이용하여 연산하는 단계와,
    (f) 상기 시스템 구성중 상기 연산한 가용성 확률
    Figure 112007088763913-PAT00096
    가 최대인 시스템 구성을 예측하는 단계
    를 포함하는 것을 특징으로 하는 고가용 클러스터의 가용성 예측 방법.
  8. 전체 노드가 U (1≤U)개일 때 하나 이상 전체 노드 이하 개 헤드 노드 수(
    Figure 112007088763913-PAT00097
    ) 및 하나 이상 전체 노드 이하 개의 스위치 수(
    Figure 112007088763913-PAT00098
    )를 결정하는 방법에 있어서,
    (g) 상기
    Figure 112007088763913-PAT00099
    개의 헤드 노드와 상기
    Figure 112007088763913-PAT00100
    개의 스위치로 구성가능한 클러스터 시스템 구성을 나열하는 단계와,
    (h) 상기 나열한 시스템 구성에 대한 가용성 확률
    Figure 112007088763913-PAT00101
    을 연산하는 단계와,
    (i) 상기 가용성 확률
    Figure 112007088763913-PAT00102
    이 최대인 시스템 구성을 확인하는 단계
    를 포함하는 것을 특징으로 하는 고가용 클러스터의 가용성 예측 방법.
  9. 제8항에 있어서, 상기 가용성 확률은,
    개별 노드의 확률의 합 또는 시스템의 전체 확률
    Figure 112007088763913-PAT00103
    에서 시스템이 생존할 확률
    Figure 112007088763913-PAT00104
    을 나눈 결과
    로 산출되는 것을 특징으로 하는 고가용 클러스터의 가용성 예측 방법.
  10. 제9항에 있어서, 상기 시스템이 생존할 확률
    Figure 112007088763913-PAT00105
    는,
    다음 수학식
    Figure 112007088763913-PAT00106
    에 의해 산출되며,
    상기 시스템의 전체 확률는, 다음 수학식
    Figure 112007088763913-PAT00108
    에 의해 산출되는 것을 특징으로 하는 고가용 클러스터의 가용성 예측 방법.
  11. 제10항에 있어서, 상기
    Figure 112007088763913-PAT00109
    및 상기
    Figure 112007088763913-PAT00110
    는,
    MTTF(Mean Time To Failure)의 역수이며,
    상기
    Figure 112007088763913-PAT00111
    및 상기
    Figure 112007088763913-PAT00112
    는 MTTR(Mean Time To Repair)의 역수
    인 것을 특징으로 하는 고가용 클러스터의 가용성 예측 방법.
KR1020070127904A 2007-12-10 2007-12-10 고가용 클러스터의 가용성 예측 방법 KR100962401B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020070127904A KR100962401B1 (ko) 2007-12-10 2007-12-10 고가용 클러스터의 가용성 예측 방법
US12/184,707 US7930137B2 (en) 2007-12-10 2008-08-01 Availability prediction method for high availability cluster

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070127904A KR100962401B1 (ko) 2007-12-10 2007-12-10 고가용 클러스터의 가용성 예측 방법

Publications (2)

Publication Number Publication Date
KR20090060910A true KR20090060910A (ko) 2009-06-15
KR100962401B1 KR100962401B1 (ko) 2010-06-11

Family

ID=40722924

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070127904A KR100962401B1 (ko) 2007-12-10 2007-12-10 고가용 클러스터의 가용성 예측 방법

Country Status (2)

Country Link
US (1) US7930137B2 (ko)
KR (1) KR100962401B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101013640B1 (ko) * 2009-08-31 2011-02-10 성균관대학교산학협력단 시스템 수행성 분석 장치 및 방법과 시스템 수행성 분석 방법을 실행하기 위한 프로그램이 기록된 기록 매체
CN110531988A (zh) * 2019-08-06 2019-12-03 新华三大数据技术有限公司 应用程序的状态预测方法及相关装置

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8335947B2 (en) * 2008-03-25 2012-12-18 Raytheon Company Availability analysis tool
JP5251575B2 (ja) * 2009-02-10 2013-07-31 富士通株式会社 グリッドコンピューティングの管理プログラム
US10417712B2 (en) 2014-10-21 2019-09-17 Hartford Fire Insurance Company Enterprise application high availability scoring and prioritization system
US9740510B2 (en) * 2015-03-31 2017-08-22 Alcatel Lucent Minimizing overhead over-provisioning costs in machine configurations
US10305970B2 (en) * 2016-12-13 2019-05-28 International Business Machines Corporation Self-recoverable multitenant distributed clustered systems
US10545839B2 (en) 2017-12-22 2020-01-28 International Business Machines Corporation Checkpointing using compute node health information

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100404906B1 (ko) 2001-12-20 2003-11-07 한국전자통신연구원 클러스터 시스템의 고 가용성 구현장치 및 방법
US7024580B2 (en) * 2002-11-15 2006-04-04 Microsoft Corporation Markov model of availability for clustered systems
KR100693663B1 (ko) 2003-12-30 2007-03-14 엘지엔시스(주) 노드 장애 감지 방법 및 시스템
US7228460B2 (en) * 2004-01-23 2007-06-05 Hewlett-Packard Development Company, L.P. Multi-state status reporting for high-availability cluster nodes
KR20060068873A (ko) 2004-12-17 2006-06-21 엘지엔시스(주) 장애 발생에 대한 복구 수행률 향상 방법 및 이를지원하는 클러스터 시스템

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101013640B1 (ko) * 2009-08-31 2011-02-10 성균관대학교산학협력단 시스템 수행성 분석 장치 및 방법과 시스템 수행성 분석 방법을 실행하기 위한 프로그램이 기록된 기록 매체
CN110531988A (zh) * 2019-08-06 2019-12-03 新华三大数据技术有限公司 应用程序的状态预测方法及相关装置

Also Published As

Publication number Publication date
US20090150717A1 (en) 2009-06-11
KR100962401B1 (ko) 2010-06-11
US7930137B2 (en) 2011-04-19

Similar Documents

Publication Publication Date Title
KR100962401B1 (ko) 고가용 클러스터의 가용성 예측 방법
US7526540B2 (en) System and method for assigning data collection agents to storage area network nodes in a storage area network resource management system
US20080256149A1 (en) System and method for dependent failure-aware allocation of distributed data-processing systems
Pernas et al. Non-homogeneous two-rack model for distributed storage systems
JP2008192139A (ja) ノードクラスタの管理
WO2018166078A1 (zh) 修复多节点失效的mds阵列码编码以及解码方法
JP2005209201A (ja) 高可用性クラスタにおけるノード管理
JP2007500895A (ja) 複数のサービス・ポイントを有する自律コンピューティングにおける動的に構成可能な耐障害性
Fujiwara et al. Cabinet layout optimization of supercomputer topologies for shorter cable length
Chiu et al. A new diskless checkpointing approach for multiple processor failures
Behfarnia et al. Error correction coding meets cyber-physical systems: Message-passing analysis of self-healing interdependent networks
Abdrashitov et al. The storage vs repair bandwidth trade-off for multiple failures in clustered storage networks
US20170255510A1 (en) System and method for regenerating codes for a distributed storage system
US20050022048A1 (en) Fault tolerance in networks
Mitra et al. Comparative study of fault recovery techniques in wireless sensor network
Pashkov et al. On high availability distributed control plane for software-defined networks
CN111309515A (zh) 一种容灾控制方法、装置及系统
Sun et al. A generic availability model for clustered computing systems
Xing Fault-tolerant network reliability and importance analysis using binary decision diagrams
CN106777238B (zh) 一种hdfs分布式文件系统的自适应容错调节方法
Alraddady et al. Dynamic Hardware Redundancy Approaches Towards Improving Service Availability in Fog Computing
Pourvali et al. Post-failure repair for cloud-based infrastructure services after disasters
CN110829413A (zh) 基于道路矩阵的辐射状配电网可靠性评估方法
Lee et al. A stochastic availability prediction model for head nodes in the ha cluster
JP2012033169A (ja) バックアップシステムにおける符号化を使用して、ライブチェックポインティング、同期、及び/又は復旧をサポートするための方法及び装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130527

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20140529

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee