KR20170079271A

KR20170079271A - 헬스 추정 기반 시스템 고장 처리 장치 및 방법

Info

Publication number: KR20170079271A
Application number: KR1020150189654A
Authority: KR
Inventors: 이광용; 이정환; 김법균
Original assignee: 한국전자통신연구원
Priority date: 2015-12-30
Filing date: 2015-12-30
Publication date: 2017-07-10

Abstract

본 발명은 헬스 추정 기반 시스템 고장 처리 장치 및 방법에 관한 것이다.
이에 따른 본 발명은, 시스템을 모니터링하여 시스템 상태 정보를 수집하는 단계, 상기 시스템 상태 정보를 기초로 시스템 헬스를 추정하는 단계 및 상기 추정된 시스템 헬스가 고장이 발생할 가능성이 있다고 판단되는 위험 상태이면, 시스템 복구를 수행하는 단계를 포함하는 것을 특징으로 하는 시스템 고장 처리 방법 및 그 장치에 관한 것이다.

Description

헬스 추정 기반 시스템 고장 처리 장치 및 방법{Health estimation based fault-tolerant apparatus and method thereof}

본 발명은 헬스 추정 기반 시스템 고장 처리 장치 및 방법에 관한 것이다.

미래의 임베디드 시스템 실현에 있어서, 차량용 스마트 게이트웨이 장치, 스마트 홈 게이트웨이 장치, 미래 네트워크용 비정지 라우터 등이 중단되지 않고 연속적으로 신뢰성 높은 서비스 제공하는 것은 매우 중요하다.

가정 내에서 인터넷 연결이 단절되는 경우, 사용자는 인터넷 설치 업체를 통하여 복구 조치를 수행하게 된다. 일반적으로 인터넷 연결 단절은 아파트 단지 내에 설치된 네트워크 액세스 장치의 고장에 의한 경우가 많기 때문에, 인터넷 설치 업체의 직원은 직접 설치 장소로 이동하여 액세스 장치를 리셋(리부팅)한 후 재가동시킴으로써 고장 복구를 처리하였다.

이와 같이, 종래의 고장 복구 방식은 사람이 직접 액세스 장치의 고장을 모니터링하고, 하드웨어 고장이 아닌 경우에도 시스템 리부팅을 수행하여 고장을 복구하였다. 이는 인터넷 설치 업체 입장에서 유지 보수 비용이 상승하고, 고장 복구 시간이 길어져 고객 불만을 발생시킨다는 문제를 발생시켰다.

상기한 문제를 해결하기 위해, 최근에는 센터에서 시스템을 모니터링하다가 장비에서 고장이 발생하면 원격지에서 시스템 리부팅 등의 명령을 실행하여 단시간 내에 고장을 복구하는 체계를 활용하고 있다.

그러나 이러한 방법은 모든 장비들이 네트워크를 통해 모니터링 센터와 상호 연결이 되어 있어야 하고, 고장이 발생한 후에 복구를 처리하는 사후 복구 방식이라는 문제점을 갖는다. 또한, 이러한 방법은 모니터링 센터를 위한 유지 보수 비용이 발생하고, 네트워크로 연결을 할 수 없는 임베디드 장치들의 고장을 처리할 수 없다는 문제점을 갖는다. 그뿐만 아니라, 대부분의 시스템은 고장이 발생한 이후에는 고장 복구 처리가 쉽지 않기 때문에, 종래의 복구 처리 방법은 효용성이 낮다는 문제점이 있다.

본 발명은 상기한 문제점을 해결하기 위한 것으로, 리소스에 제약이 따르는 임베디드 시스템에서 사람의 개입 없이 시스템 고장 여부(시스템 헬스)를 고장 발생 전에 감지하고, 소프트웨어를 통해 자가 치유 처리(자동 재활) 또는 리스케줄링을 수행하는 헬스 추정 기반 시스템 고장 처리 장치 및 방법을 제공한다.

또한, 본 발명은 시스템 리소스들 각각의 한계값(threshold)을 기초로 시스템 고장 여부를 판단하되, 싱글 포인트 고장 감지 기술과는 달리 메모리 사용량, 태스크 수, CPU 사용량 등과 같은 시스템 리소스들의 정보를 종합하여 시스템 헬스값을 계산하고, 그에 따라 시스템의 고장 가능 여부(위험성)를 감지하는 헬스 추정 기반 시스템 고장 처리 장치 및 방법을 제공한다.

상술한 과제를 해결하기 위한 본 발명에 따른 시스템 고장 처리 방법은, 시스템을 모니터링하여 시스템 상태 정보를 수집하는 단계, 상기 시스템 상태 정보를 기초로 시스템 헬스를 추정하는 단계 및 상기 추정된 시스템 헬스가 고장이 발생할 가능성이 있다고 판단되는 위험 상태이면, 시스템 복구를 수행하는 단계를 포함하는 것을 특징으로 한다.

또한, 상술한 과제를 해결하기 위한 본 발명에 따른 시스템 고장 처리 장치는, 시스템을 모니터링하여 시스템 상태 정보를 수집하는 모니터링부, 상기 시스템 상태 정보를 기초로 시스템 헬스를 추정하는 시스템 헬스 추정부 및 상기 추정된 시스템 헬스가 고장이 발생할 가능성이 있다고 판단되는 위험 상태이면, 시스템 복구를 수행하는 복구부를 포함하는 것을 특징으로 한다.

본 발명에 따른 헬스 추정 기반 시스템 고장 처리 장치 및 방법은 비침입 위험 측정 기술을 통해, 선제적으로 시스템 고장을 예측하고 이를 자가 치유 처리함으로써, 고 가용성 (high availability) 및 고 신뢰성(high reliability) 시스템을 확보하는 고장 감내 처리 시스템 기술을 제공한다.

또한, 본 발명에 따른 헬스 추정 기반 시스템 고장 처리 장치 및 방법은 응용 프로그램에서 시스템 헬스 정보에 따라 응용 프로그램의 스케줄링을 다르게 설정할 수 있도록 하여, 성능이면서 고품질의 응용 서비스를 제공할 수 있도록 한다.

도 1은 본 발명에 따른 헬스 추정 기반 시스템 고장 처리 장치의 구조를 나타낸 도면이다.
도 2는 본 발명에 따른 헬스 추정 기반 시스템 고장 처리 방법을 나타낸 순서도이다.
도 3은 본 발명에 따른 시스템 상태 모니터링 방법을 구체적으로 나타낸 순서도이다.
도 4는 'top' 커맨드의 실행 결과의 일 예를 나타낸 도면이다.
도 5는 'top' 커맨드를 이용하여 시스템 상태를 모니터링 하는 방법을 간단하게 나타낸 도면이다.
도 6은 본 발명에 따른 시스템 헬스 추정 방법을 구체적으로 나타낸 순서도이다.
도 7 내지 도 9는 삼각 소속 함수를 2차원 그래프로 나타낸 일 예를 나타낸 도면이다.
도 10은 퍼지 추론에 따라 시스템 헬스를 추정하는 방법을 구체적으로 나타낸 순서도이다.
도 11 및 도 12는 시스템 헬스 추정을 위한 계산 과정을 나타낸 도면이다.
도 13은 시스템 복구를 위한 동작 수행 방법을 구체적으로 나타낸 순서도이다.
도 14는 응용 프로그램의 리스케줄링 동작 수행 방법을 구체적으로 나타낸 순서도이다.
도 15 및 도 16은 응용 프로그램의 복구 동작의 일 예를 나타낸 도면이다.

본 명세서의 실시 예를 설명함에 있어 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 명세서의 요지를 흐릴 수 있다고 판단되는 경우, 그 상세한 설명은 생략될 수 있다.

본 명세서에서 사용되는 "포함한다," "포함할 수 있다." 등의 표현은 개시된 해당 기능, 동작, 구성요소 등의 존재를 가리키며, 추가적인 하나 이상의 기능, 동작, 구성요소 등을 제한하지 않는다. 또한, 본 명세서에서, "포함하다." 또는 "가지다." 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 　

본 명세서에서 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

이하, 첨부된 도면을 참조하여 본 발명을 설명한다.

도 1은 본 발명에 따른 헬스 추정 기반 시스템 고장 처리 장치의 구조를 나타낸 도면이다.

도 1을 참조하면, 본 발명에 따른 시스템 고장 처리 장치(10)는 모니터링부(11), 시스템 헬스 추정부(12) 및 복구부(13)를 포함하여 구성된다.

모니터링부(11)는 시스템의 상태를 모니터링하여 시스템 상태 정보를 수집하고, 수집된 시스템 상태 정보를 시스템 헬스 추정부(12)로 전달한다. 모니터링부(11)의 모니터링 대상이 되는 시스템은 타겟 임베디드 시스템(20)으로, 모니터링은 타겟 임베디드 시스템(20)의 마스터 시스템 및 백업 시스템에 대하여 기설정된 주기에 따라 수행될 수 있다.

모니터링부(11)는 시스템의 리소스 상태를 모니터링할 수 있으며, 시스템 리소스 상태는 예를 들어 메모리 사용량, cpu 사용량, 워크 로드, 수행 중인 태스크(task) 수, 네트워크 데이터, 시간 정보 등을 포함할 수 있다. 모니터링부(11)는 모니터링된 시스템 리소스 상태를 시스템 상태 정보로써 시스템 헬스 추정부(12)로 전달할 수 있다.

시스템 헬스 추정부(12)는 모니터링부(11)로부터 전달받은 시스템 상태 정보를 기초로 시스템 헬스를 추정한다. 시스템 헬스 추정부(12)는 시스템 상태 정보로부터 시스템 헬스 추정을 위하여 필요한 정보를 추출하고, 이를 기초로 시스템 커널(kernel)의 헬스를 측정할 수 있다. 본 발명의 다양한 실시 예에서, 시스템 헬스 추정부(12)는 퍼지 추론을 이용하여 시스템 상태 정보로부터 시스템 헬스를 추정할 수 있다. 다양한 실시 예에서, 시스템 헬스 추정부(12)는 시스템 헬스를 점수, 상태 등으로 나타낼 수 있다. 일 예로, 시스템 헬스 추정부(12)는 시스템 헬스를 매우 좋음(Very Good; 이하 VG), 좋음(Good; 이하 G), 보통(Normal; 이하 N), 나쁨(Poor; 이하 P), 매우 나쁨(Very Poor; 이하 VP) 중 어느 하나의 상태로 나타낼 수 있다.

시스템 헬스 추정부(12)는 추정된 시스템 헬스에 따라 필요하다고 판단되는 경우, 복구부(13)로 필요한 동작을 수행할 것을 요청할 수 있다. 예를 들어, 시스템 헬스 추정부(12)는 시스템이 고장 위험에 처해있다고 판단되는 경우, 복구부(13)에 복구 요청을 전달할 수 있다. 일 실시 예에서, 시스템 헬스 추정부(12)는 시스템 헬스가 P 또는 VP로 판단될 때 시스템이 위험 상태에 있다고 판단하고, 복구부(13)로 복구 요청을 전송할 수 있다.

복구부(13)는 시스템 헬스 추정부(12)로부터 요청을 수신하면, 요청에 대응하는 동작을 수행할 수 있다. 요청에 대응하는 동작은 헬스 상태에 따라 시스템 절체(스위칭 스위치 오버), 시스템 리부팅, 초기 상태 복구, 응용 리스케줄링, 시스템 경고 메시지 출력, 시스템 안전 상태 출력 중 하나 이상을 포함할 수 있다. 일 예로, 복구부(13)는 시스템 헬스가 VP인 경우 시스템 절치 및 리부팅을 수행하고, 시스템 헬스가 P인 경우 시스템 초기 상태 복구 및 응용 리스케줄링을 수행할 수 있다. 또한, 복구부(13)는 시스템 헬스가 N인 경우 시스템 경고 메시지를 출력하고, 시스템 헬스가 G 또는 VG인 경우 시스템 안정 상태 메시지를 출력할 수 있다.

다양한 실시 예에서, 복구부(13)는 응용 리스케줄링을 위해, 실행 중인 응용 프로그램으로 추정된 시스템 헬스 정보를 전송하거나, 리스케줄링 요청을 전송할 수 있다.

다양한 실시 예에서, 복구부(13)는 시스템 위험 상태를 각 응용 프로그램에 알림으로써, 응용 프로그램에서 개별적으로 시스템 복구를 위한 동작을 수행하도록 할 수 있다.

본 발명의 다양한 실시 예에서, 상술한 시스템 고장 처리 장치(10)의 각 구성 요소들은 하나의 제어부에 의하여 구현될 수 있으며, 제어부 상에서 각 구성 요소들은 소프트웨어적으로 구성될 수 있다. 이하에서는, 상술한 구성 요소들이 하나의 제어부에 의해 구성되며, 제어부가 본 발명의 다양한 실시 예들을 수행하기 위하여, 시스템 고장 처리 장치(10)의 다른 구성 요소들을 제어하는 것으로 설명하나, 본 발명의 기술적 사상은 이에 한정되지 않는다.

도 2는 본 발명에 따른 헬스 추정 기반 시스템 고장 처리 방법을 나타낸 순서도이다. 본 발명에 따른 헬스 추정 기반 시스템 고장 처리 방법은 시스템 모니터링 단계, 시스템 헬스 추정 단계 및 추정된 시스템 헬스에 따른 복구 단계로 구성될 수 있다.

도 2를 참조하면, 먼저 시스템 고장 처리 장치(10)는 시스템을 모니터링한다(210). 시스템 고장 처리 장치(10)는 타겟이 되는 임베디드 시스템(20)에 대하여 기설정된 주기에 따라 메모리 사용량, cpu 사용량, 워크 로드, 수행 중인 태스크(task) 수, 네트워크 데이터, 시간 정보 등을 모니터링하여 시스템 상태 정보를 수집할 수 있다.

시스템 고장 처리 장치(10)는 수집된 시스템 상태 정보를 이용하여 시스템 헬스를 추정한다(220). 본 발명의 다양한 실시 예에서, 시스템 고장 처리 장치(10)는 시스템 상태 정보를 퍼지 추론에 적용하여 시스템 헬스를 추정할 수 있다. 본 발명의 다양한 실시 예에서, 시스템 헬스 추정부(12)는 시스템 헬스를 VG, G, N, P, VP 중 어느 하나의 상태로 나타낼 수 있다.

시스템 헬스 추정 결과 시스템 헬스가 위험하지 않은 상태인 것으로 판단되면(230), 시스템 고장 처리 장치(10)는 별도의 복구 동작을 수행하지 않을 수 있다. 일 실시 예에서, 시스템 고장 처리 장치(10)는 시스템 헬스가 위험하지 않은 상태임을 알리기 위하여 시스템 안전 상태를 출력하는 동작을 수행할 수 있다.

시스템 헬스 추정 결과 시스템 헬스가 위험 상태인 것으로 판단되면(230), 시스템 고장 처리 장치(10)는 시스템 복구를 위한 동작을 수행(고장 감내 처리)한다(240). 구체적으로, 시스템 고장 처리 장치(10)는 시스템 복구를 위해, 시스템 리부팅, 초기 상태 복구, 응용 리스케줄링, 시스템 경고 메시지 출력 등을 수행할 수 있다. 일 실시 예에서, 시스템 고장 처리 장치(10)는 시스템 헬스가 VP인 경우 시스템 절치 및 리부팅을 수행하고, 시스템 헬스가 P인 경우 시스템 초기 상태 복구 및 응용 리스케줄링을 수행할 수 있다. 또는 시스템 고장 처리 장치(10)는 응용 리스케줄링을 위해, 실행 중인 응용 프로그램으로 추정된 시스템 헬스 정보 또는 리스케줄링 요청을 전송하거나, 시스템 위험 상태를 각 응용 프로그램에 알림으로써, 응용 프로그램에서 개별적으로 시스템 복구를 위한 동작을 수행하도록 할 수 있다.

이후에, 시스템 고장 처리 장치(10)는 시스템이 종료되었는지 여부를 판단한다(250). 시스템 복구를 위해 시스템이 리부팅 되거나, 사용자 요청에 의하여 시스템이 종료되는 경우, 시스템 고장 처리 장치(10)는 본 발명에 따른 시스템 고장 처리를 중단하고, 시스템을 종료시킨다.

한편, 시스템이 종료되지 않은 경우(250), 시스템 고장 처리 장치(10)는 모니터링 단계로 회귀하여 시스템이 종료될 때까지 본 발명에 따른 시스템 고장 처리 방법을 반복하여 수행한다.

이하에서는, 본 발명에 따른 시스템 고장 처리 방법을 보다 구체적으로 설명한다. 이하의 실시 예들에서는, 시스템 고장 처리 장치(10)가 시스템 상태 정보로써, 15분 동안의 (평균) 워크 로드(α), 수행 중인 태스크 수(β), 메모리 사용량(γ)을 수집하고, 그에 따라 시스템 헬스를 VG, G, N, P, VP 중 어느 하나의 상태로 추정하여 시스템 고장을 처리하는 방법을 예로써 설명한다.

도 3은 본 발명에 따른 시스템 상태 모니터링 방법을 구체적으로 나타낸 순서도이다. 본 발명에 따른 시스템 상태 모니터링 방법은, 시스템 상태 정보의 초기화 단계, 시스템 상태 정보 수집 단계 및 시스템 상태 정보 추출 단계로 구성될 수 있다.

도 3을 참조하면, 먼저 시스템 고장 처리 장치(10)는 시스템 상태 정보를 초기화한다(211). 시스템 고장 처리 장치(10)는 새롭게 추출된 시스템 상태 정보를 저장하기 위하여, 이전에 저장된 시스템 상태 정보의 값을 초기값으로 설정한다.

일 실시 예에서, 시스템 고장 처리 장치(10)는 시스템 상태 정보로써 15분 동안의 워크 로드(α), 수행 중인 태스크 수(β), 메모리 사용량(γ)의 값을 0으로 초기화할 수 있다.

다음으로, 시스템 고장 처리 장치(10)는 시스템 상태 데이터를 수집한다(212). 본 발명의 다양한 실시 예에서, 시스템 고장 처리 장치(10)는 도 4에 도시된 바와 같은 리눅스 시스템의 'top' 커맨드를 이용하여 시스템 상태 데이터를 수집할 수 있다. 'top' 커맨드는 CPU 사용률, 1분, 5분, 15분 동안의 평균 워크 로드, 수행 중인 태스크 수, 메모리 사용량 등에 관한 정보를 수집할 수 있도록 한다.

다음으로, 시스템 고장 처리 장치(10)는 수집된 시스템 상태 데이터 중 시스템 헬스 추정을 위하여 필요한 시스템 상태 정보를 추출한다(213). 시스템 고장 처리 장치(10)가 도 4와 같이 'top' 커맨드를 이용하여 시스템 상태 정보를 수집한 경우, 시스템 고장 처리 장치(10)는 'top' 커맨드의 실행 결과를 파싱(parsing)하여 시스템 헬스 추정을 위해 필요한 정보를 추출할 수 있다. 일 예로, 시스템 고장 처리 장치(10)는 도 4의 'top' 커맨드 실행 결과에서 15분 동안의 워크 로드(α), 수행 중인 태스크 수(β), 메모리 사용량(γ)을 추출할 수 있다. 도 4의 실시 예에서, 15분 동안의 워크 로드(α)는 1.85, 수행 중인 태스크 수(β)는 120, 메모리 사용량(γ)은 410508이다.

상술한 'top' 커맨드를 이용한 시스템 상태 모니터링 방법을 도식화하면, 도 5와 같다.

도 6은 본 발명에 따른 시스템 헬스 추정 방법을 구체적으로 나타낸 순서도이다.

도 6을 참조하면, 본 발명에 따른 시스템 고장 처리 장치(10)는 시스템 헬스 진단표를 로드한다(221). 본 발명의 다양한 실시 예에서, 시스템 헬스 진단표는 기정의된 추론 함수 및 추론 규칙으로써, 퍼지 추론을 위한 퍼지 함수 및 퍼지 추론 규칙일 수 있다.

퍼지 함수는 시스템 상태 정보값 및/또는 시스템 헬스값의 퍼지값을 소속 영역으로 정의한다. 또한, 퍼지 함수는 시스템 상태 정보값 및/또는 시스템 헬스값을 0과 1 사이의 소속값에 대응시킨다. 소속값은 시스템 상태 정보값이 임의의 소속 영역에 포함된다고 가정할 때 0과 1 사이의 실수로 그 소속 정도를 나타낸 것이다.

퍼지 함수는 부분 선형(piecewise linear) 함수, 가우스 분포(Gaussian distribution) 함수, 시그모이드(sigmoid) 함수, 이차원 큐빅 함수 및 이들의 합성으로 형성되는 소속 함수일 수 있다. 이하에서는 각각의 퍼지값에 대한 소속 영역이 삼각형으로 구성되는 삼각(triangular) 소속 함수를 예로 들어 설명한다. 삼각 소속 함수는 각 퍼지값의 소속 영역이 삼각형을 가지며, 하기 표 1과 같이 각 소속 영역에 대하여 삼각형을 구성하는 세 개의 점을 정의하도록 구성된다.

#resource1(health) tri-function

index_no=5

[0]
# health fuzzy value
fuzzy_val=VG
# triangle {X, Y, Z} point (x,y)
X=70 0
Y=90 1
Z=100 1

[1]
# health fuzzy value
fuzzy_val=G
# triangle {X, Y, Z} point (x,y)
X=50 0
Y=70 1
Z=90 0

[2]
# health fuzzy value
fuzzy_val=N
# triangle {X, Y, Z} point (x,y)
X=30 0
Y=50 1
Z=70 0

[3]
# health fuzzy value
fuzzy_val=P
# triangle {X, Y, Z} point (x,y)
X=10 0
Y=30 1
Z=50 0

[4]
# health fuzzy value
fuzzy_val=VP
# triangle {X, Y, Z} point (x,y)
X=0 1
Y=10 1
Z=30 0

본 발명의 실시 예에서, 삼각 소속 함수는 각각의 시스템 상태 정보 및 시스템 헬스에 대하여 별개로 정의될 수 있고, 시스템 상태 정보의 값 및 시스템 헬스값을 0과 1 사이의 소속값에 대응시킨다. 또한, 본 발명의 실시 예에서, 삼각 소속 함수는 시스템 상태 정보의 값 및 시스템 헬스값의 퍼지값을 소속 영역으로 정의한다. 본 발명의 실시 예에서, 소속 영역은 VG, G, N, P, VP일 수 있다.

도 7 내지 도 9는 각각 15분 동안의 워크 로드(α), 메모리 사용량(γ) 및 시스템 헬스의 삼각 소속 함수를 2차원 그래프로 나타낸 도면이다. 도 9를 참조하면, 예를 들어 시스템 헬스값이 73.5로 추측된 경우, 시스템 헬스는 퍼지값 VG 및 G의 영역에 소속되며, max-min 퍼지 추론법에 따라 시스템 헬스의 퍼지값은 소속값이 더 큰 G로 변환될 수 있다.

퍼지 추론 규칙은 시스템 상태 정보의 퍼지값을 입력으로 하여, VP, P, N, G, VG 형태의 시스템 헬스를 추정하기 위해 사용된다. 퍼지 추론 규칙은 하기 표 2에 나타난 바와 같이 'if <condition> then <action>;'의 형태로 구성된다. 즉, 퍼지 추론 규칙은, 시스템 상태 정보의 퍼지값 조건에 따라 시스템 헬스의 퍼지값을 정의하는 복수의 규칙들로 구성된다.

# Alpha Beta Gamma Health
ir1= VP VP VP VP
ir2= VP VP P VP
ir3= VP VP N VP
ir4= VP VP G VP
ir5= VP VP VG VP
ir6= VP P VP VP
ir7= VP P P VP
ir8= VP P N VP
ir9= VP P G VP
ir10= VP P VG VP
ir11= VP G VP VP
ir12= VP G P VP
ir13= VP G N VP
ir14= VP G G VP
ir15= VP G VG P
ir16= VP VG VP VP
ir17= VP VG P VP
ir18= VP VG N P
……

예를 들어, 15분 동안의 워크 로드(α), 수행 중인 태스크 수(β), 메모리 사용량(γ) 및 시스템 헬스에 대하여 첫 번째 규칙을 적용하면, 15분 동안의 워크 로드(α), 수행 중인 태스크 수(β), 메모리 사용량(γ)의 퍼지값이 각각 VP, VP, VP인 경우에 시스템 헬스의 퍼지값은 VP로 추정된다. 또는, 예를 들어, 15분 동안의 (평균) 워크 로드(α), 수행 중인 태스크 수(β), 메모리 사용량(γ) 및 시스템 헬스에 대하여 열다섯 번째 규칙을 적용하면 15분 동안의 워크 로드(α), 수행 중인 태스크 수(β), 메모리 사용량(γ)이 각각 VP, G, VG인 경우에, 시스템 헬스의 퍼지값은 P라고 추정될 수 있다.

일 실시 예에서, 15분 동안의 워크 로드(α) 및 메모리 사용량(γ)을 이용하여 시스템 헬스를 추정하는 경우를 가정하면, 퍼지 추론 규칙은 하기 표 3과 같이 25가지의 규칙으로 구성될 수 있다.

규칙 인덱스	15분간 워크 로드	메모리 사용량	시스템 헬스
1	VP	VP	VP
2	P	VP	P
3	N	VP	P
4	G	VP	P
5	VG	VP	N
6	VP	P	VP
7	P	P	P
8	N	P	N
9	G	P	N
10	VG	P	N
11	VP	N	P
12	P	N	N
13	N	N	N
14	G	N	G
15	VG	N	G
16	VP	G	N
17	P	G	N
18	N	G	G
19	G	G	G
20	VG	G	G
21	VP	VG	P
22	P	VG	N
23	N	VG	G

이후, 시스템 고장 처리 장치(10)는 추출된 시스템 상태 정보를 시스템 헬스 진단표에 적용하여 시스템 헬스를 추정한다(222). 예를 들어, 시스템 고장 처리 장치(10)는 수집된 시스템 상태 정보를 퍼지 함수 및 퍼지 추론 규칙에 적용하여 퍼지 추론에 따라 시스템 헬스를 추정할 수 있다.

퍼지 추론은 불확실성의 값을 활용하여 시스템 상태를 추정할 때 널리 사용하는 방법으로 그 방법은 단순하나, 추정 효과는 매우 좋은 특징을 갖고 있다. 퍼지 추론은 입력값을 퍼지 함수를 통해 퍼지 값으로 변환하는 퍼지화 단계 및 퍼지 추론 규칙을 통해 퍼지값을 실수값으로 변환하는 디퍼지화 단계를 통해 시스템 상태를 추정한다.

따라서 본 발명의 헬스 추정 단계에서는 시스템 상태 정보를 퍼지 추론 규칙과 퍼지 함수들에 적용하여 퍼지화 단계 및 디퍼지화 단계를 수행함으로써, 최종적으로 시스템 헬스를 추정한다.

구체적으로, 도 10을 참조하면, 시스템 고장 처리 장치(10)는 퍼지 함수를 이용하여 시스템 상태 정보를 퍼지값으로 변환한다(2221).

시스템 고장 처리 장치(10)는 시스템 상태 정보를 퍼지 함수에 적용하여 소속 영역을 판단한다. 일 예로, 시스템 상태 정보가 15분 동안의 워크 로드(α)=65 및 메모리 사용량(γ)=65인 경우, 15분 동안의 워크 로드(α)는 도 7의 퍼지 함수에 의해 G 및 N의 퍼지값으로 변환되고, 메모리 사용량(γ)은 도 8의 퍼지 함수에 의해 N 및 P의 퍼지값으로 변환된다.

다음으로, 시스템 고장 처리 장치(10)는 퍼지 함수 및 퍼지 추론 규칙을 이용하여, 퍼지 추론 규칙별 시스템 상태 정보의 소속값 및 헬스값을 판단한다(2222).

시스템 고장 처리 장치(10)는 퍼지 함수를 이용하여 시스템 상태 정보에 대해 변환된 퍼지값에 대응하는 소속값을 판단한다. 상기한 예로써, 시스템 상태 정보가 15분 동안의 워크 로드(α)=65인 경우, 15분 동안의 워크 로드(α)의 소속값은 도 7의 퍼지 함수에 의해 퍼지값 G에 대해 0.3, 퍼지값 N에 대해 0.7로 판단된다. 또한, 상기한 예에서 메모리 사용량(γ)=65인 경우, 메모리 사용량(γ)의 소속값은 도 8의 퍼지 함수에 의해 퍼지값 N에 대해 0.4, 퍼지값 P에 대해 0.6으로 판단된다. 여기서, 나머지 퍼지값들에 대한 소속값은 0이다.

이후, 시스템 고장 처리 장치(10)는 시스템 상태 정보의 변환된 퍼지값에 대응하는 퍼지 추론 규칙을 이용하여 시스템 헬스의 퍼지값을 판단한다. 상기한 예에서, 15분 동안의 워크 로드(α)의 퍼지값 G, N 및 메모리 사용량(γ)의 퍼지값 N, P에 대응하는 퍼지 추론 규칙은 (α, γ)=(G, N), (G, P), (N, N), (N, P)로, 표 3을 참조할 때 대응하는 퍼지 추론 규칙은 규칙 8, 9, 13 및 14이다. 규칙 8, 9, 13 및 14에 따르면, 각각의 퍼지 추론 규칙에 대응하는 시스템 헬스의 퍼지값은 N, N, N, G이다.

이후, 시스템 고장 처리 장치(10)는 퍼지 함수를 이용하여 시스템 헬스의 퍼지값에 대응하는 시스템 헬스값을 판단한다. 상기한 예에서 시스템 헬스의 퍼지값이 N, N, N, G로 판단됐을 때, 도 9를 참조하면 각각에 대응하는 시스템 헬스값은 60, 60, 60, 80이다.

최종적으로 시스템 고장 처리 장치(10)는 퍼지 추론 규칙별 시스템 상태 정보의 소속값 및 헬스값을 판단한다.

상기한 예에서, 퍼지 추론 규칙 8은 각 시스템 상태 정보의 소속값이 0.7, 0.6, 헬스값이 60이고, 퍼지 추론 규칙 9는 각 시스템 상태 정보의 소속값이 0.3, 0.6, 헬스값이 60이다. 퍼지 추론 규칙 13은 소속값이 0.7, 0.4, 헬스값이 60이고, 퍼지 추론 규칙 14는 소속값이 0.3, 0.4, 헬스값이 80이다. 상기 네 개의 규칙을 제외한 나머지 규칙에 대하여는 소속값이 모두 0이다.

다음으로, 시스템 고장 처리 장치(10)는 퍼지 추론 규칙별 시스템 상태 정보의 소속값 및 헬스값을 이용하여 최종 헬스값을 추정한다(2223). 시스템 고장 처리 장치(10)는 퍼지 추론 규칙별 시스템 상태 정보의 소속값 및 헬스값으로부터 다음의 수학식 1을 이용하여 시스템 헬스를 추정할 수 있다.

여기서, x₀는 최종 헬스값, μ_s(x_i)는 i번째 퍼지 추론 규칙에 대응하여 판단된 소속값들 중 가장 작은 값, x_i는 i번째 퍼지 추론 규칙에 대응하여 판단된 헬스값을 의미한다.

상기한 예에서, 수학식 1의 분자는 도 11과 같은 과정에 따라 계산될 수 있으며, 수학식 1의 분모는 도 12와 같은 과정에 따라 계산될 수 있다. 도 11 및 도 12를 참조하면, 규칙 8, 9, 13, 14를 제외한 나머지 규칙에 대한 소속값은 0이므로, 수학식 1의 계산에서 나머지 규칙들에 대한 소속값 및 헬스값은 고려하지 않아도 된다는 것을 알 수 있다.

도 11 및 도 12에 따라, 수학식 1로부터 헬스값은 다음의 수학식 2와 같이 구해진다.

수학식 2에 따르면, 헬스값 63.75는 도 9에 도시된 바와 같이, 소속값을 윗변으로 하며 퍼지 추론 규칙들에 대응하는 사다리꼴들의 무게 중심점에 대한 x축 값임을 알 수 있다.

이후에, 시스템 고장 처리 장치(10)는 퍼지 함수를 이용하여, 최종 헬스값으로부터 시스템 헬스의 퍼지값을 최종 시스템 헬스로 추정한다(2224). 상기한 예에서, 최종 헬스값은 63.75이고, 도 9 및 max-min 퍼지 추론법에 따라 최종 시스템 헬스는 N으로 추정될 수 있다.

도 13은 시스템 복구를 위한 동작 수행 방법을 구체적으로 나타낸 순서도이다.

본 발명의 다양한 실시 예에서, 시스템 헬스 추정 결과 시스템 헬스가 위험 상태인 것으로 판단되면, 시스템 고장 처리 장치(10)는 시스템 복구를 위한 동작을 수행한다. 일 실시 예에서, 시스템 고장 처리 장치(10)는 판단된 시스템 헬스에 따라 단계적으로 시스템 리부팅, 초기 상태 복구, 응용 리스케줄링, 시스템 경고 메시지 출력 등을 수행할 수 있다.

도 13을 참조하면, 시스템 고장 처리 장치(10)는 판단된 시스템 헬스를 로드한다(241).

본 발명의 다양한 실시 예에서, 시스템 고장 처리 장치(10)는 로드된 시스템 헬스가 P 또는 VP로 추정된 경우(242), 즉 시스템이 고장의 위험 상태에 있다고 판단된 경우 자가 치유를 위한 시스템 복구 동작을 수행할 수 있다. 즉, 시스템 고장 처리 장치(10)는 시스템 헬스가 VG, G, N으로 추정된 경우에는 시스템이 정상 상태에 있다고 판단하고 고장의 위험이 없다고 가정하여 보통의 처리 동작을 수행한다.

구체적으로, 시스템 헬스가 P로 추정된 경우(243), 시스템 고장 처리 장치(10)는 시스템 초기 상태 복구를 수행한다(244). 또는, 시스템 헬스가 폐로 추정된 경우(245), 시스템 고장 처리 장치(10)는 시스템 절치(스위치 오버) 또는 리부팅을 수행한다(246). 시스템 절치는 특정 리소스에서만 고장이 발생하였다고 판단된 경우에 비용이

상기한 바와 같이 시스템 헬스에 따라 시스템 복구 동작을 단계적으로 다르게 수행하면, 특정 리소스에서만 고장이 발생한 경우에 불필요하게 비용이 많이 소모되는 시스템 절체 등의 복구를 수행하지 않아도 되고, 시스템 헬스가 VP로 판단되기 전에 선제적으로 고장 감내를 처리할 수 있어 시스템 효율성을 높일 수 있다.

도 14는 응용 프로그램의 리스케줄링 동작 수행 방법을 구체적으로 나타낸 순서도이다.

본 발명의 다양한 실시 예에서, 시스템 고장 처리 장치(10)는 실행 중인 응용 프로그램으로 추정된 시스템 헬스 정보 또는 리스케줄링 요청을 전송하거나, 시스템 위험 상태를 각 응용 프로그램에 알림으로써, 응용 프로그램에서 개별적으로 시스템 복구를 위한 동작을 수행하도록 할 수 있다. 시스템 고장 처리 장치(10)로부터 시스템 헬스 정보 또는 리스케줄링 요청 등을 수신한 응용 프로그램은 개별적으로 시스템 복구를 위한 동작으로써 리스케줄링을 수행할 수 있다.

구체적으로, 도 14를 참조하면, 초기에 응용 프로그램은 사용자 지정 스케줄링 시간에 따라 스케줄링 시간을 설정한다(1401).

시스템 고장 처리 장치(10)로부터 시스템 헬스 정보 또는 리스케줄링 요청 등을 수신하면, 응용 프로그램은 시스템 헬스가 P 또는 VP인지 여부를 판단한다(1402). 시스템 헬스가 P 또는 VP이면, 스케줄링 시간을 리스케줄링 시간으로 설정한다(1403).

예를 들어, 도 15에서 응용 1은 클라이언트 사용자들에게 네트워크로 동영상 스트리밍 서비스를 제공하는 프로그램, 응용 2는 마스터, 백업 서버들로 구성되어 있는 환경에서 마스터와 백업 서버들 간 체크포인트 동기화를 처리해주는 프로그램, 응용 3은 클라이언트 사용자와 스트리밍 서버 간 송수신되는 정보를 처리하는 프로그램이다. 초기 정상 상태에서 응용 1, 2, 3은 1초 단위로 서비스 동작을 수행하다가, 시스템 헬스가 위험 상태인 것으로 판단되면, 리스케줄링 기능을 활용하여 스케줄링 시간을 변경함으로써 응용 서비스의 품질이 나빠지지 않도록 한다. 도 15에서는, 응용 1이 리스케줄링 시간을 30초로 설정하고, 응용 2가 리스케줄링 시간을 3초로 설정하고 응용 3은 리스케줄링 시간을 10초로 설정하여, 정상 상태에서보다 느리게 서비스를 처리하도록 한 예를 도시하였다. 이에 따르면, 시스템 헬스가 좋지 않은 경우에도, 클라이언트에게 좋은 품질의 스트리밍 서비스를 제공할 수 있게 된다.

일 실시 예에서, 응용 프로그램은 슬립(대기 상태) 모드 동작을 수행할 수 있다(1404). 이 경우, 응용 프로그램은 슬립 모드로 동작하다가 시스템이 정상 상태로 복구되면 슬립 모드를 해제하고 정상 동작을 수행할 수 있다.

상기한 실시 예에서, 도 16에 도시된 바와 같이, 응용 1, 2, 3은 시스템 헬스 상태가 위험 상태로 감지됨에 따라 슬립 모드에서 동작하다가, 시스템 헬스가 정상 상태로 복구되면 슬립 모드를 해제하고 정상 동작을 수행할 수 있다.

본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 그리고 본 명세서와 도면에 개시된 실시 예들은 본 발명의 내용을 쉽게 설명하고, 이해를 돕기 위해 특정 예를 제시한 것일 뿐이며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 따라서 본 발명의 범위는 여기에 개시된 실시 예들 이외에도 본 발명의 기술적 사상을 바탕으로 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

10: 시스템 고장 처리 장치
11: 모니터링부
12: 시스템 헬스 추정부
13: 복구부
20: 타겟 임베디드 시스템

Claims

시스템을 모니터링하여 시스템 상태 정보를 수집하는 단계;
상기 시스템 상태 정보를 기초로 시스템 헬스를 추정하는 단계; 및
상기 추정된 시스템 헬스가 고장이 발생할 가능성이 있다고 판단되는 위험 상태이면, 시스템 복구를 수행하는 단계를 포함하는 것을 특징으로 하는 시스템 고장 처리 방법.
제1항에 있어서, 상기 시스템 상태 정보는,
메모리 사용량, cpu 사용량, 워크 로드, 수행 중인 태스크(task) 수, 네트워크 데이터, 시간 정보 중 적어도 하나를 포함하는 것을 특징으로 하는 시스템 고장 처리 방법.
제1항에 있어서, 상기 시스템 상태 정보를 수집하는 단계는,
수집할 시스템 상태 정보의 값을 초기화하는 단계;
상기 시스템 상태 데이터를 수집하는 단계; 및
상기 시스템 상태 데이터로부터, 상기 시스템 헬스 추정을 위하여 필요한 상기 시스템 상태 정보를 추출하는 단계를 포함하는 것을 특징으로 하는 시스템 고장 처리 방법.
제3항에 있어서, 상기 시스템 상태 데이터를 수집하는 단계는,
리눅스 top 커맨드를 실행하여 상기 시스템 상태 데이터를 수집하는 단계를 포함하고,
상기 시스템 상태 정보를 추출하는 단계는,
상기 리눅스 top 커맨드의 실행 결과를 파싱하여, 상기 시스템 헬스 추정을 위하여 필요한 상기 시스템 상태 정보를 추출하는 단계를 포함하는 것을 특징으로 하는 시스템 고장 처리 방법.
제1항에 있어서, 상기 시스템 헬스를 추정하는 단계는,
상기 시스템 헬스 추정을 위하여 기정의된 시스템 헬스 진단표를 로드하는 단계; 및
상기 시스템 상태 정보를 상기 시스템 헬스 진단표에 적용하여 상기 시스템 헬스를 추정하는 단계를 포함하는 것을 특징으로 하는 시스템 고장 처리 방법.
제5항에 있어서, 상기 시스템 헬스 진단표는,
퍼지 추론을 위한 퍼지 함수 및 퍼지 추론 규칙인 것을 특징으로 하는 시스템 고장 처리 방법.
제6항에 있어서, 상기 퍼지 함수는,
상기 시스템 상태 정보 및 상기 시스템 헬스를 퍼지값의 소속 영역 및 0 내지 1 사이의 소속값에 대응시키는 것을 특징으로 하는 시스템 고장 처리 방법.
제7항에 있어서, 상기 퍼지 함수는,
상기 소속 영역을 삼각형으로 정의하는 세 개의 좌표로 구성되는 것을 특징으로 하는 시스템 고장 처리 방법.
제6항에 있어서, 상기 퍼지 추론 규칙은,
상기 시스템 상태 정보의 퍼지값 조건에 따라 상기 시스템 헬스의 퍼지값을 정의하는 복수의 규칙들로 구성되는 것을 특징으로 하는 시스템 고장 처리 방법.
제6항에 있어서, 상기 시스템 헬스를 추정하는 단계는,
상기 퍼지 함수를 이용하여 상기 시스템 상태 정보를 퍼지값으로 변환하는 단계;
상기 퍼지 함수 및 상기 퍼지 추론 규칙을 이용하여, 상기 퍼지 추론 규칙별 상기 시스템 상태 정보의 소속값 및 헬스값을 판단하는 단계;
상기 퍼지 추론 규칙별 상기 시스템 상태 정보의 소속값 및 헬스값을 이용하여, 최종 헬스값을 추정하는 단계; 및
상기 퍼지 함수를 이용하여 최종 헬스값으로부터 상기 시스템 헬스의 퍼지값을 최종 시스템 헬스로 추정하는 단계를 포함하는 것을 특징으로 하는 시스템 고장 처리 방법.
제10항에 있어서, 상기 최종 헬스값을 추정하는 단계는,
다음의 수학식 1을 이용하여 상기 최종 헬스값을 추정하는 단계를 포함하는 것을 특징으로 하는 시스템 고장 처리 방법.
[수학식 1]

여기서, x₀는 상기 최종 헬스값, μ_s(x_i)는 i번째 퍼지 추론 규칙에 대응하여 판단된 소속값들 중 가장 작은 값, x_i는 상기 i번째 퍼지 추론 규칙에 대응하여 판단된 헬스값이다.
제1항에 있어서, 상기 시스템 복구를 수행하는 단계는,
상기 시스템 헬스에 따라, 시스템 절체, 시스템 리부팅, 초기 상태 복구, 응용 리스케줄링, 시스템 경고 메시지 출력, 시스템 안전 상태 출력 중 하나 이상을 수행하는 단계를 포함하는 것을 특징으로 하는 시스템 고장 처리 방법.
제1항에 있어서, 상기 시스템 복구를 수행하는 단계는,
상기 시스템의 응용 프로그램으로 상기 응용 프로그램의 리스케줄링 또는 슬립 모드 제어를 위해 상기 위험 상태에 관한 정보를 전송하는 단계를 포함하는 것을 특징으로 하는 시스템 고장 처리 방법.
시스템을 모니터링하여 시스템 상태 정보를 수집하는 모니터링부;
상기 시스템 상태 정보를 기초로 시스템 헬스를 추정하는 시스템 헬스 추정부; 및
상기 추정된 시스템 헬스가 고장이 발생할 가능성이 있다고 판단되는 위험 상태이면, 시스템 복구를 수행하는 복구부를 포함하는 것을 특징으로 하는 시스템 고장 처리 장치.
제14항에 있어서, 상기 시스템 헬스 추정부는,
상기 시스템 헬스 추정을 위하여 기정의된 시스템 헬스 진단표를 로드하고, 상기 시스템 상태 정보를 상기 시스템 헬스 진단표에 적용하여 상기 시스템 헬스를 추정하는 것을 특징으로 하는 시스템 고장 처리 장치.
제15항에 있어서, 상기 시스템 헬스 진단표는,
퍼지 추론을 위한 퍼지 함수 및 퍼지 추론 규칙인 것을 특징으로 하는 시스템 고장 처리 장치.
제16항에 있어서, 상기 시스템 헬스 추정부는,
상기 퍼지 함수를 이용하여 상기 시스템 상태 정보를 퍼지값으로 변환하고, 상기 퍼지 함수 및 상기 퍼지 추론 규칙을 이용하여, 상기 퍼지 추론 규칙별 상기 시스템 상태 정보의 소속값 및 헬스값을 판단하고, 상기 퍼지 추론 규칙별 상기 시스템 상태 정보의 소속값 및 헬스값을 이용하여, 최종 헬스값을 추정하고, 상기 퍼지 함수를 이용하여 최종 헬스값으로부터 상기 시스템 헬스의 퍼지값을 최종 시스템 헬스로 추정하는 것을 특징으로 하는 시스템 고장 처리 장치.
제17항에 있어서, 상기 시스템 헬스 추정부는,
다음의 수학식 2를 이용하여 상기 최종 헬스값을 추정하는 것을 특징으로 하는 시스템 고장 처리 장치.
[수학식 2]

여기서, x₀는 상기 최종 헬스값, μ_s(x_i)는 i번째 퍼지 추론 규칙에 대응하여 판단된 소속값들 중 가장 작은 값, x_i는 상기 i번째 퍼지 추론 규칙에 대응하여 판단된 헬스값이다.
제14항에 있어서, 상기 복구부는,
상기 시스템 헬스에 따라, 시스템 절체, 시스템 리부팅, 초기 상태 복구, 응용 리스케줄링, 시스템 경고 메시지 출력, 시스템 안전 상태 출력 중 하나 이상을 수행하는 것을 특징으로 하는 시스템 고장 처리 장치.
제14항에 있어서, 상기 복구부는,
상기 시스템의 응용 프로그램으로 상기 응용 프로그램의 리스케줄링 또는 슬립 모드 제어를 위해 상기 위험 상태에 관한 정보를 전송하는 것을 특징으로 하는 시스템 고장 처리 장치.