KR20200063343A

KR20200063343A - Trvn 인프라구조의 운용 관리 장치 및 방법

Info

Publication number: KR20200063343A
Application number: KR1020180145427A
Authority: KR
Inventors: 황정연; 김태연; 윤호선
Original assignee: 한국전자통신연구원
Priority date: 2018-11-22
Filing date: 2018-11-22
Publication date: 2020-06-05

Abstract

물리적 자원 및 가상화 자원을 포함하는 인프라구조(infrastructure)에서의 운용 관리 장치가 개시된다. 운용 관리 장치는 프로세서; 및 상기 프로세서를 통해 실행되는 적어도 하나의 명령을 저장하는 메모리를 포함하고, 상기 적어도 하나의 명령은, 상기 물리적 자원 및 가상화 자원을 모니터링하여 상기 인프라구조에서 발생하는 측정 데이터 및 이벤트 관련 데이터를 수집하도록 하는 명령; 수집된 이벤트 관련 데이터 중 장애 또는 고장 이벤트와 관련 변수 간의 상관성 분석을 포함한 데이터 분석을 수행하도록 하는 명령; 및 상기 데이터 분석 결과를 이벤트의 사전 진단에 활용하도록 하는 명령을 포함할 수 있다.

Description

TRVN 인프라구조의 운용 관리 장치 및 방법{SYSTEM AND METHOD FOR MANAGING OPERAITON IN TRUST REALITY VIEWPOINTING NETWORKING INFRASTUCTURE}

본 발명은 TRVN(Trusted Reality Viewpointing Networking) 인프라구조에서 자원을 관리하는 장치 및 방법에 관한 것으로, 더욱 상세하게는 TRVN 인프라 운영 중 수집되는 빅-데이터를 이용해 장애/고장 유형에 대한 사전 진단을 수행하고, 장애의 원인 및 결과 간의 인과관계 및 장애의 근본 원인을 판단하는 인프라 운용 관리 장치 및 방법에 관한 것이다.

최근 통신 기술은 소프트웨어 정의 네트워킹(Software Defined Networking: SDN)과 네트워크 기능 가상화(Network Function Virtualization: NFV) 기술에 대하여 표준화 및 개발을 추진 중에 있으며, 데이터센터 인프라(서버, 네트워크, 스토리지)를 통한 응용서비스를 제공하기 위하여 클라우드 기반의 SDN/NFV 기술을 적용한다.

또한, 기존에 인프라(예를 들어, 서버, 네트워크, 스토리지) 운영 시 장애/고장이 발생하게 되면 SMS(문자)나 운영자 UI 화면에 경보 메시지를 팝업 형태로 생성하는 것이 일반적이다. 이후 인프라 운영자는 경보에 따라 해당 장비에 대하여 장애/고장의 원인을 파악하고 조치(수리)를 수행하여 중단된 응용서비스를 다시 제공한다.

즉, ICT(Information and Communication Technology) 인프라 고장에 의한 서비스 중단으로 인하여 업무 및 서비스 수행이 중단되어 업무수행을 멈추게 되므로 업무생산성이 저하되는 문제점이 있었다.

상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, TRVN(Trusted Reality Viewpointing Networking) 인프라 구조에서 인프라 운용을 관리하는 장치를 제공하는 데 있다.

상기와 같은 문제점을 해결하기 위한 본 발명의 다른 목적은, 상기 장치에서 수행될 수 있는 운용 관리 방법을 제공하는 데 있다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 운용 관리 장치는 물리적 자원 및 가상화 자원을 포함하는 인프라구조(infrastructure)에서 인프라 운용을 관리하는 장치로서, 프로세서; 및 상기 프로세서를 통해 실행되는 적어도 하나의 명령을 저장하는 메모리를 포함하고, 상기 적어도 하나의 명령은, 상기 물리적 자원 및 가상화 자원을 모니터링하여 상기 인프라구조에서 발생하는 측정 데이터 및 이벤트 관련 데이터를 수집하도록 하는 명령; 수집된 측정 데이터 및 이벤트 관련 데이터 중 장애 또는 고장 이벤트와 관련 변수 간의 상관성 분석을 포함한 데이터 분석을 수행하도록 하는 명령; 및 상기 데이터 분석 결과를 이벤트의 사전 진단에 활용하도록 하는 명령을 포함할 수 있다.

상기 데이터를 수집하도록 하는 명령은, 데이터 필터링, 전송 및 처리를 수행하는 데이터 이동서비스 플랫폼인 DMMP(Data Movement Management Platform)에 따라 수행될 수 있다.

상기 데이터 분석을 수행하도록 하는 명령은, 상기 DMPP에 의해 수집된 데이터를 이용해 데이터를 분석하는 데이터 수집분석 플랫폼인 DCAP(Data Collection Analytics Platform)에 따라 수행될 수 있다.

상기 관련 변수는, 상기 물리적 자원 및 가상화 자원 중 적어도 하나의 디바이스에 대한 측정치, 통지/알람/경보 정보, 임계치, 모니터링 정보 중 적어도 하나를 포함할 수 있다.

상기 이벤트 관련 데이터는, 서비스별 특정 데이터, 베어 메탈 및 가상화된 호스트의 데이터, 공통 이벤트 데이터 모델, 및 특정 이벤트 관련 내용 중 적어도 하나를 포함할 수 있다.

상기 공통 이벤트 데이터 모델은, 내부 헤더(Internal header), 장애 또는 고장(Fault/Failure), 측정치(Measurement: (KPI(Key Performance Indicators), KQI(Key Quality Indicators), KCI(Key Capacity Indicators)), 시스템로그(Syslog), 통지(Notification), 상태변경(StateChange), TCA 경보(Alert), 보안(Security) 및 플로우필드(FlowFileds) 중 적어도 하나에 대한 정보를 포함할 수 있다.

상기 데이터 분석을 수행하도록 하는 명령은, 진단 분석(DA; Diagnosis Analysis), 임계치 도달 분석(TCA; Threshold Crossing Analysis), 및 상관성 분석(CA; Correlation analysis) 중 적어도 하나 이상의 통계적 분석 방식을 통해 분석을 수행하도록 하는 명령을 포함할 수 있다.

상기 데이터 분석을 수행하도록 하는 명령은 또한, 물리적 인프라 하드웨어 자원에 대한 장애 또는 고장 관련 데이터 및 가상 인프라 자원에 대한 장애 또는 고장 관련 데이터에 대해 근본원인분석(RCA; Root Cause Analysis)을 수행하도록 하는 명령을 포함할 수 있다.

상기 운용 관리 장치는, 시스템의 구성정보 및 시스템 수행 관련 FCAPS, KPI, KQI, KCI의 모니터링 정보를 저장하고, 자원 사용 관련 메트릭스(metrics)에 대한 이벤트 및 알람 기록 상태를 저장하는 데이터베이스; 및 적어도 하나의 PNF(Physical Network Function) 및 VNF(Virtualized Network Function), 모니터링 에이전트와 연결된 모니터링 API(Application Programming Interface)로부터 적어도 하나의 메시지를 수신하는 메시지큐를 더 포함할 수 있다.

상기 데이터 분석을 수행하도록 하는 명령은, 상기 메시지큐를 통해 수신된 알람 메시지를 사용자에게 통지(notification)하도록 하는 명령; 상기 인프라구조의 자원 사용 관련 메트릭이 기 설정된 임계치에 도달하였는지 판단하는 임계치 도달 분석을 수행하도록 하는 명령; 상기 데이터베이스에 저장된 데이터 및 상기 메시지큐의 데이터를 이용하여 경보 및 고장의 근본원인을 분석하는 RCA(RCA; Root Cause Analysis) 분석을 수행하도록 하는 명령; 상기 인프라구조의 자원 사용 및 운용 상태 관련 메트릭의 변환 및 생성과 관련하여 데이터를 통합하도록 하는 명령; 및 상기 메시지큐로부터의 메트릭스, 이벤트, 및 알람 상태 관련 히스토리 데이터를 상기 데이터베이스로 전달하도록 하는 명령 중 적어도 하나를 포함할 수 있다.

상기 인프라구조는 TRVN(Trusted Reality Viewpointing Networking) 인프라구조일 수 있다.

상기 물리적 자원은, 서버, 디스크, 링크, CPU, 메모리, 네트워크 인터페이스 카드 중 적어도 하나를 포함할 수 있다.

상기 가상화 자원은 가상 컴퓨터, 가상 스토리지, 및 가상 네트워크 중 적어도 하나를 포함할 수 있다.

상기 다른 목적을 달성하기 위한 본 발명의 일 실시예에 따른 자원 관리 방법은 물리적 자원 및 가상화 자원을 포함하는 인프라구조(infrastructure)에서 자원을 관리하는 방법으로서, 상기 물리적 자원 및 가상화 자원을 모니터링하여 상기 인프라구조에서 서비스를 운용 중에 발생하는 측정 데이터 및 이벤트 관련 데이터를 수집하는 단계; 수집된 측정 데이터 및 이벤트 관련 데이터 중 장애 또는 고장 이벤트와 관련 변수 간의 상관성 분석을 포함한 데이터 분석을 수행하는 단계; 및 상기 데이터 분석 결과를 이벤트의 사전 진단에 활용하는 단계를 포함할 수 있다.

상기 관련 변수는, 상기 물리적 자원 및 가상화 자원 중 적어도 하나의 자원 및 서비스 수행 상태에 대한 측정치, 통지 정보, 임계치, 모니터링 정보 중 적어도 하나를 포함할 수 있다.

상기 공통 이벤트 데이터 모델은, 내부 헤더(Internal header), 장애 또는 고장(Fault/Failure), 측정치(Measurement: (KPI(Key Performance Indicators), KQI(Key Quality Indicators), KCI(Key Capacity Indicators)), 시스템로그(Syslog), 통지(Notification), 상태변경 (StateChange), TCA 경보(Alert), 보안(Security) 및 플로우필드(FlowFileds) 중 적어도 하나에 대한 정보를 포함할 수 있다.

상기 데이터 분석을 수행하는 단계는, 진단 분석(DA; Diagnosis Analysis), 임계치 도달 분석(TCA; Threshold Crossing Analysis), 및 상관성 분석(CA; Correlation analysis) 중 적어도 하나의 통계적 분석 방식을 통해 분석을 수행하는 단계를 포함할 수 있다.

상기 데이터 분석을 수행하는 단계는 물리적 인프라 하드웨어 디바이스에 대한 장애 또는 고장 관련 데이터 및 가상 인프라 디바이스에 대한 장애 또는 고장 관련 데이터에 대해 근본원인 분석(RCA; Root Cause Analysis)을 수행하는 단계를 포함할 수 있다.

상기 인프라 운용 관리 방법은, 적어도 하나의 PNF(Physical Network Function) 및 VNF(Virtualized Network Function), 모니터링 에이전트와 연결된 모니터링 API(Application Programming Interface)로부터 적어도 하나의 메시지를 수신하여 게시하는 메시지큐를 통해 수신된 알람 메시지를 사용자에게 통지(notification)하는 단계; 상기 인프라구조의 자원 사용 관련 메트릭이 기 설정된 임계치에 도달하였는지 판단하는 임계치 도달 분석을 수행하는 단계; 상기 인프라구조의 자원 사용 관련 메트릭의 변환 및 생성과 관련하여 데이터를 통합하는 단계; 및 상기 메시지큐로부터의 메트릭스, 이벤트, 및 알람 상태 관련 히스토리 데이터를 상기 데이터베이스로 전달하는 단계를 더 포함할 수 있다.

상기와 같은 본 발명의 실시예들에 따르면, 인프라 장애 또는 고장의 근본 원인을 사전 진단을 통하여 파악할 수 있고, 이러한 사전 지식을 활용해 획득한 고장에 대한 원인을 사전에 통보 받은 운영자는 사전 조치를 수행할 수 있어 장애 또는 고장의 수리 시간 및 운용비용(OPEX)을 절감할 수 있다.

그에 따라 본 발명은, 인프라가 제공하는 응용서비스의 품질(QoS)을 연속적으로 보장할 수 있다.

또한, 본 발명은 AI(인공지능)의 ML(머신러닝)을 활용함으로써, 운영자의 의사결정 없이 고장/장애에 대한 사전 통보 및 사전 진단 결과를 도출할 수 있고 문제점의 근본원인분석(RCA) 결과를 즉시 운영자에게 제공할 수 있다.

도 1은 본 발명의 적용되는 TRVN 인프라의 구조 및 이를 대상으로 한 본 발명에 따른 데이터 수집 및 분석을 포함하는 인프라 운용 관리의 개념을 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 TRVN 인프라에서의 수집되는 빅데이터 수집/정제/변환에 의한 데이터를 활용하여 분석 프레임워크를 수행하기 위한 운용 관리 장치의 블록 구성도이다.
도 3은 본 발명의 일 실시예에 따른 이벤트 모니터링 분석 플랫폼의 개념도이다.
도 4는 본 발명의 일 실시예에 따라 수집되는 빅데이터의 데이터 모델을 나타낸다.
도 5는 본 발명의 일 실시예에 따라 수집되는 빅데이터의 세부 데이터 모델을 나타낸다.
도 6은 본 발명의 일 실시예에 따라 TRVN(Trusted Reality Viewpointing Networking) 인프라구조에서 이벤트 스트리밍 발생 운용 관리하는 방법의 일 실시예를 나타낸다.
도 7은 본 발명의 일 실시예에 따른 이벤트 스트리밍 발생 처리(수리) 운용 관리 방법의 다른 실시예를 나타낸다.
도 8은 본 발명에 따라 물리적 자원 및 가상화 자원을 포함하는 인프라구조에서 장애 정보를 수집하는 절차의 운용 관리를 위해 일 실시예를 도시한다.
도 9는 본 발명에 따른 상관 분석에 활용되는 산점도의 예를 도시한다.
도 10a, 10b 및 도 10c는 본 발명에서 활용하는 산점도의 다른 실시예를 나타낸다.
도 11은 본 발명의 일 실시예에 따른 인프라 장애 사전 진단을 위한 운용 관리 방법의 일 실시예를 나타낸다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는 데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. "및/또는"이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

본 발명은 클라우드 컴퓨팅 기반의 가상화 기술에 SDN/NFV 기술을 활용한 TRVN(Trust Reality Viewpointing Networking) 인프라 운영 중에 수집되는 빅-데이터를 활용하여, 다양한 네트워킹 장애/고장의 유형에 따른 인과관계 및 근본원인분석(root cause analysis)에 의한 사전 진단(diagnosis)을 수행한다.

TRVN 인프라(예를 들어, 서버, 네트워크, 스토리지)의 장애/고장의 사전 진단 기술은 인프라의 자율 운용관리 기술이다.

TRVN 인프라에서 발생하는 이벤트(event)는 응용 서비스를 제공하면서 인프라 운영에서 발생하는 장애(fault) 또는 고장(failure)을 의미할 수 있다.

기존의 인프라 운영에서는 운영 관련 빅데이터를 수집하지 않았고, 그로 인해 빅-데이터를 이용한 고장/장애에 대한 사전 진단(diagnosis) 분석을 수행할 수 없는 문제점을 포함하고 있었다.

반면 본 발명에서는 인프라 운영시 운영 관련 빅데이터를 수집하여 이를 고장/장애에 대한 사전 진단 분석에 활용하고자 한다. 인프라의 운영과 관련하여 수집된 빅데이터는 인프라의 고장을 사전에 진단하는 데 활용될 수 있으며, 이를 기초로 더 나아가, 고장 예측, 반자율 운용관리. 자율 운용관리에 활용될 수 있다.

이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

도 1은 본 발명의 적용되는 TRVN 인프라의 구조 및 이를 대상으로 한 본 발명에 따른 데이터 수집 및 분석을 포함하는 자원 관리의 개념을 나타낸 도면이다.

도 1은 본 발명이 적용되는 인프라, 특히 데이터센서 인프라, TRVN(Trust Reality Viewpointing Networking) 인프라의 구조 및 이를 대상으로 하여 본 발명에 따른 데이터 수집 및 분석이 이루어지는 프레임워크를 나타낸다.

도 1의 인프라는 응용서비스를 제공하는 데이터센터 인프라일 수 있으며, 본 발명에서는 인프라의 운영 중 발생하는 운영 관련 빅데이터를 수집 및 분석하기 위해 도 1에 도시된 바와 같은 DMMP (100) 및 DCAP(200)를 제공한다.

본 발명이 적용되는 데이터센터 인프라는 물리적 하드웨어(11), 운영체체 또는 하이퍼바이저(12), 네트워크 기능 계층(13), 멀티-클라우드 어댑테이션(14), SDN-C(15), 및 GNFC(Generic NF Controller)(16)를 포함할 수 있다.

물리 계층(11)은 데이터센터 인프라의 물리적인 하드웨어로서 컴퓨터, 네트워크 및 스토리지를 포함할 수 있다.

하이퍼바이저/OS 계층(12)은 물리적 하드웨어인 컴퓨터, 네트워크 및 스토리지에 대하여 통합 가상머신을 제공하는 다양한 하이퍼바이저(openstack, VMware, Azure, Kubernetes, Rackspace 등) 또는 OS를 포함하여, VM(가상머신), 컨테이너 등을 생성할 수 있다.

네트워크 기능 계층(Network Function Layer)(13)은 가상화된 VM(Virtual Machine) 및 컨테이너에 대하여 상호간의 연결을 위한 VNF(Virtualized Network Function) 및 PNF(Physical Network Function) 기능을 제공할 수 있다.

여기서, VNF는 VM 및 컨테이너에 소프트웨어 기반의 VNF에 대한 프로토콜을 제공하는 애플리케이션 기능을 제공한다. 즉, VNF는 하나 이상의 네트워크 서비스를 제공하는 소프트웨어 기반 애플리케이션이며, NFVI(Network Functions Virtualization Infrastructure)에서 제공하는 가상화된 인프라를 사용하여 네트워크에 연결하고 프로그래밍 및 확장 가능한 네트워크 서비스를 제공한다.

또한, PNF는 물리적인 하드웨어인 네트워크 장비와 연결을 수행하는 계층으로, 표준 이더넷인 IEEE 802.3 및 스토리지와의 연결을 위한 Ethernet, FC 또는 InfiniBand 등의 NIC을 통하여 통신을 수행할 수 있다.

한편, VNFM(Virtualized Network Function Managers)은 개별 VNF 인스턴스에 대하여 EMS(Element Management Systems)를 통해, 인스턴스 상태에 대한 모니터링 정보를 수집하여 제공하는 기능을 수행한다.

멀티-클라우드 어댑테이션(14)은 클라우드 VIMS(Virtualized Infrastructure Managements)로서, 물리적인 인프라(예를 들어, 컴퓨터, 네트워크, 스토리지 등)에 대하여 가상머신 및 컨테이너를 생성하고, 워크로드를 생성하며, 네트워킹 및 클라우드 모델링을 수행하여, FCAPS(Fault, Configuration, Account, Performance, Security)의 모니터링 정보 등을 텔리메트리에 대한 메타 데이터를 기반으로 생성하여 DMMP(Data Movement Management Platform)(100)로 제공한다.

SDN-C(15)는 소프트웨어 정의 네트워킹의 컨트롤러의 기능을 수행하며, 0 내지 3계층의 기능을 수행한다. SDN-C(15)는 VE(virtual entity)에 소프트웨어 정의된 네트워킹 프로토콜인 BGP(Border Gateway Protocol), vLAN 및 Netcong/Yang에 의해 구성 관리를 수행한다.

SDN-C 플랫폼은 또한, SLI(Service Logic Interpreter), MySQL 데이터베이스 및 ODL(Opendaylight)의 설치 및 시작 기능을 제공할 수 있으며, 성능 향상을 위해 DPDK(Data Plane Development Kit)를 적용할 수 있다. SDN-C 플랫폼은 또한, SR-IOV(Single Root I/O Virtualization)를 적용하여 네트워크 인터페이스 카드(NIC; Network Interface Card)를 가상화함으로써 CPU의 싸이클을 줄여 서버의 CPU를 사용하지 않으므로 텔리메트리 데이터의 전송의 성능을 향상할 수 있다. 즉, SDN-C는, NIC와 게스트(Guest) OS간의 네트워크 트래픽 전달 성능을 향상하기 위한 목적으로 SR-IOV를 사용할 수 있다.

정리하면, SDN-C는 IP/VRF 할당, L2 서비스 생성, L3 VPN 서비스 생성, 네트워크 구성관리, VNF 구성관리, SFC(Service Function Chaining) 관리, 마이크로 서비스 API 제공, Netconf/Yang에 의한 구성(configuration) 관리, OSS (Operations Support System) API를 통한 연결을 제공할 수 있다. 또한, SDN-C는 SD-WAN의 생성, TE 터널링의 생성, BGP 구성 관리, SW 업그레이드 등의 기능을 포함할 수 있다.

GNFC(Generic VNF Controller)(16)는 APPC(Application Controller)와 VFC(Virtualized Network Function Controller)의 기능을 포함하며, VNF/PNF/서비스 계층 1 내지 7에 대한 구성 및 라이프싸이클(lifecycle)의 관리 수행 기능을 포함한다.

좀더 구체적으로, GNFC는 마이크로서비스 생성에 의한 모델-구동 라이프싸이클(model-driven lifecycle) 관리, 구성 관리, 개시/중단(Start/stop) 관리, Audit 기능(모니터링 기능), 힐 체크(Heal check) 기능, L4~L7 서비스 기능, 스케일(Scale) 인/아웃(in/out) 기능, 서비스 상태 관리, 소프트웨어 업그레이드 기능을 제공한다. 또한 GNFC는 저장소(Repository)를 통해 마이크로서비스 로직(logic), VNFD(VNF Descriptors), 구성 템플릿(Config Templates), 워크로드 규칙(workload Rule), 정책 캐쉬(Policy cache) 및 이벤트와 관련된 데이터의 저장을 수행하며, DMMP와의 연결을 제공한다.

한편, DMMP(Data Movement Management Platform)은 데이터 이동 관리를 수행하는 플랫폼으로, 모든 소스에서 모든 대상에게 데이터를 전송하고 관련 처리하는 데이터 이동서비스 제공 플랫폼이다. 즉, DMM 플랫폼은 데이터 필터링, 전송 및 처리를 수행하는 플랫폼으로 구체적으로 아래의 기능을 제공할 수 있다.

- 데이터 필터링 기능: 에지 노드(MEC/Cloudlet/OEC)에서 데이터 분석을 위해 사전 수집/변환 처리되는 데이터 프로세스 과정의 라이프싸이클(lifecycle)을 압축하여 전송하기 위한 사전 단계의 기능

- 데이터 전송 기능: 데이터 수집 장치 내부 및 데이터센터 수집 장치로의 전송 기능으로, 여기서, 전송 방법으로는 파일 기반 및 이벤트 기반 데이터 이동이 모두 사용될 수 있으며, 데이터 전송 프로세스는 최소한의 대기시간(latency), 보장된 전달(delay) 및 고 가용성(high availability) 솔루션으로 데이터를 이동하는 기능을 제공함

- 데이터 처리(processing) 기능: 대기 시간이 짧고 처리량이 많은 데이터의 변환, 집계 및 통계적 모델에 의한 인프라의 고장 진단 및 사전 고장 예측 분석(Prediction Analytics) 모듈에서 활용할 수 있도록 데이터를 처리하는 기능, 실시간 데이터 처리를 위한 기능을 제공함

DMM 플랫폼(100)은 Apache Kafka 또는 하둡의 데이터 웨어하우징 등으로 구축될 수 있뜨며, Restful API를 통하여 전달되는 메시지 및 모니터링에 의한 빅-데이터를 수집하여 스토리지에 저장할 수 있다.

데이터 수집분석 플랫폼인 DCAP(Data Collection Analytics Platform)(200)는 멀티클라우드 어댑테이션(14), SDN-C(15), VNF컨트롤러(16)로부터 수집한 DMMP(100)의 빅데이터를 이용하여 이벤트(장애/고장), 사전 진단(diagnosis)분석, 근본원인분석(RCA: Root Cause Analysis), 한계점/임계값(threshold crossing analytics) 및 사전 장애/고장 예측 분석(PFP) 등을 수행하는 분석 프레임워크이다.

DCAP(200)는 DMMP(100)와의 연동을 위해 빅데이터 수집 프레임워크, DMMP 제어, DCAP 제어 및 DCAP 오케스트레이션 등의 기능을 제공한다.

한편, 도 1에서는 DCAP(200)와 DMMP(100)를 별개의 블록으로 도시하였으나, DMMP(100)은 DCAP(200) 내에 통합된 형태로 존재할 수도 있다.

도 2는 본 발명의 일 실시예에 따른 TRVN 인프라의 운용 관리 장치의 블록 구성을 나타낸다.

다시 말해, 도 2는 인프라의 물리적 또는 가상화 장치를 운용 중에 발생하는 빅-데이터를 수집하여 분석하는 DCAP(Data Collection Analytics Platform)의 프레임워크 구성도를 나타낸다.

DCAP 오케스트레이터(210)은 운용자 또는 분석가가 활용하는 UI 화면을 제공하며, DCAP 제어관리, DMMP의 연동관리, DMMP 버스 제어관리, 빅데이터 수집 프레임워크 및 다양한 유형의 분석 프레임워크 등을 사용자에게 제공할 수 있다.

DCAP 컨트롤러(220)는 복수의 API를 포함하여 구성될 수 있으며, 리포팅 API(VM Status, Service Instance Status) 및 자원 API의 상태를 제공할 수 있다.

DMMP 버스 컨트롤러(230)는 대용량 파일과 최적화된 파일 기반의 데이터 이동 관리 기능을 제공한다. DMMP 버스 컨트롤러(230)는 두가지 형태로 동작할 수 있는데, 라우터에 대한 메시지 전송 버스로 작동하는 경우와 파일 전송을 수행하는 버스 역할을 하는 데이터 라우터 형태로 동작하는 경우이다. 즉, DMMP 버스 컨트롤러는 메시지, 이벤트 및 데이터 라우팅의 빅데이터를 전달할 수 있다.

수집 프레임워크(Collection Framework)(240)는 스트림 데이터, 배치 파일의 데이터를 수집한다. 즉, 수집 프레임워크(240)는 멀티-클라우드 텔리메트리 어댑테이션(14)으로부터 이벤트 스트림 데이터, 배치 파일 데이터를 수집하며, SNMP(Simple Network Management Protocol), Syslog, JSON 및 Rest 등을 통하여 서비스, 네트워크 및 인프라로부터 장애/고장 및 성능에 대한 빅데이터를 수집할 수 있다.

DMMP(100)는 서비스 모니터링을 통해 측정 데이터(Measurement data) 및 이벤트 데이터를 포함하는 빅데이터를 수집할 수 있다. 측정 데이터는 KPI(Key Performance Indicators), KQI(Key Quality Indicators), KCI(Key Capacity Indicators)를 포함할 수 있다. 이벤트 데이터는 장애 또는 고장과 관련한 데이터로서, FCAPS(Failure, Configuration, Account, Performance, Security)에 대한 데이터를 포함할 수 있다.

분석 프레임워크(Analytics Framework)는 진단 분석(DA; Diagnosis Analysis), 임계치 도달 분석(TCA; Threshold Crossing Analysis), 상관성 분석(CA; Correlation analysis)을 포함할 수 있다. 각 분석은 통계적 알고리즘을 통해 분석을 수행하며, 분석에 따른 결과와 그래프를 이용한 결과보고서를 제공할 수 있다.

한편, 도 2에서는 본 발명에 따른 수집되는 빅데이터 수집/정제/변환에 의한 데이터를 활용하여 분석 프레임워크를 수행하기 위한 운용 관리 장치의 블록 구성도로 설명하였으나, 도 2에 도시된 수집 프레임워크(240), 분석 프레임워크(250) 및 DMMP(100)은, 인프라 운용 관리 장치가 포함하는 프로세서, 메모리, 데이터베이스 등의 하드웨어와 연동 또는 결합하여 동작할 수 있다.

즉, 수집 프레임워크, 분석 프레임워크, DMMP는 적어도 하나의 명령을 포함하는 프로그램의 형태로 존재할 수 있으며 상기 적어도 하나의 명령은 운용 관리 장치 내 메모리에 저장될 수 있으며 상기 운용 관리 장치 내 프로세서를 통해 실행될 수 있다.

도 3은 본 발명의 일 실시예에 따른 이벤트 모니터링 분석 플랫폼의 개념도이다.

도 3은 이벤트 모니터링 분석 플랫폼(EMAP; Event Monitoring Analytics Platform)으로서, 인프라의 물리 장치 또는 가상화 장치의 운용 중 발생하는 빅데이터 이벤트를 수집하여 분석할 수 있다.

모니터링 UI(310)는 데이터베이스 및 분석 엔진을 이용하여 데이터를 분석한 결과 및 한계점(Threshold) 관련 알람의 팝업에 대한 결과를 예를 들어, UI 대시 보드를 통해 사용자에게 제공한다. 모니터링 UI(310)는 데이터베이스 및 TCA, DA, 상관성 분석 기법을 활용하는 분석 엔진을 통해 수행된 분석 결과를 제공한다.

모니터링 UI(310)는 또한, 쿼리 메트릭스(Query Metrics) 정보를 표현하는 대쉬보드, 알람의 정의 및 생성을 위한 대쉬보드, 알람 업데이트 및 제거를 위한 대쉬보드, 통지(Notification) 방법 및 생성을 위한 대쉬보드를 제공할 수 있다.

클라이언트 CLI(Command Line Interface)(311)는, 클라이언트 CLI로 입력되는 명령어에 따라 시스템 PNF/VNF에 정보를 확인할 수 있도록 모니터링 API를 전달하고 제어하는 클라이언트 라이브러리 형태를 띤다. 클라이언트 CLI(311)는 모니터링 UI가 제공하는 대쉬보드를 통해 구현될 수 있다.

모니터링 에이전트(Monitoring Agent)(320)는, PNF/VNF에 대한 상태 정보 중 이벤트 발생에 대한 정보를 수신하고, REST API로부터 이벤트 메트릭스 정보를 제공받아 구성정보 데이터베이스(360)에 저장한다. 수집되는 빅데이터는 CPU 활용성(utilization), 메모리 가용성(memory availability), 상태(status) 및 시스템 메트릭스(metrics)을 포함할 수 있다. 모니터링 에이전트는 또한, MySQL, RabbitMQ 등으로 구축되어 시스템 메트릭스를 지원하며, 최신 Python 기반 모니터링 에이전트 기능을 제공한다.

REST API(330) 또는 RESTful API는 모니터링을 위한 API로서, 거대한 양의 메트릭스을 실시간으로 저장하고 쿼리하는 기능, 메트릭스 통계를 쿼리하는 기능, 알람의 정의, 생성, 업데이트, 쿼리 및 삭제하는 기능, 알람 정보의 내역을 쿼리하고 삭제하는 기능을 수행할 수 있다.

REST API(330)는 또한, 알람의 과거 알람 정보 데이터를 이용하여 RCA(Root Cause Analysis), DA(Diagnosis Analysis) 및 PFP(Pre Failure Prediction) 등의 고급 분석 수행을 위한 빅데이터 정보를 연결하여 제공할 수 있다.

메시지큐(340)는 모니터링 API에 게시된 메트릭스 및 임계값, 엔진의 알람 상태 전환 메시지를 수신한다. 메시지큐를 통해 수신된 다양한 메시지들은 유지(Persistence), 통지(Notification), TCA, 상관성/RCA(Correlation/RCA) 및 변환 엔진(Transform Engine)과 같은 다른 분석 구성 모듈에서 사용될 수 있다. 또한 메시지큐는 시스템의 다른 이벤트를 게시하고 그 정보를 이용한 분석에도 사용될 수 있다. 메시지 큐(340)는 Kafka 기반의 MessageQ 또는 Rabbit기반의 MessageQ 일 수 있다. Kafka메시지큐는 고가용성, 고성능, 분산, 내결함성(fault-tolerant)을 가지며 확장 가능한 메시지에 적용될 수 있다.

분석 엔진(350)은 통지(Notification) 모듈, TCA 모듈, 상관 모듈, 변환(Transform) 모듈, 내구성(Persistence) 모듈을 포함할 수 있다. 본 실시예에서의 분석 엔진(350)은 도 2의 실시예를 통해 설명된 분석 프레임워크(250)의 동작을 모두 수행할 수 있으며, 동작 면에서 동일한 개념으로 이해될 수도 있다.

통지 모듈은 MessageQ에서 알람 상태의 메시지를 수신하면, 해당 알람을 전자 메일, SMS(문자), 모바일 앱 또는 UI대쉬보드 상의 팝업 등을 활용해 운영자에게 전달한다.

임계치 도달 분석(Threshold/TCA; Threshold Crossing Analysis) 모듈은 메트릭스에 대하여 정의된 임계값을 계산하고, 각 메트릭이 관련 임계치를 초과하면 MessageQ에 경보를 게시할 수 있다. 임계값은 3단계, 예를 들어, 1차경보 65%, 2차경보 75%, 3차경보 85%로 구분하여 적용될 수 있다. 메트릭스는 인프라의 CPU 사용량, 메모리, 트래픽, 스토리지 저장, 파일시스템 사용량 관련 정보를 포함할 수 있으며, 온도 등 그 외 시설물(DBMS, 항온항습기, UPS, 온도계, 습도계, 전력, 밧데리 등)에 대하여 수집된 정보를 포함할 수 있다. 임계치 도달 분석 모듈은 TCA(Threshold Crossing Analysis) 분석을 통해 메트릭스의 값이 임계치에 도달하였는지 판단할 수 있다.

상관성/RCA 분석 모듈은 구성정보 데이터베이스(360) 및 MessageQ(340)의 데이터를 활용한 상관분석을 통한 근본원인 분석(RCA; Root Cause Analysis)을 수행함으로써, 경보 및 고장의 근본원인 분석 및 인과관계 분석을 제공할 수 있다.

변환/통합(Transform/Aggregation) 모듈은 메트릭의 이름과 값을 변환하고 메시지 큐에서 생성되는 새로운 메트릭에 대한 데이터 정보를 통합하며, 시간 기반의 계산을 수행할 수 있다.

유지(Persistence) 모듈은 MessageQ(340)로부터 메트릭스, 이벤트 및 알람에 대한 상태 관련 히스토리 데이터를 상태관리 데이터베이스(370)에 전달하여 상태관리 데이터베이스(370)로 하여금 해당 히스토리 데이터를 저장하도록 한다.

한편, 구성정보 데이터베이스(Config Database)(360)는 시스템의 구성(PNF/VNF) 정보, 서비스 수행(FCAPS, KQI, KCI, VNF, SLA 등)에 대한 모니터링 정보를 저장한다. 구성정보 데이터베이스는 예를 들어, MySQL 또는 PostgreSQL을 이용하여 구현될 수 있다.

상태관리 데이터베이스(Metrics, Event & Alarm Database)(370)는 메트릭스 에 대해 이벤트(장애/고장) 및 알람 기록 상태를 실시간으로 저장한다. 상태관리 데이터베이스는 예를 들어, Vertica 또는 InfluxDB 등을 이용하여 구현될 수 있다.

한편, 도 3에서는 본 발명에 따른 인프라 운용 관리 장치에 위해 수행될 수 있는 이벤트 모니터링 분석 플랫폼을 기능적 블록으로 설명하였으나, 도 3에 도시된 블록들은 본 발명에 따른 운용 관리 장치가 포함하는 프로세서, 메모리, 데이터베이스 등의 하드웨어와 연동 또는 결합하여 동작할 수 있다.

예를 들어, 도 3의 분석 엔진(350)은 적어도 하나의 명령을 포함하는 프로그램의 형태로 존재할 수 있으며, 상기 적어도 하나의 명령은 본 발명에 따른 운용 관리 장치의 분석 모듈의 한가지 알고리즘으로 메모리에 저장되고 상기 운용 관리 장치 내 프로세서를 통해 실행될 수 있다.

또한, 도 3의 실시예에서 구성정보 데이터베이스(360) 및 상태관리 데이터베이스(370)는 하나의 데이터베이스로 통합되어 본 발명에 따른 운용 관리 장치에 포함되거나 운용 관리 장치와 연동하는 별도의 데이터베이스로 존재할 수도 있다.

도 4는 본 발명의 일 실시예에 따라 수집되는 빅데이터의 데이터 모델을 나타낸다.

보다 구체적으로, 도 4는 본 발명에 따른 마이크로서비스 수행 중에 각 VNF에서 생성되는 공통 이벤트 스트림의 빅데이터 모델(Event Streaming BigData Model)의 프로파일의 일 실시예를 나타낸다.

본 발명의 일 실시예에 따른 VNF 이벤트 데이터의 프로파일은 아래의 데이터를 포함할 수 있으며, 그 외의 데이터를 또한 포함할 수 있다.

- 응용서비스 또는 마이크로서비스별 특정 데이터

- 베어 메탈(Bare metal) 및 가상화된 호스트의 데이터

- 공통 이벤트 데이터 모델(예를 들어, Internal header, Fault/Failure, Measurement, Syslog, Notification, StateChange, TCA Alert, Security 및 FlowFileds 등)

- 공통 헤더 및 도메인 프로파일에 포함될 수 있는 VNF의 특정 이벤트에 대한 내용

한편, 각 이벤트 모델은 확장성을 위해 추가 이름(Name) 및 값(Value)을 포함할 수 있다. PNF 및 VNF 인스턴스화 및 데이터 프로파일에는 VNF 별 이벤트 데이터 및 수집기 별 이벤트 스트리밍이 수집되어 저장, 통합, 정제, 변환이 수행될 수 있다.

본 발명에 따른 운용 관리 장치는 장애/고장 관련 빅데이터 수집하여 분석하며, VM(virtual machine) 생성시 수집기와 연결되어 VNF 이벤트 데이터를 도 4에 도시된 바와 같은 데이터 프로파일 형태로 수집한다. 또한, 데이터 프로파일에는 텔레메트리 오버헤드를 최적화하기 위한 제어 기능이 제공된다.

도 5는 본 발명의 일 실시예에 따라 수집되는 빅데이터의 세부 데이터 모델을 나타낸다.

도 5에서는 구체적으로, VNF 이벤트 장애(VNF Event Failure)의 유형, 통지/임계치/모니터링(Notification/Threshold/Monitoring)에 대한 이름 및 값 관련 세부 데이터 모델을 나타낸다.

여기서, 장애 유형은 물리적인 인프라 고장, 가상 인프라 고장, 보안 고장 등의 유형을 포함할 수 있다. 통지(Notification)는 컴퓨터 CPU, Memory, 스토리지 볼륨, 스냅샵, 백업 등의 경고 관련 통지 유형을 나타낼 수 있다. 임계치는 CPU, 메모리, 스토리지, NIC, 링크, 대역폭, 트래픽 등의 이용률에 대한 임계치를 나타낼 수 잇다. 여기서, 모니터링 항목은 FCAPS(Fault, Configuration, Accounting, Performance, Security), KPI(Key Performance Indicators), KQI(Key Quality Indicators), KCI(Key Capacity Indicators), SLA(Service Level Agreement) 등의 서비스의 각각에 해당하는 파라미터 값을 모니터링한 데이터를 포함할 수 있다.

도 6은 본 발명의 일 실시예에 따라 TRVN(Trusted Reality Viewpointing Networking) 인프라구조에서의 운용 관리 방법의 일 실시예를 나타낸다.

도 6은 본 발명에 따라, 물리적인 하드웨어 인프라 운용에 대하여 가상머신을 제공하는 다양한 하이퍼바이저(예를 들어, openstack, VMware, Azure, Kubernetes, Rackspace 등)로 VM(Virtual Machine; 가상머신), 컨테이너 등을 생성하여, 고객에게 마이크로서비스 제공 후 이벤트(fault/failure) 발생에 대하여 관리를 수행하는 일련의 절차의 일 예를 나타낸다.

가상화 인프라(virtualized infrastructure)(61)은 물리적인 하드웨어 인프라에 대하여 VM 또는 컨테이너로 가상화를 수행한 후, 마이크로서비스에 대하여 메타데이터 기반의 프로파일에 의해 마이크로 서비스를 설계하여 서비스 정책에 따른 CPU, 메모리, NIC, 내부 스토리지 및 외부 스토리지에 대해서도 가상화를 생성하여 마이크로 서비스에 대한 가상화 자원을 배포한다.

가상화 인프라 관리자(62)는 가상화 인프라에 대한 관리, 즉 제어 및 모니터링을 수행한다. 가상화 인프라 관리자는 PNF, VNF에 대한 제어 및 모니터링을 수행하여 각 데이터베이스에 저장하며, VNF 관리 에이전트와 오케스트레이터 에이전트에 의해 VNFM(64) 및 오케스트레이터(65)와 연동된다.

가상화 인프라 관리자(62)는 적어도 하나의 컨트롤러, 적어도 하나의 모니터링부, 감시부, 통지부를 포함할 수 있다.

컨트롤러(Controller)는 멀티-클라우드 적용(Adaption)을 위한 NFVI 컨트롤러(예를 들어, computer, storage, CPU, Memory, NIC 제어를 위한), SDN 컨트롤러, 하이퍼바이저 컨트롤러를 적용하여 가상화 자원을 이미지로 저장하여 관리할 수 있다.

모니터링부는, 물리적 하드웨어, 가상화된 VM, VNF에 적용한 vCPU, vMemory, vStorage 및 vNIC에 대한 모니터링에 의한 이벤트 정보(Threshold, Fault, Failure, Status)를 감시부(Inspector)에 전송할 수 있다.

감시부는, 모니터링부로부터 수신한 정보에 임계값(threshold) 또는 고장(failure)에 대한 메시지가 포함된 경우, 우선 컨트롤러 해당 사실 및 관련 정보를 전달한다. 이를 수신한 컨트롤러는 해당 정보에 기인한 영향(고장)을 탐색하며(Find Affected), 자원을 업데이트하며 관련 정보를 통지부로 전달한다. 이후 감시부는 또한 통지부에 경보(Alert)을 전송하고, 고장(failure) 관련 데이터를 저장한다.

통지부는 감시부로부터 수신한 경보를 VNFM(64)의 관리자에게 전송한다. VNFM(64) 해당 경보와 관련한 고장이 발생한 대상을 대기구성(STBY)으로 전환하고, 오케스트레이터(65)에 해당 내용을 전달한다.

관리자(즉, VNFM)는 VIM의 VE 가운데 영향을 받는 리소스에 대해 작업을 수행하도록 요청한다. 여기서, 작업은 예를 들어, 특정 리소스 의 마이그레이션, 업데이트, 또는 종료일 수 있다. 해당 지시를 받은 VIM은 요청된 가상 자원을 이전하거나 업데이트 또는 종료를 수행할 수 있다.

어플리케이션/VNF(63)는 VM, 컨테이너에 가상네트워크기능(VNF)을 적용한 어플리케이션 및 어플라이언스로서, IDS, IPS, 방화벽 등의 기능을 탄력적으로 확장하여 수행할 수 있다. 각각의 VNF에는 EM이 적용되어 각 VNF의 상태 데이터를 VNFM(64)로 전송할 수 있다.

VNF 관리자(VNF Manager; VNFM)(64)는 어플리케이션/VNF(63) 내 각 VNF와 연결된 EM을 통해 VNF 상태 관리 데이터를 수신하여 가상화 인프라 관리자(62)의 VNFM의 감지부 데이터베이스에 저장하고, CLAM(Close Loop Automation Management) 수행할 수 있다.

오케스트레이터(65)는 관리자(Administrator)의 대시보드인 UI에 해당한다.

도 6은 이벤트 스트리밍 관리 시나리오(Event Streaming Management Scenario)의 일 예를 나타내며, 물리적인 PNF 및 가상화된 VNF에서 마이크로서비스 수행 중에 발생되는 이벤트(fault/failure) 관리를 수행하는 일 예를 나타낸다.

우선, 운용자(관리자)가 특정 가상 자원에 대한 모니터링의 등록을 요청할 수 있다(S601). 이때, 쿼리 응답에 필터를 사용하여 임계값(threshold)에 대한 범위를 관리자가 지정한 3단계 또는 임의의 단계의 수준으로 적용하여 장애 관리를 수행할 수 있다. 사용자의 쿼리 응답 메시지는 가상 자원이 "경보" 상태에 있는 경우에 가상 자원에 대한 정보를 포함한 보고를 받을 것을 나타낼 수 있다(S601).

가상 인프라(Virtualized Infrastructure)는 VIMs에 등록한 자원에 대한 모니터링 이벤트를 발생시키는데, 여기서, VIM과 NFVI 간에 가입 메시지 교환이 이루어진다. 또한, VIMs(62)의 모니터링부 에서 가상 인프라의 이벤트(예를 들어, fault/failure)를 수신한다(S602). 이때, VIMs(62)에서는 물리적 인프라 및 가상 인프라로부터 이벤트 상관성, 장애 감지(fault detection), 수집 및 저장이 수행될 수 있다(S603).

VIMS는 발견된 장애로 인해 영향을 받는 가상 리소스를 찾기 위해 저장된 데이터베이스에서 조회를 수행하며(S604), 감지된 장애는 관리자에게 장애 통지(fault notification)로 보고된다(S605). 장애 통지를 보고받은 관리자는 해당 엔티티를 대기 구성(STBY: standby configuration)으로 전환한다(S606). VIMs는 사용자로부터 영향을 받는 리소스에 대해 특정 작업(예를 들어, 마이그레이션, 업데이트, 종료)의 수행 요청을 수신하고(S607), 관리자로부터 컨트롤러에 요구된 액션 명령을 실행하여 가상 자원을 이전하거나 종료 등을 수행함으로써, 장애 문제를 해결하는 절차의 시나리오를 수행할 수 있다.

도 7은 본 발명의 일 실시예에 따른 따른 이벤트 스트리밍 발생 처리(수리) 관련 운용 관리 방법의 일 실시예를 나타낸다.

도 7은 이벤트 스트리밍 유지보수 관리 시나리오(Event Streaming Maintenance Management Scenario)를 나타낸 것으로, 물리적인 PNF 및 가상화된 인프라에서 마이크로서비스 수행 중에 발생되는 장애/고장 관련 유지보수 운용 관리를 수행하는 시나리오를 나타낸다.

우선, 관리자는 VIMs에 쿼리를 요청하여, 자원의 현재 상태에 대한 정보를 획득한다(S701). VNFM은 EM을 통하여 각 VNF의 현재 상태에 대한 정보로서 관리자의 쿼리 요청에 응답한다(S702). 여기서, 자원이 "유지보수(Maintenance)" 상태인 경우 관련 유지보수 작업에 대한 정보가 응답에 포함될 수 있다. VIMs의 응답을 수신한 관리자(65)는 VIMs 내 컨트롤러에게 StateChange 요청을 전송한다(S703).

VIMs의 컨트롤러는 자원 맵(Resource Map)을 쿼리하여 계획된 유지보수 관리 작업의 영향을 받는 가상 리소스를 찾아 관리자에게 전달한다(S704). 컨트롤러는 리소스 맵 데이터베이스에서 영향을 받은 가상 리소스의 상태를 업데이트한다(S705). 컨트롤러는 또한, 해당 정보를 통지부로 알린다(S706).

통지부는 고객(Consumer) 및 관리자(Administrator)에게 해당 통지를 전송한다(S707). 장애 통지를 보고받은 소비자는 해당 엔티티를 대기 구성(STBY: standby configuration)으로 전환한다(S708). 관리자(오케스트레이터)는 VIMs(62)으로 하여금 특정 복구 조치를 수행(action)하도록 요청할 수 있다(S709). 해당 지시를 수신한 VIMs(62)은 물리적 자원을 비우기 위해 요구된 동작을 실행할 수 있다.

컨트롤러는 물리적 리소스가 해제된 후에 그 내용을 관리자에게 알린다(S710). 즉, VIM에서 물리적 시스템이 비었음을 관리자에게 알리는 유지보수 응답(또는 조작으로 인해 오류 상태가 발생)을 전달한다. 해당 응답을 수신한 관리자(Administrator)는 NFVI의 유지보수 작업 및 조정을 실행할 수 있다.

도 8은 본 발명에 따라 물리적 자원 및 가상화 자원을 포함하는 인프라구조에서 운용 관리를 위해 장애 정보를 수집하는 절차의 일 실시예를 도시한다.

즉, 도 8은 인프라 장애 유형(Instructure Fault Type)별 장애 수집의 일 실시예를 나타낸다.

도 8에서는 도 5에 도시된 바와 같은 이벤트 장애가 여러 레벨의 형태로 나타날 수 있음을 도시한다. 도 8에 도시된 로컬 장애 상관기(local fault correlator)가 장애 알림을 발생시킬 수 있다.

여기서, 하나 이상의 장애는 여러 유형의 상관성에 의한 인과 관계를 가질 수 있는데, 예를 들어, 가상 컴퓨터의 메모리 부족, CPU 오버플로우(overflow), 내부 스토리지 장애, 가상 네트워크 장애 및 물리적 하드웨어, 네트워크 장애 등으로 인하여 응용서비스에서는 다양한 유형의 장애가 발생할 수 있다.

장애가 VNF-EMS(Element Management Systems)에서 발생한 경우 모든 장애 정보는 VNFM(64)의 DB에 저장되고 이후 OSS(Operations Support System) 의 중앙 장애관리(FM) 시스템으로 전달될 수 있다.

여기서, 장애가 발생한 VE(virtual entity)는 적시에 모든 장애를 처리할 수 있는 성능을 갖추는 것이 바람직하다.

앞서 살펴본 도1, 도2의 DCAP은 도3에서 살펴본 분석 엔진(350)을 포함하여 탄력성과 가용성을 유지할 수 있다. 분석 엔진은 관리자가 최소한 의사결정으로 관리를 수행할 수 있도록 보고/저장된 장애의 근본원인분석(RCA: Root Cause Analysis)을 동적이고 신속하게 분석함으로써, NFV 기반 아키텍처가 배포되고 장애 보고 프레임워크가 계층적 방식으로 제공될 수 있다.

또한, 해당 계층 내의 여러 구성요소에서 발생하는 장애 정보는 VIM(62)과 VNFM(64)에서 각각 데이터베이스로 저장되어 오케스트레이터(65)의 데이터베이스에 통합 저장될 수 있다.

앞서 실시예들을 통해 분석 엔진을 이용하여 여러 유형의 이벤트에 대하여 장애 다중상관분석(multi-correlation analysis)을 수행하여 그 분석결과를 관리자에게 제공할 수 있음을 살펴본 바 있다.

로컬 장애 상관기(local fault correlator)는 도 3의 실시예를 통해 살펴본 분석 엔진(350) 내 상관성 RCA(Correlation RCA) 모듈에 포함 또는 탑재되어 실행될 수 있으며, 로컬 장애 상관기에 의해 수집되는 데이터는 VIMs 장애 데이터와 VNFM 장애 데이터는 오케스트레이터의 장애 데이터에 통합하여 포함할 수 있다.

VIMs 장애 데이터는, 물리적 인프라 하드웨어 디바이스인 컴퓨터, 스토리지, 네트워크 및 개별 디바이스인 CPU, 메모리, NIC, Link 등의 fault/failure/notification/ 임계치에 대한 정보를 포함할 수 있다.

VNFM 장애 데이터는 가상 인프라에 대해, SDN-C, APPC-C, VNF-C의 각각의 컨트롤러를 이용해 수집될 수 있으며, 개별 엔티티의 가상머신(VM), 가상네트워크, 가상스토리지, 네트워크 서비스에 적용된 각각의 디바이스의 fault/failure/notification/threshold에 대한 정보를 포함할 수 있다.

또한, 오케스트레이터의 장애 데이터를 저장하는 오케스트레이터의 데이터베이스는 VIMs 데이터베이스와 VNFM 데이터베이스 등과 연동하여 장애 데이터를 통합 저장할 수 있다.

오케스트레이터의 장애 데이터는, 모니터링에 의해 FCAPS, 마이크로서비스 별로 KPI/KQI/KCI/SLA 등에 대해 모두 통합 저장/변환/정재 등의 빅데이터 라이프싸이클 프로세스를 수행한 후, 분석 엔진 또는 또는 AI 딥러닝에 의한 장애/고장(fault/failure)에 대한 사전 장애 예측 분석이 수행된 결과를 포함할 수 있다. 예측 분석 결과는 OSS의 대시보드를 통하여 그래픽 결과를 포함한 보고서 형태로 관리자에게 제공될 수 있다.

한편, OSS의 대시보드에는 해당 계층에서 보고된 다른 모든 장애를 유발할 수 있는 하나 이상의 근본원인(root cause) 후보를 선택하기 위해 잘 정의된 상관관계 규칙을 적용할 수 있다.

장애 상관분석(Fault correlation analysis)은 지역적으로 상관된 보고서 또는 다른 장애 상관 관계 분석기의 보고서를 수집하고 일반적인 장애 우선순위 그래프(예를 들어, 다중상관분석에 의한 산점도(scatter plot))와 다중상관분석에 대한 검증 결과를 기반으로 상관관계 규칙을 적용하여 수행될 수 있다.

장애 상관기는 OSS 계층에서 다양한 형태의 이벤트 장애의 빅데이터에 활용될 수 있으며, DCAP(Data Collection Analytics Platform)에 포함될 수 있는 데이터 마이닝(data mining) 모듈 또는 AI 딥러닝 모듈에 의해서 다중상관분석(multi-correlation analysis) 및 사전 장애 예측 분석을 수행하는 통계적 분석 모듈을 포함하여, 통계적 분석 및 AI 딥러닝 분석을 제공할 수 있다.

이하에서는, 도 8에 도시된 바와 같은 인프라구조에서 도 4 및 도 5에 도시된 이벤트 스트림 데이터 모델에 따른 빅데이터가 수집되는 도 3에 도시된 바와 같은 구성정보 데이터베이스(360) 및 상태관리 데이터베이스(370)를 통합한 형태인 도 2의 수집 프레임워크(240), 그리고 측정 및 이벤트 데이터(100)의 데이터베이스를 활용하여, 본 발명에 따른 분석 프레임워크(250)에 의한 상관성 분석에서 이벤트 (fault/failure)의 근본원인(root cause)을 분석하는 구체적인 상관분석 방법을 설명한다.

상관분석은 적용하는 데이터의 형태에 따라 모수적 상관계수를 사용하는 방법과 비모수적 상관계수를 사용하는 방법으로 통계적 모형을 구분하여 적용할 수 있다.

모수적 상관분석 방법으로는 피어슨 상관계수를 사용하여 상관분석을 수행하는 방법이 대표적인 방법이다.

피어슨 상관계수(Person correlation coefficient)를 이용하여 본 발명에 따른 이벤트 상관 분석(correlation analysis)을 수행하는 방법은, 확률론과 통계학에서 두 변수(fault/failure(X₁), 측정치(measurement) (X₂, X₃, X₄,?, X_N), 통지 정보(X₂, X₃, X₄,?, X_N), 임계치(X₂, X₃, X₄,?, X_N), 및 모니터링 정보(X₂, X₃, X₄,?, X_N)) 간에 어떤 선형적 상관성을 갖고 있는지를 분석할 수 있다.

여기서, 두 변수는 서로 독립적인 관계이거나 상관된 관계일 수 있으며 두 변수 간 관계의 강도를 상관계수(Correlation, Correlation coefficient)라 한다. 또한, 상관분석에서는 상관관계의 정도를 나타내는 단위로 모 상관계수

를 사용하여, 아래 수학식 1에 따라 모집단의 피어슨 상관관계 계수

를 나타낼 수 있다.

또한, 표본의 피어슨 상관계수 r 는 아래 수학식 2와 같이 나타낼 수 있다.

한편, 피어슨 상관 분석에서는 몇 가지 가정을 전제하고 분석을 수행한다. 해당 가정들은 선형성, 동변량성, 두 변수의 정규분포성, 독립표본이다.

선형성은 두 변수 X와 Y의 관계가 직선적인지를 알아보는 것으로 이 가정은 분포를 나타내는 산점도(Scatter Plot)를 통하여 확인할 수 있다.

도 9는 본 발명에 따른 상관 분석에 활용되는 산점도의 예를 도시한다.

두 번째 가정은 동변량성이며, 이는 X의 값에 관계없이 Y의 흩어진 정도가 같은 것을 의미한다. 세 번째 가정은 두 변수의 정규분포성이며 두 변수의 측정치 분포가 모집단에서 모두 정규분포를 나타냄을 의미한다. 마지막으로, 모집단에서 표본을 추출할 때 표본 대상을 확률적으로 선정하는 독립 표본의 가정을 사용할 수 있다.

한편, 단순히 두 개의 변수가 어느 정도 강한 선형관계에 있는가를 측정하는 것을 단순상관분석(simple correlation analysis), 3개 이상의 변수들간의 관계에 대한 강도를 측정하는 다중상관분석(multiple correlation analysis)이라 한다. 또한, 다중상관분석에서 다른 변수들간의 관계를 고정하고 두 변수만의 관계에 대한 강도를 나타내는 것을 편상관계분석(partial correlation analysis)이라고 한다.

상관관계의 정도를 파악하는 상관계수(Correlation coefficient)는 두 변수간의 연관된 정도를 나타내며, 근본원인을 설명하는 데 도움이 된다. 두 변수 간 원인과 결과의 인과관계는 회귀분석을 통하여 인과관계의 정도와 수학적 모델로 확인할 수 있다.

구체적인 분석 방법에서, 두 변수에 대한 표본 관측치는 (X _i ,Y _i )이고, 모두 측정된 연속형 변수라고 가정하고, 분석을 수행한다.

두 변수의 선형 상관관계와 관련해서는 2가지 가설이 사용될 수 있는데, 귀무가설 및 대립가설이 그것이다.

귀무가설(null hypothesis)

에서는 두 변수 (X _i ,Y _i ) 간에는 선형 상관관계가 없다. 즉, 두 변수 간 상관계수가 '0', 즉,

이라는 의미이다. 따라서, 두 변수 (X _i ,Y _i )는 서로 독립적이다.

대립가설(alternative hypothesis)

에서는 두 변수 (X _i ,Y _i ) 간에 선형 상관관계가 존재한다(

). 즉

>0.6 이면 이벤트(fault/failure)에 대하여 고장의 근본원인으로 측정치, 통지 정보, 임계치, 및 모니터링 정보 중 적어도 하나와 해당 이벤트가 상관관계가 존재한다고 설명할 수 있다.

이러한 가정 및 가설을 기반으로 하여, 검정통계량(Test Statistics), 즉, t-통계량은 아래의 수학식 3에 의해 표현될 수 있다.

여기서, r=상관계수, n=표본의 크기이다.

만약 귀무가설

라면 아래 수학식 4에 의해 정의되는 검정 통계량을 이용할 수 있다.

여기서, 상관관계가 0<ρ≤+1 이면 양의 상관, -1≤ρ<0 이면 음의 상관, ρ=0이면 무상관 이라고 한다. 하지만 상관관계가 0인 것은, 상관이 없다는 것이 아니라 선형의 상관관계가 아님을 의미한다.

한편, 표본자료에 기초하여 계산된 검정통계량은 귀무가설 H₀가 참인 경우에 해당 표본이 얼마나 벗어나 있는지를 측정해준다. 통계량의 값이 큰 경우에는 귀무가설이 해당자료와 일치하지 않는다는 것을 의미한다. 검정 통계량은 어떠한 값을 실제로 관찰되는 것보다 더 극단적으로 받아들일 수 있는 확률을 검정의 p-value 라고 하며, 이는 귀무가설을 참으로 가정한 후에 계산된다. 즉, p 값이 작아질수록 귀무가설과 상반되는 증거는 더 증가한다고 할 수 있다.

정리하면, t(자유도=n-2) 분포표, 혹은 표준정규 분포표로부터 기각역을 구하고 표본으로부터 계산된 검정통계량 값과 비교하여 유의수준 α=0.05 값과 비교하여

이면 귀무가설을 기각하고 대립가설을 받아들여 유의성이 있다고 판정하며, 따라서, 두 변수(X _i ,Y _i ) 간에는 선형 상관관계가 있다고 판단할 수 있다. 즉, 어느 이벤트(fault/failure)에 대하여 고장의 근본원인으로 측정치, 통지 정보, 임계치, 및 모니터링 정보 중 적어도 하나와 해당 이벤트 사이에 상관관계가 존재한다고 설명할 수 있다.

이어서, 비모수적 상관분석 방법에 대해 살펴본다.

비모수적 상관분석 방법으로는 스피어만 순위 상관계수를 사용한 분석 방법과 켄달의 타우(Kendall's tau)를 사용한 분석 방법을 활용할 수 있다.

스피어만 순위 상관계수(Spearman rank correlation coefficient)

는 비모수적 상관계수로 데이터가 서열척도인 경우로 이산형(discrete) 데이터, 순서형(ordinal) 데이터에 적용이 가능하다. 즉, 자료의 값 대신 순위를 이용하는 경우의 상관계수로서, 데이터를 작은 것부터 차례로 순위를 매겨 서열 순서로 바꾼 뒤 순위를 이용해 상관계수를 산출한다.

스피어만 순위 상관계수는

는 일종의 데이터 셋(원 자료)을 각각 순위(rank) 자료로 전환한 후, 순위로 전환한 자료로부터 피어슨 상관계수를 구한 것으로 정의한다. 전환된 순위 자료를 각각

과

이라 할 때 스피어만 순위 상관계수는 아래 수학식 5와 같이 나타낼 수 있다.

스피어만 상관계수는 원 자료 대신 순위(rank) 자료를 이용하므로 피어슨 상관계수보다 이상치 자료에 덜 민감하게 반응하며, 두 변수 간의 연관 관계가 있는지 없는지를 밝혀주며 자료에 이상점이 있거나 표본크기가 작을 때 유용하게 적용되는 상관분석 모형으로 선호된다.

스피어만 상관계수

는 -1 과 1 사이의 값을 가지는데 두 변수 내의 순위가 완전히 일치하면 +1이고, 두 변수의 순위가 완전히 반대이면 -1이 되는데, 이를 산점도로 살펴보면 도 10a 내지 도 10c와 같이 나타낼 수 있다.

도 10a 내지 도 10c는 본 발명에서 활용하는 산점도의 다른 실시예를 나타낸다. 도 10a는

인 경우의 산점도를 나타내며, 두 변수는 서로 독립적으로 상호 상관관계가 없다는 것을 확인할 수 있다. 도 10b는

인 경우의 산점도를 나타내며, 두 변수 사이에 강한 상관관계가 있음을 나타낸다. 도 10c는

= -0.96 인 경우의 산점도를 나타내며, 두 변수 사이에 음의 강한 음의 상관관계가 있음을 의미한다.

스피어만 상관계수를 이용한 분석 방법에서는, 두 변수에 대한 표본 관측치는 (X _i ,Y _i )이고, 각 변수는 크기 순으로 정렬이 가능하다는 가정을 사용한다.

스피어만 상관계수를 이용한 분석에서도 두 변수의 선형 상관관계와 관련해, 귀무가설 및 대립가설의 2가지 가설이 사용될 수 있다.

귀무가설(null hypothesis)

대립가설(alternative hypothesis)

에서는 두 변수 (X _i ,Y _i ) 간에 선형 상관관계가 존재한다(

). 즉

>0.6 이면, 어느 이벤트(fault/failure)에 대하여 고장의 근본원인으로 측정치, 통지 정보, 임계치, 및 모니터링 정보 중 적어도 하나와 해당 이벤트 사이에 상관관계가 존재한다고 설명할 수 있다.

이러한 가정 및 가설을 기반으로 하여, 상관계수 및 검정통계량(Test Statistics)은 아래의 수학식 6 및 수학식 7에 의해 표현될 수 있다.

수학식 6에서

는 x 변수의 i번째 관측치의 순위이고,

는 y 변수의 i번째 관측치의 순위이다.

정리하면, 스피어만 순위 상관계수를 이용한 분석에서, 두 변수(X _i ,Y _i )가 완전한 양의 상관관계가 있다면 모든 d _i 는 0이고,

이다. 만약 두 변수(X _i ,Y _i )가 완전한 음의 상관관계가 있다면 모든 d _i 는 [R(x)=1, R(y)=n], [R(x)=2, R(y)=n-1], ? , [R(x)= n , R(y)=1] 와 같으며,

이다. 즉, 두 변수 간의 순위가 서로 상반되는 순위로 나타나는 경우이다.

한편, 비모수적 상관계수를 사용하는 다른 방법으로 켄달의 타우(Kendall's tau) 를 사용하는 방법이 있다.

켄달의 타우(Kendall's tau)

는 비모수적 상관계수로서, 켄달의 타우를 사용하는 방법은 측정형 변수나 순서형 변수들간의 상관 관계의 정도를 자료의 순위 값에 의하여 계산한다. 켄달의 타우는 주로 순서형, 분류형의 범주형 변수들의 상관 관계를 계산하는 데 활용된다.

켄달의 타우를 활용한 분석에서는, 두 변수에 대한 표본 관측치는 (X _i ,Y _i )이고, 각 변수는 순서형, 분류형의 범주형 변수임을 가정한다.

또한, 앞서 설명한 두 방법과 마찬가지로 두 변수의 선형 상관관계와 관련해서는 2가지 가설이 사용될 수 있는데, 귀무가설 및 대립가설이 그것이다.

귀무가설(null hypothesis)

대립가설(alternative hypothesis)

에서는 두 변수 (X _i ,Y _i ) 간에 선형 상관관계가 존재한다(

). 즉

>0.6 이면, 어느 이벤트(fault/failure)에 대하여 고장의 근본원인으로 측정치, 통지 정보, 임계치, 및 모니터링 정보 중 적어도 하나와 해당 이벤트 간의 상관관계가 존재한다고 설명할 수 있다.

이러한 가정 및 가설을 기반으로 하여, 켄달의 타우를 이용한 검정통계량(Test Statistics), 즉, t-통계량은 아래의 수학식 8에 의해 표현될 수 있다.

where

여기서, n =쌍의 관측치 수, t_i =주어진 순위에서 동일한(tied) X 관측치 수, u_i=주어진 순위에서 동일한(tied) Y 관측치 수를 의미하며, 함수 sgn()은

와 같이 표현될 수 있다.

한편, Kendall의 일치 계수(coefficient of concordance)는 아래 수학식 9와 같이 나타낼 수 있다.

where

여기서, R _i = sum of rank of K raters for i ^th person, n = the number of rated person을 의미한다.

또한,

일 때, kendall 일치계수 표를 이용하며,

인 경우는

이 적용된다.

정리하면, 켄달의 타우를 활용하여 본 발명에 따른 상관성 분석을 수행하는 경우,

(자유도=n-2) 분포표, 혹은 표준정규 분포표로부터 기각역을 구하고, 표본으로부터 계산된 검정통계량 값과 비교하고 유의수준

값과 비교하여

이면 귀무가설을 기각하여 대립가설을 받아들여 유의성이 있다고 판정하며, 두 변수(X _i ,Y _i ) 간에는 선형 상관관계가 있다고 판단할 수 있다. 즉, 어느 이벤트(fault/failure)에 대하여 특정 변수(측정치, 통지 정보, 임계치, 및 모니터링 정보 중 적어도 하나)가 고장의 근본원인으로 해당 이벤트와 상관관계가 존재한다고 설명할 수 있다.

도 11은 본 발명의 일 실시예에 따른 인프라 장애 사전 진단을 위한 운용 관리 방법의 일 실시예를 나타낸다.

도11 에 도시된 인프라 장애 사전 진단을 위한 운용 관리 방법은 앞서 실시예들을 통해 설명한 DCAP(200) 및 DMMP(100) 중 적어도 하나를 포함하는 운용 관리 장치에 의해 수행될 수 있으나, 동작 주체가 이에 한정되는 것은 아니다.

본 발명에 따른 운용 관리 방법은 바람직하게는, 물리적 자원 및 가상화 자원을 포함하는 TRVN 인프라구조에서 인프라의 운용 관리하는 방법일 수 있다.

도 11을 참조하면, 본 발명의 인프라 장애 사전 진단을 위한 운용 관리 장치는, 인프라구조의 물리적 자원 및 가상화 자원을 모니터링하여 인프라구조에서 발생하는 이벤트 관련 데이터를 수집한다(S1110).

이후 운용 관리 장치는, 수집된 이벤트 관련 데이터 중 장애 또는 고장 이벤트와 관련 변수 간의 상관성 분석을 포함한 데이터 분석을 수행한다(S1120).

여기서, 관련 변수는, 물리적 자원 및 가상화 자원 중 적어도 하나의 자원에 대한 측정치, 통지 정보, 임계치, 모니터링 정보 중 적어도 하나를 포함할 수 있다.

또한, 이벤트 관련 데이터는, 서비스별 특정 데이터, 베어 메탈 및 가상화된 호스트의 데이터, 공통 이벤트 데이터 모델, 및 특정 이벤트 관련 내용 중 적어도 하나를 포함할 수 있다.

여기서, 공통 이벤트 데이터 모델은, 내부 헤더(Internal header), 장애 또는 고장(Fault/Failure), 측정치(Measurement), 시스템로그(Syslog), 통지(Notification), 상태변경 (StateChange), TCA 경보(Alert), 보안(Security) 및 플로우필드(FlowFileds) 중 적어도 하나에 대한 정보를 포함할 수 있다.

한편, 본 발명에 따른 데이터 분석에는, 진단 분석(DA; Diagnosis Analysis), 임계치 도달 분석(TCA; Threshold Crossing Analysis), 및 상관성 분석(CA; Correlation analysis) 중 적어도 하나의 통계적 분석 방식이 활용될 수 있다.

본 발명에 따른 데이터 분석은 또한 물리적 인프라 하드웨어 디바이스에 대한 장애 또는 고장 관련 데이터 및 가상 인프라 디바이스에 대한 장애 또는 고장 관련 데이터에 대해 근본원인 분석(RCA; Root Cause Analysis)을 포함한다.

운용 관리 장치는 데이터 분석 결과를 이벤트의 사전 진단에 활용할 수 있다(S1130).

살펴본 바와 같은 실시예에 따른 본원발명은 인프라 장애/고장에 대한 사전 진단에 의한 장애/고장의 예방이 가능하며, 그에 따라 인프라 자율운용관리를 위한 핵심 기술이 된다.

본 발명은 ICT 인프라(서버, 네트워크, 스토리지)의 이벤트(장애/고장)가 발생하기전에 경보를 알리는 팝업 및 SMS(문자)로 사전 통보하는 기능뿐만 아니라 AI(인공지능)의 ML(머신러닝)에 대한 프로그램을 통한 장치에서 운영자의 의사결정 없이 고장/장애에 대한 사전통보 및 문제점의 근본원인분석(RCA) 결과를 즉시 운영자에게 제공한다. 그러므로 운영자는 즉시 인프라의 장애/고장의 문제점을 알게 되어 사전 조치(수리)를 수행하게 되므로 장애/고장에 대한 수리시간 및 운용비용(OPEX)을 줄이는 효과를 갖는다.

따라서 본 특허는 장애/고장이 발생하기 전에 응용서비스가 중단되는 사항을 미리 예방하여 제공하던 응용서비스의 품질보장(QoS)을 연속적으로 보장하기 위한 핵심원천기술이다.

본 특허는 인프라(컴퓨터, 네트워크, 스토리지)의 운용의 모니터링에서 발생되는 빅-데이터를 수집하여 장애/고장의 유형에 대한 사전 진단을 통하여 고장 발생을 예방하기 위한 기술로 제공하던 응용서비스의 품질보장을 연속적으로 보장하기 위한 핵심기술로 서비스 중단 없이 업무를 수행하므로 업무의 효율성을 높이며, 인프라 운영관리에 대한 운영관리비용(OPEX)를 절감하는 핵심원천기술이다.

인프라 장애/고장에 대한 사전 진단(diagnosis)에 의한 예방(prevention) 기술은 데이터센터 인프라 자율운용관리(autonomous operation management)를 위한 핵심원천기술이다.

본 발명의 실시예에 따른 방법의 동작은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 프로그램 또는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산 방식으로 컴퓨터로 읽을 수 있는 프로그램 또는 코드가 저장되고 실행될 수 있다.

또한, 컴퓨터가 읽을 수 있는 기록매체는 롬(rom), 램(ram), 플래시 메모리(flash memory), HDD 등과 같이 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함할 수 있다. 프로그램 명령은 컴파일러(compiler)에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터(interpreter) 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함할 수 있다.

본 발명의 일부 측면들은 장치의 문맥에서 설명되었으나, 그것은 상응하는 방법에 따른 설명 또한 나타낼 수 있고, 여기서 블록 또는 장치는 방법 단계 또는 방법 단계의 특징에 상응한다. 유사하게, 방법의 문맥에서 설명된 측면들은 또한 상응하는 블록 또는 아이템 또는 상응하는 장치의 특징으로 나타낼 수 있다. 방법 단계들의 몇몇 또는 전부는 예를 들어, 마이크로프로세서, 프로그램 가능한 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해(또는 이용하여) 수행될 수 있다. 몇몇의 실시예에서, 가장 중요한 방법 단계들의 하나 이상은 이와 같은 장치에 의해 수행될 수 있다.

실시예들에서, 프로그램 가능한 로직 장치(예를 들어, 필드 프로그머블 게이트 어레이)가 여기서 설명된 방법들의 기능의 일부 또는 전부를 수행하기 위해 사용될 수 있다. 실시예들에서, 필드 프로그머블 게이트 어레이는 여기서 설명된 방법들 중 하나를 수행하기 위한 마이크로프로세서와 함께 작동할 수 있다. 일반적으로, 방법들은 어떤 하드웨어 장치에 의해 수행되는 것이 바람직하다.

이상 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

100: DMMP 110: 서버 송수신부
200: DCAP 210: DCAP 오케스트레이터
220: DCAP 컨트롤러 230: DMMP 버스 컨트롤러
240: 수집 프레임워크 250: 분석 프레임워크
340: 메시지큐

Claims

물리적 자원 및 가상화 자원을 포함하는 인프라구조(infrastructure)에서의 운용 관리 장치로서,
프로세서; 및
상기 프로세서를 통해 실행되는 적어도 하나의 명령을 저장하는 메모리를 포함하고,
상기 적어도 하나의 명령은,
상기 물리적 자원 및 가상화 자원을 모니터링하여 상기 인프라구조에서 발생하는 측정 데이터 및 이벤트 관련 데이터를 수집하도록 하는 명령;
수집된 측정 데이터 및 이벤트 관련 데이터 중 장애 또는 고장 이벤트와 관련 변수 간의 상관성 분석을 포함한 데이터 분석을 수행하도록 하는 명령; 및
상기 데이터 분석 결과를 이벤트의 사전 진단에 활용하도록 하는 명령을 포함하는, 운용 관리 장치.
청구항 1에 있어서,
상기 데이터를 수집하도록 하는 명령은,
데이터 필터링, 전송 및 처리를 수행하는 데이터 이동서비스 플랫폼인 DMMP(Data Movement Management Platform)에 따라 수행되는, 운용 관리 장치.
청구항 2에 있어서,
상기 데이터 분석을 수행하도록 하는 명령은,
상기 DMPP에 의해 수집된 데이터를 이용해 데이터를 분석하는 데이터 수집분석 플랫폼인 DCAP(Data Collection Analytics Platform)에 따라 수행되는, 운용 관리 장치.
청구항 1에 있어서,
상기 관련 변수는,
상기 물리적 자원 및 가상화 자원 중 적어도 하나의 자원에 대한 측정치, 통지 정보, 임계치, 모니터링 정보 중 적어도 하나를 포함하는, 운용 관리 장치.
청구항 1에 있어서,
상기 이벤트 관련 데이터는,
서비스별 특정 데이터, 베어 메탈 및 가상화된 호스트의 데이터, 공통 이벤트 데이터 모델, 및 특정 이벤트 관련 내용 중 적어도 하나를 포함하는, 운용 관리 장치.
청구항 1에 있어서,
상기 공통 이벤트 데이터 모델은,
내부 헤더(Internal header), 장애 또는 고장(Fault/Failure), 측정치(Measurement), 시스템로그(Syslog), 통지(Notification), 상태변경 (StateChange), TCA 경보(Alert), 보안(Security) 및 플로우필드(FlowFileds) 중 적어도 하나에 대한 정보를 포함하는, 운용 관리 장치.
청구항 1에 있어서,
상기 데이터 분석을 수행하도록 하는 명령은,
진단 분석(DA; Diagnosis Analysis), 임계치 도달 분석(TCA; Threshold Crossing Analysis), 및 상관성 분석(CA; Correlation analysis) 중 적어도 하나의 통계적 분석 방식을 통해 분석을 수행하도록 하는 명령을 포함하는, 운용 관리 장치.
청구항 1에 있어서,
상기 데이터 분석을 수행하도록 하는 명령은,
물리적 인프라 하드웨어 자원에 대한 장애 또는 고장 관련 데이터 및 가상 인프라 자원에 대한 장애 또는 고장 관련 데이터에 대해 근본원인분석(RCA; Root Cause Analysis)을 수행하도록 하는 명령을 포함하는, 운용 관리 장치.
청구항 1에 있어서,
시스템의 구성정보 및 시스템 수행 관련 FCAPS(Fault, Configuration, Account, Performance, Security), KQI(Key Quality Indicators), KCI(Key Capacity Indicators), KPI(Key Performance Indicators), 및 SLA((Service Level Agreement) 중 적어도 하나에 대한 모니터링 정보를 저장하고, 자원 사용 관련 메트릭스(metrics)에 대한 이벤트 및 알람 기록 상태를 저장하는 데이터베이스; 및
적어도 하나의 PNF(Physical Network Function) 및 VNF(Virtualized Network Function), 모니터링 에이전트와 연결된 모니터링 API(Application Programming Interface)로부터 적어도 하나의 메시지를 수신하는 메시지큐를 더 포함하는, 운용 관리 장치.
청구항 9에 있어서,
상기 데이터 분석을 수행하도록 하는 명령은,
상기 메시지큐를 통해 수신된 알람 메시지를 사용자에게 통지(notification)하도록 하는 명령;
상기 인프라구조의 자원 사용 관련 메트릭이 기 설정된 임계치에 도달하였는지 판단하는 임계치 도달 분석을 수행하도록 하는 명령;
상기 데이터베이스에 저장된 데이터 및 상기 메시지큐의 데이터를 이용하여 경보 및 고장의 근본원인을 분석하는 RCA(RCA; Root Cause Analysis) 분석을 수행하도록 하는 명령;
상기 인프라구조의 자원 사용 관련 메트릭의 변환 및 생성과 관련하여 데이터를 통합하도록 하는 명령; 및
상기 메시지큐로부터의 메트릭스, 이벤트, 및 알람 상태 관련 히스토리 데이터를 상기 데이터베이스로 전달하도록 하는 명령 중 적어도 하나를 포함하는, 운용 관리 장치.
청구항 1에 있어서,
상기 인프라구조는 TRVN(Trusted Reality Viewpointing Networking) 인프라구조인, 운용 관리 장치.
물리적 자원 및 가상화 자원을 포함하는 인프라구조(infrastructure)에서의 운용 관리 방법으로서,
상기 물리적 자원 및 가상화 자원을 모니터링하여 상기 인프라구조에서 발생하는 측정 데이터 및 이벤트 관련 데이터를 수집하는 단계;
수집된 측정 데이터 및 이벤트 관련 데이터 중 장애 또는 고장 이벤트와 관련 변수 간의 상관성 분석을 포함한 데이터 분석을 수행하는 단계; 및
상기 데이터 분석 결과를 이벤트의 사전 진단에 활용하는 단계를 포함하는, 운용 관리 방법.
청구항 12에 있어서,
상기 관련 변수는,
상기 물리적 자원 및 가상화 자원 중 적어도 하나의 자원에 대한 측정치, 통지 정보, 임계치, 모니터링 정보 중 적어도 하나를 포함하는, 운용 관리 방법.
청구항 12에 있어서,
상기 이벤트 관련 데이터는,
서비스별 특정 데이터, 베어 메탈 및 가상화된 호스트의 데이터, 공통 이벤트 데이터 모델, 및 특정 이벤트 관련 내용 중 적어도 하나를 포함하는, 운용 관리 방법.
청구항 12에 있어서,
상기 공통 이벤트 데이터 모델은,
내부 헤더(Internal header), 장애 또는 고장(Fault/Failure), 측정치(Measurement), 시스템로그(Syslog), 통지(Notification), 상태변경 (StateChange), TCA 경보(Alert), 보안(Security) 및 플로우필드(FlowFileds) 중 적어도 하나에 대한 정보를 포함하는, 운용 관리 방법.
청구항 12에 있어서,
상기 데이터 분석을 수행하는 단계는,
진단 분석(DA; Diagnosis Analysis), 임계치 도달 분석(TCA; Threshold Crossing Analysis), 및 상관성 분석(CA; Correlation analysis) 중 적어도 하나의 통계적 분석 방식을 통해 분석을 수행하는 단계를 포함하는, 운용 관리 방법.
청구항 12에 있어서,
상기 데이터 분석을 수행하는 단계는,
물리적 인프라 하드웨어 디바이스에 대한 장애 또는 고장 관련 데이터 및 가상 인프라 디바이스에 대한 장애 또는 고장 관련 데이터에 대해 근본원인 분석(RCA; Root Cause Analysis)을 수행하는 단계를 포함하는, 운용 관리 방법.
청구항 12에 있어서,
적어도 하나의 PNF(Physical Network Function) 및 VNF(Virtualized Network Function), 모니터링 에이전트와 연결된 모니터링 API(Application Programming Interface)로부터 적어도 하나의 메시지를 수신하여 게시하는 메시지큐를 통해 수신된 알람 메시지를 사용자에게 통지(notification)하는 단계;
상기 인프라구조의 자원 사용 관련 메트릭이 기 설정된 임계치에 도달하였는지 판단하는 임계치 도달 분석을 수행하는 단계;
상기 인프라구조의 자원 사용 관련 메트릭의 변환 및 생성과 관련하여 데이터를 통합하는 단계; 및
상기 메시지큐로부터의 메트릭스, 이벤트, 및 알람 상태 관련 히스토리 데이터를 상기 데이터베이스로 전달하는 단계를 더 포함하는, 운용 관리 방법.
청구항 12에 있어서,
상기 인프라구조는 TRVN(Trusted Reality Viewpointing Networking) 인프라구조인, 운용 관리 방법.