KR20190096706A - 서비스 연관성 추적을 통한 시스템 이상 징후 모니터링 방법 및 시스템 - Google Patents

서비스 연관성 추적을 통한 시스템 이상 징후 모니터링 방법 및 시스템 Download PDF

Info

Publication number
KR20190096706A
KR20190096706A KR1020180016457A KR20180016457A KR20190096706A KR 20190096706 A KR20190096706 A KR 20190096706A KR 1020180016457 A KR1020180016457 A KR 1020180016457A KR 20180016457 A KR20180016457 A KR 20180016457A KR 20190096706 A KR20190096706 A KR 20190096706A
Authority
KR
South Korea
Prior art keywords
service
servers
failure
server
information
Prior art date
Application number
KR1020180016457A
Other languages
English (en)
Inventor
전재규
Original Assignee
주식회사 케이티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 케이티 filed Critical 주식회사 케이티
Priority to KR1020180016457A priority Critical patent/KR20190096706A/ko
Publication of KR20190096706A publication Critical patent/KR20190096706A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0695Management of faults, events, alarms or notifications the faulty arrangement being the maintenance, administration or management system
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/064Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/065Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving logical or physical relationship, e.g. grouping and hierarchies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0681Configuration of triggering conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0686Additional information in the notification, e.g. enhancement of specific meta-data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/5041Network service management, e.g. ensuring proper service fulfilment according to agreements characterised by the time relationship between creation and deployment of a service
    • H04L41/5045Making service definitions prior to deployment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • H04L43/0882Utilisation of link capacity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Debugging And Monitoring (AREA)

Abstract

본 발명은 서비스 연관성 추적을 통한 시스템 이상 징후 모니터링 방법 및 시스템에 관한 것으로서, 본 발명의 시스템 이상 징후 모니터링 방법은, 네크워크 장비 및 서버 장비에서 발생하는 장애를 단순히 감시하거나 조치가 이루어지도록 하는 것이 아니라, 서비스와 관련된 시스템들 간의 상관 관계를 분석하고 장애 예측 모델인 시계열 분석 및 회귀 분석 기법을 활용하여 장애 발생 전에 미리 사전 예측하여 경보할 수 있도록 함으로써, 서비스의 끊김없이 연속성이 보장되도록 고객 서비스 망을 최적화할 수 있다.

Description

서비스 연관성 추적을 통한 시스템 이상 징후 모니터링 방법 및 시스템{Method and Apparatus for Monitoring Abnormal of System through Service Relevance Tracking}
본 발명은 시스템 이상 징후 모니터링 방법 및 시스템에 관한 것으로서, 특히, 서비스 연관성 추적을 통해 네크워크 장비 및 서버 장비에 대하여 통합적으로 장애 발생 전에 미리 사전 예측에 기반하여 서비스 연속성이 보장되도록 고객 서비스 망을 최적화할 수 있는 시스템 모니터링 방법 및 시스템에 관한 것이다.
네트워크 관련 장비에 대한 이상 징후 모니터링을 위한 종래의 기술은, 네트워크 장비 또는 시스템 단위에서 발생하는 다양한 경보/성능 이벤트를 수집하고 이를 근간으로 장애 및 성능 정보 또는 주기적 수집정보 값에 따른 임계치를 설정하여 모니터링함으로써 기준치 이상/이하 발생시 경보를 운영자에게 통보하는 방식으로 이루어진다.
이러한 종래의 방식은 단편적인 장비 단위의 모니터링 방식이고 장애 감시도 사후 경보 감시 방법으로 고객/사용자에게는 서비스의 연속성을 보장할 수 없다는 문제점이 있다.
따라서, 본 발명은 상술한 문제점을 해결하기 위하여 안출된 것으로, 본 발명의 목적은, 네크워크 장비 및 서버 장비에서 발생하는 장애를 단순히 감시하거나 조치가 이루어지도록 하는 것이 아니라, 서비스와 관련된 시스템들 간의 상관 관계를 분석하고 장애 예측 모델인 시계열 분석 및 회귀 분석 기법을 활용하여 장애 발생 전에 미리 사전 예측하여 경보할 수 있도록 함으로써, 서비스의 끊김없이 연속성이 보장되도록 고객 서비스 망을 최적화할 수 있는 시스템 모니터링 방법 및 시스템을 제공하는 데 있다.
먼저, 본 발명의 특징을 요약하면, 상기의 목적을 달성하기 위한 본 발명의일면에 따른, IP 네트워크 장비를 통하여 연동하여 IP 서비스를 지원하는 서버군에 대한 장애 여부를 모니터링하기 위한 네트워크 상의 관제 시스템에서의 모니터링 방법은, 상기 서버군에서 사용되는 서비스와 연관된 서비스 호출로그 정보들을 수집하고 상기 서버군에 포함된 서버들이나 장비들 간의 연관도에 대한 정보를 산출하여 데이터베이스에 관리하는 단계; 관제 대상 측정 항목에 대한 이벤트 정보에 대한 조건의 만족 여부를 판단하여 조건 충족 정보를 발생하는 단계; 상기 조건 충족 정보의 발생에 따라 상기 데이터베이스를 참조해 해당 장비와 관련된 연관도에 기초한 다른 서버들이나 장비들과의 상관 관계를 분석한 후 관련된 서버들이나 장비들의 수집항목에 대한 메트릭을 산출하는 단계; 및 상기 서버들이나 장비들의 수집항목에 대한 각각의 메트릭에 대한 시계열 분석 및 회귀 분석을 통하여 장애 발생 가능성에 대한 예측을 수행하는 단계를 포함한다.
상기 조건 충족 정보의 발생에 따라 장애 발생 가능성에 대한 1차 서비스 경보 이벤트를 발생하고, 상기 장애 발생 가능성에 대한 예측 결과에 따라 2차 서비스 경보 이벤트를 발생할 수 있다.
상기 측정 항목과 영향 관계에 있는 수집항목에 대하여, 상기 서버들이나 장비들의 영향 정도를 수치화한 값을 해당 수집항목의 상기 메트릭으로 산출할 수 있다. 상기 수집항목은 리소스 이용율을 포함한다.
상기 예측을 수행하는 단계는, 상기 서버들이나 장비들의 수집항목에 대한 메트릭의 임계치 초과가 예상되는 시간값에 대하여 장애 발생 가능성에 대한 예측 점수로 환산하는 단계를 포함한다.
상기 시간값은 시계열적 분석에 따른 시간값과 회귀분석을 통한 시간값을 포함할 수 있다.
상기 서버들이나 장비들에 대하여 미리 부여된 중요도에 대한 가중치를 반영하여 상기 예측 점수를 산정할 수 있다.
상기 예측 점수가 높은 순서로 해당 장애 발생이 예상되는 시간값으로부터 소정의 시간 전에, 서비스 경보 이벤트가 발생되도록 제어할 수 있다.
상기 모니터링 방법은, 상기 발생 가능성에 대한 예측을 수행한 결과에 기초한 서비스 경보 이벤트에 따라 장애 발생 가능성이 높은 해당 장비와 관련된 정보를 디스플레이에 표출하여 경보하는 단계를 더 포함할 수 있다.
그리고, 본 발명의 다른 일면에 따른, IP 네트워크 장비를 통하여 연동하여 IP 서비스를 지원하는 서버군에 대한 장애 여부를 모니터링하기 위한 네트워크 상의 관제 시스템은, 상기 서버군에서 사용되는 서비스와 연관된 서비스 호출로그 정보들을 수집하고 상기 서버군에 포함된 서버들이나 장비들 간의 연관도에 대한 정보를 산출하여 데이터베이스에 관리하는 상관관계 구축부; 관제 대상 측정 항목에 대한 이벤트 정보에 대한 조건의 만족 여부를 판단하여 조건 충족 정보를 발생하는 이벤트 제어부; 및 상기 조건 충족 정보의 발생에 따라 상기 데이터베이스를 참조해 해당 장비와 관련된 연관도에 기초한 다른 서버들이나 장비들과의 상관 관계를 분석한 후 관련된 서버들이나 장비들의 수집항목에 대한 메트릭을 산출하는 데이터 분석부를 포함하고, 상기 데이터 분석부는, 상기 서버들이나 장비들의 수집항목에 대한 각각의 메트릭에 대한 시계열 분석 및 회귀 분석을 통하여 장애 발생 가능성에 대한 예측을 수행할 수 있다.
본 발명에 따른 시스템 모니터링 방법 및 시스템에 따르면, 네크워크 장비 및 서버 장비에서 발생하는 장애를 단순히 감시하거나 조치가 이루어지도록 하는 것이 아니라, 서비스와 관련된 시스템들 간의 상관 관계를 분석하고 장애 예측 모델인 시계열 분석 및 회귀 분석 기법을 활용하여 장애 발생 전에 미리 사전 예측하여 경보할 수 있도록 함으로써, 서비스의 끊김없이 연속성이 보장되도록 고객 서비스 망을 최적화할 수 있다.
본 발명은 분석 모델 기법을 모든 시스템들의 기능들에 대한 모든 데이터에 적용이 필요한 것이 아니라, 사용자들에 의해 서비스가 이루어지는 다양한 기능 패턴들에 대해 인지하고 일부 데이터를 활용하며, 일련의 시스템들이나 장비들간 End-to-End(단대단) 영향도 데이터를 구축한 데이터베이스를 기반으로 한다. 즉, 하나의 시스템에서 이벤트 경보가 발생하는 경우 영향도 관련 시스템을 파악한 후 해당 시스템에 대해서만 예측 알고리즘을 수행함으로써 실시간으로 이상 여부를 즉시 판단할 수 있다.
이에 따라, 고객이 사용하는 End-to-End 서비스 구간별 영향도를 사전에 파악하고 장비에서 수집되는 장애요소 및 성능 정보를 주기적으로 수집하여 저장 시, 실시간으로 장애 이상여부를 사전에 판단하고 예측하여 운용하는 운용서버 및 네트워크 장비 등의 애플리케이션, 미들웨어 또는 인프라 관련 문제가 서비스에 영향을 미치기 전에 미리 예측하여 가동 중단을 방지하고 서비스 연속성을 보장할 수 있다.
또한, 시스템 운용에 대한 리소스 사용 상태를 주기적으로 분석하고, 예측된 결과를 근간으로 사전에 리소스에 대한 확장 및 축소 또는 재분배를 수행할 수 있도록 분석 리포트 제공이 가능하다.
그리고, 기존 탐지 방법은 정상 데이터와 비정상 데이터를 효과적으로 구분하기 위해 패턴 탐지에 비용이 많이 들며 효과적인 탐지를 위해서는 대규모 데이터를 요구한다. 본 발명은 적은 데이터를 활용하여 이상 탐지 방법을 제공함으로써 리소스 절감 효과를 기대할 수 있다.
본 발명에 관한 이해를 돕기 위해 상세한 설명의 일부로 포함되는 첨부도면은, 본 발명에 대한 실시예를 제공하고 상세한 설명과 함께 본 발명의 기술적 사상을 설명한다.
도 1은 본 발명의 일 실시예에 따른 전체 네트워크의 구성도이다.
도 2는 본 발명의 일 실시예에 따른 관제 시스템(130)의 블록도이다.
도 3은 본 발명의 일 실시예에 따른 사용자 시스템의 서버군(120)에서 물리적인 서버 간에 사용중인 서비스의 호출관계를 분석하여 연관도를 나타낸 예이다.
도 4는 본 발명의 일 실시예에 따른 서비스 경보 이벤트가 발생하는 경우 시스템 연관도를 분석능 통한 서버들/장비들의 소정의 수집항목의 메트릭 산출을 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 데이터 분석부(250)에서의 상관 관계 분석을 통한 메트릭 산출과 시계열 분석/회귀 분석을 통한 이상 징후의 사전 감시 방식을 설명하기 위한 도면이다.
도 6은 본 발명의 일 실시예에 따른 관제 시스템(130)에서의 서비스 연관성 추적 및 이상 징후 감시 방법을 설명하기 위한 흐름도이다.
이하에서는 첨부된 도면들을 참조하여 본 발명에 대해서 자세히 설명한다. 이때, 각각의 도면에서 동일한 구성 요소는 가능한 동일한 부호로 나타낸다. 또한, 이미 공지된 기능 및/또는 구성에 대한 상세한 설명은 생략한다. 이하에 개시된 내용은, 다양한 실시 예에 따른 동작을 이해하는데 필요한 부분을 중점적으로 설명하며, 그 설명의 요지를 흐릴 수 있는 요소들에 대한 설명은 생략한다. 또한 도면의 일부 구성요소는 과장되거나 생략되거나 또는 개략적으로 도시될 수 있다. 각 구성요소의 크기는 실제 크기를 전적으로 반영하는 것이 아니며, 따라서 각각의 도면에 그려진 구성요소들의 상대적인 크기나 간격에 의해 여기에 기재되는 내용들이 제한되는 것은 아니다.
본 발명의 실시예들을 설명함에 있어서, 본 발명과 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. 상세한 설명에서 사용되는 용어는 단지 본 발명의 실시 예들을 기술하기 위한 것이며, 결코 제한적이어서는 안 된다. 명확하게 달리 사용되지 않는 한, 단수 형태의 표현은 복수 형태의 의미를 포함한다. 본 설명에서, "포함" 또는 "구비"와 같은 표현은 어떤 특성들, 숫자들, 단계들, 동작들, 요소들, 이들의 일부 또는 조합을 가리키기 위한 것이며, 기술된 것 이외에 하나 또는 그 이상의 다른 특성, 숫자, 단계, 동작, 요소, 이들의 일부 또는 조합의 존재 또는 가능성을 배제하도록 해석되어서는 안 된다.
또한, 제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되는 것은 아니며, 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
먼저, 본 발명의 시스템 모니터링 방법 및 장치는 사용자가 사용하는 서비스 플랫폼의 연관성을 분석하고 이를 근간으로 수집되는 각각의 시스템에 대한 증가/감소 등의 반복되는 시스템/장치의 리소스 값의 분석을 통하여 미래의 가까운 어느 시점의 장애 발생 가능성을 사전 감시하는 방법을 제공한다.
즉, 본 발명의 시스템 모니터링 방법 및 장치는 고객이 사용하는 다양한 서비스 기능 등에 대해서, 웹부터 데이터베이스까지 End-to-End 시스템(장치) 간 기능연결 관계도를 구성하고, 모니터링 시 하나의 시스템(장치)에 임계치 이상의 경보 발생 시 타 시스템(장치) 간 영향도 파악을 제공한다.
또한, 본 발명의 시스템 모니터링 방법 및 장치는 모니터링 과정에서, 특정 시스템에 임계치 초과/이하 경보 발생 시 시스템 또는 서비스간 영향도 정보를 바탕으로 관련 시스템과 수집항목의 메트릭(Metric) 정보를 파악할 수 있는 기능을 제공한다.
또한, 본 발명의 시스템 모니터링 방법 및 장치는 영향도가 있는 시스템의 메트릭 정보에 대한 시계열 분석 로직(logic)을 수행하여 미래 추이를 1차 분석하고, 회귀분석을 통해서 어느 시점에 임계치를 상회/하회할 가능성이 있는 시간값을 산정하여 지표화 하는 기능을 제공한다.
그리고, 이를 통해서 영향이 있는 시스템의 시간값을 각각 산정하고 점수/지표화함으로써 미래 발생 가능한 경보를 사전에 예측하는 서비스를 제공한다.
도 1은 본 발명의 일 실시예에 따른 전체 네트워크의 구성도이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 서비스 연관성 추적을 통한 시스템 이상 징후 모니터링을 위한 네트워크는, IP(Internet Protocol) 네트워크 장비군(110), 서버군(120) 및 관제 시스템(130)을 포함한다.
사용자 또는 운영자가 특정 서비스를 웹 형태로 제공하는 경우, 일반적으로 서버군(120)은 L2 스위치, L3 스위치, 라우터(router) 등 IP 네트워크 장비군(110)을 통하여 상대방 서버의 브라우저와 통신하여 IP 서비스를 지원할 수 있다.
사용자가 운영하는 서버군(120)은 Web 서버, WAS(Web Application Server) 서버, DB(Database) 서버를 포함하며, 이외에 외부연동서버, 메시지 서버, 수집서버 등 다양한 어플리케이션 서버를 더 포함할 수 있다.
Web 서버는 네트워크 장비군(110)을 통하여 상대방 브라우져로부터의 HTTP(hypertext transfer protocol) 요청을 받아서 HTML(Hypertext Markup Language), 이미지, 또는 파일을 포함하는 정적 컨텐츠 등을 클라이언트에 제공해주는 역할을 수행한다. 동적 컨텐츠의 요청이 들어오면 Web 서버는 WAS 서버로 해당 요청을 넘겨 DB 서버 또는 기타 어플리케이션에서 지원이 이루어지게 한다.
WAS 서버는 Web 서버와 DB 서버 사이에서 애플리케이션 실행 환경과 DB 서버의 데이터베이스에 대한 접속 기능을 제공하며, 트랜잭션을 관리하고, 비즈니스 로직의 수행, 다른 기종 시스템과의 어플리케이션의 연동 등을 지원할 수 있다.
본 발명은 관제 시스템(130)에서의 서비스 연관성 추적을 통한 시스템 이상 징후 모니터링을 통하여, 장애 DB, 성능 DB 등의 데이터베이스들을 참조하여 네트워크 장비군(110)/서버군(120)의 특정 장치/서버 또는 프로세스에 장애 발생 시 외부에 제공하는 서비스들의 서버간 상관 관계를 분석해 관련 성능 팩터(factor)를 수집 분석하고 사전에 장애 감시 기능을 제공할 수 있도록 한다.
예를 들어, 특정 웹페이지를 통해서 고객에게 특정 서비스를 제공하는 경우 웹서버를 거쳐서 WAS 서버와 DB 서버를 경유하여 요청된 페이지 처리를 수행한다. 이때 서버군(120)의 서버들이 다수의 동일 특성의 물리적인 서버로 다중으로 구성되고 분산 처리되어 운용된다. 이 때 특정 서버의 장애 감지 이상 증후 발생 시 연관 서버를 파악하여 장애를 사전에 탐지하고자 한 것이며, 이를 위해서는 관제 시스템이 주기적으로 관제 대상의 네트워크 장비나 서버 장비에 주기적으로 성능 및 장애 정보를 수집해야 한다. 이 때 수집되는 항목은 장애 데이터 및 손실, 지연, 처리량과 같은 성능이나 품질 데이터 등을 포함할 수 있다.
도 2는 본 발명의 일 실시예에 따른 관제 시스템(130)의 블록도이다.
도 2를 참조하면, 본 발명의 일 실시예에 따른 관제 시스템(130)은, 지표 관리부(210), 이벤트 제어부(220), 이벤트 수집부(230), 서비스 경보 발생부(240), 데이터 분석부(250), 상관관계 구축부(260)를 포함하고, 운영에 참조될 데이터베이스로서 지표 DB(211), 장애 DB(231), 실시간 정보 DB(241), 상관관계 DB(261), 성능 DB(291)를 포함할 수 있다.
이벤트 수집부(230)는 관제 대상의 네트워크 장비군(110)이나 서버군(120) 에서 발생하는 장애 및 성능이나 품질 등에 대한 이벤트 정보(예, 센서값, 요청하여 수신하는 값 등)를 트랩(trap)(조건에 맞는 이벤트 발생시 전송)/폴링(polling)(요청시 찾아 응답하는 방식) 등의 방식으로 수집하여 해당 원시(raw) 데이터를 장애 DB(231)와 성능 DB(291)에 구분하여 관리한다. 장애 DB(231)에는 장애와 연관된 이벤트 정보가 저장 관리되고, 성능 DB(291)에는 성능이나 품질과 연관된 이벤트 정보가 저장 관리될 수 있다.
이벤트 제어부(220)는 장애 DB(231)와 성능 DB(291)에 수집된 이벤트 정보에 대하여 조건의 만족여부를 판단하여 장애 발생여부를 결정할 수 있다. 예를 들어, 이벤트 정보로부터 추정된 소정의 데이터값이 해당 임계치(TCA) 이상 또는 이하 여부를 판단하여 장애 발생여부를 판단할 수 있다.
지표 관리부(210)는 입출력 수단 등 인터페이스를 이용하여 사용자로부터 네트워크 장비군(110)이나 서버군(120)에 존재하는 관제 대상 장비별 요구되는 상기 임계치(TCA)를 입력받아 지표 DB(211)에 저장 관리한다.
상관관계 구축부(260)는 사용자가 네트워크 상의 장치/시스템을 사용하는 패턴(서비스 사용 패턴)을 분석하여 도 3과 같이 네트워크 장비군(110)을 통해 외부와 통신하는 서버군(120) 내의 다양한 서버들/장비들(End-to-End) 간의 연결 관계를 측정하여 연관도를 구축하여 상관관계 DB(261)에 저장 관리하는 역할을 담당한다. 이를 위해서는 서비스 사용자가 서버군(120)을 통해 웹 또는 특정 서비스를 외부에서 호출하여 각각의 물리적인 자원을 사용하는 시점에 발생되는 로그(예, 기능키, 시간, 인덱스 등의 정보를 포함)를, 상관관계 구축부(260)는 실시간으로 상관관계 DB(261)에 저장하고, 주기적으로 수집된 로그들을 분석하여 서버들/장비들 간의 트랜잭션 종류, 빈도수 등을 분석해 연관도를 산출하고 상관관계 DB(261)에 업데이트 저장할 수 있다.
이벤트 제어부(220)는 장애 DB(231)와 성능 DB(291)에 수집된 이벤트 정보에 대하여 해당 데이터값이 지표 DB(211)의 관제 대상 장비별 임계치(TCA)와 비교하여 소정의 임계치(TCA) 이상인지 여부를 판단하고 해당 경보 조건 충족 시 바로 서비스 경보 이벤트를 발생하는 대신에 데이터 분석부(250)에 해당 조건 충족 정보(예, 해당 장비에 대한 정보, 임계치 등)의 내용을 알려준다. 이때 데이터 분석부(250)는 1차 서비스 경보 이벤트를 발생시킬 수도 있다.
데이터 분석부(250)는 이벤트 제어부(220)로부터의 조건 충족 정보에 따라 상관관계 DB(261)를 참조해 해당 장비와 관련된 연관도에 기초한 다른 서버들/장비들과의 상관 관계를 분석한 후 관련된 서버들/장비들의 소정의 수집항목의 메트릭(Metric)을 산출하고 산출된 메트릭에 대해 시계열 분석 및 회귀 분석을 수행하여 사전 점검이 필요한지 여부를 판단한다.
데이터 분석부(250)는 이와 같은 분석에 따라 사전 점검 필요로 예측되어 장애 발생 가능성이 높아지면 서비스 경보 발생부(240)로 서비스 경보 이벤트(예, 2차 서비스 경보)를 발생한다. 서비스 경보 발생부(240)는 서비스 경보 이벤트에 따라 장애 발생 가능성이 높은 해당 장비와 관련된 정보를 디스플레이 장치 등을 통해 표출하여 사용자가 알 수 있도록 경보할 수 있다.
도 3은 본 발명의 일 실시예에 따른 사용자 시스템의 서버군(120)에서 물리적인 서버 간에 사용중인 서비스의 호출관계를 분석하여 연관도를 나타낸 예이다.
서비스 사용자가 서버군(120)을 통해 웹 또는 특정 서비스를 외부에서 호출하여 각각의 물리적인 자원을 사용하는 시점에 발생되는 로그(예, 기능키, 시간, 인덱스 등의 정보를 포함)를, 상관관계 구축부(260)는 실시간으로 상관관계 DB(261)에 저장하고, 주기적으로 수집된 로그들을 분석하여 서버들/장비들 간의 트랜잭션 종류, 빈도수 등을 분석해 연관도를 산출하고 상관관계 DB(261)에 업데이트 저장할 수 있다.
예를 들어, 사용자가 웹 페이지에서 기능 하나를 조회한다고 가정할 때, 서비스 수행에 연관되어 기능을 수행한 서버들/장비들(예, 웹서버, WAS 서버 등)은 로그를 남기며 하나의 DB 서버에 접근한 처리 과정에서도 로그를 각각의 저장수단에 저장할 수 있다. 상관관계 구축부(260)는 웹 기능키별(key)에 대응되는 로그를 수집해서 상관관계 DB(261)에 저장할 수 있고, 시계열적으로 로그 정보의 인덱스(index) 순서에 따른 로그들의 시퀀스를 조합하고 트랜잭션 종류, 빈도수 등을 분석해 서비스 사용과 관련이 있는 서버들/장비들 간의 연관도를 산출할 수 있다.
도 3에는, 분산된 4개의 Web 서버와 4개의 WAS 서버, 2개의 DB 서버 및 외부연동 서버나 수집서버 등 기타 어플리케이션 서버가 서버군(120) 내에서 연동하는 경우의 연관 관계의 일례가 도시되어 있다. 예를 들어, 분산된 Web 서버들에서 각각 4개의 WAS 서버로 상황에 따른 분산 접근으로 서비스가 처리될 수 있다. 각각의 WAS 서버는 또한 2개의 DB 서버에 분산 접근할 수 있으며 DB 서버를 통하여 또는 직접 외부연동 서버나 수집서버 등 기타 어플리케이션 서버에 접근하여 서비스가 처리되도록 할 수도 있다.
도 4는 본 발명의 일 실시예에 따른 서비스 경보 이벤트가 발생하는 경우 시스템 연관도를 분석능 통한 서버들/장비들의 소정의 수집항목의 메트릭 산출을 설명하기 위한 도면이다.
상관관계 구축부(260)는 웹 기능키별(key)에 대응되는 로그를 수집해서 상관관계 DB(261)에 저장할 수 있고, 시계열적으로 로그 정보의 인덱스(index) 순서에 따른 로그들의 시퀀스를 조합하고 시퀀스에 대응된 트랜잭션 종류, 빈도수 등을 분석해 서비스 사용과 관련이 있는 서버들/장비들 간의 연관도를 산출할 수 있다.
예를 들어, 이벤트 정보로서 관제 대상 장비별(또는 서버별) 다수의 개별 측정 항목(예, CPU(Central Processing Unit) 사용률, 메모리 사용률, 하드 디스크 사용률, 응답시간, 세션수 등) 등을 수집하여 관리하는 경우, 이벤트 제어부(220)는 각각의 항목별 이벤트 정보에 대하여 해당 데이터값이 지표 DB(211)의 관제 대상 장비별 임계치(TCA)와 비교하여 해당 임계치(TCA) 이상인지 여부를 실시간으로 판단하고, 해당 경보 조건 충족 시 바로 서비스 경보 이벤트를 발생하는 대신에 데이터 분석부(250)에 해당 조건 충족 정보(예, 해당 장비에 대한 측정 항목 등의 정보, 임계치 등)의 내용을 알려준다.
도 4와 같이, 예를 들어, Web 서버(411)에서 3개의 WAS 서버(421, 422, 423)로 상황에 따른 분산 접근으로 서비스가 처리될 수 있으며, 각각의 WAS 서버는 또한 2개의 DB 서버(431, 432)에 분산 접근할 수 있는 경우를 예시하였다. 이외에도 각각의 WAS 서버는 DB 서버(431, 432)를 통하여 또는 직접 외부연동 서버나 수집서버 등 기타 어플리케이션 서버에 접근하여 서비스가 처리되도록 할 수도 있다.
데이터 분석부(250)는 이벤트 제어부(220)로부터의 조건 충족 정보에 따라 상관관계 DB(261)를 참조해 해당 장비와 관련된 연관도에 기초한 다른 서버들/장비들과의 상관 관계를 분석한 후 관련된 서버들/장비들의 수집항목에 대한 메트릭(Metric)을 산출하고 산출된 메트릭에 대해 시계열 분석 및 회귀 분석을 수행하여 사전 점검이 필요한지 여부를 판단한다.
예를 들어, 서비스 운용 중, 도 4에서, WAS 서버3(423)의 측정항목 중 CPU 사용률이 해당 임계치(TCA) 기준 이상인 경우, 데이터 분석부(250)는 위와 같은 연관도에 기초한 다른 서버들/장비들과의 상관 관계를 분석해 수집항목의 추이 추정을 위한 메트릭을 산출하고 산출된 메트릭에 대해 시계열 분석 및 회귀 분석을 수행하여 사전 점검이 필요한지 여부를 판단하여 서비스 경보 이벤트를 발생한다. 도 4에서 WAS 서버 3(423)의 측정항목 중 CPU 사용률이 해당 임계치(TCA) 기준 이상인 경우, 데이터 분석부(250)는 Web 서버1(411)과 DB 서버1,2(431, 432)에 영향을 준다는 것을 바로 판단할 수 있게 된다.
도 5는 본 발명의 일 실시예에 따른 데이터 분석부(250)에서의 상관 관계 분석을 통한 메트릭 산출과 시계열 분석/회귀 분석을 통한 이상 징후의 사전 감시 방식을 설명하기 위한 도면이다.
예를 들어, 데이터 분석부(250)는 수집항목의 추이 추정을 통해 도 5의 가장 윗부분 그림처럼, WAS 서버 3(423)의 측정항목 중 CPU 사용률이 해당 임계치(TCA) 기준 이상인 경우(도 4참조), 서비스 경보 이벤트를 발생한다. 이를 위해, 데이터 분석부(250)는 상관관계 DB(261)를 참조해 해당 장비와 관련된 연관도에 기초한 다른 서버들/장비들과의 상관 관계를 분석한 후 관련된 서버들/장비들의 수집항목에 대한 메트릭(Metric)을 산출하고 산출된 메트릭에 대해 시계열 분석 및 회귀 분석을 수행하여 사전 점검이 필요한지 여부를 판단한다.
위와 같은 WAS 서버 3(423)의 측정항목 중 CPU 사용률과 관련하여, 위의 도 4의 예에서, WAS 서버 3(423)가 Web 서버1(411) 및 DB 서버1,2(431, 432)와 서로 영향 관계에 있으므로, 데이터 분석부(250)는 WAS 서버 3(423)의 CPU 사용률과 영향 관계에 있는 해당 수집항목에 대하여, Web 서버1(411), DB 서버1,2(431, 432) 각각의 영향 정도를 수치화한 값을 해당 수집항목의 메트릭으로 상관관계 DB(261)에 저장 관리할 수 있다. 상관관계 DB(261)는 측정항목에 대하여 영향 관계에 있는 수집항목에 대응되는 메트릭을 소정의 시간 단위로 수집할 수 있으며 이를 이용하여 시계열 분석 및 회귀 분석을 수행할 수 있다.
예를 들어, 도 5에서, WAS 서버 3(423)의 CPU 사용률이 해당 임계치(TCA) 기준 이상인 경우, 영향 관계에 있는 Web 서버1(411), DB 서버1,2(431, 432) 각각의 수집항목(예, 리소스 이용율)의 메트릭으로 소정의 인터벌(interval) 단위로 시계열 분석이 이루어질 수 있다.
이 때 인터벌이 길어지면 예측 오차율이 증가할 수 있다. 시계열 분석의 정확성을 제공하기 위해서는 인터벌을 짧은 시간 구간으로 정의하는 것이 필요하며 인터벌 구간이 넓어지면 장애 예측 정확도가 떨어질 수 있다. 해당 시계열 분석에 대한 추이 성향을 파악하기 위해서, 데이터 분석부(250)는 메트릭에 대한 분석 결과를 회귀분석(예, 선형회귀분석, 로지스틱 회귀분석 등) 알고리즘을 사용하여 해당 시스템의 수집된 측정 항목들이 얼마 기간 동안 임계치(TCA)를 상회하게 되는지 예측할 수 있게 된다.
도 5에서 Web 서버1(411), DB 서버1(431) 각각의 수집항목(예, 리소스 이용율)의 메트릭에 대한 시계열 분석 및 회귀 분석의 결과에 따른 2가지 결과를 그래프로 예시하였다. 도 5의 예에서, 데이터 분석부(250)는 WAS 서버 3(423)의 CPU 사용률이 해당 임계치(TCA) 기준 이상인 경우에(1차 경보 발생), 해당 시간으로부터 시계열 분석에 의한 t11과 회귀 분석에 의한 t12 시간 이후에 WAS 서버 3(423)의 리소스(예, CPU, 메모리, 하드디스크 등의 모든 자원) 이용율이 임계치(TCA)를 초과할 수 있으므로 장애 발생이 예측되어 사전 점검을 위한 서비스 경보 이벤트(2차 경보)를 발생시킬 수 있다. DB 서버1(431)의 경우 시계열 분석에 의해 t21 시간 이후에 DB 서버1(431)의 리소스 이용율이 임계치(TCA)를 초과할 수 있으므로 장애 발생이 예측되어, 데이터 분석부(250)는 사전 점검을 위한 서비스 경보 이벤트(2차 경보)를 발생시킬 수 있다.
이와 같이 본 발명에서는 위와 같이 이상징후 예측을 위해 정상적인 행위에 대한 사전 분석 후 정상 범위를 크게 벗어나는 이벤트를 탐지하기 위하여, 빅데이터, 즉, 각 측정항목에 대하여 영향 관계에 있는 수집항목에 대응되는 메트릭들에 대한 시계열 분석 및 회귀분석(예, 선형회귀분석, 로지스틱 회귀분석 등)을 활용하여 예측함으로써 분석의 정확성을 확보하고자 하였다.
도 6은 본 발명의 일 실시예에 따른 관제 시스템(130)에서의 서비스 연관성 추적 및 이상 징후 감시 방법을 설명하기 위한 흐름도이다.
도 6을 참조하면, 먼저, 지표 관리부(210)는 입출력 수단 등 인터페이스를 이용하여 사용자로부터 네트워크 장비군(110)이나 서버군(120)에 존재하는 관제 대상 장비별 요구되는 임계치(TCA)를 입력받아 지표 DB(211)에 저장 관리한다(S110).
이후 이벤트 수집부(230)는 관제 대상의 네트워크 장비군(110)이나 서버군(120) 에서 발생하는 장애 및 성능이나 품질 등에 대한 이벤트 정보를 트랩(trap)(조건에 맞는 이벤트 발생시 전송)/폴링(polling)(요청시 찾아 응답하는 방식) 등의 방식으로 수집하여 해당 원시(raw) 데이터를 장애 DB(231)와 성능 DB(291)에 구분하여 관리한다(S120).
이벤트 제어부(220)는 장애 DB(231)와 성능 DB(291)에 수집된 이벤트 정보에 대하여 조건의 만족여부를 판단하여 장애 발생여부를 결정하며, 예를 들어, 이벤트 정보로부터 추정된 소정의 데이터값이 해당 임계치(TCA) 이상 또는 이하 여부를 판단하여 장애 발생여부를 판단할 수 있다(S130).
이벤트 제어부(220)는 장애 DB(231)와 성능 DB(291)에 수집된 이벤트 정보에 대하여 해당 데이터값이 지표 DB(211)의 관제 대상 장비별 임계치(TCA)와 비교하여 소정의 임계치(TCA) 이상(또는 이하)인지 여부를 판단하고 해당 경보 조건 충족 시 바로 서비스 경보 이벤트를 발생하는 대신에 데이터 분석부(250)에 해당 조건 충족 정보(예, 해당 장비에 대한 정보, 임계치 등)의 내용을 알려준다. 이때 데이터 분석부(250)는 1차 서비스 경보 이벤트를 발생시킬 수도 있다(S140). 서비스 경보 발생부(240)는 서비스 경보 이벤트에 따라 장애 발생 가능성이 높은 해당 장비와 관련된 정보를 디스플레이 장치 등을 통해 표출하여 사용자가 알 수 있도록 경보할 수 있다.
한편, 상관관계 구축부(260)는 사용자가 네트워크 상의 장치/시스템을 사용하는 패턴을 분석하여 도 3과 같이 네트워크 장비군(110)을 통해 외부와 통신하는 서버군(120) 내의 다양한 서버들/장비들(End-to-End) 간의 연결 관계를 측정하여 연관도를 구축하여 상관관계 DB(261)에 저장 관리하는 역할을 담당한다(S211~S214).
이를 위해서는 서비스 사용자가 서버군(120)을 통해 웹 또는 특정 서비스를 외부에서(또는 서버군 내부에서) 호출하여(S211) 각각의 물리적인 자원을 사용하는 시점에 발생되는 로그(예, 기능키, 시간, 인덱스 등의 정보를 포함)를(S212), 상관관계 구축부(260)는 실시간으로 상관관계 DB(261)에 해당 서비스 호출로그 정보들을 수집 저장하고(S213), 주기적으로 수집된 로그들을 분석하여 서버들/장비들 간의 트랜잭션 종류, 빈도수 등을 분석해 연관도를 산출하고 해당 정보를 상관관계 DB(261)에 업데이트 저장할 수 있다(S214). 예를 들어, 사용자가 웹 페이지에서 기능 하나를 조회한다고 가정할 때, 서비스 수행에 연관되어 기능을 수행한 서버들/장비들(예, 웹서버, WAS 서버 등)은 로그를 남기며 하나의 DB 서버에 접근한 처리 과정에서도 로그를 각각의 저장수단에 저장할 수 있다. 상관관계 구축부(260)는 웹 기능키별(key)에 대응되는 로그를 수집해서 상관관계 DB(261)에 저장할 수 있고, 시계열적으로 로그 정보의 인덱스(index) 순서에 따른 로그들의 시퀀스를 조합하고 트랜잭션 종류, 빈도수 등을 분석해 서비스 사용과 관련이 있는 서버들/장비들 간의 연관도를 산출할 수 있다.
데이터 분석부(250)는 이벤트 제어부(220)로부터의 조건 충족 정보에 따라 상관관계 DB(261)를 참조해 해당 장비와 관련된 연관도에 기초한 다른 서버들/장비들과의 상관 관계를 분석한 후 관련된 서버들/장비들의 소정의 수집항목의 메트릭(Metric)을 산출하고(S150) 산출된 메트릭에 대해 시계열 분석 및 회귀 분석을 수행하여 사전 점검이 필요한지 여부를 판단한다(S160).
예를 들어, 관제 대상 장비별(또는 서버별) 다수의 개별 측정 항목(예, CPU(Central Processing Unit) 사용률, 메모리 사용률, 하드 디스크 사용률, 응답시간, 세션수 등) 등을 수집하여 관리하는 경우, 데이터 분석부(250)는 이벤트 제어부(220)로부터의 해당 조건 충족 정보에 따라 상관관계 DB(261)를 참조해 해당 장비와 관련된 연관도에 기초한 다른 서버들/장비들과의 상관 관계를 분석한 후 관련된 서버들/장비들의 수집항목에 대한 메트릭(Metric)을 산출하고 산출된 메트릭에 대해 시계열 분석 및 회귀 분석을 수행하여 사전 점검이 필요한지 여부를 판단한다.
예를 들어, 위의 도 4의 예에서, 위와 같은 WAS 서버 3(423)의 측정항목 중 CPU 사용률과 관련하여, WAS 서버 3(423)가 Web 서버1(411) 및 DB 서버1,2(431, 432)와 서로 영향 관계에 있으므로, 데이터 분석부(250)는 WAS 서버 3(423)의 CPU 사용률과 영향 관계에 있는 해당 수집항목에 대하여, Web 서버1(411), DB 서버1,2(431, 432) 각각의 영향 정도를 수치화한 값을 해당 수집항목의 메트릭으로 상관관계 DB(261)에 저장 관리할 수 있다. 데이터 분석부(250)는 측정항목에 대하여 영향 관계에 있는 수집항목에 대응되는 메트릭을 소정의 시간 단위로 수집할 수 있으며 이를 이용하여 시계열 분석 및 회귀 분석을 수행할 수 있다.
예를 들어, 도 5에서, WAS 서버 3(423)의 CPU 사용률이 해당 임계치(TCA) 기준 이상인 경우, 영향 관계에 있는 Web 서버1(411), DB 서버1,2(431, 432) 각각의 수집항목(예, 리소스 이용율)의 메트릭으로 소정의 인터벌(interval) 주기로 시계열 분석이 이루어질 수 있다.
데이터 분석부(250)는 이와 같은 서버들/장비들의 수집항목에 대한 메트릭(Metric)의 시계열 분석 및 회귀 분석을 토대로, 장애 발생 가능성에 대한 예측을 수행한다(S170). 예를 들어, 시계열 분석은 서버들/장비들의 변수들에 의해 시간적으로 반복적으로 메트릭이 순환 변동되는 추이를 분석하여 현재 시점 이후의 메트릭의 변화 추이를 예측하는 분석 기법이다. 또한, 회귀 분석은 서버들/장비들의 변수들이 메트릭에 미치는 상관관계 등을 추정하여 현재 시점 이후의 메트릭의 변화 추이를 예측하는 분석 기법이다.
예를 들어, 장애 발생 가능성에 대한 예측 점수(score)를 산정하기 위하여, 데이터 분석부(250)는 각 관제 대상 서버들/장비들에서의 수집항목(예, 리소스 이용율) 메트릭의 임계치(TCA) 초과가 예상되는 시간값(예, 시계열 분석에 의한 t11, 회귀 분석에 의한 t12 시간 등)에 대하여 장애 발생 가능성에 대한 예측 점수로 환산할 수 있다(S180). 예를 들어, 데이터 분석부(250)는 실시간으로 서버1, 2, 3,...등 서버들/장비들 각각에 대하여 장애 발생 가능성에 대한 예측 점수(score)를 산정하여 유지하며, 장애 발생 가능성이 높아진 경우, 즉, 해당 시간값으로부터 소정의 시간 전에, 데이터 분석부(250)는 서비스 경보 발생부(240)로 서비스 경보 이벤트(예, 2차 서비스 경보)를 발생한다(S190). 이때 데이터 분석부(250)는 각 서버1, 2, 3,...별로 미리 부여된 중요도에 대한 가중치를 반영하여 장애 발생 가능성에 대한 예측 점수(score)(예, 시간값과 가중치를 곱한값)를 산정할 수 있다. 예측 점수(score)는 해당 시간에 가까워지면 증가하는 값일 수 있으며, 데이터 분석부(250)는 예측 점수(score)가 높은 순서로 해당 장애 발생이 예상되는 시간값으로부터 소정의 시간 전에, 서비스 경보 이벤트가 발생되도록 제어할 수 있다.
서비스 경보 발생부(240)는 서비스 경보 이벤트에 따라 장애 발생 가능성이 높은 해당 장비와 관련된 정보를 디스플레이 장치 등을 통해 표출하여 사용자가 알 수 있도록 경보할 수 있다. 이때, 예를 들어, 서비스 경보 발생부(240)는 도 5와 같이 위와 같은 측정항목(예, CPU 사용률)과 관련한 관제대상 서버/장비, 1차 서비스 경보 이벤트 또는 2차 서비스 경보 이벤트의 원인이 된 영향 관계에 서버들의 메트릭(Metric)의 추이와, 각 관제 대상 서버들/장비들에서의 수집항목(예, 리소스 이용율) 메트릭의 임계치(TCA) 초과가 예상되는 시간값(예, 시계열 분석에 의한 t11, 회귀 분석에 의한 t12 시간 등) 등을 그래피컬하게 시각적으로 도식화하여 제공할 수 있다. 이때 예측 점수(score)가 높은 해당 시간값은 주변의 다른 것들과 구분될 수 있는 다른 색상이나 크기 등으로 표시되도록 할 수도 있다.
본 발명의 일 실시예에 따른 관제 시스템(130)은, 하드웨어, 소프트웨어, 또는 이들의 결합으로 이루어질 수 있다. 예를 들어, 위와 같은 기능들을 수행하기 위한 적어도 하나의 프로세서를 갖는 컴퓨팅 시스템으로 구현될 수 있다.
이와 같은 컴퓨팅 시스템은 버스를 통해 연결되는 적어도 하나의 프로세서, 메모리, 사용자 인터페이스 입력 장치, 사용자 인터페이스 출력 장치, 스토리지, 및 네트워크 인터페이스를 포함할 수 있다. 프로세서는 중앙 처리 장치(CPU) 또는 메모리 및/또는 스토리지에 저장된 명령어들에 대한 처리를 실행하는 반도체 장치일 수 있다. 메모리 및 스토리지는 다양한 종류의 휘발성 또는 불휘발성 저장 매체를 포함할 수 있다. 예를 들어, 메모리는 ROM(Read Only Memory) 및 RAM(Random Access Memory)을 포함할 수 있다.
따라서, 본 명세서에 개시된 실시예들과 관련하여 설명된 방법 또는 알고리즘의 단계는 위와 같은 프로세서에 의해 실행되는 하드웨어, 소프트웨어 모듈, 또는 그 2 개의 결합으로 직접 구현될 수 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 착탈형 디스크, CD-ROM과 같은 저장 매체(즉, 메모리 및/또는 스토리지)에 상주할 수도 있다. 예시적인 저장 매체는 프로세서에 커플링되며, 그 프로세서는 저장 매체로부터 정보를 판독할 수 있고 저장 매체에 정보를 기입할 수 있다. 다른 방법으로, 저장 매체는 프로세서와 일체형일 수도 있다. 프로세서 및 저장 매체는 주문형 집적회로(ASIC) 내에 상주할 수도 있다. ASIC는 사용자 단말기 내에 상주할 수도 있다. 다른 방법으로, 프로세서 및 저장 매체는 사용자 단말기 내에 개별 컴포넌트로서 상주할 수도 있다.
상술한 바와 같이, 본 발명에 따른 시스템 모니터링을 수행하는 네트워크 상의 관제 시스템(130)은, 네크워크 장비 및 서버 장비에서 발생하는 장애를 단순히 감시하거나 조치가 이루어지도록 하는 것이 아니라, 서비스와 관련된 시스템들 간의 상관 관계를 분석하고 장애 예측 모델인 시계열 분석 및 회귀 분석 기법을 활용하여 장애 발생 전에 미리 사전 예측하여 경보할 수 있도록 함으로써, 서비스의 끊김없이 연속성이 보장되도록 고객 서비스 망을 최적화할 수 있다. 본 발명은 분석 모델 기법을 모든 시스템들의 기능들에 대한 모든 데이터에 적용이 필요한 것이 아니라, 사용자들에 의해 서비스가 이루어지는 다양한 기능 패턴들에 대해 인지하고 일부 데이터를 활용하며, 일련의 시스템들이나 장비들간 End-to-End(단대단) 영향도 데이터를 구축한 데이터베이스를 기반으로 한다. 즉, 하나의 시스템에서 이벤트 경보가 발생하는 경우 영향도 관련 시스템을 파악한 후 해당 시스템에 대해서만 예측 알고리즘을 수행함으로써 실시간으로 이상 여부를 즉시 판단할 수 있다.
이에 따라, 고객이 사용하는 End-to-End 서비스 구간별 영향도를 사전에 파악하고 장비에서 수집되는 장애요소 및 성능 정보를 주기적으로 수집하여 저장 시, 실시간으로 장애 이상여부를 사전에 판단하고 예측하여 운용하는 운용서버 및 네트워크 장비 등의 애플리케이션, 미들웨어 또는 인프라 관련 문제가 서비스에 영향을 미치기 전에 미리 예측하여 가동 중단을 방지하고 서비스 연속성을 보장할 수 있다.또한, 시스템 운용에 대한 리소스 사용 상태를 주기적으로 분석하고, 예측된 결과를 근간으로 사전에 리소스에 대한 확장 및 축소 또는 재분배를 수행할 수 있도록 분석 리포트 제공이 가능하다. 그리고, 기존 탐지 방법은 정상 데이터와 비정상 데이터를 효과적으로 구분하기 위해 패턴 탐지에 비용이 많이 들며 효과적인 탐지를 위해서는 대규모 데이터를 요구한다. 본 발명은 적은 데이터를 활용하여 이상 탐지 방법을 제공함으로써 리소스 절감 효과를 기대할 수 있다.
이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
네트워크 장비군(110)
서버군(120)
관제 시스템(130)
지표 관리부(210)
이벤트 제어부(220)
이벤트 수집부(230)
서비스 경보 발생부(240)
데이터 분석부(250)
상관관계 구축부(260)

Claims (10)

  1. IP 네트워크 장비를 통하여 연동하여 IP 서비스를 지원하는 서버군에 대한 장애 여부를 모니터링하기 위한 네트워크 상의 관제 시스템에서의 모니터링 방법에 있어서,
    상기 서버군에서 사용되는 서비스와 연관된 서비스 호출로그 정보들을 수집하고 상기 서버군에 포함된 서버들이나 장비들 간의 연관도에 대한 정보를 산출하여 데이터베이스에 관리하는 단계;
    관제 대상 측정 항목에 대한 이벤트 정보에 대한 조건의 만족 여부를 판단하여 조건 충족 정보를 발생하는 단계;
    상기 조건 충족 정보의 발생에 따라 상기 데이터베이스를 참조해 해당 장비와 관련된 연관도에 기초한 다른 서버들이나 장비들과의 상관 관계를 분석한 후 관련된 서버들이나 장비들의 수집항목에 대한 메트릭을 산출하는 단계; 및
    상기 서버들이나 장비들의 수집항목에 대한 각각의 메트릭에 대한 시계열 분석 및 회귀 분석을 통하여 장애 발생 가능성에 대한 예측을 수행하는 단계
    를 포함하는 것을 특징으로 하는 모니터링 방법.
  2. 제1항에 있어서,
    상기 조건 충족 정보의 발생에 따라 장애 발생 가능성에 대한 1차 서비스 경보 이벤트를 발생하고, 상기 장애 발생 가능성에 대한 예측 결과에 따라 2차 서비스 경보 이벤트를 발생하는 것을 특징으로 하는 모니터링 방법.
  3. 제1항에 있어서,
    상기 측정 항목과 영향 관계에 있는 수집항목에 대하여, 상기 서버들이나 장비들의 영향 정도를 수치화한 값을 해당 수집항목의 상기 메트릭으로 산출하는 것을 특징으로 하는 모니터링 방법.
  4. 제1항에 있어서,
    상기 수집항목은 리소스 이용율을 포함하는 것을 특징으로 하는 모니터링 방법.
  5. 제1항에 있어서,
    상기 예측을 수행하는 단계는,
    상기 서버들이나 장비들의 수집항목에 대한 메트릭의 임계치 초과가 예상되는 시간값에 대하여 장애 발생 가능성에 대한 예측 점수로 환산하는 단계
    를 포함하는 것을 특징으로 하는 모니터링 방법.
  6. 제5항에 있어서,
    상기 시간값은 시계열적 분석에 따른 시간값과 회귀분석을 통한 시간값을 포함하는 것을 특징으로 하는 모니터링 방법.
  7. 제5항에 있어서,
    상기 서버들이나 장비들에 대하여 미리 부여된 중요도에 대한 가중치를 반영하여 상기 예측 점수를 산정하는 것을 특징으로 하는 모니터링 방법.
  8. 제5항에 있어서,
    상기 예측 점수가 높은 순서로 해당 장애 발생이 예상되는 시간값으로부터 소정의 시간 전에, 서비스 경보 이벤트가 발생되도록 제어하는 것을 특징으로 하는 모니터링 방법.
  9. 제1항에 있어서,
    상기 발생 가능성에 대한 예측을 수행한 결과에 기초한 서비스 경보 이벤트에 따라 장애 발생 가능성이 높은 해당 장비와 관련된 정보를 디스플레이에 표출하여 경보하는 단계
    를 더 포함하는 것을 특징으로 하는 모니터링 방법.
  10. IP 네트워크 장비를 통하여 연동하여 IP 서비스를 지원하는 서버군에 대한 장애 여부를 모니터링하기 위한 네트워크 상의 관제 시스템에 있어서,
    상기 서버군에서 사용되는 서비스와 연관된 서비스 호출로그 정보들을 수집하고 상기 서버군에 포함된 서버들이나 장비들 간의 연관도에 대한 정보를 산출하여 데이터베이스에 관리하는 상관관계 구축부;
    관제 대상 측정 항목에 대한 이벤트 정보에 대한 조건의 만족 여부를 판단하여 조건 충족 정보를 발생하는 이벤트 제어부; 및
    상기 조건 충족 정보의 발생에 따라 상기 데이터베이스를 참조해 해당 장비와 관련된 연관도에 기초한 다른 서버들이나 장비들과의 상관 관계를 분석한 후 관련된 서버들이나 장비들의 수집항목에 대한 메트릭을 산출하는 데이터 분석부를 포함하고,
    상기 데이터 분석부는, 상기 서버들이나 장비들의 수집항목에 대한 각각의 메트릭에 대한 시계열 분석 및 회귀 분석을 통하여 장애 발생 가능성에 대한 예측을 수행하는 것을 특징으로 하는 관제 시스템.
KR1020180016457A 2018-02-09 2018-02-09 서비스 연관성 추적을 통한 시스템 이상 징후 모니터링 방법 및 시스템 KR20190096706A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180016457A KR20190096706A (ko) 2018-02-09 2018-02-09 서비스 연관성 추적을 통한 시스템 이상 징후 모니터링 방법 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180016457A KR20190096706A (ko) 2018-02-09 2018-02-09 서비스 연관성 추적을 통한 시스템 이상 징후 모니터링 방법 및 시스템

Publications (1)

Publication Number Publication Date
KR20190096706A true KR20190096706A (ko) 2019-08-20

Family

ID=67807394

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180016457A KR20190096706A (ko) 2018-02-09 2018-02-09 서비스 연관성 추적을 통한 시스템 이상 징후 모니터링 방법 및 시스템

Country Status (1)

Country Link
KR (1) KR20190096706A (ko)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190372832A1 (en) * 2018-05-31 2019-12-05 Beijing Baidu Netcom Science Technology Co., Ltd. Method, apparatus and storage medium for diagnosing failure based on a service monitoring indicator
CN110716842A (zh) * 2019-10-09 2020-01-21 北京小米移动软件有限公司 集群故障检测方法和装置
CN111506446A (zh) * 2020-04-10 2020-08-07 聚好看科技股份有限公司 接口故障检测方法及服务器
CN112905479A (zh) * 2021-03-17 2021-06-04 中通天鸿(北京)通信科技股份有限公司 一种基于云平台报警事故根因最佳路径确定方法及系统
KR20230032286A (ko) * 2021-08-30 2023-03-07 (주)아이티언 시계열 데이터를 이용한 주기성을 갖는 이상 수치 검출 시스템
CN116320833A (zh) * 2023-05-24 2023-06-23 广州耐奇电气科技有限公司 一种基于物联网技术的供热管网监测方法
CN117041072A (zh) * 2023-06-25 2023-11-10 兴容(上海)信息技术股份有限公司 一种基于人工智能的多模态数据管理系统及方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10805151B2 (en) * 2018-05-31 2020-10-13 Beijing Baidu Netcom Science Technology Co., Ltd. Method, apparatus, and storage medium for diagnosing failure based on a service monitoring indicator of a server by clustering servers with similar degrees of abnormal fluctuation
US20190372832A1 (en) * 2018-05-31 2019-12-05 Beijing Baidu Netcom Science Technology Co., Ltd. Method, apparatus and storage medium for diagnosing failure based on a service monitoring indicator
CN110716842B (zh) * 2019-10-09 2023-11-21 北京小米移动软件有限公司 集群故障检测方法和装置
CN110716842A (zh) * 2019-10-09 2020-01-21 北京小米移动软件有限公司 集群故障检测方法和装置
CN111506446A (zh) * 2020-04-10 2020-08-07 聚好看科技股份有限公司 接口故障检测方法及服务器
CN111506446B (zh) * 2020-04-10 2023-10-27 聚好看科技股份有限公司 接口故障检测方法及服务器
CN112905479A (zh) * 2021-03-17 2021-06-04 中通天鸿(北京)通信科技股份有限公司 一种基于云平台报警事故根因最佳路径确定方法及系统
CN112905479B (zh) * 2021-03-17 2024-05-10 中通天鸿(北京)通信科技股份有限公司 一种基于云平台报警事故根因最佳路径确定方法及系统
KR20230032286A (ko) * 2021-08-30 2023-03-07 (주)아이티언 시계열 데이터를 이용한 주기성을 갖는 이상 수치 검출 시스템
CN116320833A (zh) * 2023-05-24 2023-06-23 广州耐奇电气科技有限公司 一种基于物联网技术的供热管网监测方法
CN116320833B (zh) * 2023-05-24 2023-09-19 广州耐奇电气科技有限公司 一种基于物联网技术的供热管网监测方法
CN117041072A (zh) * 2023-06-25 2023-11-10 兴容(上海)信息技术股份有限公司 一种基于人工智能的多模态数据管理系统及方法
CN117041072B (zh) * 2023-06-25 2024-02-13 兴容(上海)信息技术股份有限公司 一种基于人工智能的多模态数据管理系统及方法

Similar Documents

Publication Publication Date Title
KR20190096706A (ko) 서비스 연관성 추적을 통한 시스템 이상 징후 모니터링 방법 및 시스템
EP3745272B1 (en) An application performance analyzer and corresponding method
US7953847B2 (en) Monitoring and management of distributing information systems
US7412448B2 (en) Performance degradation root cause prediction in a distributed computing system
Tan et al. Adaptive system anomaly prediction for large-scale hosting infrastructures
US20070168696A1 (en) System for inventing computer systems and alerting users of faults
EP1902365A1 (en) System and method for detecting imbalances in dynamic workload scheduling in clustered environments
KR20080044508A (ko) 통계적인 분석을 이용한 성능장애 관리시스템 및 그 방법
CN114064196A (zh) 用于预测性保障的系统和方法
US9860109B2 (en) Automatic alert generation
Xu et al. Lightweight and adaptive service api performance monitoring in highly dynamic cloud environment
US20230038164A1 (en) Monitoring and alerting system backed by a machine learning engine
US20170302506A1 (en) Methods and apparatus for fault detection
KR20220020553A (ko) 멀티 클라우드 환경에서 애플리케이션 성능 모니터링 방법 및 장치
JP6832890B2 (ja) 監視装置、監視方法、及びコンピュータプログラム
Breitgand et al. Efficient control of false negative and false positive errors with separate adaptive thresholds
JP2020035297A (ja) 機器状態監視装置及びプログラム
JP7215574B2 (ja) 監視システム、監視方法及びプログラム
CN114531338A (zh) 一种基于调用链数据的监控告警和溯源方法及系统
JP5974905B2 (ja) 応答時間監視プログラム、方法および応答時間監視装置
Wang et al. A monitoring system for anomaly detection in fog manufacturing
AU2005270749B2 (en) Monitoring and management of distributed information systems
JP5011174B2 (ja) 情報機器管理方法
US11929867B1 (en) Degradation engine execution triggering alerts for outages
Mallick et al. An alert prediction model for cloud infrastructure monitoring