KR102367861B1 - 자가학습에 기초하여 네트워크 장비에 대한 장애를 판단하는 장치, 방법 및 컴퓨터 프로그램 - Google Patents

자가학습에 기초하여 네트워크 장비에 대한 장애를 판단하는 장치, 방법 및 컴퓨터 프로그램 Download PDF

Info

Publication number
KR102367861B1
KR102367861B1 KR1020190107502A KR20190107502A KR102367861B1 KR 102367861 B1 KR102367861 B1 KR 102367861B1 KR 1020190107502 A KR1020190107502 A KR 1020190107502A KR 20190107502 A KR20190107502 A KR 20190107502A KR 102367861 B1 KR102367861 B1 KR 102367861B1
Authority
KR
South Korea
Prior art keywords
failure
raw data
self
learning
unit
Prior art date
Application number
KR1020190107502A
Other languages
English (en)
Other versions
KR20210026554A (ko
Inventor
채윤주
이종필
고승현
정경훈
Original Assignee
주식회사 케이티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 케이티 filed Critical 주식회사 케이티
Priority to KR1020190107502A priority Critical patent/KR102367861B1/ko
Publication of KR20210026554A publication Critical patent/KR20210026554A/ko
Application granted granted Critical
Publication of KR102367861B1 publication Critical patent/KR102367861B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/065Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving logical or physical relationship, e.g. grouping and hierarchies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

자가 학습을 수행하여 네트워크 장비에 대한 장애를 판단하는 장치는 복수의 네트워크 장비로부터 로그 데이터 및 상기 로그 데이터에 대응하는 리소스 정보를 포함하는 로데이터(raw data)를 수집하는 수집부, 상기 로그 데이터 및 상기 리소스 정보에 기초하여 복수의 장애, 상기 복수의 장애와 관련된 복수의 장애 원인 및 상기 복수의 장애 원인과 관련된 복수의 장애 조치를 정의하는 정의부, 상기 정의된 복수의 장애, 복수의 장애 원인 및 복수의 장애 조치에 기초하여 상기 로데이터를 장애가 발생된 기준 단위 별로 그룹핑하는 그룹핑부, 상기 그룹핑된 로데이터를 분류하여 자가 학습 모델을 학습시키는 학습부 및 상기 학습된 자가 학습 모델에 기초하여 추가 수집된 로데이터에 대한 장애, 상기 장애와 관련된 장애 원인, 상기 장애 원인과 관련된 장애 조치를 판단하는 판단부를 포함한다.

Description

자가학습에 기초하여 네트워크 장비에 대한 장애를 판단하는 장치, 방법 및 컴퓨터 프로그램{APPARATUS, METHOD AND COMPUTER PROGRAM FOR DETERMINING ERROR OF NETWORK EQUIPMENT BASED ON SELF-LEARNING}
본 발명은 자가학습에 기초하여 네트워크 장비에 대한 장애를 판단하는 장치, 방법 및 컴퓨터 프로그램에 관한 것이다.
ICT(Information Communication Technology) 통합관제 시스템은 IT 인프라를 관리하고, 다양한 요소들의 연계를 통해 전체 IT 자원 상황을 종합적으로 판단할 수 있는 통합관제 체제의 시스템을 말한다.
ICT 통합관제 시스템은 CT 자원의 경우, 네트워크 및 회선 장비를 관리하기 위해 네트워크 장비에서 제공하는 프로토콜(SNMP, CMIP 등)을 통해 정보를 수집하거나, syslog, trap, cli 등의 명령어를 활용하여 정보를 수집함으로써, 장애 및 성능 정보를 모니터링하여 관리자에게 제공하고 있다. 한편, ICT 통합관제 시스템은 IT 자원의 경우, 네트워크 연결 여부(ping 등)를 이용하여 시스템 감지 및 어플리케이션의 장애, 성능 정보를 수집하여 장애 이벤트를 관리자에게 제공하고 있다.
이러한 ICT 통합관제 시스템과 관련하여, 선행기술인 한국등록특허 제 10-1204236호는 정보 수집 서버가 각종 관리 대상 장치로부터 서로 다른 프로토콜의 정보를 수집하여 기준 프로토콜의 메시지로 변환한 후 통합 관제 서버로 전송하고, 통합 관제 서버가 이에 기초하여 생성된 관제 정보를 디스플레이 하는 통합 관제 시스템 및 방법을 개시하고 있다.
종래에는 AI 학습 기반으로 네트워크의 장애를 진단하고 이와 관련된 조치 사항을 추천하기 위해 소프트웨어(SW)와 관련된 로그 데이터(syslog)와 하드웨어(HW)와 관련된 리소스 정보를 각각 별개의 정보로 학습시킴으로써, 소프트웨어 정보와 하드웨어 정보 간에 장애를 발생시키는 인과 관계를 찾기 어려운 단점을 가지고 있었다.
또한, 신규 네트워크 장비가 추가되는 경우, 신규 네트워크 장비에 대한 장애 진단과 조치가 AI 알고리즘에 의존하기 때문에, 학습 데이터와 다른 데이터가 입력되는 경우 정확성이 떨어지는 오버 피팅(over fitting) 문제 또는 학습 데이터가 부족하거나, 충분히 학습되지 않음에 따라 분류 또는 학습이 잘 이루어지지 않는 언더 피팅(under fitting) 문제가 발생한다는 단점이 있었다.
로그 데이터 및 리소스 정보에 기초하여 복수의 장애, 이와 관련된 복수의 장애 원인 및 이와 관련된 복수의 장애 조치를 정의하는 네트워크 장비에 대한 장애를 판단하는 장치, 방법 및 컴퓨터 프로그램을 제공하고자 한다.
복수의 장애, 복수의 장애 원인 및 복수의 장애 조치에 기초하여 로데이터(raw data)를 장애가 발생된 기준 단위 별로 그룹핑하고, 그룹핑된 로데이터를 분류하여 자가 학습 모델을 학습시키는 네트워크 장비에 대한 장애를 판단하는 장치, 방법 및 컴퓨터 프로그램을 제공하고자 한다.
자가 학습 모델에 기초하여 추가 수집된 로데이터에 대한 장애, 장애와 관련된 장애 원인, 장애 원인과 관련된 장애 조치를 판단할 수 있도록 하는 네트워크 장비에 대한 장애를 판단하는 장치, 방법 및 컴퓨터 프로그램을 제공하고자 한다.
다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 수단으로서, 본 발명의 일 실시예는, 복수의 네트워크 장비로부터 로그 데이터 및 상기 로그 데이터에 대응하는 리소스 정보를 포함하는 로데이터(raw data)를 수집하는 수집부, 상기 로그 데이터 및 상기 리소스 정보에 기초하여 복수의 장애, 상기 복수의 장애와 관련된 복수의 장애 원인 및 상기 복수의 장애 원인과 관련된 복수의 장애 조치를 정의하는 정의부, 상기 정의된 복수의 장애, 복수의 장애 원인 및 복수의 장애 조치에 기초하여 상기 로데이터를 장애가 발생된 기준 단위 별로 그룹핑하는 그룹핑부, 상기 그룹핑된 로데이터를 분류하여 자가 학습 모델을 학습시키는 학습부 및 상기 학습된 자가 학습 모델에 기초하여 추가 수집된 로데이터에 대한 장애, 상기 장애와 관련된 장애 원인, 상기 장애 원인과 관련된 장애 조치를 판단하는 판단부를 포함하는 장애 판단 장치를 제공할 수 있다.
본 발명의 다른 실시예는, 복수의 네트워크 장비로부터 로그 데이터 및 상기 로그 데이터에 대응하는 리소스 정보를 포함하는 로데이터(raw data)를 수집하는 단계, 상기 로그 데이터 및 상기 리소스 정보에 기초하여 복수의 장애, 상기 복수의 장애와 관련된 복수의 장애 원인 및 상기 복수의 장애 원인과 관련된 복수의 장애 조치를 정의하는 단계, 상기 정의된 복수의 장애, 복수의 장애 원인 및 복수의 장애 조치에 기초하여 상기 로데이터를 장애가 발생된 기준 단위 별로 그룹핑하는 단계, 상기 그룹핑된 로데이터를 분류하여 자가 학습 모델을 학습시키는 단계 및 상기 학습된 자가 학습 모델에 기초하여 추가 수집된 로데이터에 대한 장애, 상기 장애와 관련된 장애 원인, 상기 장애 원인과 관련된 장애 조치를 판단하는 단계를 포함하는 장애 판단 방법을 제공할 수 있다.
본 발명의 또 다른 실시예는, 컴퓨터 프로그램은 컴퓨팅 장치에 의해 실행될 경우, 복수의 네트워크 장비로부터 로그 데이터 및 상기 로그 데이터에 대응하는 리소스 정보를 포함하는 로데이터(raw data)를 수집하고, 상기 로그 데이터 및 상기 리소스 정보에 기초하여 복수의 장애, 상기 복수의 장애와 관련된 복수의 장애 원인 및 상기 복수의 장애 원인과 관련된 복수의 장애 조치를 정의하고, 상기 정의된 복수의 장애, 복수의 장애 원인 및 복수의 장애 조치에 기초하여 상기 로데이터를 장애가 발생된 기준 단위 별로 그룹핑하고, 상기 그룹핑된 로데이터를 분류하여 자가 학습 모델을 학습시키고, 상기 학습된 자가 학습 모델에 기초하여 추가 수집된 로데이터에 대한 장애, 상기 장애와 관련된 장애 원인, 상기 장애 원인과 관련된 장애 조치를 판단 하도록 하는 명령어들의 시퀀스를 포함하는 매체에 저장된 컴퓨터 프로그램을 제공할 수 있다.
상술한 과제 해결 수단은 단지 예시적인 것으로서, 본 발명을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 기재된 추가적인 실시예가 존재할 수 있다.
전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 네트워크 장비에 대한 로그 데이터 및 리소스 정보에 기초하여 소프트웨어 정보 및 하드웨어 정보 간의 인과관계를 형성하고, 형성된 인과관계를 통해 자가 학습 모델을 생성하도록 하는 네트워크 장비에 대한 장애를 판단하는 장치, 방법 및 컴퓨터 프로그램을 제공할 수 있다.
장애의 인과관계를 이용하여 장애, 장애와 관련된 장애 원인, 장애 원인과 관련된 장애 조치를 1:m:n(m, n은 자연수)의 구조로 매핑하고, 자가 학습 모델을 학습시킬 수 있도록 하는 네트워크 장비에 대한 장애를 판단하는 장치, 방법 및 컴퓨터 프로그램을 제공할 수 있다.
추가 수집된 로데이터가 존재하는 경우, 자가 학습 모델에 따라 분류하고, 자가 학습 모델에 따라 분류할 수 없는 경우, 추가 수집된 로데이터에 기초하여 자가 학습 모델을 추가 학습시킴으로써, 네트워크망에서 신규 장비의 증설 시에 발생될 수 있는 신규 장애에 대한 장애를 진단할 수 있도록 하는 네트워크 장비에 대한 장애를 판단하는 장치, 방법 및 컴퓨터 프로그램을 제공할 수 있다.
종래의 네트워크 장비에 대한 장애를 판단하기 위해 AI 알고리즘을 이용하는 경우, AI 알고리즘에 대한 상대적 의존성으로 인해 발생될 수 있는 오버 피팅 문제 또는 언더 피팅 문제를 그룹핑된 로데이터 및 유사망구조를 이용하여 해결할 수 있도록 하는 네트워크 장비에 대한 장애를 판단하는 장치, 방법 및 컴퓨터 프로그램을 제공하고자 한다.
도 1은 본 발명의 일 실시예에 따른 장애 판단 장치의 구성도이다.
도 2a 내지 도 2c는 본 발명의 일 실시예에 따른 로그 데이터에 대한 전처리를 수행하는 과정을 설명하기 위한 예시적인 도면이다.
도 3a 내지 도 3c는 본 발명의 일 실시예에 따른 로데이터를 벡터화하고 장애 발생 여부에 기초하여 벡터화된 로데이터를 병합하는 과정을 설명하기 위한 예시적인 도면이다.
도 4는 본 발명의 일 실시예에 따른 로데이터의 그룹핑을 통해 장애, 장애 원인 및 장애 조치 간의 관계가 매핑되는 과정을 설명하기 위한 예시적인 도면이다.
도 5는 본 발명의 일 실시예에 따른 로데이터를 분류하여 자가 학습 모델을 학습시키는 과정을 설명하기 위한 예시적인 도면이다.
도 6a 내지 도 6c는 본 발명의 일 실시예에 따른 자가 학습 모델에 기초하여로그 데이터에 대한 장애, 장애와 관련된 장애 원인, 장애 원인과 관련된 장애 조치를 판단하는 과정을 설명하기 위한 예시적인 도면이다.
도 7은 본 발명의 일 실시예에 따른 장애 원인 및 장애 조치에 기초하여 자가 학습 모델이 처리되는 과정을 설명하기 위한 예시적인 도면이다.
도 8은 본 발명의 일 실시예에 따른 장애 판단 장치에서 자가 학습을 수행하여 네트워크 장비에 대한 장애를 판단하는 방법의 순서도이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1 개의 유닛이 2 개 이상의 하드웨어를 이용하여 실현되어도 되고, 2 개 이상의 유닛이 1 개의 하드웨어에 의해 실현되어도 된다.
본 명세서에 있어서 단말 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말 또는 디바이스에서 수행될 수도 있다.
이하 첨부된 도면을 참고하여 본 발명의 일 실시예를 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 장애 판단 장치의 구성도이다. 도 1을 참조하면, 장애 판단 장치(100)는 수집부(110), 전처리 수행부(120), 정의부(130), 그룹핑부(140), 학습부(150) 및 판단부(160)를 포함할 수 있다.
수집부(110)는 복수의 네트워크 장비로부터 로그 데이터 및 로그 데이터에 대응하는 리소스 정보를 포함하는 로데이터(raw data)를 수집할 수 있다. 여기서, 리소스 정보는 성능 정보와 컨디션 정보로 구분될 수 있다. 성능 정보는 트래픽 정보(bps 및 pps 사용량 정보), CPU 사용량(총 사용가능량 대비 현재 사용량에 대한 퍼센티지), 메모리 사용량(총 사용가능량 대비 현재 사용량에 대한 퍼센티지), 디스크 입출력 정보(시간당 디스크에서 read/write되는 량에 대한 정보), 온도 정보 등을 포함할 수 있다. 컨디션 정보는 네트워크 장비의 전원 온/오프, 광 레벨을 통해 신호가 정상적인 파워로 보내지는지를 판단되는 광케이블의 광신호 세기 등을 포함할 수 있다.
전처리 수행부(120)는 수집된 로데이터에 포함된 로그 데이터를 패턴을 이용하여 시간 정보, 위치 정보 및 로그 정보에 따라 분류하는 전처리를 수행할 수 있다. 로그 데이터를 전처리하는 과정에 대해서는 도 2a 내지 도 2c를 통해 상세히 설명하도록 한다.
도 2a 내지 도 2c는 본 발명의 일 실시예에 따른 로그 데이터에 대한 전처리를 수행하는 과정을 설명하기 위한 예시적인 도면이다.
도 2a는 본 발명의 일 실시예에 따른 로그 데이터의 분류 기준을 도시한 예시적인 도면이다. 도 2a를 참조하면, 로그 데이터의 분류 기준은 시간 정보(200), 위치 정보(201) 및 로그 정보(202)를 포함할 수 있다.
날짜/시간 정보(200)는 날짜(Date) 및 시간(Time) 간격이 중요하며, 로그 데이터(syslog)의 케이스별로 그룹핑된 시간에 기초하여 로그 데이터가 분류될 수 있다. 예를 들어, 로그 데이터는 '30 4 Jun, 5 05 20 22'와 같은 시간 정보(200)에 기초하여 분류될 수 있다. 이 때, 로그 데이터를 시간 정보(200)에 기초하여 분류하는 경우, 기존의 로그 데이터간의 시간 간격(Time Interval), 최번시(Busy time) 해당 유무, 평일/휴일 유무 등이 고려될 있다.
위치 정보(201)는 장비 종류 정보, 설치 위치 정보, NE(Network Elements) 연결(Conneciton) 정보 등을 포함하며, 연결된 장비의 국사, 장비시설정보, 연결성, 속도별로 정의된 패턴 정보를 이용하여 로그 데이터를 분류할 수 있다. 예를 들어, 로그 데이터는 '192.168.10.8, LOC9500H SCU, 112.115.10.4 A0:5C:22:16:18:32'와 같은 위치 정보(201)에 기초하여 분류될 수 있다. 이 때, 로그 데이터를 위치 정보(201)에 기초하여 분류하는 경우, 토폴로지(Topology) 정보(연결 가능 장비간 연결 정보), 포트별 종류 및 속도 정보(예를 들어, PON/L2, 10G 등), 포트상하향 등의 방향성 정보 등이 고려될 수 있다.
로그 정보(202)는 로그 요약 내용, 로그 상세 내용, 현재 상황 등을 포함할 수 있다. 예를 들어, 로그 데이터는 'OLT, Slot, Overflow, CPU, Count, ...'와 같은 로그 정보(202)에 기초하여 분류될 수 있다. 이 때, 로그 데이터를 로그 정보(202)에 기초하여 분류하는 경우, 실제 발생한 로그 데이터(Syslog) 간의 관련성이 고려될 수 있다.
도 2b는 본 발명의 일 실시예에 따른 로그 데이터를 도시한 예시적인 도면이다. 도 2b를 참조하면, 로그 데이터는 예를 들어, "23.4 Mar 5 04:21:24 [OLT장비 IP] OLT RSSI RX POWER STATUS: Slot #Port #Onu 3 OPTIC Power LOW ALARM ON"과 같이 구성될 수 있다.
도 2c는 본 발명의 일 실시예에 따른 로그 데이터에 대해 패턴을 이용하여 전처리를 수행하는 과정을 설명하기 위한 예시적인 도면이다. 도 2c를 참조하면, 전처리 수행부(120)는 로그 데이터을 시간 정보, 위치 정보 및 로그 정보에 따라 분류할 수 있다.
1차적으로, 전처리 수행부(120)는 "23 4 Mar"(210)→"날짜"(Date, 220), "5 04 21 24"(211)→"시간"(Time, 221), "[OLT 장비 IP]"(212)→"[OLT 장비 IP]"(222), "OLT RSSI RX POWER STATUS"(213) →"로그 센텐스"(Log Sentence, 223), "Slot 2 Port 3"(214)→ "[설비 위치]"(224), "Onu 3"(215)→"[상대장비(자기장비)]"(225), "OPTIC Power LOW ALARM ON"(216)→"[Log Detail Info/Now Situation]"(226)으로 분류할 수 있다.
2차적으로, 전처리 수행부(120)는 "[Date]"(220)와 "[Time]"(221)→"[Date][Time]"(230), "[OLT 장비 IP]"(222), "[설치 위치]"(224), "[상대장비(자기장비)]"(225)→"[OLT 장비][설치 위치][상대장비(자기장비)]"(231), "[Log Sentence]"(223), "[Long Detail Info/Now Situation]"(226)→"[Log Sentence][Log Detail Info/Now Situation]"(232)로 분류한 후, 인덱싱(240)할 수 있다.
다시 도 1로 돌아와서, 정의부(130)는 로그 데이터 및 리소스 정보에 기초하여 복수의 장애, 복수의 장애와 관련된 복수의 장애 원인 및 복수의 장애 원인과 관련된 복수의 장애 조치를 정의할 수 있다.
정의부(130)는 초기 학습을 수행하기 위해 해당 분야의 전문가 또는 네트워크 장비 제조사, 해당 지식을 보유한 관리자의 노하우를 기반으로 복수의 장애에 대한 정의를 입력받을 수 있다. 여기서, 복수의 장애는 로그 데이터(Syslog)와 하드웨어 리소스 정보에 대한 정의를 기반으로 장애가 판단될 수 있다. 복수의 장애에 대한 정의는 해당 로그 데이터와 하드웨어 리소스 정보를 기반으로 서비스에 영향을 미치는 것을 의미한다. 이 때, 정의부(130)는 자가 학습을 수행하기 위한 군집화 분류 방법을 사전 분류된 내용으로 새로운 내용을 분류하고 예측하도록 하는 분류(Classification)로 정의할 수 있다. 정의부(130)는 학습부(150)의 거리 값의 임계치를 이용하여 새롭게 정의되는 정보와 기존에 정의된 정보에 대해 구분함으로써, 새롭게 정의되는 장애에 대해 자가 학습이 수행되도록 할 수 있다.
정의부(130)는 초기 학습을 수행하기 위해 해당 분야의 전문가 또는 네트워크 장비 제조사, 해당 지식을 보유한 관리자의 노하우를 기반으로 복수의 장애 원인 및 복수의 장애 조치에 대한 정의를 입력받을 수 있다. 이후, 새롭게 추가되는 장애 원인의 경우, 자가 학습을 통해 새롭게 추가 정의되거나, 기존의 다른 장애 원인과 매핑되고, 새롭게 추가되는 장애 조치의 경우, 자가 학습을 통해 새롭게 추가 정의되거나, 기존의 다른 장애 조치와 매핑될 수 있다.
그룹핑부(140)는 정의된 복수의 장애, 복수의 장애 원인 및 복수의 장애 조치에 기초하여 로데이터를 장애가 발생된 기준 단위 별로 그룹핑할 수 있다. 여기서, 장애가 발생된 기준 단위는 예를 들어, 시간별, 유형별, 장비 연결 정보 등을 포함할 수 있다. 예를 들어, 그룹핑부(140)는 네트워크 장비에서 발생하는 로그 데이터(Syslog)와 리소스 정보를 기준 단위 별로 데이터 병합할 수 있다. 로그 데이터를 장애가 발생된 기준 단위 별로 병합하는 과정에 대해서는 도 3a 내지 도 4를 통해 상세히 설명하도록 한다.
도 3a 내지 도 3c는 본 발명의 일 실시예에 따른 로데이터를 벡터화하고 장애 발생 여부에 기초하여 벡터화된 로데이터를 병합하는 과정을 설명하기 위한 예시적인 도면이다.
그룹핑부(140)는 장애 경보가 발생된 경우, 로그 데이터(Syslog)와 정의된 복수의 장애 간의 매칭을 통해, 로그 데이터로부터 고객 불만 사항(VoC)의 발생 건수가 임계값 이상인 네트워크 장비 중, 장비의 관할 범위 내에서 시간이 일정 수준이하(예를 들어, 10초 이내)로 연관성을 보이고, 장비가 상향 또는 하향으로 연결되어 있어 연결성을 가지는 장비들 중 경보 또는 장애 로그 데이터가 발생한 장비들을 추출할 수 있다.
도 3a는 본 발명의 일 실시예에 따른 벡터화된 로데이터를 도시한 예시적인 도면이다. 도 3a를 참조하면, 그룹핑부(140)는 로데이터를 벡터화할 수 있다. 예를 들어, 그룹핑부(140)는 로그 데이터에 대해 NLP(Natural Language Processing), Word2Vec, Sentence2Vec 등을 이용하여 로그 데이터를 구성하는 문장, 단어 또는 형태소에 대해 벡터화할 수 있다.
그룹핑부(140)는 로데이터에 포함된 리소스 정보를 벡터화할 수 있다. 예를 들어, 그룹핑부(140)는 정의된 네트워크 장비의 리소스 정보를 추출하고, 해당 장비들의 리소스 정보를 전체 수용량 대비 퍼센티지(%) 수치로 정규화(예를 들어, 전체 8GB의 메모리 대비 2GB 메모리를 사용중인 경우, 25%로 정규화됨)할 수 있다. 그룹핑부(140)는 트래픽 정보에 기초하여 퍼센티지(%) 수치에 대해 거리(distance)를 이용하여 벡터화할 수 있다. 이 때, 그룹핑부(140)는 기정의된 장애를 벡터화된 리소스 정보와 매칭되는지 여부, 정상 수치와의 미스 매칭(Miss-Matching)에 대한 정보를 추출할 수 있다.
도 3b는 본 발명의 일 실시예에 따른 벡터화된 로그 데이터 및 리소스 정보의 결과값을 도시한 예시적인 도면이다. 도 3b를 참조하면, 그룹핑부(140)는 벡터화된 거리 기반의 로그 데이터와 정의된 장애 조치 간의 유사도를 생성하여 결과값으로 도출할 수 있다. 여기서, 로그 데이터와 정의된 장애 원인과의 유사도는 거리(distance)가 짧을수록 높을 수 있다.
도 3c는 본 발명의 일 실시예에 따른 병합된 로데이터를 도시한 예시적인 도면이다. 도 3c를 참조하면, 그룹핑부(140)는 기설정된 시간 단위(예를 들어, 10초)를 기준으로 동일한 네트워크 장비에서 발생되었는지 여부에 기초하여 벡터화된 로데이터를 병합할 수 있다. 예를 들어, 그룹핑부(140)는 벡터화된 로그 데이터 및 리소스 정보의 결과값을 기반으로 정의된 장애 조치의 [Indexing] 값을 이용하여 로데이터를 병합할 수 있다.
그룹핑부(140)는 로그 데이터(Syslog)와 리소스 정보의 벡터화된 정보를 그룹핑할 수 있다. 그룹핑부(140)는 시간 정보 및 네트워크 망 구성 정보에 기초하여 기설정된 시간 단위를 기준으로 동일한 네트워크 장비에서 발생된 로데이터 중 장애가 발생되었다고 판단된 로데이터에 기초하여 병합된 로데이터를 그룹핑할 수 있다. 예를 들어, 그룹핑부(140)는 정의된 복수의 장애 조치에서 예를 들어, 10초 동안 출발점이 동일한 장비에서 발생하는 로그 데이터와 리소스 정보 중 장애로 분류된 로데이터에 기초하여 병합된 로데이터를 그룹핑할 수 있다.
그룹핑부(140)는 병합된 로데이터를 그룹핑함으로써 로데이터와 관련된 장애, 장애 원인 및 장애 조치 간의 관계를 1:m:n(m, n은 자연수)의 비율로 매핑할 수 있다. 로데이터와 관련된 장애, 장애 원인 및 장애 조치 간의 관계를 매핑하는 과정에 대해서는 도 4를 통해 상세히 설명하도록 한다.
도 4는 본 발명의 일 실시예에 따른 로데이터의 그룹핑을 통해 장애, 장애 원인 및 장애 조치 간의 관계가 매핑되는 과정을 설명하기 위한 예시적인 도면이다. 도 4를 참조하면, 예를 들어, 그룹핑부(140)는 병합된 로그 데이터 및 정의된 장애를 1:1 매핑(400)하고, 1:1 매핑된 로그 데이터 및 정의된 장애에 대해 해당 장애와 관련하여 정의된 장애 원인을 매핑하여 1:m으로 매핑(410)할 수 있다. 이후, 그룹핑부(140)는 로그 데이터, 정의된 장애 및 장애 원인에 대해 해당 장애와 관련하여 정의된 장애 조치를 매핑하여 1:m:n으로 매핑(420)할 수 있다.
예를 들어, 장애가 하향 장비의 전원이 꺼진 상태에 대한 정보를 의미하는 "Dying GASP"와 장비와의 연결 단선을 의미하는 "Link Fault"가 발생되었다고 가정하자.
종래에는, 단일 로그 데이터에 대해 별개의 원인과 조치가 매핑됨으로써, "Dying GASP"→"장비 전원 꺼짐 확인", "Link Fault"→"링크 연결 확인"과 같이 1:1:1의 개별 관계를 이루었다.
그러나 본 발명은 시간과 출발점이 동일한 IP 등을 이용하여, 장애가 발생된 로그 데이터와 정의된 장애를 1:1 매핑시키고, 해당 로그 데이터를 예를 들어, "Link Fault&Dying GASP"와 같이 하나의 장애 발생 단위로 표기할 수도 있다. 이를 통해, 기존 장애 원인에서 정의된 내용과는 다르게 정전으로 인한 연결 끊김으로 1:m 매핑되고, 장애 조치도 해당 지역의 정전 여부의 확인을 통해 1:m:n 매핑될 수 있다.
다시 도 1로 돌아와서, 학습부(150)는 그룹핑된 로데이터를 분류하여 자가 학습 모델을 학습시킬 수 있다. 로데이터를 분류하여 자가 학습 모델을 학습시키는 과정에 대해서는 도 5를 통해 상세히 설명하도록 한다.
도 5는 본 발명의 일 실시예에 따른 로데이터를 분류하여 자가 학습 모델을 학습시키는 과정을 설명하기 위한 예시적인 도면이다. 학습부(150)는 그룹핑된 로데이터에 기초하여 자가 학습 모델을 자가 학습시킬 수 있다. 이 때, 학습부(150)는 벡터화된 로데이터 간의 거리 차에 따라 로데이터를 분류하여 자가 학습 모델을 학습할 수 있다.
예를 들어, 학습부(150)는 Word2Vector, Sentence2Vector 기반의 알고리즘을 사용하여, 그룹핑부(140)를 통해 벡터화된 로그 데이터와 리소스 정보 값을 연산하여 분류(Classification)할 수 있다.
학습부(150)는 일정 수준의 거리 내 (예를 들어, 200차원에서의 벡터화된 로그 데이터와 다른 로그 데이터와의 거리 차이를 거리(Distance)로 표기함)에서 동일 의미를 나타내는 학습 데이터로 분류하여 자가 학습할 수 있다. 이 때, 분류된 결과값은 정의된 장애와 벡터 값 간의 거리(Distance, 차이)로 비교됨으로써, 장애 원인이 정의될 수 있다.
도 5를 참조하면, 학습부(150)는 장애로 정의된 "Link Fault"(501)로 구성된 로그 데이터에 기초하여 "Link Fault"(501)로 구성된 로그 데이터로부터 파생될 수 있는 모든 장애 원인들을 분류(500)할 수 있다. 예를 들어, "Link Fault"(501)에 대한 장애 원인은 "케이블 불량" (502), "포트 불량", "Gbic 불량" (503) 등을 포함할 수 있다.
학습부(150)는 추가 수집된 로데이터가 학습된 자가 학습 모델에 따라 분류될 수 없는 경우, 추가 수집된 로데이터에 기초하여 자가 학습 모델을 추가 학습(또는 자가 학습)할 수 있다.
학습부(150)는 신규 장애 원인이 추가된 경우, 추가 수집된 로데이터에 기초하여 자가 학습 모델을 추가 학습함으로써, 자가 학습 모델을 재구축할 수 있다. 예를 들어, "Link Fault"(501)로부터 파생될 수 있는 장애 원인이 "케이블 불량"(502), 포트 불량 등으로 분류된다고 가정하자. 이 때, "Link Fault"(501)에 대한 장애 원인으로 "Gbic 불량"(503)이 추가된 경우, 학습부(150)는 해당 데이터를 이용하여 자가 학습 모델을 1차 추가 학습(510)할 수 있다. 또한, 학습부(150)는 1차 추가 학습(또는 자가 학습)(510)을 통해 "Link Fault"(501)에 대한 장애 원인 중 "케이블 불량"(502)에 대한 장애 조치로 "케이블 교체"(521) 외에, "Gbic 교체"(522)가 추가된 경우, 추가된 장애 조치에 대해서도 자가 학습 모델을 2차 추가 학습(또는 자가 학습)(530)할 수 있다.
다시 도 1로 돌아와서, 판단부(160)는 학습된 자가 학습 모델에 기초하여 추가 수집된 로데이터에 대한 장애, 장애와 관련된 장애 원인, 장애 원인과 관련된 장애 조치를 판단할 수 있다. 자가 학습 모델에 기초하여 로그 데이터에 대한 장애, 장애와 관련된 장애 원인, 장애 원인과 관련된 장애 조치를 판단하는 과정에 대해서는 도 6a 내지 도 6c를 통해 상세히 설명하도록 한다.
도 6a 내지 도 6c는 본 발명의 일 실시예에 따른 자가 학습 모델에 기초하여로그 데이터에 대한 장애, 장애와 관련된 장애 원인, 장애 원인과 관련된 장애 조치를 판단하는 과정을 설명하기 위한 예시적인 도면이다.
도 6a는 종래의 전압 강하가 발생된 단지에서 장애를 판단하는 과정을 설명하기 위한 예시적인 도면이다. 도 6a를 참조하면, A 단지에 포함된 어느 하나의 아파트(600)에서 장애가 발생된 경우, 종래의 장애 판단 장치는 단일 로그 데이터(602)를 수집할 수 있다.
종래의 장애 판단 장치는 로그 데이터(602)에 포함된 "Dying"과 "Link Down"로부터 장애, 장애와 관련된 장애 원인, 장애 원인과 관련된 장애 조치가 1:1:1로 매핑된 학습 모델에 기초하여 장애를 "전압 강하로 인한 단선이 발생"으로 판단하고, 전압 강하 원인을 확인한 후, 장애 원인에 대한 조치 사항으로 단선에 대한 조치를 추천하게 된다.
도 6b는 본 발명의 일 실시예에 따른 자가 학습 모델을 이용하여 장애를 판단하는 과정을 설명하기 위한 예시적인 도면이다. 도 6b를 참조하면, 판단부(160)는 그룹핑된 로데이터(620)로부터 판단된 장애, 장애 원인 및 장애 조치 중 적어도 하나 이상에 대한 장애 파생 범위의 유사성을 분석할 수 있다. 여기서, 장애 파생 범위의 유사성은 예를 들어, VoC 기입 내역, 물리적 거리상의 유사성, 벡터로 변환된 로그 데이터 또는 리소스 정보 간의 유사성 등을 포함할 수 있다.
판단부(160)는 장애 파생 범위의 유사성을 분석함으로써, 상세한 장애 원인을 파악하여 장애 원인과 관련된 장애 조치를 생성하고, 학습부(150)는 자가 학습 모델을 통해 학습을 수행할 수 있다.
예를 들어, 판단부(160)는 동일한 로그 데이터(620)로 인해 장애 경보가 발생된 경우, #101(610), #102(611), #103(612) 케이스에 대한 장애 원인을 "ONT 전압 강하에 의한 연결 끊김"으로 파악할 수 있다. 이 때, 판단부(160)는 전압 강하의 원인이 경보가 발생된 단지들이 밀집됨으로써, 구내 정전 등의 외적 요인으로 확인될 수 있으므로, 외적 요인을 확인하고, 이에 대한 조치를 수행할 수 있도록 할 수 있다.
이러한 과정을 통해, 판단부(160)는 동일한 장애 유형이 반복적으로 발생하는 경우, 인근 지역에서 발생하는 장애 파생 범위에 대한 유사성을 이용하여, 상세한 장애 원인으로 "아파트 단지 내 정전 발생으로 인한 연결 끊김"과 같이 장애 원인을 판단할 수 있다.
도 6c는 본 발명의 일 실시예에 따른 유사 망 구조를 이용하여 자가 학습 모델을 학습시키는 과정을 설명하기 위한 예시적인 도면이다. 도 6c를 참조하면, 학습부(150)는 분석된 장애 파생 범위의 유사성에 따라 자가 학습 모델을 자가 학습할 수 있다. 예를 들어, 학습부(150)는 유사 망 구조에서 추가 수집된 로데이터를 유사망 구조의 유사한 장비들에서 동일한 장애가 발생한 것처럼 적은 데이터를 일정 수준으로 가상 경보 형태로 생성시키고, 생성된 학습 데이터를 자가 학습할 수 있다. 즉, 한번 또는 발생된 데이터에 기초하여 유사망 구조를 검색하고, 검색된 유사망 구조에서 동일한 장애가 발생한 것과 같이 적은 데이터를 통해 학습이 가능한 일정 수준으로 학습 데이터를 생성할 수 있다.
도 6c를 참조하면, '서울(630)' 지역의 경우, 실제 한번 밖에 장애가 발생하지 않아 자가 학습 모델을 생성하기 위한 데이터의 확보가 어려우나, 유사망 구조에 해당하는 '대전'(631) 지역 및 '부산'(632) 지역의 경우, 유사 망 구조를 이용하여 학습 데이터를 가상으로 생성시키고, 자가 학습시킬 수 있다.
다시 도 1로 돌아와서, 판단부(160)는 추가 수집된 로데이터가 학습된 자가 학습 모델에 따라 분류될 수 있는지 여부를 판단할 수 있다. 이 때, 판단부(160)는 추가 수집된 로데이터가 학습된 자가 학습 모델에 따라 분류될 수 있는 경우, 학습된 자가 학습 모델에 기초하여 추가 수집된 로데이터에 대한 장애, 장애와 관련된 장애 원인, 장애 원인과 관련된 장애 조치를 판단할 수 있다.
예를 들어, 판단부(160)는 장애 원인인 '케이블 불량'으로부터 파생될 수 있는 장애 조치 방법으로 '케이블 교체'로 분류할 수 있다. 이 때, '케이블 불량'에 대한 장애 조치로 'Gbic 교체'가 추가된 경우, 해당 로그 데이터를 이용하여 자가 학습을 수행하고, 장애 조치에 대한 자가 학습 모델을 생성할 수 있다.
판단부(160)는 생성된 장애 조치를 정의된 장애 조치와 병합하여 장애 파생 범위 유사성을 이용한 장애 원인 파악으로 추가적인 장애 조치를 생성하고, 추가 생성된 장애 조치를 재학습하여 자가 학습 모델을 재생성할 수 있다.
도 7은 본 발명의 일 실시예에 따른 장애 원인 및 장애 조치에 기초하여 자가 학습 모델이 처리되는 과정을 설명하기 위한 예시적인 도면이다. 도 7을 참조하면, 자가 학습 모델은 로그 데이터와 리소스 정보를 입력으로 하며, 정답, 신규 정의에 대한 오답, 상세 정의에 대한 오답과 같이 3가지 중 어느 하나가 출력될 수 있다.
예를 들어, 자가 학습 모델을 통해 정답이 출력되는 경우는 로그 데이터와 리소스 정보가 입력되어 학습부(150)에서 거리 값이 1.0 미만으로 기존의 분류(Classification)에 포함됨으로써, 트리거링(triggering)되지 않는 것을 의미할 수 있다. 이 때, 자가 학습 기능(720)은 활성화되지 않고, 판단부(160)를 통해 장애 원인 및 장애 조치를 판단될 수 있다.
다른 예를 들어, 신규 정의에 대한 오답이 출력되는 경우는 학습부(150)에서 입력되는 로그 데이터와 리소스 정보가 기존의 분류에 완전히 존재하지 않는 것을 의미한다. 신규 정의에 대한 오답은 완전히 새로운 로그 데이터와 리소스 정보로 인해, 기존의 분류된 정보와 유사성이 없으므로, 거리 값이 일정 수준 이상(예를 들어, 거리 차이가 5.0 이상)이 될 수 있다. 자가 학습 기능(730)은 학습부(150)의 트리거링 기능을 통해 전체 자가 학습이 동작하게 될 수 있다.
정의부(130)는 해당 로그 데이터와 리소스 정보에 대한 정보를 장애 DB(700)에 기입하고, 장애 원인과 장애 조치를 거리 값이 가장 유사한 내용으로 장애 조치 DB(710)로 제공할 수 있다. 이 때, 추가 생성된 장애를 통해 진단된 장애 원인과 장애 조치를 서비스 운용 관리자 또는 시스템 관리자에게 관련 내용을 전달함으로써, 판단된 장애 원인과 장애 조치가 새롭게 입력된 로그 데이터와 리소스 정보의 장애 내용과 일치하는지가 확인될 수 있다. 확인이 완료되면, 장애 원인, 장애 조치, 추가된 로그 데이터는 자동으로 유사망 구조를 탐색하고, 장애, 장애와 관련된 장애 원인, 장애 원인과 관련된 장애 조치를 자가적으로 생성하고, 새로운 분류를 생성함으로써, 추가된 로그 데이터와 리소스 정보가 다시 입력되었을 경우, 새로 생성된 분류에 포함되도록 할 수 있다.
또 다른 예를 들어, 상세 정의에 대한 오답이 출력된 경우, 학습부(150)에서 입력된 로그 데이터와 리소스 정보가 기존 분류와 일정 수준 이상의 거리 차이를 보이는 경우가 될 수 있다. 예를 들어, 거리 차이는 예를 들어, 1.0 이상 5.0 미만으로, 그룹핑된 로데이터 중 그룹핑 안에 포함된 로그 데이터 및 리소스 정보가 기존의 분류에 존재하므로, 거리 차이의 값이 높은 수치로 발생하지만, 일정 수준 이상으로 증가하지 않을 수 있다.
정의부(130)는 해당 로그 데이터와 리소스 정보에 대한 정보를 장애 DB(700)에 기입하고, 장애 원인과 장애 조치를 거리 값이 가장 유사한 내용으로 장애 조치 DB(710)로 제공할 수 있다. 이 때, 추가 생성된 장애를 통해 진단된 장애 원인과 장애 조치를 서비스 운용 관리자 또는 시스템 관리자에게 관련 내용을 전달함으로써, 매핑된 기존의 장애 원인과 장애 조치에 대한 정보를 전달하고, 새로 매핑된 장애, 장애와 관련된 장애 원인, 장애 원인과 관련된 장애 조치에 기초하여 유사망 구조의 유사 장비에서 장애가 발생한 것과 같이 자가적으로 가상의 장애 데이터를 생성하여 동일한 로그 데이터 및 리소스 정보가 재입력되었을 경우, 새로 생성된 분류에 포함하도록 할 수 있다. 자가 학습 기능(730)은 학습부(150)의 트리거링 기능을 통해 장애 원인 자가 학습 또는 전체 자가 학습이 동작하게 될 수 있다.
이러한 장애 판단 장치(100)는 자가 학습을 수행하여 네트워크 장비에 대한 장애를 판단하는 명령어들의 시퀀스를 포함하는 매체에 저장된 컴퓨터 프로그램에 의해 실행될 수 있다. 컴퓨터 프로그램은 컴퓨팅 장치에 의해 실행될 경우, 복수의 네트워크 장비로부터 로그 데이터 및 로그 데이터에 대응하는 리소스 정보를 포함하는 로데이터를 수집하고, 로그 데이터 및 리소스 정보에 기초하여 복수의 장애, 복수의 장애와 관련된 복수의 장애 원인 및 복수의 장애 원인과 관련된 복수의 장애 조치를 정의하고, 정의된 복수의 장애, 복수의 장애 원인 및 복수의 장애 조치에 기초하여 로데이터를 장애가 발생된 기준 단위 별로 그룹핑하고, 그룹핑된 로데이터를 분류하여 자가 학습 모델을 학습시키고, 학습된 자가 학습 모델에 기초하여 추가 수집된 로데이터에 대한 장애, 장애와 관련된 장애 원인, 장애 원인과 관련된 장애 조치를 판단 하도록 하는 명령어들의 시퀀스를 포함하는 매체에 저장된 컴퓨터 프로그램을 제공할 수 있다.
도 8은 본 발명의 일 실시예에 따른 장애 판단 장치에서 자가 학습을 수행하여 네트워크 장비에 대한 장애를 판단하는 방법의 순서도이다. 도 8에 도시된 장애 판단 장치(100)에서 자가 학습을 수행하여 네트워크 장비에 대한 장애를 판단하는 방법은 도 1 내지 도 7에 도시된 실시예에 따른 장애 판단 장치(100)에 의해 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하 생략된 내용이라고 하더라도 도 1 내지 도 7에 도시된 실시예에 따른 장애 판단 장치(100)에서 자가 학습을 수행하여 네트워크 장비에 대한 장애를 판단하는 방법에도 적용된다.
단계 S810에서 장애 판단 장치(100)는 복수의 네트워크 장비로부터 로그 데이터 및 로그 데이터에 대응하는 리소스 정보를 포함하는 로데이터를 수집할 수 있다.
단계 S820에서 장애 판단 장치(100)는 로그 데이터 및 리소스 정보에 기초하여 복수의 장애, 복수의 장애와 관련된 복수의 장애 원인 및 복수의 장애 원인과 관련된 복수의 장애 조치를 정의할 수 있다.
단계 S830에서 장애 판단 장치(100)는 정의된 복수의 장애, 복수의 장애 원인 및 복수의 장애 조치에 기초하여 로데이터를 장애가 발생된 기준 단위 별로 그룹핑할 수 있다.
단계 S840에서 장애 판단 장치(100)는 그룹핑된 로데이터를 분류하여 자가 학습 모델을 학습시킬 수 있다.
단계 S850에서 장애 판단 장치(100)는 학습된 자가 학습 모델에 기초하여 추가 수집된 로데이터에 대한 장애, 장애와 관련된 장애 원인, 장애 원인과 관련된 장애 조치를 판단할 수 있다.
상술한 설명에서, 단계 S810 내지 S850은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 전환될 수도 있다.
도 1 내지 도 8을 통해 설명된 장애 판단 장치(100)에서 자가 학습을 수행하여 네트워크 장비에 대한 장애를 판단하는 방법은 컴퓨터에 의해 실행되는 매체에 저장된 컴퓨터 프로그램 또는 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 또한, 도 1 내지 도 8을 통해 설명된 장애 판단 장치(100)에서 자가 학습을 수행하여 네트워크 장비에 대한 장애를 판단하는 방법은 컴퓨터에 의해 실행되는 매체에 저장된 컴퓨터 프로그램의 형태로도 구현될 수 있다.
컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100: 장애 판단 장치
110: 수집부
120: 전처리 수행부
130: 정의부
140: 그룹핑부
150: 학습부
160: 판단부

Claims (18)

  1. 자가 학습을 수행하여 네트워크 장비에 대한 장애를 판단하는 장치에 있어서,
    복수의 네트워크 장비로부터 로그 데이터 및 상기 로그 데이터에 대응하는 리소스 정보를 포함하는 로데이터(raw data)를 수집하는 수집부;
    상기 로그 데이터 및 상기 리소스 정보에 기초하여 복수의 장애, 상기 복수의 장애와 관련된 복수의 장애 원인 및 상기 복수의 장애 원인과 관련된 복수의 장애 조치를 정의하는 정의부;
    상기 정의된 복수의 장애, 복수의 장애 원인 및 복수의 장애 조치에 기초하여 상기 로데이터를 장애가 발생된 기준 단위 별로 그룹핑하는 그룹핑부;
    상기 그룹핑된 로데이터를 분류하여 자가 학습 모델을 학습시키는 학습부; 및
    상기 학습된 자가 학습 모델에 기초하여 추가 수집된 로데이터에 대한 장애, 상기 장애와 관련된 장애 원인, 상기 장애 원인과 관련된 장애 조치를 판단하는 판단부
    를 포함하는 것이되,
    상기 그룹핑부는 상기 로데이터를 벡터화하고,
    상기 학습부는 상기 정의된 복수의 장애 및 상기 벡터화된 로데이터 간의 거리 차에 따라 상기 로데이터를 분류하여 상기 자가 학습 모델을 학습시키는 것인, 장애 판단 장치.
  2. 제 1 항에 있어서,
    상기 수집된 로데이터에 포함된 로그 데이터를 시간 정보, 위치 정보 및 로그 정보에 따라 분류하는 전처리를 수행하는 전처리 수행부
    를 더 포함하는 것인, 장애 판단 장치.
  3. 제 1 항에 있어서,
    상기 그룹핑부는 기설정된 시간 단위를 기준으로 동일한 네트워크 장비에서 발생되었는지 여부에 기초하여 상기 벡터화된 로데이터를 병합하는 것인, 장애 판단 장치.
  4. 제 3 항에 있어서,
    상기 리소스 정보는 트래픽 정보와, CPU 사용량, 메모리 사용량, 디스크 입출력 정보 중 적어도 하나를 포함하고,
    상기 그룹핑부는 상기 트래픽 정보에 기초하여 상기 로데이터에 포함된 리소스 정보를 벡터화하고, 상기 로데이터에 포함된 로그 데이터를 구성하는 문장, 단어 또는 형태소에 대해 벡터화하는 것인, 장애 판단 장치.
  5. 제 3 항에 있어서,
    상기 그룹핑부는 상기 기설정된 시간 단위를 기준으로 동일한 네트워크 장비에서 발생된 로데이터 중 상기 장애가 발생되었다고 판단된 로데이터에 기초하여 상기 병합된 로데이터를 그룹핑하는 것인, 장애 판단 장치.
  6. 제 5 항에 있어서,
    상기 그룹핑부는 상기 병합된 상기 로데이터를 그룹핑함으로써 상기 로데이터와 관련된 상기 장애, 상기 장애 원인 및 상기 장애 조치 간의 관계를 1:m:n (m, n은 자연수)의 비율로 매핑하는 것인, 장애 판단 장치.
  7. 삭제
  8. 제 1 항에 있어서,
    상기 판단부는 상기 추가 수집된 로데이터가 상기 학습된 자가 학습 모델에 따라 분류될 수 있는지 여부를 판단하는 것인, 장애 판단 장치.
  9. 제 8 항에 있어서,
    상기 판단부는 상기 추가 수집된 로데이터가 상기 학습된 자가 학습 모델에 따라 분류될 수 있는 경우, 상기 학습된 자가 학습 모델에 기초하여 상기 추가 수집된 로데이터에 대한 장애, 상기 장애와 관련된 장애 원인, 상기 장애 원인과 관련된 장애 조치를 판단하는 것인, 장애 판단 장치.
  10. 제 8 항에 있어서,
    상기 학습부는 상기 추가 수집된 로데이터가 상기 학습된 자가 학습 모델에 따라 분류될 수 없는 경우, 상기 추가 수집된 로데이터에 기초하여 상기 자가 학습 모델을 추가 학습시키는 것인, 장애 판단 장치.
  11. 제 1 항에 있어서,
    상기 학습부는 상기 그룹핑된 로데이터에 기초하여 상기 자가 학습 모델을 자가 학습시키는 것인, 장애 판단 장치.
  12. 제 11 항에 있어서,
    상기 판단부는 상기 그룹핑된 로데이터로부터 상기 판단된 장애, 장애 원인 및 장애 조치 중 적어도 하나 이상에 대한 장애 파생 범위의 유사성을 분석하고,
    상기 학습부는 상기 분석된 장애 파생 범위의 유사성에 따라 상기 자가 학습 모델을 자가 학습시키는 것인, 장애 판단 장치.
  13. 자가 학습을 수행하여 네트워크 장비에 대한 장애를 판단하는 방법에 있어서,
    복수의 네트워크 장비로부터 로그 데이터 및 상기 로그 데이터에 대응하는 리소스 정보를 포함하는 로데이터(raw data)를 수집하는 단계;
    상기 로그 데이터 및 상기 리소스 정보에 기초하여 복수의 장애, 상기 복수의 장애와 관련된 복수의 장애 원인 및 상기 복수의 장애 원인과 관련된 복수의 장애 조치를 정의하는 단계;
    상기 정의된 복수의 장애, 복수의 장애 원인 및 복수의 장애 조치에 기초하여 상기 로데이터를 장애가 발생된 기준 단위 별로 그룹핑하는 단계;
    상기 그룹핑된 로데이터를 분류하여 자가 학습 모델을 학습시키는 단계; 및
    상기 학습된 자가 학습 모델에 기초하여 추가 수집된 로데이터에 대한 장애, 상기 장애와 관련된 장애 원인, 상기 장애 원인과 관련된 장애 조치를 판단하는 단계
    를 포함하는 것이되,
    상기 그룹핑하는 단계는, 상기 로데이터를 벡터화하는 단계를 포함하고,
    상기 학습시키는 단계는, 상기 정의된 복수의 장애 및 상기 벡터화된 로데이터 간의 거리 차에 따라 상기 로데이터를 분류하여 상기 자가 학습 모델을 학습시키는 단계를 포함하는 것인, 장애 판단 방법.
  14. 제 13 항에 있어서,
    상기 그룹핑하는 단계는,
    기설정된 시간 단위를 기준으로 동일한 네트워크 장비에서 발생되었는지 여부에 기초하여 상기 벡터화된 로데이터를 병합하는 단계
    를 포함하는 것인, 장애 판단 방법.
  15. 제 14 항에 있어서,
    상기 그룹핑하는 단계는,
    상기 기설정된 시간 단위를 기준으로 동일한 네트워크 장비에서 발생된 로데이터 중 상기 장애가 발생되었다고 판단된 로데이터에 기초하여 상기 병합된 로데이터를 그룹핑하는 단계
    를 더 포함하는 것인, 장애 판단 방법.
  16. 제 15 항에 있어서,
    상기 그룹핑하는 단계는,
    상기 병합된 상기 로데이터를 그룹핑함으로써 상기 로데이터와 관련된 상기 장애, 상기 장애 원인 및 상기 장애 조치 간의 관계를 1:m:n(m, n은 자연수)의 비율로 매핑하는 것인, 장애 판단 방법.
  17. 제 13 항에 있어서,
    상기 그룹핑된 로데이터에 기초하여 상기 자가 학습 모델을 자가 학습시키는 단계
    를 더 포함하는 것인, 장애 판단 방법.
  18. 자가 학습을 수행하여 네트워크 장비에 대한 장애를 판단하는 명령어들의 시퀀스를 포함하는 컴퓨터 판독가능 기록매체에 저장된 컴퓨터 프로그램에 있어서,
    상기 컴퓨터 프로그램은 컴퓨팅 장치에 의해 실행될 경우,
    복수의 네트워크 장비로부터 로그 데이터 및 상기 로그 데이터에 대응하는 리소스 정보를 포함하는 로데이터(raw data)를 수집하고,
    상기 로그 데이터 및 상기 리소스 정보에 기초하여 복수의 장애, 상기 복수의 장애와 관련된 복수의 장애 원인 및 상기 복수의 장애 원인과 관련된 복수의 장애 조치를 정의하고,
    상기 정의된 복수의 장애, 복수의 장애 원인 및 복수의 장애 조치에 기초하여 상기 로데이터를 장애가 발생된 기준 단위 별로 그룹핑하고,
    상기 그룹핑된 로데이터를 분류하여 자가 학습 모델을 학습시키고,
    상기 학습된 자가 학습 모델에 기초하여 추가 수집된 로데이터에 대한 장애, 상기 장애와 관련된 장애 원인, 상기 장애 원인과 관련된 장애 조치를 판단하고,
    상기 로데이터를 벡터화하고,
    상기 정의된 복수의 장애 및 상기 벡터화된 로데이터 간의 거리 차에 따라 상기 로데이터를 분류하여 상기 자가 학습 모델을 학습시키도록 하는 명령어들의 시퀀스를 포함하는, 컴퓨터 판독가능 기록매체에 저장된 컴퓨터 프로그램.
KR1020190107502A 2019-08-30 2019-08-30 자가학습에 기초하여 네트워크 장비에 대한 장애를 판단하는 장치, 방법 및 컴퓨터 프로그램 KR102367861B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190107502A KR102367861B1 (ko) 2019-08-30 2019-08-30 자가학습에 기초하여 네트워크 장비에 대한 장애를 판단하는 장치, 방법 및 컴퓨터 프로그램

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190107502A KR102367861B1 (ko) 2019-08-30 2019-08-30 자가학습에 기초하여 네트워크 장비에 대한 장애를 판단하는 장치, 방법 및 컴퓨터 프로그램

Publications (2)

Publication Number Publication Date
KR20210026554A KR20210026554A (ko) 2021-03-10
KR102367861B1 true KR102367861B1 (ko) 2022-02-25

Family

ID=75148306

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190107502A KR102367861B1 (ko) 2019-08-30 2019-08-30 자가학습에 기초하여 네트워크 장비에 대한 장애를 판단하는 장치, 방법 및 컴퓨터 프로그램

Country Status (1)

Country Link
KR (1) KR102367861B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102617749B1 (ko) * 2023-02-15 2023-12-27 주식회사 엔티에스솔루션 다수의 검사설비 pc 및 제조설비 pc 의 통합 관제 모니터링 시스템 및 방법

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102648075B1 (ko) * 2021-03-12 2024-03-18 주식회사 케이티 인공지능 기반으로 통신 시스템의 오류를 감지하는 서버, 방법 및 컴퓨터 프로그램
KR102509374B1 (ko) * 2021-08-12 2023-03-15 (주)와치텍 언어학적 분석 기법을 이용한 it 인프라 장애 학습 및 분석 시스템
KR102623414B1 (ko) * 2021-12-29 2024-01-11 스트라토 주식회사 네트워크 장치 장애 처리를 위한 시스템 및 그 제어방법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102118670B1 (ko) * 2017-03-23 2020-06-04 (주)모아데이타 Ict 인프라 관리 시스템 및 이를 이용한 ict 인프라 관리 방법
KR102087959B1 (ko) * 2017-06-26 2020-03-11 주식회사 케이티 통신망의 인공지능 운용 시스템 및 이의 동작 방법
KR102149930B1 (ko) * 2018-02-19 2020-08-31 주식회사 케이티 네트워크 장애 처리 시스템 및 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102617749B1 (ko) * 2023-02-15 2023-12-27 주식회사 엔티에스솔루션 다수의 검사설비 pc 및 제조설비 pc 의 통합 관제 모니터링 시스템 및 방법

Also Published As

Publication number Publication date
KR20210026554A (ko) 2021-03-10

Similar Documents

Publication Publication Date Title
KR102367861B1 (ko) 자가학습에 기초하여 네트워크 장비에 대한 장애를 판단하는 장치, 방법 및 컴퓨터 프로그램
Rafique et al. Cognitive assurance architecture for optical network fault management
KR102118670B1 (ko) Ict 인프라 관리 시스템 및 이를 이용한 ict 인프라 관리 방법
US9628340B2 (en) Proactive operations, administration, and maintenance systems and methods in networks using data analytics
CN109327320B (zh) 一种故障定界方法及设备
US20080209030A1 (en) Mining Web Logs to Debug Wide-Area Connectivity Problems
US11348023B2 (en) Identifying locations and causes of network faults
WO2014004721A1 (en) Network monitoring and diagnostics
CN105095052B (zh) Soa环境下的故障检测方法及装置
US20200021511A1 (en) Performance analysis for transport networks using frequent log sequence discovery
CN108170566A (zh) 产品故障信息处理方法、系统、设备和协同工作平台
US10291493B1 (en) System and method for determining relevant computer performance events
CN112769605B (zh) 一种异构多云的运维管理方法及混合云平台
CN114091610A (zh) 智能决策方法及装置
KR102149930B1 (ko) 네트워크 장애 처리 시스템 및 방법
Zhou et al. Recommending ticket resolution using feature adaptation
CN115550139A (zh) 故障根因定位方法、装置、系统、电子设备及存储介质
CN110597792A (zh) 基于同期线损数据融合的多级冗余数据融合方法及装置
CN117376107A (zh) 一种智能化网络管理方法、系统、计算机设备及介质
CN109889258B (zh) 一种光网络故障校验方法和设备
US11444824B2 (en) Knowledge base and mining for effective root-cause analysis
ZHANG et al. Approach to anomaly detection in microservice system with multi-source data streams
Kilinçer et al. Automatic fault detection with Bayes method in university campus network
Notaro et al. An optical transceiver reliability study based on sfp monitoring and os-level metric data
CN115150289A (zh) 基于复合监控的异常处理方法及系统

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant