KR101856543B1 - 인공지능 기반의 장애 예측 시스템 - Google Patents
인공지능 기반의 장애 예측 시스템 Download PDFInfo
- Publication number
- KR101856543B1 KR101856543B1 KR1020180022740A KR20180022740A KR101856543B1 KR 101856543 B1 KR101856543 B1 KR 101856543B1 KR 1020180022740 A KR1020180022740 A KR 1020180022740A KR 20180022740 A KR20180022740 A KR 20180022740A KR 101856543 B1 KR101856543 B1 KR 101856543B1
- Authority
- KR
- South Korea
- Prior art keywords
- failure
- data
- fault
- log data
- system log
- Prior art date
Links
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 95
- 238000007405 data analysis Methods 0.000 claims abstract description 14
- 238000005516 engineering process Methods 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000000034 method Methods 0.000 claims description 65
- 238000000611 regression analysis Methods 0.000 claims description 50
- 230000008569 process Effects 0.000 claims description 27
- 230000001419 dependent effect Effects 0.000 claims description 26
- 230000002596 correlated effect Effects 0.000 claims description 22
- 238000012544 monitoring process Methods 0.000 claims description 14
- 230000002265 prevention Effects 0.000 claims description 12
- 238000004088 simulation Methods 0.000 claims description 12
- 230000008439 repair process Effects 0.000 claims description 8
- 230000003449 preventive effect Effects 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 abstract description 22
- 238000013480 data collection Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 18
- 230000000694 effects Effects 0.000 description 11
- 230000000875 corresponding effect Effects 0.000 description 8
- 239000000284 extract Substances 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 230000009471 action Effects 0.000 description 4
- 238000007418 data mining Methods 0.000 description 4
- 230000010354 integration Effects 0.000 description 3
- 238000012417 linear regression Methods 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 238000011084 recovery Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000010219 correlation analysis Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000009474 immediate action Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 108010028984 3-isopropylmalate dehydratase Proteins 0.000 description 1
- 238000006424 Flood reaction Methods 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000002547 anomalous effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000011179 visual inspection Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Debugging And Monitoring (AREA)
Abstract
본 발명은 인공지능 기반의 장애 예측 시스템에 관한 것이다. 본 발명에 따른 인공지능 기반의 장애 예측 시스템은 장애가 발생하기 전 운영 체제에 의해 생성된 시스템 로그 데이터를 수집하는 데이터 수집부, 상기 수집된 시스템 로그 데이터 중 장애가 발생한 시점으로부터 특정일 전까지의 기간 동안 생성된 시스템 로그 데이터를 추출하고, 상기 추출된 시스템 로그 데이터 중 중복되는 시스템 로그 데이터를 제거함으로써 상기 수집된 시스템 로그 데이터를 전처리하는 데이터 전처리부, 상기 시스템 로그 데이터의 유형과 상기 장애 사이의 상관 관계를 분석하는 데이터 분석부, 상기 분석 결과를 데이터베이스로 구성하여 저장하는 저장부, 상기 상관 관계가 있는 유형을 갖는 시스템 로그 데이터가 발생하는 경우, 상기 데이터베이스를 이용하여 상기 장애의 발생 가능성을 예측하는 결과 예측부 및 IT(Information Technology) 서비스 관리 체계를 이용하여 상기 예측된 장애의 발생 가능성을 실시간으로 디스플레이에 표출하는 표출부를 포함한다.
Description
본 발명은 인공지능 기반의 장애 예측 시스템에 관한 것이다.
정보 시스템의 장애 유형 중 하드웨어 장애가 가장 빈번하게 발생되고 있으며, 하드웨어 장애의 원인은 대부분 부품의 불량 또는 부품의 수명이 다한 것으로부터 발생되고 있다. 시스템은 이러한 장애에 대한 시스템 로그를 표출하고 있으나, 가독성이 떨어지고, 너무 많은 시스템 로그가 존재하며, 장애와 실제로 관련이 있는지 여부도 불확실하다는 문제점이 있다.
장애 처리는 정보시스템 장애를 해결하기 위한 과정과 장애 해결 이후의 사후 관리를 말하며, 장애 예방은 정보시스템의 장애 발생 가능한 요인을 사전에 분석하고 예측하여 대비책을 마련함으로써 장애가 발생하지 않도록 예방하는 것이다. 여기서, 장애에 대비하여 고가용성(High Availability) 시스템을 갖추더라도 장애 자체를 없애지는 못한다. 고가용성 시스템은 이용자를 위한 시스템이며, 시스템을 보호하지는 않는다. 하나의 시스템에 장애가 발생하면 다른 시스템을 이용해 서비스를 기동하는 것이지 장애를 근절하는 것이 아니다. 즉, 장애가 발생한 시스템은 정지 상태로 남아있는 것이다.
정보시스템 유지관리 핵심은 장애 관리이며, 특히 HW(Hard Ware)로 인한 장애는 시스템운영 중단에 이르는 중요한 사항으로 이에 대비하여 장애 복구를 위한 투자에 많은 자원이 소요되고 있다. 구체적으로, 시스템의 고가용성과 연속성 보장을 위한 HA(High Availability) 구성에 따라 초기 설치 비용 부담이 발생하고, 정보자산을 보호하고 데이터의 안전한 보존과 복구를 위해 DR(Disaster Recovery) 구축에 따른 비용 부담이 발생한다는 문제점이 존재한다.
장애 빈도는 HW(68%), OS 및 SW(18%), 네트워크(10%), 전력 및 인적 장애(4%) 등으로 분석되는데, 특히, 전체 장애의 2/3를 차지하고 있는 HW 장애를 미리 예측하여 장애를 원천적으로 방지하여 정보시스템을 보호하는 기술 필요한 상황이다.
산업적 측면에서, 4차산업혁명 시대를 맞아 정보시스템이 처리하고 보관해야하는 데이터는 기하 급수적으로 늘어나고 있는 추세에 있다. 이러한 빅데이터를 처리하기 위해 Infra는 점차 대형화되고 복잡화되어, 이중화, DR 구축 등 장애에 대한 대비가 요구되는 추세에 있다. 예를 들어, 정부통합전산센터의 대전센터는 14,598대, 광주센터는 2,889대의 HW를 운영하고 있고, 자치단체 공통기반의 경우 서버 980대를 운영하고 있다.
경제적 측면에서, 현재 장애 복구를 위해 HA 구성, DR 도입 등 고비용 투자가 필수적인 상황이다. 자치단체 공통기반의 경우 초기 구축비외 매년 30억 이상의 DR시스템 운영유지관리 비용이 소요(자치단체 공통기반 운영유지관리 230억 대비 약15%에 해당)되고 있는 상황이다.
기술적 측면에서, 기존의 사후 장애대응의 경우 로그분석, 육안점검, 임계치 확인으로 담당자의 경험에 의한 판단으로 접근함으로써 판단의 정확성이 떨어지는 문제점이 있었다.
즉, 정부통합전산센터뿐만 아니라 공공기관의 증가에 따라 각 기관별 정보시스템이 계속 증가하여 기관들의 보유 시스템 수는 점차 증가하는 상황이며, 4차산업혁명의 적용 및 전자정부 확대에 따라 정보시스템은 지속적으로 증가하고 있는 상황이지만, 장애에 대한 대비는 사후대비책인 HA, DR 구축에만 의존하고 있다. 특히, 공공사업의 경우 장애는 비용적 측면뿐만 아니라 민원대란의 원인이 되어 국민들에게 직접적인 피해 발생으로 전자정부 신뢰도를 저하시키고 있다.
정리하면, 기존 시스템의 문제점은 다음과 같다. 1) 인프라 장애가 발생하면 원인을 찾아 조치하는 사후 대응이 전부인 수준이며, 다수의 서버를 운영/관리하는 측면에서는 장애에 대한 사전이 대응 불가하고, 육안에 의한 점검 위주의 모니터링은 모니터링 환경의 차이에 따라 점검 수준이 매번 다르다는 문제점, 2) 점검자의 직감에 의존한 모니터링으로는 시스템의 정확한 진단이 불가하고, 장애 전후의 시스템 상태의 기록이 불투명하다는 문제점, 3) 성능관리 솔루션이 각기 독립적으로 연계되어 통합성능관제를 구축함에 따라 효울성과 신뢰성이 떨어지는 문제점, 4) 단일 Agent 기반의 모니터링은 복잡하고 다양한 IT Infra 자원 통합성능관제에 비효울적이라는 문제점.
위와 같은 문제점을 해결하기 위하여, 본 발명의 목적은 장애와 시스템 로그 데이터 사이의 상관 관계를 분석하기 위하여 장애가 발생하기 이전에 발생한 시스템 로그 데이터를 수집하는 장치를 제공하는 것이다.
본 발명의 다른 목적은 수집된 시스템 수집된 로그 데이터의 품질을 향상시키기 위하여 장애가 발생한 시점부터 특정일 전까지의 특정 기간 동안 발생한 시스템 로그 데이터만을 추출하는 장치를 제공하는 것이다.
본 발명의 다른 목적은 추출된 시스템 로그 데이터의 유형과 장애 사이의 상관 관계를 분석하기 위하여 추출된 시스템 로그 데이터를 유형별로 분류하는 장치를 제공하는 것이다.
본 발명의 다른 목적은 시스템 로그 데이터의 유형과 장애 사이의 상관 관계를 분석하기 위하여 회귀 장애를 종속 변수로 하고 시스템 로그 데이터를 독립 변수로 하는 회귀 분석 모델을 이용하여 상관 관계를 분석하는 장치를 제공하는 것이다.
본 발명의 다른 목적은 데이터의 효율적인 관리 및 활용을 위하여 장애와 상관 관계가 있는 시스템 로그 데이터를 저장하는 장치를 제공하는 것이다.
상술한 1) 문제점을 해결하기 위하여, 본 발명의 다른 목적은 체계화, 자동화된 모니터링 시스템의 신속하고 정확한 예측을 통한 장애 예방을 하는 것이다. 즉, HW 로그 분석 및 빅데이터의 경험치를 접목하여 기술적 접근이 가능한 예측 모델 수립을 통한 장애를 정확히 예측하는 것이 본 발명의 목적이다.
상술한 2) 문제점을 해결하기 위하여, 본 발명의 다른 목적은 체계적이고 표준화된 IT Infra 관리 체계 (SMS(System Management System), NMS(Network Management System), FMS(Facility Management system)을 통합)를 통해 장애의 점검의 정확성을 높이는 것이다. 즉, 인공지능 기술(데이터 마이닝, 회귀 분석 모델 등)을 활용하여 다양한 장애에 대한 장애 예측 모델을 수립하여 장애를 정확히 예측하는 것이 본 발명의 목적이다.
상술한 3) 문제점을 해결하기 위하여, 본 발명의 다른 목적은 WAS(Web Application Server), DBMS(DataBase Management System) 양방향 연계를 통해, End to end 실시간 통합성능관제 시스템을 제공하는 것이다.
상술한 4) 문제점을 해결하기 위하여, 본 발명의 다른 목적은 Agent/Agentless 통합제어 방식의 Framework 및 API(Application Programming Interface) 구현하는 것이다.
위와 같은 목적을 달성하기 위하여, 본 발명의 일 실시예에 따른 인공지능 기반의 장애 예측 시스템은 데이터 수집부, 데이터 전처리부, 데이터 분석부, 저장부, 결과 예측부 및/또는 표출부를 포함할 수 있다. 데이터 수집부는 장애가 발생하기 전 운영 체제에 의해 생성된 시스템 로그 데이터를 수집할 수 있다. 데이터 전처리부는 상기 수집된 시스템 로그 데이터 중 장애가 발생한 시점으로부터 특정일 전까지의 기간 동안 생성된 시스템 로그 데이터를 추출하고, 상기 추출된 시스템 로그 데이터 중 중복되는 시스템 로그 데이터를 제거함으로써 상기 수집된 시스템 로그 데이터를 전처리할 수 있다. 데이터 전처리부는 시스템 로그 데이터의 유형을 기술하는 유형 정보를 이용하여 상기 전처리된 시스템 로그 데이터의 유형을 도출할 수 있다. 데이터 분석부는 상기 도출된 유형과 상기 장애 사이의 상관 관계를 분석할 수 있다. 데이터 분석부는 상기 도출된 유형을 독립 변수로 갖고 상기 장애를 종속 변수로 갖는 회귀 분석 모델을 이용하여 상기 상관 관계를 분석할 수 있다. 데이터 분석부는 상기 회귀 분석 모델의 시뮬레이션에 의해 산출되는 유의 확률 값을 기준으로 상기 유형을 유의미한 독립 변수로 선정할 수 있다. 데이터 분석부는 상기 회귀 분석 모델의 시뮬레이션에 의해 산출되는 계수 추정치 값을 기준으로 상기 유의미한 독립 변수로 선정된 유형을 상기 장애와 상관 관계가 있는 독립 변수로 결정할 수 있다. 저장부는 상기 상관 관계가 있는 독립 변수로 결정된 유형을 데이터베이스로 구성하여 저장할 수 있다. 결과 예측부는 상기 상관 관계가 있는 독립 변수로 결정된 유형을 갖는 시스템 로그 데이터가 발생하는 경우, 상기 데이터베이스를 이용하여 상기 장애의 발생 가능성을 예측할 수 있다. 표출부는 IT(Information Technology) 서비스 관리 체계를 이용하여 상기 예측된 장애의 발생 가능성을 실시간으로 디스플레이할 수 있다.
바람직하게는, 상기 장애는 장애가 발생한 부품의 종류에 따라 어댑터 관련 장애, CPU(Central Processing Unit) 관련 장애, 디스크 관련 장애, FAN 관련 장애, 전원 관련 장애, HMC(Hardware Management Console) 관련 장애, 메모리 관련 장애, 플랫폼 펌웨어 관련 장애 또는 테이프 관련 장애로 구분될 수 있다. 상기 데이터 분석부는 상기 상관 관계가 있는 독립 변수로 결정된 유형에 장애에 대한 예방 방법을 기준으로 등급을 부여하고, 상기 등급은 상기 유형의 발생에 따라 장애 발생이 예상되는 부품의 즉시 교체가 요구되는 등급, 장애 발생이 예상되는 부품의 지속적인 모니터링이 요구되는 등급 및 어떠한 예방 방법도 요구되지 않는 등급 중 어느 하나에 해당할 수 있다. 상기 저장부는 상기 유형에 부여된 등급을 상기 데이터베이스로 구성하여 저장할 수 있다. 상기 결과 예측부는 상기 유형의 발생에 따라 장애의 발생이 예상되는 부품 및 상기 등급에 따른 예방 방법을 예측할 수 있다. 상기 표출부는 상기 장애의 발생이 예상되는 부품 및 상기 등급에 따른 예방 방법을 디스플레이에 표출할 수 있다.
바람직하게는, 상기 데이터 분석부는 상기 회귀 분석 모델의 시뮬레이션에 의해 산출되는 유의 확률 값이 0.05 이하의 값을 갖는 경우 상기 유형을 유의미한 독립 변수로 선정할 수 있다. 상기 데이터 분석부는 상기 회귀 분석 모델의 시뮬레이션에 의해 산출되는 계수 추정치 값이 양의 값을 갖는 경우 상기 유의미한 독립 변수로 선정된 유형을 상기 장애와 상관 관계가 있는 독립 변수로 결정할 수 있다.
바람직하게는, 상기 데이터 분석부는 상기 상관 관계가 있는 독립 변수로 결정된 유형이 복수인 경우, 상기 복수의 유형이 조합된 형태와 상기 장애의 정도 사이의 연관 관계를 추가로 분석할 수 있다. 상기 저장부는 상기 분석된 연관 관계를 상기 데이터베이스로 구성하여 저장할 수 있다. 상기 결과 예측부는 상기 분석된 연관 관계에 따라 상기 장애가 발생된 부품의 수리 또는 교체를 예측할 수 있다. 상기 표출부는 상기 장애가 발생된 부품의 수리 또는 교체가 필요함을 나타내는 표시를 표출할 수 있다.
바람직하게는, 상기 데이터 분석부는 상기 데이터베이스 내에 기 존재하는 시스템 로그 데이터의 유형에 대해서 상기 장애와의 상관 관계를 반복적으로 분석하고, 테스트를 위한 시스템 로그 데이터를 생성하여 상기 장애와의 상관 관계를 분석함으로써 상기 회귀 분석 모델의 적합성을 검증할 수 있다.
본 발명은 장애 발생 이전에 발생한 시스템 로그 데이터를 이용하여 발생할 장애를 빠르고 정확하게 예측할 수 있는 효과가 있다.
본 발명은 시스템 로그 데이터의 유형을 분류하고 분류된 유형과 장애 사이의 상관 관계를 분석함으로써 장애 발생 전에 발생한 시스템 로그 데이터의 유형을 보고 장애를 예측할 수 있는 효과가 있다.
본 발명은 전처리된 품질이 좋은 시스템 로그 데이터를 사용함으로써 장애와 시스템 로그 데이터 사이의 상관 관계를 정확하게 파악할 수 있는 효과가 있다.
본 발명은 회귀 분석 모델을 이용하여 장애와 시스템 로그 데이터의 유형 사이의 상관 관계를 정확하게 파악할 수 있는 효과가 있다.
본 발명의 회귀 분석 모델의 결과 분석 방법을 통해 시스템 로그 데이터의 유형과 장애 사이의 상관 관계를 정확하게 파악할 수 있는 효과가 있다.
본 발명은 IT 서비스 관리 체계를 이용하여 실시간으로 장애의 발생 가능성을 예측할 수 있는 효과가 있다.
본 발명은 특정 장애와 상관 관계가 있는 시스템 로그 데이터 유형의 발생을 탐지함으로써 특정 장애 내역을 예측할 수 있는 효과가 있다.
본 발명은 특정 부품의 장애와 상관 관계가 있는 시스템 로그 데이터 유형의 발생을 탐지함으로써 특정 부품의 장애를 예측할 수 있는 효과가 있다.
본 발명은 체계화, 자동화된 모니터링 시스템의 신속하고 정확한 예측을 통한 장애 예방을 하는 효과가 있다. 즉, HW 로그 분석 및 빅데이터의 경험치를 접목하여 기술적 접근이 가능한 예측 모델 수립을 통한 장애를 정확히 예측할 수 있다.
본 발명은 체계적이고 표준화된 IT Infra 관리 체계 (SMS(System Management System), NMS(Network Management System), FMS(Facility Management system)을 통합)를 통해 장애의 점검의 정확성을 높일 수 있다. 즉, 인공지능 기술(데이터 마이닝, 회귀 분석 모델 등)을 활용하여 다양한 장애에 대한 장애 예측 모델을 수립하여 장애를 정확히 예측할 수 있다.
본 발명은 WAS(Web Application Server), DBMS(DataBase Management System) 양방향 연계를 통해, End to end 실시간 통합성능관제 시스템을 제공함으로써 장애 관제 및 장애 예측의 효율성 및 신뢰성을 높일 수 있다.
본 발명은 Agent/Agentless 통합제어 방식의 Framework 및 API(Application Programming Interface) 구현함으로써 다양한 종류의 장애를 관제하고 예측할 수 있다.
도 1은 본 발명의 일 실시예에 따른 인공지능 기반의 장애 예측 시스템의 구성을 나타낸 도면이다.
도 2는 본 발명의 다른 일 실시예에 따른 인공지능 기반의 장애 예측 시스템의 구성을 나타낸 도면이다.
도 3은 본 발명의 일 실시예에 따른 인공지능 기반의 장애 예측 방법을 나타낸 도면이다.
도 4는 본 발명의 일 실시예에 따른 인공지능 기반의 장애 예측 시스템의 전반적인 프로세스를 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따른 재해 및 장애의 분류를 나타낸 도면이다.
도 6은 본 발명의 일 실시예에 따른 인공지능 기반의 장애 예측 시스템의 장애 관리 프로세스 및 문제 관리 프로세스를 나타낸 도면이다.
도 7은 본 발명의 일 실시예에 따른 인공지능 기반의 장애 예측 방법을 나타낸 도면이다.
도 8은 본 발명의 일 실시예에 따른 인공지능 기반의 장애 예측 시스템의 회귀 분석에 대한 함수 및 수식을 나타낸 도면이다.
도 9는 본 발명의 일 실시예에 따른 회귀 분석의 결과를 나타낸 도면이다.
도 2는 본 발명의 다른 일 실시예에 따른 인공지능 기반의 장애 예측 시스템의 구성을 나타낸 도면이다.
도 3은 본 발명의 일 실시예에 따른 인공지능 기반의 장애 예측 방법을 나타낸 도면이다.
도 4는 본 발명의 일 실시예에 따른 인공지능 기반의 장애 예측 시스템의 전반적인 프로세스를 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따른 재해 및 장애의 분류를 나타낸 도면이다.
도 6은 본 발명의 일 실시예에 따른 인공지능 기반의 장애 예측 시스템의 장애 관리 프로세스 및 문제 관리 프로세스를 나타낸 도면이다.
도 7은 본 발명의 일 실시예에 따른 인공지능 기반의 장애 예측 방법을 나타낸 도면이다.
도 8은 본 발명의 일 실시예에 따른 인공지능 기반의 장애 예측 시스템의 회귀 분석에 대한 함수 및 수식을 나타낸 도면이다.
도 9는 본 발명의 일 실시예에 따른 회귀 분석의 결과를 나타낸 도면이다.
이하, 첨부된 도면을 참조하여 본 발명을 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 인공지능 기반의 장애 예측 시스템의 구성을 나타낸 도면이다.
본 발명의 일 실시예에 따른 인공지능 기반의 장애 예측 시스템 (1010)은 데이터 수집부 (1020), 데이터 전처리부 (1030), 데이터 분석부 (1040), 저장부 (1050), 결과 예측부 (1060) 및/또는 표출부 (1070)을 포함할 수 있다.
데이터 수집부는 장애가 발생하기 전 운영 체제에 의해 생성된 시스템 로그 데이터를 수집할 수 있다.
데이터 전처리부는 상기 수집된 시스템 로그 데이터 중 장애가 발생한 시점으로부터 특정일 전까지의 기간 동안 생성된 시스템 로그 데이터를 추출하고, 상기 추출된 시스템 로그 데이터 중 중복되는 시스템 로그 데이터를 제거함으로써 상기 수집된 시스템 로그 데이터를 전처리할 수 있다. 데이터 전처리부는 시스템 로그 데이터의 유형을 기술하는 유형 정보를 이용하여 상기 전처리된 시스템 로그 데이터의 유형을 도출할 수 있다.
데이터 분석부는 상기 도출된 유형과 상기 장애 사이의 상관 관계를 분석할 수 있다. 데이터 분석부는 상기 도출된 유형을 독립 변수로 갖고 상기 장애를 종속 변수로 갖는 회귀 분석 모델을 이용하여 상기 상관 관계를 분석할 수 있다. 데이터 분석부는 상기 회귀 분석 모델의 시뮬레이션에 의해 산출되는 유의 확률 값을 기준으로 상기 유형을 유의미한 독립 변수로 선정할 수 있다. 데이터 분석부는 상기 회귀 분석 모델의 시뮬레이션에 의해 산출되는 계수 추정치 값을 기준으로 상기 유의미한 독립 변수로 선정된 유형을 상기 장애와 상관 관계가 있는 독립 변수로 결정할 수 있다.
저장부는 상기 상관 관계가 있는 독립 변수로 결정된 유형을 데이터베이스로 구성하여 저장할 수 있다.
결과 예측부는 상기 상관 관계가 있는 독립 변수로 결정된 유형을 갖는 시스템 로그 데이터가 발생하는 경우, 상기 데이터베이스를 이용하여 상기 장애의 발생 가능성을 예측할 수 있다.
표출부는 IT(Information Technology) 서비스 관리 체계를 이용하여 상기 예측된 장애의 발생 가능성을 실시간으로 디스플레이할 수 있다.
본 발명의 다른 일 실시예에 따르면, 상기 장애는 장애가 발생한 부품의 종류에 따라 어댑터 관련 장애, CPU(Central Processing Unit) 관련 장애, 디스크 관련 장애, FAN 관련 장애, 전원 관련 장애, HMC(Hardware Management Console) 관련 장애, 메모리 관련 장애, 플랫폼 펌웨어 관련 장애 또는 테이프 관련 장애로 구분될 수 있다. 상기 데이터 분석부는 상기 상관 관계가 있는 독립 변수로 결정된 유형에 장애에 대한 예방 방법을 기준으로 등급을 부여하고, 상기 등급은 상기 유형의 발생에 따라 장애 발생이 예상되는 부품의 즉시 교체가 요구되는 등급, 장애 발생이 예상되는 부품의 지속적인 모니터링이 요구되는 등급 및 어떠한 예방 방법도 요구되지 않는 등급 중 어느 하나에 해당할 수 있다. 상기 저장부는 상기 유형에 부여된 등급을 상기 데이터베이스로 구성하여 저장할 수 있다. 상기 결과 예측부는 상기 유형의 발생에 따라 장애의 발생이 예상되는 부품 및 상기 등급에 따른 예방 방법을 예측할 수 있다. 상기 표출부는 상기 장애의 발생이 예상되는 부품 및 상기 등급에 따른 예방 방법을 디스플레이에 표출할 수 있다.
본 발명의 다른 일 실시예에 따르면, 상기 데이터 분석부는 상기 회귀 분석 모델의 시뮬레이션에 의해 산출되는 유의 확률 값이 0.05 이하의 값을 갖는 경우 상기 유형을 유의미한 독립 변수로 선정할 수 있다. 상기 데이터 분석부는 상기 회귀 분석 모델의 시뮬레이션에 의해 산출되는 계수 추정치 값이 양의 값을 갖는 경우 상기 유의미한 독립 변수로 선정된 유형을 상기 장애와 상관 관계가 있는 독립 변수로 결정할 수 있다.
본 발명의 다른 일 실시예에 따르면, 상기 데이터 분석부는 상기 상관 관계가 있는 독립 변수로 결정된 유형이 복수인 경우, 상기 복수의 유형이 조합된 형태와 상기 장애의 정도 사이의 연관 관계를 추가로 분석할 수 있다. 상기 저장부는 상기 분석된 연관 관계를 상기 데이터베이스로 구성하여 저장할 수 있다. 상기 결과 예측부는 상기 분석된 연관 관계에 따라 상기 장애가 발생된 부품의 수리 또는 교체를 예측할 수 있다. 상기 표출부는 상기 장애가 발생된 부품의 수리 또는 교체가 필요함을 나타내는 표시를 표출할 수 있다.
본 발명의 다른 일 실시예에 따르면, 상기 데이터 분석부는 상기 데이터베이스 내에 기 존재하는 시스템 로그 데이터의 유형에 대해서 상기 장애와의 상관 관계를 반복적으로 분석하고, 테스트를 위한 시스템 로그 데이터를 생성하여 상기 장애와의 상관 관계를 분석함으로써 상기 회귀 분석 모델의 적합성을 검증할 수 있다.
도 2는 본 발명의 다른 일 실시예에 따른 인공지능 기반의 장애 예측 시스템의 구성을 나타낸 도면이다.
본 발명의 일 실시예에 따른 인공지능 기반의 장애 예측 시스템은 다수의 서버 및/또는 데이터베이스로부터 데이터를 수집하고, 빅데이터 분석 방법을 이용하여 수집한 데이터를 분석하고 데이터베이스 저장할 수 있다. 이 때, 수집한 데이터가 저장되고 관리되는 데이터베이스는 데이터 마켓 또는 데이터 웨어하우스로 구성될 수 있고, 구성된 데이터 마켓 또는 데이터 웨어 하우스에 수집된 데이터가 로그 데이터 셋의 형태로 저장될 수 있다. 나아가, 인공지능 기반의 장애 예측 시스템은 수집한 데이터의 분석 결과를 이용하여, 사용자에게 장애 예측 결과를 공지할 수 있는데, 이 때 ITSM 체계를 통해 실시간으로 장애 예측 결과를 사용자에게 공지할 수 있다. 또한, 인공지능 기반의 장애 예측 시스템은 수집한 데이터와 해당 장애 사이의 상관 관계에 따라 수집한 데이터 또는 해당 장애에 등급을 매길 수 있다. 예를 들어, 1단계 등급은 장애가 발생한 부품의 즉시 교체가 요구되는 등급을 의미하고, 2단계 등급은 장애가 해당 부품의 지속적인 모니터링이 요구되는 등급을 의미하고, 3단계 등급은 장애와 연관이 없음을 의미할 수 있다. 본 실시예에의 각 구성 및 각 구성의 프로세스에 대한 상세한 설명은 본 명세서의 다른 부분에서 설명한 내용으로 대체한다.
도 3은 본 발명의 일 실시예에 따른 인공지능 기반의 장애 예측 방법을 나타낸 도면이다.
본 발명의 일 실시예에 따른 인공지능 기반의 장애 예측 시스템은 수백대 이상의 서버를 실시간 점검하고 조기 이상 정보를 감지하여 장애를 예방할 수 있다. 나아가, 운영 체제의 수많은 로그를 실시간 분석하고 장애와 상관 관계를 분석하여 특정 HW 부품의 이상 상태를 모니터링 할 수 있는 기능을 제공할 수 있다.
기존 제품은 Memory, CPU, Storage 등의 임계치를 측정하거나, Web/WAS의 서비스 Queue를 점검하여 응용 AP(Application Processor) 분야의 장애를 예측한다. 반면, 본 발명에 따른 인공지능 기반의 장애 예측 시스템은 장애 발생 전에 발생한 시스템 로그 데이터와 발생한 장애 사이의 상관 관계를 분석하고 분석 결과를 이용하여 HW 장애를 예측하는 것으로서 기존 예측 시스템과는 원천 기술 자체가 다른 시스템에 해당한다.
본 발명의 일 실시예에 따른 인공지능 기반의 장애 예측 시스템은 다수의 하드웨어로부터 로그를 수집하고, 수집된 다수의 로그를 패턴별로 구분할 수 있다. 그리고, 구분된 패턴과 특정 부품에 발생한 장애와의 상관 관계를 분석한 후, 분석 결과를 이용하여 특정 패턴의 로그와 상관 관계가 있는 특정 부품의 장애를 예측할 수 있다. 이 때, 로그는 시스템 로그, 시스템 로그 데이터 등으로 명명될 수 있고, 로그의 패턴은 로그의 유형으로 명명될 수 있다.
도 4는 본 발명의 일 실시예에 따른 인공지능 기반의 장애 예측 시스템의 전반적인 프로세스를 나타낸 도면이다.
본 발명의 일 실시예에 따른 인공지능 기반의 장애 예측 시스템은 HW 모니터링을 통하여 생성된 로그를 수집하고(로그 생성), 수집된 로그를 로그 DB에 저장할 수 있다. 이 과정에서, 인공지능 기반의 장애 예측 시스템은 로그 DB에 저장된 다수의 수집된 로그(빅데이터)를 이용하여 로그 분석을 시작할 수 있다(빅데이터 활용 영역).
본 발명의 일 실시예에 따른 인공지능 기반의 장애 예측 시스템은 로그를 분석하고(로그 분석), 패턴 DB에 저장되어 있는 로그의 패턴 정보를 이용하여 수집된 로그의 패턴을 식별할 수 있다(패턴 추출). 그리고, 식별된 패턴이 장애와 연관이 있는지 또는 특정 부품의 장애와 연관이 있는지를 판단하고, 특정 부품의 장애와 연관이 있는 경우, 식별된 패턴이 특정 부품의 교체가 요구되는 정도의 장애와 연관이 있는 것인지(1등급), 지속적인 모니터링이 요구되는 정도의 장애와 연관이 있는 것인지(2등급) 또는 장애와 연관이 없는 것인지(3등급)를 판단할 수 있다(이상 여부 판단). 이 과정에서, 인공지능 기반의 장애 예측 시스템은 로그의 패턴과 특정 부품의 장애 사이의 상관 관계를 회귀 모델을 이용하여 자동으로 분석하고, 누적된 로그 분석 결과를 이용하여 특정 패턴과 장애 사이의 상관 관계를 분석하는 데이터마이닝 기술을 이용해 패턴 DB를 관리하는 등의 인공지능 기술을 활용할 수 있다(인공지능 활용 영역).
본 발명의 일 실시예에 따른 인공지능 기반의 장애 예측 시스템은 이상 여부 판단 결과에 따라, 장애의 등급 또는 조치의 등급을 사용자에 알리고, 해당 등급에 맞는 조치를 미리 취할 수 있다. 이렇게 인공지능 기반의 장애 예측 시스템은 특정 로그의 발생에 대한 패턴 분석을 완료하고 장애에 대한 선조치를 취한 후 다시 하드웨어의 정상가동을 허가하고 정상 가동 후, 장애의 발생 여부에 대한 결과를 확인할 수 있다.
도 5는 본 발명의 일 실시예에 따른 재해 및 장애의 분류를 나타낸 도면이다.
본 발명의 일 실시예에 따르면, 장애란 정보기술서비스관리(ITSM)의 통제 가능성 관점에서 협의의 개념으로서, 정보시스템의 통제 가능한 요인들로 인한 기능저하, 오류, 고장 등을 의미할 수 있다. 구체적으로, 통제 불가능한 재해(자연 재해와 인적 재해)를 제외한 발생원인 관점에서 직접적으로 영향을 미치는 인적 장애, 시스템 장애, 기반구조 장애(운영 장애, 설비 장애 등 포함) 등과 같은 통제 가능한 요인들에 의한 정보시스템의 기능저하, 오류, 고장을 의미할 수 있다. 정보시스템의 장애란 프로그램 또는 기타 상용 SW(SoftWare)의 예상치 못한 정지 및 HW(HardWare), 데이터베이스, 네트워크 등의 전반적인 오류 또는 부분적인 오류로 인하여 서비스가 정지되는 것을 의미할 수 있다.
본 발명의 일 실시예에 따르면, 장애의 위험 요인을 위협이라고 하며 위협은 시스템 또는 조직상 피해를 줄 수 있는 잠재적 원인이다. 정보시스템 장애에 대한 위협의 유형으로는 자연재해, 사람, 응용업무, 기술, 조직 그리고 프로세스상의 위협으로 나눌 수 있다. 자연재해는 태풍, 지진, 화재, 홍수, 누수 등으로 원인이 발생하며, 인적 위협은 실수나 과실 및 숙련되지 않은 기술자의 투입, 명령어 오투입 등으로 많이 발생한다. 응용업무상 위협은 프로그램의 논리적인 오류나 데이터의 유실, 사용자의 데이터 입력, 처리, 출력 과정에서 발생되는 오류, SW의 버그 등으로 발생한다. 기술적 위협은 하드웨어나 소프트웨어의 결함이나 인프라 장비, 부품 등의 결함으로 발생하는 것을 말한다. 조직상의 위협은 책임의 불명확, 미흡한 의사소통, 부적절한 조직 구성 등 관리 또는 이해관계자들 간의 관계에서 발생하는 것이 일반적이다. 프로세스상의 위협은 변경 절차나 규정에 대한 미숙, 프로세스 응용에 대한 인식 부족 등으로 발생하고 있다.
본 발명의 일 실시예에 따르면, 시스템 로그 데이터는 가동중인 컴퓨터 시스템 내에서 발생하는 장애에 대처하기 위해 데이터 장애 발생 직전의 상태로 복원(recovery)하기 위한 필요한 정보가 들어 있는 데이터를 의미할 수 있다. 시스템 로그 데이터는 로그 데이터, 로그, 시스템 로그 등으로 명명될 수 있다.
본 발명의 일 실시예에 따르면, IT 서비스 관리(IT service management, ITSM)는 고객에게 제공하는 정보기술(IT) 서비스들을 계획, 설계, 전달, 운영하기 위해 단체에 의해 수행되는 활동 전반(정책에 의해 감독, 프로세스를 통해 조직 및 구성, 절차 지원)을 가리킬 수 있다. ITSM은 정보기술서비스관리로 명명될 수 있고, IT 서비스를 관리하는 시스템 자체를 의미할 수 있다.
본 발명의 일 실시예에 따르면, 장애는 장애 조치에 허용되는 시간을 기준으로 몇가지 등급으로 분류될 수 있다. 그리고, 낮은 숫자를 갖는 등급의 장애는 높은 숫자를 갖는 등급보다 우선 순위로 조치가 수행될 수 있다. 본 발명의 일 실시예에 따르면, 정보시스템 장애로 인하여 대국민 업무 또는 핵심적인 행정 업무 기능의 전체가 중단되는 경우, 장애 조치에 허용되는 시간은 2시간이고 이 경우에 해당하는 장애는 1등급 장애로 분류될 수 있다. 정보시스템 장애로 인해 대국민 업무 또는 핵심적인 행정 업무 기능의 일부가 중단되는 경우 또는 정보시스템 장애로 인해 일반적인 행정 업무 기능의 전체가 중단되는 경우, 장애 조치에 허용되는 시간은 4 시간이고 이 경우에 해당하는 장애는 2 등급 장애로 분류될 수 있다. 정보시스템 장애로 인해 일반적인 행정 업무 기능의 일부가 중단되는 경우, 장애 조치에 허용되는 시간은 8 시간이고 이 경우에 해당하는 장애는 3 등급 장애로 분류될 수 있다.
본 발명의 일 실시예에 따른 인공지능 기반의 장애 예측 시스템은 장애를 발생시키는 시스템 로그 데이터의 유형에도 상기 장애의 등급을 분류한 동일한 기준으로 등급을 부여할 수 있다. 예를 들어, 1등급 장애와 상관 관계가 있는 시스템 로그 데이터의 유형은 1등급으로 분류될 수 있고, 2등급 장애와 상관 관계가 있는 시스템 로그 데이터의 유형은 2등급으로 분류될 수 있다. 인공지능 기반의 장애 예측 시스템은 상기 분류된 등급에 따라 예방 방법, 조치 방법 등을 예측하고, 예측된 결과를 디스플레이를 통해 표출시킬 수 있다.
도 6은 본 발명의 일 실시예에 따른 인공지능 기반의 장애 예측 시스템의 장애 관리 프로세스 및 문제 관리 프로세스를 나타낸 도면이다.
본발명의 일 실시예에 따른 인공지능 기반의 장애 예측 시스템은 장애 예측 외에 장애 관리 프로세스 및/또는 문제 관리 프로세스를 수행할 수 있다.
본 발명의 일 실시예에 따른 장애 관리 프로세스는 장애 식별 및 접수 단계, 장애 등록 및 장애 등급 지정 단계, 1차 해결 단계, 장애 배정 단계, 2차 해결 단계, 문제 관리 단계 (문제 관리 프로세스), 장애 종료 단계 및/또는 절차 점검 단계를 포함할 수 있다.
장애 식별 및 접수 단계에서, 장애는 전화, e-mail, SNS, 인터넷 등의 매체를 통해 접수되거나 모니터링 도구를 통해 감지되어 접수될 수 있다.
장애 등록 및 장애 등급 지정 단계에서, 접수된 장애는 그 속성과 함께 등록될 수 있다. 그리고, 장애는 업무 영향도, 복구 우선 순위, 조치에 소요(허용)되는 시간, 예방 방법, 조치 방법 등을 기준으로 몇가지 등급으로 분류될 수 있다. 장애의 속성은 장애가 발생한 시간 정보, 장애를 신고한 신고자 정보, 장애의 구체적인 내역 정보, 장애의 영향 정보, 장애의 기 분류된 등급 정보 등을 포함할 수 있다.
1차 해결 단계에서, 인공지능 기반의 장애 예측 시스템은 과거 장애 관리 이력을 참조하여 해결을 시도할 수 있다. 해결책이 존재하는 경우, 즉시 조치하여 장애를 종료할 수 있다(장애 종료 단계).
장애 배정 단계에서, 1차 해결 단계에서 해결책이 존재하지 않는 경우, 장애는 인공지능 기반의 장애 예측 시스템 내의 2차 해결을 위한 다른 구성으로 재배정될 수 있다.
2차 해결 단계에서, 장애를 재배정 받은 구성은 장애의 속성을 이용하여 장애 해결을 재차 시도할 수 있다. 해결책이 존재하는 경우, 즉시 조치하여 장애를 종료할 수 있다(장애 종료 단계).
문제 관리 단계에서, 2차 해결 단계에서도 해결책이 존재하지 않는 경우, 장애의 근본적인 해결 및 복구를 위해 본격적인 조사와 세부 분석 활동이 시작될 수 있다. 장애 관리 프로세스의 모든 단계에서, 장애를 해결하기 위해 미리 정의된 시간을 초과하는 경우 해당 장애의 등급은 재분류될 수 있다. 그리고, 장애 관리 프로세스의 매 순간의 관리 상황은 보고 체계를 이용하여 실시간으로 보고될 수 있다.
본 발명의 일 실시예에 따른 문제 관리 단계(문제 관리 프로세스)는 문제 등록 단계, 원인 도출 단계, 해결 방안 선택 단계, 해결 방안 모니터 단계, 해결 방안 실행 단계, 해결 방안 점검 단계 및/또는 문제 종료 단계를 포함할 수 있다.
절차 점검 단계에서, 인공지능 기반의 장애 예측 시스템은 저장된 장애에 대한 정보를 검토하여 장애 관리 전반에 걸친 절차를 개선할 수 있고, 사실과 이력 데이터 간 정보의 차이가 있는 경우 이를 수정할 수 있다.
도 7은 본 발명의 일 실시예에 따른 인공지능 기반의 장애 예측 방법을 나타낸 도면이다.
본 발명의 일 실시예에 따르면, 정보시스템 장애는 인적 장애, SW 장애 및/또는 HW 장애를 포함할 수 있다. HW 장애는 ADAPTER 관련 장애, FAN/전원 관련 장애, HMC(Hardware Management Console) 관련 장애, Platform Firmware 관련 장애, 계정 관련 장애, 메모리 관련 장애, 디스크 관련 장애, CPU 관련 장애 및/또는 테이프 관련 장애를 포함할 수 있다.
본 발명의 일 실시예에 따르면, 인공지능 기반의 장애 예측 시스템은 약 4,000건의 장애 발생 직전부터 30일전까지의 해당 시스템의 시스템 로그 데이터를 매핑하여 분석하고, 선형 회귀 모델링을 통하여, 장애 발생 직전 어떠한 시스템 로그 데이터가 발생되며, 발생한 시스템 로그 데이터와 장애 사이의 상관 관계를 출력할 수 있다.
본 발명의 일 실시예에 따르면, 인공지능 기반의 장애 예측 시스템은 데이터 수집 단계, 데이터 전처리 단계, 데이터 분석 단계 및/또는 결과 예측 단계를 거쳐 장애를 예측할 수 있다.
데이터 수집 단계에서, 인공지능 기반의 장애 예측 시스템은 시스템에서 발생된 장애 기록과 장애가 발생하기 전 시스템 로그 데이터를 수집할 수 있다. 일 실시예로서, 인공지능 기반의 장애 예측 시스템은 700여대 자치단체 행정업무 시스템에서 발생된 부품장애기록과 장애가 발생하기 전 시스템 로그 데이터를 수집할 수 있다.
데이터 전처리 단계에서, 인공지능 기반의 장애 예측 시스템은 데이터의 품질을 높이기 위하여 수집된 시스템 로그 데이터 중 장애가 발생한 시점으로부터 특정일 전까지의 기간 동안에 발생한 시스템 로그 데이터만을 남겨두고 이외의 기간에 발생한 시스템 로그 데이터는 제거할 수 있다. 일 실시예로서, 인공지능 기반의 장애 예측 시스템은 부품장애 발생시로부터 30일 이전까지의 기간 동안의 시스템 로그 데이터를 데이터 분석에 사용할 수 있다. 빅 데이터 기반의 장애 예측 시스템은 해당 기간 동안 발생된 시스템 로그 데이터 중 중복으로 발생되는 시스템 로그 데이터를 제거할 수 있고, 수집된 데이터에서 장애와 연관성이 적은 데이터는 제거할 수 있다.
데이터 분석 단계에서, 인공지능 기반의 장애 예측 시스템은 전처리가 완료된 시스템 로그 데이터와 장애 간의 상관 관계를 분석할 수 있다. 인공지능 기반의 장애 예측 시스템은 전처리가 완료된 시스템 로그 데이터와 장애에 대한 회귀 분석 모델을 구축함으로써 두 데이터 사이의 상관 관계를 분석할 수 있다.
결과 예측 단계에서, 인공지능 기반의 장애 예측 시스템은 상관 관계 분석 결과를 통하여 특정 장애가 발생하기 전에 특정 시스템 로그 데이터가 선행적으로 발생됨을 예측할 수 있고, 상관 관계 분석 결과의 로그 패턴을 이용하여 장애 발생 위험성과 장비의 한계 수명을 판단할 수 있다.
도 8은 본 발명의 일 실시예에 따른 인공지능 기반의 장애 예측 시스템의 회귀 분석에 대한 함수 및 수식을 나타낸 도면이다.
본 발명의 일 실시예에 따른 인공지능 기반의 장애 예측 시스템은 본 발명의 일 실시예에 따른 회귀 분석 모델을 이용하여 장애와 시스템 로그 데이터 사이의 상관 관계를 분석할 수 있다.
본 발명의 일 실시예에 따른 회귀 분석은 장애와 시스템 로그 데이터 간의 상관 관계를 분석하기 위하여 사용되며, 인공지능 기반의 장애 예측 시스템은 이 도면의 회귀 곡선(8010)을 사용할 수 있다. 본 발명의 일 실시예에 따른 회귀 분석은 분석 대상들이 두 집단 이상으로 나누어진 경우에 개별 관측값이 어느 집단으로 구분될 수 있는지 분석하고 예측하기 위해 사용될 수 있다. 본 발명의 일 실시예에 따른 회귀 분석은 선형 회귀 분석과 달리 종속 변수가 범주형 데이터를 대상으로 하고 입력 데이터가 있을 때 해당 데이터의 결과가 특정 분류로 구분되기 때문에 일종의 분류 기법으로 사용될 수 있다.
회귀 분석 방법에서 종속변수는 음의 무한대부터 양의 무한대에 해당하는 값을 가져야 하며, 종속변수 값으로 0과 1의 범주형 값을 갖게 되는 자료를 일반 회귀분석을 활용하는 것은 적절하지 않다. 이 문제를 해결하기 위하여, 본 발명의 일 실시예에 따른 회귀 분석은 종속변수() 값으로 범주 값을 직접 사용하는 대신 종속변수()가 특정한 범주 값(예를 들면, 1)이 될 확률을 구하여 을 종속변수로 사용할 수 있다. 그러나 이 경우, 종속변수 값()이 음수 또는 1보다 큰 값들이 나올 수 있는 문제가 있을 수 있다.
위 문제를 해결하기 위하여, 본 발명의 일 실시예에 따른 회귀 분석은 종속변수()가 특정한 값을 가질 확률() 및 그 값을 갖지 못할 확률()의 비 를 종속변수로 사용할 수 있다. 여기서, 종속변수()가 특정한 값을 가질 확률() 및 그 값을 갖지 못할 확률()의 비 은 확률()값의 오즈()라고 명명될 수 있다. 그러나, 이 경우에도 확률()값의 오즈가 0에서 양의 무한대에 이르는 양수(+)값을 갖게된다는 문제점 및 종속변수가 특정한 값을 가질수 있는 확률()값과 이에 대응되는 오즈값이 변할 수 있다는 문제점이 있을 수 있다. 이 문제를 해결하기 위하여, 본 발명의 일 실시예에 따른 회귀 분석은 오즈 에 로그를 더한 로그오즈 값을 종속변수로 사용할 수 있다.
본 발명의 일 실시예에 따른 회귀 분석을 위한 모델은 도면의 수식 8020으로 표현될 수 있다. 이 수식에서 i는 i번째 관측값을 나타낼 수 있다. 나아가, 위 모델에서 종속변수()가 특정 범주값 1이 될 확률 을 다시 정리한 함수를 회귀방정식이라 하며 도면의 수식 8030으로 표현될 수 있다.
본 발명의 일 실시예에 따른 회귀 분석의 경우, 종속 변수 y는 범위가 0과 1로 제한되며, 종속 변수가 두개이기 때문에 조건부 확률(P(y│x))은 이항 분포를 형성 한다. 즉, 회귀 분석을 적용할 경우, 종속 변수는 0과 1 사이에 존재하지만, 단순 선형 회귀 분석을 적용할 경우, 종속 변수는 0과 1사이의 범위를 벗어날 수 있고 이에 따라 예측의 정확도가 떨어질수 있다.
본 발명의 일 실시예에 따르면, 인공지능 기반의 장애 예측 시스템은 본 발명의 일 실시예에 따른 회귀 분석 모델을 이용하여 관측값이 포함되리라고 예측된 범주와 실제로 관측값이 포함된 범주가 정확하게 일치되는지를 평가하여 회귀 분석 모델의 타당성과 예측정확도를 검정할 수 있다.
도 9는 본 발명의 일 실시예에 따른 회귀 분석의 결과를 나타낸 도면이다.
본 발명의 일 실시예에 따른 인공지능 기반의 장애 예측 시스템은 장애가 발생한 시점 전에 발생한 전체 시스템 로그를 수집하고, 수집된 시스템 로그를 전처리하여 데이터 (수집된 시스템 로그)의 품질을 향상시키고, 전처리된 시스템 로그와 장애 사이의 상관 관계를 분석하고, 분석 결과를 이용하여 추후 발생할 장애를 예측하고 추후 발생할 장애의 유형을 예측할 수 있다. 이 때, 수집된 시스템 로그를 전처리하는 과정은 수집된 시스템 로그 중 장애 발생시로부터 특정일 전까지의 기간동안 발생한 시스템 로그만을 필터인하고 나머지 기간동안 발생한 시스템 로그는 필터아웃하는 과정, 수집된 시스템 로그 중 중복된 시스템 로그는 제거하는 과정 및/또는 시스템에서 발생할 수 있는 시스템 로그의 전체 유형 중 장애와 무관한 유형을 제외하고 장애와 연관된 유형만을 도출하는 과정을 포함할 수 있다. 본 발명의 일 실시예에 따르면, 인공지능 기반의 장애 예측 시스템은 전처리된 시스템 로그와 장애 사이의 상관 관계를 분석하는 과정에서, 전처리된 시스템 로그의 유형을 도출하고, 도출된 시스템 로그의 유형 각각을 독립 변수로 사용하고 장애 전체 또는 특정 부품의 장애를 종속 변수로 사용하여 회귀 분석 모델을 생성하고, 회귀 분석 모델을 이용하여 시스템 로그와 장애 사이의 상관 관계를 분석할 수 있다.
본 발명의 일 실시예에 따른 인공지능 기반의 장애 예측 시스템은 독립 변수로 활용되는 시스템 로그의 유형을 csv 파일로 만들어 data set을 구성할 수 있고, glrn 함수를 이용하여 회귀 분석 모델을 생성할 수 있다.
인공지능 기반의 장애 예측 시스템은 각 독립 변수에 대한 계수 추정치, 표준 오차, Z 값 (표준 오차에 대한 분포도를 이용하여 정규 분포를 만들고 각 독립 변수에 대한 결과값이 표준 편차를 기준으로 어느 위치에 존재하는지를 나타내는 값) 및/또는 유의 확률 값을 분석할 수 있다. 인공지능 기반의 장애 예측 시스템은 상기 분석의 결과를 이용하여 실제 장애와 연관이 있는 독립 변수를 추출할 수 있다. 구체적으로, 인공지능 기반의 장애 예측 시스템은 유의 확률 값으로 0.05 이하의 값을 갖는 독립 변수를 유의미한 독립 변수로서 추출할 수 있고, 유의미한 독립 변수 중 계수 추정치 값으로서 양의 값을 갖는 독립 변수를 장애 전체 또는 특정 장애와 상관이 있는 독립 변수로 결정할 수 있다.
본 발명의 일 실시예에 따르면, 인공지능 기반의 장애 예측 시스템은 회귀 분석 모델을 이용한 상관 관계 분석을 통하여, 장애 발생 시 어떤 시스템 로그가 발생되는지를 알 수 있고, 발생된 시스템 로그가 해당 장애와 연관이 있는지 여부를 알 수 있고, 시스템 로그의 그룹은 어떻게 표시되는지를 알 수 있고, 어떤 시스템 로그가 발생하면 어떤 부품의 장애가 발생되는지를 알 수 있다.
본 발명의 일 실시예에 따른 인공지능 기반의 장애 예측 시스템은 학습 데이터와 테스트 데이터의 개수를 조정하면서 반복적으로 회귀 분석을 실시할 수 있고 이로써, 회귀 분석 모델의 적합도를 검증할 수 있다. 여기서, 학습 데이터는 상관 관계가 기 분석된 시스템 로그를 의미하고, 테스트 데이터는 상관 관계가 아직 분석되지 않은 시스템 로그를 의미할 수 있다.
본 발명의 일 실시예에 따른 인공지능 기반의 장애 예측 시스템은 분석 결과 장애와 상관이 있는 시스템 로그들의 조합을 추가로 분석하여, 해당 장애의 추가 특성을 분석할 수 있다. 예를 들어, 특정 장애에 대하여 특정 개수 이하의 시스템 로그가 발생한 경우 해당 장애와 관련이 있는 부품을 수리하도록 하고, 특정 개수를 초과하는 시스템 로그가 발생한 경우 해당 장애와 관련이 있는 부품을 교체하도록 할 수 있다.
본 발명의 일 실시예에 따른 인공지능 기반의 장애 예측 시스템은 서버를 모니터링하면서 장애와 관련된 시스템 로그의 발생을 발견함으로써 장애의 발생을 사전에 예측할 수 있고, 나아가, 발생된 시스템 로그의 유형을 분석하여 발생할 장애의 유형을 파악할 수 있고, 해당 유형의 장애와 관련된 부품을 사전에 수리 또는 교체하도록 함으로써 장애의 발생을 최소화할 수 있다.
본 발명의 일 실시예에 따른 인공지능 기반의 장애 예측 시스템은 장애와 관련된 시스템 로그를 메시지의 형태로 표출시킴으로써 장애와 관련된 부품의 교체 또는 수리의 필요를 미리 알릴 수 있고 이를 통해 장애의 발생을 예방할 수 있다.
본 발명의 일 실시예에 따른 인공지능 기반의 장애 예측 시스템은 실제 장애와 연관이 있는 시스템 로그를 추출하고 해당 시스템 로그들의 조합이 어떻게 형성되느냐에 따라 해당 장애와 관련이 있는 부품의 불량을 예측하고, 수리 또는 교체를 미리 알릴 수 있다.
본 발명의 일 실시예에 따른 인공지능 기반의 장애 예측 시스템은 장애와 상관이 있는 시스템 로그를 추출한 후 시스템 로그에 등급을 부여할 수 있다. 구체적으로, 인공지능 기반의 장애 예측 시스템은 해당 시스템 로그를 관련 부품의 즉시 교체를 필요로 하는 수준의 장애와 연관된 시스템 로그, 관련 부품의 지속적인 모니터링을 필요로 하는 수준의 장애와 연관된 시스템 로그 또는 관련 부품의 직접적인 장애와는 관련이 없는 시스템 로그로 구분될 수 있다. 이를 통하여, 인공지능 기반의 장애 예측 시스템은 추출된 모든 시스템 로그에 대하여 대응하지 않고, 구분된 등급에 따라 대응이 필요한 시스템 로그에 대해서만 대응할 수 있다.
본 발명의 일 실시예에 따른 인공지능 기반의 장애 예측 시스템은 장애와 시스템 로그 데이터의 상관 관계를 파악하고, 이에 대한 정보를 데이터베이스에 저장하여 활용함으로써, 다수의 서버 내의 다수의 시스템의 장애 관리를 할 수 있고, 어떤 서버의 어떤 부품으로 인하여 장애가 발생할 지에 대하여 미리 예측할 수 있다.
본 발명의 일 실시예에 따른 인공지능 기반의 장애 예측 시스템은 상술한 예측 방법을 통하여, 서버 및 인프라를 안정적으로 지원함으로써 신뢰성을 확보할 수 있고, 장애의 사전 조치 및 예방함으로써 장애 해결을 위해 기존에 투입된 인력에 대한 비용을 절감할 수 있고, 장애 발생 전에 사전에 예방함으로써 장애 대응을 위한 비용을 절감할 수 있다.
본 발명의 일 실시예에 따른 인공지능 기반의 장애 예측 시스템은 ITSM 체계와 연동함으로써 장애 예측 내역, 부품의 에러 상태 파악, 정상 처리 등을 실시간으로 파악할 수 있다.
본 발명의 일 실시예에 따른 인공지능 기반의 장애 예측 시스템은 수많은 시스템 로그 데이터를 수집하고, 이 중 핵심 데이터만을 추출할 수 있다. 그리고, 인공지능 기반의 장애 예측 시스템은 데이터 웨어하우스(Data Warehouse) 및/또는 DM(Data Market)을 구성함으로써 추출된 핵심 데이터를 효율적으로 관리 및/또는 활용할 수 있다.
본 발명의 일 실시예에 따른 인공지능 기반의 장애 예측 시스템은 상술한 예측 방법을 통하여 대형의 서버와 서버군에 대한 수많은 장애를 단시간에 예측하고 처리할 수 있다.
본 발명의 일 실시예에 따른 인공지능 기반의 장애 예측 시스템은 상술한 예측 방법을 통하여 상시 및/또는 실시간 체계를 통하여 장애 발생을 최소화할 수 있고, 취약 시간에 발생하는 장애도 예측하여 예방함으로써 결국 장애 발생을 최소화할 수 있고, 특히, 하드웨어의 장애에 대하여 장애가 발생한 부품의 명칭, 위치 등까지 예측함으로써 장애를 조치하는 시간을 단축할 수 있다.
본 발명의 일 실시예에 따른 인공지능 기반의 장애 예측 시스템은 상술한 예측 방법을 통하여 장애의 예방 활동을 강화함으로써 능동적인 장애 관리 서비스 체계를 구축할 수 있고, 장애로 인한 서버 등의 중단을 최소화함으로써 서버 및/또는 시스템의 가동률을 향상시킬 수 있고, 다수의 서버 및/또는 시스템을 동시에 관리함으로써 서로 연관된 장애를 효율적으로 예측 및/또는 조치할 수 있으므로, 이에 따라 시스템 운영을 효율적으로 지원할 수 있다.
상술한 바와 같이, 본 발명의 일 실시예에 따른 인공지능 기반의 장애 예측 시스템은 다수의 서버의 장애 발생 시의 로그를 분석하여 부품 이상과의 상관 관계 도출 (로지스틱 회귀 분석과 데이타마이닝 기술 이용)하여, 특정 로그의 조합이 어떠한 장애로 연결되는지를 분석함으로써 로그의 발생만을 보고 연관된 장애의 발생을 미리 예측할 수 있다.
본 발명의 일 실시예에 따른 인공지능 기반의 장애 예측 시스템은 IBM(P Series) 및 HP(Super Dome) 서버를 대상으로 상술한 방법에 따라 로그를 수집 및 분석할 수 있고, Solaris 및 Cloud 컴퓨팅 환경에 맞은 X86 서버를 대상으로 로그를 수집 및 분석할 수 있다.
본 발명의 일 실시예에 따른 인공지능 기반의 장애 예측 시스템을 포함하는 솔루션은 상용화를 위해 서버 랙 장착에 용이한 2U Size의 서버 형태로 패킹하여 기술적인 요소 이외 회사 이미지에 대한 신뢰성까지 부가할 수 있다.
본 발명의 일 실시예에 따른 인공지능 기반의 장애 예측 시스템은 시스템에 의한 기술적 접근을 통해 기존에 발생한 에러를 방지하고, 대상 서버 및/또는 본 발명의 시스템에 설치된 Agent 모듈에 의해 실시간 로그 수집, 수집된 로그를 사전 정의된 패턴에 의해 대상 장애 부품을 추출함으로써, 다량의 서버(HW)를 대상으로 할 경우 기존에 존재하였던 육안점검의 한계, 보안상의 이유로 원격접속 불가 등 인적점검 및 경험에 의한 추측 점검에 한계를 극복할 수 있다.
본 발명의 일 실시예에 따른 인공지능 기반의 장애 예측 시스템은 로그를 수집하기 위하여 Agent 모듈을 포함하고 있고, 로그 분석, 패턴 분류, 패턴 인식을 위하여 로그 분석 및 결과 예측 플랫폼을 포함하고 있다. 나아가, ITSM 체계와 연동을 위하여 통합 API 모듈을 포함하고, 시스템 관리, 분석 결과 알림 및/또는 대상 하드웨어의 등록 관리를 위하여 제어시스템을 포함할 수 있다.
본 발명의 일 실시예에 따른 인공지능 기반의 장애 예측 시스템은 Agent/Agentless 통합제어를 통하여 모듈화된 이기종 자원과 IT Infra 자원간 End-To-End 실시간 통합성능관제 시스템에 해당할 수 있다. 본 발명의 일 실시예에 따른 인공 지능 기반의 장애 예측 시스템은 Agent 통합성능관제 시스템으로서, Linux, Unix, Window 외 모든 서버의 이상 패턴을 사전에 감지할 수 있고, Agentless 통합성능관제 시스템으로서, agent 모듈이 없는 SNMP, IPMI, UPS, 항온항습기, 센서 등에서 발생하는 이상 패턴도 사전에 감지할 수 있다.
일 실시예로서, 인공지능 기반의 장애 예측 시스템은 자치단체 행정업무 시스템이 탑재되어 있는 700여대의 서버에서 장애 발생 전에 발생하는 4,020여 건의 시스템 로그를 수집하였다. 인공지능 기반의 장애 예측 시스템은 AIX 운영 체제에서 발생할 수 있는 1,192개 유형의 시스템 로그 중 2016년 1월부터 2017년 10월까지의 장애에서 발생한 시스템 로그의 유형 105개를 도출하였고, 상기 기간 동안 한번도 발생하지 않은 1,087개 유형의 시스템 로그는 제외하였다. 즉, 인공지능 기반의 장애 예측 시스템은 AIX 운영체제가 가지고 있는 총 1,192개 유형의 시스템 로그를 독립 변수 X1부터 X1,192까지 설정하고 이중에서 시스템에 한번 이상 발생된 시스템 로그의 유형 105개를 추출하였다. 이 때, 추출된 105개 유형의 시스템 로그는 서버의 이상 징후를 시스템이 알려주는 경고성 메시지일 수 있다. 인공지능 기반의 장애 예측 시스템은 수집된 4020 건의 시스템 로그 중에 장애 발생 직전 30일 동안에 발생한 시스템 로그만을 추출하였다. 인공지능 기반의 장애 예측 시스템은 장애 발생 내역을 종속 변수로 하고 시스템 로그의 유형 1192개 또는 105개를 독립 변수로 하여 회귀 분석 모델을 생성하고 이 모델을 이용하여 분석을 실시하였다. 인공지능 기반의 장애 예측 시스템은 분석 툴인 R을 이용하여 회귀 분석 모델을 생성하고, 실시하였다. 본 실시예에서 수집된 시스템 로그 4020건 중에 Adapter 관련 장애 발생시 발생한 시스템 로그가 70건, CPU 관련 장애 발생시 발생한 시스템 로그가 17건, Disk 관련 장애 발생시 발생한 시스템 로그가 43건, FAN/전원 관련 장애 발생시 발생한 시스템 로그가 1615건, HMC 관련 장애가 발생시 발생한 시스템 로그가 29건, Memory 관련 장애 발생시 발생한 시스템 로그가 1075 건, 장애와 관련이 없이 발생한 시스템 로그가 1043건, Platform Firmware 관련 장애 발생시 발생한 시스템 로그가 85건, TAPE 관련 장애가 발생시 발생한 시스템 로그가 43건이었다. 본 실시예에서 인공지능 기반의 장애 예측 시스템은 4,020건의 시스템 로그를 csv 파일로 만들어 Data Set을 만들었으며, glm 함수를 이용하여 모델을 생성하였다.
이 도면은 상기 실시예에 따라 회귀 분석을 통해 장애와 상관이 있는 유의미한 시스템 로그를 추출한 결과이다. 이 도면에서, 변수명은 독립 변수로 사용된 시스템 로그의 유형을 나타내고, 변수 ID는 각 독립 변수의 ID를 나타내고, 계수 추정치는 해당 독립 변수가 종속 변수와 상관관계가 있는지 여부를 판단하는데 사용되고, 표준 오차는 표준 편차를 나타내고, Z 값은 오차에 대한 분포도를 통계학적인 정규분포로 만들었을 때 해당 독립 변수가 표준 편차 상 어떤 위치에 존재하는지를 나타내고, 유의 확률(Pr(>|z|))은 해당 독립 변수가 유의미하다고 판단하는데 사용되는 값으로서 유의 확률 값이 0.05보다 작은 변수는 통계적으로 유의미하다고 판단될 수 있다.
이 도면을 참고하면, 독립 변수 중 X73, X229, X250, X251, X438, X649, X884, X1023, X1164, X1172, X1186은 계수 추정치의 값으로 양의 값을 가지므로 장애 전체 또는 특정 장애와 연관이 높다고 판단될 수 있고, 나머지 독립 변수들은 계수 추정치의 값으로 음의 값을 가지므로 장애와 무관하다고 볼 수 있다. 나아가, 인공지능 기반의 장애 예측 시스템은 특정 장애 유형인 FAN/전원 관련 장애를 종속 변수로 하여 상관 관계를 분석하였고, 이 때, 계수 추정치의 값으로 양의 값을 갖는 독립 변수 X73, X229, X250, X884, X1164가 FAN/전원 관려 장애와 상관이 있는 독립 변수임을 알 수 있었다. 나아가, 인공지능 기반의 장애 예측 시스템은 메모리 관련 장애를 종속 변수로 하여 상관 관계를 분석하였고, 분석 결과 해당 장애와 상관이 있는 독립 변수는 X251, X438, X649, X1023, X1172, X1186임을 알 수 있었다.
1010: 인공지능 기반의 장애 예측 시스템
1020: 데이터 수집부
1030: 데이터 전처리부
1040: 데이터 분석부
1050: 저장부
1060: 결과 예측부
1070: 표출부
8010: 회귀 분석 곡선
8020: 회귀 분석 수식 1
8030: 회귀 분석 수식 2
1020: 데이터 수집부
1030: 데이터 전처리부
1040: 데이터 분석부
1050: 저장부
1060: 결과 예측부
1070: 표출부
8010: 회귀 분석 곡선
8020: 회귀 분석 수식 1
8030: 회귀 분석 수식 2
Claims (5)
- 장애가 발생하기 전 운영 체제에 의해 생성된 시스템 로그 데이터를 수집하는 데이터 수집부;
상기 수집된 시스템 로그 데이터 중 장애가 발생한 시점으로부터 특정일 전까지의 기간 동안 생성된 시스템 로그 데이터를 추출하고, 상기 추출된 시스템 로그 데이터 중 중복되는 시스템 로그 데이터를 제거함으로써 상기 수집된 시스템 로그 데이터를 전처리하는 데이터 전처리부로서,
상기 데이터 전처리부는 시스템 로그 데이터의 유형을 기술하는 유형 정보를 이용하여 상기 전처리된 시스템 로그 데이터의 유형을 도출하고;
상기 도출된 유형과 상기 장애 사이의 상관 관계를 분석하는 데이터 분석부로서,
상기 데이터 분석부는 상기 도출된 유형을 독립 변수로 갖고 상기 장애를 종속 변수로 갖는 회귀 분석 모델을 이용하여 상기 상관 관계를 분석하고,
상기 데이터 분석부는 상기 회귀 분석 모델의 시뮬레이션에 의해 산출되는 유의 확률 값을 기준으로 상기 유형을 유의미한 독립 변수로 선정하고,
상기 데이터 분석부는 상기 회귀 분석 모델의 시뮬레이션에 의해 산출되는 계수 추정치 값을 기준으로 상기 유의미한 독립 변수로 선정된 유형을 상기 장애와 상관 관계가 있는 독립 변수로 결정하고;
상기 상관 관계가 있는 독립 변수로 결정된 유형을 데이터베이스로 구성하여 저장하는 저장부;
상기 상관 관계가 있는 독립 변수로 결정된 유형을 갖는 시스템 로그 데이터가 발생하는 경우, 상기 데이터베이스를 이용하여 상기 장애의 발생 가능성을 예측하는 결과 예측부; 및
IT(Information Technology) 서비스 관리 체계를 이용하여 상기 예측된 장애의 발생 가능성을 실시간으로 디스플레이에 표출하는 표출부;
를 포함하는 인공지능 기반의 장애 예측 시스템. - 제 1 항에 있어서,
상기 장애는 장애가 발생한 부품의 종류에 따라 어댑터 관련 장애, CPU(Central Processing Unit) 관련 장애, 디스크 관련 장애, FAN 관련 장애, 전원 관련 장애, HMC(Hardware Management Console) 관련 장애, 메모리 관련 장애, 플랫폼 펌웨어 관련 장애 또는 테이프 관련 장애로 구분되고,
상기 데이터 분석부는 상기 상관 관계가 있는 독립 변수로 결정된 유형에 장애에 대한 예방 방법을 기준으로 등급을 부여하고, 상기 등급은 상기 유형의 발생에 따라 장애 발생이 예상되는 부품의 즉시 교체가 요구되는 등급, 장애 발생이 예상되는 부품의 지속적인 모니터링이 요구되는 등급 및 어떠한 예방 방법도 요구되지 않는 등급 중 어느 하나에 해당하고,
상기 저장부는 상기 유형에 부여된 등급을 상기 데이터베이스로 구성하여 저장하고,
상기 결과 예측부는 상기 유형의 발생에 따라 장애의 발생이 예상되는 부품 및 상기 등급에 따른 예방 방법을 예측하고,
상기 표출부는 상기 장애의 발생이 예상되는 부품 및 상기 등급에 따른 예방 방법을 디스플레이에 표출하는 인공지능 기반의 장애 예측 시스템. - 제 1 항에 있어서,
상기 데이터 분석부는 상기 회귀 분석 모델의 시뮬레이션에 의해 산출되는 유의 확률 값이 0.05 이하의 값을 갖는 경우 상기 유형을 유의미한 독립 변수로 선정하고,
상기 데이터 분석부는 상기 회귀 분석 모델의 시뮬레이션에 의해 산출되는 계수 추정치 값이 양의 값을 갖는 경우 상기 유의미한 독립 변수로 선정된 유형을 상기 장애와 상관 관계가 있는 독립 변수로 결정하는 인공지능 기반의 장애 예측 시스템. - 제 2 항에 있어서,
상기 데이터 분석부는 상기 상관 관계가 있는 독립 변수로 결정된 유형이 복수인 경우, 상기 복수의유형이 조합된 형태와 상기 장애의 정도 사이의 연관 관계를 추가로 분석하고,
상기 저장부는 상기 분석된 연관 관계를 상기 데이터베이스로 구성하여 저장하고,
상기 결과 예측부는 상기 분석된 연관 관계에 따라 상기 장애가 발생된 부품의 수리 또는 교체를 예측하고,
상기 표출부는 상기 장애가 발생된 부품의 수리 또는 교체가 필요함을 나타내는 표시를 표출하는 인공지능 기반의 장애 예측 시스템. - 제 1 항에 있어서,
상기 데이터 분석부는 상기 데이터베이스 내에 기 존재하는 시스템 로그 데이터의 유형에 대해서 상기 장애와의 상관 관계를 반복적으로 분석하고, 테스트를 위한 시스템 로그 데이터를 생성하여 상기 장애와의 상관 관계를 분석함으로써 상기 회귀 분석 모델의 적합성을 검증하는 인공지능 기반의 장애 예측 시스템.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180022740A KR101856543B1 (ko) | 2018-02-26 | 2018-02-26 | 인공지능 기반의 장애 예측 시스템 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180022740A KR101856543B1 (ko) | 2018-02-26 | 2018-02-26 | 인공지능 기반의 장애 예측 시스템 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR101856543B1 true KR101856543B1 (ko) | 2018-05-11 |
Family
ID=62185873
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180022740A KR101856543B1 (ko) | 2018-02-26 | 2018-02-26 | 인공지능 기반의 장애 예측 시스템 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101856543B1 (ko) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102078615B1 (ko) | 2018-11-22 | 2020-02-19 | (주)하몬소프트 | 인공지능 기반의 자가치유 네트워크 장치 |
KR20200044266A (ko) * | 2018-10-18 | 2020-04-29 | (주)모비그램 | 무인 원격장애처리 방법 및 이를 이용하는 장치 |
CN111859047A (zh) * | 2019-04-23 | 2020-10-30 | 华为技术有限公司 | 一种故障解决方法及装置 |
CN112347069A (zh) * | 2020-08-17 | 2021-02-09 | 广东工业大学 | 一种基于制造大数据的制造企业预测型维修服务方法 |
KR20210019564A (ko) * | 2018-06-28 | 2021-02-22 | 지티이 코포레이션 | 운영 유지 시스템 및 방법 |
US10938623B2 (en) | 2018-10-23 | 2021-03-02 | Hewlett Packard Enterprise Development Lp | Computing element failure identification mechanism |
CN112468339A (zh) * | 2020-11-23 | 2021-03-09 | 中国建设银行股份有限公司 | 告警处理方法、系统、装置和存储介质 |
KR20210039039A (ko) * | 2019-10-01 | 2021-04-09 | 주식회사 아이옵스테크놀러지 | 장애를 예측하기 위한 관리서버 |
KR20210039040A (ko) * | 2019-10-01 | 2021-04-09 | 주식회사 아이옵스테크놀러지 | 장애 예측 및 장애 예측 모델링 관리 시스템 |
KR102266416B1 (ko) | 2020-09-29 | 2021-06-17 | 제이엠사이트 주식회사 | 장애 예측 방법, 그리고 이를 구현하기 위한 장치 |
KR102293044B1 (ko) | 2020-10-20 | 2021-08-25 | 주식회사 지케스 | 융합관리 플랫폼인 아이씨밤의 트래픽 성능 오탐방지 및 장애예측 장치 |
KR102295868B1 (ko) * | 2021-02-01 | 2021-09-01 | (주)제스아이앤씨 | 네트워크 장애예측 시스템 |
CN114236448A (zh) * | 2021-11-23 | 2022-03-25 | 国网山东省电力公司日照供电公司 | 一种基于大数据的计量装置故障检修系统 |
KR20220048233A (ko) | 2020-10-12 | 2022-04-19 | 삼성에스디에스 주식회사 | 비정상 이벤트 탐지 방법, 그리고 이를 구현하기 위한 장치 |
US11354207B2 (en) | 2020-03-18 | 2022-06-07 | Red Hat, Inc. | Live process migration in response to real-time performance-based metrics |
US11411969B2 (en) | 2019-11-25 | 2022-08-09 | Red Hat, Inc. | Live process migration in conjunction with electronic security attacks |
CN115134583A (zh) * | 2021-03-29 | 2022-09-30 | 中国移动通信集团山东有限公司 | 视频会议质量评价方法及系统 |
US11636003B2 (en) | 2021-06-30 | 2023-04-25 | International Business Machines Corporation | Technology for logging levels and transaction log files |
KR20230083066A (ko) | 2021-12-02 | 2023-06-09 | 한동대학교 산학협력단 | 시스템 장애 예측용 딥러닝 모델 학습을 위한 학습 데이터 생성 방법 및 시스템 |
KR102578489B1 (ko) | 2022-07-12 | 2023-09-13 | 이재학 | 빅데이터, 머신러닝 기반의 디지털 트랜스포메이션 예측 시스템 |
US12099598B2 (en) | 2018-09-30 | 2024-09-24 | Micro Focus Llc | Risk classification of information technology change requests |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009500767A (ja) * | 2005-07-11 | 2009-01-08 | ブルックス オートメーション インコーポレイテッド | 予知保全用インテリジェント状態監視及び障害診断システム |
KR20150038905A (ko) * | 2013-10-01 | 2015-04-09 | 삼성에스디에스 주식회사 | 데이터 전처리 장치 및 방법 |
KR20160069444A (ko) * | 2014-12-08 | 2016-06-16 | 엔트릭스 주식회사 | 클라우드 스트리밍 서비스를 위한 서비스 품질 모니터링 시스템 및 방법, 그리고 컴퓨터 프로그램이 기록된 기록매체 |
KR101688412B1 (ko) * | 2015-09-01 | 2016-12-21 | 주식회사 에스원 | 종속 변수의 예측 모델링 방법 및 시스템 |
KR101758870B1 (ko) * | 2017-02-13 | 2017-07-18 | 주식회사 온더 | 마이닝 관리 시스템 및 이를 이용한 마이닝 관리 방법 |
KR20170094661A (ko) * | 2016-02-11 | 2017-08-21 | 유넷시스템주식회사 | 빅데이터 로그 예측분석시스템 |
-
2018
- 2018-02-26 KR KR1020180022740A patent/KR101856543B1/ko active IP Right Grant
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009500767A (ja) * | 2005-07-11 | 2009-01-08 | ブルックス オートメーション インコーポレイテッド | 予知保全用インテリジェント状態監視及び障害診断システム |
KR20150038905A (ko) * | 2013-10-01 | 2015-04-09 | 삼성에스디에스 주식회사 | 데이터 전처리 장치 및 방법 |
KR20160069444A (ko) * | 2014-12-08 | 2016-06-16 | 엔트릭스 주식회사 | 클라우드 스트리밍 서비스를 위한 서비스 품질 모니터링 시스템 및 방법, 그리고 컴퓨터 프로그램이 기록된 기록매체 |
KR101688412B1 (ko) * | 2015-09-01 | 2016-12-21 | 주식회사 에스원 | 종속 변수의 예측 모델링 방법 및 시스템 |
KR20170094661A (ko) * | 2016-02-11 | 2017-08-21 | 유넷시스템주식회사 | 빅데이터 로그 예측분석시스템 |
KR101758870B1 (ko) * | 2017-02-13 | 2017-07-18 | 주식회사 온더 | 마이닝 관리 시스템 및 이를 이용한 마이닝 관리 방법 |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102483025B1 (ko) | 2018-06-28 | 2022-12-29 | 지티이 코포레이션 | 운영 유지 시스템 및 방법 |
KR20210019564A (ko) * | 2018-06-28 | 2021-02-22 | 지티이 코포레이션 | 운영 유지 시스템 및 방법 |
US12099598B2 (en) | 2018-09-30 | 2024-09-24 | Micro Focus Llc | Risk classification of information technology change requests |
KR20200044266A (ko) * | 2018-10-18 | 2020-04-29 | (주)모비그램 | 무인 원격장애처리 방법 및 이를 이용하는 장치 |
KR102116250B1 (ko) * | 2018-10-18 | 2020-05-29 | 주식회사 핀테크놀러지 | 무인 원격장애처리 방법 및 이를 이용하는 장치 |
US10938623B2 (en) | 2018-10-23 | 2021-03-02 | Hewlett Packard Enterprise Development Lp | Computing element failure identification mechanism |
KR102078615B1 (ko) | 2018-11-22 | 2020-02-19 | (주)하몬소프트 | 인공지능 기반의 자가치유 네트워크 장치 |
CN111859047A (zh) * | 2019-04-23 | 2020-10-30 | 华为技术有限公司 | 一种故障解决方法及装置 |
KR20210039039A (ko) * | 2019-10-01 | 2021-04-09 | 주식회사 아이옵스테크놀러지 | 장애를 예측하기 위한 관리서버 |
KR20210039040A (ko) * | 2019-10-01 | 2021-04-09 | 주식회사 아이옵스테크놀러지 | 장애 예측 및 장애 예측 모델링 관리 시스템 |
KR102281431B1 (ko) * | 2019-10-01 | 2021-07-27 | 주식회사 아이옵스테크놀러지 | 장애 예측 및 장애 예측 모델링 관리 시스템 |
KR102326202B1 (ko) * | 2019-10-01 | 2021-11-15 | 주식회사 아이옵스테크놀러지 | 장애를 예측하기 위한 관리서버 |
US11411969B2 (en) | 2019-11-25 | 2022-08-09 | Red Hat, Inc. | Live process migration in conjunction with electronic security attacks |
US11354207B2 (en) | 2020-03-18 | 2022-06-07 | Red Hat, Inc. | Live process migration in response to real-time performance-based metrics |
CN112347069A (zh) * | 2020-08-17 | 2021-02-09 | 广东工业大学 | 一种基于制造大数据的制造企业预测型维修服务方法 |
CN112347069B (zh) * | 2020-08-17 | 2024-02-20 | 广东工业大学 | 一种基于制造大数据的制造企业预测型维修服务方法 |
KR20220043844A (ko) | 2020-09-29 | 2022-04-05 | 제이엠사이트 주식회사 | 장애 예측 방법, 그리고 이를 구현하기 위한 장치 |
KR102266416B1 (ko) | 2020-09-29 | 2021-06-17 | 제이엠사이트 주식회사 | 장애 예측 방법, 그리고 이를 구현하기 위한 장치 |
US11526162B2 (en) | 2020-10-12 | 2022-12-13 | Samsung Sds Co., Ltd. | Method for detecting abnormal event and apparatus implementing the same method |
KR20220048233A (ko) | 2020-10-12 | 2022-04-19 | 삼성에스디에스 주식회사 | 비정상 이벤트 탐지 방법, 그리고 이를 구현하기 위한 장치 |
KR102293044B1 (ko) | 2020-10-20 | 2021-08-25 | 주식회사 지케스 | 융합관리 플랫폼인 아이씨밤의 트래픽 성능 오탐방지 및 장애예측 장치 |
CN112468339B (zh) * | 2020-11-23 | 2023-08-18 | 中国建设银行股份有限公司 | 告警处理方法、系统、装置和存储介质 |
CN112468339A (zh) * | 2020-11-23 | 2021-03-09 | 中国建设银行股份有限公司 | 告警处理方法、系统、装置和存储介质 |
KR102295868B1 (ko) * | 2021-02-01 | 2021-09-01 | (주)제스아이앤씨 | 네트워크 장애예측 시스템 |
CN115134583A (zh) * | 2021-03-29 | 2022-09-30 | 中国移动通信集团山东有限公司 | 视频会议质量评价方法及系统 |
CN115134583B (zh) * | 2021-03-29 | 2024-06-07 | 中国移动通信集团山东有限公司 | 视频会议质量评价方法及系统 |
US11636003B2 (en) | 2021-06-30 | 2023-04-25 | International Business Machines Corporation | Technology for logging levels and transaction log files |
CN114236448A (zh) * | 2021-11-23 | 2022-03-25 | 国网山东省电力公司日照供电公司 | 一种基于大数据的计量装置故障检修系统 |
KR20230083066A (ko) | 2021-12-02 | 2023-06-09 | 한동대학교 산학협력단 | 시스템 장애 예측용 딥러닝 모델 학습을 위한 학습 데이터 생성 방법 및 시스템 |
KR102578489B1 (ko) | 2022-07-12 | 2023-09-13 | 이재학 | 빅데이터, 머신러닝 기반의 디지털 트랜스포메이션 예측 시스템 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101856543B1 (ko) | 인공지능 기반의 장애 예측 시스템 | |
CN111209131B (zh) | 一种基于机器学习确定异构系统的故障的方法和系统 | |
CN109783262B (zh) | 故障数据处理方法、装置、服务器及计算机可读存储介质 | |
EP3105644B1 (en) | Method of identifying anomalies | |
CN107612756A (zh) | 一种具有智能故障分析处理功能的运维管理系统 | |
CN108667666A (zh) | 一种基于可视化技术的智能运维方法及其系统 | |
US20140310564A1 (en) | Autonomous Service Management | |
AU1374292A (en) | Knowledge based machine initiated maintenance system | |
CN111857555B (zh) | 避免磁盘阵列的故障事件的方法、设备和程序产品 | |
CN109062723A (zh) | 服务器故障的处理方法和装置 | |
CN109034423A (zh) | 一种故障预警判定的方法、装置、设备及存储介质 | |
CN106789158A (zh) | 一种云服务保险定损方法和系统 | |
CN115794588A (zh) | 内存故障预测方法、装置、系统及监测服务器 | |
KR102509380B1 (ko) | 머신러닝을 통한 어플리케이션 트랜잭션 학습 및 실시간 장애 예측과 해결을 위한 방법 | |
CN112966056A (zh) | 一种信息处理方法、装置、设备、系统及可读存储介质 | |
CN116010456A (zh) | 设备的处理方法、服务器和轨道交通系统 | |
CN117670033A (zh) | 一种安全检查方法、系统、电子设备及存储介质 | |
CN117194154A (zh) | 一种基于微服务的apm全链路监控系统及方法 | |
CN111835566A (zh) | 一种系统故障管理方法、装置及系统 | |
CN114915541B (zh) | 系统故障排除方法及装置、电子设备及存储介质 | |
CN114896096A (zh) | 基于图像识别算法的数据中心设备故障预测系统及方法 | |
KR20170127876A (ko) | 로그 결함 분석 기반 장애 대응 시스템 및 방법 | |
CN106549831A (zh) | 一种信息系统的健康分析方法和系统 | |
CN111447329A (zh) | 呼叫中心中状态服务器的监控方法、系统、设备及介质 | |
JP7534700B2 (ja) | 正解データ生成装置、正解データ生成方法および正解データ生成プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |