KR102509380B1 - 머신러닝을 통한 어플리케이션 트랜잭션 학습 및 실시간 장애 예측과 해결을 위한 방법 - Google Patents

머신러닝을 통한 어플리케이션 트랜잭션 학습 및 실시간 장애 예측과 해결을 위한 방법 Download PDF

Info

Publication number
KR102509380B1
KR102509380B1 KR1020220055137A KR20220055137A KR102509380B1 KR 102509380 B1 KR102509380 B1 KR 102509380B1 KR 1020220055137 A KR1020220055137 A KR 1020220055137A KR 20220055137 A KR20220055137 A KR 20220055137A KR 102509380 B1 KR102509380 B1 KR 102509380B1
Authority
KR
South Korea
Prior art keywords
transaction
unit
failure
learning
information
Prior art date
Application number
KR1020220055137A
Other languages
English (en)
Inventor
박권재
Original Assignee
(주)와치텍
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)와치텍 filed Critical (주)와치텍
Priority to KR1020220055137A priority Critical patent/KR102509380B1/ko
Application granted granted Critical
Publication of KR102509380B1 publication Critical patent/KR102509380B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2263Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/321Display for diagnostics, e.g. diagnostic result display, self-test user interface
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Debugging And Monitoring (AREA)

Abstract

머신러닝을 통한 어플리케이션 트랜잭션 학습 및 실시간 장애 예측과 해결을 위한 방법이 개시된다. 본 발명의 바람직한 실시 예에 따른 머신러닝을 통한 어플리케이션 트랜잭션 학습 및 실시간 장애 예측과 해결을 위한 방법은 어플리케이션 운영을 위한 인프라를 모니터링하고 사용자의 사용이력에 기반한 트랜잭션 및 시스템관리자의 제어이력을 수집하는 어플리케이션부와 상기 어플리케이션부로부터 받은 트랜잭션을 모니터링하고, 이상여부를 판단하고, 장애 발생 시 원인 및 해결방안을 판단하고, 트랜잭션 정보를 추출해 학습하는 트랜잭션관리부와 상기 트랜잭션 관리부에서 학습한 데이터 정보를 저장하는 데이터모델부와 상기 트랜잭션 관리부로부터 장애 클라이언트에 표시하는 웹서비스부를 포함할 수 있다.

Description

머신러닝을 통한 어플리케이션 트랜잭션 학습 및 실시간 장애 예측과 해결을 위한 방법{Methods for learning application transactions and predicting and resolving real-time failures through machine learning}
본 발명은 머신러닝을 통한 어플리케이션 트랜잭션 학습 및 실시간 장애 예측과 해결을 위한 방법에 관한 것으로, 보다 상세하게는 트랜잭션을 수집하여, 트랜잭션을 구성하는 어플리케이션, 서버, 데이터베이스와 같은 연관 인프라의 성능정보를 머신러닝을 기반으로 분석 및 학습하고, 이를 빅데이터모델로 구성해 이후 발생하는 트랜잭션에 대해 학습한 데이터모델과의 실시간 분석 및 비교를 통해 IT인프라 장비의 이상 사전 예측 및 장애 발생 시 장애의 원인을 추적하고 해결방안을 사용자에게 제시하는 머신러닝을 통한 어플리케이션 트랜잭션 학습 및 실시간 장애 예측과 해결을 위한 방법에 관한 것이다.
기존의 어플리케이션 모니터링 시스템은 단일 모니터링으로 어플리케이션의 성능을 단순 수집하는데 그쳐 장애발생 시 정확한 원인을 파악하는데 무리가 따랐으며, 어플리케이션과 연관된 인프라와 개별적으로 운용되어 어플리케이션 운영의 흐름을 파악하는데 부족한 실정이다. 때문에, 트랜잭션에 대한 학습과 연관된 인프라의 구성정보를 통해 트랜잭션의 전체적인 흐름과 장애 발생 시 정확한 장애 원인을 추적하고 해결방안 분석을 위한 기술이 필요한 실정이다.
본 발명의 해결하고자 하는 과제는 어플리케이션 관리를 중심으로 발생하는 트랜잭션을 연관된 타 인프라와 연동하여 장애 트랜잭션 발생 시 발생 시점에서의 성능정보를 학습하고 분석하여 성능 저하를 유발하는 원인을 추적해 문제 해결을 위한 방안을 제안하는 것이다.
또한 학습된 트랜잭션 정보를 빅데이터로 학습해 장애 발생 전 성능 이상을 예측해 사용자에게 제공하는 것이다.
상기 기술적 과제를 달성하기 위하여, 본 발명의 일 실시 예에 따른 머신러닝을 통한 어플리케이션 트랜잭션 학습 및 실시간 장애 예측과 해결을 위한 방법은 어플리케이션 운영을 위한 인프라를 모니터링하고 사용자의 사용이력에 기반한 트랜잭션 및 시스템관리자의 제어이력을 수집하는 어플리케이션부와; 상기 어플리케이션부로부터 받은 트랜잭션을 모니터링하고, 이상여부를 판단하고, 장애 발생 시 원인 및 해결방안을 판단하고, 트랜잭션 정보를 추출해 학습하는 트랜잭션관리부와; 상기 트랜잭션 관리부에서 학습한 데이터 정보를 저장하는 데이터모델부와; 상기 트랜잭션 관리부로부터 장애 클라이언트에 표시하는 웹서비스부;를 포함할 수 있다.
또한 상기 기술적 과제를 달성하기 위한 본 발명의 다른 실시 예에 따른 머신러닝을 통한 어플리케이션 트랜잭션 학습 및 실시간 장애 예측과 해결을 위한 방법에 있어 상기 어플리케이션부는, 어플리케이션 및 이와 연관된 데이터베이스, 서버, 사용자 모니터링 데이터(RUM)와 같은 인프라의 성능을 관리하는 인프라관리부;를 포함하고, 사용자의 사용이력에 기반한 트랜잭션 정보를 수집해 각 트랜잭션 별 id를 부여하여 트랜잭션 관리부로 전달하는 트랜잭션수집부;를 포함하고, 관리자의 시스템 제어 및 설정변경이력을 수집하는 제어이력관리부;를 포함할 수 있다.
또한 상기 기술적 과제를 달성하기 위한 본 발명의 다른 실시 예에 따른 머신러닝을 통한 어플리케이션 트랜잭션 학습 및 실시간 장애 예측과 해결을 위한 방법에 있어 상기 트랜잭션관리부는, 트랙잭션을 실시간 모니터링하고 이상 장애 예측과 장애 발생 시 원인 추적 및 해결방안을 제시하는 관제부;를 포함하고, 발생한 트랜잭션을 특정 기준으로 분류하고 학습하는 학습부;를 포함할 수 있다.
또한 상기 기술적 과제를 달성하기 위한 본 발명의 다른 실시 예에 따른 머신러닝을 통한 어플리케이션 트랜잭션 학습 및 실시간 장애 예측과 해결을 위한 방법에 있어 상기 관제부는, 상기 트랜잭션수집부로부터 받은 트랜잭션 정보를 상기 데이터모델부에 저장된 트랜잭션 모델의 id와 비교하여 동일한 정보를 가진 데이터모델이 있을 경우 해당 데이터모델을 불러와 성능정보를 비교하여 이상여부를 판단하고, 동일한 데이터모델이 생성되지 않은 트랜잭션에 대해서 상기 인프라관리부에서 설정된 임계치를 초과한 정보에 대해 이상여부를 판단하는 모니터링부;를 포함하고, 상기 모니터링부에서 데이터모델부의 성능정보 대비 일정 비율 상승 또는 지정한 임계치 대비 일정 비율까지 측정된 성능정보를 잠재적 장애발생성능으로 분류하고 데이터 모델부의 성능정보 또는 지정된 임계치를 초과한 성능정보를 장애발생으로 분류하는 장애예측부;를 포함하고, 상기 장애예측부에서 장애예측 또는 발생으로 판단된 성능정보에 대한 유사장애를 분석하고 장애 원인과 해결방안을 제시하는 장애대응부;를 포함할 수 있다.
또한 상기 기술적 과제를 달성하기 위한 본 발명의 다른 실시 예에 따른 머신러닝을 통한 어플리케이션 트랜잭션 학습 및 실시간 장애 예측과 해결을 위한 방법에 있어 상기 장애대응부는, 발생한 장애 트랜잭션 정보를 상기 데이터모델부에 저장되어 있는 장애트랜잭션 데이터모델과 비교하여 동일 또는 유사한 장애이력이 있을 경우 해당 데이터모델을 불러와 원인 및 장애해결이력을 통한 제어방안을 상기 웹서버부를 통해 사용자에게 제시하는 유사장애확인부;를 포함하고, 상기 유사장애확인부에서 비교 데이터모델이 없는 신규 장애의 경우 해당 트랜잭션이 발생한 어플리케이션을 기준으로 서버, 데이터베이스, 사용자 모니터링 데이터를 연동분석하여, 기준 임계치를 초과하는 성능정보를 나타내는 인프라를 추적해 임계치 초과 원인을 분석해 상기 웹서버부를 통해 사용자에게 제시하는 장애원인분석부;를 포함할 수 있다.
또한 상기 기술적 과제를 달성하기 위한 본 발명의 다른 실시 예에 따른 머신러닝을 통한 어플리케이션 트랜잭션 학습 및 실시간 장애 예측과 해결을 위한 방법에 있어 상기 학습부는, 상기 트랜잭션수집부로부터 전달받은 트랜잭션을 발생 시간(시, 분, 초 등) 단위 또는 특정 구간 단위로 발생한 트랜잭션 그룹을 추출하고 그룹에 포함된 단일 트랜잭션에 연관된 인프라 성능정보를 어플리케이션과 하나의 묶음으로 분류하는 트랜잭션추출부;를 포함하고, 상기 트랜잭션분류부에서 분류된 트랜잭션의 구성 정보 및 연관된 인프라장비의 정보를 학습해 하나의 데이터모델로 구분하는 트랜잭션학습부;를 포함할 수 있다.
또한 상기 기술적 과제를 달성하기 위한 본 발명의 다른 실시 예에 따른 머신러닝을 통한 어플리케이션 트랜잭션 학습 및 실시간 장애 예측과 해결을 위한 방법에 있어 상기 트랜잭션학습부는, 트랜잭션 묶음의 단일 트랜잭션 정보를 구성 영역별 시작~종료시점 및 수행 시간을 학습하고, 해당 트랜잭션과 연관된 인프라 정보를 서버의 경우 CPU 및 Memory 사용률, 데이터베이스의 경우 SQL 소요시간, 데이터베이스 성능정보, 사용자 모니터링 데이터(RUM)의 경우 접속 세션, 사용자 요청정보, 어플리케이션의 경우 에러율, 초당 요청 처리 건수, 소요시간과 같은 트랜잭션 구성정보를 수집해 학습하고 학습한 단일 트랜잭션을 하나의 데이터모델화하고, 임계치 초과 또는 데이터모델의 성능기준정보를 초과하는 장애 트랜잭션은 평시 트랜잭션과 구분해 장애정보, 발생 원인, 상기 제어이력관리부에서 인프라 제어정보를 불러와 데이터모델로 저장해 전달할 수 있다.
또한 상기 기술적 과제를 달성하기 위한 본 발명의 또 다른 실시 예에 따른 머신러닝을 통한 어플리케이션 트랜잭션 학습 및 실시간 장애 예측과 해결을 위한 방법에 있어 상기 데이터모델부는, 상기 트랜잭션학습부에서 학습 후 데이터모델로 변환시킨 트랜잭션을 저장하고, 동일한 id를 가진 트랜잭션 모델에 대해서 기존 모델과 병합해 성능정보에 대해 평균 성능정보와 각각의 성능정보를 분할해 저장하고, 상기 트랜잭션학습부에서 장애 트랜잭션으로 분류된 데이터 모델은 정상 트랜잭션 모델과 분리하여 저장할 수 있다.
본 발명에 따른 머신러닝을 통한 어플리케이션 트랜잭션 학습 및 실시간 장애 예측과 해결을 위한 방법은 다음과 같은 효과가 있다.
본 발명은 트랙잭션을 학습하고 연관된 인프라의 다양한 성능정보를 관제하고 이를 통해 장애 발생 시의 원인을 추적하고 발생한 문제를 해결할 수 있는 장점이 있다.
본 발명은 어플리케이션과 운용을 위한 인프라 장비에 대한 통합적인 모니터링을 제공할 수 있다.
도 1은 본 발명의 바람직한 실시 예에 따른 머신러닝을 통한 어플리케이션 트랜잭션 학습 및 실시간 장애 예측과 해결을 위한 방법을 나타내는 블록도
도 2는 도 1의 어플리케이션부의 주요 모듈 구성을 나타내는 블록도
도 3은 도 1의 트랜잭션관리부의 주요 모듈 구성을 나타내는 블록도
도 4은 도 3의 관제부의 주요 모듈 구성을 나타내는 블록도
도 5는 도 4의 장애대응부의 주요 모듈 구성을 나타내는 블록도
도 6은 도 3의 학습부의 주요 모듈 구성을 나타내는 블록도
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 게시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성요소를 지칭한다.
이하에서는 본 발명의 바람직한 실시 예들에 따른 머신러닝을 통한 어플리케이션 트랜잭션 학습 및 실시간 장애 예측과 해결을 위한 방법을 상세히 설명하기로 한다. 참고로 본 발명을 설명함에 있어서 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
도 1은 본 발명의 바람직한 실시 예에 따른 머신러닝을 통한 어플리케이션 트랜잭션 학습 및 실시간 장애 예측과 해결을 위한 방법을 나타내는 블록도이다.
도 1에서 도시된 바와 같이, 본 발명의 일 실시 예에 따른 머신러닝을 통한 어플리케이션 트랜잭션 학습 및 실시간 장애 예측과 해결을 위한 방법은 어플리케이션 운영을 위한 인프라를 모니터링하고 사용자의 사용이력에 기반한 트랜잭션 및 시스템관리자의 제어이력을 수집하는 어플리케이션부(100)와; 상기 어플리케이션부(100)로부터 받은 트랜잭션을 모니터링하고, 이상여부를 판단하고, 장애 발생 시 원인 및 해결방안을 판단하고, 트랜잭션 정보를 추출해 학습하는 트랜잭션관리부(200)와; 상기 트랜잭션 관리부에서 학습한 데이터 정보를 저장하는 데이터모델부(300)와; 상기 트랜잭션 관리부로부터 장애 클라이언트에 표시하는 웹서비스부;를 포함할 수 있다.
상기 데이터모델부(300)는, 상기 트랜잭션학습부(222)에서 학습 후 데이터모델로 변환시킨 트랜잭션을 저장하고, 동일한 id를 가진 트랜잭션 모델에 대해서 기존 모델과 병합해 성능정보에 대해 평균 성능정보와 각각의 성능정보를 분할해 저장하고, 상기 트랜잭션학습부(222)에서 장애 트랜잭션으로 분류된 데이터 모델은 정상 트랜잭션 모델과 분리하여 저장할 수 있다.
도 2는 도 1의 어플리케이션부(100)의 주요 모듈 구성을 나타내는 블록도이다.
도 2에서 도시된 바와 같이, 본 발명의 일 실시 예에 따른 머신러닝을 통한 어플리케이션 트랜잭션 학습 및 실시간 장애 예측과 해결을 위한 방법에 있어 상기 어플리케이션부(100)는, 어플리케이션 및 이와 연관된 데이터베이스, 서버, 사용자 모니터링 데이터(RUM)와 같은 인프라의 성능을 관리하는 인프라관리부(110);를 포함하고, 사용자의 사용이력에 기반한 트랜잭션 정보를 수집해 각 트랜잭션 별 id를 부여하여 트랜잭션 관리부로 전달하는 트랜잭션수집부(120);를 포함하고, 관리자의 시스템 제어 및 설정변경이력을 수집하는 제어이력관리부(130);를 포함할 수 있다.
도 3은 도 1의 트랜잭션관리부(200)의 주요 모듈 구성을 나타내는 블록도이다.
도 3에서 도시된 바와 같이, 본 발명의 일 실시 예에 따른 머신러닝을 통한 어플리케이션 트랜잭션 학습 및 실시간 장애 예측과 해결을 위한 방법에 있어 상기 트랜잭션관리부(200)는, 트랙잭션을 실시간 모니터링하고 이상 장애 예측과 장애 발생 시 원인 추적 및 해결방안을 제시하는 관제부(210);를 포함하고, 발생한 트랜잭션을 특정 기준으로 분류하고 학습하는 학습부(220);를 포함할 수 있다.
도 4는 도 3의 관제부(210)의 주요 모듈 구성을 나타내는 블록도이다.
도 4에서 도시된 바와 같이, 본 발명의 일 실시 예에 따른 머신러닝을 통한 어플리케이션 트랜잭션 학습 및 실시간 장애 예측과 해결을 위한 방법에 있어 상기 관제부(210)는, 상기 트랜잭션수집부(120)로부터 받은 트랜잭션 정보를 상기 데이터모델부(300)에 저장된 트랜잭션 모델의 id와 비교하여 동일한 정보를 가진 데이터모델이 있을 경우 해당 데이터모델을 불러와 성능정보를 비교하여 이상여부를 판단하고, 동일한 데이터모델이 생성되지 않은 트랜잭션에 대해서 상기 인프라관리부(110)에서 설정된 임계치를 초과한 정보에 대해 이상여부를 판단하는 모니터링부(211);를 포함하고, 상기 모니터링부(211)에서 데이터모델부(300)의 성능정보 대비 일정 비율 상승 또는 지정한 임계치 대비 일정 비율까지 측정된 성능정보를 잠재적 장애발생성능으로 분류하고 데이터 모델부의 성능정보 또는 지정된 임계치를 초과한 성능정보를 장애발생으로 분류하는 장애예측부(212);를 포함하고, 상기 장애예측부(212)에서 장애예측 또는 발생으로 판단된 성능정보에 대한 유사장애를 분석하고 장애 원인과 해결방안을 제시하는 장애대응부(213);를 포함할 수 있다.
도 5는 도 4의 장애대응부(213)의 주요 모듈 구성을 나타내는 블록도이다.
도 5에서 도시된 바와 같이, 본 발명의 일 실시 예에 따른 머신러닝을 통한 어플리케이션 트랜잭션 학습 및 실시간 장애 예측과 해결을 위한 방법에 있어 상기 장애대응부(213)는, 발생한 장애 트랜잭션 정보를 상기 데이터모델부(300)에 저장되어 있는 장애트랜잭션 데이터모델과 비교하여 동일 또는 유사한 장애이력이 있을 경우 해당 데이터모델을 불러와 원인 및 장애해결이력을 통한 제어방안을 상기 웹서버부(400)를 통해 사용자에게 제시하는 유사장애확인부(2131);를 포함하고, 상기 유사장애확인부(2131)에서 비교 데이터모델이 없는 신규 장애의 경우 해당 트랜잭션이 발생한 어플리케이션을 기준으로 서버, 데이터베이스, 사용자 모니터링 데이터를 연동 분석하여, 기준 임계치를 초과하는 성능정보를 나타내는 인프라를 추적해 임계치 초과 원인을 분석해 상기 웹서버부(400)를 통해 사용자에게 제시하는 장애원인분석부(2132);를 포함할 수 있다.
도 6은 도 3의 학습부(220)의 주요 모듈 구성을 나타내는 블록도이다.
도 6에서 도시된 바와 같이, 본 발명의 일 실시 예에 따른 머신러닝을 통한 어플리케이션 트랜잭션 학습 및 실시간 장애 예측과 해결을 위한 방법에 있어 상기 학습부(220)는, 상기 트랜잭션수집부(120)로부터 전달받은 트랜잭션을 발생 시간(시, 분, 초 등) 단위 또는 특정 구간 단위로 발생한 트랜잭션 그룹을 추출하고 그룹에 포함된 단일 트랜잭션에 연관된 인프라 성능정보를 어플리케이션과 하나의 묶음으로 분류하는 트랜잭션추출부(221);를 포함하고, 상기 트랜잭션분류부에서 분류된 트랜잭션의 구성 정보 및 연관된 인프라장비의 정보를 학습해 하나의 데이터모델로 구분하는 트랜잭션학습부(222);를 포함할 수 있다.
상기 트랜잭션학습부(222)는, 트랜잭션 묶음의 단일 트랜잭션 정보를 구성 영역별 시작~종료시점 및 수행 시간을 학습하고, 해당 트랜잭션과 연관된 인프라 정보를 서버의 경우 CPU 및 Memory 사용률, 데이터베이스의 경우 SQL 소요시간, 데이터베이스 성능정보, 사용자 모니터링 데이터(RUM)의 경우 접속 세션, 사용자 요청정보, 어플리케이션의 경우 에러율, 초당 요청 처리 건수, 소요시간과 같은 트랜잭션 구성정보를 수집해 학습하고 학습한 단일 트랜잭션을 하나의 데이터모델화하고, 임계치 초과 또는 데이터모델의 성능기준정보를 초과하는 장애 트랜잭션은 평시 트랜잭션과 구분해 장애정보, 발생 원인, 상기 제어이력관리부(130)에서 인프라 제어정보를 불러와 데이터모델로 저장해 전달할 수 있다.
이상 첨부된 도면을 참조하여 본 발명의 실시 예를 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등개념으로부터 도출되는 모든 변경 또는 변형된 형태 가 본 발명의 범위에 포함되는 것으로 해석하여야 한다.
100: 어플리케이션부
110: 인프라관리부
120: 트랜잭션수집부
130: 제어이력관리부
200: 트랜잭션관리부
210: 관제부
211: 모니터링부
212: 장애예측부
213: 장애대응부
220: 학습부
221: 트랜잭션추출부
222: 트랜잭션학습부
2131: 유사장애확인부
2132: 장애원인분석부
300: 데이터모델부
400: 웹서버부
500: 클라이언트

Claims (8)

  1. 어플리케이션 운영을 위한 인프라를 모니터링하고 사용자의 사용이력에 기반한 트랜잭션 및 시스템관리자의 제어이력을 수집하는 어플리케이션부;
    상기 어플리케이션부로부터 받은 트랜잭션을 모니터링하고, 이상여부를 판단하고, 장애 발생 시 원인 및 해결방안을 판단하고, 트랜잭션 정보를 추출해 학습하는 트랜잭션관리부;
    상기 트랜잭션 관리부에서 학습한 데이터 정보를 저장하는 데이터모델부;
    상기 트랜잭션 관리부로부터 장애 클라이언트에 표시하는 웹서비스부;를 포함하고,
    상기 어플리케이션부는 어플리케이션 및 이와 연관된 데이터베이스, 서버, 사용자 모니터링 데이터(RUM)와 같은 인프라의 성능을 관리하는 인프라관리부; 사용자의 사용이력에 기반한 트랜잭션 정보를 수집해 각 트랜잭션 별 id를 부여하여 트랜잭션 관리부로 전달하는 트랜잭션수집부; 관리자의 시스템 제어 및 설정변경이력을 수집하는 제어이력관리부;를 포함하고,
    상기 트랜잭션관리부는 트랜잭션을 실시간 모니터링하고 이상 장애 예측과 장애 발생 시 원인 추적 및 해결방안을 제시하는 관제부; 발생한 트랜잭션을 특정 기준으로 분류하고 학습하는 학습부;를 포함하고,
    상기 학습부는 상기 트랜잭션수집부로부터 전달받은 트랜잭션을 발생 시간(시, 분, 초 등) 단위 또는 특정 구간 단위로 발생한 트랜잭션 그룹을 추출하고 그룹에 포함된 단일 트랜잭션에 연관된 인프라 성능정보를 어플리케이션과 하나의 묶음으로 분류하는 트랜잭션추출부; 상기 트랜잭션추출부에서 분류된 트랜잭션의 구성 정보 및 연관된 인프라장비의 정보를 학습해 하나의 데이터모델로 구분하는 트랜잭션학습부;를 포함하는 것을 특징으로 하는 머신러닝을 통한 어플리케이션 트랜잭션 학습 및 실시간 장애 예측과 해결을 위한 방법
  2. 삭제
  3. 삭제
  4. 제 1항에 있어서,
    상기 관제부는,
    상기 트랜잭션수집부로부터 받은 트랜잭션 정보를 상기 데이터모델부에 저장된 트랜잭션 모델의 id와 비교하여 동일한 정보를 가진 데이터모델이 있을 경우 해당 데이터모델을 불러와 성능정보를 비교하여 이상여부를 판단하고, 동일한 데이터모델이 생성되지 않은 트랜잭션에 대해서 상기 인프라관리부에서 설정된 임계치를 초과한 정보에 대해 이상여부를 판단하는 모니터링부;를 포함하고,
    상기 모니터링부에서 데이터모델부의 성능정보 대비 일정 비율 상승 또는 지정한 임계치 대비 일정 비율까지 측정된 성능정보를 잠재적 장애발생성능으로 분류하고 데이터 모델부의 성능정보 또는 지정된 임계치를 초과한 성능정보를 장애발생으로 분류하는 장애예측부;를 포함하고,
    상기 장애예측부에서 장애예측 또는 발생으로 판단된 성능정보에 대한 유사장애를 분석하고 장애 원인과 해결방안을 제시하는 장애대응부;를 포함하는 것을 특징으로 하는 머신러닝을 통한 어플리케이션 트랜잭션 학습 및 실시간 장애 예측과 해결을 위한 방법
  5. 제 4항에 있어서,
    상기 장애대응부는,
    발생한 장애 트랜잭션 정보를 상기 데이터모델부에 저장되어 있는 장애트랜잭션 데이터모델과 비교하여 동일 또는 유사한 장애이력이 있을 경우 해당 데이터모델을 불러와 원인 및 장애해결이력을 통한 제어방안을 웹서버부를 통해 사용자에게 제시하는 유사장애확인부;를 포함하고,
    상기 유사장애확인부에서 비교 데이터모델이 없는 신규 장애의 경우 해당 트랜잭션이 발생한 어플리케이션을 기준으로 서버, 데이터베이스, 사용자 모니터링 데이터를 연동 분석하여, 기준 임계치를 초과하는 성능정보를 나타내는 인프라를 추적해 임계치 초과 원인을 분석해 상기 웹서버부를 통해 사용자에게 제시하는 장애원인분석부;를 포함하는 것을 특징으로 하는 머신러닝을 통한 어플리케이션 트랜잭션 학습 및 실시간 장애 예측과 해결을 위한 방법
  6. 삭제
  7. 제 1항에 있어서,
    상기 트랜잭션학습부는,
    트랜잭션 묶음의 단일 트랜잭션 정보를 구성 영역별 시작~종료시점 및 수행 시간을 학습하고, 해당 트랜잭션과 연관된 인프라 정보를 서버의 경우 CPU 및 Memory 사용률, 데이터베이스의 경우 SQL 소요시간, 데이터베이스 성능정보, 사용자 모니터링 데이터(RUM)의 경우 접속 세션, 사용자 요청정보, 어플리케이션의 경우 에러율, 초당 요청 처리 건수, 소요시간과 같은 트랜잭션 구성정보를 수집해 학습하고 학습한 단일 트랜잭션을 하나의 데이터모델화하고, 임계치 초과 또는 데이터모델의 성능기준정보를 초과하는 장애 트랜잭션은 평시 트랜잭션과 구분해 장애정보, 발생 원인, 상기 제어이력관리부에서 인프라 제어정보를 불러와 데이터모델로 저장해 전달하는 것을 특징으로 하는 머신러닝을 통한 어플리케이션 트랜잭션 학습 및 실시간 장애 예측과 해결을 위한 방법
  8. 제 1항에 있어,
    상기 데이터모델부는,
    상기 트랜잭션학습부에서 학습 후 데이터모델로 변환시킨 트랜잭션을 저장하고, 동일한 id를 가진 트랜잭션 모델에 대해서 기존 모델과 병합해 성능정보에 대해 평균 성능정보와 각각의 성능정보를 분할해 저장하고,
    상기 트랜잭션학습부에서 장애 트랜잭션으로 분류된 데이터 모델은 정상 트랜잭션 모델과 분리하여 저장하는 것을 특징으로 하는 머신러닝을 통한 어플리케이션 트랜잭션 학습 및 실시간 장애 예측과 해결을 위한 방법
KR1020220055137A 2022-05-04 2022-05-04 머신러닝을 통한 어플리케이션 트랜잭션 학습 및 실시간 장애 예측과 해결을 위한 방법 KR102509380B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220055137A KR102509380B1 (ko) 2022-05-04 2022-05-04 머신러닝을 통한 어플리케이션 트랜잭션 학습 및 실시간 장애 예측과 해결을 위한 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220055137A KR102509380B1 (ko) 2022-05-04 2022-05-04 머신러닝을 통한 어플리케이션 트랜잭션 학습 및 실시간 장애 예측과 해결을 위한 방법

Publications (1)

Publication Number Publication Date
KR102509380B1 true KR102509380B1 (ko) 2023-03-14

Family

ID=85503089

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220055137A KR102509380B1 (ko) 2022-05-04 2022-05-04 머신러닝을 통한 어플리케이션 트랜잭션 학습 및 실시간 장애 예측과 해결을 위한 방법

Country Status (1)

Country Link
KR (1) KR102509380B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102556788B1 (ko) * 2023-06-01 2023-07-20 (주)와치텍 다중 웹애플리케이션에 대한 성능 모니터링 및 이벤트 사전 예측을 위한 머신러닝 학습 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013254451A (ja) * 2012-06-08 2013-12-19 Nippon Telegr & Teleph Corp <Ntt> 監視装置、監視方法及び監視プログラム
KR101984730B1 (ko) * 2018-10-23 2019-06-03 (주) 글루시스 서버 장애 자동 예측 시스템 및 자동 예측 방법
JP6708219B2 (ja) * 2015-12-28 2020-06-10 日本電気株式会社 ログ分析システム、方法およびプログラム
KR102139058B1 (ko) * 2019-05-10 2020-07-29 (주)비앤에스컴 서버 관리 장치를 구비한 클라우드 서버 및 로컬 서버를 이용하는 제로클라이언트 단말기용 클라우드 컴퓨팅 시스템
KR102307948B1 (ko) * 2020-03-27 2021-10-05 주식회사 와탭랩스 학습 기반의 트랜잭션 관찰 시스템 및 그 제어방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013254451A (ja) * 2012-06-08 2013-12-19 Nippon Telegr & Teleph Corp <Ntt> 監視装置、監視方法及び監視プログラム
JP6708219B2 (ja) * 2015-12-28 2020-06-10 日本電気株式会社 ログ分析システム、方法およびプログラム
KR101984730B1 (ko) * 2018-10-23 2019-06-03 (주) 글루시스 서버 장애 자동 예측 시스템 및 자동 예측 방법
KR102139058B1 (ko) * 2019-05-10 2020-07-29 (주)비앤에스컴 서버 관리 장치를 구비한 클라우드 서버 및 로컬 서버를 이용하는 제로클라이언트 단말기용 클라우드 컴퓨팅 시스템
KR102307948B1 (ko) * 2020-03-27 2021-10-05 주식회사 와탭랩스 학습 기반의 트랜잭션 관찰 시스템 및 그 제어방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102556788B1 (ko) * 2023-06-01 2023-07-20 (주)와치텍 다중 웹애플리케이션에 대한 성능 모니터링 및 이벤트 사전 예측을 위한 머신러닝 학습 방법

Similar Documents

Publication Publication Date Title
CN111209131B (zh) 一种基于机器学习确定异构系统的故障的方法和系统
KR101856543B1 (ko) 인공지능 기반의 장애 예측 시스템
CN111212038B (zh) 基于大数据人工智能的开放数据api网关系统
Gu et al. Online anomaly prediction for robust cluster systems
CN108667666A (zh) 一种基于可视化技术的智能运维方法及其系统
CN108596229A (zh) 在线异常的监测诊断方法和系统
CN100412993C (zh) 基于状态监测的核电厂智能维护系统
US8874642B2 (en) System and method for managing the performance of an enterprise application
CN102713861A (zh) 操作管理装置、操作管理方法以及程序存储介质
CN114267178B (zh) 一种车站的智能运营维护方法及装置
KR102509380B1 (ko) 머신러닝을 통한 어플리케이션 트랜잭션 학습 및 실시간 장애 예측과 해결을 위한 방법
CN117453137A (zh) 云化智能运维系统数据管理系统
KR101219364B1 (ko) 기관 서버와 업무 서버 간의 연계 서비스에 대한 모니터링 방법 및 모니터링 서버, 그 기록매체
Weiss Predicting telecommunication equipment failures from sequences of network alarms
CN116010190A (zh) 一种esb服务监控管理系统及方法
CN117331794A (zh) 基于大数据的应用软件监控分析系统及方法
CN117235169A (zh) 一种智慧运维数据存储平台
CN117220917A (zh) 一种基于云计算的网络实时监控方法
Li et al. An integrated data-driven framework for computing system management
JP2020035297A (ja) 機器状態監視装置及びプログラム
CN114531338A (zh) 一种基于调用链数据的监控告警和溯源方法及系统
CN113691390A (zh) 一种云端协同的边缘节点报警系统及方法
CN106779221A (zh) 面向电力业务的信息应用系统故障趋势信息获取方法
CN112711508A (zh) 面向大规模客户端系统的智能运维服务系统
JP7411724B2 (ja) システム分析装置及びシステム分析方法

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant