KR102326202B1 - 장애를 예측하기 위한 관리서버 - Google Patents

장애를 예측하기 위한 관리서버 Download PDF

Info

Publication number
KR102326202B1
KR102326202B1 KR1020190121334A KR20190121334A KR102326202B1 KR 102326202 B1 KR102326202 B1 KR 102326202B1 KR 1020190121334 A KR1020190121334 A KR 1020190121334A KR 20190121334 A KR20190121334 A KR 20190121334A KR 102326202 B1 KR102326202 B1 KR 102326202B1
Authority
KR
South Korea
Prior art keywords
failure
data
data collection
probability
module
Prior art date
Application number
KR1020190121334A
Other languages
English (en)
Other versions
KR20210039039A (ko
Inventor
윤성군
Original Assignee
주식회사 아이옵스테크놀러지
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 아이옵스테크놀러지 filed Critical 주식회사 아이옵스테크놀러지
Priority to KR1020190121334A priority Critical patent/KR102326202B1/ko
Publication of KR20210039039A publication Critical patent/KR20210039039A/ko
Application granted granted Critical
Publication of KR102326202B1 publication Critical patent/KR102326202B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
    • G06Q10/06375Prediction of business process outcome or impact based on a proposed change
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Operations Research (AREA)
  • Development Economics (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Finance (AREA)
  • Data Mining & Analysis (AREA)
  • Accounting & Taxation (AREA)
  • Technology Law (AREA)
  • Debugging And Monitoring (AREA)

Abstract

본 소프트웨어 기술은 시스템에서 운영하는 소프트웨어들의 다양한 조건과 환경에서 발생하는 장애를 사전 예측하기 위한 데이터 추출 기술로 일방적인 데이터 수집 방식이 아닌 적재적소에 필요한 데이터를 집중적으로 추출하고, 장애의 예측 감지 후 확률 분석 후 자동 반응하여 관련 데이터를 집중적으로 추출하는 반응형 데이터 수집 기술 분야이다. 장애를 예측하는 관리서버를 만들고 상기 관리서버는 데이터 수집을 하는 데이터 수집부, 수집된 데이터에 기초하여 장애 확률을 예측하는 장애 확률 예측부와 데이터 수집 주기를 조절하는 데이터 수집 주기 조절부로 구성되도록 한다. 상기 관리서버를 이용하여 금융권에서 발생하는 장애를 정확하게 예측하며 장애 발생 시 적은 비용으로 해결하도록 한다.

Description

장애를 예측하기 위한 관리서버{MANAGEMENT SERVER TO PREDICT OBSTACLE}
본 출원은 금융 시스템에서 발생하는 장애를 예측하는 것에 관한 것이다. 좀 더 구체적으로는, 본 출원은 장애를 예측하고 장애 발생 확률을 분석하고 자동 반응하여 관련 데이터를 집중적으로 추출하는 것에 관한 것이다.
현대 사회에서 정보시스템의 발전으로 인한 편리함은 배제할 수 없게 되었다. 특히 요즘 다양한 분야에서 사용 되고 있는 인공지능이 그 예이다. 자동화 기능에 바탕이 되는 인공지능은 다양한 시장에 분포되어 있다. 인공지능 시장은 현재 뱅크 코어 솔루션(Banking Core Solution)을 중심으로 성장하고 있다. 뱅크 코어 솔루션(Banking Core Solution)을 바탕으로 은행 업무 시 발생하는 장애를 인공지능을 이용하여 예측하고 해결하고자 하는 기술이 많이 발표 되고 있다.
인공지능을 이용하여 장애를 예측하는 기술은 IT 자원 구성 요소 별 직접적인 장애 요건 정의를 통해 필요한 핵심 데이터만 추출 가능하고, 학습 과정에서 필요한 데이터를 수시로 추가하는 기능을 제공한다. 또한 시스템 로그기반이 아닌 IT 자원구성 요소 별 실시간 운영 현황 정보 기반의 장애 예측 정보에 대해 알 수 있다. 하지만 상기와 같이 데이터를 수시로 추가하는 경우, 장애를 예측하는데 오랜 시간이 걸리고, 많은 비용을 필요로 한다. 게다가 정보 시스템의 이용이 많아지면서 다양한 장애가 발생되고 있다. 현재 기술에서는 이러한 장애에 대한 시스템 로그를 표출하고 있으나 다양하고 방대한 양의 시스템 로그가 존재하며 장애와 실제로 연관되어 있는지의 여부 또한 불확실하다.
본 출원은 상기와 같은 인공 지능 장애 예측 기술의 단점을 보완하는 관리서버를 만들고자 한다. 대용량 데이터 기반 학습 대비 시스템 비용과 학습 시간을 최소화하고 필요한 데이터만을 주기적으로 추출하여 추가 혹은 삭제의 용이성을 제공하여 효율성을 높이도록 하였다.
본 출원은 적은 비용으로 장애를 정확하게 예측할 수 있는 관리서버를 제공하는 데에 그 목적이 있다.
본 출원의 실시 예에 따른 관리서버는 데이터를 주고받으며 발생하는 장애를 예측하는 단계를 포함한다. 상기 관리서버는 데이터 수집을 하는 데이터 수집부, 수집된 데이터에 기초하여 장애 확률을 예측하는 장애 확률 예측부와 데이터 수집 주기를 조절하는 데이터 수집 주기 조절부로 구성 되어 있다.
데이터 수집부는 적어도 하나의 외부 클라이언트 혹은 서버와 통신하며, 적어도 하나의 외부 클라이언트 혹은 서버로부터 데이터를 미리 설정한 주기에 따라 수집하는 것이다. 장애 확률 예측부는 데이터 수집부에서 수집된 데이터에 기초하여, 장애 발생 확률을 연산한다. 데이터 수집 주기 조절부는 장애 확률 예측부에서 연산된 장애 발생 확률에 기초하여, 데이터 수집부의 데이터 수집 주기를 조절 하는 역할을 한다.
본 출원에 따른 관리서버는 적은 비용으로 장애를 정확하게 예측 할 수 있다.
도 1은 본 출원의 관리서버(100)가 적용된 금융 시스템을 나타낸 도면이다.
도 2는 본 출원의 실시 예에 따른 도 1의 관리서버(100)의 일 예를 보여주는 도면이다.
도 3본 출원의 관리서버(100)의 구성 요소 중 하나인 데이터 수집부(110)의 구성을 나타낸 도면이다.
도 4는 본 출원의 데이터 수집 항목 설정 모듈(111)의 예시를 나타낸 도면이다.
도 5는 본 출원의 장애 확률 예측부(120)에서 예측할 수 있는 장애의 종류를 나타낸 도면이다.
도 6은 본 출원의 다른 실시 예에 따른 데이터 수집부(110)를 보여주는 도면이다.
도 7은 데이터 수집부(110)의 표준 행렬 구성 모듈(113)과 정규화 레이어 모듈(114)의 동작을 설명하는 도면이다.
도 8은 자동화 기능이 적용된 데이터 수집 모듈(112)을 나타낸 도면이다.
도 9는 서버 환경을 검색하고 분류하는 모듈(115)을 포함한 데이터 수집부(110) 도면이다.
도 10은 서버의 환경에 따라 자동 수집 항목을 적용하는 방법을 나타낸 순서도이다.
이하에서는 본 출원의 자세한 내용과 특징은 첨부된 도면을 참조하여 상세히 설명하도록 한다. 그러나 본 명세서가 이하에서 개시되는 실시 예들에 한정 되는 것이 아니라 다양한 형태로 응용 가능하며, 기술되는 설명들은 그러한 응용의 바탕이 되어 상기 응용 방안 모두를 포함하고자 하는 것이다.
도 1은 본 출원의 관리서버(100)가 적용된 금융 시스템(10)을 나타낸 도면이다.
도 1을 참조하면, 금융 시스템(10)은 관리서버(100) 및 복수의 서브 서버(210~240)를 포함한다.
관리서버(100)는 서브 서버(210~240)로부터 유지 및 관리에 필요한 데이터를 수신할 수 있다. 요청된 데이터는 서브 서버(210~240)의 기능에 따른 정보일 수 있고, 서브 서버(210~240)를 관리하는데 필요한 정보일 수 있다.
관리서버(100)는 복수의 서브 서버(210~240)와 통신하며 데이터를 주고받을 수 있다. 관리서버(100)는 데이터를 미리 설정된 주기에 따라 수집하고 장애 발생 확률을 연산하며 데이터 수집 주기를 조절하는 기능을 포함할 수 있다.
금융 시스템(10)에 사용되는 관리서버(100)는 은행, 보험, 증권회사와 같은 금융 기관들에 적용 가능하다. 금융 시스템(10)에 사용되는 관리서버(100)에는 금융 업무 시스템, 입수 정보를 저장, 통계, 분석하는 정보 관리 시스템과 같은 데이터를 저장하고 분석하는 시스템이 포함 될 수 있다.
예를 들어, 은행에서 관리서버(100)를 적용했을 때, 관리서버(100)는 입출금 프로그램에 대한 데이터를 수집하고 있다. 관리서버(100)가 데이터 수집 중 시스템 연계가 되지 않는다고 한다면, 연계 항목 장애 발생 확률이 높아진 것이 판단 될 것이다. 그 결과, 관리서버(100)는 연계 항목 장애 원인에 대한 데이터를 집중 추출을 하게 되고 데이터 수집 주기 또한 빨라지게 된다.
서브 서버(210~240)는 적어도 하나이상이며, 관리서버(100)와 통신하며 데이터를 주고받아 관리서버(100)가 데이터를 수집 할 수 있도록 한다. 서브 서버는 외부 클라이언트일 수 있다. 외부 클라이언트는 모니터링 되는 호스트들 일 수 있다. 예를 들어 금융 업무, 고객의 정보, 인터넷 뱅킹, 보안, 서비스에 대한 현황들이 서브 서버(210~240)에 포함 될 수 있다.
서브 서버(210~240)는 예를 들어, Uinx서버, Window서버, Oracle, Web, Was, M/D, Application SAP일 수 있다. 다만, 본 출원의 기술적 사상은 이에 한정되지 않으며, 상기 서브 서버의 개수 및 종류는 다양할 수 있다.
서브 서버(210~240)의 유지 및 관리에 필요한 데이터로는 CPU 사용률, Memory 점유율, Disk 자동 수집과 같은 시스템의 리소스에 대한 데이터일 수 있다. 데이터를 다른 예로는 Mother board 상태, CPU 온도, Device Driver 정보와 같은 시스템의 하드웨어에 관한 정보 일 수 있다. 다만, 본 출원의 기술적 사상은 이에 한정되지 않으며, 서브 서버(210~240)의 유지 및 관리에 필요한 정보는 상기 예시 외에 다양할 수 있다.
금융 시스템(10)에서는 관리서버(100)와 적어도 하나의 서브 서버(210~240)가 통신을 하며 데이터를 주고받을 수 있다.
본 출원의 일 실시 예에 따른 관리서버(100)는 미리 설정된 주기에 따라 서브 서버(210~240)로부터 데이터를 수집하고, 수집된 데이터에 기초하여 장애 발생 확률을 연산 할 수 있다.
특히, 본 출원의 실시 예에 따른 관리서버(100)는 장애 발생 확률에 기초하여 데이터 수집 주기를 조절함으로써, 장애 발생 확률이 높은 데이터를 집중적으로 추출 할 수 있다. 이와 같이 관리서버(100)를 금융시스템(10)에 적용할 경우, 대용량 데이터 기반 학습 대비 시스템 비용과 학습 시간을 최소화하고 필요한 데이터만을 주기적으로 추출하여 추가 혹은 삭제의 용이성을 제공하여 효율성을 높일 수 있다.
도 2는 본 출원의 실시 예에 따른 도 1의 관리서버(100)의 일 예를 보여주는 도면이다.
도 2를 참조하면, 관리서버(100)는 미리 설정된 주기에 따라 데이터를 수집하고, 수집된 데이터를 이용하여 장애 발생 확률을 연산할 수 있다. 관리서버(100)는 연산된 장애 발생 확률을 바탕으로 주기를 재설정하고, 장애 발생 확률이 높은 데이터를 집중 추출할 수 있다. 관리서버 (100)는 데이터 수집부 (110), 장애 확률 예측부 (120), 데이터 수집 주기 조절부 (130)을 포함할 수 있다.
데이터 수집부(110)는 설치된 소프트웨어와 하드웨어를 자동 검색할 수 있다. 예를 들어, 데이터 수집부(110)는 보안 및 암호화 기능을 포함한 메인 프레임, 통신/인터넷 신기술 접목이 유연한 구조인 개방형 유닉스 시스템과 같은 하드웨어를 자동 검색할 수 있다. 데이터 수집부(110)는 표준 어플리케이션 개발 및 운용 환경을 제공하는 패키지인 패키지화된 프레임 워크와 같은 소프트웨어가 자동 검색을 할 수 있다.
또한 데이터 수집부(110)는 적어도 하나의 서브 서버(210~240)와 통신할 수 있다. 예를 들어, 데이터 수집부(110)는 인터넷, 블루투스, 인트라넷, 와이파이와 같은 인터페이스를 이용하여 서브 서버(210~240)와 통신할 수 있다.
그리고 데이터 수집부(110)는 데이터를 미리 설정된 주기에 따라 수집할 수 있다. 예를 들어, 서브 서버(210~240)가 금융 업무, 고객의 정보, 인터넷 뱅킹, 보안으로 구성되어 있다면 관리서버(100)가 서브 서버(210~240)의 데이터를 미리 설정된 주기마다 수집하게 된다. 주기가 1분이라면, 1분마다 금융 업무 현황, 고객 정보의 현황, 인터넷 뱅킹 현황, 보안 현황에 대해 관리서버(100)로 데이터를 전송하게 된다.
데이터 수집부(110)는 데이터 수집 항목에 따라 장애 확률 데이터를 수집 할 수 있고 장애 해제 데이터를 수집할 수 있다. 장애 확률 데이터는 높은 발생 확률을 가진 장애에 대한 데이터라 할 수 있다.
예를 들어, 연계 항목 장애의 발생 확률이 높으면 연계 항목 장애의 원인에 대한 데이터를 수집한다. 장애 해제 데이터는 장애가 해결되고 원 상태로 복구하기 위해 필요한 데이터라고 할 수 있다. 예를 들어, 연계 항목 장애가 발생하였다가 복구되면 원래 수집하고 있던 데이터 항목으로 되돌아가게 된다.
장애 확률 예측부(120)는 수집된 데이터에 기초하여 장애 확률을 예측할 수 있다. 예를 들어, 연계 항목에 대한 데이터가 많다면 연계 항목에서 장애가 발생할 확률이 높을 수 있다. 혹은 연계 항목에 대한 데이터가 전과는 다르게 보인다면 장애가 발생할 확률이 높을 수 있다.
장애 확률 예측 결과는 인공지능 딥러닝을 통해 모델링 할 수 있다. 예를 들어, 발생한 장애의 원인이 여러 가지라면 원인으로 파악되는 확률이 높은 순서대로 인공지능 딥러닝을 이용하여 모델링 할 수 있다. 장애의 원인일 확률이 높은 순서뿐만 아니라, 모델링의 기준은 다양하게 적용될 수 있다.
장애 확률 예측 결과의 모델링에 적용될 가중치는 장애의 구분 혹은 수집 항목에 따라 차등 적용 될 수 있다. 예를 들어, 연계 항목 장애와 인터널 장애가 동시에 발생 하였다면 두 가지의 장애 중에서 비교적 심한 오류를 나타내는 장애를 먼저 해결하도록 가중치를 설정할 수 있다. 가중치를 주는 기준은 비교적 심한 오류에 더 크게 줄 수 도 있지만 다양한 기준을 적용할 수 있다.
데이터 수집 주기 조절부(130)는 장애 확률에 따라, 데이터 수집 주기를 조절할 수 있다. 예를 들어, 장애 발생 확률이 높을 경우에는 데이터 수집 주기를 짧게 하여 장애와 관련된 데이터를 많이 수집하도록 한다. 반대로 장애 발생 확률이 낮을 경우에는 데이터 수집 주기를 길게 하여 필요한 데이터만을 수집하도록 한다.
도 3은 본 출원의 관리서버(100)의 구성 요소 중 하나인 데이터 수집부(110)의 구성을 나타낸 도면이다.
도 3을 참조하면, 데이터 수집부(110)는 장애가 발생했는지의 여부에 따라 장애가 발생 했을 경우에는 발생한 장애에 대한 데이터를, 장애가 복구 되었을 경우에는 장애 발생 전의 데이터를 수집한다.
데이터 수집부(110)는 데이터 수집 항목 설정 모듈(111)과 데이터 수집 모듈(112)을 포함할 수 있으며, 데이터 수집 항목 설정 모듈(111)의 경우, 장애 확률 정보 수집 모듈(111_1)과 장애 해제 정보 수집 모듈(111_2)을 포함할 수 있다.
데이터 수집 항목 설정 모듈(111)은 장애 확률 정보에 따라 데이터의 수집 항목을 설정하도록 조절할 수 있다. 장애 확률 예측부(120)에서 장애 확률이 높아졌을 경우에는 장애와 관련된 데이터만을 집중적으로 수집 할 수 있다. 반면, 장애가 해결되었을 경우에는 원래의 수집 항목으로 되돌아가도록 할 수 있다.
장애 확률 정보 수집 모듈(111_1)은 장애 확률 예측부(120)에서의 장애 확률에 따라 조절될 수 있다. 장애 확률 정보 수집 모듈(111_1)은 특정 장애 발생 확률이 높아졌을 경우에 그 장애에 관한 데이터만을 집중 추출할 수 있다. 예를 들어, 연계 항목 장애 확률이 높아 졌다면 연계 항목 장애의 원인이 될 수 있는 데이터들을 집중적으로 추출하도록 하는 데이터를 데이터 수집 모듈(112)에 줄 수 있다.
장애 해제 정보 수집 모듈(111_2)는 발생한 장애를 해결하고 난 뒤, 원래의 데이터 수집 항목으로 돌아가는 경우를 나타낼 수 있다. 예를 들어, 기존의 금융 현황 고객 정보 현황을 수집하고 있었다면 장애가 발생하였다가 복구되었을 때, 금융 현황, 고객 정보 현황과 같이 원래 수집하고 있던 항목으로 되돌아가 데이터를 수집하도록 하는 데이터를 데이터 수집 모듈(112)에 줄 수 된다.
데이터 수집 모듈(112)은 데이터 수집 항목 설정 모듈(111)을 기반으로 장애 확률 정보 수집 모듈(111_1)에서 특정 장애에 대한 정보를 수집하라는 신호가 오게 되면 특정 장애에 대한 데이터를 수집 하도록 한다.
예를 들어, 연계 항목 장애 확률이 높아 졌다면 연계 항목 장애의 원인이 될 수 있는 데이터들을 집중적으로 추출할 수 있다.
반면, 데이터 수집 모듈(112)에 장애 해제 정보 수집 모듈(111_2)의 데이터가 오게 된다면, 장애를 해결했기 때문에 장애 발생 전의 데이터 수집 항목으로 돌아가도록 한다.
예를 들어, 기존의 금융 현황 고객 정보 현황을 수집하고 있었다면 장애가 발생하였다가 복구되었을 때, 금융 현황, 고객 정보 현황과 같이 원래 수집하고 있던 항목으로 되돌아가 데이터를 수집할 수 있다.
도 4는 본 출원의 데이터 수집 항목 설정 모듈(111)의 예시를 나타낸 도면이다.
도 4를 참고하면, 데이터 수집 항목 설정 모듈(111)은 데이터 수집 항목을 조절하도록 한다. 장애 확률 예측부(120)에서 특정 장애 발생 확률이 높아졌을 경우, 데이터 수집 항목 조절 모듈(111)은 특정 장애와 관련된 데이터를 집중적으로 수집할 수 있도록 한다.
데이터 수집 항목 조절 모듈(111)은 장애가 발생 하였을 경우에, 어떠한 장애인지 파악하고 장애를 해결하기 위해 원인이 되는 데이터를 수집하도록 하는 기능을 할 수 있다.
예를 들어, 장애 확률 예측부에서 장애의 한 종류인 Was 서비스 멈춤(Was Service shutdown)의 확률이 증가한 것으로 판단 된 경우에는 Was 서비스 지연(Was Service delay)이 발생했거나 엄청난 양의 메모리 크기(Heap Memory Size)가 증가 돼서 장애가 발생했다고 판단 할 수 있다.
데이터 수집 항목 설정 모듈(111)은 장애를 해결하기 위해 Was 서비스 지연(Was Service delay)와 엄청난 양의 메모리 크기(Heap Memory Size) 증가 현상이 발생하는 이유에 대한 데이터를 수집하도록 한다. 이러한 방법으로 분석을 하게 되면 장애가 발생한 이유를 파악 할 수 있다.
이와 같이, 데이터 수집 항목 조절 모듈(111)은 장애 확률 예측부(120)의 결과를 바탕으로 수집해야 할 데이터를 파악할 수 있다. 수집해야할 데이터는 데이터 수집 모듈(112)에서 수집하게 된다.
도5는 본 출원의 장애 확률 예측부(120)에서 예측할 수 있는 장애의 종류를 나타낸 도면이다.
도 5를 참조하면, 장애의 종류는 장애 예측 확률부(120)에서 필요한 데이터이다. 장애는 여러 종류가 있으며 장애를 예측하고 해결하기 위해서는 장애에 관련된 데이터가 필요하다. 장애에는 통제 불가능한 재해를 제외한 발생원인 관점에서 직접적으로 영향을 미치는 장애가 있다.
예를 들면, 인적 장애, 시스템 장애, 기반구조장애와 같은 통제 가능한 요인들에 의한 정보시스템의 기능저하, 오류, 고장이 있다.
장애는 정보시스템 운영상에서 발생되는 사건으로 미약하더라도 정보시스템에 영향을 주게 된다. 이러한 장애들은 환경, 서비스, 설정, 자원, 연계, 성능, 리소스와 같은 정보 시스템의 바탕이 되는 요소들을 통해 예측이 가능하다. 예측 가능한 지표를 적용하여 장애 예측 및 해결을 자동화 할 수 있다.
한편, 도 5에 도시된 장애의 종류는 예시적인 것이며, 본 출원의 기술적 사상은 이에 한정되지 않음이 이해될 것이다. 예를 들어, 본 발명의 다른 일 실시예에 따르면, 상기 장애는 장애가 발생한 부품의 종류에 따라 어댑턴 관련 장애, CPU 관련 장애, 디스크 관련 장애, 전원 관련 장애, FAN 관련 장애, 플랫폼 펌웨어 관련 장애로 구분 될 수 있다.
도 6은 본 출원의 다른 실시 예에 따른 데이터 수집부(110)를 보여주는 도면이다.
도 6을 참조하면, 데이터 수집부(110)는 적어도 하나의 서브 서버(210~240)와 통신할 수 있고, 데이터를 미리 설정된 주기에 따라 수집할 수 있다. 데이터 수집부(110)는 데이터 수집 항목에 따라 장애 확률 데이터를 수집 할 수 있고 장애 해제 데이터를 수집할 수 있다. 그리고 장애 구분에 따라 가중치 적용과 딥러닝을 통한 장애 확률 계산이 가능하다.
데이터 수집부 (110)는 데이터 수집 항목 설정 모듈(111), 데이터 수집 모듈(112), 표준 행렬 구성 모듈(113), 정규화 레이어 모듈(114)을 포함할 수 있다.
데이터 수집 항목 설정 모듈(111)은 도 3에 도시된 데이터 수집 항목 설정 모듈(111)과 동일하다.
데이터 수집 모듈(112)은 도 3에 도시된 데이터 수집 모듈(112)과 동일하다. 이에, 이하에서는 동일하거나 유사한 구성 요서는 동일하거나 유사한 참조번호를 사용하여 설명될 것이며, 중복되는 설명은 명확하고 간결한 설명을 위해 생략될 것 이다.
표준 행렬 구성 모듈(113)은 이전에 수집된 데이터를 행렬로 저장해 둘 수 있다. 장애가 해결되어 초기 설정의 데이터 항목으로 되돌아가는 경우에 집중 추출 항목이 아닌 데이터도 가지고 있어야 한다. 표준 행렬 구성 모듈(113)은 데이터 이탈(drop out)을 방지할 수 있다.
예를 들어, 장애가 해결 되었는데 장애가 발생하기 전의 데이터가 존재하지 않는다면 장애 해결을 위해 집중 추출한 데이터를 기반으로 데이터가 수집 될 수 있다. 그렇다면 새로운 장애가 발생했을 경우에 인지를 하지 못하는 상황이 생길 수 있다. 그렇기 때문에, 장애 발생 이전에 수집된 데이터를 행렬로 저장해두고 장애 해결시 이전에 수집된 데이터로 돌아 가야한다.
정규화 레이어 모듈(114)은 장애의 구분에 따라 혹은 수집 항목에 따라 가중치를 차등 적용하여 가중치가 높은 장애를 먼저 해결 할 수 있다.
예를 들어, 장애의 구분에 따라 가중치를 적용한다면, 연계 항목 장애가 인터널 장애보다 가중치가 클 경우에 정규화 레이어 모듈(114)은 연계 항목 장애를 먼저 해결하도록 할 수 있다.
도 7은 데이터 수집부(110)의 표준 행렬 구성 모듈(113)과 정규화 레이어 모듈(114)의 동작을 설명하는 도면이다.
도 7을 참조하면, 표준 행렬 구성 모듈(113)은 데이터 이탈(drop out)을 방지하기 위하여 매트릭스 형태로 데이터를 관리할 수 있다. 표준 행렬은 메모리에 별도로 저장된다.
예를 들어, 장애가 해제되어 초기 설정의 데이터 항목으로 되돌아가는 경우에 이전에 수집된 데이터 중에서 집중 추출 항목이 아닌 데이터 항목도 가지고 있어야 더 정확한 모델링으로 업데이트 할 수 있다. 정확한 모델링을 통해 장애 확률 예측의 정확성을 높일 수 있다.
정규화 레이어 모듈(114)은 장애의 구분에 따라 혹은 수집 항목에 따라 가중치를 차등 적용할 수 있다.
예를 들어, A 장애와 B 장애의 장애 발생 확률이 같게 나왔을 경우에 가중치가 더 큰 장애를 먼저 해결하도록 할 수 있다.
도 8은 자동화 기능이 적용된 데이터 수집 모듈(112)을 나타낸 도면이다.
도 8을 참조하면, 데이터 수집은 장애가 발생할 확률이 높아지면 해당 팩트들의 수집 주기를 조절하여 장애 관련 정보를 실시간으로 수집한다. 데이터의 주기는 표본에서 만들어진 기대값과 비례하여 자동 조정 하도록 한다. 데이터 자동 병합 기술을 이용하여 장애 발생 확률을 효율적으로 예측하도록 할 수 있다.
또한 데이터 이탈(drop out) 방지를 위한 데이터 수집과 주기재설정으로 변경된 데이터는 메인 데이터를 집중적으로 수집하여 효율적인 운영이 가능하도록 한다.
반면 은닉 모델에서 만들어진 확률을 사용하지 않는 이유는 은닉 계층이 팩트들의 퍼셉트론(perceptron)으로 가공되기 때문이라 할 수 있다. 이때 퍼셉트론(perceptron)이란 일종의 학습 기계로서, 뇌의 학습 기능을 모델화한 기계라고 할 수 있다.
도 9는 서버 환경을 검색하고 분류하는 모듈(115)을 포함한 데이터 수집부(110) 도면이다.
도 9를 참조하면, 서버환경 검색 / 분류 모듈(115)은 설치된 시스템을 검색하고 검색된 시스템을 카테고리 별로 분류할 수 있다. 서버 환경 검색 / 분류 모듈(115)은 HW와 SW의 검색 및 분류 모듈로 구성 되어 SW와 HW를 자동으로 검색할 수 있다.
하드웨어는 보안 및 암호화 기능을 포함한 메인 프레임, 통신/인터넷 신기술 접목이 유연한 구조인 개방형 유닉스 시스템을 예로 들 수 있다. 소프트웨어는 표준 어플리케이션 개발 및 운용 환경을 제공하는 패키지인 패키지화된 프레임 워크를 예로 들 수 있다.
서버환경 검색 / 분류 모듈(115)이 시스템을 카테고리 별로 분류 하고 데이터 수집 항목 설정 모듈(111)이 서버 환경 맞는 수집 데이터 항목을 자동 설정하도록 한다.
도 10은 서버의 환경에 따라 자동 수집 항목을 적용하는 방법을 나타낸 순서도이다.
도 10을 참조하면, 자동화 기능을 포함한 데이터 수집 모듈(112)은 장애를 대응하는 직접적인 팩터를 서버의 환경에 맞게 자동 수집 할 수 있도록 한다. 시스템이 카테고리 별 고유의 정보를 가지고 있으며, 표준화 하고 표준화 된 카테고리에 맞는 지표를 자동 연계시켜 장애 예측에 필요한 데이터를 적절하게 수집할 수 있도록 한다.
자동화 기능을 포함한 데이터 수집 모듈(112)의 작동 방법은 먼저 설치된 하드웨어를 자동 검색하고 수집하여 카테고리를 분류한다. 하드웨어는 보안 및 암호화 기능을 포함한 메인 프레임, 통신/인터넷 신기술 접목이 유연한 구조인 개방형 유닉스 시스템을 예로 들 수 있다.
그리고 자동화 기능을 포함한 데이터 수집 모듈(112)은 설치된 소프트웨어의 상황을 검색하고 수집한다. 소프트웨어는 표준 어플리케이션 개발 및 운용 환경을 제공하는 패키지인 패키지화된 프레임 워크를 예로 들 수 있다.
자동화 기능을 포함한 데이터 수집 모듈(112)은 하드웨어와 소프트웨어의 정보를 기반으로 서버환경을 파악하고, 수집해야 할 데이터를 자동으로 설정하도록 할 수 있다. 자동화 기능을 포함한 데이터 수집 모듈(112)은 수집할 데이터를 저장하는 표준 행렬 정보 구성을 하고, 데이터를 수집하게 된다.
이상, 첨부된 도면을 참조하여 본 명세서의 실시예를 설명하였지만, 본 명세서가 속하는 기술 분야의 통상의 기술자는 본 출원이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시 될 수 있다는 것을 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며, 제한적이 아닌 것으로 이해해야만 한다.
10 : 금융시스템
100 : 관리서버
110 : 데이터 수집부
111 : 데이터 수집 항목 설정 모듈
111_1 : 장애 확률 정보 수집 모듈
111_2 : 장애 해제 정보 수집 모듈
113 : 표준 행렬 구성 모듈
114 : 정규화 레이어 모듈
115 : 서버 환경 검색 / 분류 모듈
115_1 : HW 검색 / 분류 모듈
115_2 : SW 검색 / 분류 모듈
120 : 장애 확률 예측부
130 : 데이터 수집 주기 조절부
210 : 서브 서버
220 : 서브 서버
230 : 서브 서버
240 : 서브 서버
S1 : 하드웨어 자동 검색 및 수집
S2 : 수집된 하드웨어 분류
S3 : 소프트웨어 자동 검색 및 분류
S4 : 자동 데이터 수집
S5 : 표준 행렬로 데이터 저장
S6 : 데이터 수집

Claims (13)

  1. 적어도 하나의 외부 클라이언트와 통신하며, 상기 적어도 하나의 외부 클라이언트로부터 데이터를 미리 설정한 주기에 따라 수집하는 데이터 수집부;
    상기 데이터 수집부에서 수집된 데이터에 기초하여, 장애 발생 확률을 연산하는 장애 확률 예측부; 및
    상기 장애 확률 예측부에서 연산된 장애 발생 확률에 기초하여, 상기 데이터 수집부의 데이터 수집 주기를 조절하는 데이터 수집 주기 조절부를 포함하고,
    상기 데이터 수집부는,
    데이터 수집 항목을 설정하거나 해제하는 데이터 수집 항목 설정 모듈;
    상기 데이터 수집 항목 설정 모듈로 결정된 수집 대상 데이터를 수집하는 데이터 수집 모듈;
    상기 데이터 수집부는 데이터 이탈을 방지하기 위해 이전 데이터를 행렬로 저장하는 표준 행렬 구성 모듈; 및
    발생하는 장애에 가중치를 부여하는 정규화 레이어 모듈을 포함하며,
    상기 데이터 수집 항목 설정 모듈은 장애 확률 정보에 따라 데이터의 수집 항목을 설정하도록 조절할 수 있으며,
    상기 데이터 수집 항목 설정 모듈은 장애 발생 확률이 높아졌을 경우에는 확률이 기준 장애 발생 확률보다 높은 장애와 관련된 데이터만을 집중적으로 수집하도록 하는 장애 확률 정보 수집 모듈; 및
    장애가 해결되고 복구 될 경우에는 원래의 수집 항목으로 되돌아가도록 하는 장애 해제 정보 모듈을 포함하고,
    상기 표준 행렬 구성 모듈은 데이터 이탈(drop out)을 방지하기 위하여 데이터를 매트릭스 형태로 관리하며, 표준 행렬은 메모리에 별도로 저장 가능하고,
    상기 정규화 레이어 모듈은 장애 구분에 따라 또는 수집 항목 중 적어도 하나에 기초하여, 가중치를 차등 적용하고, 상기 정규화 레이어 모듈은 가중치 적용 기준을 오류 발생 횟수로 했을 때, 제 1장애가 제 2 장애에 비해 더 많은 개수 또는 종류의 오류를 발생 시킨다면, 제 1장애에 더 큰 가중치를 적용하며,상기 데이터 수집 모듈은 은닉 모델에서 만들어진 확률을 고려하지 않고, 모델링을 통해 추출된 해당 팩트들의 수집 주기에 기초하여 장애 관련 정보를 실시간으로 수집하고, 상기 장애 확률 정보 수집 모듈을 기초하여, 장애가 발생 했다는 것을 인지하고 상기 장애에 대한 데이터를 수집 하도록 하며,
    상기 장애 해제 정보 모듈을 기반으로 장애가 해결되었다는 것을 인지하고 상기 장애 발생 전의 데이터 수집 항목으로 되돌아가도록 하며,
    상기 데이터 수집 주기 조절부는 상기 장애 확률 예측부에서 연산된 장애 발생 확률에 기초하여, 상기 데이터 수집부의 데이터 수집 주기를 조절하는 역할을 하며, 상기 장애 확률 예측부에서 연산된 장애 발생 확률이 높을 경우에, 상기 데이터 수집 주기 조절부는 상기 데이터 수집 주기를 제1 데이터 수집 주기로 제어하고, 상기 장애 확률 예측부에서 연산된 장애 발생 확률이 낮을 경우에, 상기 데이터 수집 주기 조절부는 상기 데이터 수집 주기를 제2 데이터 수집 주기로 제어하고, 상기 제1 데이터 수집 주기는 상기 제2 데이터 수집 주기보다 짧으며,
    상기 장애 확률 예측부는 상기 데이터 수집부로부터 수집된 데이터 중 소정 데이터가 기준 개수보다 많다면, 소정 데이터에 대한 장애 발생 확률이 높은 것으로 장애 예측 결과를 파악하고,
    상기 데이터 수집부는 장애에 대응되는 직접적인 팩터를 서버의 환경에 맞게 자동 수집할 수 있도록 하드 웨어와 소프트 웨어의 정보를 기반으로 상기 서버를 파악하고 수집해야 할 데이터를 자동으로 설정하며
    상기 데이터 수집부에서 수집하는 데이터는 금융 업무 현황에 대한 데이터인 것을 특징으로 하는, 관리서버.
  2. 삭제
  3. 삭제
  4. 제1항에 있어서,
    상기 장애 예측 결과는 인공지능 딥러닝을 통해 모델링 되며, 모델링에 적용될 가중치는 가변될 수 있는, 관리서버.
  5. 제1항에 있어서,
    상기 장애는 정상운영 상태에서 벗어난 현상이며,
    상기 장애는 통제 가능 장애와 통제 불가능 장애를 포함하는, 관리서버.
  6. 삭제
  7. 삭제
  8. 삭제
  9. 삭제
  10. 삭제
  11. 삭제
  12. 삭제
  13. 삭제
KR1020190121334A 2019-10-01 2019-10-01 장애를 예측하기 위한 관리서버 KR102326202B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190121334A KR102326202B1 (ko) 2019-10-01 2019-10-01 장애를 예측하기 위한 관리서버

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190121334A KR102326202B1 (ko) 2019-10-01 2019-10-01 장애를 예측하기 위한 관리서버

Publications (2)

Publication Number Publication Date
KR20210039039A KR20210039039A (ko) 2021-04-09
KR102326202B1 true KR102326202B1 (ko) 2021-11-15

Family

ID=75444228

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190121334A KR102326202B1 (ko) 2019-10-01 2019-10-01 장애를 예측하기 위한 관리서버

Country Status (1)

Country Link
KR (1) KR102326202B1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001325155A (ja) * 2000-05-18 2001-11-22 Nec Eng Ltd データ記憶装置の誤り訂正方法
KR101856543B1 (ko) * 2018-02-26 2018-05-11 주식회사 리앙커뮤니케이션즈 인공지능 기반의 장애 예측 시스템
JP2019057062A (ja) * 2017-09-20 2019-04-11 コニカミノルタ株式会社 障害予測システム、サーバ、プログラム
KR101984730B1 (ko) * 2018-10-23 2019-06-03 (주) 글루시스 서버 장애 자동 예측 시스템 및 자동 예측 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100950079B1 (ko) * 2008-01-30 2010-03-26 성균관대학교산학협력단 은닉마코프 모델을 이용한 확률적인 네트워크 이상징후탐지 장치 및 그 방법
KR102027034B1 (ko) * 2017-11-24 2019-09-30 서울대학교산학협력단 병렬 처리를 통한 다차원 데이터 분석을 지원하는 장치 및 그 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001325155A (ja) * 2000-05-18 2001-11-22 Nec Eng Ltd データ記憶装置の誤り訂正方法
JP2019057062A (ja) * 2017-09-20 2019-04-11 コニカミノルタ株式会社 障害予測システム、サーバ、プログラム
KR101856543B1 (ko) * 2018-02-26 2018-05-11 주식회사 리앙커뮤니케이션즈 인공지능 기반의 장애 예측 시스템
KR101984730B1 (ko) * 2018-10-23 2019-06-03 (주) 글루시스 서버 장애 자동 예측 시스템 및 자동 예측 방법

Also Published As

Publication number Publication date
KR20210039039A (ko) 2021-04-09

Similar Documents

Publication Publication Date Title
CN108415789B (zh) 面向大规模混合异构存储系统的节点故障预测系统及方法
Lin et al. Predicting node failure in cloud service systems
CN110413227B (zh) 一种硬盘设备的剩余使用寿命在线预测方法和系统
KR101984730B1 (ko) 서버 장애 자동 예측 시스템 및 자동 예측 방법
KR102432284B1 (ko) It관리대상의 이벤트 알람이나 장애 문제를 실시간 자동으로 조치하는 시스템 및 그 운용방법
US20220255817A1 (en) Machine learning-based vnf anomaly detection system and method for virtual network management
CN105095052B (zh) Soa环境下的故障检测方法及装置
CN112783682B (zh) 一种基于云手机服务的异常自动修复方法
CN105893208A (zh) 基于隐半马尔可夫模型的云计算平台系统故障预测方法
Ragmani et al. Adaptive fault-tolerant model for improving cloud computing performance using artificial neural network
CN105468765A (zh) 一种多节点web服务异常检测方法和系统
CN116719664B (zh) 基于微服务部署的应用和云平台跨层故障分析方法及系统
KR102281431B1 (ko) 장애 예측 및 장애 예측 모델링 관리 시스템
CN115733762A (zh) 具有大数据分析能力的监控系统
CN104219193A (zh) 安全事件关联分析方法及系统
US20230105304A1 (en) Proactive avoidance of performance issues in computing environments
US7546488B2 (en) Event logging and analysis in a software system
CN108055152B (zh) 基于分布式服务日志的通信网络信息系统异常检测方法
KR102326202B1 (ko) 장애를 예측하기 위한 관리서버
CN108282360B (zh) 一种长短期预测融合的故障检测方法
US7546489B2 (en) Real time event logging and analysis in a software system
Shih et al. Implementation and visualization of a netflow log data lake system for cyberattack detection using distributed deep learning
Gu et al. Online failure forecast for fault-tolerant data stream processing
US20230071606A1 (en) Ai model used in an ai inference engine configured to avoid unplanned downtime of servers due to hardware failures
Zhu et al. A Performance Fault Diagnosis Method for SaaS Software Based on GBDT Algorithm.

Legal Events

Date Code Title Description
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant