WO2015076493A1 - 사전 장애 탐지 시스템 및 방법 - Google Patents

사전 장애 탐지 시스템 및 방법 Download PDF

Info

Publication number
WO2015076493A1
WO2015076493A1 PCT/KR2014/009320 KR2014009320W WO2015076493A1 WO 2015076493 A1 WO2015076493 A1 WO 2015076493A1 KR 2014009320 W KR2014009320 W KR 2014009320W WO 2015076493 A1 WO2015076493 A1 WO 2015076493A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
failure
failure prediction
prediction situation
self
Prior art date
Application number
PCT/KR2014/009320
Other languages
English (en)
French (fr)
Inventor
홍병진
장윤철
Original Assignee
(주)데이타뱅크시스템즈
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)데이타뱅크시스템즈 filed Critical (주)데이타뱅크시스템즈
Publication of WO2015076493A1 publication Critical patent/WO2015076493A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/008Reliability or availability analysis

Definitions

  • the present invention relates to a prior failure detection system and method for detecting a failure in advance, and more particularly to a prior failure detection system and method for detecting the failure of the system in advance to perform an automated solution.
  • IT failure detection means detecting failures such as network, system, application, database, and database.
  • the system for information technology failure detection analyzes the performance information collected using a commercial monitoring tool or simply monitors, and after the operation and performance failures, analyze all data collected from the monitoring tool to determine the cause of the failure. It has a strong function and, after grasping the cause of the system failure afterwards, recovers the problem manually, which is not economical in system operation.
  • the problem to be solved by the present invention is to receive the operating obstacles and performance information from the information system in real time and comprehensively analyze and determine the related information between the systems to detect the predicted failure situation and automate it through the database-based measures.
  • the aim is to provide automated and semi-automated proactive fault detection and its solutions in real time to make the solutions much more stable and reliable.
  • Proactive failure detection system includes an information system including at least one of the OS, RDBMS, NETWORK, WAS and collects operation and performance information; Receives the operation and performance information from the information system and compares and analyzes the operation and performance information with a predetermined allowance value stored in a database to derive the failure prediction situation information, which is information that checks the possibility of failure, and the failure prediction situation information An integrated management server that transmits corresponding automation solution information to the information system and transmits the failure prediction situation information and the automation solution information to a client; And a client configured to receive the failure prediction situation information and the automation solution information from the integrated management server and output the information so that an administrator of the client can recognize the failure management situation information.
  • the integrated management server receives the operation and performance information from the information system, compares and analyzes the operation and performance information and a predetermined tolerance value stored in the database to check the failure prediction situation information that is information that checks the possibility of failure Deriving self diagnostic robot; And receiving the failure prediction situation information from the self-diagnostic robot, generating automation solution information corresponding to the failure prediction situation information, and transmitting the generated information to the information system, and transmitting the failure prediction situation information and the automation solution information to an alarm system. It may further include a self-healing robot for transmitting.
  • the information system may receive the automation solution information from the self-healing robot, perform an automated process on the predicted failure situation according to the automation solution information, and transmit the processing result to the self-healing robot.
  • the prior failure detection system may further include an alarm system for receiving the processing result, the failure prediction situation information and the automated solution information from the self-healing robot to notify the client of this.
  • the file descriptor or process max count corresponding to the file descriptor or process max count that the operation and performance information is an operation-related parameter to the predetermined tolerance value. If it does not, the file descriptor or process max count may be automatically changed to a specific value.
  • the automation solution information may be classified by classifying old log files when the operation and performance information correspond to database related disk usage when the information system includes an RDBMS and the disk usage is out of the predetermined allowable value. You can have the log file deleted automatically.
  • the automation solution information if the information system includes NETWORK, the number of sockets waiting for the operation and performance information corresponding to the socket state open in the OS by comparing the number of waiting sockets with the predetermined allowable value
  • the preset allowable value may be changed and set based on the predetermined value.
  • the automation solution information may include exception information that is output to the WAS log due to lack of heap memory when the operation and performance information corresponds to heap memory and the heap memory is less than a predetermined allowable value when the information system includes WAS. To increase heap memory and perform a WAS restart.
  • Proactive failure detection method comprises the steps of the integrated management server, real-time collecting the operation and performance information through at least one target agent of the OS, RDBMS, NETWORK, WAS; Comparing and analyzing the collected operational and performance information with a preset tolerance value stored in a database; Deriving failure prediction situation information, which is information for checking the possibility of failure, when the operation and performance information are determined to be out of the predetermined allowable value through the comparison and analysis; Generating and transmitting automation solution information corresponding to the failure prediction situation information to the information system; And transmitting the failure prediction situation information and the automation solution information to a client.
  • the information system may further include receiving a processing result of performing an automated process on the predicted failure situation according to the automation solution information.
  • the transmitting to the client may include transmitting the processing result as well as the failure prediction situation information and the automation solution information.
  • prior failure detection system and method according to the present invention does not detect after the operation failure and performance failure occurs, it has the effect of providing a stable environment for continuous service by performing the detection in advance.
  • FIG. 1 is a diagram illustrating a prior failure detection system according to an embodiment of the present invention.
  • FIG. 2 is a block diagram illustrating a client and a database according to an embodiment of the present invention.
  • FIG. 3 is a flowchart illustrating a pre-failure detection method according to an embodiment of the present invention.
  • FIG. 4 is a flowchart illustrating an automated process for each information system according to an embodiment of the present invention.
  • FIG. 5 is a diagram illustrating a pre-disability detection method performed in the pre-disaster detection system according to an embodiment of the present invention.
  • first component may be called a second component and similarly
  • second component may also be referred to as the first component.
  • the terms “comprise” or “having” are intended to indicate that there is a feature, number, step, action, component, part, or combination thereof that is described, and that one or more other features or numbers are present. It is to be understood that the present invention does not exclude, in advance, the possibility of addition, presence of steps, actions, components, parts, or combinations thereof.
  • the information system 100 manages an OS 110, a relational database management system 120, a network 130, and a web application server 140, and the integrated management server 200 is a self-diagnostic robot. 210, self-healing robot 220 and alarm system 230.
  • Agents of the OS 110, the RDBMS 120, the NETWORK 130, and the WAS 140 included in the information system 100 are the OS 110, the RDBMS 120, and the NETWORK 130. ) And the operation and performance information of the WAS 140 is collected in real time, and transmitted to the integrated management server 200.
  • the operation and performance information may include cpu usage, memory usage, disk usage, top 5 process, open file descriptor and system log in the case of an OS, and in the case of an RDBMS, for example, based on oracle RDBMS, db info, s / w and It can include database related disk usage, tablespace usage, datafile status, process / session count, transaction status and alert log.
  • the operation and performance information may include parameters related to network bandwidth / traffic, packet loss, packet delay variation, error monitoring and security in the case of NETWORK, active thread count, jdbc min / max, heap memory usage, It may include was disk usage and was exception logs.
  • the integrated management server 200 receives the operation and performance information of the OS 110, RDBMS 120, NETWORK 130 and WAS 140 from the information system 100 and stored in the database 400 Compare and analyze the set tolerance value and the operation and performance information.
  • the automation solution, the failure prediction situation, and the processing result are notified to the mail server 330 and the mobile phone 340 through communication with the integrated management server 200, so that an administrator or a person in charge can recognize the same.
  • the failure information DB 420 performs a function of storing the failure prediction situation, and the automatic treatment DB 430 stores a result of the processing of the automated solution method and / or the information system 100. Do this.
  • FIG. 3 is a flowchart illustrating a pre-failure detection method according to an embodiment of the present invention.
  • the pre-failure detection method may be performed by the integrated management server 200 of the pre-failure detection system 10 shown in FIG. 1.
  • the integrated management server 200 collects operation and performance information in real time through each target agent of the information system 100 (S100).
  • the integrated management server 200 may collect, in real time, operating and performance information including a file descriptor, mprocess max count, emory usage, and the like in the case of the OS 110.
  • the integrated management server 200 compares the collected operation and performance information with a preset tolerance value stored in the database 400 (S200). For example, the integrated management server 200 may compare the collected file descriptor or mprocess max count with a threshold value which is a preset allowable value in the case of the OS 110.
  • the integrated management server 200 receives the final processing result of the information system 100 and stores the contents in the database 400, and the failure prediction situation, the automation solution method, and the final processing result to the client 300. Transfer (S400).
  • the client 300 may output the failure prediction situation, the automated solution method, and the final processing result.
  • FIG. 4 (b) shows an example of an automated processing method for automating the operation and performance failure of the RDBMS 120 of the information system 100.
  • the integrated management server 200 classifies the old log file (S25) and automatically deletes the old log file (S27). And the information system 100 to perform an automated process accordingly.
  • the self-diagnostic robot 210 of the integrated management server 200 monitors a state of a socket opened in the OS 110 (S33), and determines a threshold value according to the number of waiting sockets ( Or an automatic processing method for newly setting the allowable value (S35) again to the information system 100 so that the information system 100 can perform the automatic processing accordingly.
  • the security-related environmental parameters may be adjusted by comparing the security-related environmental parameter values with thresholds (or allowable values), and the security response capability may be increased through the adjustment.
  • the security-related environment parameters may include ARP Timeout, IP forwarding, TCP connection queue size, network connection, and the like.
  • FIG. 5 is a diagram illustrating a pre-disability detection method performed in the pre-disaster detection system according to an embodiment of the present invention.
  • the integrated management server 200 collects operation and performance information in real time through each target agent of the information system 100 (S10).
  • the integrated management server 200 determines that there is a possibility of failure
  • the operation and performance information and failure prediction situation information corresponding to the information are stored in the database 400 (S40), and the failure prediction situation information And the corresponding automation solution is transmitted to the information system 100 (S50).
  • the automation solution may correspond to the self management setting by analyzing the failure prediction situation information, or preset automation resolution according to the failure prediction situation information stored in the database 400. It may also correspond to a method.
  • the client 300 receives and monitors the failure prediction situation, the automated solution method, and the processing result or outputs the content (S90).
  • the invention can also be embodied as computer readable code on a computer readable recording medium.
  • the computer-readable recording medium includes all kinds of recording devices in which data that can be read by a computer system is stored.
  • Examples of computer-readable recording media include ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical data storage device, and the like.
  • the program code for performing the object information estimation method according to the present invention may be a carrier wave. It may also be transmitted in the form of (for example, transmission via the Internet).
  • the computer readable recording medium can also be distributed over network coupled computer systems so that the computer readable code is stored and executed in a distributed fashion.
  • functional programs, codes and code segments for implementing the present invention can be easily inferred by programmers in the art to which the present invention belongs.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

본 발명의 일 실시예에 따른 사전 장애 탐지 시스템은 OS, RDBMS, NETWORK, WAS 중 적어도 하나를 포함하고 운영 및 성능 정보를 수집하는 정보 시스템; 상기 정보 시스템으로부터 상기 운영 및 성능 정보를 전송받고 상기 운영 및 성능 정보와 데이터베이스에 저장된 기설정된 허용값을 비교 및 분석하여 장애 발생 가능성을 체크한 정보인 장애 예측 상황 정보를 도출하고 상기 장애 예측 상황 정보에 상응하는 자동화 해결 방법 정보를 상기 정보 시스템으로 전송하고 상기 장애 예측 상황 정보 및 상기 자동화 해결 방법 정보를 클라이언트에 전송하는 통합 관리 서버; 및 상기 통합 관리 서버로부터 상기 장애 예측 상황 정보 및 상기 자동화 해결 방법 정보를 수신하여 클라이언트의 관리자가 인지할 수 있도록 출력하는 클라이언트;를 포함할 수 있다.

Description

사전 장애 탐지 시스템 및 방법
본 발명은 사전에 장애를 탐지하기 위한 사전 장애 탐지 시스템 및 방법에 관한 것으로, 더 구체적으로는 시스템의 장애를 사전에 탐지하여 자동화된 해결을 수행하도록 하는 사전 장애 탐지 시스템 및 방법에 관한 것이다.
정보 기술(Information Technology, IT) 장애 탐지의 경우 네트워크(Network), 시스템(System), 응용프로그램(Application), 데이터베이스(Database, DB) 등의 장애를 탐지하는 것을 의미한다.
현재 정보 기술 장애 탐지를 위한 시스템은 상용 모니터링 툴을 이용하여 수집된 성능 정보를 분석하거나 단순 모니터링만 하고, 운영 장애 및 성능 장애가 발생한 후에 모니터링 툴로부터 수집한 모든 데이터를 분석하여 장애 원인을 파악하는 사후 기능이 강하며, 사후에 시스템의 장애 원인을 파악하여 수작업으로 장애를 복구하기 때문에 시스템 운영에 있어 경제적이지 못한 문제점이 있다.
본 발명이 해결하고자 하는 과제는 정보 시스템으로 부터 운영장애요소 및 성능정보를 실시간으로 전송받아 시스템간의 연관된 정보들을 종합적으로 분석 및 판단하여 장애발생 예측상황을 탐지하여 미리 데이터베이스화된 조치방법을 통해 자동화된 해결을 수행하여 정보기술 시스템을 이용한 서비스를 훨씬 더 안정적으로 운영할 수 있도록 하는 자동화 및 반 자동화된 사전 장애탐지 및 그 해결 방법을 실시간으로 제공하려는 것이다.
본 발명의 일 실시예에 따른 사전 장애 탐지 시스템은 OS, RDBMS, NETWORK, WAS 중 적어도 하나를 포함하고 운영 및 성능 정보를 수집하는 정보 시스템; 상기 정보 시스템으로부터 상기 운영 및 성능 정보를 전송받고 상기 운영 및 성능 정보와 데이터베이스에 저장된 기설정된 허용값을 비교 및 분석하여 장애 발생 가능성을 체크한 정보인 장애 예측 상황 정보를 도출하고 상기 장애 예측 상황 정보에 상응하는 자동화 해결 방법 정보를 상기 정보 시스템으로 전송하고 상기 장애 예측 상황 정보 및 상기 자동화 해결 방법 정보를 클라이언트에 전송하는 통합 관리 서버; 및 상기 통합 관리 서버로부터 상기 장애 예측 상황 정보 및 상기 자동화 해결 방법 정보를 수신하여 클라이언트의 관리자가 인지할 수 있도록 출력하는 클라이언트;를 포함할 수 있다.
또한 상기 통합 관리 서버는, 상기 정보 시스템으로부터 상기 운영 및 성능 정보를 전송받고 상기 운영 및 성능 정보와 데이터베이스에 저장된 기설정된 허용값을 비교 및 분석하여 장애 발생 가능성을 체크한 정보인 장애 예측 상황 정보를 도출하는 자가 진단 로봇; 및 상기 자가 진단 로봇으로부터 상기 장애 예측 상황 정보를 수신하여 상기 장애 예측 상황 정보에 상응하는 자동화 해결 방법 정보를 생성하여 상기 정보 시스템으로 전송하고 상기 장애 예측 상황 정보 및 상기 자동화 해결 방법 정보를 경보 시스템에 전송하는 자가 치료 로봇;을 더 포함할 수 있다.
또한 상기 정보 시스템은 상기 자가 치료 로봇으로부터 상기 자동화 해결 방법 정보를 수신하여 상기 자동화 해결 방법 정보에 따라 예측된 장애 상황을 자동화 처리를 수행하고, 그 처리 결과를 상기 자가 치료 로봇에 전송할 수 있다.
또한 상기 사전 장애 탐지 시스템은 상기 자가 치료 로봇으로부터 상기 처리 결과, 상기 장애 예측 상황 정보 및 상기 자동화 해결 방법 정보를 수신하여 이를 상기 클라이언트에 통지하는 경보 시스템;을 더 포함할 수 있다.
또한 상기 자동화 해결 방법 정보는, 상기 정보 시스템이 OS를 포함하는 경우 상기 운영 및 성능 정보가 운영 관련 parameter인 file descriptor 또는 process max count에 해당하여 상기 file descriptor 또는 process max count가 상기 기설정된 허용값을 벗어나면 상기 file descriptor 또는 process max count 값을 특정값으로 자동 변경하게 할 수 있다.
또한 상기 자동화 해결 방법 정보는, 상기 정보 시스템이 RDBMS를 포함하는 경우 상기 운영 및 성능 정보가 데이터베이스 관련 disk usage에 해당하여 상기 disk usage가 상기 기설정된 허용값을 벗어나면 오래된 log file을 분류하여 분류된 log file을 자동으로 삭제하게 할 수 있다.
또한 상기 자동화 해결 방법 정보는, 상기 정보 시스템이 NETWORK를 포함하는 경우 상기 운영 및 성능 정보가 OS에서 오픈중인 소켓 상태에 해당하여 대기중인 소켓 개수를 상기 기설정된 허용값과 비교하여 상기 대기중인 소켓 개수에 기초해 상기 기설정된 허용값을 변경설정할 수 있다.
또한 상기 자동화 해결 방법 정보는, 상기 정보 시스템이 WAS를 포함하는 경우 상기 운영 및 성능 정보가 heap memory에 해당하여 heap memory가 기설정된 허용값보다 부족하면 heap memory 부족으로 인해 WAS 로그에 출력되는 exception 정보를 추적하여 heap memory를 증가시키고 WAS 재기동을 수행할 수 있다.
본 발명의 일 실시예에 따른 사전 장애 탐지 방법은 통합 관리 서버가, OS, RDBMS, NETWORK, WAS 중 적어도 하나의 각 대상 에이전트를 통해 운영 및 성능 정보를 실시간 수집하는 단계; 상기 수집한 운영 및 성능 정보와 데이터 베이스에 저장된 기설정된 허용값을 비교 및 분석하는 단계; 상기 비교 및 분석을 통해 상기 운영 및 성능 정보가 상기 기설정된 허용값을 벗어나 장애발생 가능성이 있는 것으로 판단한 경우 장애 발생 가능성을 체크한 정보인 장애 예측 상황 정보를 도출하는 단계; 상기 장애 예측 상황 정보에 상응하는 자동화 해결 방법 정보를 생성하여 상기 정보 시스템으로 전송하는 단계; 및 상기 장애 예측 상황 정보 및 상기 자동화 해결 방법 정보를 클라이언트에 전송하는 단계;를 포함할 수 있다.
또한 상기 정보 시스템으로 전송하는 단계 이후에, 상기 정보 시스템이 상기 자동화 해결 방법 정보에 따라 예측된 장애 상황을 자동화 처리를 수행한 처리 결과를 수신하는 단계;를 더 포함할 수 있다.
또한 상기 클라이언트에 전송하는 단계는, 상기 장애 예측 상황 정보 및 상기 자동화 해결 방법 정보뿐만 아니라 상기 처리 결과를 전송하는 단계;일 수 있다.
본 발명에 따른 사전 장애 탐지 시스템 및 방법에 의하면 정보 시스템의 운영 장애요소 및 성능정보를 실시간으로 전송 받아 분석, 진단 및 해결하여 정보 시스템에 대한 운영장애를 사전에 예측할 수 있으며, 이로 인해 정보기술 서비스를 안정적으로 제공할 수 있는 효과를 가진다.
본 발명에 따른 사전 장애 탐지 시스템 및 방법에 의하면 운영장애 및 성능장애가 발생한 후 감지를 하는 것이 아니라, 사전에 탐지를 수행하여 지속적으로 안정적인 서비스를 할 수 있는 환경을 제공하는 효과를 가진다.
본 발명에 따른 사전 장애 탐지 시스템 및 방법에 의하면 정보 시스템의 리소스에 대한 분석 및 진단을 수행하여 시스템 리소스에 대한 확장 또는 재분배를 수행하도록 지원할 수 있는 효과를 가진다.
본 발명의 상세한 설명에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 간단한 설명이 제공된다.
도 1은 본 발명의 일 실시예에 따른 사전 장애 탐지 시스템을 나타내는 도면이다.
도 2는 본 발명의 일 실시예에 따른 클라이언트 및 데이터베이스를 나타내는 블록도이다.
도 3은 본 발명의 일 실시예에 따른 사전 장애 탐지 방법을 나타내는 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 정보 시스템별 자동화 처리를 나타내는 흐름도이다.
도 5는 본 발명의 일 실시예에 따른 사전 장애 탐지 시스템에서 수행되는 사전 장애 탐지 방법을 나타내는 도면이다.
<부호의 설명>
10: 사전 장애 탐지 시스템 100: 정보 시스템
110: OS 120: RDBMS
130: NETWORK 140: WAS
200: 통합 관리 서버 210: 자가 진단 로봇
220: 자가 치료 로봇 230: 경보 시스템
300: 클라이언트 310: 통합 관리 콘솔
320: Smart App 330: Mail Server
340: Mobile Phone 400: 데이터베이스
410: 성능 정보 DB 420: 장애 정보 DB
430: 자동 치료 DB
본 명세서 또는 출원에 개시되어 있는 본 발명의 실시 예들에 대해서 특정한 구조적 내지 기능적 설명들은 단지 본 발명에 따른 실시 예를 설명하기 위한 목적으로 예시된 것으로, 본 발명에 따른 실시 예들은 다양한 형태로 실시될 수 있으며 본 명세서 또는 출원에 설명된 실시예들에 한정되는 것으로 해석되어서는 아니 된다.
본 발명에 따른 실시예는 다양한 변경을 가할 수 있고 여러가지 형태를 가질 수 있으므로 특정실시 예들을 도면에 예시하고 본 명세서 또는 출원에 상세하게 설명하고자 한다. 그러나, 이는 본 발명의 개념에 따른 실시 예를 특정한 개시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1 및/또는 제2 등의 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기구성 요소들은 상기용어들에 의해 한정되어서는 안된다.
상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만, 예컨대 본 발명의 개념에 따른 권리 범위로부터 이탈되지 않은 채, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.
반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.
본 명세서에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다.
일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시 예를 설명함으로써, 본 발명을 상세히 설명한다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다.
도 1은 본 발명의 일 실시예에 따른 사전 장애 탐지 시스템을 나타내는 도면이다. 상기 사전 장애 탐지 시스템(10)은 정보 시스템(100), 통합 관리 서버(200), 클라이언트(300) 및 데이터베이스(DB, 400)를 포함한다.
상기 정보 시스템(100)은 OS(110), RDBMS(Relational Database Management System, 120), NETWORK(130) 및 WAS(Web Application Server, 140)를 관리하고, 상기 통합 관리 서버(200)는 자가 진단 로봇(210), 자가 치료 로봇(220) 및 경보 시스템(230)을 포함한다.
상기 정보 시스템(100)에 포함되는 OS(110), RDBMS(120), NETWORK(130) 및 WAS(140)의 각각의 에이전트(Agent)들은 상기 OS(110), RDBMS(120), NETWORK(130) 및 WAS(140)의 운영 및 성능 정보를 실시간으로 수집하며, 이를 통합 관리 서버(200)로 전송한다.
상기 정보 시스템(100)이 상기 운영 및 성능 정보를 상기 통합 관리 서버(200)로 전송하는 경우 소켓 통신인 UDP(User Datagram Protocol) 통신으로 전송할 수 있다.
상기 운영 및 성능 정보는 OS의 경우 cpu usage, memory usage, disk usage, top 5 process, open file descriptor 및 system log를 포함할 수 있고, RDBMS의 경우 예컨대, oracle RDBMS 기준으로 db info, s/w 및 database 관련 disk usage, tablespace usage, datafile status, process/session count, transaction status, alert log를 포함할 수 있다.
또한 상기 운영 및 성능 정보는 NETWORK의 경우 network bandwidth/traffic, packet loss, packet delay variation, error monitoring 및 security 관련 parameter를 포함할 수 있고, WAS의 경우 active thread count, jdbc min/max, heap memory usage, was disk usage 및 was exception log를 포함할 수 있다.
상기 통합 관리 서버(200)는 상기 OS(110), RDBMS(120), NETWORK(130) 및 WAS(140)의 운영 및 성능 정보를 상기 정보 시스템(100)으로부터 수신하고 데이터베이스(400)에 저장된 기설정된 허용값과 상기 운영 및 성능 정보를 비교 및 분석한다.
구체적으로, 상기 자가 진단 로봇(210)이 상기 OS(110), RDBMS(120), NETWORK(130) 및 WAS(140)의 운영 및 성능 정보를 상기 정보 시스템(100)으로부터 수신하고 데이터베이스(400)에 저장된 기설정된 허용값과 상기 운영 및 성능 정보를 비교 및 분석하여 장애발생 가능성을 체크하고 체크결과 장애발생 가능성이 있는 경우 장애 예측 상황인 해당 내용을 상기 자가 치료 로봇(220)에 전송한다.
상기 자가 치료 로봇(220)은 상기 자가 진단 로봇(210)으로부터 수신한 상기 장애 예측 상황을 통해 해당 장애에 상응하는 자동화 해결 방법을 설정하거나 상기 데이터베이스(400)에 저장된 상기 자동화 해결 방법을 가져올 수 있으며, 상기 자동화 해결 방법 및 장애 예측 상황을 경보 시스템(230)에 전송하고 상기 자동화 해결 방법을 상기 정보 시스템(100)에 전송한다.
상기 자가 치료 로봇(220)이 상기 정보 시스템(100)에 상기 자동화 해결 방법을 전송할 수 있으며, 상기 정보 시스템(100)이 그것을 기초로 하여 처리를 수행한 후 처리 결과를 상기 자가 치료 로봇(200)에 전달하면 상기 자가 치료 로봇(200)은 상기 처리 결과를 상기 데이터베이스(400)에 저장하고 상기 처리 결과를 상기 경보 시스템(230)에 전송한다.
상기 경보 시스템(230)은 수신한 상기 자동화 해결 방법, 상기 장애 예측 상황 및 상기 처리 결과를 클라이언트(300)에 전달하여 상기 클라이언트(300)가 이를 출력 또는 알람하여 상기 클라이언트(300)의 관리자 또는 담당자가 인지할 수 있도록 한다.
도 2는 본 발명의 일 실시예에 따른 클라이언트 및 데이터베이스를 나타내는 블록도이다. 도 2의 (a)를 참고하면, 상기 클라이언트(300)는 통합 관리 콘솔(310), Smart App(320), Mail Server(330) 및 Mobile Phone(340)를 포함할 수 있다.
상기 통합 관리 콘솔(310)은 UX가 적용된 웹기반의 모니터링 콘솔로 TCP 기반에서 통합 관리 서버(200)와 실시간 통신할 수 있으며, 통신을 통해 수신한 상기 자동화 해결 방법, 상기 장애 예측 상황 및 상기 처리 결과를 관리자 또는 담당자가 인지할 수 있도록 디스플레이 또는 알람 출력하는 기능을 수행한다.
상기 Smart App(320)은 상기 클라이언트(300)가 스마트폰 또는 태블릿 PC 등인 경우 설치될 수 있으며, 통합 관리 서버(200)와 통신을 통해 수신한 상기 자동화 해결 방법, 상기 장애 예측 상황 및 상기 처리 결과를 관리자 또는 담당자가 인지할 수 있도록 디스플레이 또는 알람 출력하는 기능을 수행한다.
또한 통합 관리 서버(200)와 통신을 통해 상기 Mail Server(330) 및 Mobile Phone(340)에 상기 자동화 해결 방법, 상기 장애 예측 상황 및 상기 처리 결과가 통보되어 관리자 또는 담당자가 인지할 수 있다.
도 2의 (b)를 참고하면, 상기 데이터베이스(400)는 성능 정보 DB(410), 장애 정보 DB(420) 및 자동 치료 DB(430)를 포함할 수 있다.
상기 성능 정보 DB(410)는 상기 정보 시스템(100)의 상기 운영 및 성능 정보를 저장하는 기능을 수행한다.
상기 장애 정보 DB(420)는 상기 장애 예측 상황을 저장하는 기능을 수행한며, 상기 자동 치료 DB(430)는 상기 자동화 해결 방법 및/또는 상기 정보 시스템(100)의 상기 처리 결과를 저장하는 기능을 수행한다.
도 3은 본 발명의 일 실시예에 따른 사전 장애 탐지 방법을 나타내는 흐름도이다. 상기 사전 장애 탐지 방법은 도 1에 도시된 사전 장애 탐지 시스템(10)의 통합 관리 서버(200)에서 수행될 수 있다.
도 3을 참고하면, 상기 통합 관리 서버(200)는 정보 시스템(100)의 각 대상 에이전트를 통해 운영 및 성능 정보를 실시간 수집한다(S100). 예컨대, 상기 통합 관리 서버(200)는 OS(110)의 경우 file descriptor, mprocess max count,emory usage 등을 포함하는 운영 및 성능 정보를 실시간 수집할 수 있다.
다음으로 상기 통합 관리 서버(200)는 수집한 운영 및 성능 정보와 데이터 베이스(400)에 저장된 기설정된 허용값을 비교한다(S200). 예컨대, 상기 통합 관리 서버(200)는 OS(110)의 경우 수집한 file descriptor 또는 mprocess max count와 기설정된 허용값인 임계값과 비교할 수 있다.
다음으로 상기 통합 관리 서버(200)는 상기 비교를 통해 상기 운영 및 성능 정보가 상기 허용값을 벗어나 장애발생 가능성이 있는 것으로 판단한 경우 해당 정보를 데이터베이스(400)에 저장하고, 장애 예측 상황 및 자동화 해결 방법을 상기 정보 시스템(100)에 전송한다(S300). 예컨대, 상기 통합 관리 서버(200)는 OS(110)의 경우 수집한 file descriptor 또는 mprocess max count가 기설정된 허용값인 임계값을 벗어나는 경우에 해당 파라미터를 자동으로 변경하도록 자동화 해결 방법을 설정할 수 있을 것이다.
다음으로 상기 통합 관리 서버(200)는 상기 정보 시스템(100)의 최종 처리 결과를 수신하고 해당 내용을 데이터베이스(400)에 저장하며 장애 예측 상황, 자동화 해결 방법 및 최종 처리 결과를 클라이언트(300)에 전달한다(S400). 이때, 상기 클라이언트(300)는 상기 장애 예측 상황, 자동화 해결 방법 및 최종 처리 결과를 출력할 수 있다.
도 4는 본 발명의 일 실시예에 따른 정보 시스템별 자동화 처리를 나타내는 흐름도이다. 도 4 (a)는 정보 시스템(100)의 OS(110)의 운영 및 성능 장애를 자동화 처리하는 자동화 처리 방법의 일 예를 나타낸다.
도 4 (a)를 참고하면, 통합 관리 서버(200)의 자가 진단 로봇(210)이 운영 관련 파라미터인 file descriptor 또는 process max count가 임계값 이상인지(또는 허용값을 벗어나는지)를 판단한다(S13).
판단결과 임계값 이상인(또는 허용값을 벗어난) 것으로 판단한 경우 통합 관리 서버(200)는 상기 file descriptor 또는 process max count를 특정값으로 자동 변경 조치(S15)하는 자동화 처리 방법을 상기 정보 시스템(100)에 전송하여 상기 정보 시스템(100)이 이에 따라 자동화 처리를 수행할 수 있도록 한다.
도 4 (b)는 정보 시스템(100)의 RDBMS(120)의 운영 및 성능 장애를 자동화 처리하는 자동화 처리 방법의 일 예를 나타낸다.
도 4 (b)를 참고하면, 통합 관리 서버(200)의 자가 진단 로봇(210)이 archived log dest의 disk usage가 임계값 이상인지(또는 허용값을 벗어나는지)를 판단한다(S23).
판단결과 임계값 이상인(또는 허용값을 벗어난) 것으로 판단한 경우 통합 관리 서버(200)는 오래된 log file을 분류(S25)하여 오래된 log file을 자동으로 삭제 조치(S27)하는 자동화 처리 방법을 상기 정보 시스템(100)에 전송하여 상기 정보 시스템(100)이 이에 따라 자동화 처리를 수행할 수 있도록 한다.
도 4 (c)는 정보 시스템(100)의 NETWORK(130)의 운영 및 성능 장애를 자동화 처리하는 자동화 처리 방법의 일 예를 나타낸다.
도 4 (c)를 참고하면, 통합 관리 서버(200)의 자가 진단 로봇(210)이 OS(110)에서 오픈중인 소켓에 대한 상태를 모니터링(S33)하여, 대기중인 소켓 개수에 따라서 임계값(또는 허용값)을 새로이 다시 설정 조치(S35)하는 자동화 처리 방법을 상기 정보 시스템(100)에 전송하여 상기 정보 시스템(100)이 이에 따라 자동화 처리를 수행할 수 있도록 한다.
추가적으로, 보안 관련 환경 파라미터 값과 임계값(또는 허용값)을 비교하여 상기 보안 관련 환경 파라미터를 조정할 수 있으며, 조정을 통해 보안 대응 능력을 증가시킬 수 있다. 여기서 보안 관련 환경 파라미터는 ARP Timeout, IP forwarding, TCP connection queue size, network connection 등을 포함할 수 있다.
도 4 (d)는 정보 시스템(100)의 WAS(140)의 운영 및 성능 장애를 자동화 처리하는 자동화 처리 방법의 일 예를 나타낸다.
도 4 (d)를 참고하면, 통합 관리 서버(200)의 자가 진단 로봇(210)이 heap memory 부족을 판단한 경우 heap memory 부족으로 인해 WAS 로그에서 출력되는 exception 정보를 추적(S43)하여 heap memory를 증가시키고 WAS 재기동을 수행하여 장애 처리 조치(S45)하는 자동화 처리 방법을 상기 정보 시스템(100)에 전송하여 상기 정보 시스템(100)이 이에 따라 자동화 처리를 수행할 수 있도록 한다.
도 5는 본 발명의 일 실시예에 따른 사전 장애 탐지 시스템에서 수행되는 사전 장애 탐지 방법을 나타내는 도면이다.
도 5를 참고하면, 상기 통합 관리 서버(200)는 정보 시스템(100)의 각 대상 에이전트를 통해 운영 및 성능 정보를 실시간 수집한다(S10).
다음으로 상기 통합 관리 서버(200)는 데이터베이스(400)로부터 기설정된 허용값을 가져오며(S20), 수집한 상기 운영 및 성능 정보와 데이터 베이스(400)에서 가져온 상기 기설정된 허용값을 비교한다(S30).
비교결과, 상기 통합 관리 서버(200)가 장애 발생 가능성이 있는 것으로 판단한 경우 상기 운영 및 성능 정보 및 해당 정보인 장애 예측 상황 정보를 상기 데이터베이스(400)에 저장하고(S40), 상기 장애 예측 상황 정보 및 그에 상응하는 자동화 해결 방법을 상기 정보 시스템(100)에 전송한다(S50).
이때, 상기 자동화 해결 방법은 상기 장애 예측 상황 정보를 분석하여 상기 통합 관리 서버(200)가 자체 설정한 것에 해당할 수도 있고, 상기 데이터베이스(400)에 저장된 상기 장애 예측 상황 정보에 따른 기설정된 자동화 해결 방법에 해당할 수도 있다.
상기 정보 시스템(100)은 상기 자동화 해결 방법을 수신하고 OS, RDBMS, NETWORK, WAS 각각에 따라 상기 자동화 해결 방법에 따른 자동화 처리를 수행한다(S60). 여기서 상기 정보 시스템(100) 상기 OS, RDBMS, NETWORK, WAS 각각에 따른 상기 자동화 해결 방법에 대한 구체적인 내용은 도 4 (a) 내지 (d)에서 설명한 바 있다.
이후 상기 정보 시스템(100)은 자동화 처리를 수행하고 그 처리 결과를 상기 통합 관리 서버(200)에 전송한다(S70)
상기 통합 관리 서버(200)는 상기 정보 시스템(100)의 상기 처리 결과를 수신하고 해당 내용을 데이터베이스(400)에 저장하며 장애 예측 상황, 자동화 해결 방법 및 처리 결과를 클라이언트(300)에 전달한다(S80).
상기 클라이언트(300)는 상기 장애 예측 상황, 자동화 해결 방법 및 처리 결과를 수신하여 모니터링하거나 그 내용을 출력한다(S90).
이와 같은 본 발명에 따른 사전 장애 탐지 시스템 및 방법에 의하면 정보 시스템(100)의 운영 장애요소 및 성능정보를 실시간으로 전송 받아 분석, 진단 및 해결하여 정보 시스템(100)에 대한 운영 장애를 사전에 예측할 수 있으며, 이로 인해 정보기술 서비스를 안정적으로 제공할 수 있고, 운영 장애 및 성능 장애가 발생한 후 감지를 하는 것이 아니라, 사전에 탐지를 수행할 수 있어 지속적으로 안정적인 서비스를 할 수 있는 환경을 제공할 수 있다.
본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다.
컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장장치 등이 있으며, 또한 본 발명에 따른 객체 정보 추정 방법을 수행하기 위한 프로그램 코드는 캐리어 웨이브(예를 들어, 인터넷을 통한 전송)의 형태로 전송될 수도 있다.
또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.
본 발명은 도면에 도시된 일 실시 예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진자라면 이로부터 다양한 변형 및 균등한 타 실시 예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims (10)

  1. OS, RDBMS, NETWORK, WAS 중 적어도 하나를 포함하고 운영 및 성능 정보를 수집하는 정보 시스템;
    상기 정보 시스템으로부터 상기 운영 및 성능 정보를 전송받고 상기 운영 및 성능 정보와 데이터베이스에 저장된 기설정된 허용값을 비교 및 분석하여 장애 발생 가능성을 체크한 정보인 장애 예측 상황 정보를 도출하고 상기 장애 예측 상황 정보에 상응하는 자동화 해결 방법 정보를 상기 정보 시스템으로 전송하고 상기 장애 예측 상황 정보 및 상기 자동화 해결 방법 정보를 클라이언트에 전송하는 통합 관리 서버; 및
    상기 통합 관리 서버로부터 상기 장애 예측 상황 정보 및 상기 자동화 해결 방법 정보를 수신하여 클라이언트의 관리자가 인지할 수 있도록 출력하는 클라이언트;를 포함하는 것을 특징으로 하는 사전 장애 탐지 시스템.
  2. 제1항에 있어서,
    상기 통합 관리 서버는,
    상기 정보 시스템으로부터 상기 운영 및 성능 정보를 전송받고 상기 운영 및 성능 정보와 데이터베이스에 저장된 기설정된 허용값을 비교 및 분석하여 장애 발생 가능성을 체크한 정보인 장애 예측 상황 정보를 도출하는 자가 진단 로봇; 및
    상기 자가 진단 로봇으로부터 상기 장애 예측 상황 정보를 수신하여 상기 장애 예측 상황 정보에 상응하는 자동화 해결 방법 정보를 생성하여 상기 정보 시스템으로 전송하고 상기 장애 예측 상황 정보 및 상기 자동화 해결 방법 정보를 경보 시스템에 전송하는 자가 치료 로봇;을 더 포함하는 것을 특징으로 하는 사전 장애 탐지 시스템.
  3. 제2항에 있어서,
    상기 정보 시스템은 상기 자가 치료 로봇으로부터 상기 자동화 해결 방법 정보를 수신하여 상기 자동화 해결 방법 정보에 따라 예측된 장애 상황을 자동화 처리를 수행하고, 그 처리 결과를 상기 자가 치료 로봇에 전송하며,
    상기 사전 장애 탐지 시스템은,
    상기 자가 치료 로봇으로부터 상기 처리 결과, 상기 장애 예측 상황 정보 및 상기 자동화 해결 방법 정보를 수신하여 이를 상기 클라이언트에 통지하는 경보 시스템;을 더 포함하는 것을 특징으로 하는 사전 장애 탐지 시스템.
  4. 제3항에 있어서,
    상기 자동화 해결 방법 정보는,
    상기 정보 시스템이 OS를 포함하는 경우 상기 운영 및 성능 정보가 운영 관련 parameter인 file descriptor 또는 process max count에 해당하여 상기 file descriptor 또는 process max count가 상기 기설정된 허용값을 벗어나면 상기 file descriptor 또는 process max count 값을 특정값으로 자동 변경하게 하는 것을 특징으로 하는 사전 장애 탐지 시스템.
  5. 제3항에 있어서,
    상기 자동화 해결 방법 정보는,
    상기 정보 시스템이 RDBMS를 포함하는 경우 상기 운영 및 성능 정보가 데이터베이스 관련 disk usage에 해당하여 상기 disk usage가 상기 기설정된 허용값을 벗어나면 오래된 log file을 분류하여 분류된 log file을 자동으로 삭제하게 하는 것을 특징으로 하는 사전 장애 탐지 시스템.
  6. 제3항에 있어서,
    상기 자동화 해결 방법 정보는,
    상기 정보 시스템이 NETWORK를 포함하는 경우 상기 운영 및 성능 정보가 OS에서 오픈중인 소켓 상태에 해당하여 대기중인 소켓 개수를 상기 기설정된 허용값과 비교하여 상기 대기중인 소켓 개수에 기초해 상기 기설정된 허용값을 변경설정하며,
  7. 제3항에 있어서,
    상기 자동화 해결 방법 정보는,
    상기 정보 시스템이 WAS를 포함하는 경우 상기 운영 및 성능 정보가 heap memory에 해당하여 heap memory가 기설정된 허용값보다 부족하면 heap memory 부족으로 인해 WAS 로그에 출력되는 exception 정보를 추적하여 heap memory를 증가시키고 WAS 재기동을 수행하는 것을 특징으로 하는 사전 장애 탐지 시스템.
  8. OS, RDBMS, NETWORK, WAS를 포함하고 운영 및 성능 정보를 수집하는 정보 시스템;
    상기 정보 시스템으로부터 상기 OS, RDBMS, NETWORK, WAS의 운영 및 성능 정보를 전송받고 상기 운영 및 성능 정보와 데이터베이스에 저장된 기설정된 허용값을 비교 및 분석하여 장애 발생 가능성을 체크한 정보인 장애 예측 상황 정보를 도출하는 자가 진단 로봇과, 상기 자가 진단 로봇으로부터 상기 장애 예측 상황 정보를 수신하여 상기 장애 예측 상황 정보에 상응하는 자동화 해결 방법 정보를 생성하여 상기 정보 시스템으로 전송하고, 상기 장애 예측 상황 정보 및 상기 자동화 해결 방법 정보를 경보 시스템에 전송하는 자가 치료 로봇을 포함하는 통합 관리 서버; 및
    상기 통합 관리 서버로부터 상기 장애 예측 상황 정보 및 상기 자동화 해결 방법 정보를 수신하여 클라이언트의 관리자가 인지할 수 있도록 출력하는 클라이언트;를 포함하고,
    상기 정보 시스템이 상기 자가 치료 로봇으로부터 상기 자동화 해결 방법 정보를 수신하여 상기 자동화 해결 방법 정보에 따라 예측된 장애 상황을 자동화 처리를 수행하고, 그 처리 결과를 상기 자가 치료 로봇에 다시 전송하며,
    상기 자가 치료 로봇은 상기 처리 결과를 데이터베이스에 저장하고 상기 처리 결과를 상기 경보 시스템에 전송하며,
    상기 경보 시스템은 상기 자가 치료 로봇으로부터 상기 장애 예측 상황 정보 및 상기 자동화 해결 방법 정보를 수신하여, 상기 클라이언트가 상기 자동화 해결 방법 정보를 이용해 수동제어를 통하여 해결을 할 수 있도록 하기 위해, 상기 장애 예측 상황 정보 및 상기 자동화 해결 방법 정보를 상기 클라이언트에 출력 또는 알람을 통해 통지하는 것을 특징으로 하는 사전 장애 탐지 시스템.
  9. 통합 관리 서버가,
    OS, RDBMS, NETWORK, WAS 중 적어도 하나의 각 대상 에이전트를 통해 운영 및 성능 정보를 실시간 수집하는 단계;
    상기 수집한 운영 및 성능 정보와 데이터 베이스에 저장된 기설정된 허용값을 비교 및 분석하는 단계;
    상기 비교 및 분석을 통해 상기 운영 및 성능 정보가 상기 기설정된 허용값을 벗어나 장애발생 가능성이 있는 것으로 판단한 경우 장애 발생 가능성을 체크한 정보인 장애 예측 상황 정보를 도출하는 단계;
    상기 장애 예측 상황 정보에 상응하는 자동화 해결 방법 정보를 생성하여 상기 정보 시스템으로 전송하는 단계; 및
    상기 장애 예측 상황 정보 및 상기 자동화 해결 방법 정보를 클라이언트에 전송하는 단계;를 포함하는 것을 특징으로 하는 사전 장애 탐지 방법.
  10. 제9항에 있어서,
    상기 정보 시스템으로 전송하는 단계 이후에,
    상기 정보 시스템이 상기 자동화 해결 방법 정보에 따라 예측된 장애 상황을 자동화 처리를 수행한 처리 결과를 수신하는 단계;를 더 포함하고,
    상기 클라이언트에 전송하는 단계는,
    상기 장애 예측 상황 정보 및 상기 자동화 해결 방법 정보뿐만 아니라 상기 처리 결과를 전송하는 단계;인 것을 특징으로 하는 사전 장애 탐지 방법.
PCT/KR2014/009320 2013-11-20 2014-10-02 사전 장애 탐지 시스템 및 방법 WO2015076493A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2013-0141713 2013-11-20
KR1020130141713A KR101433045B1 (ko) 2013-11-20 2013-11-20 사전 장애 탐지 시스템 및 방법

Publications (1)

Publication Number Publication Date
WO2015076493A1 true WO2015076493A1 (ko) 2015-05-28

Family

ID=51751074

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2014/009320 WO2015076493A1 (ko) 2013-11-20 2014-10-02 사전 장애 탐지 시스템 및 방법

Country Status (2)

Country Link
KR (1) KR101433045B1 (ko)
WO (1) WO2015076493A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018191730A1 (en) * 2017-04-13 2018-10-18 Texas Tech University System System and method for automated prediction and detection of component and system failures
CN116405587A (zh) * 2023-06-09 2023-07-07 深圳市江元科技(集团)有限公司 一种手机售后性能情况智能监测方法、系统和介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018092924A1 (ko) * 2016-11-15 2018-05-24 (주) 글루시스 스마트 컴퓨팅을 위한 시스템 자원의 장애 예측 방법
KR101758870B1 (ko) * 2017-02-13 2017-07-18 주식회사 온더 마이닝 관리 시스템 및 이를 이용한 마이닝 관리 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030056301A (ko) * 2001-12-28 2003-07-04 삼성에스디에스 주식회사 시스템 장애 통합관리방법
KR20080044508A (ko) * 2006-11-16 2008-05-21 삼성에스디에스 주식회사 통계적인 분석을 이용한 성능장애 관리시스템 및 그 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030056301A (ko) * 2001-12-28 2003-07-04 삼성에스디에스 주식회사 시스템 장애 통합관리방법
KR20080044508A (ko) * 2006-11-16 2008-05-21 삼성에스디에스 주식회사 통계적인 분석을 이용한 성능장애 관리시스템 및 그 방법

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018191730A1 (en) * 2017-04-13 2018-10-18 Texas Tech University System System and method for automated prediction and detection of component and system failures
US12105579B2 (en) 2017-04-13 2024-10-01 Texas Tech University System System and method for automated prediction and detection of component and system failures
CN116405587A (zh) * 2023-06-09 2023-07-07 深圳市江元科技(集团)有限公司 一种手机售后性能情况智能监测方法、系统和介质
CN116405587B (zh) * 2023-06-09 2023-08-08 深圳市江元科技(集团)有限公司 一种手机售后性能情况智能监测方法、系统和介质

Also Published As

Publication number Publication date
KR101433045B1 (ko) 2014-08-27

Similar Documents

Publication Publication Date Title
CN103200050B (zh) 服务器的硬件状态监控方法和系统
CN106462702B (zh) 用于在分布式计算机基础设施中获取并且分析电子取证数据的方法和系统
WO2015076493A1 (ko) 사전 장애 탐지 시스템 및 방법
WO2016188100A1 (zh) 信息系统故障场景信息收集方法及系统
CN109413642B (zh) 终端安全检测与监测体系化方法
WO2021256577A1 (ko) 멀티네트워크 디바이스의 보안 진단 방법
WO2023106504A1 (ko) 서버 시스템 로그를 이용한 머신러닝 기반의 관측레벨 측정 및 이에 따른 위험도 산출 방법, 장치 및 컴퓨터-판독 가능 기록 매체
CN113111374B (zh) 一种端边云的工业微服务系统、数据交互方法及介质
CN104950832B (zh) 钢铁厂控制系统
CN116204386B (zh) 应用服务关系自动识别及监控方法、系统、介质和设备
CN100421381C (zh) 一种获取网络设备运行和故障状态信息的方法及装置
WO2024021280A1 (zh) 工业气体企业的数据传输方法、装置、服务器及系统
US20070198993A1 (en) Communication system event handling systems and techniques
WO2022270766A1 (ko) 자동 패킷 분석 기반의 지능형 네트워크 관리 장치 및 그 방법
CN109889552A (zh) 电力营销终端异常流量监控方法、系统及电力营销系统
KR100887874B1 (ko) 인터넷 망의 장애 관리 시스템 및 그 방법
WO2022131404A1 (ko) 온디바이스 기반 데이터 분석 시스템 및 방법
US20080192637A1 (en) Rule verification apparatus and rule verification method
KR20170127876A (ko) 로그 결함 분석 기반 장애 대응 시스템 및 방법
CN112380101A (zh) 一种基于进程监控和数据网关的仪器设备监控系统及方法
CN111597095A (zh) 监控方法、监控装置、电子设备、以及介质
KR20040028400A (ko) 매트로 이더넷망의 장애처리 장치 및 그 방법
WO2019156262A1 (ko) 배전지능화 시스템용 보안패치의 시험 평가 장치 및 그 방법
JP2007052756A (ja) ワイヤレスデバイスの不具合診断に適用する学習型診断データベース
JP4286594B2 (ja) 障害解析データ採取装置およびその方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14864270

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14864270

Country of ref document: EP

Kind code of ref document: A1