KR20200049028A - 장애 유형 기반의 서버 장애 진단 및 대응 방법 - Google Patents

장애 유형 기반의 서버 장애 진단 및 대응 방법 Download PDF

Info

Publication number
KR20200049028A
KR20200049028A KR1020180131810A KR20180131810A KR20200049028A KR 20200049028 A KR20200049028 A KR 20200049028A KR 1020180131810 A KR1020180131810 A KR 1020180131810A KR 20180131810 A KR20180131810 A KR 20180131810A KR 20200049028 A KR20200049028 A KR 20200049028A
Authority
KR
South Korea
Prior art keywords
failure
diagnosis
response
web server
server
Prior art date
Application number
KR1020180131810A
Other languages
English (en)
Other versions
KR102109536B1 (ko
Inventor
민병석
국주영
서경석
심상식
이승룡
Original Assignee
주식회사 엘지씨엔에스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 엘지씨엔에스 filed Critical 주식회사 엘지씨엔에스
Priority to KR1020180131810A priority Critical patent/KR102109536B1/ko
Publication of KR20200049028A publication Critical patent/KR20200049028A/ko
Application granted granted Critical
Publication of KR102109536B1 publication Critical patent/KR102109536B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/02Standardisation; Integration
    • H04L41/0246Exchanging or transporting network management information using the Internet; Embedding network management web servers in network elements; Web-services-based protocols
    • H04L41/0253Exchanging or transporting network management information using the Internet; Embedding network management web servers in network elements; Web-services-based protocols using browsers or web-pages for accessing management information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

본 발명의 일 실시예에 따르면, 통합 관리 서버가, 장애 유형을 기반으로 하여 서버 장애를 진단하고 대응하는 방법에 있어서, (a) 웹서버로부터 수신되는 실시간 상태 정보를 기초로 웹서버에 대한 모니터링을 수행하여, 장애가 감지되면, 감지된 장애의 유형을 진단하는 단계; (b) 미리 설정되어 있는 장애 진단 및 대응에 대한 규칙을 기반으로 하여 상기 진단된 장애 유형에 대응되는 제어 명령을 상기 웹서버로 전송함으로써 상기 감지된 장애에 대한 대응을 실시하는 단계; 및 (c) 장애 진단 및 대응에 대한 결과 정보를 생성하여 저장하고, 생성한 결과 정보를 상기 관리자 단말기로 전송하는 단계를 포함하는, 장애 유형 기반의 서버 장애 진단 및 대응 방법이 제공된다.

Description

장애 유형 기반의 서버 장애 진단 및 대응 방법{METHOD FOR DIAGNOSING AND HANDLING OBSTACLE OF SERVER BASED ON OBSTACLE TYPE}
본 발명은 장애 유형 기반의 서버 장애 진단 및 대응 방법에 관한 것으로, 더욱 상세하게는, 서버에서 발생되는 복합 장애가 유형에 따라 진단되고, 진단된 장애에 대하여 미리 설정되어 있는 규칙 기반으로 대응 제어가 자동 실시되도록 함으로써, 진단 장애에 대한 자동적 선대응 또는 즉시대응이 가능하도록 하여 장애 예방 및 방지가 가능함에 따라, 웹서버로 하여금 효율적으로 장애 상황을 극복할 수 있도록 하는 방법에 관한 것이다.
일반적으로, 웹서버 또는 웹 애플리케이션 서버는 서버 이용자가 급증하는 등의 경우에도 장애 없이 웹서비스를 제공할 수 있어야 한다.
하지만, 서버 운용 중 장애가 발생하지 않는 것은 불가능하며, 이에 따라 서버를 실시간으로 모니터링 하여 발생되는 장애를 감지하고 이에 대한 신속한 대응을 실시함으로써, 장애 발생으로 인한 서버 운용의 문제가 최소화될 수 있도록 하는 기술 개발의 노력이 지속되고 있다.
웹서버 또는 웹 애플리케이션 서버의 경우, 서버에서 발생한 단순한 장애라고 할지라도 이 장애들이 복합적으로 연결되면 서버 전체가 웹 서비스를 제공할 수 없는 서비스 불능이라는 심각한 문제가 발생할 수도 있다.
하지만, 기존의 서버 장애 감지 및 해결 프로세스의 경우, 소수 장애 유형만을 진단하며, 진단에 따른 대응에 대해서도, 장애 발생 알람 제공, 서버 재시작 등의 기본적인 대응 기능만을 제공한다.
다시 말해, 기존의 서버 장애 진단 및 대응 프로세스는 알람 제공 등의 이미 발생한 장애에 대한 기본적인 대응 처리만을 실시하기 때문에 다양한 서버 장애 유형에 대한 대응이 어려우며, 선제적으로 서버에 대한 문제를 진단하고 그에 대한 대응을 미리 하여 서버 장애 발생을 예방하는 방식이 아니기 때문에, 서버 전체의 서비스 불능과 같은 심각한 서버 장애에 대해서는 근본적인 대응이 불가능하다는 단점이 있다.
따라서, 서버에서 발생할 수 있는 다양한 주요 유형별 장애에 대한 즉각적 대응이 가능하며, 더 크고 복잡한 장애상황으로 장애가 전파되기 이전에 자동적으로 장애 진단 및 선대응 또한 가능하도록 하여, 웹서버의 장애가 효율적으로 극복되도록 하며, 사용자에게는 장애가 최소화된 웹서비스를 제공할 수 있도록 하는 기술 개발에 대한 요구가 점차 증대되고 있으며, 상술한 문제점을 해결하기 위한 방안이 시급한 실정이다.
본 발명은 전술한 종래기술의 문제점을 해결하기 위한 것으로, 서버에 대한 일부 장애 현상 처리가 아닌 다양한 장애 유형 기반으로 복합 장애 진단 및 대응 제어를 실시함으로써 다양하게 발생되는 서버 장애에 대한 예방 및 방지가 가능하도록 하는 것을 그 목적으로 한다.
본 발명은 단순한 유형의 장애들이 복합적으로 연결되어 더 크고 복잡한 장애 상황으로 전파됨으로서, 서버 전체가 서비스 불능에 빠지는 것을 예방할 수 있도록 장애를 진단하고 선대응하는 것을 그 목적으로 한다.
본 발명의 목적들은 이상에서 언급한 목적들로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 명확하게 이해될 수 있을 것이다.
상술한 목적을 달성하기 위한 본 발명의 일 실시예에 따르면, 통합 관리 서버가, 장애 유형을 기반으로 하여 서버 장애를 진단하고 대응하는 방법에 있어서, (a) 웹서버로부터 수신되는 실시간 상태 정보를 기초로 웹서버에 대한 모니터링을 수행하여, 장애가 감지되면, 감지된 장애의 유형을 진단하는 단계; (b) 미리 설정되어 있는 장애 진단 및 대응에 대한 규칙을 기반으로 하여 상기 진단된 장애 유형에 대응되는 제어 명령을 상기 웹서버로 전송함으로써 상기 감지된 장애에 대한 대응을 실시하는 단계; 및 (c) 장애 진단 및 대응에 대한 결과 정보를 생성하여 저장하고, 생성한 결과 정보를 상기 관리자 단말기로 전송하는 단계를 포함하는, 장애 유형 기반의 서버 장애 진단 및 대응 방법이 제공된다.
상기 실시간 상태 정보는, 상기 웹서버에 대한 서버 리소스 정보 및 노드 리소스 정보를 포함할 수 있다.
상기 (a) 단계는, 상기 실시간 상태 정보와 상기 통합 관리 서버 내 미리 저장되어 있는 장애 진단 및 대응 규칙을 기반으로 분석을 실시하여 상기 감지된 장애의 유형을 진단하는 단계를 포함할 수 있다.
상기 (a) 단계는, 상기 실시간 상태 정보와 상기 통합 관리 서버 내 장애 진단 및 대응에 대한 결과 정보가 누적 저장되어 있는 이력 정보를 기반으로 분석을 실시하여 상기 감지된 장애의 유형을 진단하는 단계를 포함할 수 있다.
상기 (b) 단계는, 상기 진단된 장애 유형에 대한 알람 정보를 상기 관리자 단말기로 전송함으로써 상기 감지된 장애에 대한 대응을 실시하는 단계를 포함할 수 있다.
상기 (a) 단계는, 상기 감지된 장애의 유형을, 요청 초과 장애, 대용량 데이터 베이스 데이터 조회 장애, 데이터베이스 연결 요청 초과 장애, 서비스 지연 장애, 메모리 부족 장애, 특정 서비스의 요청 초과 장애 및 정지 장애 중 어느 하나로 진단하는 단계를 포함할 수 있다.
상기 (a) 및 (b) 단계는, 상기 모니터링을 통해 상기 웹서버의 가용 스레드(Thread) 사용량이 임계치를 초과한 것으로 판단되면, 요청 초과 장애로 진단하고, 미리 설정되어 있는 장애 진단 및 대응에 대한 규칙을 기반으로 하여, 사용자 요청을 임시 페이지로 우회시키는 제어 명령을 상기 웹서버로 전송하는 단계를 포함할 수 있다.
상기 사용자 요청을 임시 페이지로 우회시키는 제어는, 상기 웹서버 내에서 가용 스레드(Thread) 사용량이 임계치를 초과한 것으로 판단되어, 요청 초과 장애가 진단되면, 상기 웹서버 자체적으로 요청 초과 장애 진단 즉시 자동 수행 가능한 것을 특징으로 할 수 있다.
상기 (a) 및 (b) 단계는, 상기 모니터링을 통해 사용자로부터 서비스에 대한 대용량 데이터베이스 데이터 조회가 요청된 것으로 판단되면, 대용량 데이터베이스 데이터 조회 장애로 진단하고, 미리 설정되어 있는 장애 진단 및 대응에 대한 규칙을 기반으로 하여, 사용자로부터 요청된 해당 서비스를 강제로 종료시키거나 소정 조건에 의해 서비스가 제한되도록 하는 제어 명령을 상기 웹서버로 전송하는 단계를 포함할 수 있다.
상기 사용자로부터 요청된 해당 서비스를 강제로 종료시키거나 소정 조건에 의해 서비스가 제한되도록 하는 제어는, 상기 웹서버 내에서 사용자로부터 서비스에 대한 대용량 데이터베이스 데이터 조회가 요청된 것으로 판단되어, 대용량 데이터베이스 데이터 조회 장애가 진단되면, 상기 웹서버 자체적으로 대용량 데이터베이스 데이터 조회 장애 진단 즉시 자동 수행 가능한 것을 특징으로 할 수 있다.
상기 (a) 및 (b) 단계는, 상기 모니터링을 통해 상기 웹서버 내 데이터베이스 연결 그룹(Pool)이 임계치를 초과하여 특정 데이터소스(Datasource)의 데이터베이스 연결이 과도하게 사용되고 있는 것으로 판단되면, 데이터베이스 연결 요청 초과 장애로 진단하고, 미리 설정되어 있는 장애 진단 및 대응에 대한 규칙을 기반으로 하여, 사용자 요청을 임시 페이지로 우회시키거나 해당 데이터베이스 연결 획득 대기시간을 강제로 줄이는 제어 명령을 상기 웹서버로 전송하는 단계를 포함할 수 있다.
상기 (a) 및 (b) 단계는, 상기 모니터링을 통해 사용자로부터 요청된 서비스의 응답이 지연되거나 사용자로부터 소정의 시간이 지연된 후에 제공되는 서비스에 대한 요청이 수신된 것으로 판단되면, 서비스 지연 장애로 진단하고, 미리 설정되어 있는 장애 진단 및 대응에 대한 규칙을 기반으로 하여, 장애가 진단된 서비스에 대한 스레드 사용률을 제한하는 제어 명령을 상기 웹서버로 전송하는 단계를 포함할 수 있다.
상기 (a) 및 (b) 단계는, 상기 모니터링을 통해 서비스 로직(Logic)의 오류 또는 시스템의 과도한 메모리 사용에 의해 메모리 부족 문제(Out Of Memory, OOM)가 발생하거나 메모리 자동 수거 현상(Full Garbage Collection, Full GC) 발생 빈도가 증가하거나 메모리 해제 불가의 상황이 지속적으로 발생하는 것으로 판단되면, 메모리 부족 장애로 진단하고, 미리 설정되어 있는 장애 진단 및 대응에 대한 규칙을 기반으로 하여, 덤프 생성 명령 및 서버 재기동 명령을 상기 웹서버로 전송하고, 알람 정보를 상기 관리자 단말기로 전송하는 단계를 포함할 수 있다.
상기 (a) 및 (b) 단계는, 상기 모니터링을 통해 상기 웹서버로 수신된 특정 서비스에 대한 사용자의 요청이 상기 웹서버에서 처리 가능한 한계를 초과하는 것으로 판단되면, 특정 서비스의 요청 초과 장애로 진단하고, 미리 설정되어 있는 장애 진단 및 대응에 대한 규칙을 기반으로 하여, 복수의 사용자에 대한 서비스 진입이 순차적으로 이뤄지도록 하는 요청 제어 명령을 상기 웹서버로 전송하고, 해당 장애 진단에 대한 알람 정보를 상기 관리자 단말기로 전송하는 단계를 포함할 수 있다.
상기 (a) 및 (b) 단계는, 상기 모니터링을 통해 상기 웹서버가 기동 중인 상태임에도 아무 기능도 수행하지 못하는 정지(Hang) 상태인 것으로 판단되면, 정지 장애로 진단하고, 미리 설정되어 있는 장애 진단 및 대응에 대한 규칙을 기반으로 하여, 상기 웹서버로 덤프 생성 명령 및 서버 재기동 명령을 전송하고, 상기 관리자 단말기로 해당 진단 장애에 대한 알람 정보를 전송하는 단계를 포함할 수 있다.
상기 (c) 단계는, 상기 장애 진단 및 대응에 대한 결과 정보를 시계열로 나열된 통계 정보 형태로 생성하여 상기 관리자 단말기로 전송하는 단계를 포함할 수 있다.
상기 (c) 단계는, 상기 관리자 단말기로부터 수신되는 관리자의 요청 또는 미리 설정되어 있는 소정의 주기에 의해 상기 장애 진단 및 대응에 대한 결과 정보를 생성하는 단계를 포함할 수 있다.
상기 (c) 단계는, 상기 관리자 단말기로부터 소정의 검색 조건이 포함된 정보 조회 요청이 수신되면, 수신된 소정의 검색 조건에 상응하는 장애 진단 및 대응에 대한 결과 정보를 생성하여 상기 관리자 단말기로 전송하는 단계를 포함할 수 있다.
한편, 본 발명의 다른 실시예에 따르면, 웹서버로부터 수신되는 실시간 상태 정보를 기초로 웹서버에 대한 모니터링을 수행하여, 장애가 감지되면, 감지된 장애의 유형을 진단하는 장애 진단부; 미리 설정되어 있는 장애 진단 및 대응에 대한 규칙을 기반으로 하여 상기 진단된 장애 유형에 대응되는 제어 명령을 상기 웹서버로 전송함으로써 상기 감지된 장애에 대한 대응을 실시하는 장애 처리부; 장애 진단 및 대응에 대한 결과 정보를 생성하여 상기 관리자 단말기로 전송하는 결과 제공부; 및 상기 생성한 장애 진단 및 대응에 대한 결과 정보를 저장하는 저장부를 포함하는, 통합 관리 서버가 제공된다.
상기 실시간 상태 정보는, 상기 웹서버에 대한 서버 리소스 정보 및 노드 리소스 정보를 포함할 수 있다.
상기 장애 진단부는, 상기 실시간 상태 정보와 상기 통합 관리 서버 내 미리 저장되어 있는 장애 진단 및 대응 규칙을 기반으로 분석을 실시하여 상기 감지된 장애의 유형을 진단할 수 있다.
상기 장애 진단부는, 상기 실시간 상태 정보와 상기 통합 관리 서버 내 장애 진단 및 대응에 대한 결과 정보가 누적 저장되어 있는 이력 정보를 기반으로 분석을 실시하여 상기 감지된 장애의 유형을 진단할 수 있다.
상기 장애 처리부는, 상기 진단된 장애 유형에 대한 알람 정보를 상기 관리자 단말기로 전송함으로써 상기 감지된 장애에 대한 대응을 실시할 수 있다.
상기 장애 진단부는, 상기 감지된 장애의 유형을, 요청 초과 장애, 대용량 데이터베이스 데이터 조회 장애, 데이터베이스 연결 요청 초과 장애, 서비스 지연 장애, 메모리 부족 장애, 특정 서비스의 요청 초과 장애 및 정지 장애 중 어느 하나로 진단할 수 있다.
상기 장애 진단부는, 상기 모니터링을 통해 상기 웹서버의 가용 스레드(Thead) 사용량이 임계치를 초과한 것으로 판단되면, 요청 초과 장애로 진단하고, 상기 장애 처리부는, 상기 요청 초과 장애로 진단된 경우, 미리 설정되어 있는 장애 진단 및 대응에 대한 규칙을 기반으로 하여, 사용자 요청을 임시 페이지로 우회시키는 제어 명령을 상기 웹서버로 전송할 수 있다.
상기 사용자 요청을 임시 페이지로 우회시키는 제어는, 상기 웹서버 내에서 가용 스레드(Thread) 사용량이 임계치를 초과한 것으로 판단되어, 요청 초과 장애가 진단되면, 상기 웹서버 자체적으로 요청 초과 장애 진단 즉시 자동 수행 가능한 것을 특징으로 할 수 있다.
상기 장애 진단부는, 상기 모니터링을 통해 사용자로부터 서비스에 대한 대용량 데이터베이스 데이터 조회가 요청된 것으로 판단되면, 대용량 데이터베이스 데이터 조회 장애로 진단하고, 상기 장애 처리부는, 상기 대용량 데이터베이스 데이터 조회 장애로 판단된 경우, 미리 설정되어 있는 장애 진단 및 대응에 대한 규칙을 기반으로 하여, 사용자로부터 요청된 해당 서비스를 강제로 종료시키거나 소정 조건에 의해 서비스가 제한되도록 하는 제어 명령을 상기 웹서버로 전송할 수 있다.
상기 사용자로부터 요청된 해당 서비스를 강제로 종료시키거나 소정 조건에 의해 서비스가 제한되도록 하는 제어는, 상기 웹서버 내에서 사용자로부터 서비스에 대한 대용량 데이터베이스 데이터 조회가 요청된 것으로 판단되어, 대용량 데이터베이스 데이터 조회 장애가 진단되면, 상기 웹서버 자체적으로 대용량 데이터베이스 데이터 조회 장애 진단 즉시 자동 수행 가능한 것을 특징으로 할 수 있다.
상기 장애 진단부는, 상기 모니터링을 통해 상기 웹서버 내 데이터베이스 연결 그룹(Pool)이 임계치를 초과하여 특정 데이터소스(Datasource)의 데이터베이스 연결이 과도하게 사용되고 있는 것으로 판단되면, 데이터베이스 연결 요청 초과 장애로 진단하고, 상기 장애 처리부는, 상기 데이터베이스 연결 요청 초과 장애로 진단된 경우, 미리 설정되어 있는 장애 진단 및 대응에 대한 규칙을 기반으로 하여, 사용자 요청을 임시 페이지로 우회시키거나 해당 데이터베이스 연결 획득 대기시간을 강제로 줄이는 제어 명령을 상기 웹서버로 전송할 수 있다.
상기 장애 진단부는, 상기 모니터링을 통해 사용자로부터 요청된 서비스의 응답이 지연되거나 사용자로부터 소정의 시간이 지연된 후에 제공되는 서비스에 대한 요청이 수신된 것으로 판단되면, 서비스 지연 장애로 진단하고, 상기 장애 처리부는, 상기 서비스 지연 장애로 진단된 경우, 미리 설정되어 있는 장애 진단 및 대응에 대한 규칙을 기반으로 하여, 장애가 진단된 서비스에 대한 스레드 사용률을 제한하는 제어 명령을 상기 웹서버로 전송할 수 있다.
상기 장애 진단부는, 상기 모니터링을 통해 서비스 로직(Logic)의 오류 또는 시스템의 과도한 메모리 사용에 의해 메모리 부족 문제(Out Of Memory, OOM)가 발생하거나 메모리 자동 수거 현상(Full Garbage Collection, Full GC) 발생 빈도가 증가하거나 메모리 해제 불가 등의 상황이 지속적으로 발생하는 것으로 판단되면, 메모리 부족 장애로 진단하고, 상기 장애 처리부는, 상기 메모리 부족 장애로 진단된 경우, 미리 설정되어 있는 장애 진단 및 대응에 대한 규칙을 기반으로 하여, 덤프 생성 명령 및 서버 재기동 명령을 상기 웹서버로 전송하고 알람 정보를 상기 관리자 단말기로 전송할 수 있다.
상기 장애 진단부는, 상기 모니터링을 통해 상기 웹서버로 수신된 특정 서비스에 대한 사용자의 요청이 상기 웹서버에서 처리 가능한 한계를 초과하는 것으로 판단되면, 특정 서비스의 요청 초과 장애로 진단하고, 상기 장애 처리부는, 상기 특정 서비스의 요청 초과 장애로 진단된 경우, 미리 설정되어 있는 장애 진단 및 대응에 대한 규칙을 기반으로 하여, 복수의 사용자에 대한 서비스 진입이 순차적으로 이뤄지도록 하는 요청 제어 명령을 상기 웹서버로 전송하고 해당 장애 진단에 대한 알람 정보를 상기 관리자 단말기로 전송할 수 있다.
상기 장애 진단부는, 상기 모니터링을 통해 상기 웹서버가 기동 중인 상태임에도 아무 기능도 수행하지 못하는 정지(Hang) 상태인 것으로 판단되면, 정지 장애로 진단하고, 상기 장애 처리부는, 상기 정지 장애로 진단된 경우, 미리 설정되어 있는 장애 진단 및 대응에 대한 규칙을 기반으로 하여, 상기 웹서버로 덤프 생성 명령 및 서버 재기동 명령을 전송하고 상기 관리자 단말기로 해당 진단 장애에 대한 알람 정보를 전송할 수 있다.
상기 결과 제공부는, 상기 장애 진단 및 대응에 대한 결과 정보를 시계열로 나열된 통계 정보 형태로 생성하여 상기 관리자 단말기로 전송할 수 있다.
상기 결과 제공부는, 상기 관리자 단말기로부터 수신되는 관리자의 요청 또는 미리 설정되어 있는 소정의 주기에 의해 상기 장애 진단 및 대응에 대한 결과 정보를 생성할 수 있다.
상기 결과 제공부는, 상기 관리자 단말기로부터 소정의 검색 조건이 포함된 정보 조회 요청이 수신되면, 수신된 소정의 검색 조건에 상응하는 장애 진단 및 대응에 대한 결과 정보를 생성하여 상기 관리자 단말기로 전송할 수 있다.
본 발명의 일 실시예에 따르면, 일부 장애 현상에 대한 처리가 아닌, 다양한 장애 유형을 기반으로 복합 서버 장애 진단 및 대응을 실시함으로써, 서버에서 발생 가능한 다양한 장애에 대한 예방 및 방지가 가능한 바, 서버 운용에 있어서 신뢰성 및 안정성이 확보될 수 있다.
본 발명의 다른 실시예에 따르면, 미리 설정되어 있는 규칙 기반의 장애 진단 및 대응을 실시함으로써, 서버 장애 발생 시, 미리 설정되어 있는 규칙을 기반으로 하여 자동적으로 장애에 대한 대응이 실시되는 바, 서버 장애가 발생 즉시 극복될 수 있다.
본 발명의 또 다른 실시예에 따르면, 웹서버의 리소스 정보를 기초로 서버에 대한 통합 관리 및 실시간 제어를 수행하는 바, 서버 무중단 제어가 가능하다는 장점이 있다.
본 발명의 효과는 상기한 효과로 한정되는 것은 아니며, 본 발명의 상세한 설명 또는 특허청구범위에 기재된 발명의 구성으로부터 추론 가능한 모든 효과를 포함하는 것으로 이해되어야 한다.
도 1은 본 발명의 일 실시예에 따른 장애 유형 기반의 서버 장애 진단 및 대응 시스템의 구성을 개략적으로 도시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 통합 관리 서버의 구성을 도시한 블록도이다.
도 3은 본 발명의 일 실시예에 따라 웹서버의 장애가 유형에 따라 진단되고, 그에 따른 대응으로 장애가 처리되는 과정을 도시한 흐름도이다.
도 4는 본 발명의 일 실시예에 따라 실시간 모니터링 정보 제공 시 관리자 단말기에 디스플레이 되는 화면을 예시하는 도면이다.
도 5는 본 발명의 일 실시예에 따라 장애 진단 및 대응에 대한 결과 정보 제공 시 관리자 단말기에 디스플레이 되는 화면을 예시하는 도면이다.
도 6은 본 발명의 일 실시예에 따라 요청 초과 장애 진단에 따른 결과 정보 제공 시 관리자 단말기에 디스플레이 되는 화면을 예시하는 도면이다.
도 7은 본 발명의 일 실시예에 따라 대용량 데이터베이스 데이터 조회 장애 진단에 따른 결과 정보 제공 시 관리자 단말기에 디스플레이 되는 화면을 예시하는 도면이다.
도 8은 본 발명의 일 실시예에 따라 데이터베이스 연결 요청 초과 장애 진단에 따른 결과 정보 제공 시 관리자 단말기에 디스플레이 되는 화면을 예시하는 도면이다.
도 9는 본 발명의 일 실시예에 따라 서비스 지연 장애 진단에 따른 결과 정보 제공 시 관리자 단말기에 디스플레이 되는 화면을 예시하는 도면이다.
도 10은 본 발명의 일 실시예에 따라 메모리 부족 장애 진단에 따른 결과 정보 제공 시 관리자 단말기에 디스플레이 되는 화면을 예시하는 도면이다.
도 11은 본 발명의 일 실시예에 따라 특정 서비스의 요청 초과 장애 진단에 따른 결과 정보 제공 시 관리자 단말기에 디스플레이 되는 화면을 예시하는 도면이다.
도 12는 본 발명의 일 실시예에 따라 정지 장애 진단에 따른 결과 정보 제공 시 관리자 단말기에 디스플레이 되는 화면을 예시하는 도면이다.
도 13은 본 발명의 일 실시예에 따라 시계열로 나열된 통계 형태의 장애 진단 및 대응에 대한 결과 정보 제공 시 관리자 단말기에 디스플레이 되는 화면을 예시하는 도면이다.
도 14는 본 발명의 일 실시예에 따라 진단 이력 검색 결과 정보 제공 시 관리자 단말기에 디스플레이 되는 화면을 예시하는 도면이다.
이하에서는 첨부한 도면을 참조하여 본 발명을 설명하기로 한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 따라서 여기에서 설명하는 실시예로 한정되는 것은 아니다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 부재를 사이에 두고 "간접적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 구비할 수 있다는 것을 의미한다.
본 명세서에서, 웹서버는, 웹서버(Web server) 또는 웹 애플리케이션 서버(Web Application Server, WAS)일 수 있으며, 단일의 서버 형태로 설명을 기재하였으나, 복수의 서버 형태로 구성될 수 있음은 물론이다. 이에 따라, 본 명세서에서, 통합 관리 서버는, 복수의 웹서버에 대한 동시 모니터링이 가능하다.
이하 첨부된 도면을 참고하여 본 발명의 실시예를 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 장애 유형 기반의 서버 장애 진단 및 대응 시스템의 구성을 개략적으로 도시한 도면이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 장애 유형 기반의 서버 장애 진단 및 대응 시스템은, 사용자 단말기(100), 웹서버(200), 통합 관리 서버(300) 및 관리자 단말기(400)로 구성될 수 있다.
사용자 단말기(100), 웹서버(200), 통합 관리 서버(300) 및 관리자 단말기(400) 각각은 통신망을 통해 연결되어 있을 수 있다. 여기서, 통신망은 유선 및 무선 등과 같은 그 통신 양태를 가리지 않고 구성될 수 있으며, 근거리 통신망(LAN: Local Area Network), 도시권 통신망(MAN: Metropolitan Area Network), 광역 통신망(WAN: Wide Area Network) 등 다양한 통신망으로 구성될 수 있다.
사용자 단말기(100) 및 관리자 단말기(400)는 휴대폰, 스마트폰, PDA(Personal Digital Assistant), PMP(Portable Multimedia Player), 태블릿 PC 등과 같이 터치 스크린 패널이 구비된 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있으며, 이 외에도 데스크탑 PC, 태블릿 PC, 랩탑 PC, 셋탑 박스를 포함하는 IPTV와 같이, 애플리케이션을 설치하고 실행할 수 있는 기반이 마련된 장치도 포함할 수 있다.
관리자 단말기(400)는 서버 통합 관리 서비스를 제공하는 애플리케이션을 설치하여 메모리에 저장할 수 있다. 예를 들어, 관리자 단말기(400)는 각종 애플리케이션이 업로드 되어 있는 앱 스토어 서버(미도시)에 접속한 후, 모니터링 정보 조회, 장애 이력 정보 제공 등 다양한 서비스를 제공하는 서버 통합 관리 서비스 제공 애플리케이션을 다운로드 하여 설치할 수 있다.
본 발명의 일 실시예에 따르면, 관리자 단말기(400)는 서버 통합 관리 서비스가 제공되는 웹페이지에 접속하는 사용자 단말기(100)와 동일한 장치일 수 있다.
사용자 단말기(100)에는 웹서버(200)로부터 제공되는 웹 서비스에 대한 인터페이스 및 화면이 제공될 수 있으며, 이를 통해 사용자로 하여금 이용하고자 하는 서비스를 선택하도록 할 수 있다.
상기 제공한 인터페이스를 통해 사용자로부터 웹 서비스 중 어느 하나가 선택되면, 사용자 단말기(100)는 웹서버(200)로 해당 서비스 요청 신호를 전송할 수 있으며, 웹서버(200)는 이에 해당하는 웹서비스 화면 또는 인터페이스를 사용자 단말기(100)로 전송하여 사용자에게 제공할 수 있다.
웹서버(200)는 통합 관리 서버(300)로 리소스 정보를 전송할 수 있다. 이 때, 리소스 정보는, 서버 리소스 정보 및 노드 리소스 정보를 포함하며, 리소스 정보를 통해 통합 관리 서버(300)에서는 웹서버(200)에 대한 실시간 모니터링을 실시할 수 있다. 상기 노드는, 웹서버가 설치되어 있는 물리적 장비나 컨테이너 등의 시스템을 의미할 수 있다.
본 발명의 일 실시예에 따르면, 웹서버(200)는 사용자 단말기(100)로부터 서비스 제공 요청 신호가 수신되는 경우에 통합 관리 서버(300)로 리소스 정보를 전송하거나, 또는, 별도의 요청 신호가 수신되지 않아도 소정의 주기마다 자동으로 리소스 정보를 전송하여 실시간 모니터링이 이뤄지도록 할 수 있다.
통합 관리 서버(300)는 웹서버(200)로부터 수신된 리소스 정보를 기초로 실시간 모니터링을 수행할 수 있으며, 분석을 통해 장애를 진단할 수 있다.
통합 관리 서버(300)는 미리 설정되어 있는 규칙을 기반으로 하여 웹서버(200)의 장애를 진단할 수 있으며, 진단된 장애에 대한 대응 제어를 실시할 수 있다.
이 때, 미리 설정되어 있는 규칙은, 발생 장애에 대한 진단 유형별 대응 방법에 대한 것이며, 장애 유형 별로 대응 방법이 미리 매칭되어 있을 수 있다.
진단 유형에는, 요청 초과 진단, 대용량 데이터베이스 데이터 조회 진단, 데이터베이스 연결 요청 초과 진단, 서비스 지연 진단, 메모리 부족 진단, 특정 서비스의 요청 초과 진단 및 정지 진단이 있으며, 이에 대하여 매칭되어 있는 대응 제어 방법에는, 우회 페이지로 이동, 서비스 강제 종료, 서비스 제한 제어, 서비스 접속 제한, 알람 제공, 덤프 생성 및 서비스 재시작 제어가 포함될 수 있다.
통합 관리 서버(300)는 진단된 장애 유형에 매칭되어 있는 대응 제어 명령을 웹서버(200)로 전송함으로써, 웹서버(200)가 장애 극복되도록 할 수 있다.
본 발명의 일 실시예에 따르면, 요청 초과 장애 또는 대용량 데이터베이스 조회 장애의 경우, 웹서버(200) 내에서 가용 스레드(Thread) 사용량의 임계치 초과 여부를 판단하거나 사용자로부터의 서비스에 대한 대용량 데이터베이스 조회 요청 여부를 판단 가능함에 따라, 통합 관리 서버(300)의 개입 없이도, 웹서버(200) 자체적으로 상기 해당 장애가 발생한 것으로 판단되는 즉시 대응 제어를 수행할 수 있다. 이에 따라, 통합 관리 서버(300)에서 장애를 진단하고 해당 대응 제어 명령을 전송함에 따라 소요되는 시간으로 인해 장애를 대응할 수 있는 적정 시기를 놓치는 문제가 발생하지 않을 수 있다.
웹서버(200)의 장애가 진단되고, 이에 대응되는 대응 제어가 실시된 경우, 통합 관리 서버(300)는 이러한 진단된 장애 유형 정보 및 그에 따라 대응한 대응 정보를 매칭하여 저장할 수 있다.
또한, 통합 관리 서버(300)는 실시간 모니터링 정보를 관리자 단말기(400)로 전송함으로써 관리자 단말기(400)를 통해 서버 모니터링 정보가 제공될 수 있도록 하며, 장애가 진단된 경우, 장애 진단 알림 및 장애 발생에 따른 대응 이력을 관리자 단말기(400)로 전송함으로써 관리자에게 제공할 수 있다.
또한, 웹서버(200)가 복수인 경우, 통합 관리 서버(300)는 복수의 웹서버(200)에 대하여 선택적으로 관리자 단말기(400)에 각 서버에 대한 실시간 모니터링 정보를 제공할 수 있다.
통합 관리 서버(300)는 장애 진단 및 대응 결과에 대한 보고서를 생성하여 관리자 단말기(400)로 전송할 수 있다. 이 때, 통합 관리 서버(300)는 장애 진단 및 대응 결과에 대하여 시계열로 나열된 통계 정보를 제공함으로써, 관리자로 하여금 시간 기반 장애 패턴 파악이 가능하도록 할 수 있다.
관리자 단말기(400)는 통합 관리 서버(300)로부터 수신되는 실시간 모니터링 정보, 장애 진단 알림 정보, 장애 발생에 따른 대응 이력 정보 및 장애 진단 및 대응 결과에 대한 보고서를 디스플레이 하여 관리자에게 제공할 수 있다.
또한, 관리자 단말기(400)는 통합 관리 서버(300)로부터 제공되는 통합 관리 서비스 제공 관련 인터페이스를 통해 사용자로부터 소정의 장애 진단 및 대응에 대한 정보 조회 요청이 입력되면, 해당 요청 정보를 통합 관리 서버(300)로 전송하여, 대응되는 정보를 제공받을 수 있다.
도 2는 본 발명의 일 실시예에 따른 통합 관리 서버(300)의 구성을 도시한 블록도이다.
도 2를 참조하면, 본 발명의 일 실시예에 따른 통합 관리 서버(300)는 장애 진단부(310), 장애 처리부(320), 결과 제공부(330) 및 저장부(340)를 포함할 수 있다.
장애 진단부(310)는 웹서버(200)로부터 수신되는 리소스 정보를 기초로 웹서버(200)에 대한 실시간 모니터링을 수행할 수 있다.
구체적으로, 장애 진단부(310)는 수신된 리소스 정보와 장애 진단 및 대응 결과에 대한 이력 정보 데이터를 기반으로 분석을 실시함으로써 실시간 모니터링을 수행할 수 있다.
장애 진단부(310)는 상기 모니터링을 통해 장애가 감지되면, 미리 설정되어 있는 소정의 장애 유형에 따라 장애를 진단할 수 있다. 이 때, 진단 가능한 소정의 장애 유형에는, 요청 초과 진단, 대용량 데이터베이스 데이터 조회 진단, 데이터베이스 연결 요청 초과 진단, 서비스 지연 진단, 메모리 부족 진단, 특정 서비스의 요청 초과 진단 및 정지 진단이 포함될 수 있다.
본 발명의 일 실시예에 따르면, 장애 진단부(310)는 웹서버(200)로부터 수신되는 리소스 정보를 기초로 모니터링을 실시하여, 과도하게 발생한 사용자 서비스 요청으로 웹서버(200)의 가용 스레드(Thread) 사용량이 임계치를 초과한 것으로 판단되면, 웹서버(200)에 대하여 요청 초과 장애를 진단할 수 있다.
본 발명의 다른 실시예에 따르면, 장애 진단부(310)는 웹서버(200)로부터 수신되는 리소스 정보를 기초로 모니터링을 실시하여, 사용자로부터 서비스에 대한 대용량 데이터베이스 데이터 조회가 요청된 것으로 판단되면, 웹서버(200)에 대하여 대용량 데이터베이스 데이터 조회 장애를 진단할 수 있다.
본 발명의 또 다른 실시예에 따르면, 장애 진단부(310)는 웹서버(200)로부터 수신되는 리소스 정보를 기초로 모니터링을 실시하여, 웹서버(200) 내 데이터베이스의 처리 시간 지연, 데이터베이스 잠금 상태 등에 의해 데이터베이스 연결이 과도하게 점유된 것으로 판단되면, 즉, 데이터베이스 연결 그룹(Pool)이 임계치를 초과하여 특정 데이터소스(Datasource)의 데이터베이스 연결이 과도하게 사용되고 있는 것으로 판단되면, 웹서버(200)에 대하여 데이터베이스 연결 요청 초과 장애를 진단할 수 있다.
본 발명의 또 다른 실시예에 따르면, 장애 진단부(310)는 웹서버(200)로부터 수신되는 리소스 정보를 기초로 모니터링을 실시하여, 일시적인 네트워크, 연계시스템 문제 등으로 사용자로부터 요청된 서비스의 응답이 지연되거나, 사용자로부터 소정의 시간이 지연된 후에 제공되는 서비스에 대한 요청이 수신된 것으로 판단되면, 웹서버(200)에 대하여 서비스 지연 장애를 진단할 수 있다.
본 발명의 또 다른 실시예에 따르면, 장애 진단부(310)는 웹서버(200)로부터 수신되는 리소스 정보를 기초로 모니터링을 실시하여, 서비스 로직(Logic)의 오류 또는 시스템의 과도한 메모리 사용에 의해 메모리 부족 문제(Out Of Memory, OOM)가 발생한 것으로 판단되면, 웹서버(200)에 대하여 메모리 부족 장애를 진단할 수 있다.
또한, 장애 진단부(310)는 웹서버(200)로부터 수신되는 리소스 정보를 기초로 모니터링을 실시하여, 메모리 자동 수거 현상(Full Garbage Collection, Full GC) 발생 빈도가 증가하거나 메모리 해제 불가 등의 상황이 지속적으로 발생하는 것으로 판단되면, 웹서버(200)에 대하여 메모리 부족 장애가 발생할 것으로 미리 진단할 수 있다.
본 발명의 또 다른 실시예에 따르면, 장애 진단부(310)는 웹서버(200)로부터 수신되는 리소스 정보를 기초로 모니터링을 실시하여, 웹서버(200)로 수신된 특정 서비스에 대한 사용자의 요청이 웹서버(200)에서 처리 가능한 한계를 초과하는 것으로 판단되면, 웹서버(200)에 대하여 특정 서비스의 요청 초과 장애를 진단할 수 있다.
본 발명의 또 다른 실시예에 따르면, 장애 진단부(310)는 웹서버(200)가 기동 중인 상태임에도 아무 기능도 수행하지 못하는 정지(Hang) 상태인 것으로 판단되면, 웹서버(200)에 대하여 정지 장애를 진단할 수 있다.
장애 처리부(320)는 장애 진단부(310)를 통해 진단된 웹서버(200)에 대한 장애 유형에 대하여, 각 유형별로 매칭되어 있는 대응 제어 명령을 웹서버(200)로 전송함으로써, 웹서버(200)의 장애가 극복되도록 할 수 있다.
다시 말해, 장애 처리부(320)는 장애 진단부(310)를 통해 장애가 진단되면, 미리 설정되어 있는 장애 진단 및 대응 규칙을 기반으로 하여 해당 진단 장애 유형에 대응되는 대응 제어 명령을 자동으로 웹서버(200)로 전송함으로써, 웹서버(200)가 발생된 장애에 대하여 자동으로 즉시 극복하도록 할 수 있다.
본 발명의 일 실시예에 따르면, 장애 진단부(310)를 통해 요청 초과 장애가 발생되었거나 발생될 것으로 진단된 경우, 장애 처리부(320)는 과도하게 발생된 사용자 요청을 임시 페이지로 우회시키는 제어 명령을 웹서버(200)로 전송함으로써, 웹서버(200)가 안정적인 상태로 유지되도록 하는 바, 장애에 대한 선대응 또는 즉시 대응을 실시할 수 있다.
장애 처리부(320)는 상기 임시 페이지로의 우회 제어 명령을 전송함에 따라, 장애 진단부(310)를 통해 웹서버(200) 가용 스레드 사용량이 임계치를 초과하지 않은 것으로 판단되면, 이 후 발생되는 사용자 요청에 대하여 더 이상 임시 페이지로 우회시키는 제어 명령을 전송하지 않을 수 있다.
본 발명의 다른 실시예에 따르면, 장애 진단부(310)를 통해 대용량 데이터베이스 데이터 조회 장애가 발생되었거나 발생될 것으로 진단된 경우, 장애 처리부(320)는 사용자로부터 요청된 해당 서비스를 강제로 종료시키거나 소정 조건에 의해 서비스가 제한되도록 하는 제어 명령을 웹서버(200)로 전송함으로써, 웹서버(200)가 안정적인 상태로 유지되도록 하는 바, 장애에 대한 선대응 또는 즉시 대응을 실시할 수 있다.
본 발명의 또 다른 실시예에 따르면, 장애 진단부(310)를 통해 데이터베이스 연결 요청 초과 장애가 발생한 것으로 진단된 경우, 장애 처리부(320)는 발생된 사용자 요청을 임시 페이지로 우회시거나 해당 데이터베이스 연결 획득 대기시간을 강제로 줄이는 제어 명령을 웹서버(200)로 전송함으로써, 장애에서 격리되도록 하여 웹서버(200)가 안정적인 상태로 유지되도록 하는 바, 장애에 대한 즉각적인 대응을 실시할 수 있다.
장애 처리부(320)는 상기 임시 페이지 우회로의 제어 명령을 전송함에 따라, 장애 진단부(310)를 통해 데이터베이스 연결 그룹이 임계치를 초과하지 않는 것으로 판단되면, 이 후 발생되는 서비스 요청에 대하여 더 이상 임시 페이지로 우회시키거나 해당 데이터베이스 연결 획득 대기시간을 강제로 줄이는 제어 명령을 전송하지 않을 수 있다.
본 발명의 또 다른 실시예에 따르면, 장애 진단부(310)를 통해 서비스 지연 장애가 발생되었거나 발생될 것으로 진단된 경우, 장애 처리부(320)는 장애가 진단된 서비스에 대한 스레드 사용률을 제한하는 제어 명령을 웹서버(200)로 전송함으로써, 통신 서비스 품질(Quality of Service, QoS)이 보장되도록 하는 바, 장애에 대한 선대응 또는 즉시 대응을 실시할 수 있다.
장애 처리부(320)는 상기 스레드 사용률 제한 제어 명령을 전송함에 따라, 장애 진단부(310)를 통해 더 이상 서비스 지연 문제가 발생되지 않는 것으로 판단되면, 웹서버(200)로 스레드 사용률 제한 제어 해제 명령을 전송하여 사용률 제한 제어가 실시되지 않도록 할 수 있다.
본 발명의 또 다른 실시예에 따르면, 장애 진단부(310)를 통해 메모리 부족 장애가 발생한 것으로 진단된 경우, 장애 처리부(320)는 덤프 생성 명령 및 서버 재기동 명령을 웹서버(200)로 전송하고, 장애 발생에 대한 알람 정보를 관리자 단말기(400)로 전송함으로써 장애에 대한 즉각적인 대응을 실시할 수 있다.
또한, 장애 진단부(310)를 통해 메모리 부족 장애가 발생할 것으로 미리 진단된 경우, 장애 처리부(320)는 웹서버(200)로 덤프 생성 명령을 전송하고 관리자 단말기(400)로 메모리 부족 장애 발생 가능 여부에 대한 알람을 제공함으로써, 메모리 부족 장애에 대한 선대응을 실시할 수 있다.
본 발명의 또 다른 실시예에 따르면, 장애 진단부(310)를 통해 특정 서비스의 요청 초과 장애가 발생되었거나 발생될 것으로 진단된 경우, 장애 처리부(320)는 복수의 사용자에 대한 서비스 진입이 순차적으로 이뤄지도록 하는 요청 제어 명령을 웹서버(200)로 전송하고, 해당 장애 진단에 대한 알람 정보를 관리자 단말기(400)로 전송함으로써, 사용자의 서비스 이용에 대한 이탈이 방지되도록 하는 바, 장애에 대한 선대응 또는 즉시 대응을 실시할 수 있다.
본 발명의 또 다른 실시예에 따르면, 장애 진단부(310)를 통해 정지 장애가 발생한 것으로 진단된 경우, 장애 처리부(320)는 웹서버(200)로 덤프 생성 명령 및 서버 재기동 명령을 전송하고, 관리자 단말기(400)로 해당 진단 장애에 대한 알람 정보를 전송함으로써, 웹서버(200)가 장애로부터 신속하게 복구되도록 하고, 시스템 전체의 장애 발생이 방지되도록 하는 바, 장애에 대한 즉각적인 대응을 실시할 수 있다.
결과 제공부(330)는 웹서버(200)로부터 수신된 리소스 정보를 기초로 수행한 실시간 모니터링 정보를 관리자 단말기(400)로 전송하여 관리자에게 제공할 수 있다.
또한, 결과 제공부(330)는 장애 진단 및 대응에 대한 결과 정보를 생성하여 관리자 단말기(400)로 전송할 수 있다.
본 발명의 일 실시예에 따르면, 결과 제공부(330)는 장애 진단 및 대응에 대한 결과 정보를 장애 진단 일자 또는 시간 단위의 시계열 통계 정보로 생성하여 관리자 단말기(400)로 제공함으로써, 관리자로 하여금 시간 기반 장애 패턴 파악이 가능하도록 할 수 있다.
상기 장애 진단 및 대응에 대한 결과 정보에는, 진단 장애 유형 별 발생 원인 분석 정보, 시간에 따른 장애 진단 결과 정보, 특정일에 대한 장애 진단 및 대응 이력 정보 등이 포함될 수 있다.
결과 제공부(330)는 장애 진단 및 대응 결과 정보를 관리자 단말기(400)로부터 수신되는 관리자 요청에 의해 생성하여 제공하거나, 미리 설정된 소정의 주기마다 자동으로 생성하여 제공할 수 있다.
저장부(340)는 결과 제공부(330)에서 생성된 장애 진단 및 대응 결과 정보를 저장함으로써, 생성된 장애 진단 및 대응 결과 정보가 추후 실시간 모니터링에 따른 장애 진단을 위한 분석에 활용될 수 있도록 하며, 이를 통해 장애 진단부(310)로 하여금 유기적 또는 종합적인 분석이 가능하도록 할 수 있다.
또한, 저장부(340)는 상기 장애 진단 및 대응 결과 정보를 저장함으로써, 관리자 단말기(400)로부터 장애 진단 및 대응에 대한 이력 정보 조회 요청 시, 요청된 조건에 대응되는 이력 정보가 제공되도록 할 수 있다.
도 3은 본 발명의 일 실시예에 따라 웹서버(200)의 장애가 유형에 따라 진단되고, 그에 따른 대응으로 장애가 처리되는 과정을 도시한 흐름도이다.
먼저, 웹서버(200)는 통합 관리 서버(300)로 서버 리소스 정보 및 노드 리소스 정보를 포함하는 리소스 정보를 전송함으로써 웹서버(200)에 대한 실시간 상태 정보를 전송할 수 있다(S301).
통합 관리 서버(300)는 웹서버(200)로부터 수신된 실시간 상태 정보, 즉, 리소스 정보를 기초로 실시간 모니터링을 실시할 수 있다(S302).
통합 관리 서버(300)는 모니터링 시 장애가 감지되면, 미리 설정되어 있는 장애 진단 및 대응에 대한 규칙을 기반으로 하여 유형별 장애 진단을 수행할 수 있다(S303). 이 때, 유형별 장애 진단은 서버 내 저장되어 있는 장애 진단 및 대응 결과 정보를 기초로 하는 유기적 또는 종합적 분석에 따라 실시될 수 있다.
장애 유형이 진단되면, 통합 관리 서버(300)는 상기 미리 설정되어 있는 장애 진단 및 대응에 대한 규칙을 기반으로 하여 진단된 장애 유형에 대응되는 제어 명령을 웹서버(200)로 전송함으로써, 진단된 장애에 대한 대응 처리를 수행할 수 있다(S304).
본 발명의 일 실시예에 따르면, 통합 관리 서버(300)는 실시간 모니터링을 통해 과도하게 발생한 서비스 요청으로 웹서버(200)의 가용 스레드 사용량이 임계치를 초과한 것으로 판단되면, 요청 초과 장애를 진단하며, 미리 설정되어 있는 진단 및 대응에 대한 규칙에 따라 과도하게 발생된 사용자 요청을 임시 페이지로 우회시키는 제어 명령을 웹서버(200)로 전송함으로써, 진단된 장애에 대한 대응을 실시할 수 있다.
예를 들어, 웹서버(200)에 사용자로부터 대량 서비스 요청이 수신되면, 통합 관리 서버(300)가 웹서버(200)로 임시 페이지 우회 명령을 전송함에 따라, 웹서버(200)는 해당 사용자에게 임시 페이지를 제공함으로써, 요청 초과 장애가 발생하지 않도록 하거나 또는 발생된 요청 초과 장애를 신속하게 극복할 수 있다.
진단 장애에 대한 대응 실시 후, 웹서버(200)의 가용 스레드 사용량이 하회하여 임계치를 초과하지 않는 것으로 판단되면, 통합 관리 서버(300)는 상기 임시 페이지 우회 제어 명령을 웹서버(200)로 전송하지 않을 수 있다.
상기 요청 초과 장애의 경우, 통합 관리 서버(300)뿐만 아니라 웹서버(200)에서도 사용자로부터의 대량 서비스 요청이 미리 설정된 가용 스레드 사용량 임계치를 초과하는지 여부를 판단할 수 있음에 따라, 웹서버(200)에서 사용자로부터의 대량 서비스 요청이 미리 설정된 가용 스레드 사용량 임계치를 초과하는 것으로 판단되면, 웹서버(200)는 통합 관리 서버(300)로부터 임시 페이지 우회 명령을 수신하지 않고도, 웹서버(200) 자체적으로 해당 사용자에게 임시 페이지를 제공함으로써, 요청 초과 장애가 발생하지 않도록 하거나 또는 발생된 요청 초과 장애가 보다 신속하게 극복되도록 할 수 있다.
본 발명의 다른 실시예에 따르면, 통합 관리 서버(300)는 실시간 모니터링을 통해 사용자로부터 서비스에 대한 대용량 데이터베이스 데이터 조회가 요청된 것으로 판단되면, 대용량 데이터베이스 데이터 조회 장애를 진단하며, 미리 설정되어 있는 진단 및 대응에 대한 규칙에 따라 사용자로부터 요청된 해당 서비스를 강제로 종료시키거나 소정 조건에 의해 서비스가 제한되도록 하는 제어 명령을 웹서버(200)로 전송함으로써, 진단된 장애에 대한 대응을 실시할 수 있다.
예를 들어, 특정 사용자가 서비스에 대한 대용량 데이터베이스 데이터 조회를 요청함에 따라 웹서버(200)의 대량 메모리가 사용되는 것으로 판단되면, 통합 관리 서버(300)가 웹서버(200)로 서비스 강제 종료 명령을 전송함에 따라, 웹서버(200)는 상기 사용자로부터 요청된 서비스를 강제로 종료시킴으로써, 대용량 데이터베이스 데이터 조회 장애가 발생하지 않도록 하거나 또는 발생된 대용량 데이터베이스 데이터 조회 장애를 신속하게 극복할 수 있다.
상기 대용량 데이터베이스 데이터 조회 장애의 경우, 통합 관리 서버(300)뿐만 아니라 웹서버(200)에서도 사용자로부터의 대용량 데이터베이스 데이터 조회 요청이 미리 설정된 조회 요청수의 임계치를 초과하는지 여부를 판단할 수 있음에 따라, 웹서버(200)에서 사용자로부터의 대용량 데이터베이스 데이터 조회 요청이 미리 설정된 조회 요청수의 임계치를 초과하는 것으로 판단되면, 웹서버(200)는 통합 관리 서버(300)로부터 제어 명령을 수신하지 않고도, 웹서버(200) 자체적으로 미리 설정되어 있는 진단 및 대응에 대한 규칙에 따라 사용자로부터 요청된 해당 서비스를 강제로 종료시키거나 소정 조건에 의해 서비스가 제한되도록 제어함으로써, 진단된 장애에 대한 대응을 보다 신속하게 극복할 수 있다.
본 발명의 또 다른 실시예에 따르면, 통합 관리 서버(300)는 실시간 모니터링을 통해 웹서버(200) 내 데이터베이스의 처리 시간 지연, 데이터베이스 잠금 상태 등에 의해 데이터베이스 연결이 과도하게 점유된 것으로 판단되면, 즉, 데이터베이스 연결 그룹이 임계치를 초과하여 특정 데이터소스의 데이터베이스 연결이 과도하게 사용되고 있는 것으로 판단되면, 데이터베이스 연결 요청 초과 장애를 진단하며, 미리 설정되어 있는 진단 및 대응에 대한 규칙에 따라 발생된 사용자 요청을 임시 페이지로 우회시키거나 해당 데이터베이스 연결 획득 대기시간을 강제로 줄이는 제어 명령을 웹서버(200)로 전송함으로써, 진단된 장애에 대한 대응을 실시할 수 있다.
진단 장애에 대한 대응 실시 후, 데이터베이스 연결 그룹이 하회하여 임계치를 초과하지 않는 것으로 판단되면, 통합 관리 서버(300)는 상기 임시 페이지 우회 제어 명령이나 해당 데이터베이스 연결 획득 대기시간 강제 단축 제어 명령을 웹서버(200)로 전송하지 않을 수 있다.
본 발명의 또 다른 실시예에 따르면, 통합 관리 서버(300)는 실시간 모니터링을 통해 일시적인 네트워크, 연계시스템 문제 등으로 사용자로부터 요청된 서비스의 응답이 지연되거나, 사용자로부터 소정의 시간이 지연된 후에 제공되는 서비스에 대한 요청이 수신된 것으로 판단되면, 서비스 지연 장애를 진단하며, 미리 설정되어 있는 진단 및 대응에 대한 규칙에 따라 장애가 진단된 서비스에 대한 스레드 사용률을 제한하는 제어 명령을 웹서버(200)로 전송함으로써, 진단된 장애에 대한 대응을 실시할 수 있다.
진단 장애에 대한 대응 실시 후, 서비스 지연 문제가 발생되지 않는 것으로 판단되면, 통합 관리 서버(300)는 웹서버(200)로 스레드 사용률 제한 제어 해제 명령을 전송하여 사용률 제한 제어가 실시되지 않도록 할 수 있다.
본 발명의 또 다른 실시예에 따르면, 통합 관리 서버(300)는 실시간 모니터링을 통해 서비스 로직의 오류 또는 시스템의 과도한 메모리 사용에 의해 메모리 부족 문제가 발생한 것으로 판단되면, 메모리 부족 장애를 진단하며, 미리 설정되어 있는 진단 및 대응에 대한 규칙에 따라 덤프 생성 명령 및 서버 재기동 명령을 웹서버(200)로 전송하고, 장애 발생에 대한 알람 정보를 관리자 단말기(400)로 전송함으로써, 진단된 장애에 대한 대응을 실시할 수 있다.
또한, 통합 관리 서버(300)는 실시간 모니터링을 통해 메모리 자동 수거 현상 발생 빈도가 증가하거나 메모리 해제 불가 등의 상황이 지속적으로 발생하는 것으로 판단되면, 웹서버(200)에 대하여 메모리 부족 장애가 발생할 것으로 미리 진단하여, 미리 설정되어 있는 진단 및 대응에 대한 규칙에 따라 웹서버(200)로 덤프 생성 명령을 전송하고 관리자 단말기(400)로 메모리 부족 장애 발생 가능 여부에 대한 알람을 제공함으로써, 진단된 장애에 대한 선대응을 실시할 수 있다.
본 발명의 또 다른 실시예에 따르면, 통합 관리 서버(300)는 실시간 모니터링을 통해 웹서버(200)로 수신된 특정 서비스에 대한 사용자의 요청이 웹서버(200)에서 처리 가능한 한계를 초과하는 것으로 판단되면, 특정 서비스의 요청 초과 장애를 진단하며, 미리 설정되어 있는 진단 및 대응에 대한 규칙에 따라 복수의 사용자에 대한 서비스 진입이 순차적으로 이뤄지도록 하는 요청 제어 명령을 웹서버(200)로 전송하고, 해당 장애 진단에 대한 알람 정보를 관리자 단말기(400)로 전송함으로써, 진단된 장애에 대한 대응을 실시할 수 있다.
본 발명의 또 다른 실시예에 따르면, 통합 관리 서버(300)는 실시간 모니터링을 통해 웹서버(200)가 기동 중인 상태임에도 아무 기능도 수행하지 못하는 정지(Hang) 상태인 것으로 판단되면, 정지 장애를 진단하며, 미리 설정되어 있는 진단 및 대응에 대한 규칙에 따라 웹서버(200)로 덤프 생성 명령 및 서버 재기동 명령을 전송하고, 관리자 단말기(400)로 해당 진단 장애에 대한 알람 정보를 전송함으로써, 진단된 장애에 대한 대응을 실시할 수 있다.
통합 관리 서버(300)는 장애 진단 및 대응 결과 정보를 서버 내에 저장할 수 있으며, 관리자로부터 수신되는 요청 또는 미리 설정되어 있는 소정의 주기에 의해 결과 정보를 생성하여 관리자 단말기(400)로 제공할 수 있다(S305).
이 때, 장애 진단 및 대응 결과 정보는 시간 또는 날짜 단위에 따라 시계열로 나열된 형태의 정보로 생성 및 제공될 수 있다.
또한, 상기 생성 및 저장된 장애 진단 및 대응 결과 정보는 추후 실시되는 실시간 모니터링 또는 장애 진단 시 분석 자료로 이용될 수 있다.
도 4는 본 발명의 일 실시예에 따라 실시간 모니터링 정보 제공 시 관리자 단말기(400)에 디스플레이 되는 화면을 예시하는 도면이다.
먼저, 도 4에 도시된 바와 같이, 통합 관리 서버(300)는 관리자 단말기(400)로 웹서버(200)에 대한 실시간 모니터링 정보 확인 및 통합 관리가 가능하도록 하는 화면 또는 인터페이스를 제공할 수 있다.
통합 관리 서버(300)는 장애 진단 및 대응에 대한 결과 정보가 생성되면, 관리자 단말기(400)로 알람(401)을 제공할 수 있으며, 관리자에 의해 알람(401)이 선택되면, 관리자 단말기(400)는 통합 관리 서버(300)에서 생성된 장애 진단 및 대응에 대한 결과 정보의 목록(402)을 디스플레이 하여 제공할 수 있다.
생성된 장애 진단 및 대응에 대한 결과 정보 중 어느 하나(403)가 관리자에 의해 선택되면, 관리자 단말기(400)는 해당 장애 진단 및 대응에 대한 결과 정보를 디스플레이 하여 제공하는데, 이에 대해서는 도 5에서 상세하게 설명하기로 한다.
관리자로부터 알람 이력 정보 제공에 대한 실행창(404)이 선택 입력되면, 관리자 단말기(400)는 통합 관리 서버(300)로부터 제공된 알람 이력 정보(405)를 디스플레이 하여 제공할 수 있다. 이 때, 알람 이력 정보는 최근 1개월 이내의 이력 정보에 대해서만 제공될 수 있다.
관리자 단말기(400)는 통합 관리 서버(300)로부터 제공되는 실시간 모니터링 화면을 통해 복수의 서버 및 노드에 대한 요약 정보(406)를 디스플레이 하여 관리자에게 제공할 수 있다.
또한, 관리자 단말기(400)는 실시간 모니터링 화면을 통해 복수의 웹서버(200) 각각에 대한 상세 정보(407)를 제공할 수 있다.
도 5는 본 발명의 일 실시예에 따라 장애 진단 및 대응에 대한 결과 정보 제공 시 관리자 단말기(400)에 디스플레이 되는 화면을 예시하는 도면이다.
도 5에 도시된 바와 같이, 장애 진단 및 대응에 대한 결과 정보는 공통 정보(501), 진단 결과 정보(502) 및 상세 정보(503)로 구분되어 제공될 수 있다.
특히, 진단 결과 정보(502)를 통해 시간대 별 진단 결과 확인이 가능하며, 특정 진단 시점에 대한 상세 정보(503)가 제공됨에 따라 진단 별 상세 내용 확인이 가능하다.
구체적으로, 공통 정보(501)에는 장애가 감지된 최초 시간인 진단 수행 시간(Start Time), 장애가 감지된 마지막 시간인 진단 종료 시간(End Time), 장애가 발생한 총 횟수인 동일 진단 반복 횟수 정보(Total Diagnostics Repeat Count), 장애 진단 및 대응에 대한 결과 정보가 생성된 횟수인 결과 정보 생성 횟수 정보(Total Report Creation Count)가 포함될 수 있다.
본 발명의 일 실시예에 따르면, 통합 관리 서버(300)는 진단된 장애 유형이 동일한 유형이라고 판단되면, 최대 3건까지만 결과 정보를 생성하여, 다수의 동일한 결과 정보가 생성됨을 방지할 수 있다. 반면, 진단된 장애 유형이 동일하지 않은 유형이라고 판단되면, 통합 관리 서버(300)는 최대 100건의 결과 정보를 생성할 수 있다.
따라서, 공통 정보(501)를 통해, 관리자 입장에서는 동일 진단 반복 횟수 정보가 결과 정보 생성 횟수 정보 보다 큰 경우, 동일한 장애 진단이 다수 발생했다는 것을 판단할 수 있다.
한편, 진단 결과 정보(502)는 장애가 진단된 시간 순으로 나열되어 제공될 수 있으며, 진단 시간에 따라 발생된 장애 유형이 색상으로 별도 표기되어 제공될 수 있다.
제공된 복수의 진단 결과 정보(502) 중 어느 하나가 선택되면, 선택된 진단 결과에 대한 상세 정보(503)가 제공될 수 있다.
상세 정보(503)에는 장애 진단 시간 정보(504), 덤프 생성 시간 정보(505), 생성된 덤프 파일(506) 및 진단된 장애 유형에 대한 대응 정보(507)가 공통으로 포함되어 제공될 수 있다.
도 6은 본 발명의 일 실시예에 따라 요청 초과 장애 진단에 따른 결과 정보 제공 시 관리자 단말기(400)에 디스플레이 되는 화면을 예시하는 도면이다.
도 6에 도시된 바와 같이, 요청 초과 장애 진단에 따른 결과 정보 제공 시, 상세 정보(503)에는 진단 시 사용된 임계값 정보(601), 임계값을 초과한 커넥터(Connector) 별 실제 사용률 정보(602) 및 장애 진단 시 다수 요청된 5건에 대한 서비스 정보(603)가 더 포함되어 제공될 수 있다.
이 때, 장애 진단 시 다수 요청된 5건에 대한 서비스 정보(603)에는 서비스 명칭과 서비스 별 평균 호출 횟수 정보가 포함되어 있을 수 있으며, 평균 호출 횟수 정보는, 5초 간격으로 3회 측정하여 산출된 평균 횟수일 수 있다.
도 7은 본 발명의 일 실시예에 따라 대용량 데이터베이스 데이터 조회 장애 진단에 따른 결과 정보 제공 시 관리자 단말기(400)에 디스플레이 되는 화면을 예시하는 도면이다.
도 7에 도시된 바와 같이, 대용량 데이터베이스 데이터 조회 장애 진단에 따른 결과 정보 제공 시, 상세 정보(503)에는 진단 시 사용된 임계값 정보(701) 및 대용량 데이터베이스 데이터를 조회 요청한 서비스의 목록(702)이 더 포함되어 제공될 수 있다.
도 8은 본 발명의 일 실시예에 따라 데이터베이스 연결 요청 초과 장애 진단에 따른 결과 정보 제공 시 관리자 단말기(400)에 디스플레이 되는 화면을 예시하는 도면이다.
도 8에 도시된 바와 같이, 데이터베이스 연결 요청 초과 장애 진단에 따른 결과 정보 제공 시, 상세 정보(503)에는 진단 시 사용된 임계값 정보(801) 및 데이터베이스 연결 그룹 사용량이 임계값을 초과한 데이터소스 및 데이터소스 별 사용률 정보(802)가 더 포함되어 제공될 수 있다.
도 9는 본 발명의 일 실시예에 따라 서비스 지연 장애 진단에 따른 결과 정보 제공 시 관리자 단말기(400)에 디스플레이 되는 화면을 예시하는 도면이다.
도 9에 도시된 바와 같이, 서비스 지연 장애 진단에 따른 결과 정보 제공 시, 상세 정보(503)에는 진단 시 사용된 임계값 정보(901) 및 서비스 지연 목록(902)이 더 포함되어 제공될 수 있다.
이 때, 서비스 지연 목록(902)에는 서비스 명칭, 장애 진단 시점에 수행중인 서비스의 총 개수, 서비스 총 개수 대비 서비스 지연으로 판단된 서비스 개수, 장애 진단 시점 기준의 서비스 수행 시간 정보 등이 포함되어 제공될 수 있다.
도 10은 본 발명의 일 실시예에 따라 메모리 부족 장애 진단에 따른 결과 정보 제공 시 관리자 단말기(400)에 디스플레이 되는 화면을 예시하는 도면이다.
도 10에 도시된 바와 같이, 메모리 부족 장애 진단에 따른 결과 정보 제공 시, 상세 정보(503)에는 메모리 부족 장애에 대한 세부 항목 정보(101)가 더 포함되어 제공될 수 있다.
메모리 부족 장애에 대한 세부 항목 정보(101)에는, Heap 사용률, 메모리 자동 수거 현상 빈도, Leak 여부, 대용량 데이터베이스 데이터 조회 요청 여부 및 heap dump 생성 시 파일명 정보 등이 포함되어 제공될 수 있다.
도 11은 본 발명의 일 실시예에 따라 특정 서비스의 요청 초과 장애 진단에 따른 결과 정보 제공 시 관리자 단말기(400)에 디스플레이 되는 화면을 예시하는 도면이다.
도 11에 도시된 바와 같이, 특정 서비스의 요청 초과 장애 진단에 따른 결과 정보 제공 시, 상세 정보(503)에는 진단 시 사용된 임계값 정보(111), 대상 서비스가 과점유한 커넥터(Connector) 정보(112) 및 다수 수행된 서비스 5건에 대한 목록(113)이 더 포함되어 제공될 수 있다.
이 때, 다수 수행된 서비스 5건에 대한 목록(113)에는 서비스 명칭과 서비스 요청된 횟수 정보가 포함되어 제공될 수 있다.
도 12는 본 발명의 일 실시예에 따라 정지 장애 진단에 따른 결과 정보 제공 시 관리자 단말기(400)에 디스플레이 되는 화면을 예시하는 도면이다.
도 12에 도시된 바와 같이, 정지 장애 진단에 따른 결과 정보 제공 시, 상세 정보(503)에는 연결 타임아웃 시간 정보 및 재시도 횟수 정보(121)가 더 포함되어 제공될 수 있다.
도 13은 본 발명의 일 실시예에 따라 시계열로 나열된 통계 형태의 장애 진단 및 대응에 대한 결과 정보 제공 시 관리자 단말기(400)에 디스플레이 되는 화면을 예시하는 도면이다.
도 13에 도시된 바와 같이, 관리자 단말기(400)는 통합 관리 서버(300)로부터 제공된 날짜 기준의 시계열로 나열된 형태의 연간 장애 진단 결과(131)를 디스플레이 하여 관리자에게 제공할 수 있으며, 관리자에 의해 특정일이 선택되면(132), 선택된 날짜에 발생된 진단 결과가 시간 기준으로 나열된 형태의 결과 정보(133)를 디스플레이 하여 제공할 수 있다.
도 14는 본 발명의 일 실시예에 따라 진단 이력 검색 결과 정보 제공 시 관리자 단말기(400)에 디스플레이 되는 화면을 예시하는 도면이다.
관리자는 관리자 단말기(400)를 통해 조회하고자 하는 웹서버(200)의 장애 진단 요약 정보 및 장애 진단 및 대응에 대한 결과 정보를 검색할 수 있다(141).
이 때, 장애 진단 및 대응에 대한 결과 정보는 통합 관리 서버(300)에 7일간 보관되며, 7일 이후에 생성된 결과 정보는 자동으로 삭제될 수 있다.
관리자에 의해 장애가 진단된 날짜 중 어느 하나가 선택되면(142), 관리자 단말기(400)는 해당 날짜에 생성된 장애 진단 및 대응에 대한 결과 정보 목록(143)을 디스플레이 하여 제공할 수 있다.
이와 같이, 본 발명의 일 실시예에 따르면, 일부 장애 현상에 대한 처리가 아닌, 다양한 장애 유형을 기반으로 복합 서버 장애 진단 및 대응을 실시함으로써, 서버에서 발생 가능한 다양한 장애에 대한 예방 및 방지가 가능한 바, 서버 운용에 있어서 신뢰성 및 안정성이 확보될 수 있다.
본 발명의 다른 실시예에 따르면, 미리 설정되어 있는 규칙 기반의 장애 진단 및 대응을 실시함으로써, 서버 장애 발생 시, 미리 설정되어 있는 규칙을 기반으로 하여 자동적으로 장애에 대한 대응이 실시되는 바, 서버 장애가 발생 즉시 극복될 수 있다.
본 발명의 또 다른 실시예에 따르면, 웹서버의 리소스 정보를 기초로 서버에 대한 통합 관리 및 실시간 제어를 수행하는 바, 서버 무중단 제어가 가능하다는 장점이 있다.
본 발명의 효과는 상기한 효과로 한정되는 것은 아니며, 본 발명의 상세한 설명 또는 특허청구범위에 기재된 발명의 구성으로부터 추론 가능한 모든 효과를 포함하는 것으로 이해되어야 한다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100 : 사용자 단말기
200 : 웹서버
300 : 통합 관리 서버
310 : 장애 진단부
320 : 장애 처리부
330 : 결과 제공부
340 : 저장부
400 : 관리자 단말기

Claims (36)

  1. 통합 관리 서버가, 장애 유형을 기반으로 하여 서버 장애를 진단하고 대응하는 방법에 있어서,
    (a) 웹서버로부터 수신되는 실시간 상태 정보를 기초로 웹서버에 대한 모니터링을 수행하여, 장애가 감지되면, 감지된 장애의 유형을 진단하는 단계;
    (b) 미리 설정되어 있는 장애 진단 및 대응에 대한 규칙을 기반으로 하여 상기 진단된 장애 유형에 대응되는 제어 명령을 상기 웹서버로 전송함으로써 상기 감지된 장애에 대한 대응을 실시하는 단계; 및
    (c) 장애 진단 및 대응에 대한 결과 정보를 생성하여 저장하고, 생성한 결과 정보를 상기 관리자 단말기로 전송하는 단계를 포함하는, 장애 유형 기반의 서버 장애 진단 및 대응 방법.
  2. 제1항에 있어서,
    상기 실시간 상태 정보는,
    상기 웹서버에 대한 서버 리소스 정보 및 노드 리소스 정보를 포함하는, 장애 유형 기반의 서버 장애 진단 및 대응 방법.
  3. 제1항에 있어서,
    상기 (a) 단계는,
    상기 실시간 상태 정보와 상기 통합 관리 서버 내 미리 저장되어 있는 장애 진단 및 대응 규칙을 기반으로 분석을 실시하여 상기 감지된 장애의 유형을 진단하는 단계를 포함하는, 장애 유형 기반의 서버 장애 진단 및 대응 방법.
  4. 제1항에 있어서,
    상기 (a) 단계는,
    상기 실시간 상태 정보와 상기 통합 관리 서버 내 장애 진단 및 대응에 대한 결과 정보가 누적 저장되어 있는 이력 정보를 기반으로 분석을 실시하여 상기 감지된 장애의 유형을 진단하는 단계를 포함하는, 장애 유형 기반의 서버 장애 진단 및 대응 방법.
  5. 제1항에 있어서,
    상기 (b) 단계는,
    상기 진단된 장애 유형에 대한 알람 정보를 상기 관리자 단말기로 전송함으로써 상기 감지된 장애에 대한 대응을 실시하는 단계를 포함하는, 장애 유형 기반의 서버 장애 진단 및 대응 방법.
  6. 제1항에 있어서,
    상기 (a) 단계는,
    상기 감지된 장애의 유형을, 요청 초과 장애, 대용량 데이터베이스 데이터 조회 장애, 데이터베이스 연결 요청 초과 장애, 서비스 지연 장애, 메모리 부족 장애, 특정 서비스의 요청 초과 장애 및 정지 장애 중 어느 하나로 진단하는 단계를 포함하는, 장애 유형 기반의 서버 장애 진단 및 대응 방법.
  7. 제1항에 있어서,
    상기 (a) 및 (b) 단계는,
    상기 모니터링을 통해 상기 웹서버의 가용 스레드(Thread) 사용량이 임계치를 초과한 것으로 판단되면, 요청 초과 장애로 진단하고, 미리 설정되어 있는 장애 진단 및 대응에 대한 규칙을 기반으로 하여, 사용자 요청을 임시 페이지로 우회시키는 제어 명령을 상기 웹서버로 전송하는 단계를 포함하는, 장애 유형 기반의 서버 장애 진단 및 대응 방법.
  8. 제7항에 있어서,
    상기 사용자 요청을 임시 페이지로 우회시키는 제어는,
    상기 웹서버 내에서 가용 스레드(Thread) 사용량이 임계치를 초과한 것으로 판단되어, 요청 초과 장애가 진단되면, 상기 웹서버 자체적으로 요청 초과 장애 진단 즉시 자동 수행 가능한 것을 특징으로 하는, 장애 유형 기반의 서버 장애 진단 및 대응 방법.
  9. 제1항에 있어서,
    상기 (a) 및 (b) 단계는,
    상기 모니터링을 통해 사용자로부터 서비스에 대한 대용량 데이터베이스 데이터 조회가 요청된 것으로 판단되면, 대용량 데이터베이스 데이터 조회 장애로 진단하고, 미리 설정되어 있는 장애 진단 및 대응에 대한 규칙을 기반으로 하여, 사용자로부터 요청된 해당 서비스를 강제로 종료시키거나 소정 조건에 의해 서비스가 제한되도록 하는 제어 명령을 상기 웹서버로 전송하는 단계를 포함하는, 장애 유형 기반의 서버 장애 진단 및 대응 방법.
  10. 제9항에 있어서,
    상기 사용자로부터 요청된 해당 서비스를 강제로 종료시키거나 소정 조건에 의해 서비스가 제한되도록 하는 제어는,
    상기 웹서버 내에서 사용자로부터 서비스에 대한 대용량 데이터베이스 데이터 조회가 요청된 것으로 판단되어, 대용량 데이터베이스 데이터 조회 장애가 진단되면, 상기 웹서버 자체적으로 대용량 데이터베이스 데이터 조회 장애 진단 즉시 자동 수행 가능한 것을 특징으로 하는, 장애 유형 기반의 서버 장애 진단 및 대응 방법.
  11. 제1항에 있어서,
    상기 (a) 및 (b) 단계는,
    상기 모니터링을 통해 상기 웹서버 내 데이터베이스 연결 그룹(Pool)이 임계치를 초과하여 특정 데이터소스(Datasource)의 데이터베이스 연결이 과도하게 사용되고 있는 것으로 판단되면, 데이터베이스 연결 요청 초과 장애로 진단하고, 미리 설정되어 있는 장애 진단 및 대응에 대한 규칙을 기반으로 하여, 사용자 요청을 임시 페이지로 우회시키거나 해당 데이터베이스 연결 획득 대기시간을 강제로 줄이는 제어 명령을 상기 웹서버로 전송하는 단계를 포함하는, 장애 유형 기반의 서버 장애 진단 및 대응 방법.
  12. 제1항에 있어서,
    상기 (a) 및 (b) 단계는,
    상기 모니터링을 통해 사용자로부터 요청된 서비스의 응답이 지연되거나 사용자로부터 소정의 시간이 지연된 후에 제공되는 서비스에 대한 요청이 수신된 것으로 판단되면, 서비스 지연 장애로 진단하고, 미리 설정되어 있는 장애 진단 및 대응에 대한 규칙을 기반으로 하여, 장애가 진단된 서비스에 대한 스레드 사용률을 제한하는 제어 명령을 상기 웹서버로 전송하는 단계를 포함하는, 장애 유형 기반의 서버 장애 진단 및 대응 방법.
  13. 제1항에 있어서,
    상기 (a) 및 (b) 단계는,
    상기 모니터링을 통해 서비스 로직(Logic)의 오류 또는 시스템의 과도한 메모리 사용에 의해 메모리 부족 문제(Out Of Memory, OOM)가 발생하거나 메모리 자동 수거 현상(Full Garbage Collection, Full GC) 발생 빈도가 증가하거나 메모리 해제 불가의 상황이 지속적으로 발생하는 것으로 판단되면, 메모리 부족 장애로 진단하고, 미리 설정되어 있는 장애 진단 및 대응에 대한 규칙을 기반으로 하여, 덤프 생성 명령 및 서버 재기동 명령을 상기 웹서버로 전송하고, 알람 정보를 상기 관리자 단말기로 전송하는 단계를 포함하는, 장애 유형 기반의 서버 장애 진단 및 대응 방법.
  14. 제1항에 있어서,
    상기 (a) 및 (b) 단계는,
    상기 모니터링을 통해 상기 웹서버로 수신된 특정 서비스에 대한 사용자의 요청이 상기 웹서버에서 처리 가능한 한계를 초과하는 것으로 판단되면, 특정 서비스의 요청 초과 장애로 진단하고, 미리 설정되어 있는 장애 진단 및 대응에 대한 규칙을 기반으로 하여, 복수의 사용자에 대한 서비스 진입이 순차적으로 이뤄지도록 하는 요청 제어 명령을 상기 웹서버로 전송하고, 해당 장애 진단에 대한 알람 정보를 상기 관리자 단말기로 전송하는 단계를 포함하는, 장애 유형 기반의 서버 장애 진단 및 대응 방법.
  15. 제1항에 있어서,
    상기 (a) 및 (b) 단계는,
    상기 모니터링을 통해 상기 웹서버가 기동 중인 상태임에도 아무 기능도 수행하지 못하는 정지(Hang) 상태인 것으로 판단되면, 정지 장애로 진단하고, 미리 설정되어 있는 장애 진단 및 대응에 대한 규칙을 기반으로 하여, 상기 웹서버로 덤프 생성 명령 및 서버 재기동 명령을 전송하고, 상기 관리자 단말기로 해당 진단 장애에 대한 알람 정보를 전송하는 단계를 포함하는, 장애 유형 기반의 서버 장애 진단 및 대응 방법.
  16. 제1항에 있어서,
    상기 (c) 단계는,
    상기 장애 진단 및 대응에 대한 결과 정보를 시계열로 나열된 통계 정보 형태로 생성하여 상기 관리자 단말기로 전송하는 단계를 포함하는, 장애 유형 기반의 서버 장애 진단 및 대응 방법.
  17. 제1항에 있어서,
    상기 (c) 단계는,
    상기 관리자 단말기로부터 수신되는 관리자의 요청 또는 미리 설정되어 있는 소정의 주기에 의해 상기 장애 진단 및 대응에 대한 결과 정보를 생성하는 단계를 포함하는, 장애 유형 기반의 서버 장애 진단 및 대응 방법.
  18. 제1항에 있어서,
    상기 (c) 단계는,
    상기 관리자 단말기로부터 소정의 검색 조건이 포함된 정보 조회 요청이 수신되면, 수신된 소정의 검색 조건에 상응하는 장애 진단 및 대응에 대한 결과 정보를 생성하여 상기 관리자 단말기로 전송하는 단계를 포함하는, 장애 유형 기반의 서버 장애 진단 및 대응 방법.
  19. 웹서버로부터 수신되는 실시간 상태 정보를 기초로 웹서버에 대한 모니터링을 수행하여, 장애가 감지되면, 감지된 장애의 유형을 진단하는 장애 진단부;
    미리 설정되어 있는 장애 진단 및 대응에 대한 규칙을 기반으로 하여 상기 진단된 장애 유형에 대응되는 제어 명령을 상기 웹서버로 전송함으로써 상기 감지된 장애에 대한 대응을 실시하는 장애 처리부;
    장애 진단 및 대응에 대한 결과 정보를 생성하여 상기 관리자 단말기로 전송하는 결과 제공부; 및
    상기 생성한 장애 진단 및 대응에 대한 결과 정보를 저장하는 저장부를 포함하는, 통합 관리 서버.
  20. 제19항에 있어서,
    상기 실시간 상태 정보는,
    상기 웹서버에 대한 서버 리소스 정보 및 노드 리소스 정보를 포함하는, 통합 관리 서버.
  21. 제19항에 있어서,
    상기 장애 진단부는,
    상기 실시간 상태 정보와 상기 통합 관리 서버 내 미리 저장되어 있는 장애 진단 및 대응 규칙을 기반으로 분석을 실시하여 상기 감지된 장애의 유형을 진단하는, 통합 관리 서버.
  22. 제19항에 있어서,
    상기 장애 진단부는,
    상기 실시간 상태 정보와 상기 통합 관리 서버 내 장애 진단 및 대응에 대한 결과 정보가 누적 저장되어 있는 이력 정보를 기반으로 분석을 실시하여 상기 감지된 장애의 유형을 진단하는, 통합 관리 서버.
  23. 제19항에 있어서,
    상기 장애 처리부는,
    상기 진단된 장애 유형에 대한 알람 정보를 상기 관리자 단말기로 전송함으로써 상기 감지된 장애에 대한 대응을 실시하는, 통합 관리 서버.
  24. 제19항에 있어서,
    상기 장애 진단부는,
    상기 감지된 장애의 유형을, 요청 초과 장애, 대용량 데이터베이스 데이터 조회 장애, 데이터베이스 연결 요청 초과 장애, 서비스 지연 장애, 메모리 부족 장애, 특정 서비스의 요청 초과 장애 및 정지 장애 중 어느 하나로 진단하는, 통합 관리 서버.
  25. 제19항에 있어서,
    상기 장애 진단부는, 상기 모니터링을 통해 상기 웹서버의 가용 스레드(Thead) 사용량이 임계치를 초과한 것으로 판단되면, 요청 초과 장애로 진단하고,
    상기 장애 처리부는, 상기 요청 초과 장애로 진단된 경우, 미리 설정되어 있는 장애 진단 및 대응에 대한 규칙을 기반으로 하여, 사용자 요청을 임시 페이지로 우회시키는 제어 명령을 상기 웹서버로 전송하는, 통합 관리 서버.
  26. 제25항에 있어서,
    상기 사용자 요청을 임시 페이지로 우회시키는 제어는,
    상기 웹서버 내에서 가용 스레드(Thread) 사용량이 임계치를 초과한 것으로 판단되어, 요청 초과 장애가 진단되면, 상기 웹서버 자체적으로 요청 초과 장애 진단 즉시 자동 수행 가능한 것을 특징으로 하는, 통합 관리 서버.
  27. 제19항에 있어서,
    상기 장애 진단부는, 상기 모니터링을 통해 사용자로부터 서비스에 대한 대용량 데이터베이스 데이터 조회가 요청된 것으로 판단되면, 대용량 데이터베이스 데이터 조회 장애로 진단하고,
    상기 장애 처리부는, 상기 대용량 데이터베이스 데이터 조회 장애로 판단된 경우, 미리 설정되어 있는 장애 진단 및 대응에 대한 규칙을 기반으로 하여, 사용자로부터 요청된 해당 서비스를 강제로 종료시키거나 소정 조건에 의해 서비스가 제한되도록 하는 제어 명령을 상기 웹서버로 전송하는, 통합 관리 서버.
  28. 제27항에 있어서,
    상기 사용자로부터 요청된 해당 서비스를 강제로 종료시키거나 소정 조건에 의해 서비스가 제한되도록 하는 제어는,
    상기 웹서버 내에서 사용자로부터 서비스에 대한 대용량 데이터베이스 데이터 조회가 요청된 것으로 판단되어, 대용량 데이터베이스 데이터 조회 장애가 진단되면, 상기 웹서버 자체적으로 대용량 데이터베이스 데이터 조회 장애 진단 즉시 자동 수행 가능한 것을 특징으로 하는, 통합 관리 서버.
  29. 제19항에 있어서,
    상기 장애 진단부는, 상기 모니터링을 통해 상기 웹서버 내 데이터베이스 연결 그룹(Pool)이 임계치를 초과하여 특정 데이터소스(Datasource)의 데이터베이스 연결이 과도하게 사용되고 있는 것으로 판단되면, 데이터베이스 연결 요청 초과 장애로 진단하고,
    상기 장애 처리부는, 상기 데이터베이스 연결 요청 초과 장애로 진단된 경우, 미리 설정되어 있는 장애 진단 및 대응에 대한 규칙을 기반으로 하여, 사용자 요청을 임시 페이지로 우회시키거나 해당 데이터베이스 연결 획득 대기시간을 강제로 줄이는 제어 명령을 상기 웹서버로 전송하는, 통합 관리 서버.
  30. 제19항에 있어서,
    상기 장애 진단부는, 상기 모니터링을 통해 사용자로부터 요청된 서비스의 응답이 지연되거나 사용자로부터 소정의 시간이 지연된 후에 제공되는 서비스에 대한 요청이 수신된 것으로 판단되면, 서비스 지연 장애로 진단하고,
    상기 장애 처리부는, 상기 서비스 지연 장애로 진단된 경우, 미리 설정되어 있는 장애 진단 및 대응에 대한 규칙을 기반으로 하여, 장애가 진단된 서비스에 대한 스레드 사용률을 제한하는 제어 명령을 상기 웹서버로 전송하는, 통합 관리 서버.
  31. 제19항에 있어서,
    상기 장애 진단부는, 상기 모니터링을 통해 서비스 로직(Logic)의 오류 또는 시스템의 과도한 메모리 사용에 의해 메모리 부족 문제(Out Of Memory, OOM)가 발생하거나 메모리 자동 수거 현상(Full Garbage Collection, Full GC) 발생 빈도가 증가하거나 메모리 해제 불가 등의 상황이 지속적으로 발생하는 것으로 판단되면, 메모리 부족 장애로 진단하고,
    상기 장애 처리부는, 상기 메모리 부족 장애로 진단된 경우, 미리 설정되어 있는 장애 진단 및 대응에 대한 규칙을 기반으로 하여, 덤프 생성 명령 및 서버 재기동 명령을 상기 웹서버로 전송하고 알람 정보를 상기 관리자 단말기로 전송하는, 통합 관리 서버.
  32. 제19항에 있어서,
    상기 장애 진단부는, 상기 모니터링을 통해 상기 웹서버로 수신된 특정 서비스에 대한 사용자의 요청이 상기 웹서버에서 처리 가능한 한계를 초과하는 것으로 판단되면, 특정 서비스의 요청 초과 장애로 진단하고,
    상기 장애 처리부는, 상기 특정 서비스의 요청 초과 장애로 진단된 경우, 미리 설정되어 있는 장애 진단 및 대응에 대한 규칙을 기반으로 하여, 복수의 사용자에 대한 서비스 진입이 순차적으로 이뤄지도록 하는 요청 제어 명령을 상기 웹서버로 전송하고 해당 장애 진단에 대한 알람 정보를 상기 관리자 단말기로 전송하는, 통합 관리 서버.
  33. 제19항에 있어서,
    상기 장애 진단부는, 상기 모니터링을 통해 상기 웹서버가 기동 중인 상태임에도 아무 기능도 수행하지 못하는 정지(Hang) 상태인 것으로 판단되면, 정지 장애로 진단하고,
    상기 장애 처리부는, 상기 정지 장애로 진단된 경우, 미리 설정되어 있는 장애 진단 및 대응에 대한 규칙을 기반으로 하여, 상기 웹서버로 덤프 생성 명령 및 서버 재기동 명령을 전송하고 상기 관리자 단말기로 해당 진단 장애에 대한 알람 정보를 전송하는, 통합 관리 서버.
  34. 제19항에 있어서,
    상기 결과 제공부는,
    상기 장애 진단 및 대응에 대한 결과 정보를 시계열로 나열된 통계 정보 형태로 생성하여 상기 관리자 단말기로 전송하는, 통합 관리 서버.
  35. 제19항에 있어서,
    상기 결과 제공부는,
    상기 관리자 단말기로부터 수신되는 관리자의 요청 또는 미리 설정되어 있는 소정의 주기에 의해 상기 장애 진단 및 대응에 대한 결과 정보를 생성하는, 통합 관리 서버.
  36. 제19항에 있어서,
    상기 결과 제공부는,
    상기 관리자 단말기로부터 소정의 검색 조건이 포함된 정보 조회 요청이 수신되면, 수신된 소정의 검색 조건에 상응하는 장애 진단 및 대응에 대한 결과 정보를 생성하여 상기 관리자 단말기로 전송하는, 통합 관리 서버.
KR1020180131810A 2018-10-31 2018-10-31 장애 유형 기반의 서버 장애 진단 및 대응 방법 KR102109536B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180131810A KR102109536B1 (ko) 2018-10-31 2018-10-31 장애 유형 기반의 서버 장애 진단 및 대응 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180131810A KR102109536B1 (ko) 2018-10-31 2018-10-31 장애 유형 기반의 서버 장애 진단 및 대응 방법

Publications (2)

Publication Number Publication Date
KR20200049028A true KR20200049028A (ko) 2020-05-08
KR102109536B1 KR102109536B1 (ko) 2020-05-28

Family

ID=70677777

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180131810A KR102109536B1 (ko) 2018-10-31 2018-10-31 장애 유형 기반의 서버 장애 진단 및 대응 방법

Country Status (1)

Country Link
KR (1) KR102109536B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102540221B1 (ko) * 2022-05-04 2023-06-08 오픈마루 주식회사 마이크로서비스 아키텍처를 구성하는 미들웨어의 성능 상의 문제점 및 문제점에 대한 해결절차를 안내하는 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101545215B1 (ko) * 2013-10-30 2015-08-18 삼성에스디에스 주식회사 데이터 센터 장애 이벤트 관리 자동화 시스템 및 방법
KR20160132698A (ko) * 2015-05-11 2016-11-21 삼성에스디에스 주식회사 지능형 시스템 진단 장치 및 방법
JP2016206703A (ja) * 2015-04-15 2016-12-08 インテリジェントウィルパワー株式会社 仮想マシン管理システム
KR20180068002A (ko) * 2016-12-13 2018-06-21 나무기술 주식회사 빅데이터 기반의 클라우드 인프라 실시간 분석 시스템 및 그 제공방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101545215B1 (ko) * 2013-10-30 2015-08-18 삼성에스디에스 주식회사 데이터 센터 장애 이벤트 관리 자동화 시스템 및 방법
JP2016206703A (ja) * 2015-04-15 2016-12-08 インテリジェントウィルパワー株式会社 仮想マシン管理システム
KR20160132698A (ko) * 2015-05-11 2016-11-21 삼성에스디에스 주식회사 지능형 시스템 진단 장치 및 방법
KR20180068002A (ko) * 2016-12-13 2018-06-21 나무기술 주식회사 빅데이터 기반의 클라우드 인프라 실시간 분석 시스템 및 그 제공방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102540221B1 (ko) * 2022-05-04 2023-06-08 오픈마루 주식회사 마이크로서비스 아키텍처를 구성하는 미들웨어의 성능 상의 문제점 및 문제점에 대한 해결절차를 안내하는 방법

Also Published As

Publication number Publication date
KR102109536B1 (ko) 2020-05-28

Similar Documents

Publication Publication Date Title
US11614943B2 (en) Determining problem dependencies in application dependency discovery, reporting, and management tool
US11868237B2 (en) Intelligent services for application dependency discovery, reporting, and management tool
US11620211B2 (en) Discovery crawler for application dependency discovery, reporting, and management tool
US9672085B2 (en) Adaptive fault diagnosis
US9015317B2 (en) Conducting a diagnostic session for monitored business transactions
CN109783322A (zh) 一种企业信息系统运行状态的监控分析系统及其方法
US8135988B2 (en) Non-intrusive gathering of diagnostic data using asynchronous mechanisms
US7673291B2 (en) Automatic database diagnostic monitor architecture
US20230267074A1 (en) Testing agent for application dependency discovery, reporting, and management tool
US20210073098A1 (en) Information processing system
US20050055672A1 (en) Time model
US20170126532A1 (en) Dynamic baseline determination for distributed business transaction
CN111382023A (zh) 代码故障定位方法、装置、设备及存储介质
CN115982049A (zh) 性能测试中的异常检测方法、装置和计算机设备
KR102109536B1 (ko) 장애 유형 기반의 서버 장애 진단 및 대응 방법
CN114138522A (zh) 一种微服务的故障恢复方法、装置、电子设备及介质
WO2020264319A1 (en) Determining problem dependencies in application dependency discovery, reporting, and management tool
CN116680165A (zh) 一种接口性能测试方法、装置以及设备
CN114356764A (zh) 软件调测方法、装置、设备、系统和介质
CN109361557B (zh) 一种监测浏览器卡死的控制方法及控制装置
CN110225543B (zh) 基于网络请求数据的移动端软件质量态势感知系统及方法
WO2022105685A1 (zh) 光传输设备的内存管理方法、设备和存储介质
CN117827587A (zh) 数据库异常节点确定方法、装置、设备、介质和程序产品
CA2843004C (en) Adaptive fault diagnosis
CN116450420A (zh) 主机高可用系统实施控制方法、系统、处理器及电子设备

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant