KR20230073469A - Server management system capable of responding to failure - Google Patents

Server management system capable of responding to failure Download PDF

Info

Publication number
KR20230073469A
KR20230073469A KR1020210159917A KR20210159917A KR20230073469A KR 20230073469 A KR20230073469 A KR 20230073469A KR 1020210159917 A KR1020210159917 A KR 1020210159917A KR 20210159917 A KR20210159917 A KR 20210159917A KR 20230073469 A KR20230073469 A KR 20230073469A
Authority
KR
South Korea
Prior art keywords
server
management
failure
management target
target server
Prior art date
Application number
KR1020210159917A
Other languages
Korean (ko)
Inventor
유세권
Original Assignee
주식회사 지니에이아이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 지니에이아이 filed Critical 주식회사 지니에이아이
Priority to KR1020210159917A priority Critical patent/KR20230073469A/en
Publication of KR20230073469A publication Critical patent/KR20230073469A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/328Computer systems status display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0686Additional information in the notification, e.g. enhancement of specific meta-data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

The present invention relates to a server management system for managing a management target server requested by a customer, comprising: a manager terminal used by a manager who manages the server management system; a customer terminal used by each customer requesting the management target server; and a management server for collecting data from the management target server to recognize and manage the current status of each management target server, and providing various server management information including management service statistics data and management service reports related thereto to the manager terminal and the customer terminal. According to the present invention, a failure response function, a server management function, and a service statistics function are provided to enable a server manager to comprehensively manage servers, thereby enabling the servers to be managed more conveniently and more efficiently.

Description

장애 대응이 가능한 서버 관리 시스템 {Server management system capable of responding to failure}Server management system capable of responding to failure

본 발명은 서버들을 관리하기 위한 서버 관리 시스템에 관한 것으로서, 더욱 상세하게는 서버에서 발생하는 장애 패턴을 분석하고, 서버 현황 및 이력을 관리하고, 관련 통계 및 서비스를 위한 다양한 기능을 제공하는 서버 관리 시스템에 관한 것이다. The present invention relates to a server management system for managing servers, and more particularly, server management that analyzes failure patterns occurring in servers, manages server status and history, and provides various functions for related statistics and services. It's about the system.

최근 컴퓨터가 대용량화, 고속화됨에 따라, 시스템의 에러나 바이러스 등에 의한 컴퓨터 장애가 자주 발생되고 있다. 특히 대용량의 서버의 경우 다양한 응용 프로그램의 동작과 데이터 저장, 독출 및 전송 등 여러 요인에 의한 장애가 빈번하게 발생할 수 있다. 따라서 각 기업에서는 이러한 서버를 관리하는 별도의 서버 관리자를 상주시켜 서버를 관리하고, 장애 발생시 이를 처리하도록 하고 있다.[0002] Recently, as computers have increased in capacity and speed, computer failures due to system errors or viruses have frequently occurred. In particular, in the case of a large-capacity server, errors due to various factors such as operation of various application programs and data storage, reading, and transmission may frequently occur. Therefore, in each company, a separate server manager who manages such a server is resident to manage the server and to handle it when a failure occurs.

그런데, 서버 관리에는 전문적인 기술이 요구되며, 그러한 전문 인력을 채용하기에는 상당한 비용이 요구된다. 따라서 특히 소규모의 기업 등에서는 해당 서버 관리자로서 전문 기술자를 채용하는 것이 아니라, 사내 기존 인력 중에서 적절한 사람을 선택하여 서버 관리자로서 두고 있는 실정이다. 그럴 경우에는 서버 관리가 원활히 이루어지기 힘들며, 더구나 서버 장애 발생시에 원활히 대처하기가 거의 불가능하다.However, server management requires specialized skills, and considerable costs are required to employ such specialized personnel. Therefore, in particular, small companies, etc., do not employ professional technicians as server administrators, but select an appropriate person from among existing personnel in the company and place them as server administrators. In such a case, it is difficult to smoothly manage the server, and moreover, it is almost impossible to smoothly cope with server failure.

또한, 서버 관리를 위해 전문 기술을 가진 서버 관리자를 채용하였을 경우에도, 서버 관리자가 출장 등의 이유로 서버에서 원격지에 있을 경우에는 서버의 장애 발생시 이러한 서버의 상황이 관리자에 신속히 통보되기가 힘들어서 서버 장애 발생시에 원활히 대처하기가 힘들었다 더욱이 서버 관리자가 해당 서버의 장애 발생을 통보 받았을 경우에도, 원격지에 있는 관계로 이에 대한 즉각적인 대처가 어려워서, 결국 서버가 다운되는 등 막대한 손실이 초래될 수 있다.In addition, even when a server manager with specialized skills is employed for server management, if the server manager is away from the server due to business trips, etc., it is difficult to promptly notify the manager of the server's situation when a server failure occurs. In case of occurrence, it was difficult to smoothly cope with it. Furthermore, even if the server manager is notified of the occurrence of a server failure, it is difficult to respond immediately to it because it is located in a remote location, which can result in huge losses such as the server being down.

종래에는 다수의 서버들을 통합하여 관리하는 서버 통합 관리 시스템에서 어떤 서버에 장애가 발생하면, 이를 감지하고, 사후에 장애를 복구하는 방식이다. 그러나, 이러한 종래의 사후 장애 복구 방식은, 장애가 발생한 서버를 복구하는 기간 동안 해당 서버의 동작이 중단되고, 서버 사용 중단에 따른 손실이 발생하고, 복구하는데 드는 인력과 비용에 따른 손해가 크다는 문제점이 있다. Conventionally, in a server integrated management system that integrates and manages a plurality of servers, when a failure occurs in a certain server, it is detected and the failure is restored after the fact. However, this conventional post-failure recovery method has problems in that the operation of the server is stopped during the period of restoring the server in which the failure occurred, loss occurs due to server use suspension, and damage due to manpower and cost required for recovery is large. there is.

대한민국 공개특허 10-2015-0124642Republic of Korea Patent Publication 10-2015-0124642

본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 서버에서 발생하는 장애 패턴을 분석하여, 특정 이벤트 발생시 장애 발생을 경고함으로써, 선제적으로 장애 발생을 예방할 수 있도록 하고, 서버들의 이력을 관리하는 관리 기능을 제공하고, 관련 서비스 통계, 서비스 리포트를 제공하는 The present invention has been devised to solve the above problems, analyzes failure patterns occurring in servers, warns failures when a specific event occurs, thereby preemptively preventing failures, and managing the history of servers. to provide management functions, related service statistics, and service reports.

서버 관리 시스템을 제공하는데 그 목적이 있다.Its purpose is to provide a server management system.

본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.The object of the present invention is not limited to the object mentioned above, and other objects not mentioned will be clearly understood by those skilled in the art from the description below.

이와 같은 목적을 달성하기 위한 본 발명은 고객으로부터 의뢰받은 관리 대상 서버를 관리하는 서버 관리 시스템에 관한 것으로서, 상기 서버 관리 시스템을 관리하는 관리자가 사용하는 관리자 단말, 상기 관리 대상 서버를 의뢰한 각 고객이 사용하는 고객 단말 및 상기 관리 대상 서버로부터 데이터를 수집하여, 각 관리 대상 서버의 현황을 파악하여 관리하고, 이와 관련한 관리 서비스 통계 데이터와 관리 서비스 리포트를 포함하는 각종 서버 관리 정보를 상기 관리자 단말과 상기 고객 단말에 제공하는 관리 서버를 포함한다. To achieve the above object, the present invention relates to a server management system for managing a management target server requested by a customer, wherein a manager terminal used by a manager who manages the server management system, and each customer who has requested the management target server It collects data from the customer terminal and the management target server, grasps and manages the current status of each management target server, and provides various server management information, including management service statistical data and management service reports, to the manager terminal and the management target server. and a management server provided to the customer terminal.

상기 관리 서버는 관리 대상 서버의 장애 패턴을 분석하여 유사한 장애가 발생하는 것을 예방하는 예방 분석 기능을 제공하며, 상기 예방 분석 기능을 통해 관리 대상 서버에서 미리 정해진 이벤트 발생시, 발생된 이벤트에 따른 장애가 발생할 수 있음을 경고하는 예상 장애 발생 메시지를 해당 관리 대상 서버를 의뢰한 고객 단말에 선제적으로 송신할 수 있다. The management server analyzes the failure pattern of the management target server to provide a preventive analysis function to prevent similar failures from occurring, and through the preventive analysis function, when a predetermined event occurs in the management target server, a failure according to the occurred event may occur. An expected failure occurrence message warning that there is a failure may be preemptively transmitted to the customer terminal requesting the management target server.

상기 관리 서버는 관리 대상 서버의 설치, 장애, 기술지원 이력을 관리하는 이력 관리 기능을 제공할 수 있다. The management server may provide a history management function for managing installation, failure, and technical support records of the management target server.

상기 관리 서버는 관리 대상 서버의 납품 이력을 관리하는 납품 관리 기능을 제공할 수 있다. The management server may provide a delivery management function for managing the delivery history of the management target server.

상기 관리 서버는 관리 대상 서버에서 장비 관련 이벤트가 발생하면, 미리 정해진 분류 기준에 따라 위험 장비를 분류하고, 해당 위험 장비에 대한 경고 메시지를 상기 관리자 단말 및 해당 고객 단말에 발송하고, 해당 위험 장비에 대한 사전 장애 대응 조치를 수행할 수 있다. When an equipment-related event occurs in the management target server, the management server classifies dangerous equipment according to predetermined classification criteria, sends a warning message about the dangerous equipment to the manager terminal and the corresponding customer terminal, and sends a warning message to the corresponding dangerous equipment. It is possible to take pre-failure countermeasures for

상기 관리 서버는 관리 대상 서버에서 장비 관련 이벤트가 발생하면, 해당 장비의 장애 증상을 파악하고, 해당 장애 증상에 대응하는 장애 코드에 따라 원인을 분석하고, 장애 대응 방안을 포함하는 리포트를 상기 관리자 단말 및 해당 고객 단말에 발송하고, 해당 장비에 대한 장애 대응 조치를 수행할 수 있다. When an equipment-related event occurs in the management target server, the management server identifies a failure symptom of the corresponding equipment, analyzes the cause according to a failure code corresponding to the corresponding failure symptom, and sends a report including a failure response plan to the manager terminal. And it is sent to the corresponding customer terminal, and failure response measures for the corresponding equipment may be performed.

본 발명에 의하면, 서버 관리자에게 서버들을 종합적으로 관리할 수 있도록, 장애 대응 기능과, 서버 관리 기능과, 서비스 통계 기능을 제공함으로써, 보다 편리하고 효율적으로 서버를 관리할 수 있도록 하는 효과가 있다. According to the present invention, by providing a failure response function, a server management function, and a service statistics function so that the server manager can comprehensively manage the servers, there is an effect of enabling the server to be managed more conveniently and efficiently.

또한, 본 발명에 의하면, 서버를 소유하고 있는 고객에게 장애 패턴을 분석하여 선제적으로 장애를 미리 대응토록 하고, 서버 관리 기능을 제공함으로써, 고객의 니즈(needs)에 맞는 데이터를 가공하여 전달할 수 있는 효과가 있다. In addition, according to the present invention, it is possible to process and deliver data suitable for the customer's needs by analyzing the failure pattern to the customer who owns the server, preemptively responding to the failure, and providing a server management function. There is an effect.

도 1은 본 발명의 일 실시예에 따른 서버 관리 시스템의 전반적인 구성을 개념적으로 도시한 것이다.
도 2 내지 도 14는 본 발명의 일 실시예에 따른 서버 관리 시스템의 화면예를 도시한 것이다.
도 15는 본 발명의 일 실시예에 따른 시스템 장비를 분류한 도표이다.
도 16 및 도 17은 본 발명의 일 실시예에 따른 하드웨어 증상과 그 원인을 기재한 도표이다.
도 18 내지 도 19는 본 발명의 일 실시예에 따른 서버 관리 시스템에서 장애 사전 대응 방법을 보여주는 흐름도이다.
1 conceptually illustrates the overall configuration of a server management system according to an embodiment of the present invention.
2 to 14 illustrate screen examples of a server management system according to an embodiment of the present invention.
15 is a diagram of classifying system equipment according to an embodiment of the present invention.
16 and 17 are diagrams describing hardware symptoms and their causes according to an embodiment of the present invention.
18 to 19 are flowcharts showing a failure prevention method in a server management system according to an embodiment of the present invention.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.Since the present invention can make various changes and have various embodiments, specific embodiments will be illustrated in the drawings and described in detail. However, this is not intended to limit the present invention to specific embodiments, and should be understood to include all modifications, equivalents, and substitutes included in the spirit and scope of the present invention.

본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.Terms used in this application are only used to describe specific embodiments, and are not intended to limit the present invention. Singular expressions include plural expressions unless the context clearly dictates otherwise. In this application, the terms "include" or "have" are intended to designate that there is a feature, number, step, operation, component, part, or combination thereof described in the specification, but one or more other features It should be understood that the presence or addition of numbers, steps, operations, components, parts, or combinations thereof is not precluded.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 갖는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Unless defined otherwise, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art to which the present invention belongs. Terms such as those defined in commonly used dictionaries should be interpreted as having a meaning consistent with the meaning in the context of the related art, and unless explicitly defined in the present application, it should not be interpreted in an ideal or excessively formal meaning. don't

또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.In addition, in the description with reference to the accompanying drawings, the same reference numerals are given to the same components regardless of reference numerals, and overlapping descriptions thereof will be omitted. In describing the present invention, if it is determined that a detailed description of related known technologies may unnecessarily obscure the subject matter of the present invention, the detailed description will be omitted.

도 1은 본 발명의 일 실시예에 따른 서버 관리 시스템의 전반적인 구성을 개념적으로 도시한 것이다. 1 conceptually illustrates the overall configuration of a server management system according to an embodiment of the present invention.

도 1을 참조하면, 본 발명의 서버 관리 시스템은 관리 서버(110), 관리자 단말(120), 고객 단말(130)을 포함한다. Referring to FIG. 1 , the server management system of the present invention includes a management server 110 , a manager terminal 120 and a customer terminal 130 .

관리자 단말(120)은 서버 관리 시스템을 관리하는 관리자가 사용하는 단말이다. The manager terminal 120 is a terminal used by a manager who manages a server management system.

고객 단말(130)은 관리 대상 서버(10, 20, 30, 40)를 의뢰한 각 고객이 사용하는 단말이다. The customer terminal 130 is a terminal used by each customer who has requested the management target server 10 , 20 , 30 , or 40 .

본 발명의 일 실시예에서 관리자 단말(120)과 고객 단말(130)은 데스크탑 컴퓨터, 랩탑 컴퓨터, 태블릿 PC, 핸드폰, 휴대폰, 스마트 폰 등 유무선 통신이 가능한 다양한 단말 형태로 구현될 수 있다. In one embodiment of the present invention, the manager terminal 120 and the customer terminal 130 may be implemented in various terminal types capable of wired and wireless communication such as a desktop computer, a laptop computer, a tablet PC, a mobile phone, a mobile phone, and a smart phone.

관리 서버(110)는 관리 대상 서버(10, 20, 30, 40)로부터 데이터를 수집하여, 각 관리 대상 서버의 현황을 파악하여 관리하고, 이와 관련한 관리 서비스 통계 데이터와 관리 서비스 리포트를 포함하는 각종 서버 관리 정보를 관리자 단말(120)과 고객 단말(130)에 제공한다. The management server 110 collects data from the management target servers 10, 20, 30, and 40, identifies and manages the current status of each management target server, and manages various types of management service statistical data and management service reports. Server management information is provided to the manager terminal 120 and the customer terminal 130 .

관리 서버(110)는 관리 대상 서버(10, 20, 30, 40)의 장애 패턴을 분석하여 유사한 장애가 발생하는 것을 예방하는 예방 분석 기능을 제공하며, 예방 분석 기능을 통해 관리 대상 서버(10, 20, 30, 40)에서 미리 정해진 이벤트 발생시, 발생된 이벤트에 따른 장애가 발생할 수 있음을 경고하는 예상 장애 발생 메시지를 해당 관리 대상 서버를 의뢰한 고객 단말에 선제적으로 송신할 수 있다. The management server 110 analyzes failure patterns of the managed servers 10, 20, 30, and 40 to provide a preventive analysis function to prevent similar failures from occurring. , 30, 40), when a predetermined event occurs, an expected failure occurrence message warning that a failure may occur according to the occurred event may be preemptively transmitted to the customer terminal requesting the management target server.

관리 서버(110)는 관리 대상 서버(10, 20, 30, 40)의 설치, 장애, 기술지원 이력을 관리하는 이력 관리 기능을 제공할 수 있다. The management server 110 may provide a history management function for managing installation, failure, and technical support records of the management target servers 10 , 20 , 30 , and 40 .

관리 서버(110)는 관리 대상 서버(10, 20, 30, 40)의 납품 이력을 관리하는 납품 관리 기능을 제공할 수 있다. The management server 110 may provide a delivery management function for managing delivery records of the management target servers 10 , 20 , 30 , and 40 .

관리 서버(110)는 관리 대상 서버에서 장비 관련 이벤트가 발생하면, 미리 정해진 분류 기준에 따라 위험 장비를 분류하고, 해당 위험 장비에 대한 경고 메시지를 관리자 단말(120) 및 해당 고객 단말에 발송하고, 해당 위험 장비에 대한 사전 장애 대응 조치를 수행할 수 있다. When an equipment-related event occurs in the management target server, the management server 110 classifies dangerous equipment according to predetermined classification criteria and sends a warning message about the dangerous equipment to the manager terminal 120 and the corresponding customer terminal, It is possible to take pre-failure countermeasures for the relevant dangerous equipment.

관리 서버(110)는 관리 대상 서버에서 장비 관련 이벤트가 발생하면, 해당 장비의 장애 증상을 파악하고, 해당 장애 증상에 대응하는 장애 코드에 따라 원인을 분석하고, 장애 대응 방안을 포함하는 리포트를 관리자 단말(120) 및 해당 고객 단말에 발송하고, 해당 장비에 대한 장애 대응 조치를 수행할 수 있다. When a device-related event occurs in the management target server, the management server 110 identifies a failure symptom of the corresponding equipment, analyzes the cause according to a failure code corresponding to the corresponding failure symptom, and sends a report including a failure response plan to the administrator. It can be sent to the terminal 120 and the corresponding customer terminal, and take measures to cope with the failure of the corresponding equipment.

본 발명에서 관리 서버(110)는 고객 단말(130)의 요청에 따라 관리 대상 서버의 관리와 관련한 데이터를 가공하여 전달하는 데이터 딜리버리 서비스(data delivery service) 기능을 제공할 수 있다. In the present invention, the management server 110 may provide a data delivery service function of processing and delivering data related to the management of the management target server according to the request of the customer terminal 130 .

또한, 관리 서버(110)는 관리 대상 서버의 크리티컬(Critical) 장애를 분석하고, 동일사례를 전파하여 서버 장애를 사전에 예방할 수 있으며, 분기 별 각 서버의 장애 통계를 관리자 단말(120) 및 고객 단말(130)에 제공할 수 있다. In addition, the management server 110 analyzes critical failures of the server to be managed and propagates the same case to prevent server failures in advance. It can be provided to the terminal 130.

본 발명에서 관리 서버는 납품한 서버 관련 장비에 대한 이력을 관리할 수 있으며, 설치/장애/기술지원 이력관리 서비스를 제공하고, 파츠(parts)별 이슈(issue)를 관리할 수 있다. In the present invention, the management server can manage the history of delivered server-related equipment, provide installation/failure/technical support history management services, and manage issues for each part.

본 발명은 고객으로부터 의뢰받은 다수의 관리 대상 서버(10, 20, 30, 40)를 관리하는 서버 관리 시스템에 관한 것이다. The present invention relates to a server management system for managing a plurality of management target servers (10, 20, 30, 40) requested by a customer.

본 발명의 일 실시예에서 관리 대상이 되는 서버인 관리 대상 서버는 다양한 서버일 수 있으며, 예를 들어 Dell 서버(10), HP 서버(20), IBM 서버(30), X86 서버(40)일 수 있다. In one embodiment of the present invention, the server to be managed, which is the server to be managed, may be various servers, for example, Dell server 10, HP server 20, IBM server 30, X86 server 40 can

관리 대상 서버(10, 20, 30, 40)와 관리 서버(110)는 다양한 유무선 통신 방식을 통해 통신하며, 예를 들어 HTTP 통신이나 JSON 형식의 POST 전송 방식으로 통신할 수 있다. The management target servers 10 , 20 , 30 , and 40 and the management server 110 communicate through various wired and wireless communication methods, and for example, may communicate through HTTP communication or a POST transmission method in JSON format.

또한, 관리 대상 서버(10, 20, 30, 40)는 대규모 전산환경의 다양한 x86 서버에서 정해진 스케쥴링에 따라 스크립트를 자동 실행할 수 있다.In addition, the management target servers 10, 20, 30, and 40 may automatically execute scripts according to a predetermined schedule in various x86 servers in a large-scale computing environment.

관리자는 관리자 단말(120)을 통해 관리 서버(110)에 접속하고, 관리 서버(110)에 정해진 스케쥴링에 따라 배치(BATCH) 프로그램을 실행하여, 기존 데이터와 비교하여 변경 이력을 관리한다. The manager accesses the management server 110 through the manager terminal 120, executes a batch program according to a schedule determined in the management server 110, and manages the change history by comparing with existing data.

관리 서버(110)는 자동으로 관리 대상 서버(10, 20, 30, 40)의 하드웨어 정보 및 소프트웨어 정보를 수집하고, 이를 기반으로 각 서버의 현황을 파악하고, 각 서버의 요구 상황에 맞춰 관리 서비스를 제공한다.The management server 110 automatically collects hardware information and software information of the management target servers 10, 20, 30, and 40, identifies the current status of each server based on this, and provides management services according to the requirements of each server. provides

관리 서버(110)는 관리 대상 서버의 BBU(Backup Battery Unit) 주기를 점검하여, 미리 정해진 주기가 되면, 이 내용을 해당 관리 대상 서버의 고객 단말에 전송할 수 있다. The management server 110 may check the BBU (Backup Battery Unit) cycle of the management target server and transmit the content to the customer terminal of the management target server when a predetermined cycle is reached.

또한, 관리 서버(110)는 관리 대상 서버의 BBU 충전 용량을 점검하여, 배터리의 충전 효율이 미리 정해진 수치 이하로 감소하면, 이 내용을 해당 관리 대상 서버의 고객 단말에 알릴 수 있다. 예를 들어, 관리 서버(110)는 관리 대상 서버의 BBU 충전 용량을 점검하여, 배터리의 충전 효율이 40% 이하로 감소되면, 이 내용을 해당 관리 대상 서버의 고객 단말에 알릴 수 있다. In addition, the management server 110 may check the BBU charging capacity of the management target server and notify the customer terminal of the management target server of this content when the charging efficiency of the battery decreases below a predetermined value. For example, the management server 110 may check the BBU charging capacity of the management target server and notify the customer terminal of the management target server of this content when the charging efficiency of the battery is reduced to 40% or less.

관리 서버(110)는 관리 대상 서버의 BBU 잔여 용량을 점검하여, 배터리의 잔량이 미리 정해진 수치 이하인 경우, 이 내용을 해당 관리 대상 서버의 고객 단말에 알릴 수 있다. 예를 들어, 관리 서버(110)는 관리 대상 서버의 BBU 잔여 용량을 점검하여, 배터리의 잔량이 10% 이하인 경우, 이 내용을 해당 관리 대상 서버의 고객 단말에 알릴 수 있다. The management server 110 may check the BBU remaining capacity of the management target server and notify the customer terminal of the management target server of the content when the battery remaining amount is less than a predetermined value. For example, the management server 110 may check the BBU remaining capacity of the management target server and notify the customer terminal of the management target server of this content when the remaining battery capacity is 10% or less.

또한, 관리 서버(110)는 관리 대상 서버의 BBU 쓰기 정책(Write Policy)을 점검하여, 쓰기 정책이 변경되면, 이 내용을 해당 관리 대상 서버의 고객 단말에 알릴 수 있다.In addition, the management server 110 may check the BBU write policy of the management target server and notify the customer terminal of the management target server of this content when the write policy is changed.

본 발명의 다수의 서버를 통합하여 관리하는 서버 통합 관리 시스템에 대한 것으로서, 서버의 다양한 기능을 진단하고, 장애를 미리 예측하여 경고하고, 해결 방법을 함께 제시한다. 본 발명에서는 서버의 다양한 기능 중에서 BBU(Backup Battery Unit)를 예시하여 설명하기로 한다.As for the server integrated management system that integrates and manages a plurality of servers of the present invention, various functions of the server are diagnosed, failures are predicted and warned in advance, and solutions are presented together. In the present invention, a BBU (Backup Battery Unit) among various functions of a server will be described as an example.

Dell 서버를 예시하면, RAID 컨트롤러의 배터리 실패(failure)로 인한 캐쉬(cache) 데이터의 손실 방지를 위해, BBU의 배터리 상태 점검 및 선제적 교체 진행이 필요하다. 이를 위하여, Dell 서버의 로그(log) 확인을 통해 배터리 완전 충전(Full Charging) 효율(%)을 확인하고, 완전 충전 효율이 50% 미만인 장비를 확인하고, 배터리 교체를 진행한다. 36개월 이후의 배터리 충전 효율은 대략 70% 전후로 자연적으로 감소되며, 이를 감안하여 대략 20% 정도 추가적인 감소가 있는 배터리에 대해 충전효율 불량으로 판정할 수 있다. Taking the Dell server as an example, in order to prevent cache data loss due to battery failure of the RAID controller, it is necessary to check the battery status of the BBU and proceed with preemptive replacement. To this end, check the full charging efficiency (%) of the battery through the log check of the Dell server, check the equipment whose full charging efficiency is less than 50%, and proceed with replacing the battery. After 36 months, the battery charging efficiency naturally decreases to around 70%, and considering this, a battery with an additional decrease of about 20% can be determined as poor charging efficiency.

본 발명의 서버 통합 관리 시스템은 BBU 주기 점검, 충전용량 점검, 잔여 용량 점검, 쓰기 정책(Write Policy) 점검을 수행하며, 이를 통해 캐쉬 데이터 손실을 방지하고, 배터리 상태에 대한 위험 요인을 사전에 방지할 수 있다. The integrated server management system of the present invention performs BBU periodic inspection, charging capacity inspection, remaining capacity inspection, and write policy inspection, thereby preventing cache data loss and risk factors for battery status in advance. can do.

본 발명의 서버 관리 시스템에서는 어떤 이벤트가 발생할 때, 해당 이벤트를 통해 서버에 장애가 발생할 수 있음을 진단하여, 미리 해당 서버의 시스템에 경고하고, 해결 방법에 대한 정보를 함께 전달한다. 이와 관련하여, 서버에서 발생하는 이벤트는 매우 다양하고, 전에 없던 이벤트가 새롭게 발생할 수도 있다. 이제 본 발명에서는 이러한 서버에서 발생할 수 있는 이벤트 중에서 몇 가지 이벤트를 예시하기로 한다. In the server management system of the present invention, when a certain event occurs, it is diagnosed that a server failure may occur through the corresponding event, a warning is given to the system of the corresponding server in advance, and information on a solution is delivered together. In this regard, events occurring in the server are very diverse, and unprecedented events may newly occur. Now, in the present invention, several events among events that may occur in such a server will be exemplified.

1. iDRAC7 버전 1.51.51 에 적용된 제품 Dell R720 서버에서 팬(FAN) 소음(Reading 12,000 RPM 이상). 1. Fan noise (Reading 12,000 RPM or higher) on product Dell R720 server applied with iDRAC7 version 1.51.51.

이에 대한 해결 방법은 iDRAC7 1.46.45 버전으로 다운그레이드(Downgrade) 할 것을 권장한다. As a workaround for this, it is recommended to downgrade to iDRAC7 1.46.45 version.

2. 랙 PDU#1 및 PDU#2에서 전력 사용률이 PDU#1으로 쏠림 현상이 발생.2. The power utilization in Rack PDU#1 and PDU#2 is biased toward PDU#1.

도 17을 참조하면, Dell 서버뿐만 아니라, HP 서버도 마찬가지로 파워 서플라이(Power Supply)의 디폴트(Default)로 액티브 스탠바이(Active Standby)로 작동되게끔 셋팅되어 있으며, 이로 인해 전력이 랙(Rack) PDU의 한쪽으로 몰리는 상황이 발생하는데 밸런스(Balance)를 맞추기 위해서는 Primary - PSU 의 비율을 맞춰줄 필요가 있다. Referring to FIG. 17, not only the Dell server, but also the HP server is set to operate in Active Standby as the default of the power supply, so power is supplied to the Rack PDU There is a situation where it is driven to one side, but in order to balance, it is necessary to match the ratio of Primary - PSU.

3. Dell 서버 제품 12세대 ~ 14세대 커널 업데이트(kernel update) 후 OS 이상 작동.3. OS abnormal operation after kernel update of Dell server products 12th to 14th generation.

이때, 관리 서버(110)는 델(dell) 서버에서 커널(Kernel) 업데이트(update) 후, OS(Operating system) 상에서 이상 작동이 발견되면, 이로 인해 발생할 수 있는 예상 장애 발생 메시지를 해당 관리 대상 서버에 송신하고, 이와 함께 예상 장애에 대한 해결 방법을 해당 관리 대상 서버에 전달한다. At this time, the management server 110 sends an expected failure occurrence message that may occur due to an abnormal operation on the operating system (OS) after updating the kernel in the dell server to the corresponding management target server. , and along with it, the solution for the expected failure is delivered to the corresponding management target server.

4. TCP/IP 포트(Port) 부족으로 인한 서비스 불가.4. Unavailability of service due to lack of TCP/IP ports.

이는 윈도우(windows) 2008에서 업타임(Uptime)이 497일 이상 일 때, 네트워크(Network) TIME_WAIT 세션(session)이 클로즈(close)되지 못하고 남아 있는 현상이다. 이로 인하여 포트(port)를 점유하게 되고 더 이상의 포트(port)가 없을 때 문제가 된다. 윈도우(windows) 2008 서버와 윈도우(Windows) 2012 서버가 대상이 되며, 업데이트된 패치를 제거함으로써 장애를 해결할 수 있다. This is a phenomenon in which the Network TIME_WAIT session remains without being closed when the Uptime is 497 days or more in Windows 2008. This causes ports to be occupied and becomes a problem when there are no more ports. Windows 2008 Server and Windows 2012 Server are targeted, and the failure can be resolved by removing the updated patch.

5. 윈도우(Windows) 2003 ~ 2022 이벤트 로그 발생. 5. Windows 2003 ~ 2022 event log occurrence.

6. 메모리(Memory) 생산 주기 진단. 6. Memory production cycle diagnosis.

이는 특정 메모리의 특정 생산주기가 불량인 것을 확인하는 것으로서, 장애 대상은 13세대 장비(R730, R930, R630)이고, 장애 OS는 윈도우(Windows) 2012 R2 서버(Server)에서 KB3064209 hotfix가 포함된 서버이고, 해결 방법은 해당 hotfix를 제거하는 것이다. This is to confirm that a specific production cycle of a specific memory is defective. The target of failure is 13th generation equipment (R730, R930, R630), and the failure OS is Windows 2012 R2 Server with KB3064209 hotfix. , and the workaround is to remove the hotfix.

본 발명에서 관리 서버(110)는 관리 대상 서버의 메모리 생산 주기를 진단하고, 미리 정해진 메모리 생산 주기를 불량으로 판정하고, 이 내용을 해당 관리 대상 서버에 알린다. In the present invention, the management server 110 diagnoses the memory production cycle of the management target server, determines a predetermined memory production cycle as defective, and informs the corresponding management target server of this information.

7. PCIe Type의 SSD를 사용하고 있는 경우 장치설정에서 응답이 멈추는 현상.7. If you are using a PCIe type SSD, response stops in device settings.

이에 대한 해결 방법은 BIOS 1.1.4 -> 1.2.10으로 업데이트하는 것이다.The workaround for this is to update BIOS 1.1.4 -> 1.2.10.

8. 12G 서버(Server) BIOS 업데이트 이후 온도(Temperature) 센서가 정상 작동하지 않아 경고음(Alert_)이 계속 발생하는 이슈.8. After updating the BIOS of the 12G Server, the temperature sensor does not work properly and the alert_ continues to sound.

이에 대한 해결 방법은 BIOS 2.5.2 버전을 진단하고 최신 펌웨어로 A workaround for this is to diagnose the BIOS 2.5.2 version and update to the latest firmware.

업데이트하는 것이다. is to update

9. 패치 Update후 BSOD 발생후 부팅(Booting) 불가 현상9. Unable to boot after BSOD after patch update

이 이벤트는 2014년 8월 Patch Tuesday update 윈도우 오류 KB2982791로 인한 현상이다. This event is caused by the August 2014 Patch Tuesday update windows error KB2982791.

장애 대상은 windows2008 서버이고, 패치 업데이트를 통해 장애를 해결할 수 있다.The target of failure is windows2008 server, and the failure can be resolved through patch update.

10. 윈도우(Windows) 2012 Active Director를 사용한 클라이언트(Client)에서 DNS 연결 오류 발생.10. DNS connection error in client using Windows 2012 Active Director.

서버에서 도메인 계정으로 로그인 시 계정과 암호가 정상적임에도 “사용자 이름 또는 암호가 올바르지 않습니다” 는 오류가 발생한다. When logging in with a domain account on the server, the error “The user name or password is incorrect” occurs even though the account and password are normal.

윈도우 서버(Windows Server) 2008 R2 / Windows 7 부터 DES-CBC-MD5 및 DES-CBC-CRC 암호화를 사용하지 않고, AES256-CTS-HMAC-SHA1-96, AES128-CTS-HMAC-SHA1-96, RC4-HMAC 암호화만을 사용하게 되는데, AD 서버가 윈도우 서버(Windows Server) 2012 R2이고, 도메인 멤버(Domain Member)가 윈도우 서버(Windows Server) 2008 R2 또는 윈도우(Windows) 7 일 경우, 컴퓨터 계정에 대한 암호 갱신 시에 AES 키 생성이 실패하는 제품 상의 이슈로 인해 발생한 현상이다. From Windows Server 2008 R2 / Windows 7, without DES-CBC-MD5 and DES-CBC-CRC encryption, AES256-CTS-HMAC-SHA1-96, AES128-CTS-HMAC-SHA1-96, RC4 -Only HMAC encryption is used. If the AD server is Windows Server 2012 R2 and the domain member is Windows Server 2008 R2 or Windows 7, the password for the computer account This is a phenomenon caused by an issue in the product in which AES key generation fails during renewal.

11. GNU Bash 4.3 Shell에 존재하는 취약점.11. Vulnerability in GNU Bash 4.3 Shell.

Bash 취약점을 이용해 공격자는 웹 서버의 콘텐츠 및 코드 변경, 웹사이트 변조, 사용자 데이터 유출 및 DDoS 공격 수행이 가능한 것으로 알려져 있다. 이 외에도 SSH, DHCP 프로토콜 등 다양한 환경 하에서의 Bash 코드 인젝션 취약점 공격 시나리오도 제기되고 있는 상황이다.It is known that attackers can change web server contents and code, tamper with websites, leak user data, and perform DDoS attacks by using Bash vulnerabilities. In addition to this, attack scenarios for Bash code injection vulnerabilities under various environments such as SSH and DHCP protocols are also being raised.

장애 대상은 Red Hat Enterprise Linux 5,6,7 서버이고, 장애 해결 방법은 Bash 업데이트이다.The target of failure is Red Hat Enterprise Linux 5, 6, 7 server, and the solution to the failure is Bash update.

12. GNU C 라이브러리(glibc)의 버퍼 오버플로우 취약점.12. Buffer overflow vulnerability in the GNU C library (glibc).

네트워크 연결 시 자주 쓰이는 gethostbyname(), gethostbyname2() 함수 호출 시, 취약한 함수가 호출되는 현상으로서, 외부의 공격자는 취약한 서버에서 원격으로 임의의 코드를 실행시킬 수 있다. Vulnerable functions are called when gethostbyname() and gethostbyname2() functions, which are often used when connecting to a network, are called. External attackers can remotely execute arbitrary code on the vulnerable server.

장애 대상은 Red Hat Enterprise Linux 5,6,7 서버이고, 장애 해결 방법은 GLIBC 업데이트이다. The target of failure is Red Hat Enterprise Linux 5, 6, 7 server, and the solution to the failure is GLIBC update.

13. Radhat V5 및 V6 계열 OS의 버그.13. Bugs in Radhat V5 and V6 family OS.

Intel CPU를 사용하는 Red Hat Enterprise Linux 6 or 5 모든 버전에서 208.5일 이후 Reboot 현상이 발생하는 버그이다. This is a bug that reboots after 208.5 days in all versions of Red Hat Enterprise Linux 6 or 5 using Intel CPU.

장애 대상은 Red Hat Enterprise Linux 5,6 서버이고, 장애 해결 방법은 커널 업데이트이다. The failure target is a Red Hat Enterprise Linux 5 or 6 server, and the solution to the failure is a kernel update.

14. 레이드 컨트롤러 배터리 페일(Raid Controller Battery Fail). 14. Raid Controller Battery Fail.

레이드 컨트롤러 캐쉬(Raid Controller Cache) 사용 불가로 인한 I/O 성능이 저하된다. 장애 대상은 Dell Perc 5i, 6i용 Raid Controller Battery이고, 장애 해결 방법은 Dell Perc 5i, 6i용 Raid Controller Battery의 사용 주기 4~5년마다 사전 교체하는 것이다. I/O performance is degraded due to the unavailability of the Raid Controller Cache. The target of failure is the Raid Controller Battery for Dell Perc 5i, 6i, and the way to solve the failure is to pre-replace the Raid Controller Battery for Dell Perc 5i, 6i every 4 to 5 years.

15. CPU IERR 에러(Error) 발생으로 인한 시스템 다운(SYSTEM DOWN).15. System down due to CPU IERR error.

장애 대상은 인텔 아이브릿지 V2 사용 CPU 사용 서버(PE R720, PE R920)이고, 장애 해결 방법은 BIOS 세팅(Setting)을 변경하는 것이다.The target of failure is a server using CPU using Intel iBridge V2 (PE R720, PE R920), and the solution to the failure is to change the BIOS setting.

예를 들어, 시스템 프로파일 세팅(System Profile Settings)을 시스템 프로파일(System Profile)을 Custom으로 설정하고, CPU 파워 매니지먼트(Power Management)를 Maximum Performance로 하고, C1E를 Disabled C States Disabled로 하고, Monitor/Mwait를 Disabled로 설정한다. For example, set System Profile Settings to Custom, CPU Power Management to Maximum Performance, C1E to Disabled C States Disabled, Monitor/Mwait set to Disabled.

16. iDrac 1.50.50 F/W(Firmware)(해당 버전 검색) 사용시 관리 Web 접속 불가.16. When using iDrac 1.50.50 F/W (Firmware) (search for the corresponding version), management web access is not possible.

iDrac F/W(Firmware) OS상에서의 F/W 업그레이드(Upgrade)하거나, 일상 생활에서의 미디어를 통한 업그레이드(Upgrade)를 통해 1.51.51로 업그레이드(Upgrade)한다. F/W upgrade on the iDrac F/W (Firmware) OS or upgrade to 1.51.51 through the media in daily life.

도 2 내지 도 14는 본 발명의 일 실시예에 따른 서버 관리 시스템의 화면예를 도시한 것이다.2 to 14 illustrate screen examples of a server management system according to an embodiment of the present invention.

도 2는 초기 화면예이고, 관리 대상 서버의 진행 상태, 파츠(parts)별 장애 증상 통계 그래프 등이 하나의 화면에 표시되어 있다. 2 is an example of an initial screen, and the progress state of the server to be managed, a statistical graph of failure symptoms for each part, and the like are displayed on one screen.

도 3은 납품 이력 관리 화면예로서, 서버의 고객사, 관리 코드, 주문번호, 모델명, 도입년도 등의 항목이 예시되어 있다. 3 is an example of a delivery history management screen, in which items such as a server's client company, management code, order number, model name, and introduction year are exemplified.

도 4는 도 3에서 하나의 서버를 선택하면 디스플레이되는 납품 이력 관리 세부 화면예로서, 해당 서버의 정보와, 구체적인 시스템 정보가 표시되어 있다.FIG. 4 is an example of a detailed delivery history management screen displayed when one server is selected in FIG. 3 , in which information of the corresponding server and specific system information are displayed.

도 5는 납품 이력 관리 중에서 서비스 기간 관리 화면예로서, 각 서버의 서비스 기간을 관리할 수 있는 화면예이다. 5 is an example of a service period management screen among delivery history management, and is an example of a screen capable of managing the service period of each server.

도 6은 납품 이력 관리 중에서 파츠 관리 세부 화면예로서, 각 파츠의 모델명, 고객사, 장비 댓수의 정보가 표시되어 있다. 6 is an example of a parts management detailed screen in delivery history management, and information on the model name, customer company, and number of equipment for each part is displayed.

도 7 내지 도 10은 TSR(Terminate and Stay Resident) 로그(log)를 통한 장애 이력 관리 화면예이다. 7 to 10 are examples of failure history management screens through a Terminate and Stay Resident (TSR) log.

도 7은 TSR 로그 분석 화면예이고, 도 8은 TSR 로그 분석 통계를 도시한 화면예로서 점검 30%, 교체 20%, BIOS 펌웨어 업데이트 15%, R/C 펌웨어 업데이트 15%, iDrac 펌웨어 업데이트 10%, 위치변경 10%의 조치방법 비율이 그래프로 도시되어 있다. 7 is an example of a TSR log analysis screen, and FIG. 8 is an example of a screen showing TSR log analysis statistics, with inspection 30%, replacement 20%, BIOS firmware update 15%, R/C firmware update 15%, iDrac firmware update 10% , the rate of action measures for 10% position change is shown in the graph.

도 9 및 도 10은 크리티컬 이슈 관리 화면예이다. 9 and 10 are examples of critical issue management screens.

도 11 내지 도 13은 통계를 통한 고객사별 장애 분석 서비스 제공 화면예이다. 11 to 13 are examples of failure analysis service provision screens for each customer through statistics.

도 11은 파츠별 장애분석 화면예로서, 주요 파츠별 장애율이 원 그래프로 표시되어 있고, 각 파츠별 세부 장애율이 역시 원 그래프로 표시되어 있다. 11 is an example of a failure analysis screen for each part, in which the failure rate for each major part is displayed in a circle graph, and the detailed failure rate for each part is also displayed in a circle graph.

도 12는 장애분석 화면예로서 장애 원인, 결론, 교체시기를 포함한 장애 분석 정보가 표시되어 있다. 12 is an example of a failure analysis screen and displays failure analysis information including cause of failure, conclusion, and replacement time.

도 13은 고객사와 비교한 각 서버별 장애 분석 분포도를 예시한 화면예이다. 13 is a screen example illustrating a failure analysis distribution map for each server compared to a customer company.

도 14는 서비스 리포트 기능을 예시한 화면예로서, 발생 시기, 이슈사항, 문제해결 및 재발방지 조치 사항을 포함한 리포트 내용이 예시되어 있다. 14 is an example of a screen illustrating a service report function, and the contents of the report including occurrence time, issues, problem solving, and recurrence prevention measures are exemplified.

도 15는 본 발명의 일 실시예에 따른 시스템 장비를 분류한 도표이고, 도 16 및 도 17은 본 발명의 일 실시예에 따른 하드웨어 증상과 그 원인을 기재한 도표이다. 15 is a diagram categorizing system equipment according to an embodiment of the present invention, and FIGS. 16 and 17 are diagrams describing hardware symptoms and their causes according to an embodiment of the present invention.

도 18 내지 도 19는 본 발명의 일 실시예에 따른 서버 관리 시스템에서 장애 사전 대응 방법을 보여주는 흐름도이다. 18 to 19 are flowcharts showing a failure prevention method in a server management system according to an embodiment of the present invention.

도 18을 참조하면, 관리 서버(110)는 관리 대상 서버에서 하드웨어 관련 이슈가 발생하면(S101), 도 15의 분류표를 참조하여 장애 발생 가능성이 높은 유사 장비를 위험 장비로 분류한다(S103). Referring to FIG. 18, when a hardware-related issue occurs in the management target server (S101), the management server 110 refers to the classification table of FIG. 15 and classifies similar equipment with a high probability of failure as dangerous equipment (S103). .

그리고, 분류된 위험 장비에 대한 경고 메시지를 발송하고(S105), 장애 사전 대응 조치를 수행한다(S107). Then, a warning message for the classified dangerous equipment is sent (S105), and failure preemptive measures are performed (S107).

도 15의 분류표를 참조하면, 본 발명의 일 실시예에서 시스템 장비의 구체적 유사 판단 기준이 예시되어 있으며, 동일 클래스 장비 분류, 동일 CPU 장비 분류, 동일 Memory 장비 분류, 동일 NIC 장비 분류, 동일 Disk 장비 분류, 동일 HBA 장비 분류, 동일 BIOS 장비 분류, 동일 Driver 버전 장비 분류, 동일 OS 장비 분류, 동일 Firmware 버전 장비 분류 등이 예시되어 있다. Referring to the classification table of FIG. 15, in one embodiment of the present invention, specific similarity judgment criteria of system equipment are exemplified, and the same class equipment classification, the same CPU equipment classification, the same Memory equipment classification, the same NIC equipment classification, and the same Disk Device classification, same HBA device classification, same BIOS device classification, same Driver version device classification, same OS device classification, same Firmware version device classification, etc. are exemplified.

도 19를 참조하면, 관리 서버(110)는 관리 대상 서버에서 하드웨어 관련 이슈가 발생하면(S301), 장애 증상을 파악한다(S303). Referring to FIG. 19 , when a hardware-related issue occurs in a management target server (S301), the management server 110 identifies a failure symptom (S303).

그리고, 도 16 및 도 17의 도표를 참조하여 장애 증상에 따른 증상 코드를 확인한다(S305). 그리고, 증상 코드에 대응하는 원인을 확인하고(S307), 이에 따라 대응 방안 리포트를 발송한다(S309). 그리고, 장애 원인에 대응하는 장애 대응 조치를 수행한다(S311). Then, referring to the charts in FIGS. 16 and 17, a symptom code according to a disorder symptom is checked (S305). Then, the cause corresponding to the symptom code is checked (S307), and a countermeasure report is sent accordingly (S309). Then, a failure countermeasure corresponding to the cause of failure is performed (S311).

S305 단계에서 장애 증상에 대응하는 증상 코드가 없으면 새로운 증상 코드를 생성하여 도 16 및 도 17의 리스트에 추가한다(S313). If there is no symptom code corresponding to the disorder symptom in step S305, a new symptom code is generated and added to the list of FIGS. 16 and 17 (S313).

도 16 및 도 17을 참조하면, 본 발명의 일 실시예에 따른 장애 증상별 증상 코드에 대응하는 장애 원인이 예시되어 있다. 즉, RAC1198는 iDrac 펌웨어 이슈, 커렉터블 메모리 장애는 메모리 이슈 및 바이오스 펌웨어 이슈, Link Failure 발생은 NIC 장애 및 펌웨어 이슈, Link Failure Count 다수 발생은 NIC 드라이버 및 펌웨어 이슈, NIC Link is Down은 NIC 드라이버 및 펌웨어 이슈, Link 상태 및 서버 점검 요청은 NIC 드라이버 및 펌웨어 이슈, HOST_DOWN 발생은 NIC 드라이버 및 펌웨어 이슈, 서버 전면 황색 점등 발생은 iDrac 펌웨어 이슈, SWC5008:critical 메시지 출력은 iDrac 펌웨어 이슈, NO_PARTITION 알람 발생은 디스크 장애, Reset adapte은 바이오스 펌웨어 이슈, Correctable memory error는 메모리 이슈 및 바이오스 펌웨어 이슈, CPU 성능 저하는 바이오스 펌웨어 이슈, Memory 및 Slot 표시 안됨은 메모리 이슈 및 바이오스 펌웨어 이슈, Disk fault error는 디스크 장애, disk predicted fail은 디스크 BadBlock으로 인한 장애, 주기적 FAN 6 인식 문제는 Fan 6 장애, 광량 400이하로 인한 Fault는 Gbic 장애, NIC GBIC 통신불가는 Gbic 장애, System 무한 리부팅은 바이오스 펌웨어 이슈, LCD Panel 특정 메세지 출력은 iDrac 펌웨어 이슈, iDRAC에서 반복적인 에러메세지 발생은 iDrac 펌웨어 이슈, vCenter 에이전트와 동기화 오류는 EXSi 버전 및 OS 버전 이슈, 서버 Reboot 현상은 바이오스 펌웨어 이슈, HBA Write 속도 저하는 HBA 펌웨어 및 드라이버 이슈, HBA Read 속도 저하는 HBA 펌웨어 및 드라이버 이슈, HBA Link Down은 HBA Gbic 및 Card 이슈, HBA 이중화 절체 장애는 HBA Gbic 및 Card 이슈, Riser1 인식 불량은 Riser Card 이슈, Riser2 인식 불량은 Riser Card 이슈, 네트워크 이중화 장애는 Network Card 이슈, PSU Alert 황색 LED 점등은 PSU 장애, 저전압으로 인한 이상발생은 PSU 장애, PXE 부팅 불가는 바이오스 설정 및 NIC 펌웨어/드라이버 이슈, POST 부팅 불가는 메인보드 장애, LifeCycle 접속 불가는 메인보드 장애, iDRAC Hang 증상은 iDrac 펌웨어 이슈, iDRAC Network 단절은 메인보드 장애 및 iDrac 펌웨어 이슈, iDRAC SNMP 서비스 장애 발생은 iDrac 펌웨어 이슈, 서버 사용중 갑자기 서버 꺼짐증상은 메인보드 이슈, Medium Error 발생은 디스크 장애, ERROR Event 확인 요청은 Error Event에 따른 이슈, CMC 접속 불가는 CMC 펌웨어 이슈가 원인으로 대응된다. Referring to FIGS. 16 and 17 , causes of failure corresponding to symptom codes for each symptom of failure according to an embodiment of the present invention are illustrated. That is, RAC1198 is an iDrac firmware issue, a memory issue and a BIOS firmware issue for a correctable memory failure, a NIC failure and a firmware issue for Link Failure, a NIC driver and firmware issue for multiple Link Failure Counts, and a NIC driver and firmware issue for NIC Link is Down. and firmware issues, Link status and server check request are NIC driver and firmware issues, HOST_DOWN occurrence is NIC driver and firmware issues, server front yellow light occurrence is iDrac firmware issues, SWC5008:critical message output is iDrac firmware issues, and NO_PARTITION alarm occurrence is Disk failure, Reset adapte is a BIOS firmware issue, Correctable memory error is a memory issue and BIOS firmware issue, CPU performance degradation is a BIOS firmware issue, Memory and Slot not displayed is a memory issue and BIOS firmware issue, Disk fault error is a disk failure, disk Predicted failure is failure due to disk BadBlock, periodic FAN 6 recognition problem is Fan 6 failure, fault due to light intensity below 400 is Gbic failure, NIC GBIC communication failure is Gbic failure, system infinite reboot is BIOS firmware issue, LCD Panel specific message output iDrac firmware issue for iDRAC, iDrac firmware issue for repeated error message, synchronization error with vCenter agent is EXSi version and OS version issue, server reboot phenomenon is BIOS firmware issue, HBA write speed slowdown is HBA firmware and driver issue, HBA Read speed degradation is an HBA firmware and driver issue, HBA Link Down is an HBA Gbic and Card issue, HBA redundancy transfer failure is an HBA Gbic and Card issue, Riser1 failure is a Riser Card issue, Riser2 failure is a Riser Card issue, network redundancy failure is Network Card issue, PSU Alert Yellow LED is on PSU failure, abnormality due to low voltage indicates PSU failure, PXE booting failure indicates BIOS setting and NIC firmware/driver issue, POST boot failure indicates motherboard failure, LifeCycle connection failure on mainboard Failure, iDRAC hang symptom is iDrac firmware issue, iDRAC network disconnection is mainboard failure and iDrac firmware issue, iDRAC SNMP service failure is iDrac firmware issue, server suddenly turned off during use is mainboard issue, Medium Error is disk failure, ERROR Event confirmation requests are responded to issues caused by Error Events, and CMC connection failures are caused by CMC firmware issues.

그리고, DSET 분석 요청은 분석에 따른 장애, TSR Log 분석 요청은 분석에 따른 장애, NFS Service 기동 실패는 NFS 설정 및 OS 설정 점검, vCenter 접속 불가는 EXSi 버전 및 OS 버전 이슈, NIC Reset은 Network Card 이슈, GPU 인식 불가는 GPU Card 장애, OS Crash 발생은 OS Dump 분석, Network error/dropped packets 발생은 Network Card 이슈, CRC에러 발생은 Network Card 이슈, 서버-스위치 끊어진 현상은 Network Card 이슈, Network(Bonding)에 통신이 원활이 되지 않는 문제는 Network Card 이슈, 메모리 교체 후 동일 슬롯 이벤트 발생은 메모리 장애 또는 메인보드 장애, Disk Read Only 상태로 접근 불가는 디스크 장애 또는 RAID 구성 이슈, 스위치 한달에 3~4회 Hang 증상은 메인보드 또는 OS 버전 이슈, LACP Network Speed 문제가 발생하는 것은 Network Card 이슈, 클러스터 페일 오버 발생은 클러스터 설정 이슈 또는 HW 장애, RTSP 동기화 실패는 OS 설정 또는 Network 장애, 세션 저하 현상 발생은 Network Card 또는 Gbic 이슈, 알 수 없는 전원 차단은 PSU 장애, 서버 느려짐 및 행 현상은 어플리케이션 또는 HW 장애, Network Ping Loss는 Network Card 또는 Gbic 이슈, LoadAvg 상승은 CPU 점검 필요, Fatal Error 발생은 PCI Card 또는 Riser Card 이슈, PXE설치 중 멈춤 또는 퍼포먼스 저하는 Network Card 또는 Gbic 이슈, Blue Screen 발생(0x00004f)은 메인보드/바이오스/디스크/메모리 장애, Blue Screen은 메인보드/바이오스/디스크 장애, OS Booting 실패는 메인보드/바이오스/디스크 장애, 프로세스 Down 및 OS설치 중 패닉은 메인보드/바이오스/디스크 장애, 서버에서 타는 냄새는 팬/메인보드/PSU 이슈, NAS 접속 불가 조치는 네트워크/OS 설정 이슈, KVM 연결 불가는 메인보드/KVM케이블/KVM 이슈, Disk Amber LED는 디스크 장애, Post 부팅시 Delay는 메인보드/팬/PCI/메모리 이슈, 전원 공급 불량 조치는 PSU 장애, Teaming 성능 저하는 네트워크/OS 설정 이슈, VD Bad Block은 디스크 장애, HBA Loop는 HBA 장애, Raid 구성정보가 보이지 않음은 펌웨어/디스크 드라이버 이슈, Volume 인식불가는 펌웨어/디스크 드라이버 이슈, Kernel Panic은 OS/App 이슈, 최대 성능 사용시 서버 rebooting은 CPU/PSU/메인보드/메모리 이슈, 서버 처리 속도가 현저하게 늦어짐은 CPU/PSU/메인보드/메모리/디스크 이슈, 서버 전원 안들어옴은 PSU 장애가 원인으로 대응된다. In addition, DSET analysis request is a failure according to analysis, TSR Log analysis request is a failure according to analysis, NFS service startup failure is NFS setting and OS setting check, vCenter connection is not possible, EXSi version and OS version issue, NIC reset is Network Card issue , GPU unrecognized GPU card failure, OS crash occurrence OS dump analysis, network error/dropped packets occurrence network card issue, CRC error occurrence network card issue, server-switch disconnection phenomenon network card issue, network (bonding) Network card issue for poor communication, memory failure or motherboard failure for the same slot event after memory replacement, disk failure or RAID configuration issue that cannot be accessed in Disk Read Only state, switch 3-4 times a month Hang symptoms include mainboard or OS version issues, network card issues for LACP network speed issues, cluster configuration issues or HW failures for cluster failover occurrences, OS settings or network failures for RTSP synchronization failures, and network failures for session deterioration. Card or Gbic issue, unknown power cutoff indicates PSU failure, server slowdown and hang phenomenon indicates application or HW failure, Network Ping Loss indicates Network Card or Gbic issue, LoadAvg increase indicates CPU inspection, Fatal Error occurrence indicates PCI Card or riser Card issue, stopping or performance degradation during PXE installation is Network Card or Gbic issue, Blue Screen occurrence (0x00004f) is main board/BIOS/disk/memory failure, Blue Screen is main board/BIOS/disk failure, OS Boot failure is main Board/bios/disk failure, process down and panic during OS installation are mainboard/bios/disk failure, burning smell from server is fan/mainboard/PSU issue, NAS access is not possible, network/OS setting issue, KVM connection is not possible is a main board/KVM cable/KVM issue, Disk Amber LED is a disk failure, Post boot delay is a main board/fan/PCI/memory issue, power supply failure is a PSU failure, teaming performance degradation is a network/OS setting issue, VD Bad Block is a disk failure, HBA Loop is an HBA failure, Raid configuration information is not visible is a firmware/disk driver issue, Volume is not recognized as a firmware/disk driver issue, Kernel Panic is an OS/App issue, and server rebooting when using maximum performance CPU/PSU/Main board/Memory issues, CPU/PSU/Main board/Memory/Disk issues for significantly slow server processing speed, and PSU failures for server power failure.

이상 본 발명을 몇 가지 바람직한 실시 예를 사용하여 설명하였으나, 이들 실시 예는 예시적인 것이며 한정적인 것이 아니다. 본 발명이 속하는 기술분야에서 통상의 지식을 지닌 자라면 본 발명의 사상과 첨부된 특허청구범위에 제시된 권리범위에서 벗어나지 않으면서 다양한 변화와 수정을 가할 수 있음을 이해할 것이다.The present invention has been described above using several preferred embodiments, but these embodiments are illustrative and not limiting. Those skilled in the art to which the present invention pertains will understand that various changes and modifications can be made without departing from the spirit of the present invention and the scope of rights set forth in the appended claims.

110 관리 서버 120 관리자 단말
130 고객 단말 10, 20, 30, 40 관리 대상 서버
110 management server 120 manager terminal
130 Customer terminal 10, 20, 30, 40 Management target server

Claims (6)

고객으로부터 의뢰받은 관리 대상 서버를 관리하는 서버 관리 시스템에서,
상기 서버 관리 시스템을 관리하는 관리자가 사용하는 관리자 단말;
상기 관리 대상 서버를 의뢰한 각 고객이 사용하는 고객 단말; 및
상기 관리 대상 서버로부터 데이터를 수집하여, 각 관리 대상 서버의 현황을 파악하여 관리하고, 이와 관련한 관리 서비스 통계 데이터와 관리 서비스 리포트를 포함하는 각종 서버 관리 정보를 상기 관리자 단말과 상기 고객 단말에 제공하는 관리 서버
를 포함하는 서버 관리 시스템.
In the server management system that manages the management target server requested by the customer,
an administrator terminal used by an administrator who manages the server management system;
a customer terminal used by each customer who requested the management target server; and
Collecting data from the management target server, identifying and managing the current status of each management target server, and providing various server management information including management service statistical data and management service reports related to this to the manager terminal and the customer terminal management server
Server management system comprising a.
청구항 1에 있어서,
상기 관리 서버는 관리 대상 서버의 장애 패턴을 분석하여 유사한 장애가 발생하는 것을 예방하는 예방 분석 기능을 제공하며, 상기 예방 분석 기능을 통해 관리 대상 서버에서 미리 정해진 이벤트 발생시, 발생된 이벤트에 따른 장애가 발생할 수 있음을 경고하는 예상 장애 발생 메시지를 해당 관리 대상 서버를 의뢰한 고객 단말에 선제적으로 송신하는 것을 특징으로 하는 서버 관리 시스템.
The method of claim 1,
The management server analyzes the failure pattern of the management target server to provide a preventive analysis function to prevent similar failures from occurring, and through the preventive analysis function, when a predetermined event occurs in the management target server, a failure according to the occurred event may occur. A server management system characterized in that it preemptively transmits an expected failure occurrence message warning that there is a corresponding management target server to a customer terminal requesting the management target server.
청구항 1에 있어서,
상기 관리 서버는 관리 대상 서버의 설치, 장애, 기술지원 이력을 관리하는 이력 관리 기능을 제공하는 것을 특징으로 하는 서버 관리 시스템.
The method of claim 1,
The server management system, characterized in that the management server provides a history management function for managing the installation, failure, technical support history of the management target server.
청구항 1에 있어서,
상기 관리 서버는 관리 대상 서버의 납품 이력을 관리하는 납품 관리 기능을 제공하는 것을 특징으로 하는 서버 관리 시스템.
The method of claim 1,
The server management system, characterized in that the management server provides a delivery management function for managing the delivery history of the management target server.
청구항 1에 있어서,
상기 관리 서버는 관리 대상 서버에서 장비 관련 이벤트가 발생하면, 미리 정해진 분류 기준에 따라 위험 장비를 분류하고, 해당 위험 장비에 대한 경고 메시지를 상기 관리자 단말 및 해당 고객 단말에 발송하고, 해당 위험 장비에 대한 사전 장애 대응 조치를 수행하는 것을 특징으로 하는 서버 관리 시스템.
The method of claim 1,
When an equipment-related event occurs in the management target server, the management server classifies dangerous equipment according to predetermined classification criteria, sends a warning message about the dangerous equipment to the manager terminal and the corresponding customer terminal, and sends a warning message to the corresponding dangerous equipment. A server management system characterized in that it performs pre-failure measures for.
청구항 1에 있어서,
상기 관리 서버는 관리 대상 서버에서 장비 관련 이벤트가 발생하면, 해당 장비의 장애 증상을 파악하고, 해당 장애 증상에 대응하는 장애 코드에 따라 원인을 분석하고, 장애 대응 방안을 포함하는 리포트를 상기 관리자 단말 및 해당 고객 단말에 발송하고, 해당 장비에 대한 장애 대응 조치를 수행하는 것을 특징으로 하는 서버 관리 시스템.
The method of claim 1,
When an equipment-related event occurs in the management target server, the management server identifies a failure symptom of the corresponding equipment, analyzes the cause according to a failure code corresponding to the corresponding failure symptom, and sends a report including a failure response plan to the manager terminal. And server management system, characterized in that for sending to the corresponding customer terminal, and performing failure response measures for the corresponding equipment.
KR1020210159917A 2021-11-19 2021-11-19 Server management system capable of responding to failure KR20230073469A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210159917A KR20230073469A (en) 2021-11-19 2021-11-19 Server management system capable of responding to failure

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210159917A KR20230073469A (en) 2021-11-19 2021-11-19 Server management system capable of responding to failure

Publications (1)

Publication Number Publication Date
KR20230073469A true KR20230073469A (en) 2023-05-26

Family

ID=86537148

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210159917A KR20230073469A (en) 2021-11-19 2021-11-19 Server management system capable of responding to failure

Country Status (1)

Country Link
KR (1) KR20230073469A (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150124642A (en) 2014-04-29 2015-11-06 주식회사 비티비솔루션 Communication failure recover method of parallel-connecte server system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150124642A (en) 2014-04-29 2015-11-06 주식회사 비티비솔루션 Communication failure recover method of parallel-connecte server system

Similar Documents

Publication Publication Date Title
US10761926B2 (en) Server hardware fault analysis and recovery
US11269750B2 (en) System and method to assess information handling system health and resource utilization
KR102526368B1 (en) Server management system supporting multi-vendor
US20240054234A1 (en) Methods and systems for hardware and firmware security monitoring
US8839032B2 (en) Managing errors in a data processing system
US8713350B2 (en) Handling errors in a data processing system
US20140082142A1 (en) System and method for accessing operating system and hypervisors via a service processor of a server
CN108292342B (en) Notification of intrusions into firmware
US10275330B2 (en) Computer readable non-transitory recording medium storing pseudo failure generation program, generation method, and generation apparatus
KR101783201B1 (en) System and method for managing servers totally
WO2019241199A1 (en) System and method for predictive maintenance of networked devices
KR20230073469A (en) Server management system capable of responding to failure
Brey et al. BladeCenter chassis management
US20240356796A1 (en) System for monitoring servers totally
US20240372780A1 (en) Information technology asset management system for providing server configuration automation
US20240370330A1 (en) Method for managing server in information technology asset management system
JP2024156645A (en) An IT resource management system that provides server configuration automation functionality
US20240362104A1 (en) Server management system using ai
JP2024156644A (en) How to manage servers with an IT resource management system
KR20240156684A (en) Information technology asset management system for providing server configuration automation
KR20240156683A (en) Method for managing server in information technology asset management system
KR20240156685A (en) Server management system using AI
KR20240156682A (en) System for monitoring servers totally
JP2024156646A (en) Server management system using AI
JP2024156643A (en) Server Integrated Monitoring System