KR101511542B1 - Mtehod for Handling Abnormal State of Module Type Data Center Ingra-structure - Google Patents

Mtehod for Handling Abnormal State of Module Type Data Center Ingra-structure Download PDF

Info

Publication number
KR101511542B1
KR101511542B1 KR20130116225A KR20130116225A KR101511542B1 KR 101511542 B1 KR101511542 B1 KR 101511542B1 KR 20130116225 A KR20130116225 A KR 20130116225A KR 20130116225 A KR20130116225 A KR 20130116225A KR 101511542 B1 KR101511542 B1 KR 101511542B1
Authority
KR
South Korea
Prior art keywords
virtual machine
pod
abnormal state
monitoring
data center
Prior art date
Application number
KR20130116225A
Other languages
Korean (ko)
Other versions
KR20150038789A (en
Inventor
김영환
박창원
김현우
Original Assignee
전자부품연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 전자부품연구원 filed Critical 전자부품연구원
Priority to KR20130116225A priority Critical patent/KR101511542B1/en
Publication of KR20150038789A publication Critical patent/KR20150038789A/en
Application granted granted Critical
Publication of KR101511542B1 publication Critical patent/KR101511542B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45504Abstract machines for programme code execution, e.g. Java virtual machine [JVM], interpreters, emulators

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)

Abstract

모듈형 데이터 센터 인프라스트럭처 이상 상태 처리방법이 제공된다. 본 발명의 실시예에 따른 이상 상태 처리방법은, 가상 머신이 POD에서 이상 상태에 있는 장비를 모니터링하면, 다른 가상 머신이 이를 해결하기 위해 다른 장비를 제어한다. 이에 의해, POD 기반의 모듈형 데이터 센터에서 POD를 구성하는 장비에 이상이 발생한 경우 POD 내의 가상 머신들끼지 연동하여 분석 및 처리가 가능해진다.A method for handling anomalous state of a modular data center infrastructure is provided. In an abnormal state processing method according to an embodiment of the present invention, when a virtual machine monitors a device in an abnormal state in the POD, another virtual machine controls other devices to solve the abnormal state. Accordingly, when an abnormality occurs in the equipment constituting the POD in the POD-based modular data center, the virtual machines in the POD can be interrelated and analyzed and processed.

Figure R1020130116225
Figure R1020130116225

Description

모듈형 데이터 센터 인프라스트럭처 이상 상태 처리방법{Mtehod for Handling Abnormal State of Module Type Data Center Ingra-structure}METHOD FOR PROCESSING A MODULAR DATA CENTER INFRASTRUCTURE Abnormal State < RTI ID = 0.0 >

본 발명은 데이터 센터에 관한 것으로, 더욱 상세하게는 데이터 센터를 구성하는 장비에서 발생한 이상 상태를 처리하는 방법에 관한 것이다.
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a data center, and more particularly, to a method for processing an abnormal state occurring in a device constituting a data center.

데이터 센터는 컴퓨터 시스템과 통신장비, 저장장치인 스토리지 등이 설치된 시설을 말한다. 데이터 센터는 빅데이터를 저장하고 유통시키는 핵심 인프라로 대규모 전력을 필요로 한다.A data center is a facility in which computer systems, communication equipment, and storage devices such as storage are installed. Data centers require large amounts of power as a core infrastructure for storing and distributing big data.

뿐만 아니라, 데이터 센서의 서버들은 온도와 습도에 민감하므로 적정 온도(16∼24도)와 적정 습도(40∼55%)로 유지시키기 위해, 실시간으로 이를 모니터링하고 관리하여야 한다.In addition, data sensor servers are sensitive to temperature and humidity, so they must be monitored and managed in real time to maintain proper temperature (16 to 24 degrees) and proper humidity (40 to 55 percent).

또한, 전원 공급 중단시 정보 유실과 서비스 중단이라는 문제가 발생하므로, 전원 상태 역시 모니터링과 관리 대상이 된다.In addition, when the power supply is interrupted, there is a problem of information loss and service interruption, so the power supply status is also monitored and controlled.

현재, 데이터 센서를 구성하는 많은 장비들에 대해 하나의 관리 서버를 통해 일괄적인 모니터링과 관리가 이루어지고 있는데, 처리 속도가 늦어 적시에 절절한 조치가 이루어지지 않는 경우가 발생할 수 있다.
Currently, a large number of devices constituting the data sensor are monitored and managed in a single management server. However, the processing speed may be too slow to take appropriate measures in a timely manner.

본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, POD(Portable Optimized Datacenter) 기반의 모듈형 데이터 센터에 효과적인 이상 상태 처리방법을 제공함에 있다.
SUMMARY OF THE INVENTION The present invention has been made in order to solve the above problems, and it is an object of the present invention to provide an effective abnormal state processing method in a modular data center based on POD (Portable Optimized Datacenter).

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 이상 상태 처리방법은, 제1 가상 머신이 POD(Portable Optimized Datacenter)에서 제1 장비를 모니터링하는 단계; 상기 제1 가상 머신이 제1 장비에 발생한 이상 상태를 제2 가상 머신에 통보하는 단계; 및 상기 제2 가상 머신이, 상기 이상 상태를 해결하기 위해, 상기 POD에서 제2 장비를 제어하는 단계;를 포함한다.According to an aspect of the present invention, there is provided an abnormal state processing method including: monitoring a first device in a POD (Portable Optimized Datacenter) of a first virtual machine; Notifying the second virtual machine of an abnormal state occurred in the first equipment by the first virtual machine; And controlling, by the second virtual machine, the second device in the POD to resolve the abnormal state.

그리고, 본 발명의 일 실시예에 따른 이상 상태 처리방법은, 상기 제2 가상 머신이, 상기 이상 상태에 대한 해결 가능 여부 및 해결을 위한 동작 내용이 수록된 메시지를 상기 제1 가상 머신에 통보하는 단계;를 더 포함할 수 있다.The method may further include the step of the second virtual machine notifying the first virtual machine of a message containing the operation state for solving the problem and the solution for the abnormal state, ; ≪ / RTI >

또한, 상기 제2 가상 머신은, 상기 제2 장비의 상태를 모니터링하는 가상 머신일 수 있다.In addition, the second virtual machine may be a virtual machine for monitoring the status of the second equipment.

그리고, 본 발명의 일 실시예에 따른 이상 상태 처리방법은, 상기 제2 가상 머신이, 상기 이상 상태가 해소되었는지 제1 가상 머신에 문의하는 단계; 및 상기 제1 가상 머신이, 상기 제1 장비의 현재 상태를 상기 제2 가상 머신에 통보하는 단계;를 더 포함할 수 있다.According to another aspect of the present invention, there is provided an abnormal state processing method comprising the steps of: inquiring of a first virtual machine whether the abnormal state has been eliminated; And notifying the first virtual machine of the current status of the first device to the second virtual machine.

또한, 상기 제1 가상 머신과 상기 제2 가상 머신은, 독립적으로 운용되는 것을 포함할 수 있다.In addition, the first virtual machine and the second virtual machine may include those operating independently.

그리고, 상기 제1 가상 머신 및 상기 제2 가상 머신은, 다수의 POD들로부터 모니터링 데이터를 수신받는 하나의 대시 보드 시스템과 연동할 수 있다.The first virtual machine and the second virtual machine can work together with one dashboard system that receives monitoring data from a plurality of PODs.

또한, 상기 제1 장비는, CRAC, UPS&PDU 및 IT Rack 중 어느 하나이고, 상기 제2 장비는, CRAC, UPS&PDU 및 IT Rack 중 다른 하나일 수 있다.Also, the first equipment may be one of a CRAC, a UPS & PDU, and an IT rack, and the second equipment may be one of a CRAC, a UPS & PDU, and an IT rack.

한편, 본 발명의 다른 실시예에 따른, 데이터 센터 시스템은, POD에서 제1 장비를 모니터링하는 제1 가상 머신; 및 상기 제1 장비에 발생한 이상 상태를 제1 가상 머신으로부터 통보받으면, 상기 이상 상태를 해결하기 위해 제2 장비를 제어하는 제2 가상 머신;을 포함한다.
Meanwhile, according to another embodiment of the present invention, a data center system includes: a first virtual machine for monitoring a first device in a POD; And a second virtual machine for controlling the second device to resolve the abnormal state when the first virtual machine is informed of the abnormal state occurring in the first device.

이상 설명한 바와 같이, 본 발명의 실시예들에 따르면, POD 기반의 모듈형 데이터 센터에서 POD를 구성하는 장비에 이상이 발생한 경우 POD 내의 가상 머신들끼지 연동하여 분석 및 처리가 가능해진다.As described above, according to the embodiments of the present invention, when an error occurs in the equipment constituting the POD in the POD-based modular data center, the virtual machines in the POD can be interrelated and analyzed and processed.

또한, 가상 머신이 구분되어 있으므로, 하나의 가상 머신에 발생한 장애가 다른 가상 머신에 영향을 미치지 않도록 할 수 있다.
In addition, since the virtual machines are divided, it is possible to prevent a failure occurring in one virtual machine from affecting another virtual machine.

도 1은 본 발명이 적용가능한 데이터 센터의 전체 시스템을 도시한 도면,
도 2는, 도 1에 도시된 POD들 중 하나를 확대하여 도시한 도면,
도 3 내지 도 7은, VM에 장애가 발생한 경우의 처리 과정의 설명에 제공되는 도면,
도 8은 VM의 상세 구조에 대한 설명에 제공되는 도면,
도 9는 모니터링 대상이 되는 장비들에 마련되는 에이전트 시스템의 설명에 제공되는 도면,
도 10은 VM과 에이전트 시스템이 장비의 데이터를 센싱(수집)하여 모니터링하는 과정을 나타낸 도면,
도 11은 장비의 상태 이상(장비 장애)을 처리하는 과정 및 그에 이용되는 메시지 구조들 나타낸 도면, 그리고,
도 12 내지 도 18은, 장비의 상태 이상 처리 과정을 구체적으로 나타낸 도면이다.
1 illustrates an overall system of a data center to which the present invention is applicable;
2 is an enlarged view of one of the PODs shown in FIG. 1,
Figs. 3 to 7 are drawings provided for explanation of a processing procedure when a failure occurs in a VM, Fig.
FIG. 8 is a diagram provided in the description of the detailed structure of a VM,
FIG. 9 is a diagram provided in the description of an agent system provided in equipment to be monitored,
10 is a diagram illustrating a process of sensing (collecting) and monitoring data of a device by a VM and an agent system,
11 is a diagram showing a process of processing a status abnormality (equipment failure) of a device and a message structure used therein,
FIGS. 12 to 18 are diagrams specifically illustrating a process for abnormality of a state of equipment.

이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.Hereinafter, the present invention will be described in detail with reference to the drawings.

도 1은 본 발명이 적용가능한 데이터 센터의 전체 시스템을 도시한 도면이다. 본 발명이 적용가능한 데이터 센터는, 도 1에 도시된 바와 같이, 다수의 POD(Portable Optimized Datacenter)들(POD #1 ~ POD #n)과 하나의 대시 보드(Dash Board) 시스템를 포함한다.BRIEF DESCRIPTION OF THE DRAWINGS FIG. 1 is a diagram showing an entire system of a data center to which the present invention is applicable; FIG. The data center to which the present invention can be applied includes a plurality of POD (Portable Optimized Datacenter) (POD # 1 to POD # n) and a dashboard system, as shown in FIG.

데이터 센터는 POD 단위로 구분하여 구축/운용한다. 또한, 데이터 센터는 POD 단위로 장애를 모니터링하고 관리하되, 관리자는 대시보드 시스템으로 모든 POD들에 대한 모니터링/관리가 가능하다.The data center is divided into POD units and constructed / operated. In addition, the data center monitors and manages failures on a per-POD basis, while administrators can monitor and manage all PODs with a dashboard system.

도 2는 도 1에 도시된 POD들 중 하나를 확대하여 도시한 도면이다. 도 2에 도시된 바와 같이, POD는 CRAC, UPS&PDU, IT Rack(200-0 ~ 200-9, ... )로 이루어지며, 각 구성들의 개수에 대한 제한은 없다.FIG. 2 is an enlarged view of one of the PODs shown in FIG. 1. FIG. As shown in FIG. 2, the POD includes a CRAC, a UPS & PDU, and an IT Rack (200-0 to 200-9, ...).

또한, POD는 독립된 DCMM(Data Center Monitor Middleware) 시스템을 보유한다. 즉, POD 마다 DCMM 시스템이 존재한다. POD의 DCMM 시스템들은 대시 보드 시스템과 연동한다.In addition, the POD has an independent DCMM (Data Center Monitor Middleware) system. That is, there is a DCMM system for each POD. POD's DCMM systems work with the dashboard system.

DCMM 시스템은 POD를 구성하는 장비들(CRAC, UPS&PDU, IT Rack)(200-0 ~ 200-9, ... )의 상태를 모니터링하고 관리하기 위한 시스템으로, 모니터링/관리할 장비의 종류에 따라 특화된 가상 머신들을 구비하고 있다.The DCMM system monitors and manages the status of the devices (CRAC, UPS & PDU, IT Rack) (200-0 ~ 200-9, ...) that make up the POD. And has specialized virtual machines.

구체적으로, DCMM 시스템은, VM(Virtual Machine)들(100-0, 100-1, 100-2), VL(Virtual Layer)(100-3) 및 MEP(Multi-core Embedded Platform)(100-4)를 포함한다.Specifically, the DCMM system includes VMs (Virtual Machines) 100-0, 100-1 and 100-2, VL (Virtual Layer) 100-3, and MEP (Multi-core Embedded Platform) ).

VM #0(100-0)은 POD에 설치된 CRAC들(200-0, 200-4, 200-5, 200-6, ...)을 모니터링/관리하기 위한 가상 머신이고, VM #1(100-1)은 POD에 설치된 UPS&PDU들(200-1, 200-7, ...)을 모니터링/관리하기 위한 가상 머신이며, VM #2(100-2)은 POD에 설치된 IT Rack들(200-2, 200-3, 200-8, 200-9, ...)을 모니터링/관리하기 위한 가상 머신이다.The VM # 0 100-0 is a virtual machine for monitoring / managing the CRACs 200-0, 200-4, 200-5, 200-6, ... installed in the POD, and the VM # 1 100 -1 is a virtual machine for monitoring / managing the UPS & PDUs 200-1, 200-7, ... installed in the POD and the VM # 2 100-2 is a virtual machine for monitoring / managing the IT racks 200- 2, 200-3, 200-8, 200-9, ...).

POD의 장비들을 모니터링/관리하는 VM들이 구분되어 독립적으로 동작하기 때문에, 어느 VM에 장애가 발생한 경우에도 다른 VM들은 문제 없이 정상적으로 동작할 수 있다.Since the VMs that monitor and manage the POD devices operate independently, any VMs can operate normally without any problems in case of a VM failure.

한편, VM에 장애가 발생할 경우를 대비하여, 도 3에 도시된 바와 같이 예비 VM들(100-5, 100-6, 100-7)이 운용된다. 도 4에 도시된 바와 같이, Active Base의 VM들(100-0, 100-1, 100-2)은 장비들로부터 데이터를 수집하여 DB화하고 모니터링/관리하고, Passive Base의 VM들(100-5, 100-6, 100-7)은 이들을 각각 복제(백업)하도록 한다.On the other hand, the spare VMs 100-5, 100-6 and 100-7 are operated as shown in FIG. 3 in case a failure occurs in the VM. As shown in FIG. 4, the active base VMs 100-0, 100-1, and 100-2 collect data from devices, DB, monitor / manage them, and passive-based VMs 100- 5, 100-6, and 100-7) respectively replicate (back up) them.

도 4에 도시된 바와 같이, Passive Base의 VM들(100-5, 100-6, 100-7)은 FT 관리자(FT_Manager)를 통해 Active Base의 VM들(100-0, 100-1, 100-2)과 Heartbeat를 주고받으면서, Active Base의 VM들(100-0, 100-1, 100-2)이 정상적으로 동작하고 있는지 체크한다.4, the passive base VMs 100-5, 100-6, and 100-7 are connected to the VMs 100-0, 100-1, and 100-7 of the active base through the FT manager FT_Manager, 2) and Heartbeat, and checks whether the active base VMs 100-0, 100-1, 100-2 are operating normally.

Active Base의 VM에 장애가 발생한 경우의 처리 과정에 대해 설명하기 위해, 도 5에 도시된 바와 같이, VM #0(100-0)에 장애가 발생한 경우를 상정한다. VM #0(100-0)에 장애가 발생하면, 복제 VM #1(100-5)은 Heartbeat를 통해 이를 감지하게 된다.In order to explain the processing procedure when a VM in the active base fails, it is assumed that a failure occurs in the VM # 0 (100-0) as shown in Fig. When a fault occurs in the VM # 0 (100-0), the duplication VM # 1 (100-5) detects this through the heartbeat.

이후, 도 6에 도시된 바와 같이, 장애가 발생한 VM #0(100-0)의 시스템 메모리를 회수하고, 복제 VM #1(100-5)를 Active Base로 변경시켜 POD의 CRAC들을 모니터링/관리하도록 한다.Thereafter, as shown in FIG. 6, the system memory of the failed VM # 0 (100-0) is recovered and the replica VM # 1 (100-5) is changed to Active Base to monitor / manage the CRACs of the POD do.

다음, 도 7에 도시된 바와 같이, Passive Base에 새로운 복제 VM(100-8)을 생성하여 VM #0(100-5)을 복제(백업)하면서 정상적으로 동작하고 있는지 체크하도록 한다.Next, as shown in Fig. 7, a new duplicate VM 100-8 is created in the passive base, and the VM # 0 (100-5) is copied (backed up) and checked whether it is operating normally.

이하에서, VM들의 상세 구조에 대해, 도 8을 참조하여 상세히 설명한다. VM들은 모니터링/관리 대상만이 다를 뿐, 그 구조는 동일하게 구현할 수 있으므로, 도 8에는 하나의 VM을 대표로 도시하였다.Hereinafter, the detailed structure of the VMs will be described in detail with reference to FIG. Since only the VMs to be monitored / managed are different and their structures can be implemented in the same manner, one VM is represented as a representative in FIG.

도 8에 도시된 바와 같이, VM은, SNMP 모듈, check_snmp 모듈, DCM 데몬, DCMM, DB, DB 관리자, FT 관리자, OCM(Overstate Control Module)을 포함한다.As shown in FIG. 8, the VM includes an SNMP module, a check_snmp module, a DCM daemon, a DCMM, a DB, a DB manager, an FT manager, and an OCM (Overstate Control Module).

DCMM은 대상 장비 모니터링에 사용되는 설정 파일(cfg 파일)들을 장비(호스트) 별로 생성하고, DCM 데몬은 주기적인 모니터링을 관리한다. 설정 파일은 해당 장비의 모니터링에 관련된 명령들이 수록되어 있는 데이터 수집 객체로 기능한다.DCMM creates configuration files (cfg files) used for target device monitoring per device (host), and the DCM daemon manages periodic monitoring. The configuration file serves as a data collection object that contains commands related to the monitoring of the device.

check_snmp 모듈은 DCMM이 생성한 설정 파일을 SNMP를 통해 모니터링 대상 장비(호스트)에 전달하여 모니터링에 필요한 데이터를 획득한다. SNMP 모듈은 이더넷을 통해 모니터링 대상 장비와 네트워킹을 수행하는 모듈이다.The check_snmp module obtains data necessary for monitoring by passing the configuration file created by DCMM to the monitoring target device (host) through SNMP. The SNMP module is a module that performs networking with the equipment to be monitored through Ethernet.

DB 관리자는 check_snmp 모듈이 획득한 데이터를 DB에 저장한다. 또한, DB 관리자는 DB에 저장된 데이터를 대시보드 시스템에 제공하여, 관리자가 대시보드 시스템을 통해 장비들의 상태를 직접 확인할 수 있도록 한다.The DB administrator stores the data acquired by the check_snmp module in the DB. In addition, the DB administrator provides data stored in the DB to the dashboard system so that the administrator can directly check the status of the devices through the dashboard system.

FT 관리자는 다른 VM과 Heartbeart 전달을 위한 모듈이고, OCM은 장애 관리 및 제어를 수행하는데 이에 대해서는 상세히 후술한다.The FT manager is a module for transferring Heartbeats with other VMs, and the OCM performs fault management and control, which will be described in detail later.

도 9는 모니터링 대상이 되는 장비들에 마련되는 에이전트 시스템의 설명에 제공되는 도면이다. VM과 마찬가지로, 에이전트 시스템도 장비의 종류에 특화되지만, 그 구조는 동일하다.FIG. 9 is a diagram provided for explaining an agent system provided in equipment to be monitored. Like the VM, the agent system is also specialized for the kind of equipment, but its structure is the same.

모든 장비들은 에이전트 시스템을 보유하고 있다. 에이전트 시스템은 장비에 대한 데이터를 수집하여 VM의 DCMM으로 전달한다. 수집되는 데이터에는 온도, 습도, 전력 사용량 등이 포함되는데, 이 밖의 다른 데이터가 더 포함될 수 있음은 물론이다.All equipment has an agent system. The agent system collects data about the equipment and delivers it to the VM's DCMM. The collected data includes temperature, humidity, power consumption, etc. It is needless to say that other data may be further included.

에이전트 시스템은, 도 9에 도시된 바와 같이, SNMP 에이전트, 서브 에이전트, MIB(Management Information Base)를 포함한다.The agent system includes an SNMP agent, a subagent, and a Management Information Base (MIB), as shown in FIG.

SNMP 에이전트는 VM의 SNMP와 통신 연결을 설정하고 유지하며, 서브 에이전트의 핸들러는 VM으로부터 전달받은 설정 파일에서 요구하는 데이터들을 센싱(수집)한다. MIB는 데이터 수집/관리에 참조 되는 정보들이 저장되어 있다.The SNMP agent establishes and maintains a communication link with the VM's SNMP, and the handler of the subagent senses (collects) the data requested in the configuration file received from the VM. The MIB stores information that is referred to in data collection / management.

도 10에는 전술한 VM과 에이전트 시스템이 장비의 데이터를 센싱(수집)하여 모니터링하는 과정이 도시되어 있다.FIG. 10 shows a process of sensing (collecting) and monitoring the data of the device by the VM and the agent system.

도 10에 도시된 바와 같이, DCMM이 생성한 설정 파일(keti_host)을 이용하여 장비(object)로부터 모니터링에 필요한 데이터를 수집한다(sensing data). 수집되는 데이터에는 온도, 습도, 전력 소비량 등이 포함됨은 전술한 바 있다.As shown in FIG. 10, monitoring data (monitoring data) is collected from an object using a configuration file (keti_host) generated by the DCMM. The data collected includes temperature, humidity, power consumption, and the like.

이후, VM의 check_snmp 모듈이 에이전트 시스템에 위 데이터를 요청/수집하여(SNMP_GET, SNMP_RESPONSE), DB에 저장한다(Insertr data). 이후, DB에 저장된 데이터들 중 전부 또는 일부(예를 들면, 관리자가 요구한 데이터)가 대시 보드 시스템에 보고된다(select data). 대시 보드 시스템으로 전달된 데이터는 다양한 형태로 관리자에게 보여진다.Then, the check_snmp module of the VM requests / collects the above data to the agent system (SNMP_GET, SNMP_RESPONSE) and stores it in the DB (Insertr data). Thereafter, all or a part of the data stored in the DB (for example, data requested by the administrator) is reported to the dashboard system (select data). The data delivered to the dashboard system is displayed to the administrator in various forms.

도 11의 좌측에는 장비에 발생한 상태 이상(장비 장애)을 처리하는 과정이 도시되어 있다. 도 11에 도시된 바와 같이, 모니터링 객체인 장비에 상태 이상이 감지되면, VM의 DCM은 먼저 이를 분석하고, 해결을 위해 필요한 메시지들을 전달한다.The left side of FIG. 11 shows a process for processing a state abnormality (equipment failure) in the equipment. As shown in FIG. 11, when a status abnormality is detected in a device as a monitoring object, the DCM of the VM first analyzes it and delivers the necessary messages for resolution.

이 과정에서 이용되는 메시지들의 포맷을 도 11의 우측에 나타내었다. 도시된 바와 같이, 상태 이상 제어에 사용되는 메시지에는, Alert 메시지, 핸들 메시지, 제어 메시지 및 체크 메시지가 포함된다.The format of the messages used in this process is shown on the right side of FIG. As shown, the messages used for state anomaly control include an Alert message, a handle message, a control message, and a check message.

메시지들에는 메시지의 유형을 나타내기 위한 "Msg Type"이 맨 앞에 수록된다. "Device Type"은 장비 유형을 나타내는 필드로 CRAC, IT Rack, UPS&PDU 등이 수록된다. "Device ID"는 장비를 특정하기 위해 장비 마다 부여된 ID이다.In the messages, "Msg Type" for indicating the type of message is listed at the front. "Device Type" is a field indicating the type of equipment, such as CRAC, IT Rack, UPS & PDU. "Device ID" is an ID assigned to each device to specify the device.

"Error State"는 장비에 발생한 상태 이상(장애)의 종류를 나타내는 필드이고, "Error Information"은 상태 이상을 처리하기 위해 필요한 추가 데이터로 현재 장비의 구체적인 상태 정보가 수록된다."Error State" is a field indicating the type of state error (failure) occurring in the equipment, and "Error Information" is additional data necessary for processing the state error.

"Handle State"는 상태 이상을 해결 가능 여부를 나타내는 필드이고, "Handle Command"는 상태 이상 해결을 위해 수행할 동작이 수록된 필드이다. "Control Command"는 상태 이상 해결을 위해 장비에 전달하는 명령어가 수록된다."Handle State" is a field indicating whether or not a state error can be solved, and "Handle Command" The "Control Command" contains the commands that are passed to the device for troubleshooting.

도 12에는 상태 이상(장애) 처리 과정을 구체적으로 나타내었고, 메시지 종류 및 전달 경로가 도 13 내지 도 18에 구체화되어 있다. 도 12에서는 특정 IT Rack에 상태 이상(온도 이상)이 발생한 경우를 상정하였다.FIG. 12 specifically shows the processing of a state error (failure), and the message type and the transmission path are specified in FIGS. 13 to 18. FIG. In FIG. 12, it is assumed that a state abnormality (temperature abnormality) occurs in a specific IT rack.

특정 IT Rack의 상태 이상(도 13)을 감지(도 14)한 IT Rack VM(VM #2)의 OCM은 상태 이상에 대해 분석하고 구체적인 상태 정보가 수록된 Alert 메시지를 CRAC VM(VM #0)에 전달한다(도 15).The OCM of the IT Rack VM (VM # 2) detecting the state of the specific IT rack (FIG. 13) (FIG. 13) analyzes the state abnormality and sends an Alert message containing the detailed state information to the CRAC VM (VM # 0) (Fig. 15).

CRAC VM의 OCM은 해결 가능 여부와 해결을 위한 동작(상태 이상 해결이 가능한 경우)이 수록된 Handle 메시지를 IT Rack VM의 OCM에 전송한다(도 16). 그리고, CRAC VM의 OCM은 이상 해결을 위한 제어 메시지를 해당 장비(CRAC #n)에 전송한다(도 17).The OCM of the CRAC VM transmits a Handle message containing the resolvability and the operation for solving (when the status is resolved) to the OCM of the IT Rack VM (FIG. 16). Then, the OCM of the CRAC VM transmits a control message to the corresponding device (CRAC #n) for an error resolution (FIG. 17).

다음, CRAC VM의 OCM은 해당 IT Rack이 정상 상태가 되었는지 확인하기 위한 체크 메시지를 IT Rack VM의 OCM에 전송한다(도 18). 그러면, IT Rack VM의 OCM은 Alert 메시지를 CRAC VM의 OCM에 전송하면서, 장비의 현재 상황을 알린다.Next, the OCM of the CRAC VM transmits a check message to the OCM of the IT Rack VM to check whether the IT Rack is in a normal state (FIG. 18). The OCM in the IT Rack VM then sends an Alert message to the OCM in the CRAC VM, informing the device of its current status.

IT Rack에 온도 이상이 발생하였기 때문에 IT Rack VM의 OCM은 Alert 메시지를 CRAC VM의 OCM에 전송한 것이다. 만약, IT Rack에 전력 이상이 발생한 경우라면 IT Rack VM의 OCM은 Alert 메시지를 UPS&PDU에 전송하여, 상태 이상 처리 절차를 개시하게 된다.Since the IT Rack has experienced a temperature anomaly, the IT Rack VM's OCM has sent an Alert message to the OCM in the CRAC VM. If there is a power failure in the IT Rack, the OCM in the IT Rack VM sends an Alert message to the UPS & PDU to initiate a state anomaly procedure.

또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it is to be understood that the invention is not limited to the disclosed exemplary embodiments, but, on the contrary, It will be understood by those skilled in the art that various changes in form and details may be made therein without departing from the spirit and scope of the present invention.

POD #1 ~ POD #n
대시 보드 시스템
100-0, 100-1, 100-2 : VM(Virtual Machine)
200-0, 200-4, 200-5, 200-6 : CRAC
200-1, 200-7 :UPS&PDU
200-2, 200-3, 200-8, 200-9 : IT Rack
POD # 1 to POD #n
Dashboard system
100-0, 100-1, 100-2: VM (Virtual Machine)
200-0, 200-4, 200-5, 200-6: CRAC
200-1, 200-7: UPS & PDU
200-2, 200-3, 200-8, 200-9: IT Rack

Claims (8)

제1 가상 머신이, POD(Portable Optimized Datacenter)에서 제1 장비를 모니터링하는 단계;
상기 제1 가상 머신이, 제1 장비에 발생한 이상 상태를 제2 가상 머신에 통보하는 단계; 및
상기 제2 가상 머신이, 상기 이상 상태를 해결하기 위해, 상기 POD에서 제2 장비를 제어하는 단계;를 포함하고,
상기 제2 가상 머신은,
상기 제2 장비의 상태를 모니터링하는 가상 머신이며,
상기 제1 가상 머신과 상기 제2 가상 머신은,
독립적으로 운용되고,
다수의 POD들로부터 모니터링 데이터를 수신받는 하나의 대시 보드 시스템과 연동하는 것을 특징으로 하는 이상 상태 처리방법.
The first virtual machine monitoring a first device at a Portable Optimized Datacenter (POD);
The first virtual machine notifying the second virtual machine of an abnormal state occurring in the first equipment; And
And the second virtual machine controlling the second device in the POD to resolve the abnormal state,
Wherein the second virtual machine comprises:
A virtual machine for monitoring the status of the second device,
Wherein the first virtual machine and the second virtual machine,
Operating independently,
And interworking with one dashboard system receiving monitoring data from a plurality of PODs.
제 1항에 있어서,
상기 제2 가상 머신이, 상기 이상 상태에 대한 해결 가능 여부 및 해결을 위한 동작 내용이 수록된 메시지를 상기 제1 가상 머신에 통보하는 단계;를 더 포함하는 것을 특징으로 하는 이상 상태 처리방법.
The method according to claim 1,
Further comprising the step of the second virtual machine notifying the first virtual machine of a message containing the resolvability and the operation content for resolving the abnormal status.
삭제delete 제 1항에 있어서,
상기 제2 가상 머신이, 상기 이상 상태가 해소되었는지 제1 가상 머신에 문의하는 단계; 및
상기 제1 가상 머신이, 상기 제1 장비의 현재 상태를 상기 제2 가상 머신에 통보하는 단계;를 더 포함하는 것을 특징으로 하는 이상 상태 처리방법.
The method according to claim 1,
The second virtual machine inquiring of the first virtual machine whether the abnormal state has been eliminated; And
And the first virtual machine notifies the second virtual machine of the current state of the first equipment.
삭제delete 삭제delete 제 1항에 있어서,
상기 제1 장비는, CRAC, UPS&PDU 및 IT Rack 중 어느 하나이고,
상기 제2 장비는, CRAC, UPS&PDU 및 IT Rack 중 다른 하나인 것을 특징으로 하는 이상 상태 처리방법.
The method according to claim 1,
Wherein the first equipment is one of a CRAC, a UPS & PDU, and an IT rack,
Wherein the second device is one of a CRAC, a UPS & PDU, and an IT rack.
POD(Portable Optimized Datacenter)에서 제1 장비를 모니터링하는 제1 가상 머신; 및
상기 제1 장비에 발생한 이상 상태를 제1 가상 머신으로부터 통보받으면, 상기 이상 상태를 해결하기 위해 제2 장비를 제어하는 제2 가상 머신;을 포함하고,
상기 제2 가상 머신은,
상기 제2 장비의 상태를 모니터링하는 가상 머신이며,
상기 제1 가상 머신과 상기 제2 가상 머신은,
독립적으로 운용되고,
다수의 POD들로부터 모니터링 데이터를 수신받는 하나의 대시 보드 시스템과 연동하는 것을 특징으로 하는 데이터 센터 시스템.
A first virtual machine for monitoring a first device in a POD (Portable Optimized Datacenter); And
And a second virtual machine for controlling the second device to resolve the abnormal state when the first virtual machine is notified of the abnormal state occurring in the first device,
Wherein the second virtual machine comprises:
A virtual machine for monitoring the status of the second device,
Wherein the first virtual machine and the second virtual machine,
Operating independently,
Wherein the data center system interacts with one dashboard system that receives monitoring data from a plurality of PODs.
KR20130116225A 2013-09-30 2013-09-30 Mtehod for Handling Abnormal State of Module Type Data Center Ingra-structure KR101511542B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR20130116225A KR101511542B1 (en) 2013-09-30 2013-09-30 Mtehod for Handling Abnormal State of Module Type Data Center Ingra-structure

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR20130116225A KR101511542B1 (en) 2013-09-30 2013-09-30 Mtehod for Handling Abnormal State of Module Type Data Center Ingra-structure

Publications (2)

Publication Number Publication Date
KR20150038789A KR20150038789A (en) 2015-04-09
KR101511542B1 true KR101511542B1 (en) 2015-04-14

Family

ID=53029279

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20130116225A KR101511542B1 (en) 2013-09-30 2013-09-30 Mtehod for Handling Abnormal State of Module Type Data Center Ingra-structure

Country Status (1)

Country Link
KR (1) KR101511542B1 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090059851A (en) * 2007-12-07 2009-06-11 한국전자통신연구원 System and method for service level management in virtualized server environment
JP2010072733A (en) 2008-09-16 2010-04-02 Nec Corp Server management device, server management method and program
JP2011039889A (en) 2009-08-14 2011-02-24 Kddi Corp Network operation management method and network operation management device

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090059851A (en) * 2007-12-07 2009-06-11 한국전자통신연구원 System and method for service level management in virtualized server environment
JP2010072733A (en) 2008-09-16 2010-04-02 Nec Corp Server management device, server management method and program
JP2011039889A (en) 2009-08-14 2011-02-24 Kddi Corp Network operation management method and network operation management device

Also Published As

Publication number Publication date
KR20150038789A (en) 2015-04-09

Similar Documents

Publication Publication Date Title
US11106388B2 (en) Monitoring storage cluster elements
US8996924B2 (en) Monitoring device, monitoring system and monitoring method
CN107147540A (en) Fault handling method and troubleshooting cluster in highly available system
JP5747615B2 (en) Communication system and communication method
US20030069953A1 (en) Modular server architecture with high-availability management capability
US20030158933A1 (en) Failover clustering based on input/output processors
US20150221109A1 (en) Integrated infrastructure graphs
US10868581B2 (en) Data center management using device identification over power-line
CN104798349A (en) Failover in response to failure of a port
CN110488701A (en) The High Availabitity heat backup method of network and FlexRay bus based on production domesticization processor
CN106980529B (en) Computer system for managing resources of baseboard management controller
CN112035319B (en) Monitoring alarm system for multipath state
CN103490914A (en) Switching system and switching method for multi-machine hot standby of network application equipment
CA2616229A1 (en) Redundant systems management frameworks for network environments
US20160191359A1 (en) Reactive diagnostics in storage area networks
JP2013130901A (en) Monitoring server and network device recovery system using the same
CN104796283A (en) Monitoring alarm method
JP5625605B2 (en) OS operation state confirmation system, device to be confirmed, OS operation state confirmation device, OS operation state confirmation method, and program
KR101505491B1 (en) Module Type Data Center based on POD and Monitoring Mtehod thereof
CN117453036A (en) Method, system and device for adjusting power consumption of equipment in server
WO2016104829A1 (en) Modular data center system and method for managing equipment thereof
KR101511542B1 (en) Mtehod for Handling Abnormal State of Module Type Data Center Ingra-structure
US7475076B1 (en) Method and apparatus for providing remote alert reporting for managed resources
CN114124803B (en) Device management method and device, electronic device and storage medium
JP4621694B2 (en) Monitoring device and monitoring method

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
FPAY Annual fee payment

Payment date: 20180406

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20190313

Year of fee payment: 5