KR20050071975A - 자동화 재해 복구 시스템 및 그 방법 - Google Patents

자동화 재해 복구 시스템 및 그 방법 Download PDF

Info

Publication number
KR20050071975A
KR20050071975A KR1020040000391A KR20040000391A KR20050071975A KR 20050071975 A KR20050071975 A KR 20050071975A KR 1020040000391 A KR1020040000391 A KR 1020040000391A KR 20040000391 A KR20040000391 A KR 20040000391A KR 20050071975 A KR20050071975 A KR 20050071975A
Authority
KR
South Korea
Prior art keywords
center
disaster
server
disaster recovery
automated
Prior art date
Application number
KR1020040000391A
Other languages
English (en)
Other versions
KR100566610B1 (ko
Inventor
이성철
Original Assignee
주식회사 엘지씨엔에스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 엘지씨엔에스 filed Critical 주식회사 엘지씨엔에스
Priority to KR1020040000391A priority Critical patent/KR100566610B1/ko
Publication of KR20050071975A publication Critical patent/KR20050071975A/ko
Application granted granted Critical
Publication of KR100566610B1 publication Critical patent/KR100566610B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2033Failover techniques switching over of hardware resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2097Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements maintaining the standby controller/processing unit updated
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/86Event-based monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/865Monitoring of software

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명에 의한 자동화 재해 복구 시스템은, 동일한 장치들이 포함되어 구성된 운영센터 및 백업센터와; 상기 운영센터와 백업센터 간의 상호 모니터링 체계를 구축하기 위해 각 센터에 구비된 SMS/NMS(Server Management System/Network Management System)를 활용한 자동화 재해 복구 장치 및 마스터 콘솔이 포함되며,
상기 자동화 재해 복구 장치 및 마스터 콘솔에 의해 상기 운영센터 및 백업센터에 대한 지속적인 모니터링을 함으로써, 일측 센터에 재해 또는 장애 발생시 이를 자동적으로 복구하는 것을 특징으로 한다.
본 발명에 의하면, 재해/ 장애의 이상 징후를 사전에 감지하여 실제 상황 발생 이전에 재해 경고를 운영자에게 통보하여 재해 선포 의사 결정과정에 착수 시점을 앞당길 수 있으며, 재해 선포의사 결정 후, 자동화 시스템에 의해 재해 복구 센터에서 서비스를 신속하게 재개할 수 있다.

Description

자동화 재해 복구 시스템 및 그 방법{automatic disaster recovery system and recovery method thereof}
본 발명은 재해 복구 시스템에 관한 것으로, 자동화된 기법으로 재해상황을 사전에 감지한 뒤 재해 복구 프로세스를 자동으로 가동하여 재해 상황에서 재해 복구시간을 혁신적으로 단축토록 하는 자동화 재해 복구 시스템 및 그 방법에 관한 것이다.
통상적으로 재해복구시스템은 두 형태의 고장, 즉 특정 시점에 갑작스러운 재해적 고장 또는 일정 기간에 걸쳐 발생되는 데이터 손실을 극복하기 위해 존재한다.
점진적인 재해인 후자 형태에서는, 볼륨의 갱신이 손실 될 수도 있으며, 데이터 갱신의 복구를 보조하기 위해, 데이터의 사본을 원격 기억장소(remote location)에 제공한다. 즉, 재해복구센터의 구축은 BCP(Business Continuous Plan)를 토대로 운영센터와 동일 기능을 수행할 수 있는 시스템을 지리적으로 분리된 위치에 구축하여 운영센터의 재해상황에서 원격지에 위치한 재해복구센터를 통하여 서비스를 재개토록 하고 있다.
종래의 재해 복구 기술은 동기식 또는 비동기식 방식에 의한 데이터 동기화 기술을 통하여 RPO(Recovery Point Objective) 즉, 완전 복구되는 데이터의 최종 시점을 0으로 하는 목표는 달성하고 있으나, 재해 상황의 인식 및 재해 복구 프로세스가 수행되는 것이 시스템 운영자의 수작업에 의존하고 있고, 별도의 재해복구를 지원해주는 솔루션 자체가 없어 재해 발생시점부터 재해 복구센터에서 복구되어 서비스가 재개되는 시간까지의 기간을 일컫는 RTO(Recovery Time Objective)가 수 시간 정도 소요되는 것이 일반적이다.
이와 같은 종래의 재해 복구 시스템은 재해 발생 이후, 재해 인식 및 재해 선포까지 시간과 재해 선포 이후 재해 복구 센터의 시스템을 기동하는 절차에 있어서 시스템 가동, 네트워크 절체, 네트워크 장비 및 서버 환경 설정, 데이터 검증, 어플리케이션 구동 및 오픈의 각 복구 단계에서 운영자의 수작업에 의존하고 있는 것이 현실이다.
그러나, 상기와 같이 운영자의 수작업에 의해 재해 복구 프로세스가 진행되는 경우 재해 상황 발생부터 재해 인식, 그리고 재해 선포까지 자동화 체계가 없으므로 이 과정에서 즉각적인 대응이 어렵다는 문제가 있다.
또한, 재해 선포 후 재해 복구 시스템의 서비스 재개 과정에서 서버 및 각종 하드웨어 장비의 가동, IP 세팅 변경 등의 서버 환경 설정 작업, DBMS(Database Management System), 웹 서버 등 각종 상용 S/W의 구동 및 응용 어플리케이션 구동 등의 작업들이 모두 수작업에 의존해야 하므로 복구 시간이 지연된다는 문제가 있다.
또한, 재해 인식부터 재해 복구까지의 전 단계에서 운영자의 수작업에 의존하고 있으므로 단계 진행 중에 운영자의 실수가 발생될 소지가 있으며, 이 경우 재해 복구 여부 및 복구 시간이 지연되어 신속한 복구가 불가능할 수 있다는 문제점이 있다.
본 발명은 재해 발생시 재해상황 사전 감지 및 보고, 재해 선포 후 프로세스 기동을 자동화된 프로세스에 의해 수행하여 시스템의 내부를 복구하고, 복구 대상 시스템이 타 시스템과 연계 구성된 경우 연계 작업이 운영센터와 재해 복구 센터 간의 실시간 전환 및 복귀 가능토록 하며, 재해 상황에서 재해 복구 센터로 서비스를 이관할 경우 사용자들의 시스템 접속이 자동적으로 재해 복구 센터로 유도되도록 함으로써, 재해 복구 시간을 혁신적으로 단축시킬 수 있도록 하여 시스템의 내부와 외부의 복구를 포함하는 시스템 전반에 걸친 총체적인 자동화 재해 복구 시스템 및 그 방법을 제공함에 그 목적이 있다.
상기 목적을 달성하기 위하여 본 발명에 의한 자동화 재해 복구 시스템은, 동일한 장치들이 포함되어 구성된 운영센터 및 백업센터와 상기 운영센터와 백업센터 간의 상호 모니터링 체계를 구축하기 위해 각 센터에 구비된 SMS/NMS(Server Management System/Network Management System)를 활용한 자동화 재해 복구 장치 및 마스터 콘솔이 포함되며,
상기 자동화 재해 복구 장치 및 마스터 콘솔에 의해 상기 운영센터 및 백업센터에 대한 지속적인 모니터링을 함으로써, 일측 센터에 재해 또는 장애 발생시 이를 자동적으로 복구하는 것을 특징으로 한다.
여기서, 상기 재해 또는 장애 발생시 이를 자동적으로 복구하는 것은, 상기 재해가 발생된 일측 센터의 서비스가 중지되고, 그에 따라 타측 센터에서 상기 서비스를 제공함에 의함을 특징으로 한다.
또한, 상기 운영센터 및 백업센터에는 각각 다수의 DB서버 및 웹응용 서버, 중계서버와 백본 라우터, 소형 라우터, 백본 스위치, L4 스위치와; RA서버, 송수신 엔진 서버, 웹서버, 연계(TPN) 서버가 구비되어 있다.
또한, 상기 운영센터 및 백업센터에 연계된 연계 기관이 더 포함되고,
상기 연계기관은 EAI(Enterprise Application Integration) 에이전트(agent) 서버를 구비하며, 이는 상기 운영센터 및 백업센터의 연계(TPN) 서버의 상태를 모니터링하면서, 재해/장애 발생시 실시간으로 서비스 가능한 센터로 연계작업을 선회하여 서비스를 지속적으로 수행하도록 함을 특징으로 한다.또한, 상기 운영센터 및 백업센터에 각각 3DNS가 구비되며,
상기 두 장비(3DNS)간의 통신은 양 센터를 연결하고 있는 DWDM 광코어 라인을 통하여 이루어지는 것을 특징으로 한다.
또한, 본 발명에 의한 자동화 재해 복구 방법은, 운영센터 및 백업센터의 하드웨어 네트워크 및 상용 소프트웨어의 프로세스를 모니터링 하면서 일측 센터에 소정의 재해 징후를 나타내는 조건을 만족하는 상황이 발생할 경우, 이를 재해 징후로 판단하는 단계와 상기 재해 징후를 관리자에게 통보하고 재해 판단 시 자동적으로 재해가 선포되는 단계와 상기 재해가 발생된 일측 센터 환경에서의 서비스가 모두 중지되며, 각 서비스 중지 프로세스는 동시에 수행되는 단계와 상기 일측 센터의 서비스 중지 프로세스가 완료되면 즉시, 타측 센터의 자동 기동 프로세스가 시작되는 단계와 상기 타측 센터의 자동 기동 프로세스가 완료되면 상기 기동 결과를 전달하게 단계와 자동 재해 복구가 완료되며, 일측 센터에서 제공하는 서비스가 타측 센터에서 재개되는 단계가 포함되는 것을 특징으로 한다.
또한, 상기 소정의 재해 징후를 나타내는 조건은 운영자의 선택에 의해 변경될 수 있으며, 상기 소정의 재해 징후를 나타내는 조건은, 일측 센터의 3종류 DB서버 또는 DBMS(Database Management System) 중 2종류 이상 또는 4식 이상 장애가 발생한 경우, 일측 센터의 웹서버 레이어, 웹응용서버 레이어, DB서버 레이어, 연계서버 레이어 등의 레이어(layer) 중 2개 이상의 레이어에서 하드웨어 또는 소프트웨어에 장애가 발생한 경우 등임을 특징으로 한다.
또한, 상기 재해 징후가 관리자에게 통보되면, 센터 전환에 대한 의사를 결정하는 화면이 표시되며, 상기 센터 전환이 결정되면 관리자의 패스 워드 검증 절차를 거쳐 전환 프로세스가 수행되는 단계가 더 포함된다.
또한, 상기 일측 센터의 서비스가 모두 중지되는 단계에서 해당 서버 또는 프로세스에 접근이 불가능할 경우 해당 서버에 이미 장애가 발생한 것이므로, 바이패스(bypass)하고 계속 중지 프로세스를 진행하는 것을 특징으로 한다.
본 발명은 자동화된 기법으로 재해상황을 사전에 감지한 뒤 재해 복구 프로세스를 자동으로 가동하여 재해 상황에서 재해 복구시간을 최대한 단축토록 하는 것으로, 완전한 재해 복구를 위해 운영시스템 내부의 복구 뿐 아니라 운영시스템 외부의 복구를 포함하는 시스템 및 그 방법에 관한 것이다.
여기서, 상기 운영 시스템 내부의 복구는 SMS/NMS의 기능을 활용한 자동화 재해 복구 솔루션에 의하며, 이는 재해 상황 사전감지 및 보고, 재해 선포 후 프로세스 기동을 자동화된 프로세스에 의해 재해 복구 작업을 수행하는 재해 복구 솔루션을 의미한다.
또한, 상기 운영 시스템 외부의 복구는 EAI 재해 복구 솔루션 및 확장 DNS 구성으로 실현되는 것으로, 상기 EAI 재해 복구 솔루션은 복구 대상 시스템이 타 시스템들과 EAI 방식에 의한 연계 아키텍처로 구성된 시스템일 경우, 연계 작업이 운영센터와 재해 복구 센터 간의 실시간 전환 및 복구가 가능토록 하는 재해 복구 솔루션이며, 상기 확장 DNS 구성은 재해 상황에서 재해 복구 센터로 서비스를 이관할 경우, 사용자들의 시스템 접속이 자동적으로 재해 복구 센터로 유도되도록 하는 아키텍처 설계를 의미한다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 실시 예를 상세히 설명하도록 한다.
도 1은 본 발명에 의한 자동화 재해 복구 시스템이 포함된 운영센터 및 재해 복구 센터의 구성도이다.
도 1을 참조하면, 운영센터(100) 및 재해 복구 센터(즉, 백업센터)(120)는 도시된 바와 같이 동일한 구성요소들로 이루어져 있다.
이는 운영센터(100) 또는 백업센터(120)에 재해가 발생한 경우 상대측의 동작을 대신 수행할 수 있도록 하기 위함이며, 상기 운영센터(100) 및 백업센터(120)에는 각각 DB서버a, b, c 및 웹응용 서버, 중계서버와, 백본 라우터, 소형 라우터, 백본 스위치, L4 스위치와, RA서버, 송수신 엔진 서버, 웹서버, 연계(TPN) 서버가 구비되어 있다.
본 발명은 이와 같은 상기 운영센터(100) 및 백업센터(120)에 각각 자동화 재해 복구를 위한 SMS/NMS(Server Management System/Network Management System)을 활용한 자동화 재해 복구 장치(112) 및 마스터 콘솔(Master Console)(114)가 포함되어 있음을 그 특징으로 한다.
이는 상기 백업센터(120)와 운영센터(100)의 자원에 대한 모니터링을 수행하여 양 센터간의 상호 모니터링 체계를 구축한다.
이와 같이 SMS/NMS을 활용한 자동화 재해 복구 장치(112) 및 마스터 콘솔(Master Console)(114)에 의해 상기 운영센터(100) 및 백업센터(120)에 대한 지속적인 모니터링을 함으로써, 특정 센터에 재해 발생시 이를 자동적으로 복구할 수 있게 되는 것이다.
도 2는 도 1의 자동화 재해 복구 시스템의 동작을 개략적으로 설명하기 위한 도면이고, 도 3은 자동화 재해 복구 시스템의 동작을 나타내는 순서도이다.
도면을 참조하면, 운영센터(100) 및 백업센터(120)에 적용되는 본 발명에 의한 마스터 콘솔(114)은 상기 백업센터(120)와 운영센터(100)의 자원에 대한 모니터링을 수행하여 양 센터간의 상호 모니터링 체계를 구축한다.
상기 SMS/NMS 마스터 콘솔(114)은 양 센터의 하드웨어 네트워크 및 상용 소프트웨어의 프로세스를 모니터링 하면서 소정의 재해 징후를 나타내는 조건을 만족하는 상황이 발생할 경우, 이를 재해 징후로 판단하여 재해 경고를 자동화 재해 복구 장치(112)의 관리 화면에 디스플레이하여 시스템 관리자에게 통보한다.
이 때, 상기 소정의 조건이라 함은 운영자의 선택에 의해 변경될 수 있는 것이며, 예를 들면 운영센터의 3종류 DB서버 또는 DBMS(Database Management System) 중 2종류 이상 또는 4식 이상 장애가 발생한 경우, 운영센터의 웹서버 레이어, 웹응용서버 레이어, DB서버 레이어, 연계서버 레이어 등의 레이어(layer) 중 2개 이상의 레이어에서 하드웨어 또는 소프트웨어에 장애가 발생한 경우 등을 들 수 있다.
즉, 도시된 바와 같이 운영센터(100)의 서버군에 상기 소정 조건에 해당하는 재해가 발생한 경우(재해 상황 이벤트 발생), 이는 상기 SMS/NMS의 상호 모니터링에 의해 감지되어 백업센터(120)의 SMS/NMS에 상기 재해 상황이 통보되고, 상기 백업센터(120)의 SMS/NMS 자동화 재해 복구 장치(112)의 관리 화면에 디스플레이되어 시스템 관리자에게 통보되는 것이다. (ST 10)
이에 상기 백업센터(120)의 SMS/NMS 자동화 재해 복구 장치(112)은, 상기 상황을 확인 한 뒤 이를 재해 징후로 판단하여 재해 선포 의사 결정화면을 디스플레이하며, 이를 통하여 시스템 관리자는 현재의 상황을 판단하여 재해를 선포할 것인지에 대한 의사 결정을 하게 되고, 재해에 해당하는 상황이라고 판단되었을 경우, 재해 선포를 하게 된다. (ST 20) 즉, 재해선포는 시스템 담당자의 의사판단에 의해 수행되어진다.
상기와 같은 재해 또는 장애에 대한 경고가 시스템 관리자에게 통보되면 센터 전환에 대한 의사를 결정하는 화면을 표시한 뒤 전환이 결정되면 관리자의 패스 워드 검증 절차를 거쳐 전환 프로세스가 시작된다.
상기 센터의 전환은 자동화 재해 복구 장치(112)에 의해 각 소프트웨어 별로 제공되는 Startup Script와 Shutdown Script를 호출함으로써, 자동화된 프로세스의 종료 및 기동을 수행하게 된다.
즉, 운영센터(100) 환경에서의 서비스(운영센터의 서버군에서 실시하는 서비스)를 모두 중지시키며, 이 때, 각 서비스 중지 프로세스는 동시에 수행된다. (ST 30)
단, 서비스 중지 단계에서 해당 서버 또는 프로세스에 접근이 불가능할 경우 해당 서버에 이미 장애가 발생한 것이므로, bypass하고 계속 중지 프로세스를 진행한다.
운영센터(100)의 서비스 중지 프로세스가 완료되면 즉시, 백업센터(120)의 자동 기동 프로세스가 시작된다. (ST 40)
이는 백업센터(120)의 전체 자원의 상태(Active, Standby, Shutdown)를 표시하는 화면을 디스플레이하고, 그 이후 자동 기동 프로세스의 진행 상태에 따라 각 자원의 상태 표시를 변경한다.
이 때, 각 단계의 진행 시 반드시 해당 단계 관리자 화면에 디스플레이하여 이후 단계의 진행 여부를 묻는 대화형 방식에 의해 단계적으로 실행되며, 관리자의 액션(버튼 클릭)에 의해 작업이 순차적으로 진행된다.
백업센터(120)의 자동 기동 프로세스가 완료되면 상기 기동 결과를 전달하게 되는데, 이는 적절한 메시지를 관리 화면에 디스플레이하고, 각 상용 소프트웨어의 기동 스트립트 로그를 확인하여, 해당 서비스가 정상적으로 기동 되었을 때, 해당 자원의 상태를 Shutdown에서 Active로 변경하여 표시함에 의한다. (ST 50)
모든 자원의 상태가 Active가 되면 복구완료 메시지를 관리자 화면에 디스플레이된다.
상기 프로세스는 운영센터(100)가 부분 장애 시에도 장애가 발생된 부분에 대해서는 동일하게 진행되며, 이와 같은 프로세스에 의해 자동 재해 복구가 완료되며, 백업센터(120)에 의해 상기 운영센터(100)의 서비스가 재개된다. (ST 60)
상기와 같은 운영센터(100) 및 백업센터(120)는 각각 다수의 시스템과 연계되어 있을 수 있으며, 그에 따라 상기 각 센터에 재해/ 장애가 발생된 경우 재해가 발생된 센터에 연계된 시스템에도 상기 재해/장애에 따른 영향이 미치게 될 수 있는 것이다.
본 발명은 이와 같은 문제점을 극복하기 위한 구성 및 동작을 갖추고 있으며, 이는 이하 도 4를 통해 설명하도록 한다.
도 4는 본 발명에 의한 EAI(Enterprise Application Integration) 시스템에 의해 자동 재해 복구되는 운영센터 및 재해 복구 센터의 구성도이다.
도 4를 참조하면, 상기 운영센터(400) 및 재해 복구 센터(즉, 백업센터)(420)는 앞서 도 1에서 설명한 바와 같이 동일한 구성요소들로 이루어져 있음을 알 수 있다.
이는 운영센터(400) 또는 백업센터(420)에 재해가 발생한 경우 상대측의 동작을 대신 수행할 수 있도록 하기 위함이며, 상기 운영센터(400) 및 백업센터(420)에는 각각 DB서버a, b, c 및 웹응용 서버, 중계서버와, 백본 라우터, 소형 라우터, 백본 스위치, L4 스위치와, RA서버, 송수신 엔진 서버, 웹서버, 연계(TPN) 서버가 구비되어 있다.
또한, 상기 운영센터(400) 및 백업센터(420)에 연계된 연계 기관(440)이 있으며, 상기 연계기관의 EAI(Enterprise Application Integration) 에이전트(agent) 서버(442)는 상기 운영센터(400) 및 백업센터(420)의 연계(TPN) 서버(404, 424)의 상태를 모니터링하면서, 재해/장애 발생시 실시간으로 서비스 가능한 센터(운영센터에 재해 발생시 백업센터)로 연계작업을 선회하여 서비스를 지속적으로 수행하도록 한다.
이 때, EAI(Enterprise Application Integration) 시스템은 다수의 시스템간의 연계를 목적으로 하는 통합 솔루션을 의미하는 것이다.
일 례로 도시된 바와 같이 운영센터(400)에 재해가 발생되면 백업센터(420)가 운영센터(400)에서 처리되던 모든 문서의 송수신 역할을 담당하며, 추가로 백업센터(420)는 기존의 운영센터(400) DBMS의 Connection이 의미가 없어지므로 비상 Database로의 Connection의 전환이 이루어진다.
또한, 운영센터(400) 연계 그룹 기관에서 운영센터로 송신한 문서를 백업센터(420)가 대신하여 수신하고, 운영센터(400)에서 운영센터 연계 그룹 기관으로 송신하는 문서를 백업센터(420)에서 대신하여 송신한다.
또한, 백업센터 송수신 엔진 서버(422)가 백업센터 Database와 연결되고, 백업센터 송수신 엔진 서버(424)의 Partner 정보를 백업센터(420) 시스템용 Partner 설정파일로 변경하며, 백업센터 HUB 정보가 비상용 EAI 설정파일로 변경한다.
운영센터(400)에 재해/ 장애가 발생된 경우 상기 운영센터(400)에 연계된 시스템에도 상기 재해/장애에 따른 영향이 미치게 되는데, 이는 상기 EAI 시스템의 솔루션을 통해 극복할 수 있다. 즉, 백업센터(420)가 자체 복구를 마치고 서비스를 재개하는 즉시, 연계 기관의 연계시스템은 별도의 추가 작업 없이 상기 백업센터(420)로 접속하여 연계 서비스를 수행토록 하는 것이다.
상기 운영센터(400)와 백업센터(420)는 EAI시스템의 의해 상호 대행 수행기능이 가능하므로, 각 연계 기관은 운영센터(400) 혹은 백업센터(420)로 문서를 송신할 때 운영센터(400) 혹은 백업센터(420)가 재해/장애 시에는 정상 가동중인 센터가 전담하여 연계를 수행하게 된다.
이는 연계 기관 Agent 서버(442)가 EAI 설정파일에 기록된 두 개의 URL(자신의 속한 그룹의 연계서버 URL을 Primary URL, 다른 그룹의 연계서버 URL을 Secondary URL)을 읽어와 Primary URL의 Network 상태를 일정한 주기로 체크 하고, Network 장애가 발생되면 메모리상의 Primary URL과 Secondary URL의 정보를 서로 바꾸어 주고, Network 장애가 발생하지 않는다면 설정파일 상태로 메모리상의 Primary URL과 Secondary URL을 수정하며, 송신 컴포넌트는 메모리상의 Primary URL과 Secondary URL을 읽어와 먼저 Primary URL로 송신을 하고, Network 장애가 발생하면 Secondary URL로 송신 함으로써 가능해지는 것이다.도 5는 본 발명에 의한 3DNS(Domain Name Server) 시스템에 의해 자동 재해 복구되는 운영센터 및 재해 복구 센터의 구성도이다.
도 5를 참조하면, 상기 운영센터(500) 및 재해 복구 센터(즉, 백업센터)(520)는 앞서 도 1에서 설명한 바와 같이 동일한 구성요소들로 이루어져 있음을 알 수 있다.
DNS(Domain Name Server)는 사이트의 도메인 네임에 해당하는 사이트의 IP 어드레스를 유지하고, 제공하는 솔루션을 말하며, 상기 3DNS는 기존 DNS의 기능에 부하분산(Load Balancing), 웹 서버 등의 자원에 대한 Health 체크 및 장애극복(Fail over) 기능을 추가적으로 지원하는 것이며, 재해복구 시스템의 구성에 상기 3DNS를 추가함으로써, 사용자의 접속환경에 대한 재해/ 장애 극복시간을 단축시킬 수 있게 된다.
도 5에 도시된 바와 같이 3DNS(502, 522)를 운영센터(500)와 백업센터(522)에 모두 설치하고, 두 장비간의 통신은 양 센터를 연결하고 있는 DWDM 광코어 라인(530)을 통하여 이루어지며, 운영센터(500)의 3DNS(502)를 Primary로, 백업센터(520)의 3DNS(522)를 Secondary로 구성한다.
이와 같은 3DNS의 기능을 설명하면, 먼저 부하 분산 기능으로 이는 3DNS 2대에 대하여 사용자의 Naming Service요청 시 부하분산을 수행하여 3DNS자체에 대한 부하를 분산시키는 기능을 한다.
다음은 실시간 장애극복 기능으로 3DNS의 Primary와 Secondary 2대가 서로간의 Health Check를 수행하며, Primary 3DNS 또는 웹서버 레이어의 장애발생 시, Secondary 3DNS가 서비스를 지속적으로 수행하는 기능이다.
또한, 3DNS는 웹 서버 및 웹 서버 부하분산에 직접적으로 관여하는 L4스위치에 대한 Health Check를 수행하여, 장애상황의 인식에 대한 정확도를 3DNS자체에서 관련 자원으로 확대하여 향상시키고, 이에 대한 장애 극복 기능을 수행한다.
도 6a 및 도 6b는 본 발명에 의한 재해 복구의 경우 소요되는 시간을 설명하기 위한 도면이다.
여기서, 도 6a는 종래의 재해 복구에 소요되는 시간을 설명하는 도면으로 이를 참조하면, 재해 상황의 인식 및 재해 복구 프로세스가 수행되는 것이 시스템 운영자의 수작업에 의존하고 있고, 별도의 재해복구를 지원해주는 솔루션 자체가 없어, 재해 발생시점부터 재해 복구센터에서 복구되어 서비스가 재개되는 시간까지의 기간인 RTO(Recovery Time Objective)가 수 시간 정도 소요됨을 알 수 있다.
이에 반해 도 6b에 도시된 바와 같이 본 발명에 의해 자동 재해 복구하는 경우는, 앞서 도 1내지 도 5를 통해 설명한 자동화 재해 복구 시스템에 의해 자동화 구현 작업이 이루어지기 때문에, 상기 재해 발생시점부터 재해 복구센터에서 복구되어 서비스가 재개되는 시간까지의 기간인 RTO(Recovery Time Objective)가 30분 이내로 단축될 수 있게 되는 것이다.
본 발명에 의한 자동화 재해 복구 시스템 및 그 방법에 의하면, 재해/ 장애의 이상 징후를 사전에 감지하여 실제 상황 발생 이전에 재해 경고를 운영자에게 통보하여 재해 선포 의사 결정과정에 착수 시점을 앞당길 수 있으며, 재해 선포의사 결정 후, 자동화 시스템에 의해 재해 복구 센터에서 서비스를 신속하게 재개할 수 있는 장점이 있다.
도 1은 본 발명에 의한 자동화 재해 복구 시스템이 포함된 운영센터 및 재해 복구 센터의 구성도.
도 2는 도 1의 자동화 재해 복구 시스템의 동작을 개략적으로 설명하기 위한 도면.
도 3은 자동화 재해 복구 시스템의 동작을 나타내는 순서도.
도 4는 본 발명에 의한 EAI(Enterprise Application Integration) 시스템에 의해 자동 재해 복구되는 운영센터 및 재해 복구 센터의 구성도.도 5는 본 발명에 의한 3DNS(Domain Name Server) 시스템에 의해 자동 재해 복구되는 운영센터 및 재해 복구 센터의 구성도.
도 6a 및 도 6b는 본 발명에 의한 재해 복구의 경우 소요되는 시간을 설명하기 위한 도면.
<도면의 주요 부분에 대한 부호의 설명>
100, 400, 500 : 운영센터 120, 420, 520 : 백업센터
112 : 자동화 재해 복구 장치 114 : 마스터 콘솔
440 : 연계기관 442 : EAI 에이전트 서버
502, 522 : 3DNS

Claims (10)

  1. 동일한 장치들이 포함되어 구성된 운영센터 및 백업센터와,
    상기 운영센터와 백업센터 간의 상호 모니터링 체계를 구축하기 위해 각 센터에 구비된 SMS/NMS(Server Management System/Network Management System)을 활용한 자동화 재해 복구 장치 및 마스터 콘솔이 포함되며,
    상기 자동화 재해 복구 장치 및 마스터 콘솔에 의해 상기 운영센터 및 백업센터에 대한 지속적인 모니터링을 함으로써, 일측 센터에 재해 또는 장애 발생시 이를 자동적으로 복구하는 것을 특징으로 하는 자동화 재해 복구 시스템.
  2. 제 1항에 있어서,
    상기 재해 또는 장애 발생시 이를 자동적으로 복구하는 것은, 상기 재해가 발생된 일측 센터의 서비스가 중지되고, 그에 따라 타측 센터에서 상기 서비스를 제공함에 의함을 특징으로 하는 자동화 재해 복구 시스템.
  3. 제 1항에 있어서,
    상기 운영센터 및 백업센터에는 각각 다수의 DB서버 및 웹응용 서버, 중계서버와;
    백본 라우터, 소형 라우터, 백본 스위치, L4 스위치와;
    RA서버, 송수신 엔진 서버, 웹서버, 연계(TPN) 서버가 구비되어 있음을 특징으로 하는 자동화 재해 복구 시스템.
  4. 제 1항에 있어서,
    상기 운영센터 및 백업센터에 연계된 연계 기관이 더 포함되고,
    상기 연계기관은 EAI(Enterprise Application Intergration) 에이전트(agent) 서버를 구비하며, 이는 상기 운영센터 및 백업센터의 연계(TPN) 서버의 상태를 모니터링하면서, 재해/장애 발생시 실시간으로 서비스 가능한 센터로 연계작업을 선회하여 서비스를 지속적으로 수행하도록 함을 특징으로 하는 자동화 재해 복구 시스템.
  5. 제 1항에 있어서,
    상기 운영센터 및 백업센터에 각각 3DNS가 구비되며,
    상기 두 장비(3DNS)간의 통신은 양 센터를 연결하고 있는 DWDM 광코어 라인을 통하여 이루어지는 것을 특징으로 하는 자동화 재해 복구 시스템.
  6. 운영센터 및 백업센터의 하드웨어 네트워크 및 상용 소프트웨어의 프로세스를 모니터링 하면서 일측 센터에 소정의 재해 징후를 나타내는 조건을 만족하는 상황이 발생할 경우, 이를 재해 징후로 판단하는 단계와,
    상기 재해 징후를 관리자에게 통보하고 재해 판단시 자동적으로 재해가 선포되는 단계와,
    상기 재해가 발생된 일측 센터 환경에서의 서비스가 모두 중지되며, 각 서비스 중지 프로세스는 동시에 수행되는 단계와,
    상기 일측 센터의 서비스 중지 프로세스가 완료되면 즉시, 타측 센터의 자동 기동 프로세스가 시작되는 단계와,
    상기 타측 센터의 자동 기동 프로세스가 완료되면 상기 기동 결과를 전달하게 단계와,
    자동 재해 복구가 완료되며, 일측 센터에서 제공하는 서비스가 타측 센터에서 재개되는 단계가 포함되는 것을 특징으로 하는 자동화 재해 복구 방법.
  7. 제 6항에 있어서,
    상기 소정의 재해 징후를 나타내는 조건은 운영자의 선택에 의해 변경될 수 있는 것임을 특징으로 하는 자동화 재해 복구 방법.
  8. 제 6항에 있어서,
    상기 소정의 재해 징후를 나타내는 조건은, 일측 센터의 3종류 DB서버 또는 DBMS(Database Management System) 중 2종류 이상 또는 4식 이상 장애가 발생한 경우, 일측 센터의 웹서버 레이어, 웹응용서버 레이어, DB서버 레이어, 연계서버 레이어 등의 레이어(layer) 중 2개 이상의 레이어에서 하드웨어 또는 소프트웨어에 장애가 발생한 경우임을 특징으로 하는 자동화 재해 복구 방법.
  9. 제 6항에 있어서,
    상기 재해 징후가 관리자에게 통보되면, 센터 전환에 대한 의사를 결정하는 화면이 표시되며, 상기 센터 전환이 결정되면 관리자의 패스 워드 검증 절차를 거쳐 전환 프로세스가 수행되는 단계가 더 포함됨을 특징으로 하는 자동화 재해 복구 방법.
  10. 제 6항에 있어서,
    상기 일측 센터의 서비스가 모두 중지되는 단계에서 해당 서버 또는 프로세스에 접근이 불가능할 경우 해당 서버에 이미 장애가 발생한 것이므로, 바이패스(bypass)하고 계속 중지 프로세스를 진행하는 것을 특징으로 하는 자동화 재해 복구 방법.
KR1020040000391A 2004-01-05 2004-01-05 자동화 재해 복구 시스템 및 그 방법 KR100566610B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020040000391A KR100566610B1 (ko) 2004-01-05 2004-01-05 자동화 재해 복구 시스템 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020040000391A KR100566610B1 (ko) 2004-01-05 2004-01-05 자동화 재해 복구 시스템 및 그 방법

Publications (2)

Publication Number Publication Date
KR20050071975A true KR20050071975A (ko) 2005-07-08
KR100566610B1 KR100566610B1 (ko) 2006-03-31

Family

ID=37261594

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020040000391A KR100566610B1 (ko) 2004-01-05 2004-01-05 자동화 재해 복구 시스템 및 그 방법

Country Status (1)

Country Link
KR (1) KR100566610B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190069921A (ko) * 2017-12-12 2019-06-20 현대일렉트릭앤에너지시스템(주) 선박 상황 감시시스템
CN114090333A (zh) * 2021-10-20 2022-02-25 中核核电运行管理有限公司 一种生产管理平台容灾切换管理系统及方法
WO2022131447A1 (ko) * 2020-12-14 2022-06-23 울랄라랩 주식회사 공정라인변경이 가능한 공정관리방법 및 스마트공정 시스템

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102322121B1 (ko) * 2015-06-04 2021-11-05 주식회사 메이엔 재해복구 자동화 시스템 및 방법

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190069921A (ko) * 2017-12-12 2019-06-20 현대일렉트릭앤에너지시스템(주) 선박 상황 감시시스템
WO2022131447A1 (ko) * 2020-12-14 2022-06-23 울랄라랩 주식회사 공정라인변경이 가능한 공정관리방법 및 스마트공정 시스템
US11870843B2 (en) 2020-12-14 2024-01-09 Ulala Lab, Inc Process-line-changeable process management method, and smart process system
CN114090333A (zh) * 2021-10-20 2022-02-25 中核核电运行管理有限公司 一种生产管理平台容灾切换管理系统及方法

Also Published As

Publication number Publication date
KR100566610B1 (ko) 2006-03-31

Similar Documents

Publication Publication Date Title
EP1851632B1 (en) Disaster recovery framework
US20080301489A1 (en) Multi-agent hot-standby system and failover method for the same
CN102291262B (zh) 一种容灾的方法、装置及系统
EP2774323B1 (en) Method, communication system and non-transitory computer readable medium for optimizing network performance after a temporary loss of connection
JP4592511B2 (ja) Ipネットワークサーバのバックアップシステム
KR100566610B1 (ko) 자동화 재해 복구 시스템 및 그 방법
CN111953808A (zh) 一种双机双活架构的数据传输切换方法及架构构建系统
US7921338B2 (en) System and method for remote network management over unreliable and/or low-bandwidth communications links
JP2000324121A (ja) ネットワーク管理システムにおける系切り替え装置および方法
CN101958925A (zh) 一种控制远程设备的方法以及装置
JPH08186642A (ja) 信号中継交換機二重化運用管理装置および方法
CN114422335A (zh) 通信方法、装置、服务器及存储介质
CN109510725B (zh) 通信设备故障检测系统及方法
WO2019216210A1 (ja) サービス継続システムおよびサービス継続方法
JP5029697B2 (ja) オペレーションシステムのサーバシステム
JP4706106B2 (ja) 監視システムにおけるテリトリ最適化方式
JP2008204113A (ja) ネットワーク監視システム
JP2003273930A (ja) ネットワーク障害監視方法、通信システムおよび回線切替装置
JP2006268278A (ja) 遠隔保守コンピュータ保守システム
JP2000122982A (ja) 多階層クライアントサーバシステム
JP2011054033A (ja) 監視制御装置
KR20060105045A (ko) 공간적으로 분리된 스위칭 시스템들을 백업 스위칭하기위한 방법
CN113395188B (zh) 一种服务器工作状态确定方法及系统
CN114024771B (zh) 一种用于城市轨道交通安防系统的跨级管控方法
JPH09274573A (ja) バックアップ・システム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130423

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20131227

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20141230

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20151208

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20170103

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20180102

Year of fee payment: 13

FPAY Annual fee payment

Payment date: 20190102

Year of fee payment: 14

FPAY Annual fee payment

Payment date: 20200102

Year of fee payment: 15