KR20210054480A - 대규모 클라우드 데이터 센터 자율 운영을 위한 백업 복구 방법 - Google Patents

대규모 클라우드 데이터 센터 자율 운영을 위한 백업 복구 방법 Download PDF

Info

Publication number
KR20210054480A
KR20210054480A KR1020200146806A KR20200146806A KR20210054480A KR 20210054480 A KR20210054480 A KR 20210054480A KR 1020200146806 A KR1020200146806 A KR 1020200146806A KR 20200146806 A KR20200146806 A KR 20200146806A KR 20210054480 A KR20210054480 A KR 20210054480A
Authority
KR
South Korea
Prior art keywords
backup
recovery
node
data center
cloud data
Prior art date
Application number
KR1020200146806A
Other languages
English (en)
Other versions
KR102415027B1 (ko
Inventor
김성윤
박성호
Original Assignee
주식회사 테라텍
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 테라텍 filed Critical 주식회사 테라텍
Publication of KR20210054480A publication Critical patent/KR20210054480A/ko
Application granted granted Critical
Publication of KR102415027B1 publication Critical patent/KR102415027B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1469Backup restoration techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1464Management of the backup or restore process for networked environments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1471Saving, restoring, recovering or retrying involving logging of persistent data for recovery

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

본 발명은 대규모 클라우드 데이터 센터 자율 운영을 위한 백업 복구 방법 구조 및 방법에 관한 것으로,
이는 대규모 클라우드 데이터 센터를 구성하는 다수의 노드 각각을 인지하고, 상기 노드 각각의 하드웨어 및 소프트웨어 정보를 수집 및 저장하는 노드 등록 단계; 상기 노드 각각의 하드웨어 이벤트 로그 및 운영체체 이벤트 로그를 실시간 수집 및 분석하여, 상기 노드 각각의 백업 또는 복구의 진행 여부, 대상, 방식을 결정하는 이벤트 모니터링 단계; 백업 필요 노드가 감지되면, 상기 백업 필요 노드의 백업 대상을 영구 메모리에 1차 백업한 후 백업 미디어에 2차 백업하는 복구 단계; 및 복구 필요 노드가 감지되면, 상기 영구 메모리에 기반하여 상기 복구 필요 노드를 복구하되, 상기 영구 메모리가 사용 불가 상태이면 상기 백업 미디어에 기반하여 노드를 추가 복구하는 복구 단계를 포함한다.

Description

대규모 클라우드 데이터 센터 자율 운영을 위한 백업 복구 방법{Backup recovery method for large scale cloud data center autonomous operation}
본 발명은 클라우드를 구성하는 다수의 컴퓨팅 장치를 네트워크를 통해 연결하여 통합된 이벤트(하드웨어, 운영체제, 어플리케이션) 기반 하에 자율 백업 복구 환경을 제공하는 대규모 클라우드 데이터 센터 자율 운영을 위한 백업 복구 방법에 관한 것이다.
리눅스 서비스에서 가장 어려운 작업은 시스템 복구에 관한 작업인데, 시스템 복구는 시스템을 새로 만드는 것보다 누군가가 만든 시스템을 복구해야 하기 때문에, 시스템 분석 뿐만 아니라 그 안에 숨겨진 전(前) 엔지니어의 노하우 및 오류를 잡아내는데 배 이상의 노력이 필요로 한다.
기존 업체들은 데이터 백업에 대해 충분한 고려가 있었으며, 많은 솔루션들이 이에 대하여 좋은 해결 방안을 제시하고 있으나. 시스템 백업에 대해서는 충분한 해결 방안을 제시 못하는 것이 현실이다.
리눅스 시스템의 경우, 설치부터 어플리케이션의 설치까지 따진다면, 대략 3시간 내지 4시간의 설치 시간이 필요로 한다.
클라우드 데이터 센터의 복잡성(운영체제, 클라우드 미들웨어, 어플리케이션)에 의한 재 설치시 어려움이 증가한다.
특히, 수학식1의 고가용성(High-Availability) 요구가 증대되는 데, 복구 시간을 줄이는 것이 바로 가용성을 높이는 기술이다.
[수학식1]
Figure pat00001
이때, A는 가용성(Availability, %)을 나타내며, MTBF는 Mean Time Between Failures, MTTR은 Mean Time To Recover(복구하는 데 걸리는 시간)를 의미한다. 실제로 MTTR이 최소화될수록 가용성은 100%에 가깝게 된다.
다운 타임을 정의 할 때, 많은 변수가 존재를 하는데, 예정된 다운(Planed Downtime)이 많은 비중을 차지하고 있는 것은 정상적으로 볼 수 있다. 소프트웨어로 인한 다운타임이 많은 퍼센트를 차지하는 것은 서버 소프트웨어(운영체제 포함), 클라이언트 소프트웨어, 네트워크 소프트웨어 등의 버그는 시스템 안정성을 위하여 가장 통제하기 힘든 분야이기 때문이다.
하드웨어가 안정화되어 갈수록 소프트웨어로 인한 다운타임의 비중은 높아질 것이며, 또한 소프트웨어가 점점 더 복잡해지면서 소프트웨어 자체 문제로 인한 장애가 더 많이 발생할 것이다. 이로 인하여 소프트웨어에 대한 복구 기술이 요구가 되는 것이다.
국내공개특허 제10-2019-0106488호(공개일자 : 2019.09.18)
이에 상기와 같은 문제점을 해결하기 위한 것으로서, 본 발명은 보다 신속, 정확, 안전하게 대규모 클라우드 데이터 센터의 백업 및 복구를 자율적으로 수행할 수 있도록 하는 대규모 클라우드 데이터 센터 자율 운영을 위한 백업 복구 방법 구조 및 방법을 제공하고자 한다.
본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 본 발명이 속하는 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
상기 과제를 해결하기 위한 수단으로서, 본 발명의 일 실시 형태에 따르면 대규모 클라우드 데이터 센터를 구성하는 다수의 노드 각각을 인지하고, 상기 노드 각각의 하드웨어 및 소프트웨어 정보를 수집 및 저장하는 노드 등록 단계; 상기 노드 각각의 하드웨어 이벤트 로그 및 운영체체 이벤트 로그를 실시간 수집 및 분석하여, 상기 노드 각각의 백업 또는 복구의 진행 여부, 대상, 방식을 결정하는 이벤트 모니터링 단계; 백업 필요 노드가 감지되면, 상기 백업 필요 노드의 백업 대상을 영구 메모리에 1차 백업한 후 백업 미디어에 2차 백업하는 복구 단계; 및 복구 필요 노드가 감지되면, 상기 영구 메모리에 기반하여 상기 복구 필요 노드를 복구하되, 상기 영구 메모리가 사용 불가 상태이면 상기 백업 미디어에 기반하여 노드를 추가 복구하는 복구 단계를 포함하는 대규모 클라우드 데이터 센터 자율 운영을 위한 백업 복구 방법을 제공한다.
상기 이벤트 모니터링 단계는 상기 하드웨어 이벤트 로그 중 온도, 팬, 전력, 하드웨어 오류 관련 로그만을 선택 및 이용하여 HW 장애 발생 여부를 확인하고, OS 운영 체제 로그 중 운영체제 장애 로그, 장애 발생 횟수를 선택 및 이용하여 OS 장애 발생 여부를 확인하며, 장애 유형과 횟수 또는 정도에 따라 백업 또는 복구의 진행 여부, 대상, 방식을 자동 결정하는 것을 특징으로 한다.
상기 이벤트 모니터링 단계는 백업 또는 복구의 대상을 시스템과 데이터로 구분하고, 백업 또는 복구의 방식을 전체 백업과 스냅샵 백업으로 구분하는 것을 특징으로 한다.
상기 노드 등록 단계는 CPU 구성, 사용자 구성 옵션, 부팅 모드, 부팅 디바이스, RAID(Redundant Array of Independent Disks), iSCSI(Internet Small Computer System Interface) 및 PXE(Pre-boot eXecution Environment), PXE(Pre-boot eXecution Environment) 중 적어도 하나를 하드웨어 정보로써 획득 및 저장하고, OS 종류, 부트 매니저, 파티션, 파일 시스템 중 적어도 하나를 소프트웨어 정보로써 획득 및 제공하는 것을 특징으로 한다.
상기 방법은 상기 하드웨어 정보의 부팅 모드와 상기 소프트웨어 정보의 부트 매니저 중 적어도 하나를 고려하여, 라이브 미디어 기반 백업 및 복구 환경을 구축하거나, 네트워크 기반 백업 및 복구 환경을 구축하는 백업 및 복구 환경 구축 단계를 더 포함하는 것을 특징으로 하는 것을 특징으로 한다.
본 발명은 대규모 클라우드 데이터 센터에 적용 가능하며, 동일한 성능 대비 시스템 구축 비용(장비비, 인건비를 포함한 종합적인 비용)이 저렴한 시스템 구조를 구축할 수 있도록 한다.
도 1은 본 발명의 일 실시예에 따른 대규모 클라우드 데이터 센터 자율 운영을 위한 백업 복구 방법을 설명하기 위한 도면이다.
도 2 내지 도 4는 본 발명의 일 실시예에 따른 노드 등록 단계를 보다 상세히 설명하기 위한 도면이다.
도 5 내지 도 7은 본 발명의 일 실시예에 따른 이벤트 수집 단계를 보다 상세히 설명하기 위한 도면이다.
도 8 및 도 9는 본 발명의 일 실시예에 따른 백업 단계를 보다 상세히 설명하기 위한 도면이다.
도 10 내지 도 12는 본 발명의 일 실시예에 따른 복구 단계를 보다 상세히 설명하기 위한 도면이다.
이하의 내용은 단지 본 발명의 원리를 예시한다. 그러므로 당업자는 비록 본 명세서에 명확히 설명되거나 도시되지 않았지만 본 발명의 원리를 구현하고 본 발명의 개념과 범위에 포함된 다양한 장치를 발명할 수 있는 것이다. 또한, 본 명세서에 열거된 모든 조건부 용어 및 실시예들은 원칙적으로, 본 발명의 개념이 이해되도록 하기 위한 목적으로만 명백히 의도되고, 이와 같이 특별히 열거된 실시예들 및 상태들에 제한적이지 않는 것으로 이해되어야 한다.
또한, 본 발명의 원리, 관점 및 실시예들 뿐만 아니라 특정 실시예를 열거하는 모든 상세한 설명은 이러한 사항의 구조적 및 기능적 균등물을 포함하도록 의도되는 것으로 이해되어야 한다. 또한 이러한 균등물들은 현재 공지된 균등물뿐만 아니라 장래에 개발될 균등물 즉 구조와 무관하게 동일한 기능을 수행하도록 발명된 모든 소자를 포함하는 것으로 이해되어야 한다.
따라서, 예를 들어, 본 명세서의 블럭도는 본 발명의 원리를 구체화하는 예시적인 회로의 개념적인 관점을 나타내는 것으로 이해되어야 한다. 이와 유사하게, 모든 흐름도, 상태 변환도, 의사 코드 등은 컴퓨터가 판독 가능한 매체에 실질적으로 나타낼 수 있고 컴퓨터 또는 프로세서가 명백히 도시되었는지 여부를 불문하고 컴퓨터 또는 프로세서에 의해 수행되는 다양한 프로세스를 나타내는 것으로 이해되어야 한다.
프로세서 또는 이와 유사한 개념으로 표시된 기능 블럭을 포함하는 도면에 도시된 다양한 소자의 기능은 전용 하드웨어뿐만 아니라 적절한 소프트웨어와 관련하여 소프트웨어를 실행할 능력을 가진 하드웨어의 사용으로 제공될 수 있다. 프로세서에 의해 제공될 때, 상기 기능은 단일 전용 프로세서, 단일 공유 프로세서 또는 복수의 개별적 프로세서에 의해 제공될 수 있고, 이들 중 일부는 공유될 수 있다.
또한 프로세서, 제어 또는 이와 유사한 개념으로 제시되는 용어의 명확한 사용은 소프트웨어를 실행할 능력을 가진 하드웨어를 배타적으로 인용하여 해석되어서는 아니되고, 제한 없이 디지털 신호 프로세서(DSP) 하드웨어, 소프트웨어를 저장하기 위한 롬(ROM), 램(RAM) 및 비 휘발성 메모리를 암시적으로 포함하는 것으로 이해되어야 한다. 주지관용의 다른 하드웨어도 포함될 수 있다.
본 명세서의 청구범위에서, 상세한 설명에 기재된 기능을 수행하기 위한 수단으로 표현된 구성요소는 예를 들어 상기 기능을 수행하는 회로 소자의 조합 또는 펌웨어/마이크로 코드 등을 포함하는 모든 형식의 소프트웨어를 포함하는 기능을 수행하는 모든 방법을 포함하는 것으로 의도되었으며, 상기 기능을 수행하도록 상기 소프트웨어를 실행하기 위한 적절한 회로와 결합된다. 이러한 청구범위에 의해 정의되는 본 발명은 다양하게 열거된 수단에 의해 제공되는 기능들이 결합되고 청구항이 요구하는 방식과 결합되기 때문에 상기 기능을 제공할 수 있는 어떠한 수단도 본 명세서로부터 파악되는 것과 균등한 것으로 이해되어야 한다.
상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다.
도 1은 본 발명의 일 실시예에 따른 대규모 클라우드 데이터 센터 자율 운영을 위한 백업 복구 방법을 설명하기 위한 도면이다.
도 1을 참고하면, 본 발명의 방법은 대규모 클라우드 데이터 센터를 구성하는 다수의 노드 각각을 인지하고, 상기 노드 각각의 하드웨어 및 소프트웨어 정보를 수집 및 저장하는 노드 등록 단계(S1), 상기 노드 각각의 하드웨어 이벤트 로그 및 운영체체 이벤트 로그를 실시간 수집 및 분석하여, 상기 노드 각각의 백업 또는 복구의 진행 여부, 대상, 방식을 결정하는 이벤트 모니터링 단계(S2), 백업 필요 노드가 감지되면, 상기 백업 필요 노드의 백업 대상을 영구 메모리에 1차 백업한 후 백업 미디어에 2차 백업하는 복구 단계(S3), 및 복구 필요 노드가 감지되면, 상기 영구 메모리에 기반하여 상기 복구 필요 노드를 복구하되, 상기 영구 메모리가 사용 불가 상태이면 상기 백업 미디어에 기반하여 노드를 추가 복구하는 복구 단계(S4) 등을 포함할 수 있다.
본 발명은 노드 단위의 장애와 새로운 노드 추가를 자동으로 추적, 인식하고, 이에 대한 백업 복구에 대한 관리자를 제공한다.
또한 이기종 노드 이벤트 수집 및 통합 관리기를 구비하여, 대규모 클라우드 구성시, 각 벤더 마다 다른 장비들로, 이에 대한 통합 이벤트 관리하도록 하며, 이기종 노드 또한 통합 관리할 수 있도록 한다.
그리고 노드 단위 장애 분석을 위한 실시간 시스템 이벤트 로그 및 OS 로그 수집, 분석을 통한 이벤트를 자동 생성한다.
수집된 이벤트에 기반하여 백업 및 복구 스케쥴 및 절차를 작성 및 이용하여, 백업 및 복구 동작이 보다 효율적이고 일관적으로 수행될 수 있도록 한다.
뿐 만 아니라 라이브 미디어/ 네트워크 부팅 기능을 이용한 백업/ 복구 환경을 구축한다. 즉, 본 발명은 종래의 방법과 달리 네트워크 부팅 (PXE Booting) 을 통하여, 라이브 부팅(Live booting)을 제공하고, 사용자의 선택에 의한 백업, 복구를 지원하며, 정해진 룰(Rule)에 따른 자동 복구 작업 또한 진행할 수 있도록 한다.
도 2 내지 도 4는 본 발명의 일 실시예에 따른 노드 등록 단계를 보다 상세히 설명하기 위한 도면이다.
도 2에 도시된 바와 같이, 본 발명의 노드 등록 단계(S1)는 노드 인식 단계(S11)와, 노드 하드웨어 정보 등록 단계(S12), 및 노드 소프트웨어 정보 등록 단계(S13) 등을 포함하여 구성될 수 있다.
노드 인식 단계(S11)에서, 백업 관리자는 클라우드 데이터 센터를 구성하거나, 클라우드 데이터 센터에 새로이 추가되는 노드 각각을 자동 인식한다.
노드 하드웨어 정보 등록 단계(S12)에서, 백업 관리자는 도 3에서와 같이 표준화된 메시지 기반의 하드웨어 관리 인터페이스인 IPMI(Intelligent Platform Management Interface)를 통해 각 노드에 하드웨어 정보 제공을 요청하고, 각 노드는 시스템 하드웨어의 성능 상태를 모니터하는 인터페이스인 BMC(Base Mother Controller)를 이용하여 자신의 하드웨어 정보를 수집 및 제공한다. 그러면, 백업 관리자는 노드 각각이 수집 및 제공한 하드웨어 정보를 백업 대상 기초 자료로써 데이터베이스화하여 저장한다.
이때, 하드웨어 정보는 CPU 구성, 사용자 구성 옵션, 부팅 모드, 부팅 디바이스, RAID(Redundant Array of Independent Disks), iSCSI(Internet Small Computer System Interface) 및 PXE(Pre-boot eXecution Environment), PXE(Pre-boot eXecution Environment) 등에 대한 정보일 수 있다.
노드 소프트웨어 정보 등록 단계(S13)에서, 백업 관리자는 도 4에서와 같이 IPMI와 BMC를 이용하여 각 노드의 소프트웨어 정보를 추가 획득하고, 이를 백업 대상 기초 자료로써 데이터베이스화하여 추가 저장한다.
이때, 소프트웨어 정보는 OS 종류, 부트 매니저, 파티션, 파일 시스템 등에 대한 정보일 수 있다.
도 5 내지 도 7은 본 발명의 일 실시예에 따른 이벤트 수집 단계를 보다 상세히 설명하기 위한 도면이다.
도 5에 도시된 바와 같이, 본 발명의 이벤트 모니터링 단계(S2)는 노드 각각의 이벤트 로그 수집 단계(S21), 및 이벤트 로그 분석 단계(S22) 등을 포함하여 구성될 수 있다.
이벤트 로그 수집 단계(S21)에서, 각 노드의 BMC는 도 6에서와 같이 노드에 설치된 각종 하드웨어 센서와 OS 운영 체제를 노드의 현재 상태를 모니터링하여 다수의 이벤트 로그를 실시간 수집 및 제공한다.
백업 관리자는 IPMI를 통해 이들을 수신하고, 표준 데이터 형태로 변환한 후 데이터베이스화하여 저장한다. 특히, 본 발명에는 노드 각각이 전송하는 이벤트 로그를 표준 데이터 형태로 변환하여 저장하는 데, 이는 다수의 노드 중 적어도 하나 이상이 이기종 장비로 구현될 수 있음을 고려하여, 이기종 노드 이벤트까지도 통합적으로 수집 및 분석할 수 있기 위함이다.
이때, 이벤트 로그는 하드웨어 이벤트 로그와 OS 운영 체제 로그로 구분되며, 하드웨어 이벤트 로그는 온도, 팬, 파워, 하드웨어 오류 이벤트 로그, 사용자 정의 이벤트 로그 등일 수 있으며, OS 운영 체제 로그는 운영체제 장애 로그, 장애 발생 횟수 등일 수 있다.
이벤트 로그 분석 단계(S22)에서, 백업 관리자는 도 7에서와 같이 기 설정된 이벤트 분석 기준에 따라 노드 각각의 이벤트 로그를 선별하여 분석하고, 분석 결과에 따라 노드 각각의 백업 또는 복구의 진행 여부, 대상, 방식을 자동 결정한다.
예를 들어, 다수의 하드웨어 이벤트 로그 중 온도, 팬, 전력, 하드웨어 오류 관련 로그만을 선택 및 이용하여 HW 장애 발생 여부를 확인하고, OS 운영 체제 로그 중 운영체제 장애 로그, 장애 발생 횟수를 선택 및 이용하여 OS 장애 발생 여부를 확인할 수 있다.
그리고 장애 유형 및 횟수에 기반하여 시스템 백업을 수행할지 또는 데이터 백업 필요 노드로 결정하거나(즉, 백업 또는 복구의 대상), 또 다르게는 전체 백업(Full Backup)을 수행할지 또는 스냅샷(Snapshot) 백업을 진행할지 결정할 수 있도록 한다(즉, 백업 또는 복구의 방식).
또한 사용자 요청하에 백업 또는 복구의 진행 여부, 대상, 방식을 직접 결정함으로써, 다양한 사용자 요구 사항도 보다 유연하게 처리할 수 있도록 한다.
도 8 및 도 9는 본 발명의 일 실시예에 따른 백업 단계를 보다 상세히 설명하기 위한 도면이다.
도 8에 도시된 바와 같이, 본 발명에서는 이벤트 로그 분석 결과에 기반하여 백업 스케쥴러를 작성하고, 이를 통해 시스템과 데이터 중 어느 대상을 백업할지, 또한 전체 백업(Full Backup)과 스냅샷(Snapshot) 백업 중 어떤 방식을 이용할지, 백업 환경의 종류 등을 다양하게 선택할 수 있도록 한다.
또한 본 발명은 백업 미디어(SSD, Disk)와 기존의 저장 매체 이외에 고성능 백업을 위한 영구 메모리를 추가 구비한 후, 노드 정보를 1차로 영구 메모리상에 백업한 후, 2차로 백업 미디어(SSD, Disk)에 백업하도록 함으로써, 실시간 백업 환경을 구축 및 제공할 수 있다.
도 10 내지 도 12는 본 발명의 일 실시예에 따른 복구 단계를 보다 상세히 설명하기 위한 도면이다.
도 10에서와 같이, 본 발명에서는 이벤트 로그 분석 결과에 따라 복구 관리자를 구성하고, 복구 관리자는 백업 스케쥴러와 동일하게 시스템과 데이터 중 어느 대상을 복원할지, 또한 전체 복원과 스냅샷 복원 중 어떤 방식을 이용할지, 복원 환경의 종류 등을 다양하게 선택할 수 있도록 한다.
복구 관리자는 빠른 복구를 보장하기 위해, 영구 메모리에 기반하여 노드 시스템을 우선 복구하되, 영구 메모리가 사용 불가 상태이면 백업 미디어에 기반하여 노드 시스템을 추가 복구하도록 한다.
그리고 본 발명은 라이브 미디어(Live Media) 및 네트워크 부트(Netboot) 기능을 이용한 백업/ 복구 환경을 구축함으로써, 종래에서와 같이 별도 소프트웨어를 이용할 필요 없이 자동으로 네트워크 부팅을 통하여 백업 또는 복구 절차를 수행할 수 있도록 한다.
이때, 라이브 미디어 백업/ 복구 환경과 네트워크 부트 백업/ 복구 환경은 하드웨어 정보의 부팅 모드와 상기 소프트웨어 정보의 부트 매니저 중 적어도 하나를 고려하여 결정될 수 있으나, 이에 한정될 필요는 없다.
더하여, 라이브 미디어는 표준 하드웨어 디텍터(HW detector)와 네트워크(network) 드라이버 및 X-windows 등이 탑재된 모델이며, 자체 개발된 백업 복구 애플리케이션 또는 웹페이지가 지원하여 별도의 운영체제 및 백업 애플리케이션 없이도 백업/ 복구 환경을 구축할 수 있도록 한다.
네트워크 부트는 네트워크 인터페이스를 통해 컴퓨터를 부팅할 수 있게 해주는 환경으로, 이 또한 별도의 운영체제 및 백업 애플리케이션 없이도 백업/ 복구 환경을 구축할 수 있도록 한다.
도 13는 본 명세서에 개진된 하나 이상의 실시예가 구현될 수 있는 예시적인 컴퓨팅 환경을 도시하는 도면으로, 상술한 하나 이상의 실시예를 구현하도록 구성된 컴퓨팅 디바이스(1100)를 포함하는 시스템(1000)의 예시를 도시한다. 예를 들어, 컴퓨팅 디바이스(1100)는 개인 컴퓨터, 서버 컴퓨터, 핸드헬드 또는 랩탑 디바이스, 모바일 디바이스(모바일폰, PDA, 미디어 플레이어 등), 멀티프로세서 시스템, 소비자 전자기기, 미니 컴퓨터, 메인프레임 컴퓨터, 임의의 전술된 시스템 또는 디바이스를 포함하는 분산 컴퓨팅 환경 등을 포함하지만, 이것으로 한정되는 것은 아니다.
컴퓨팅 디바이스(1100)는 적어도 하나의 프로세싱 유닛(1110) 및 메모리(1120)를 포함할 수 있다. 여기서, 프로세싱 유닛(1110)은 예를 들어 중앙처리장치(CPU), 그래픽처리장치(GPU), 마이크로프로세서, 주문형 반도체(Application Specific Integrated Circuit, ASIC), Field Programmable Gate Arrays(FPGA) 등을 포함할 수 있으며, 복수의 코어를 가질 수 있다. 메모리(1120)는 휘발성 메모리(예를 들어, RAM 등), 비휘발성 메모리(예를 들어, ROM, 플래시 메모리 등) 또는 이들의 조합일 수 있다.
또한, 컴퓨팅 디바이스(1100)는 추가적인 스토리지(1130)를 포함할 수 있다. 스토리지(1130)는 자기 스토리지, 광학 스토리지 등을 포함하지만 이것으로 한정되지 않는다. 스토리지(1130)에는 본 명세서에 개진된 하나 이상의 실시예를 구현하기 위한 컴퓨터 판독 가능한 명령이 저장될 수 있고, 운영 시스템, 애플리케이션 프로그램 등을 구현하기 위한 다른 컴퓨터 판독 가능한 명령도 저장될 수 있다. 스토리지(1130)에 저장된 컴퓨터 판독 가능한 명령은 프로세싱 유닛(1110)에 의해 실행되기 위해 메모리(1120)에 로딩될 수 있다.
또한, 컴퓨팅 디바이스(1100)는 입력 디바이스(들)(1140) 및 출력 디바이스(들)(1150)을 포함할 수 있다. 여기서, 입력 디바이스(들)(1140)은 예를 들어 키보드, 마우스, 펜, 음성 입력 디바이스, 터치 입력 디바이스, 적외선 카메라, 비디오 입력 디바이스 또는 임의의 다른 입력 디바이스 등을 포함할 수 있다. 또한, 출력 디바이스(들)(1150)은 예를 들어 하나 이상의 디스플레이, 스피커, 프린터 또는 임의의 다른 출력 디바이스 등을 포함할 수 있다. 또한, 컴퓨팅 디바이스(1100)는 다른 컴퓨팅 디바이스에 구비된 입력 디바이스 또는 출력 디바이스를 입력 디바이스(들)(1140) 또는 출력 디바이스(들)(1150)로서 사용할 수도 있다.
또한, 컴퓨팅 디바이스(1100)는 컴퓨팅 디바이스(1100)가 다른 디바이스(예를 들어, 컴퓨팅 디바이스(1300))와 통신할 수 있게 하는 통신접속(들)(1160)을 포함할 수 있다. 여기서, 통신 접속(들)(1160)은 모뎀, 네트워크 인터페이스 카드(NIC), 통합 네트워크 인터페이스, 무선 주파수 송신기/수신기, 적외선 포트, USB 접속 또는 컴퓨팅 디바이스(1100)를 다른 컴퓨팅 디바이스에 접속시키기 위한 다른 인터페이스를 포함할 수 있다. 또한, 통신 접속(들)(1160)은 유선 접속 또는 무선 접속을 포함할 수 있다.
상술한 컴퓨팅 디바이스(1100)의 각 구성요소는 버스 등의 다양한 상호접속(예를 들어, 주변 구성요소 상호접속(PCI), USB, 펌웨어(IEEE 1394), 광학적 버스 구조 등)에 의해 접속될 수도 있고, 네트워크(1200)에 의해 상호접속될 수도 있다.
본 명세서에서 사용되는 "구성요소", "모듈", "시스템", "인터페이스" 등과 같은 용어들은 일반적으로 하드웨어, 하드웨어와 소프트웨어의 조합, 소프트웨어, 또는 실행중인 소프트웨어인 컴퓨터 관련 엔티티를 지칭하는 것이다. 예를 들어, 구성요소는 프로세서 상에서 실행중인 프로세스, 프로세서, 객체, 실행 가능물(executable), 실행 스레드, 프로그램 및/또는 컴퓨터일 수 있지만, 이것으로 한정되는 것은 아니다. 예를 들어, 컨트롤러 상에서 구동중인 애플리케이션 및 컨트롤러 모두가 구성요소일 수 있다. 하나 이상의 구성요소는 프로세스 및/또는 실행의 스레드 내에 존재할 수 있으며, 구성요소는 하나의 컴퓨터 상에서 로컬화될 수 있고, 둘 이상의 컴퓨터 사이에서 분산될 수도 있다.
이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형 실시가 가능한 것은 물론이고, 이러한 변형 실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.

Claims (5)

  1. 대규모 클라우드 데이터 센터를 구성하는 다수의 노드 각각을 인지하고, 상기 노드 각각의 하드웨어 및 소프트웨어 정보를 수집 및 저장하는 노드 등록 단계;
    상기 노드 각각의 하드웨어 이벤트 로그 및 운영체체 이벤트 로그를 실시간 수집 및 분석하여, 상기 노드 각각의 백업 또는 복구의 진행 여부, 대상, 방식을 결정하는 이벤트 모니터링 단계;
    백업 필요 노드가 감지되면, 상기 백업 필요 노드의 백업 대상을 영구 메모리에 1차 백업한 후 백업 미디어에 2차 백업하는 복구 단계; 및
    복구 필요 노드가 감지되면, 상기 영구 메모리에 기반하여 상기 복구 필요 노드를 복구하되, 상기 영구 메모리가 사용 불가 상태이면 상기 백업 미디어에 기반하여 노드를 추가 복구하는 복구 단계를 포함하는 대규모 클라우드 데이터 센터 자율 운영을 위한 백업 복구 방법.
  2. 제1항에 있어서, 상기 이벤트 모니터링 단계는
    상기 하드웨어 이벤트 로그 중 온도, 팬, 전력, 하드웨어 오류 관련 로그만을 선택 및 이용하여 HW 장애 발생 여부를 확인하고, OS 운영 체제 로그 중 운영체제 장애 로그, 장애 발생 횟수를 선택 및 이용하여 OS 장애 발생 여부를 확인하며, 장애 유형과 횟수 또는 정도에 따라 백업 또는 복구의 진행 여부, 대상, 방식을 자동 결정하는 것을 특징으로 하는 대규모 클라우드 데이터 센터 자율 운영을 위한 백업 복구 방법.
  3. 제2항에 있어서, 상기 이벤트 모니터링 단계는
    백업 또는 복구의 대상을 시스템과 데이터로 구분하고, 백업 또는 복구의 방식을 전체 백업과 스냅샵 백업으로 구분하는 것을 특징으로 하는 대규모 클라우드 데이터 센터 자율 운영을 위한 백업 복구 방법.
  4. 제1항에 있어서, 상기 노드 등록 단계는
    CPU 구성, 사용자 구성 옵션, 부팅 모드, 부팅 디바이스, RAID(Redundant Array of Independent Disks), iSCSI(Internet Small Computer System Interface) 및 PXE(Pre-boot eXecution Environment), PXE(Pre-boot eXecution Environment) 중 적어도 하나를 하드웨어 정보로써 획득 및 저장하고, OS 종류, 부트 매니저, 파티션, 파일 시스템 중 적어도 하나를 소프트웨어 정보로써 획득 및 제공하는 것을 특징으로 하는 대규모 클라우드 데이터 센터 자율 운영을 위한 백업 복구 방법.
  5. 제4항에 있어서,
    상기 하드웨어 정보의 부팅 모드와 상기 소프트웨어 정보의 부트 매니저 중 적어도 하나를 고려하여, 라이브 미디어 기반 백업 및 복구 환경을 구축하거나, 네트워크 기반 백업 및 복구 환경을 구축하는 백업 및 복구 환경 구축 단계를 더 포함하는 것을 특징으로 하는 것을 특징으로 하는 대규모 클라우드 데이터 센터 자율 운영을 위한 백업 복구 방법.
KR1020200146806A 2019-11-05 2020-11-05 대규모 클라우드 데이터 센터 자율 운영을 위한 백업 복구 방법 KR102415027B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020190139899 2019-11-05
KR20190139899 2019-11-05

Publications (2)

Publication Number Publication Date
KR20210054480A true KR20210054480A (ko) 2021-05-13
KR102415027B1 KR102415027B1 (ko) 2022-07-01

Family

ID=75913617

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200146806A KR102415027B1 (ko) 2019-11-05 2020-11-05 대규모 클라우드 데이터 센터 자율 운영을 위한 백업 복구 방법

Country Status (1)

Country Link
KR (1) KR102415027B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113742138A (zh) * 2021-09-06 2021-12-03 深圳市云鼠科技开发有限公司 一种数据管理方法、装置、电子设备及存储介质
CN117056133A (zh) * 2023-10-12 2023-11-14 杭州浩联智能科技有限公司 一种基于分布式物联网架构的数据备份方法、装置及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100791293B1 (ko) * 2006-03-09 2008-01-04 삼성전자주식회사 네트워크 내 컴퓨터 시스템의 데이터 관리 장치 및 방법
KR101143909B1 (ko) * 2011-11-28 2012-07-12 엑스투씨앤씨(주) 클라우드 컴퓨팅을 기반으로 하는 듀얼 백업 시스템
KR20140107042A (ko) * 2013-02-27 2014-09-04 삼성전자주식회사 관리 장치 및 서버 노드 관리 방법
KR101658741B1 (ko) * 2015-11-23 2016-09-21 (주)클로닉스 컴퓨터 시스템의 증분 백업과 차등 백업을 이용한 혼합 백업과 복원 장치 및 제어 방법
KR20170138365A (ko) * 2017-10-11 2017-12-15 주식회사 티지아이씨컴퓨터 컴퓨터 시스템의 하드웨어 및 소프트웨어의 에러 발생 여부를 통합적으로 관리하는 장치
KR20190106488A (ko) 2018-03-09 2019-09-18 울산과학기술원 통합 서버의 자원 분배 관리장치 및 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100791293B1 (ko) * 2006-03-09 2008-01-04 삼성전자주식회사 네트워크 내 컴퓨터 시스템의 데이터 관리 장치 및 방법
KR101143909B1 (ko) * 2011-11-28 2012-07-12 엑스투씨앤씨(주) 클라우드 컴퓨팅을 기반으로 하는 듀얼 백업 시스템
KR20140107042A (ko) * 2013-02-27 2014-09-04 삼성전자주식회사 관리 장치 및 서버 노드 관리 방법
KR101658741B1 (ko) * 2015-11-23 2016-09-21 (주)클로닉스 컴퓨터 시스템의 증분 백업과 차등 백업을 이용한 혼합 백업과 복원 장치 및 제어 방법
KR20170138365A (ko) * 2017-10-11 2017-12-15 주식회사 티지아이씨컴퓨터 컴퓨터 시스템의 하드웨어 및 소프트웨어의 에러 발생 여부를 통합적으로 관리하는 장치
KR20190106488A (ko) 2018-03-09 2019-09-18 울산과학기술원 통합 서버의 자원 분배 관리장치 및 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113742138A (zh) * 2021-09-06 2021-12-03 深圳市云鼠科技开发有限公司 一种数据管理方法、装置、电子设备及存储介质
CN117056133A (zh) * 2023-10-12 2023-11-14 杭州浩联智能科技有限公司 一种基于分布式物联网架构的数据备份方法、装置及介质
CN117056133B (zh) * 2023-10-12 2024-02-06 杭州浩联智能科技有限公司 一种基于分布式物联网架构的数据备份方法、装置及介质

Also Published As

Publication number Publication date
KR102415027B1 (ko) 2022-07-01

Similar Documents

Publication Publication Date Title
US10055296B2 (en) System and method for selective BIOS restoration
CN106681751B (zh) 统一固件管理系统和管理方法以及计算机可读取介质
US10511485B2 (en) Dynamic virtual network topology discovery engine
TWI594600B (zh) 網路交換器與使用網路交換器更新裝置的方法
US8108734B2 (en) Intelligent rolling upgrade for data storage systems
US8862927B2 (en) Systems and methods for fault recovery in multi-tier applications
US20170046152A1 (en) Firmware update
US20170031694A1 (en) System and method for remote system configuration managment
US10496495B2 (en) On demand remote diagnostics for hardware component failure and disk drive data recovery using embedded storage media
US7975084B1 (en) Configuring a host computer using a service processor
US11157373B2 (en) Prioritized transfer of failure event log data
US20150220411A1 (en) System and method for operating system agnostic hardware validation
US9712382B2 (en) Retrieving console messages after device failure
US9317268B2 (en) Recovery automation in heterogeneous environments
US11210150B1 (en) Cloud infrastructure backup system
WO2018120200A1 (zh) 一种服务器管理方法和服务器
KR102415027B1 (ko) 대규모 클라우드 데이터 센터 자율 운영을 위한 백업 복구 방법
US9596157B2 (en) Server restart management via stability time
US20160147271A1 (en) Powering nodes
US11010249B2 (en) Kernel reset to recover from operating system errors
US11372702B2 (en) Optimized high availability management using cluster-wide view
US10454773B2 (en) Virtual machine mobility
US11593121B1 (en) Remotely disabling execution of firmware components
US10938821B2 (en) Remote access controller support registration system
US20230195983A1 (en) Hyper-converged infrastructure (hci) platform development with smartnic-based hardware simulation

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant