KR102227644B1

KR102227644B1 - 마이크로 데이터센터 환경에서의 학습형 워크로드 측정 방법

Info

Publication number: KR102227644B1
Application number: KR1020190143356A
Authority: KR
Inventors: 안재훈; 김영환
Original assignee: 한국전자기술연구원
Priority date: 2019-11-11
Filing date: 2019-11-11
Publication date: 2021-03-15

Abstract

데이터 센터 관리방법 및 데이터 센터 관리장치가 제공된다. 본 데이터 센터 관리방법에 따르면, 데이터 센터의 환경 데이터와 워크로드 데이터가 입력되면, 학습된 예측모델을 이용하여 장애발생 가능성을 산출하고, 산출된 장애발생 가능성에 따라, 데이터 센터의 가상 자원을 재배치할 수 있게 되어, 마이크로 데이터센터 환경에서도 장애 관리 리스크를 최소화 할 수 있게 되며 워크로드 예측을 통해 장애 발생 가능성을 최소화할 수 있게 된다.

Description

마이크로 데이터센터 환경에서의 학습형 워크로드 측정 방법 {Method for measuring workload by learning on micro data center environment}

본 발명은 데이터 센터 관리 방법 및 데이터 센터 관리 장치에 관한 것으로, 더욱 상세하게는, 마이크로 데이터센터 환경에서의 딥러닝을 통한 데이터 센터 관리 방법 및 데이터 센터 관리 장치에 관한 것이다.

이 부분에 기술된 내용은 단순히 본 실시 예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.

소규모(1~10 Racks) 단위인 마이크로 데이터 센터 환경의 경우, 저비용으로 운영할 수 있다는 장점이 있으나, 낮은 가용성과 부족한 리스크 관리 체계로 인한 문제점을 내포하고 있다.

또한, 마이크로 데이터 센터는 일반적으로 원격지에 위치하고 있기 때문에, 사용자가 문제 발생 시 즉시 대응이 불가하다는 단점이 있다. 또한, 저비용으로 유지하기 위해 무인 운영 또는 비전문가에 의한 운영이 일반적이므로, 마이크로 데이터 센터의 운영에 대한 전문적인 기술처리가 어려운 것이 현실이다.

일반적으로 가상화 환경에서 마이크로 데이터센터의 자원이 관리되고 있으므로, 마이크로 데이터 센터는 가상화 자원에 대한 지속적 관리가 필요하다.

이와 같은 마이크로 데이터 센터의 문제를 해결하기위한 방안의 모색이 요청된다.

본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, 데이터 센터의 환경 데이터와 워크로드 데이터가 입력되면, 학습된 예측모델을 이용하여 장애발생 가능성을 산출하고, 산출된 장애발생 가능성에 따라, 데이터 센터의 가상 자원을 재배치하는 데이터 센터 관리방법 및 데이터 센터 관리장치를 제공함에 있다.

본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 데이터 센터 관리장치에 의한 데이터 센터 관리방법은, 데이터 센터의 환경 데이터와 워크로드 데이터가 수신되면, 학습된 예측모델을 이용하여 장애발생 가능성을 산출하는 단계; 및 산출된 장애발생 가능성에 따라, 데이터 센터의 가상 자원을 재배치하는 단계;를 포함한다.

그리고, 환경 데이터와 워크로드 데이터를 이용하여 장애발생 가능성을 예측하는 예측모델을 딥러닝을 통해 학습시키는 단계;를 더 포함할 수도 있다.

또한, 학습시키는 단계는, LSTM(Long Short Term Memory) 알고리즘을 이용하여 예측모델을 학습시킬 수도 있다.

그리고, 재배치하는 단계는, 산출된 장애발생 가능성이 제1 임계값 이상일 경우, 전체적인 CPU 사용량과 메모리 사용량을 기설정된 값만큼 낮춤으로써 가상 자원을 재배치할 수도 있다.

또한, 재배치하는 단계는, 산출된 장애발생 가능성이 제2 임계값 이하일 경우, 전체적인 CPU 사용량과 메모리 사용량을 기설정된 값만큼 높임으로써 가상 자원을 재배치할 수도 있다.

그리고, 환경 데이터는, 온도 데이터, 습도 데이터, 및 팬 상태 데이터를 포함할 수도 있다.

또한, 워크로드 데이터는, CPU 사용량 데이터 및 메모리 사용량 데이터를 포함할 수도 있다.

한편, 본 발명의 일 실시예에 따른, 데이터 센터 관리장치는, 데이터 센터의 환경 데이터와 워크로드 데이터가 수신되는 통신부; 및 수신된 환경 데이터와 워크로드 데이터와 학습된 예측모델을 이용하여 장애발생 가능성을 산출하고, 산출된 장애발생 가능성에 따라 데이터 센터의 가상 자원을 재배치하는 제어부;를 포함한다.

본 발명의 다양한 실시예에 따르면, 데이터 센터의 환경 데이터와 워크로드 데이터가 입력되면, 학습된 예측모델을 이용하여 장애발생 가능성을 산출하고, 산출된 장애발생 가능성에 따라, 데이터 센터의 가상 자원을 재배치하는 데이터 센터 관리방법 및 데이터 센터 관리장치를 제공할 수 있게 되어, 마이크로 데이터센터 환경에서도 장애 관리 리스크를 최소화 할 수 있게 되며 워크로드 예측을 통해 장애 발생 가능성을 최소화할 수 있게 된다.

본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에 서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

본 발명에 관한 이해를 돕기 위해 상세한 설명의 일부로 포함되는, 첨부 도면은 본 발명에 대한 실시 예를 제공하고, 상세한 설명과 함께 본 발명의 기술적 특징을 설명한다.
도 1은 본 발명의 일 실시예에 따른, 데이터 센터의 구성을 도시한 도면,
도 2는 본 발명의 일 실시예에 따른, 데이터 센터 관리장치의 구성을 도시한 도면,
도 3은 본 발명의 일 실시예에 따른, 데이터 센터 관리 방법을 설명하기 위해 제공되는 흐름도,
도 4는 본 발명의 일 실시예에 따른, 딥러닝의 구조를 도시한 도면,
도 5는 본 발명의 일 실시예에 따른, 딥러닝 학습이 진행되는 과정을 도시한 도면이다.

본 발명의 과제 해결 수단의 특징 및 이점을 보다 명확히 하기 위하여, 첨부된 도면에 도시된 본 발명의 특정 실시 예를 참조하여 본 발명을 더 상세하게 설명한다.

다만, 하기의 설명 및 첨부된 도면에서 본 발명의 요지를 흐릴 수 있는 공지기능 또는 구성에 대한 상세한 설명은 생략한다. 또한, 도면 전체에 걸쳐 동일한 구성 요소들은 가능한 한 동일한 도면 부호로 나타내고 있음에 유의하여야 한다.

이하의 설명 및 도면에서 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위한 용어의 개념으로 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다.

따라서 본 명세서에 기재된 실시 예와 도면에 도시된 구성은 본 발명의 가장바람직한 일 실시 예에 불과할 뿐이고, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.

또한, 제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하기 위해 사용하는 것으로, 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용될 뿐, 상기 구성요소들을 한정하기 위해 사용되지 않는다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제2 구성요소는 제1 구성요소로 명명될 수 있고, 유사하게 제1 구성요소도 제2 구성요소로 명명될 수 있다.

더하여, 어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급할 경우, 이는 논리적 또는 물리적으로 연결되거나, 접속될 수 있음을의미한다.

다시 말해, 구성요소가 다른 구성요소에 직접적으로 연결되거나 접속되어 있을 수 있지만, 중간에 다른 구성요소가 존재할 수도 있으며, 간접적으로 연결되거나 접속될 수도 있다고 이해되어야 할 것이다.

또한, 본 명세서에서 기술되는 "포함한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

또한, 명세서에 기재된 "…부", "…기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

또한, "일(a 또는 an)", "하나(one)", "그(the)" 및 유사어는 본 발명을 기술하는 문맥에 있어서(특히, 이하의 청구항의 문맥에서) 본 명세서에 달리 지시되거나 문맥에 의해 분명하게 반박되지 않는 한, 단수 및 복수 모두를 포함하는 의미로 사용될 수 있다.

이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.

도 1은 본 발명의 일 실시예에 따른, 데이터 센터의 구성을 도시한 도면이다.

도 1에 도시된 바와 같이, 데이터 센터(10)는 데이터 세터 관리장치(100)에 의해 관리된다. 구체적으로, 데이터 센터 관리장치(100)는 데이터 센터(10)의 자원 사용 상황, 환경 데이터, 워크로드 데이터 등을 관리하고, 그에 따라 데이터 센터의 자원을 재배치하는 등의 관리를 수행하게 된다.

데이터 센터(10)는 소규모(1~10 Racks) 단위인 마이크로 데이터 센터가 될 수도 있다.

또한, 데이터 센터 관리장치(100)는 그 자체로 물리적으로 독립된 장치로 구현될 수 있을 뿐만 아니라, 어떤 장치나 시스템의 일부로 포함되어 있는 형태로 구현될 수도 있으며, 스마트폰이나 컴퓨터나 서버 등에 설치된 프로그램 또는 프레임워크 또는 애플리케이션 등의 소프트웨어 형태로 구현될 수도 있음은 물론이다. 또한, 데이터 센터 관리장치(100)의 각 구성요소는 물리적 구성요소로 구현될 수도 있고 소프트웨어의 기능 형태의 구성요소로 구현될 수도 있다.

이하에서는, 도 2를 참고하여, 데이터 센터 관리 장치(100)의 구성에 대해 더욱 상세히 설명한다. 도 2는 본 발명의 일 실시예에 따른, 데이터 센터 관리장치(100)의 구성을 도시한 도면이다.

도 2에 도시된 바와 같이, 데이터 센터 관리장치(100)는 통신부(110)와 제어부(120)를 포함한다.

통신부(110)는 데이터 센터(10)와 통신 가능하도록 연결되며, 데이터 센터(10)의 환경 데이터와 워크로드 데이터가 수신된다. 여기에서, 환경 데이터는 데이터 센터(10)에 배치된 센서들에 의해 감지되는 데이터 센터의 환경에 대한 데이터들을 나타내며, 온도 데이터, 습도 데이터, 및 팬 상태 데이터를 포함할 수도 있다. 또한, 워크로드 데이터는 데이터 센터(10)에서 사용되고 있는 가상 자원의 양에 대한 데이터를 나타내는 것으로, CPU 사용량 데이터, 메모리 사용량 데이터, 스토리지 사용량 데이터, 네트워크 부하량 데이터 등을 포함할 수도 있다.

통신부(110)는 블루투스, 와이파이(WIFI), 근거리무선통신(NFC), 셀룰러, LTE(Long-Term Evolution) 등 다양한 무선 통신 방식으로 통신을 수행할 수 있으며, 유선랜 등의 유선 통신으로 통신을 할 수도 있음은 물론이다.

제어부(120)는 데이터 센터 관리장치(100)의 전반적인 동작을 제어한다. 구체적으로, 제어부(120)는 수신된 환경 데이터와 워크로드 데이터와 학습된 예측모델을 이용하여 장애발생 가능성을 산출하고, 산출된 장애발생 가능성에 따라 데이터 센터의 가상 자원을 재배치한다. 여기에서, 장애발생 가능성은 데이터 센터에 포함된 서버나 장비들에서 장애가 발생될 가능성을 나타내는 값으로, 장애발생 가능성 값이 높을수록 일정 시간 내에 장애가 발생될 가능성이 높다는 것을 의미한다.

이외에 제어부(120)의 상세한 동작은 도 3을 참고하여 설명한다. 도 3은 본 발명의 일 실시예에 따른, 데이터 센터 관리 방법을 설명하기 위해 제공되는 흐름도이다.

우선, 제어부(120)는 환경 데이터와 워크로드 데이터를 이용하여 장애발생 가능성을 예측하는 예측모델을 딥러닝을 통해 학습시킨다(S210). 이 때, 제어부(120)는 다양한 딥러닝 알고리즘을 이용하여 예측모델을 학습시킬 수 있으며, 예를 들어, 제어부(120)는 LSTM(Long Short Term Memory) 알고리즘을 이용하여 예측모델을 학습시킬 수도 있다. 예를 들어, 제어부(120)는 일정 기간동안 장애가 발생되지 않았을 때의 환경 데이터와 워크로드 데이터 세트와 일정 기간 중에 장애가 발생되었을 때의 환경 데이터와 워크로드 데이터 세트를 예측모델에 입력하고, 딥러닝 알고리즘을 이용해 예측모델을 학습시키게 된다.

그리고, 제어부(120)는 학습이 완료되면 학습이 완료된 해당 예측모델을 이용하게 되며, 구체적으로, 제어부(120)는 데이터 센터의 환경 데이터와 워크로드 데이터가 수신되면, 학습된 예측모델을 이용하여 장애발생 가능성을 산출하게 된다(S220). 예측모델은 환경 데이터와 워크로드 데이터가 입력되면 장애발생 가능성을 산출하여 출력하는 인공지능 딥러닝 학습 모델이다.

그 후에, 제어부(120)는 산출된 장애발생 가능성에 따라, 데이터 센터의 가상 자원을 재배치한다(S230). 구체적으로, 제어부(120)는 산출된 장애발생 가능성이 제1 임계값 이상일 경우, 전체적인 CPU 사용량과 메모리 사용량을 기설정된 값만큼 낮춤으로써 가상 자원을 재배치하게 된다. 반면, 제어부(120)는 산출된 장애발생 가능성이 제2 임계값 이하일 경우, 전체적인 CPU 사용량과 메모리 사용량을 기설정된 값만큼 높임으로써 가상 자원을 재배치하게 된다.

예를 들어, 제어부(120)는 장애발생 가능성이 제1 임계값인 80% 이상인 경우, CPU 사용량과 메모리 사용량을 현재 사용량 대비 절반 수준으로 강제로 낮출 수도 있다. 또한, 제어부(120)는 장애발생 가능성이 제2 임계값인 20% 이하인 경우, CPU 사용량과 메모리 사용량을 현재 사용량 대비 두배 수준으로 높일 수도 있다. 제1 임계값과 제2 임계값은 사용자에 의해 정책에 따라 설정될 수 있으며 변경 가능한 값이다. 이외에도, 제어부(120)는 다양한 방식으로 장애발생 가능성에 따라 데이터 센터의 가상 자원을 재배치할 수 있다.

이와 같은 과정을 통해, 데이터 센터 관리장치(100)는 장애발생 가능성을 학습 및 예측하여 데이터 센터의 가상자원을 재배치함으로써, 마이크로 데이터센터 환경에서도 장애 관리 리스크를 최소화 할 수 있게 되며 워크로드 예측을 통해 장애 발생 가능성을 최소화할 수 있게 된다.

도 4는 본 발명의 일 실시예에 따른, 딥러닝의 구조를 도시한 도면이다. 도 4에 도시된 바와 같이, 입력 데이터(400)가 데이터 센터 관리장치(100)에 입력되면, 데이터 센터 관리장치(100)는 딥러닝 알고리즘 중 LSTM 알고리즘을 이용하여 학습된 예측모델을 이용하여 데이터 센터(10)의 가상 자원을 재배치하게 된다.

여기에서, 입력 데이터(400)는 환경 데이터와 워크로드 데이터를 포함한다. 도 5에 도시된 바와 같이, 환경 데이터는 온도 데이터(Temperature), 습도 데이터(Humidity), 및 팬 상태 데이터(Fan Assisted)가 포함된 것을 확인할 수 있다. 또한, 워크로드 데이터는 데이터 센터(10)에서 사용되고 있는 가상 자원의 양에 한 데이터를 나타내는 것으로, CPU 사용량 데이터(Compute) 및 메모리 사용량 데이터를 포함할 수도 있다.

도 5는 본 발명의 일 실시예에 따른, 딥러닝 학습이 진행되는 과정을 도시한 도면이다.

도 5에 도시된 바와 같이, 데이터 센터 관리장치(100)는 데이터로더(Data Loader)(510)가 환경 데이터 및 워크로드 데이터를 입력받게 되면, 스케일링(Scaling)(520)이 데이터를 스케일링하게 되고, 스플릿 데이터셋(Split DataSet)(530)이 입력된 데이터를 트레이닝셋(TrainingSet)(540)과 테스팅셋(TestingSet)(550)으로 분할하게 된다.

그리고, 데이터 센터 관리장치(100)는 트레이닝셋(540)을 이용하여 예측모델(LSTM Model)(545)을 학습시키게 된다. 그리고, 데이터 센터 관리장치(100)는 테스팅셋(550)을 학습이 완료된 예측모델(555)에 입력하여 장애발생가능성을 예측하게 된다. 그리고, 데이터 센터 관리장치(100)는 학습된 모델을 시리얼라이제이션(Model Serialization)(560)하게 되고, 그 모델 파일을 저장(Save Model File)(570)하게 된다.

한편, 본 실시예에 따른 장치의 기능 및 방법을 수행하게 하는 컴퓨터 프로그램을 수록한 컴퓨터로 읽을 수 있는 기록매체에도 본 발명의 기술적 사상이 적용될 수 있음은 물론이다. 또한, 본 발명의 다양한 실시예에 따른 기술적 사상은 컴퓨터로 읽을 수 있는 기록매체에 기록된 컴퓨터로 읽을 수 있는 프로그래밍 언어 코드 형태로 구현될 수도 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터에 의해 읽을 수 있고 데이터를 저장할 수 있는 어떤 데이터 저장 장치이더라도 가능하다. 예를 들어, 컴퓨터로 읽을 수 있는 기록매체는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광디스크, 하드 디스크 드라이브, 플래시 메모리, 솔리드 스테이트 디스크(SSD) 등이 될 수 있음은 물론이다. 또한, 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터로 읽을 수 있는 코드 또는 프로그램은 컴퓨터간에 연결된 네트워크를 통해 전송될 수도 있다.

본 명세서와 도면에서는 예시적인 장치 구성을 기술하고 있지만, 본 명세서에서 설명하는 기능적인 동작과 주제의 구현물은 다른 유형의 디지털 전자 회로로구현되거나, 본 명세서에서 개시하는 구조 및 그 구조적인 등가물들을 포함하는 컴퓨터 소프트웨어, 펌웨어 혹은 하드웨어로 구현되거나, 이들 중 하나 이상의 결합으로 구현 가능하다.

따라서, 상술한 예를 참조하여 본 발명을 상세하게 설명하였지만, 본 발명이속하는 분야의 통상의 기술자라면 본 발명의 범위를 벗어나지 않으면서도 본 예들에 대한 개조, 변경 및 변형을 가할 수 있다.

또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

10 : 데이터 센터
100 : 데이터 센터 관리장치
110 : 통신부
120 : 제어부

Claims

데이터 센터 관리장치에 의한 데이터 센터 관리방법에 있어서,
데이터 센터의 환경 데이터와 워크로드 데이터가 수신되면, 학습된 예측모델을 이용하여 장애발생 가능성을 산출하는 단계; 및
산출된 장애발생 가능성에 따라, 데이터 센터의 가상 자원을 재배치하는 단계;를 포함하고,
재배치하는 단계는,
산출된 장애발생 가능성이 제1 임계값 이상일 경우, 전체적인 CPU 사용량과 메모리 사용량을 기설정된 값만큼 낮춤으로써 가상 자원을 재배치하고,
산출된 장애발생 가능성이 제2 임계값 이하일 경우, 전체적인 CPU 사용량과 메모리 사용량을 기설정된 값만큼 높임으로써 가상 자원을 재배치하며,
제1 임계값과 제2 임계값은,
사용자에 의해 설정될 수 있으며 변경 가능한 값인 것을 특징으로 하는 데이터 센터 관리방법.
청구항 1에 있어서,
환경 데이터와 워크로드 데이터를 이용하여 장애발생 가능성을 예측하는 예측모델을 딥러닝을 통해 학습시키는 단계;를 더 포함하는 것을 특징으로 하는 데이터 센터 관리방법.
청구항 2에 있어서,
학습시키는 단계는,
LSTM(Long Short Term Memory) 알고리즘을 이용하여 예측모델을 학습시키는 것을 특징으로 하는 데이터 센터 관리방법.
삭제
삭제
청구항 1에 있어서,
환경 데이터는,
온도 데이터, 습도 데이터, 및 팬 상태 데이터를 포함하는 것을 특징으로 하는 데이터 센터 관리방법.
청구항 1에 있어서,
워크로드 데이터는,
CPU 사용량 데이터 및 메모리 사용량 데이터를 포함하는 것을 특징으로 하는 데이터 센터 관리방법.
데이터 센터의 환경 데이터와 워크로드 데이터가 수신되는 통신부; 및
수신된 환경 데이터와 워크로드 데이터와 학습된 예측모델을 이용하여 장애발생 가능성을 산출하고, 산출된 장애발생 가능성에 따라 데이터 센터의 가상 자원을 재배치하는 제어부;를 포함하고,
제어부는,
산출된 장애발생 가능성이 제1 임계값 이상일 경우, 전체적인 CPU 사용량과 메모리 사용량을 기설정된 값만큼 낮춤으로써 가상 자원을 재배치하고,
산출된 장애발생 가능성이 제2 임계값 이하일 경우, 전체적인 CPU 사용량과 메모리 사용량을 기설정된 값만큼 높임으로써 가상 자원을 재배치하며,
제1 임계값과 제2 임계값은,
사용자에 의해 설정될 수 있으며 변경 가능한 값인 것을 특징으로 하는 데이터 센터 관리장치.