KR102024846B1

KR102024846B1 - 파일 시스템 프로그램 및 이를 이용한 데이터 센터 제어 방법

Info

Publication number: KR102024846B1
Application number: KR1020180017761A
Authority: KR
Inventors: 김영재; 아웨스 칸; 무함마드 아틱
Original assignee: 서강대학교 산학협력단
Priority date: 2018-02-13
Filing date: 2018-02-13
Publication date: 2019-09-24
Also published as: KR20190097844A

Abstract

데이터 생성원에 탑재된 파일 시스템 프로그램으로서, 상기 데이터 생성원에 의해 요청된 데이터를 처리할 데이터 센터들의 수를 확인하는 단계, 상기 데이터 생성원에 연동된 각 데이터 센터의 데이터 전송 시간, 데이터 저장 시간 및 데이터 분석 시간을 이용하여, 각 데이터 센터의 예상 작업 시간을 결정하는 단계, 그리고 상기 예상 작업 시간을 이용하여, 상기 데이터 생성원에 연동된 데이터 센터들 중에서 데이터를 처리할 데이터 센터들을 상기 수만큼 결정하는 단계를 실행하는 명령어들을 포함한다.

Description

파일 시스템 프로그램 및 이를 이용한 데이터 센터 제어 방법{FILE SYSTEM PROGRAM AND METHOD FOR CONTROLLING DATA CENER USING IT}

본 발명은 파일 시스템 프로그램 기술에 관한 것이다.

최근 데이터 생산이 폭발적으로 증가하고 있다. 지금까지 생산된 데이터의 90%가 최근 2년간 생산되었으며, 그 크기는 페타바이트에 이른다. 구체적으로, 날씨 회사는 전세계의 온도 판독값, 풍속, 기압 및 위성 이미지를 저장하기 위해 매일 20테라바이트 이상의 데이터를 생성하고, 다수의 미국 에너지부 산하 연구 기관들은 연간 수백 페타바이트의 시뮬레이션 데이터를 생성하고 있으며, 나아가 2018년까지 생산될 데이터는 1엑사바이트를 초과할 것으로 예상된다.

위와 같이 데이터 양이 기하 급수적으로 증가함에 따라 데이터 분산, 효과적인 공동 작업 및 분석 기능을 향상시키기 위해, 다수의 기관 및 단체는 지리적으로 분산된 데이터 센터(geo-distributed data center)들을 구축하고 이들을 제어하는 파일 시스템 프로그램을 구현하고 있다. 구현된 파일 시스템 프로그램을 통해, 서로 다른 영역에 존재하는 데이터를 공유하고 분석할 수 있으며, 시뮬레이션을 수행하고 그 결과를 검증할 수 있다.

기존의 파일 시스템 프로그램은 이러한 데이터 공유 및 협업 요구를 처리할 수 있도록 고안되었으나, 다음과 같은 문제점을 가진다.

첫째로, 기존의 파일 시스템 프로그램은 데이터 생성원(data generator)으로부터 생성된 데이터를 이주하기 위해 가장 가까운 데이터 센터를 선택하는데, 이러한 방법은 데이터 센터와 데이터 생성원 간의 스토리지 대역폭 및 네트워크 연결성 등의 자원 가용성에 의존하는 데이터 저장시간을 고려하지 않고, 지리적으로 분산된 통합 데이터 센터에서 자원의 효과적인 이용을 보장할 수 없다는 문제가 있다. 또한, 단순히 데이터 생성원과 데이터 센터와의 거리만을 고려하는 것은 저장된 데이터의 분석과 같은 저장 후 처리를 고려하지 않고, 작업 완료를 위해 단일 데이터센터 만을 사용하는 문제가 있다.

둘째로, 기존 파일 시스템 프로그램은 두 개의 다른 데이터 센터에 저장된 데이터 세트를 단일 데이터 센터에 모으기 위해 통합 네임 스페이스를 이용하는데, 통합 네임 스페이스 이용의 빈도가 높아지면 통합 성능 오버헤드가 커지는 문제가 발생한다.

본 발명이 해결하고자 하는 과제는 요청된 작업 유형과 데이터 센터들 각각의 리소스에 기초하여 데이터를 처리할 데이터 센터를 결정하는 파일 시스템 프로그램 및 이에 의한 데이터 센터 제어 방법을 제공하는 것이다.

본 발명이 해결하고자 하는 다른 과제는 작업 완료 시간이 감소할 수 있는 경우, 통합 네임스페이스를 통하지 않고 데이터 센터들 간에 직접적인 데이터 전송이 가능하도록 제어하는 파일 시스템 프로그램을 제공하는 것이다.

본 발명의 일 실시예에 따른 데이터 생성원에 탑재된 파일 시스템 프로그램은 상기 데이터 생성원에 의해 요청된 데이터를 처리할 데이터 센터들의 수를 확인하는 단계, 상기 데이터 생성원에 연동된 각 데이터 센터의 데이터 전송 시간, 데이터 저장 시간 및 데이터 분석 시간을 이용하여, 각 데이터 센터의 예상 작업 시간을 결정하는 단계, 그리고 상기 예상 작업 시간을 이용하여, 상기 데이터 생성원에 연동된 데이터 센터들 중에서 데이터를 처리할 데이터 센터들을 상기 수만큼 결정하는 단계를 실행하는 명령어들을 포함한다.

상기 데이터 생성원에 탑재된 파일 시스템 프로그램은 상기 데이터를 처리할 데이터 센터들에 할당된 데이터 크기를 상기 데이터 센터들의 사용 가능한 스토리지 용량과 비교하는 단계, 그리고 상기 할당된 데이터 크기가 상기 스토리지 용량보다 큰 경우, 상기 데이터를처리할 데이터 센터들 중에서 스토리지 용량이 가장 작은 데이터 센터 대신 예상 작업 시간을 고려하여 결정된 데이터 센터를 데이터를 처리할 데이터 센터로 결정하는 단계를 실행하는 명령어들을 더 포함한다.

상기 데이터 생성원에 탑재된 파일 시스템 프로그램은 상기 데이터 생성원에 의해 요청된 작업 유형을 확인하는 단계를 실행하는 명령어들을 더 포함하고, 상기 데이터를 처리할 데이터 센터들을 상기 수만큼 결정하는 단계는 상기 작업 유형을 추가로 고려하여, 상기 데이터를 처리할 데이터 센터들을 상기 수만큼 결정한다.

상기 요청된 작업 유형은 데이터 배치 요청 또는 데이터 분석 요청 중 적어도 하나를 포함한다.

본 발명의 일 실시예에 따른 데이터 생성원에 탑재된 파일 시스템 프로그램은 상기 데이터 생성원에 의해 요청된 작업 유형을 확인하는 단계, 그리고 상기 요청된 작업 유형에 기초하여, 상기 데이터 생성원에 연동된 데이터 센터들 중 데이터를 처리할 하나 이상의 데이터 센터들을 결정하는 단계를 실행하는 명령어들을 포함한다.

상기 데이터 생성원에 탑재된 파일 시스템 프로그램은 상기 데이터 생성원에 연동된 데이터 센터들 각각의 사용 가능한 리소스를 결정하는 단계를 실행하는 명령어들을 더 포함하고, 상기 데이터를 처리할 하나 이상의 데이터 센터들을 결정하는 단계는 상기 리소스를 추가로 고려하여, 상기 데이터를 처리할 하나 이상의 데이터 센터들을 결정한다.

상기 데이터를 처리할 하나 이상의 데이터 센터들을 결정하는 단계는 상기 요청된 작업 유형 및 상기 리소스를 이용하여 상기 데이터를 처리할 하나 이상의 데이터 센터들의 후보군을 결정하고, 상기 후보군에 포함된 각 데이터 센터가 상기 데이터를 처리하는데 필요한 예상 작업 시간을 결정하고, 상기 예상 작업 시간에 기초하여 상기 후보군에서 상기 데이터를 처리할 하나 이상의 데이터 센터들을 결정한다.

상기 예상 작업 시간은 상기 후보군에 포함된 각 데이터 센터의 데이터 전송 시간, 데이터 저장 시간 또는 데이터 분석 시간 중 적어도 하나에 따라 결정된다.

상기 데이터를 처리할 하나 이상의 데이터 센터들을 결정하는 단계는 상기 데이터 생성원에 의해 요청된 데이터를 처리할 데이터 센터들의 수를 확인하고, 상기 후보군에서 상기 수만큼의 데이터 센터를 상기 데이터를 처리할 하나 이상의 데이터 센터들로 결정한다.

본 발명의 일 실시예에 따른 데이터 센터에 탑재된 파일 시스템 프로그램은 다른 데이터 센터에 존재하는 데이터에 대해 상기 데이터 센터로 전송을 요청하는 단계, 그리고 상기 데이터 센터의 로컬 네임스페이스를 이용하여, 상기 데이터를 상기 다른 데이터 센터로부터 직접 수신하는 단계를 실행하는 명령어들을 포함한다.

상기 데이터를 상기 다른 데이터 센터로부터 직접 수신하는 단계는 상기 데이터 센터와 상기 다른 데이터 센터 사이에 상기 로컬 네임스페이스에 따라 구축된 가상 직접 채널을 이용하여, 상기 데이터를 상기 다른 데이터 센터로부터 직접 수신한다.

본 발명에 따르면, 요청된 작업 유형과 각 데이터 센터의 리소스를 고려하여 데이터를 처리할 데이터 센터를 결정하는바, 데이터 센터의 리소스를 효과적으로 이용할 수 있다.

또한, 본 발명에 따르면, 데이터 센터들 간에 직접적인 데이터 전송이 가능한바, 파일 시스템 프로그램의 통합 네임스페이스를 빈번하게 이용함으로써 야기되는 성능 오버헤드를 감소시킬 수 있다.

도 1은 한 실시예에 따른 파일 시스템 프로그램이 구현되는 환경을 나타낸 도면이다.
도 2는 데이터 생성원에 탑재된 파일 시스템 프로그램의 제어에 따라 네트워크 내에서 데이터가 전송되는 방법을 설명하는 도면이다.
도 3은 한 실시예에 따른 데이터 생성원에 탑재된 파일 시스템 프로그램이 데이터 센터를 제어하는 방법을 나타낸 순서도이다.
도 4는 한 실시예에 따른 데이터 생성원에 탑재된 파일 시스템 프로그램이 데이터 센터를 제어하는 다른 방법을 나타낸 순서도이다.
도 5는 한 실시예에 따른 데이터 센터들에 탑재된 파일 시스템 프로그램이 데이터 센터 간 직접 전송을 제어하는 다른 방법을 나타낸 순서도이다.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

이하, 도면을 참조로 하여 본 발명의 실시예에 따른 파일 시스템 프로그램 및 이를 이용한 데이터 센터 제어 방법에 대해 설명한다.

도 1은 한 실시예에 따른 파일 시스템 프로그램이 구현되는 환경을 나타낸 도면이다.

도 1을 참고하면, 파일 시스템 프로그램이 구현되는 환경(1000)은 데이터 생성원(100), 파일 시스템 프로그램(210 내지 240) 및 데이터 센터들(300)을 포함한다.

데이터 생성원(100)은 특정 목적을 위해 데이터를 생성하는 디바이스를 지칭하며, 생성되는 데이터는 어느 한 유형에 한정되지 않는다.

예를 들면, 데이터 생성원(100)은 날씨를 관측하기 위해 위성 이미지를 수집하는 인공 위성 디바이스일 수 있으며, 수집한 위성 이미지를 데이터 센터들(300) 중 임의의 데이터 센터에 저장하거나, 수집한 위성 이미지를 데이터 센터들(300) 중 임의의 데이터 센터가 분석할 것을 파일 시스템 프로그램(210)을 통해 요청할 수 있다.

비록 도 1에서는 데이터 생성원(100)이 단일하게 도시되었으나, 다양한 실시예에 따라 다수의 데이터 생성원 각각이 독립적으로 파일 시스템 프로그램과 연동되고, 데이터 센터들(300)로 하여금 데이터를 처리할 것을 요청할 수 있음은 물론이다.

파일 시스템 프로그램(210 내지 240)은 데이터 생성원(100) 또는 복수의 데이터 센터들(310 내지 330)에 탑재된 프로그램으로서, 데이터 생성원(100)과 데이터 센터들(300)을 연동하고, 데이터 생성원(100)에 의한 데이터 처리 요청에 기초하여 데이터 센터들(300) 중에서 데이터를 처리할 데이터 센터를 결정한다.

파일 시스템 프로그램(210)은 데이터 센터들(300)을 통합 네임스페이스 아래에 통합하며, 이를 통해 데이터 센터들(300)에 접근한다.

데이터 센터들(300)은 컴퓨팅 시스템, 통신 디바이스 및 저장 장치 등이 구현된 디바이스들의 클러스터를 지칭하며, 데이터의 배치 및 분석 등의 기능을 수행한다.

본 발명에서 데이터 센터들(300)은 지리적으로 분산된 데이터 센터들의 클러스터를 의미하며, 데이터 센터들(300) 중에서 파일 시스템 프로그램(210)에 의해 결정된 데이터 센터는 데이터 생성원(100)으로부터 데이터를 수신하고, 수신한 데이터를 배치하거나 저장한다.

데이터 센터들(300)을 구성하는 각 데이터 센터(310 내지 330)의 리소스는 서로 독립적인 것으로 가정한다. 구체적으로, 각 데이터 센터(310 내지 330)는 스토리지 용량, 스토리지 대역폭, 연산 성능 및 네트워크 대역폭을 독립적으로 가진다.

도 2는 데이터 생성원에 탑재된 파일 시스템 프로그램의 제어에 따라 네트워크 내에서 데이터가 전송되는 방법을 설명하는 도면이다.

도 2를 참고하면, 네트워크(2000)는 데이터 생성원(100), 데이터 센터들(300) 및 VPN 스위치(400)로 구성된다. 도 1에서 설명한 바와 같이, 파일 시스템 프로그램(210)은 데이터 생성원(100)에 탑재되어 데이터 전송을 제어하는 것으로 가정한다.

데이터 생성원(100)은 대량의 데이터를 지속적으로 생성하며, VPN 스위치(400)를 통해 데이터 센터(300)에 연결된다.

비록 도 2에서 데이터 생성원(100)은 단일한 것으로 도시되었으나, 다수의 데이터 생성원이 네트워크(2000) 내에 존재하여 각각의 데이터 생성원 마다 독립적으로 아래의 데이터 전송 방법을 수행할 수 있음은 물론이다.

데이터 생성원(100)에 의해 생성된 데이터가 데이터 센터들(300) 모두에 할당되면 최소 작업 실행 시간은 달성되나, 데이터 저장 및 분석 후 데이터 센터들(300) 사이에 데이터 이주에 따른 오버헤드가 증가하게 된다. 따라서, 데이터 생성원(100)은 데이터를 처리할 데이터 센터들의 수

를 결정하고, 데이터 생성원(100)에 탑재된 파일 시스템 프로그램(210)은

를 확인한다. 예를 들면, 데이터 생성원(100)이 데이터를 처리할 데이터 센터들의 수

를 "1"로 결정한 경우, 데이터는 단일 데이터 센터에 저장되고 분석된다.

파일 시스템 프로그램(210)은 데이터 센터들(300) 중에서 실제로 데이터를 처리할 하나 이상의 데이터 센터들을 결정하기 위해, 데이터 생성원(100)에 연동된 각 데이터 센터의 전송 시간, 저장 시간 및 분석 시간을 이용하여, 전체 데이터 전송 시간, 전체 데이터 저장 시간 및 전체 데이터 분석 시간을 결정한다.

구체적으로, 데이터 생성원(100)이

만큼의 데이터를 데이터 센터들(300) 중 임의의 데이터 센터로 전송하는 경우 데이터 조각(slice)의 크기를

, 데이터 생성원(100)에서 임의의 데이터 센터로 전송하는데 필요한 조각수를

라고 가정하면, 전송되는 총 데이터 양

이다. 데이터 생성원(100)에서

번째 데이터 센터로 한 조각의 데이터를 전송하는데 걸리는 시간을

로 표시하면, 데이터 생성원(100)에서 데이터 센터들(300)에 데이터가 전송되는데 소요되는 전체 데이터 전송 시간

은 수학식 1과 같다.

데이터 생성원(100)에서 전송된 한 조각의 데이터를

번째 데이터 센터가 저장하는데 걸리는 시간을

라고 하면, 데이터 센터들(300)이 소모한 전체 데이터 저장 시간

는 수학식 2와 같다.

번째 데이터 센터가 한 조각의 데이터를 분석하는데 소요되는 시간을

라 하고, 분석해야 하는 조각수를

라 하면, 데이터 센터들(300)이 소모한 전체 데이터 분석 시간

은 수학식 3과 같다.

또한,

,

및

에 따라

번째 데이터 센터의 예상 작업 시간

을 결정할 수 있으며,

는 수학식 4와 같다.

수학식 4에서,

는 데이터 배치 시간

을 의미한다. 데이터 처리에서는 조각을 단위로 사용하기 때문에, 데이터를 수신한 데이터 센터는 첫번째 조각을 수신하는 즉시 작업을 시작한다. 따라서, 시간 중복을 피하기 위해 최대 전송 시간과 저장 시간을 사용하여 데이터 배치 시간

을 결정하며,

는

번째 데이터 센터의 데이터 배치 시간을 의미한다.

요청된 작업 유형이 데이터 배치 요청과 데이터 분석 요청을 모두 포함하는 경우, 파일 시스템 프로그램(210)은 예상 작업 시간이 작은 순서대로 데이터 센터를

개 결정하고, 결정된 데이터 센터들로 구성된 제1 세트를 결정한다.

이후, 파일 시스템 프로그램(210)은 제1 세트에 포함된 각 데이터 센터의 예상 작업 시간에 기초하여 각 데이터 센터에 데이터를 배포하고, 제1 세트에 포함된 데이터 센터들이 데이터를 처리하는데 필요한 전체 예상 작업 시간을 계산한다.

만일 제1 세트에 포함된 데이터 센터들에 할당된 데이터 크기가 데이터 센터들의 사용 가능한 스토리지 용량보다 적은 경우, 파일 시스템 프로그램(210)은 초과하는 데이터를 예상 작업 시간이

번째로 작은 데이터 센터에 할당하고,

를 다시 계산한다. 이후, 파일 시스템 프로그램(210)은 제1 세트에 포함된 데이터 센터들 중 사용 가능한 스토리지 용량이 적은 데이터 센터 대신 예상 작업 시간을 고려하여 결정된 데이터 센터를 추가하여 제2 세트를 구성한다.

예를 들면, 파일 시스템 프로그램(210)은 제1 세트에 포함된 데이터 센터들 중 사용 가능한 스토리지 용량이 가장 적은 데이터 센터를 제외하고, 예상 작업 시간이

번째로 작은 데이터 센터를 추가하여 제2 세트를 구성할 수 있다.

파일 시스템 프로그램(210)은 제2 세트에 포함된 데이터 센터들이 데이터를 처리하는데 필요한 전체 예상 작업 시간을 계산하며, 제2 세트에 포함된 데이터 센터들에 할당된 데이터 크기가 데이터 센터들의 사용 가능한 스토리지 용량보다 적은 경우 상기 과정을 반복한다.

반대로, 제2 세트에 포함된 데이터 센터들에 할당된 데이터 크기가 데이터 센터들의 사용 가능한 스토리지 용량보다 큰 경우, 파일 시스템 프로그램(210)은 제2 세트에 포함된 데이터 센터들로 하여금 데이터를 배치 및 분석하게 한다.

만일 요청된 작업 유형이 데이터 배치 요청인 경우, 파일 시스템 프로그램(210)은 데이터 배치 시간이 가장 작은 데이터 센터를 데이터 생성원(100)으로부터 수신한 데이터를 처리할 데이터 센터들의 수만큼 결정하고, 결정된 데이터 센터들로 하여금 데이터를 배치하게 한다.

만일 요청된 작업 유형이 데이터 분석 요청인 경우, 다른 데이터 센터로 데이터를 이주시켰을 때 분석시간이 향상되지 않는 한 같은 데이터 센터에서 분석을 수행하는 것이 유리하다. 따라서, 데이터가 전송된 데이터 센터의 데이터 분석 시간이 다른 데이터 센터로의 전송 시간과 상기 다른 데이터 센터의 데이터 분석 시간을 합한 시간보다 큰 경우, 파일 시스템 프로그램(210)은 데이터 센터(300) 사이에 데이터 전송이 이루어지도록 한다.

도 3은 한 실시예에 따른 데이터 생성원에 탑재된 파일 시스템 프로그램이 데이터 센터를 제어하는 방법을 나타낸 순서도이다.

도 3을 참고하면, 파일 시스템 프로그램(210)은 데이터 생성원(100)에 의해 요청된 작업 유형을 확인한다(S100).

요청된 작업 유형은 데이터 배치 요청 또는 데이터 분석 요청 중 적어도 하나를 포함한다. 구체적으로, 데이터 배치 요청은 임의의 데이터 센터에 데이터를 전송하거나, 스테이징, 공간 할당, 메타 데이터 등록, 데이터 검색 등과 같은 데이터의 이동과 관련된 요청을 지칭할 수 있다. 또한, 데이터 분석 요청은 임의의 데이터 센터에서의 데이터 분석 요청을 지칭할 수 있다.

파일 시스템 프로그램(210)은 데이터 센터들(300) 각각의 사용 가능한 리소스를 결정한다(S110).

구체적으로, 파일 시스템 프로그램(210)은 데이터 처리 요청을 수신할 당시 데이터 센터들(300) 각각의 사용 가능한 스토리지 용량, 스토리지 대역폭, 연산 성능 또는 네트워크 대역폭 중 적어도 하나를 결정한다.

이 경우, 파일 시스템 프로그램(210)은 데이터 센터들(300) 각각에 설치된 파일 시스템 프로그램(220 내지 240)으로부터 데이터 센터의 리소스 정보를 수신할 수 있고, 또는 데이터 센터들(300)에 대한 메타데이터(meta data)를 수신하고, 이를 통해 각 데이터 센터의 리소스를 결정할 수도 있다.

파일 시스템 프로그램(210)은 데이터 생성원(100)에 연동된 데이터 센터들(300) 중 데이터를 처리할 하나 이상의 데이터 센터들을 결정한다(S120).

일 실시예에서, 데이터 센터 결정부(230)는 요청된 작업 유형에 기초하여 데이터 센터들(300) 중 데이터를 처리할 하나 이상의 데이터 센터들을 결정할 수 있다.

예를 들면, 요청된 작업 유형이 데이터 분석 요청인 경우, 파일 시스템 프로그램(210)은 데이터 센터들(300) 중 연산 성능이 특정값 이상인 데이터 센터들을 데이터를 처리할 데이터 센터로서 결정하거나, 연산 성능이 높은 특정수의 데이터 센터들을 데이터를 처리할 데이터 센터로서 결정할 수 있다.

이와 유사하게, 요청된 작업 유형이 데이터 배치 요청인 경우, 파일 시스템 프로그램(210)은 데이터 센터들(300) 중 저장 성능이 특정값 이상인 데이터 센터들을 데이터를 처리할 데이터 센터로서 결정하거나, 저장 성능이 높은 특정수의 데이터 센터들을 데이터를 처리할 데이터 센터로서 결정할 수 있다.

다른 실시예에서, 파일 시스템 프로그램(210)은 데이터 센터들(300) 각각의 사용 가능한 리소스를 추가로 고려하여 데이터 센터들(300) 중 데이터를 처리할 하나 이상의 데이터 센터들을 결정할 수 있다.

구체적으로, 파일 시스템 프로그램(210)은 작업 유형 및 리소스를 이용하여 데이터를 처리할 하나 이상의 데이터 센터들의 후보군을 결정한다. 예를 들면, 파일 시스템 프로그램(210)은 데이터 생성원(100)에 의해 요청된 작업 유형을 확인하고, 요청된 작업 유형을 수행하는데 필요한 전체 리소스를 결정할 수 있다. 이후, 파일 시스템 프로그램(210)은 결정한 전체 리소스 이상의 사용 가능한 리소스를 가진 데이터 센터들을 후보군으로 결정할 수 있다.

이후, 파일 시스템 프로그램(210)은 후보군에 포함된 각 데이터 센터가 데이터를 처리하는데 필요한 예상 작업 시간을 결정한다.

구체적으로, 파일 시스템 프로그램(210)은 리소스에 기초하여 각 데이터 센터의 데이터 전송 시간, 데이터 저장 시간 또는 데이터 분석 시간 중 적어도 하나를 결정한다.

여기서, 데이터 전송 시간은 데이터 생성원(100)에서 특정 데이터 센터로 데이터가 전송되는 시간을 지칭하며, 데이터 저장 시간은 데이터 센터가 전송된 데이터를 저장하는 시간을 지칭하고, 데이터 분석 시간은 데이터 센터가 전송된 데이터를 분석하는 시간을 지칭한다.

이후, 파일 시스템 프로그램(210)은 각 데이터 센터 마다 결정된 데이터 전송 시간, 데이터 저장 시간 또는 데이터 분석 시간 중 적어도 하나를 이용하여 해당 데이터 센터의 예상 작업 시간을 결정한다.

예를 들면, 파일 시스템 프로그램(210)은 후보군에 포함된 제1 데이터 센터(310)가 데이터 배치 요청을 처리하는데 필요한 예상 작업 시간을 제1 데이터 센터(310)의 데이터 전송 시간과 데이터 저장 시간을 더한 시간으로 결정할 수 있다.

이후, 파일 시스템 프로그램(210)은 예상 작업 시간에 기초하여, 후보군에 포함된 데이터 센터들 중에서 데이터를 처리할 하나 이상의 데이터 센터들을 결정한다.

일 실시예에서, 파일 시스템 프로그램(210)은 예상 작업 시간이 작은 특정수의 데이터 센터들을 데이터를 처리할 하나 이상의 데이터 센터들로 결정할 수 있다.

다른 실시예에서, 파일 시스템 프로그램(210)은 데이터 생성원(100)에 의해요청된 데이터를 처리할 데이터 센터들의 수를 확인하고, 후보군에 포함된 데이터 센터들 중에서 결정된 수만큼의 데이터 센터를 데이터를 처리할 하나 이상의 데이터 센터들로 결정할 수 있다.

예를 들면, 파일 시스템 프로그램(210)은 데이터 생성원(100)에 의해 요청된 데이터를 처리할 데이터 센터들의 수가 "3"인 경우 데이터 센터 결정부(230)는 후보군에서 예상 작업 시간이 가장 작은 3개의 데이터 센터를 결정할 수 있다.

본 발명에 따르면, 요청된 작업 유형 및 각 데이터 센터의 리소스를 고려하여 데이터를 처리할 데이터 센터를 결정하는바, 연동된 데이터 센터들의 리소스를 효과적으로 이용할 수 있다.

데이터를 처리할 하나 이상의 데이터 센터가 결정되면, 파일 시스템 프로그램(210)은 데이터 처리 요청을 전송한 데이터 생성원(100)에서 결정된 데이터 센터로 데이터를 전송 및 처리 요청하도록 한다(S130). 이 경우, 데이터는 파일 시스템 프로그램의 통합 네임스페이스를 통해 전송된다.

도 4는 한 실시예에 따른 데이터 생성원에 탑재된 파일 시스템 프로그램이 데이터 센터를 제어하는 다른 방법을 나타낸 순서도이다.

도 4를 참고하면, 파일 시스템 프로그램(210)은 데이터 생성원(100)에 의해요청된 작업 유형을 확인한다(S200). 이 경우, 작업 유형은 데이터 배치 요청 또는 데이터 분석 요청 중 적어도 하나를 포함한다.

파일 시스템 프로그램(220)은 확인한 작업 유형에 기초하여, 데이터를 처리할 하나 이상의 데이터 센터들을 결정한다.

우선, 파일 시스템 프로그램(210)은 데이터 생성원(100)에 의해 요청된 데이터를 처리할 데이터 센터들의 수를 확인한다(S210).

파일 시스템 프로그램(210)은 데이터 생성원(100)에 연동된 데이터 센터들(300) 각각의 데이터 전송 시간, 데이터 저장 시간 또는 데이터 분석 시간 중 적어도 하나를 결정한다(S220).

구체적으로, 파일 시스템 프로그램(210)은 데이터 센터들(300) 각각의 사용 가능한 스토리지 용량, 스토리지 대역폭, 연산 성능 또는 네트워크 대역폭 중 적어도 하나를 이용하여 데이터 전송 시간, 데이터 저장 시간 또는 데이터 분석 시간을 결정한다.

예를 들면, 파일 시스템 프로그램(210)은 네트워크 대역폭을 이용하여 데이터 전송 시간을 결정할 수 있고, 스토리지 용량 및 스토리지 대역폭을 이용하여 데이터 저장 시간을 결정할 수 있으며, 연산 성능을 이용하여 데이터 분석 시간을 결정할 수 있다.

파일 시스템 프로그램(210)은 데이터 센터들(300) 각각에 대해 결정한 리소스 및 작업 유형에 기초하여, 단계 S210에서 결정된 수만큼의 데이터 센터들을 데이터를 처리할 하나 이상의 데이터 센터들로 결정한다.

구체적으로, 파일 시스템 프로그램(210)은 작업 유형에 따라 데이터 전송 시간, 데이터 저장 시간 또는 데이터 분석 시간 중 적어도 하나에 대한 중요도를 결정한다(S230).

예를 들면, 작업 유형이 데이터 배치 요청인 경우 데이터 분석 능력과는 무관하게 높은 스토리지 대역폭을 가진 데이터 센터가 작업을 빨리 완료할 수 있으므로, 파일 시스템 프로그램(210)은 데이터 분석 시간 보다 데이터 저장 시간 및 데이터 전송 시간에 높은 중요도를 설정할 수 있다.

반대로, 작업 유형이 데이터 분석 요청인 경우 데이터 분석 능력이 높은 데이터 센터가 작업을 빨리 완료할 수 있으므로, 파일 시스템 프로그램(210)은 데이터 저장 시간 보다는 데이터 분석 시간 및 데이터 저장 시간에 높은 중요도를 설정할 수 있다.

또한, 작업 유형이 데이터 배치와 데이터 분석을 모두 요청하는 경우라면, 데이터 센터의 스토리지 및 데이터 처리 성능을 모두 고려해야 한다. 이 경우, 파일 시스템 프로그램(210)은 데이터 센터들(300) 각각에 할당된 데이터 용량을 고려하여 데이터 저장 시간, 데이터 분석 시간 및 데이터 전송 시간의 중요도 순서를 높게 설정할 수 있다.

파일 시스템 프로그램(210)은 결정한 중요도 및 데이터 전송 시간, 데이터 저장 시간 또는 데이터 분석 시간 중 적어도 하나를 이용하여 데이터 센터들(300) 각각에 대한 예상 작업 시간을 결정한다(S240).

예를 들면, 작업 유형이 데이터 배치 요청이어서 데이터 분석 시간에 낮은 중요도가 설정된 경우, 파일 시스템 프로그램(210)은 데이터 저장 시간과 데이터 전송 시간만을 합한 시간을 예상 작업 시간으로 결정할 수 있다.

이후, 파일 시스템 프로그램(210)은 결정한 예상 작업 시간에 기초하여, 데이터 센터들(300) 중에서 단계 S210에서 결정된 수만큼의 데이터 센터들을 데이터를 처리할 하나 이상의 데이터 센터들로 결정한다(S250).

예를 들면, 단계 S210에서 데이터를 처리할 데이터 센터의 개수가 3개로 확인된 경우, 파일 시스템 프로그램(210)은 가장 적은 작업 시간을 가진 데이터 센터 3개를 데이터를 처리할 하나 이상의 데이터 센터들로 결정할 수 있다.

파일 시스템 프로그램(210)은 데이터를 데이터 센터들 각각에 할당한다(S260). 데이터를 할당받은 데이터 센터들은 할당된 데이터를 작업 유형에 따라 처리한다.

도 5는 한 실시예에 따른 데이터 센터들에 탑재된 파일 시스템 프로그램이 데이터 센터 간 직접 전송을 제어하는 다른 방법을 나타낸 순서도이다.

도 5에서는 제2 데이터 센터(320)에 존재하는 데이터에 대해 제1 데이터 센터(310)에서 분석 작업이 필요한 것으로 가정한다.

도 5을 참고하면, 제1 데이터 센터(310)에 탑재된 파일 시스템 프로그램(220)은 제2 데이터 센터(320)에 존재하는 데이터에 대해 제2 데이터 센터(320)로 데이터 전송을 요청한다(S300).

요청을 수신한 제2 데이터 센터(320)는 제1 데이터 센터(310)로 데이터를 전송하고, 제1 데이터 센터(310)는 로컬 네임스페이스를 이용하여 데이터를 수신한다(S310).

만일 단계 S310에서 제1 데이터 센터(310)가 파일 시스템 프로그램의 통합 인터페이스를 통해 데이터를 수신하는 경우, FUSE 오버헤드 및 NFS 오버헤드가 발생하게 된다.

따라서, 제1 데이터 센터(310)는 제1 데이터 센터(310)와 제2 데이터 센터(320) 사이에 로컬 네임스페이스에 따라 구축된 가상 직접 채널을 이용하여 데이터를 수신한다.

예를 들면, 제1 데이터 센터(310)에 탑재된 파일 시스템 프로그램(220)은 제1 데이터 센터(310)에 가상 직접 채널을 통해 데이터가 송수신될 수 있는 디렉토리를 생성하고, 제2 데이터 센터(320)에서 전송된 데이터가 상기 생성된 디렉토리에 저장되도록 하고, 상기 디렉토리에 저장된 파일에 제1 데이터 센터(310)가 접근하도록 제어할 수 있다.

제1 데이터 센터(310)는 수신한 데이터를 분석한다(S320).

본 발명에 따르면, 데이터 센터들 간에 직접적인 데이터 전송이 가능한바, 파일 시스템 프로그램의 통합 네임스페이스를 빈번하게 접근하여 야기되는 FUSE 및 NFS로 인한 통합 성능 오버헤드를 감소시킬 수 있다.

이상에서 전술한 본 발명의 실시예에 따른 파일 시스템 프로그램은 하드웨어인 컴퓨터와 결합되어 실행되기 위해 프로그램(또는 어플리케이션)으로 구현되어 컴퓨터 판독 가능한 기록 매체에 저장될 수 있다.

컴퓨터 판독 가능한 기록 매체는, 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 디바이스에 의해 판독 가능한 매체를 의미한다. 기록 매체의 예시로서, ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있지만, 이에 제한되지 않는다. 즉, 본 발명의 실시예에 따른 파일 시스템 프로그램은 컴퓨터가 접속할 수 있는 다양한 서버 상의 다양한 기록매체 또는 사용자의 상기 컴퓨터상의 다양한 기록매체에 저장될 수 있다.

또한, 본 발명에 따르면, 데이터 센터들 간에 직접적인 데이터 전송이 가능한바, 파일 시스템 프로그램의 통합 네임스페이스를 빈번하게 접근하여 야기되는 통합 성능 오버헤드를 감소시킬 수 있다.

이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims

데이터 생성원에 탑재되고, 컴퓨터 판독 가능한 기록 매체에 저장된 파일 시스템 프로그램으로서,
상기 데이터 생성원에 의해 요청된 데이터를 처리할 데이터 센터들의 수를 확인하는 단계,
상기 데이터 생성원에 연동된 각 데이터 센터의 데이터 전송 시간, 데이터 저장 시간 및 데이터 분석 시간을 이용하여, 각 데이터 센터의 예상 작업 시간을 결정하는 단계, 그리고
상기 예상 작업 시간을 이용하여, 상기 데이터 생성원에 연동된 데이터 센터들 중에서 데이터를 처리할 데이터 센터들을 상기 수만큼 결정하는 단계를 실행하는 명령어들을 포함하고,
상기 각 데이터 센터의 예상 작업 시간을 결정하는 단계는 각 데이터 센터의 데이터 전송 시간과 데이터 저장 시간 중에서 더 큰 시간을 각 데이터 센터의 데이터 배치 시간으로 결정하고, 각 데이터 센터의 데이터 배치 시간 및 데이터 분석 시간을 이용하여 각 데이터 센터의 예상 작업 시간을 결정하는 파일 시스템 프로그램.
제1항에서,
상기 데이터를 처리할 데이터 센터들에 할당된 데이터 크기를 상기 데이터 센터들의 사용 가능한 스토리지 용량과 비교하는 단계, 그리고
상기 할당된 데이터 크기가 상기 스토리지 용량보다 큰 경우, 상기 데이터를처리할 데이터 센터들 중에서 스토리지 용량이 가장 작은 데이터 센터 대신 예상 작업 시간을 고려하여 결정된 데이터 센터를 데이터를 처리할 데이터 센터로 결정하는 단계
를 실행하는 명령어들을 더 포함하는 파일 시스템 프로그램.
제1항에서,
상기 데이터 생성원에 의해 요청된 작업 유형을 확인하는 단계를 실행하는 명령어들을 더 포함하고,
상기 데이터를 처리할 데이터 센터들을 상기 수만큼 결정하는 단계는
상기 작업 유형을 추가로 고려하여, 상기 데이터를 처리할 데이터 센터들을 상기 수만큼 결정하는 파일 시스템 프로그램.
제3항에서,
상기 요청된 작업 유형은
데이터 배치 요청 또는 데이터 분석 요청 중 적어도 하나를 포함하는 파일 시스템 프로그램.
데이터 생성원에 탑재되고, 컴퓨터 판독 가능한 기록 매체에 저장된 파일 시스템 프로그램으로서,
상기 데이터 생성원에 의해 요청된 작업 유형을 확인하는 단계, 그리고
상기 요청된 작업 유형에 기초하여, 상기 데이터 생성원에 연동된 데이터 센터들 중 데이터를 처리할 하나 이상의 데이터 센터들을 결정하는 단계를 실행하는 명령어들을 포함하고,
상기 데이터를 처리할 하나 이상의 데이터 센터들을 결정하는 단계는 상기 요청된 작업 유형에 따라 각 데이터 센터의 데이터 전송 시간, 데이터 저장 시간 및 데이터 분석 시간 중 적어도 하나에 대한 중요도를 결정하고, 결정한 중요도, 데이터 전송 시간, 데이터 저장 시간 또는 데이터 분석 시간 중 적어도 하나를 이용하여 각 데이터 센터들의 예상 작업 시간을 결정하고, 예상 작업 시간에 기초하여 상기 데이터를 처리할 하나 이상의 데이터 센터들을 결정하는 파일 시스템 프로그램.
제5항에서,
상기 데이터 생성원에 연동된 데이터 센터들 각각의 사용 가능한 리소스를 결정하는 단계를 실행하는 명령어들을 더 포함하고,
상기 데이터를 처리할 하나 이상의 데이터 센터들을 결정하는 단계는
상기 리소스를 추가로 고려하여, 상기 데이터를 처리할 하나 이상의 데이터 센터들을 결정하는 파일 시스템 프로그램.
제6항에서,
상기 데이터를 처리할 하나 이상의 데이터 센터들을 결정하는 단계는
상기 요청된 작업 유형을 수행하는데 필요한 전체 리소스를 결정하고, 결정한 전체 리소스 이상의 사용 가능한 리소스를 가진 데이터 센터들을 대상으로 중요도를 결정하는 파일 시스템 프로그램.
삭제
제7항에서,
상기 데이터를 처리할 하나 이상의 데이터 센터들을 결정하는 단계는
상기 데이터 생성원에 의해 요청된 데이터를 처리할 데이터 센터들의 수를 확인하고, 상기 수만큼의 데이터 센터를 상기 데이터를 처리할 하나 이상의 데이터 센터들로 결정하는 파일 시스템 프로그램.
삭제
삭제