KR102336297B1

KR102336297B1 - 공유 ｇｐｕ 클러스터를 위한 분산 딥러닝 작업 스케줄링 방법 및 이를 기록한 컴퓨터 판독 가능 기록매체

Info

Publication number: KR102336297B1
Application number: KR1020200031023A
Authority: KR
Inventors: 박경수; 황창호; 손규호; 김태현; 신진우
Original assignee: 한국과학기술원
Priority date: 2020-03-12
Filing date: 2020-03-12
Publication date: 2021-12-09
Also published as: KR20210115370A

Abstract

본 발명에 따른 작업 스케줄링 방법은 딥러닝 모델을 학습하는 공유 GPU 클러스터를 위한 작업 스케줄링 방법으로, 다수의 작업에 대한 GPU 할당량을 판단하는 판단 단계, 다수의 작업에 대하여 1개의 GPU를 추가하는 경우의 학습 속도를 추정하는 추정 단계, 다수의 작업에 대하여 추정된 각 학습 속도에 기초하여, 스피드업 증가량이 가장 큰 작업을 추출하는 추출 단계, 추출된 작업에 대하여 GPU 할당량을 1개 추가하는 할당 단계 및 다수의 작업 모두에 대하여 적어도 1개의 GPU가 할당될 때까지 상기 추정 단계, 추출 단계 및 할당 단계를 순차적으로 반복하는 반복 단계를 포함하고, 상기 스피드업은 (GPU 1개 사용시의 학습 속도)/(GPU 추가 할당시의 학습 속도)로 정의된다. 본 발명에 따른 공유 GPU 클러스터를 위한 분산 딥러닝 작업 스케줄링 방법 및 이를 기록한 컴퓨터 판독 가능 기록매체에 의하면, 딥러닝 모델의 학습 속도 향상을 바탕으로 전체 GPU를 최대한 효율적으로 활용하도록 분배함으로써 GPU 클러스터를 효율적으로 관리할 수 있게 된다. 특히, GPU 클러스터상에서 딥러닝 모델을 학습하는 복수 개의 작업을 동시에 스케줄링할 때, 평균 작업 완료 시간과 모든 전체 완료 시간을 최소화할 수 있는 기술적 효과를 갖는다.

Description

공유 ＧＰＵ 클러스터를 위한 분산 딥러닝 작업 스케줄링 방법 및 이를 기록한 컴퓨터 판독 가능 기록매체{JOB SCHEDULING METHOD FOR DISTRIBUTED DEEP LEARNING OVER A SHARED GPU CLUSTER, AND COMPUTER-READABLE RECORDING MEDIUM}

본 발명은 공유 GPU 클러스터를 위한 분산 딥러닝 작업 스케줄링 방법 및 이를 기록한 컴퓨터 판독 가능 기록매체에 관한 것으로, 더욱 상세하게는 각 모델의 학습 속도 향상을 바탕으로 전체 GPU를 최대한 효율적으로 활용하도록 분배함으로써, GPU 클러스터를 효율적으로 관리하기 위한 공유 GPU 클러스터를 위한 분산 딥러닝 작업 스케줄링 방법 및 이를 기록한 컴퓨터 판독 가능 기록매체에 관한 것이다.

딥 러닝 모델을 학습하는 학습 작업은 일반적으로 매우 많은 GPU를 오랜 시간 동안 사용하고, 많은 GPU를 사용할수록 GPU 개수 대비 학습 속도 향상의 정도가 감소하는 특징이 있다. 이로 인해 하나의 GPU 클러스터 상에서 다수의 딥러닝 모델들을 효율적으로 동시 학습하기 위해서는 전체적인 학습 성능을 최적화하도록 GPU 자원을 분배하는 중앙 집중형 작업 스케줄링이 필요하다.

이를 위하여, FIFO(first-in-first-out), SRTF(shortest remaining time first), Max-Min Fairness 등 기존의 작업 스케줄링 작업 알고리즘이 존재하지만, 이러한 알고리즘은 딥러닝 학습의 상기 특징을 전혀 고려하지 않기 때문에 GPU를 비효율적으로 사용하게 되는 취약점이 있다.

또한, 하나의 GPU 클러스터에서, 다수의 딥러닝 모델들의 전체적인 학습 성능을 최적화하기 위해서는, 먼저 각각의 학습 작업이 특정 개수의 GPU를 할당받았을 때, 어느 정도의 학습 속도를 내는지를 알아야 한다.

이를 위해, 각 학습 작업에 실제로 특정 개수의 GPU를 할당한 뒤, 학습 속도를 실측하여 알아내는 방법이 있다. 그러나 이러한 방법은, 실측에 필요한 시행착오적 연산 과정에서 많은 GPU들이 매우 오랜 시간 동안 낭비되기 때문에, 학습 작업 자체의 진행을 크게 방해하는 문제가 있다.

비특허문헌 1의 경우, 딥러닝 모델의 학습에서 서로 다른 모델 변수들의 백워드 패스(backward pass) 과정이 서로 간에 오버랩(overlap)될 수 있음을 고려하지 않았다. 예를 들어, 네트워크를 통해 어떤 모델 변수를 서버들 간에 주고받는 작업을 하는 동안 다른 모델 변수의 기울기(gradient)를 계산하는 작업을 동시에 진행할 수 있는데, 이에 대한 고려 없이 모든 변수들의 기울기(gradient) 계산, 변수 업데이트, 네트워킹 과정이 순차적으로 진행된다고 보고 예측을 하였기 때문에, 실제 측정된 시간이 예측한 시간보다 훨씬 짧은 경우가 많았다.

또한 비특허문헌 1에서는 네트워크를 통해 데이터를 주고 받는 시간을 예측할 때, 단순히 보내야 하는 데이터의 양을 네트워크 대역폭으로 나눗셈하는 방식을 사용했다.

이와 같이 하나의 GPU 클러스터에서 여러 개의 GPU들을 동시에 활용하여 다수의 딥러닝 모델을 학습하고자 한다면 많은 수의 GPU를 긴 시간 동안 사용해야 한다. 따라서, 상기 GPU들을 효율적으로 사용하기 위해서는 GPU 개수에 따른 학습 모델의 학습 속도 향상을 정확히 조사하여 그에 따라 적절한 개수의 GPU를 할당해야 할 필요가 있다.

또한, 종래 알고리즘의 취약점을 해소할 수 있는 효율적 스케줄링 방법에 대한 연구개발이 선행되어야, 기업이나 연구소 단위의 공유 GPU 클러스터 관리자 또는 클라우드 서비스 제공을 위한 클러스터 관리의 효율성을 높일 수 있다.

Yanghua Peng, Yixin Bao, Yangrui Chen, Chuan Wu, and Chuanxiong Guo. Optimus: an efficient dynamic resource scheduler for deep learning clusters. In Proceedings of the Thirteenth EuroSys Conference (EuroSys), 2018.

본 발명은 상술한 기술적 요구를 감안하여 안출된 것으로, 본 발명의 목적은 딥러닝 모델의 학습 속도 향상을 바탕으로 전체 GPU를 최대한 효율적으로 활용하도록 분배함으로써 GPU 클러스터를 효율적으로 관리할 수 있는 공유 GPU 클러스터를 위한 분산 딥러닝 작업 스케줄링 장치, 방법 및 이를 기록한 컴퓨터 판독 가능 기록매체를 제공함에 있다. 또한, 본 발명의 목적은 GPU 클러스터상에서 딥러닝 모델을 학습하는 복수 개의 작업을 동시에 스케줄링할 때, 평균 작업 완료 시간(average job completion time)과 모든 작업 완료 시간(makespan)을 최소화할 수 있는 공유 GPU 클러스터를 위한 분산 딥러닝 작업 스케줄링 장치, 방법 및 이를 기록한 컴퓨터 판독 가능 기록매체를 제공함에 있다.

상기 목적을 달성하기 위한 본 발명에 따른 작업 스케줄링 방법은 딥러닝 모델을 학습하는 공유 GPU 클러스터를 위한 작업 스케줄링 방법으로, 다수의 작업에 대한 GPU 할당량을 판단하는 판단 단계; 상기 다수의 작업에 대하여 1개의 GPU를 추가하는 경우의 학습 속도를 추정하는 추정 단계; 상기 다수의 작업에 대하여 추정된 각 학습 속도에 기초하여, 스피드업 증가량이 가장 큰 작업을 추출하는 추출 단계; 추출된 작업에 대하여 GPU 할당량을 1개 추가하는 할당 단계; 및 상기 다수의 작업 모두에 대하여 적어도 1개의 GPU가 할당될 때까지 상기 추정 단계, 추출 단계 및 할당 단계를 순차적으로 반복하는 반복 단계;를 포함한다. 이때, 상기 스피드업은 (GPU 1개 사용시의 학습 속도)/(GPU 추가 할당시의 학습 속도)로 정의된다.

그리고, 상기 판단 단계는, 상기 다수의 작업에 대한 초기 GPU 할당량을 0으로 판단할 수 있다.

또한, 상기 다수의 작업에 대한 GPU 분배가 끝난 후, 상기 모든 작업에 대하여 GPU 할당량을 1개씩 감소시키는 경우 상기 다수의 작업에 대한 스피드업 감소량은 기설정된 범위 이내일 수 있다. 이때, 상기 스피드업 감소량은 (GPU 1개 사용시의 학습 속도)/(GPU 할당량 제거시의 학습 속도)로 정의된다.

그리고, 상기 추정 단계는, 하나의 GPU에서 입력 데이터 배치(batch)의 데이터가 입력된 시점으로부터 상기 딥러닝 모델의 각 모델 변수(variable)의 기울기(gradient) 값이 계산되어 CPU 메모리에 쓰여지기까지 걸리는 제1 시간 및 상기 각 모델 변수를 CPU에서 업데이트하는데 걸리는 제2 시간을 실측하는 측정 단계; 및 상기 제1 시간과 상기 제2 시간을 이용하여 상기 딥러닝 모델의 학습 시간을 예측하는 학습시간 예측 단계;를 포함하고, 상기 학습 시간 예측 단계는, 상기 제1 시간에 기초하여, 상기 각 모델 변수 별로 상기 데이터가 입력된 시점으로부터 해당 모델 변수의 기울기 값이 상기 CPU 메모리에 쓰여지기까지의 시간을 예측하는 제1 예측 단계; 상기 제2 시간에 기초하여, 상기 해당 모델 변수를 상기 CPU에 업데이트하는데 걸리는 시간을 연산하는 연산 단계; 네트워크를 통해 상기 해당 모델 변수와 상기 해당 모델 변수의 기울기 값을 서버들 간에 주고 받는데 걸리는 시간을 예측하는 제2 예측 단계; 상기 각 모델 변수 별로 상기 제1 예측 단계에서 예측된 시간, 상기 연산 단계에서 연산된 시간 및 상기 제2 예측 단계에서 예측된 시간을 합산하여 상기 각 모델 변수 별 합산 시간을 연산하는 합산 단계; 및 모든 모델 변수들에 대한 합산 시간들 중에서 최대값을 상기 학습 시간으로 예측하는 제3 예측 단계;를 포함한다.

그리고, 상기 측정 단계는, 상기 입력 데이터 배치의 크기를 1부터 시작하여 2배씩 늘려가면서 상기 제1 시간을 측정할 수 있다.

또한, 상기 측정 단계는, 측정된 다수의 제1 시간들 사이 구간을 선형 피팅(fitting)함으로써 임의의 크기를 갖는 입력 데이터 배치에 대한 상기 제1 시간을 예측할 수 있다.

그리고, 상기 제2 예측 단계에서 예측된 시간은, 수학식 2*S*(n-1)*(1+c*H_{n-1})/(n*W)에 의하여 결정될 수 있다. 단, 상기 n은 상기 다수의 GPU가 분포된 상기 서버의 개수, W는 상기 서버 간의 네트워크 대역폭, S는 상기 해당 모델 변수의 크기, 상기 H_{n-1}은 n-1번째 조화수(harmonic number), c는 보정상수이다.

또한, 상기 학습 시간과 실제 학습 시간과의 차이가 미리 설정된 임계 값을 초과하면, 상기 보정상수를 다른 보정상수로 보정하는 보정 단계;를 더 포함할 수 있다.

한편, 상기 목적을 달성하기 위한 본 발명에 따른 컴퓨터 판독 가능 기록매체는 상기 다양한 실시예에 따른 작업 스케줄링 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능 기록매체일 수 있다.

본 발명에 따른 공유 GPU 클러스터를 위한 분산 딥러닝 작업 스케줄링 방법 및 이를 기록한 컴퓨터 판독 가능 기록매체에 의하면, 딥러닝 모델의 학습 속도 향상을 바탕으로 전체 GPU를 최대한 효율적으로 활용하도록 분배함으로써 GPU 클러스터를 효율적으로 관리할 수 있게 된다. 특히, GPU 클러스터상에서 딥러닝 모델을 학습하는 복수 개의 작업을 동시에 스케줄링할 때, 평균 작업 완료 시간과 모든 전체 완료 시간을 최소화할 수 있는 기술적 효과를 갖는다.

도 1은 본 발명에 따른 작업 스케줄링 방법을 나타내는 흐름도이다.
도 2는 본 발명에 따른 작업 스케줄링 방법 중 학습 속도를 추정하는 단계를 구체적으로 나타내는 흐름도이다.
도 3은 도 2에 도시된 학습 시간 예측 단계를 설명하는 흐름도이다.
도 4는 본 발명의 실시 형태에 따른 작업 스케줄링 방법 중 학습 속도를 추정하는 단계의 다른 실시예를 나타내는 흐름도이다.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시 형태를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시 형태는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시 형태는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시 형태에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시 형태로 구현될 수 있다. 또한, 각각의 개시된 실시 형태 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.

본 발명의 실시 형태들에 따른 GPU 기반의 분산 딥러닝 모델의 학습 속도 예측 방법에서는, 임의의 딥러닝 모델의 학습에 하나의 GPU만을 할당한 뒤, 학습 속도를 실측하고, 그 실측 결과를 바탕으로 같은 종류의 GPU를 임의의 개수만큼 할당하였을 때 학습 속도를 정확하게 예측할 수 있다.

여기서, '딥러닝 모델(deep-learning model)'은 여러 단계의 작업으로 구성된 피드-전달 네트워크(feed-forward network)이다. 입력 데이터는 딥러닝 모델의 계층(layer)에 의해 일련의 연산에 공급된다. 최종 계층(final layer)은 오류 양 또는 실제 값과 모델 출력 간의 차이를 나타내는 손실(loss)을 계산한다. 손실(loss) 값 아래에서 역 전파 유형(back-propagation type)의 SGD(stochastic gradient descent)는 딥러닝 모델의 출력이 실제 값(true value)에 근접하도록 각 계층(layer)의 파라미터(parameter)를 재조정한다. 딥러닝 모델의 예로서, CNN(convolutional neural network), RNNs, DNNs 등이 있다. 상기 딥러닝 모델들은 일반적으로 GPU가 주요 계산 드라이버 역할을 하는 곳에서 리소스 집약적이다. 채택된 GPU의 개수가 일반적으로 기본 성능을 결정한다는 점을 감안할 때, GPU를 할당할 기본 리소스로 사용한다.

여기서, 딥러닝 모델의 예측된 '학습 속도'는, 구체적으로 확률적 기울기 하강법(stochastic gradient descent, SGD) 또는 이와 유사한 변형 알고리즘 (momentum SGD, Adam SGD 등)이 하나의 입력 데이터 배치(input data batch)를 처리(또는 학습)하기 위해 포워드 패스(forward pass), 백워드 패스(backward pass), 모델 변수 업데이트 등의 과정을 완료하는데 걸리는 시간을 의미한다.

도 1은 본 발명에 따른 작업 스케줄링 방법을 나타내는 흐름도이다. 본 발명에 따른 작업 스케줄링 방법은 아래의 조건을 동시에 만족한다.

조건1: 모든 작업의 스피드업(학습시간, 예측된 학습시간)의 총합이 최대화된다.

조건2: GPU 분배가 끝난 뒤에 모든 작업에 대해서 GPU를 하나씩 빼앗는 경우 각각의 스피드업 감소량이 동일하거나, 최대한 서로 비슷해진다. 더욱 상세하게는, 스피드업 감소량이 기설정된 범위 내에 있게 되며, 기설정된 범위는 당업자에 의하여 다양하게 설정될 수 있다. 여기서, 스피드업은 "기준 학습 속도(GPU 1개 사용시의 학습 속도)" 대비 "학습 속도 증가 비율"을 의미한다. 예를 들어, GPU 1개 사용시의 학습 속도가 10초이고, GPU 4개를 사용할 때의 학습 속도가 5초인 경우, GPU 4개를 사용할 때의 스피드업은 10/5=2로 산출할 수 있다. 따라서, GPU 1개 사용시의 스피드업은 항상 1이 된다. 종합하면, 상기 스피드업은 (GPU 1개 사용시의 학습 속도)/(GPU 추가 할당시의 학습 속도)로 공식화될 수 있다.

도 1에 도시된 바와 같이, 본 발명에 따른 작업 스케줄링 방법은 다수의 작업에 대한 GPU 할당량을 판단하는 것으로 시작한다(S100). 이때, 다수의 작업이라 함은 딥러닝 모델을 학습하는 작업을 개별적 작업을 의미하며, 동시 다발적으로 진행될 수 있다.

이때, 다수의 작업에 대한 초기 GPU 할당량은 0으로 추정 혹은 확정하고 작업 스케줄링을 시작하는 것이 바람직하다. 다만, 다른 실시예에서는, 스케줄링 알고리즘이 진행되는 도중에 진행되어 최초 GPU 할당량이 0이 아닐 수도 있을 것이다. 이는 당업자에 의하여 적절히 선택될 수 있다.

이후, 다수의 작업에 대하여 1개의 GPU를 추가하는 경우의 학습 속도를 추정한다(S200). 본 발명에 따른 작업 스케줄링 방법은 GPU 1개를 추가 할당할 경우의 스피드업 증가량이 최대인 작업에 대하여 GPU 할당량을 1만큼 늘린다. 따라서, 학습 속도의 추정은 GPU 스케줄링에 가장 중요한 요소 중 하나이고, 이에 대해서는 도 2 내지 4를 참조하면서, 아래에서 더욱 상세히 설명하기로 한다.

학습 속도의 추정이 끝나면, 다수의 작업에 대하여 추정된 각 학습 속도에 기초하여, 스피드업 증가량이 가장 큰 작업을 추출한다(S300).

그리고, 스피드업 증가량이 가장 큰 작업에 대하여 GPU 할당량을 1개 추가한다(S400). 이와 같은 방식으로, 모든 작업, 즉, 상기 다수의 작업 모두에 대하여 적어도 1개의 GPU가 할당될 때까지 추정 단계(S200), 추출 단계(S300) 및 할당 단계(S400)를 순차적으로 반복한다(S500).

이와 같이, GPU 클러스터 상에서 여러 딥러닝 모델을 효율적으로 동시 학습할 때, 각 학습 작업에 할당된 GPU의 개수 대비 학습 속도 향상 정도를 고려하게 되면, 전체적인 학습 성능을 최적화하는 GPU 자원 분배가 가능해진다. 또한, 이에 따라, 딥러닝 모델을 학습하는 작업 여러 개를 동시 스케줄링할 때 평균 작업 완료 시간(average job completion time)과 모든 작업 완료 시간(makespan)을 최소할 수 있게 된다.

한편, 본 발명에 따른 작업 스케줄링 방법은, 다수의 작업에 대한 GPU 분배가 끝난 후(S500 단계 이후), 상기 모든 작업에 대하여 GPU 할당량을 1개씩 감소시키는 경우 다수의 작업에 대한 스피드업 감소량은 기설정된 범위 이내일 수 있다. 스피드업 감소량은 (GPU 1개 사용시의 학습 속도)/(GPU 할당량 제거시의 학습 속도)로 공식화될 수 있다. 이때, 기설정된 범위라 함은 각각의 스피드업 감소량이 유사 혹은 거의 동일하다고 인정될 수 있을 정도의 범위이다. 해당 범위는 어느 특정 범위에 한정되지 않고, 시스템의 성능, 작업의 복잡성 등에 따라 당업자에 의하여 다양하게 설정될 수 있다.

도 2 내지 4는 본 발명에 따른 작업 스케줄링 방법에 있어서 학습 속도를 추정하는 방식을 나타내는 도면이다. 구체적으로, 도 2 내지 4는 GPU 기반의 분산 딥러닝 모델의 학습 속도 예측 방법을 상세히 설명한다.

이때, 본 발명에 따른 작업 스케줄링 방법에 있어서, 학습 속도 추정과 관련해서는 1)여러 개의 GPU들을 동시에 활용하여 학습하는 경우, BSP(bulk synchronous parallel) 방식을 사용하여 입력 데이터 배치를 각 GPU에 등분배하여 처리하는 것으로 가정하고, 2)여러 개의 GPU들이 여러 대의 서버에 분포해 있는 경우, 각 서버 간의 네트워크 대역폭은 모두 같다고 가정한다.

도 2는 본 발명에 따른 작업 스케줄링 방법에 있어서, 학습 속도를 추정하는 추정 단계(S200)를 상세화한 흐름도이다.

본 발명에서는 수학적 모델링을 통해 GPU 개수에 따라서 딥러닝 모델이 하나의 입력 데이터 배치를 학습하는데 걸리는 시간을 예측하는 수식(이하, '예측 수식'이라 함)을 세운다. 상기 예측 수식에 필요한 변수 값들을 구하기 위해서, 먼저, 하나의 GPU를 사용하여 제1 시간(T1)과 제2 시간(T2)을 측정한다(S210).

제1 시간(T1)은, 하나의 GPU를 사용하여 하나의 입력 데이터 배치를 처리할 때, 데이터가 입력된 시점으로부터 각 모델 변수(variable)의 기울기(gradient) 값이 계산되어 CPU 메모리에 쓰여지기까지 걸리는 시간이다. 입력 데이터 배치의 크기는 1부터 시작하여 2배씩 늘려가면서 상기 제1 시간을 측정하고, 측정된 다수의 제1 시간들 사이 구간을 선형 피팅(fitting)함으로써, 임의의 크기의 입력 데이터 배치를 처리할 때 각 모델 변수의 기울기(gradient) 값이 계산되어 CPU 메모리에 쓰여지기까지 걸리는 시간을 예측할 수 있다.

제2 시간(T2)은 각 모델 변수(variable)를 CPU에서 업데이트하는데 걸리는 시간이다.

제1 시간(T1)과 제2 시간(T2)이 측정되었으면(S210), 실측된 제1 시간(T1)과 제2 시간(T2)를 이용하여 학습 시간을 예측한다(S220). 학습 시간을 예측하는 단계(S220)를 도 3을 참조하여 구체적으로 설명한다.

도 3는 본 발명에 따른 작업 스케줄링 방법에 있어서, 도 2에 도시된 학습 시간 예측 단계(S220)를 나타내는 순서도이다.

도 2 및 3에 도시된 학습 시간 예측 단계(S220)를 설명함에 있어서, 학습에 사용되는 GPU들은 총 n개의 서버(또는 노드(node))에 분포해 있으며, 서버(또는 노드)간 네트워크 대역폭은 W라고 한다.

도 3에 도시된 바와 같이 학습 시간 예측 단계(S220)는 각각의 모델 변수에 대해서 예측과 연산 단계가 이루어진다.

S221 단계는, 실측된 제1 시간(T1)의 결과를 통해 데이터 입력으로부터 해당 모델 변수의 기울기(gradient) 값이 CPU 메모리에 쓰여지기까지 시간(t1)을 예측한다.

S222 단계는, 실측된 제2 시간(T2)의 결과를 통해 해당 모델 변수를 업데이트하는 데 걸리는 시간(t2)을 연산한다.

S223 단계는, 네트워크를 통해 해당 모델 변수와 해당 모델 변수의 기울기(gradient) 값을 서버(또는, 노드)들 간에 주고 받는데 걸리는 시간(t3)을 예측한다. 여기서, 상기 시간(t3)은, 아래의 <수학식 1>을 이용하여 예측될 수 있다.

상기 <수학식 1>에서, n은 학습에 사용되는 다수의 GPU들이 분포된 서버(또는 노드)의 개수이고, W는 서버(또는 노드) 간의 네트워크 대역폭이고, S는 해당 모델 변수의 크기이고, H_{n-1}은 n-1번째 조화수(harmonic number)이다. 그리고, c는 보정상수로써 최초에는 충분히 작은 상수로 설정된다. 여기서, 보정상수(c)는 네트워크 오버헤드(network overhead)를 반영하기 위한 것으로서, 0.01로 설정될 수 있다. 여기서, 상기 시간(t3)을 예측하는 수학식이 상기 <수학식 1>로 한정되는 것은 아니며, <수학식 1>과 동일 또는 균등한 결과를 도출하는 다른 수학식도 포함하는 것으로 이해해야 한다.

S224 단계는, S310 단계에서 예측된 t1, S330 단계에서 연산된 t2, 및 S350 단계에서 예측된 t3를 모두 합산한다. S370 단계에 의해서, 각 모델 변수 별로 합산된 합산 시간이 연산된다.

S225 단계는, 전체 모델 변수들의 합산된 합산 시간들 중에서 최대값을 '학습 시간'으로 예측한다. 각 모델 변수에 대하여 S221 내지 S225 단계가 순차적으로 수해오디므로, 최종적으로는 모든 모델 변수들 별로 합산된 합산 시간이 연산되고, 전체 합산된 시간들 중에서 가장 큰 시간을 해당 딥러닝 모델의 학습 시간으로 결정한다.

이와 같은 방식으로 딥러닝 모델의 학습 알고리즘(예를 들어, SGD)이 하나의 GPU 클러스터 상에 분산되어 처리될 때, 어떻게 작동하는지가 시스템 단계에서 정확하게 이해되고 수학적으로 모델링될 수 있다.

비특허문헌 1과 비교해 보면, 비특허문헌 1은 딥러닝 모델의 학습에서 서로 다른 모델 변수들의 백워드 패스(backward pass) 과정이 서로 간에 오버랩(overlap)될 수 있음을 고려하지 않았다. 예를 들어 네트워크를 통해 어떤 모델 변수를 서버들 간에 주고받는 작업을 하는 동안에 다른 모델 변수의 기울기(gradient) 값을 계산하는 작업이 동시에 진행될 수 있는데, 비특허문헌 1은 이에 대한 고려 없이 모든 모델 변수들의 기울기(gradient) 값 계산, 모델 변수 업데이트, 네트워킹 과정이 순차적으로 진행된다고 보고 예측을 하였기 때문에, 실제 측정된 시간이 예측한 시간보다 훨씬 짧은 경우가 많았다. 반면, 본 발명에 따른 작업 스케줄링 방법에서 채용하는 학습 속도 추정 단계에 의하면, 각 모델 변수에 대한 백워드 패스(backward pass) 완료 시간을 독립적으로 계산하고, 전체의 최대 시간을 최종적인 학습 시간으로 예측함으로써 오버랩(overlap) 현상을 예측에 반영할 수 있는 효과가 있다.

또한, 비특허문헌 1에서는 네트워크를 통해 데이터를 주고 받는 시간을 예측할 때, 단순히 보내야 하는 데이터의 양을 네트워크 대역폭(W)으로 나눗셈하는 방식을 사용했지만, 본 발명에 따른 작업 스케줄링 방법에서 채용하는 학습 속도 추정 단계에 의하면, 서로 간에 통신하는 서버의 개수(n)가 많아질수록 확률적으로 증가하는 동기화 오버헤드를 예측하는 항(1+c*H_{n-1})을 추가함으로써 네트워킹에 걸리는 시간을 훨씬 정확하게 예측할 수 있는 효과가 있다.

도 4는 본 발명에 따른 작업 스케줄링 방법에서 채용하는 학습 속도 추정 방식의 다른 실시예를 도시하는 흐름도이다.

도 4에 도시된 학습 속도 추정 방식은 도 2 및 3에 도시된 방법에 더하여 보정상수(c) 보정 단계를 더 포함한다. 따라서, 동일한 설명은 생략하기로 하고 보정상수(c) 보정 단계(S230)를 중심으로 설명하기로 한다.

도 4를 참조하면, S220 단계에서 예측된 학습 시간이 실제 학습 시간과 차이가 날 수 있다. 예를 들어, 예측된 학습 시간과 실제 학습 시간과의 차이가 미리 설정된 임계 값(예를 들어, 5%)을 초과하면, <수학식 1>의 보정상수(c) 값을 미리 설정된 다른 값으로 변경하여 학습 시간이 보정될 수 있다(S230). 보정상수(c)의 값은 시스템에 따라 당업자에 의하여 적절하게 정해질 수 있다.

도 4에 도시된 학습 속도 추정 방식은, 도 2 및 3에 도시된 방법이 갖는 효과에 더하여, 보정상수(c)가 보정되는 S230 단계가 더 포함되기 때문에, 더욱 정확한 학습 시간의 예측이 가능한 이점이 있다.

위에서 설명한 다양한 실시예에 따른 작업 스케줄링 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 기록 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

상술한 다양한 실시예에 따른 작업 스케줄링 방법은 기록 매체에 저장되는 컴퓨터에 의해 실행되는 컴퓨터 프로그램 또는 애플리케이션의 형태로도 구현될 수 있다.

이상에서 실시 형태들에 설명된 특징, 구조, 효과 등은 본 발명의 하나의 실시 형태에 포함되며, 반드시 하나의 실시 형태에만 한정되는 것은 아니다. 나아가, 각 실시 형태에서 예시된 특징, 구조, 효과 등은 실시 형태들이 속하는 분야의 통상의 지식을 가지는 자에 의해 다른 실시 형태들에 대해서도 조합 또는 변형되어 실시 가능하다. 따라서 이러한 조합과 변형에 관계된 내용들은 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.

또한, 이상에서 실시 형태를 중심으로 설명하였으나 이는 단지 예시일 뿐 본 발명을 한정하는 것이 아니며, 본 발명이 속하는 분야의 통상의 지식을 가진 자라면 본 실시 형태의 본질적인 특성을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 예를 들어, 실시 형태에 구체적으로 나타난 각 구성 요소는 변형하여 실시할 수 있는 것이다. 그리고 이러한 변형과 응용에 관계된 차이점들은 첨부된 청구 범위에서 규정하는 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

딥러닝 모델을 학습하는 공유 GPU 클러스터를 위한 작업 스케줄링 방법으로,
다수의 작업에 대한 GPU 할당량을 판단하는 판단 단계;
상기 다수의 작업에 대하여 1개의 GPU를 추가하는 경우의 학습 속도를 추정하는 추정 단계;
상기 다수의 작업에 대하여 추정된 각 학습 속도에 기초하여, 스피드업 증가량이 가장 큰 작업을 추출하는 추출 단계;
추출된 작업에 대하여 GPU 할당량을 1개 추가하는 할당 단계; 및
상기 다수의 작업 모두에 대하여 적어도 1개의 GPU가 할당될 때까지 상기 추정 단계, 추출 단계 및 할당 단계를 순차적으로 반복하는 반복 단계;를 포함하고,
상기 스피드업은 (GPU 1개 사용시의 학습 속도)/(GPU 추가 할당시의 학습 속도)로 정의되고,
상기 작업 스케줄링 방법의 각 단계는 컴퓨터에 의하여 실행되는 작업 스케줄링 방법.
제1항에 있어서,
상기 판단 단계는, 상기 다수의 작업에 대한 초기 GPU 할당량을 0으로 판단하는 작업 스케줄링 방법.
제1항에 있어서,
상기 다수의 작업에 대한 GPU 분배가 끝난 후, 다수의 각 작업에 대하여 GPU 할당량을 1개씩 감소시키는 경우 상기 각 작업에 대한 스피드업 감소량은 기설정된 범위 이내이고,
상기 스피드업 감소량은 (GPU 1개 사용시의 학습 속도)/(GPU 할당량 제거시의 학습 속도)로 정의되는 작업 스케줄링 방법.
제1항에 있어서,
상기 추정 단계는,
하나의 GPU에서 입력 데이터 배치(batch)의 데이터가 입력된 시점으로부터 상기 딥러닝 모델의 각 모델 변수(variable)의 기울기(gradient) 값이 계산되어 CPU 메모리에 쓰여지기까지 걸리는 제1 시간 및 상기 각 모델 변수를 CPU에서 업데이트하는데 걸리는 제2 시간을 실측하는 측정 단계; 및
상기 제1 시간과 상기 제2 시간을 이용하여 상기 딥러닝 모델의 학습 시간을 예측하는 학습시간 예측 단계;를 포함하고,
상기 학습 시간 예측 단계는,
상기 제1 시간에 기초하여, 상기 각 모델 변수 별로 상기 데이터가 입력된 시점으로부터 해당 모델 변수의 기울기 값이 상기 CPU 메모리에 쓰여지기까지의 시간을 예측하는 제1 예측 단계;
상기 제2 시간에 기초하여, 상기 해당 모델 변수를 상기 CPU에 업데이트하는데 걸리는 시간을 판단하는 판단 단계;
네트워크를 통해 상기 해당 모델 변수와 상기 해당 모델 변수의 기울기 값을 서버들 간에 주고 받는데 걸리는 시간을 예측하는 제2 예측 단계;
상기 각 모델 변수 별로 상기 제1 예측 단계에서 예측된 시간, 상기 판단 단계에서 판단된 시간 및 상기 제2 예측 단계에서 예측된 시간을 합산하여 상기 각 모델 변수 별 합산 시간을 연산하는 합산 단계; 및
모든 모델 변수들에 대한 합산 시간들 중에서 최대값을 상기 학습 시간으로 예측하는 제3 예측 단계;를 포함하는 작업 스케줄링 방법.
제4항에 있어서,
상기 측정 단계는,
상기 입력 데이터 배치의 크기를 1부터 시작하여 2배씩 늘려가면서 상기 제1 시간을 측정하는 작업 스케줄링 방법.
제5항에 있어서,
상기 측정 단계는,
측정된 다수의 제1 시간들 사이 구간을 선형 피팅(fitting)함으로써 임의의 크기를 갖는 입력 데이터 배치에 대한 상기 제1 시간을 예측하는 작업 스케줄링 방법.
제4항에 있어서,
상기 제2 예측 단계에서 예측된 시간은, 하기의 수학식에 의해 결정되는 작업 스케줄링 방법.
<수학식>
2*S*(n-1)*(1+c*H_{n-1})/(n*W),
단, 상기 n은 상기 다수의 GPU가 분포된 상기 서버의 개수, W는 상기 서버 간의 네트워크 대역폭, S는 상기 해당 모델 변수의 크기, 상기 H_{n-1}은 n-1번째 조화수(harmonic number), c는 보정상수임.
제7항에 있어서,
상기 학습 시간과 실제 학습 시간과의 차이가 미리 설정된 임계 값을 초과하면, 상기 보정상수를 다른 값으로 보정하는 보정 단계;를 더 포함하는 작업 스케줄링 방법.
제1항 내지 제8항 중 어느 한 항에 기재된 작업 스케줄링 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능 기록매체.