KR20220084508A

KR20220084508A - 파라미터 서버 기반 비대칭 분산 학습 기법

Info

Publication number: KR20220084508A
Application number: KR1020200174036A
Authority: KR
Inventors: 김상욱; 고윤용; 최기봉
Original assignee: 한양대학교 산학협력단
Priority date: 2020-12-14
Filing date: 2020-12-14
Publication date: 2022-06-21
Also published as: WO2022131525A1; KR102555268B1

Abstract

파라미터 서버 기반 비대칭 분산 학습 기법이 개시된다. 일 실시예에 따른 비대칭 통신 기반의 분산 학습 시스템은, 로컬 데이터를 이용하여 학습 모델을 학습함에 따라 계산된 학습 결과에 기초하여 업데이트된 글로벌 파라미터와 워커의 로컬 파라미터를 가중 평균(weighted average)하여 로컬 파라미터를 업데이트하는 복수의 워커; 및 상기 복수의 워커에서 계산된 학습 결과에 기초하여 업데이트된 글로벌 파라미터를 비대칭 통신을 통해 기 정의된 업데이트 룰에 따라 복수의 워커로 전송하는 파라미터 서버를 포함할 수 있다.

Description

파라미터 서버 기반 비대칭 분산 학습 기법{ASYMMETRIC CENTRALIZED TRAINING FOR DISTRIBUTED DEEP LEARNING}

아래의 설명은 서버의 병목 문제를 해결하기 위한 비대칭 분산 학습 기술에 관한 것이다.

기존 파라미터 서버 분산 학습 기법들은 워커의 수와 모델 파라미터의 수가 증가할수록 파라미터 서버가 학습의 병목이 되는 문제를 가지고 있다. 이러한 파라미터 서버 병목 문제는 워커가 파라미터 서버와 대칭(Symmetric) 통신을 하기 때문이다. 워커와 파라미터 서버 간 대칭 통신이란, 워커가 파라미터 서버에게 학습 결과를 전송하고, 파라미터 서버로부터 최신의 파라미터를 되돌려 받는 통신 방식을 의미한다.

도 1을 참고하면, 기존 파라미터 서버 기반 분산 학습 방식을 설명하기 위한 도면이다. 도 1(a)는 동기적 분산 학습, 도 1(b)는 비동기적 분산 학습 방식을 나타낸 것이다. 도 1(a), 도 1(b)에 관계없이 각 워커는 파라미터 서버에게 학습 결과를 전송하고(Send.), 파라미터 서버가 최신의 파라미터를 되돌려주기를 기다린다(Wait. & Recv.).

이러한 대칭 통신에 의해, 각 워커들은 한 학습 스텝을 끝내고(Iter. t), 파라미터 서버를 기다리느라 다음 스텝(Iter. t+1)을 바로 진행하지 못한다. 이러한 문제는 학습 모델의 파라미터 수와 워커의 수가 많을수록 더 심각해질 수 있다. 이러한 종래 기술의 문제를 확인하기 위해, 워커 수를 증가시키며 워커의 학습 시간에 대한 분석이 진행될 수 있다. 도 2는 워커 수에 따른 각 학습 스텝에서 소요되는 시간들을 분석한 것이다. 워커 수가 증가할수록 대칭 통신에 의한 오버헤드가 증가하는 것을 확인할 수 있다.

기존 파라미터 서버 기반 분산 학습 방법들이 가지고 있는 파라미터 서버 병목 문제의 원인인 대칭(Symmetric) 통신 때문에 발생함을 파악하여, 이를 해결하기 위한 비대칭(Asymmetric) 통신 기반의 새로운 분산 학습 방법 및 시스템을 제공할 수 있다.

비대칭 통신에 의해 발생할 수 있는 학습 모델 정확도 손실을 최소화하는 파라미터 업데이트 전략을 제공할 수 있다.

비대칭 분산 학습 시스템은, 로컬 데이터를 이용하여 학습 모델을 학습함에 따라 계산된 학습 결과에 기초하여 업데이트된 글로벌 파라미터와 워커의 로컬 파라미터를 가중 평균(weighted average)하여 로컬 파라미터를 업데이트하는 복수의 워커; 및 상기 복수의 워커에서 계산된 학습 결과에 기초하여 업데이트된 글로벌 파라미터를 비대칭 통신을 통해 기 정의된 업데이트 룰에 따라 복수의 워커로 전송하는 파라미터 서버를 포함할 수 있다.

상기 복수의 워커는, 상기 로컬 데이터를 이용하여 학습 모델을 학습시킴에 따라 그레디언트를 계산하고, 상기 계산한 그레이디언트로 상기 복수의 워커의 각각에 대한 로컬 파라미터를 업데이트할 수 있다.

상기 복수의 워커는, 상기 파라미터 서버로부터 업데이트된 글로벌 파라미터가 전송될 경우, 상기 업데이트된 글로벌 파라미터와 워커의 로컬 파라미터를 가중 평균(weighted average)하여 워커의 로컬 파라미터를 업데이트할 수 있다.

상기 복수의 워커는, 상기 파라미터 서버로부터 업데이트된 글로벌 파라미터가 전송되지 않을 경우, 상기 학습에 대한 다음 학습 과정을 진행할 수 있다.

상기 파라미터 서버는, 상기 복수의 워커에서 계산된 그레이디언트를 수집하고, 상기 수집된 그레디언트를 이용하여 글로벌 파라미터를 업데이트할 수 있다.

상기 파라미터 서버는, 상기 복수의 워커에 대하여 수집된 그레디언트를 이용하여 분산 학습에서 손실함수를 최소화하는 글로벌 파라미터를 탐색하고, 상기 탐색된 글로벌 파라미터를 업데이트 주기마다 상기 복수의 워커에게 전송할 수 있다.

워커에서 수행되는 비대칭 분산 학습 방법은, 로컬 데이터를 이용하여 학습 모델을 학습함에 따라 학습 결과를 계산하는 단계; 상기 계산된 학습 결과를 파라미터 서버로 전달하는 단계; 및 상기 파라미터 서버로부터 업데이트된 글로벌 파라미터를 비대칭 통신을 통해 기 정의된 파라미터 업데이트 룰에 기초하여 수신하는 단계를 포함하고, 상기 수신하는 단계에서, 상기 업데이트된 글로벌 파라미터와 워커의 로컬 파라미터가 가중 평균(weighted average)되어 상기 워커의 로컬 파라미터가 업데이트될 수 있다.

상기 계산하는 단계는, 제1 학습 과정에서 상기 복수의 워커가 로컬 데이터를 이용하여 학습 모델을 학습시킴에 따라 그레디언트를 계산하고, 상기 계산한 그레이디언트로 상기 복수의 워커의 각각에 대한 로컬 파라미터를 업데이트하는 단계를 포함할 수 있다.

상기 수신하는 단계는, 상기 파라미터 서버로부터 업데이트된 글로벌 파라미터가 전송됨을 수신할 경우, 상기 업데이트된 글로벌 파라미터와 워커의 로컬 파라미터를 가중 평균(weighted average)하여 워커의 로컬 파라미터를 업데이트하고, 상기 파라미터 서버로부터 업데이트된 글로벌 파라미터가 전송되지 않을 경우, 제2 학습 과정을 진행하는 단계를 포함할 수 있다.

파라미터 서버에 의해 수행되는 비대칭 분산 학습 방법은, 복수의 워커에서 로컬 데이터를 이용하여 학습 모델을 학습함에 따라 계산된 학습 결과를 수집하는 단계; 상기 수집된 학습 결과를 이용하여 글로벌 파라미터를 업데이트하는 단계; 및 기 설정된 업데이트 룰에 기초하여 비대칭 통신을 통해 상기 업데이트된 글로벌 파라미터를 복수의 워커로 전송하는 단계를 포함하고, 상기 전송하는 단계에서, 상기 복수의 워커로 전송된 업데이트된 글로벌 파라미터와 상기 복수의 워커의 로컬 파라미터가 가중 평균(weighted average)되어 상기 복수의 워커의 로컬 파라미터가 업데이트될 수 있다.

상기 업데이트하는 단계는, 상기 복수의 워커에서 계산된 그레이디언트를 수집하고, 상기 수집된 그레디언트를 이용하여 분산 학습에서 손실함수를 최소화하는 글로벌 파라미터를 탐색하는 단계를 포함할 수 있다.

상기 전송하는 단계는, 상기 수집된 그레디언트를 이용하여 분산 학습에서 손실함수를 최소화하기 위하여 탐색된 글로벌 파라미터를 업데이트 주기마다 상기 복수의 워커에게 전송하는 단계를 포함할 수 있다.

비대칭 통신 기반의 학습을 통해 파라미터 서버의 병목 유무와 관계없이 워커가 파라미터 서버를 기다리지 않고 학습을 진행할 수 있다. 이에, 높은 정확도로 빠른 시간 안에 학습 모델의 학습을 진행할 수 있다.

파라미터 업데이트 룰에 기초하여 글로벌 파라미터를 업데이트함으로써 비대칭 통산에 의해 발생할 수 있는 학습 모델 손실을 최소화함으로써 성능의 저하를 방지할 수 있다.

도 1은 기존 파라미터 서버 기반 분산 학습 방식을 설명하기 위한 도면이다.
도 2는 워커 수에 따른 각 학습 스텝에서 소요되는 시간들을 분석한 그래프이다.
도 3은 일 실시예에 따른 분산 학습 시스템에서 비대칭 통신 기반의 학습 동작을 설명하기 위한 도면이다.
도 4는 일 실시예에 따른 분산 학습 시스템에서 워커의 동작을 설명하기 위한 알고리즘의 예이다.
도 5는 일 실시예에 따른 분산 학습 시스템에서 파라미터 서버의 동작을 설명하기 위한 알고리즘의 예이다.
도 6은 일 실시예에 따른 분산 학습 시스템의 구성을 설명하기 위한 도면이다
도 7 및 도 8은 일 실시예에 따른 분산 학습 시스템에서 비대칭 통신 기반의 학습 방법을 설명하기 위한 도면이다.

이하, 실시예를 첨부한 도면을 참조하여 상세히 설명한다.

도 3은 일 실시예에 따른 분산 학습 시스템에서 비대칭 통신 기반의 학습 동작을 설명하기 위한 도면이다.

동기식 또는 비동기식이든 각 워커는 파라미터 서버에게 학습 결과를 전송하고, 파라미터 서버가 업데이트된 파라미터를 되돌려주기를 기다린다. 이때, 동기식 또는 비동기식에 관계없이 워커의 유휴 시간을 줄이는 것이 중요하다. 이에, 워커와 파라미터 간 비대칭 통신 기반의 학습 동작을 통해, 파라미터 서버로부터 업데이트된 파라미터의 수신을 기다리지 않음으로써 대기 없이 학습을 진행하는 비대칭 통신 기반의 학습 동작을 설명하기로 한다.

비대칭 통신 기반의 학습이란 도 3과 같이, 워커들이 각 학습 과정에서 계산한 학습 결과를 파라미터 서버에게 전송하고, 파라미터 서버를 기다리지 않고 다음의 학습 과정을 진행하는 방식이다. 도 1(a)의 동기식 통신 기반의 학습, 도 1(b)의 비동기식 통신 기반의 학습과 비교하여, 도 3의 비대칭 통신 기반의 학습은 각 워커가 파라미터 서버의 병목 유무와 관계없이 대기하지 않고(wait-free) 학습을 진행할 수 있다.

또한, 각 워커의 모델 파라미터와 파라미터 서버의 글로벌 파라미터의 차가 일정 이상 벌어지지 않도록 보장하기 위해, 주기적으로 파라미터 서버가 워커의 모델 파라미터를 업데이트해주는 파라미터 서버 주도적 업데이트 전략을 제안한다. 각 워커에 대한 파라미터 서버 주도적 업데이트를 정확하게 수행하기 위해, 분산 딥 러닝 연구의 근본적인 문제를 정의하고, 정의된 문제를 기반으로 워커의 모델 파라미터 업데이트 룰(rule)이 정의될 수 있다.

분산 학습 문제의 정의는 손실 함수(loss function)을 최소화하는 글로벌 파라미터

를 찾는 것으로, 수학식 1과 같이 정의될 수 있다.

수학식 1:

이때, n은 워커 수,

는 글로벌 파라미터,

는 워커 i의 로컬 파라미터,

는 워커 i가 가지고 있는 데이터,

는 상수이다.

수학식 1을 각 워커(예를 들면,

)의 입장에 대해 경사 하강법(gradient desent)을 적용하여 수학식 2를 획득할 수 있다. 수학식 2의 문제 정의를 바탕으로 워커에 대한 파라미터 업데이트 룰(rule)이 정의될 수 있다.

수학식 2:

라고 하고,

라고 하면, 최종적으로 워커 i에 대한 업데이트 룰을 획득할 수 있다.

수학식 3:

수학식 3은 워커가 로컬 파라미터와 글로벌 파라미터 사이의 가중 평균을 취함으로써 로컬 파라미터를 업데이트할 수 있음을 의미한다. 예를 들면, 수학식 3에서, 가중치

는 워커의 수가 증가할수록

이 감소하도록 설정될 수 있으며, k는 상수, n은 워커의 수이다.

파라미터 서버는 워커의 로컬 파라미터를 업데이트하기 위해, 파라미터 서버가 모든 워커의 그레디언트를 수집한 후에만, 워커에게 글로벌 파라미터를 전송하는 주기적인 업데이트 룰(전략)을 정의할 수 있다. 예를 들면, 업데이트 주기가 큰 경우, 각 워커의 로컬 데이터를 이용하여 학습되는 반면, 업데이트 주기가 작을 경우, 글로벌 파라미터에 의해 로컬 파라미터가 더욱 자주 업데이트될 수 있다.

도 4는 일 실시예에 따른 분산 학습 시스템에서 워커의 동작을 설명하기 위한 알고리즘의 예이다.

워커는 그레디언트를 계산할 수 있다(2줄). 워커는 계산한 그레디언트로 워커의 로컬 파라미터를 업데이트할 수 있다(3줄). 워커는 계산한 그레디언트를 파라미터 서버에게 전송할 수 있다(4줄). 워커는 파라미터 서버로부터 업데이트된 글로벌 파라미터가 전송될 경우, 업데이트된 글로벌 파라미터와 워커의 로컬 파라미터를 가중 평균(weighted average)하여 워커의 로컬 파라미터를 업데이트할 수 있고, 파라미터 서버로부터 업데이트된 글로벌 파라미터가 전송되지 않을 경우, 다음의 학습을 진행할 수 있다(5-7줄). 다시 말해서, 워커는 파라미터 서버를 기다리지 않고, 다음 반복을 진행할 수 있다. 이와 같은 비대칭 학습을 통해 워커는 파라미터 서버가 병목현상이 있는지 여부와 상관없이 학습 모델을 학습시킬 수 있다.

도 5는 일 실시예에 따른 분산 학습 시스템에서 파라미터 서버의 동작을 설명하기 위한 알고리즘의 예이다.

파라미터 서버는 복수의 워커에서 계산된 그레이디언트를 수집할 수 있다(2 줄). 파라미터 서버는 수집된 그레디언트를 이용하여 글로벌 파라미터를 업데이트할 수 있다(3 줄). 파라미터 서버는 업데이트 주기

마다 복수의 워커에게 업데이트된 글로벌 파라미터를 전송할 수 있다(4-6 줄).

이와 같이, 워커와 파라미터 서버가 비대칭 통신을 수행하기 때문에 파라미터 서버는 워커에서 업데이트된 파라미터를 매번 보낼 필요가 없다. 파라미터 서버는 모든 워커의 그레디언트를 수집하여 글로벌 파라미터를 한번에 업데이트할 수 있다.

도 6은 일 실시예에 따른 분산 학습 시스템에서 분산 학습 시스템의 구성을 설명하기 위한 도면이다

분산 학습 시스템(100)은 파라미터 서버(610) 및 복수의 워커(620)를 포함할 수 있다. 이러한 파라미터 서버(610)와 복수의 워커(이하 '워커'로 기재하기로 함.)(620)간의 비대칭 통신 기반의 분산 학습 방법에 대하여 도 7 및 도 8을 통해 설명하기로 한다.

도 7은 워커가 파라미터 서버로부터 업데이트된 글로벌 파라미터를 수신하였을 경우를 설명하기 위한 것이고, 도 8은 워커가 파라미터 서버로부터 업데이트된 글로벌 파라미터를 수신하지 못하였을 경우를 설명하기 위한 것이다.

도 7 및 도 8을 참고하면, 워커(620)는 로컬 데이터를 이용하여 학습 모델을 학습할 수 있다(701). 워커(620)에서 로컬 데이터를 이용하여 학습 모델을 학습시킴에 따라 학습 결과가 계산될 수 있다. 워커(620)는 로컬 데이터를 이용하여 학습 모델을 학습시킴에 따라 그레디언트를 계산할 수 있다. 워커(620)는 학습을 통해 계산된 학습 결과를 획득할 수 있다(702). 워커는 계산된 학습 결과를 파라미터 서버(610)에게 전송할 수 있다(703).

파라미터 서버(610)는 계산된 학습 결과를 수신할 수 있다(704). 파라미터 서버(610)는 기 정의된 업데이트 룰에 기초하여 글로벌 파라미터를 업데이트할 수 있다(705). 이때, 파라미터 서버(610)에서 워커로 글로벌 파라미터 전송 여부에 따라 워커의 동작이 달라지게 된다.

다시 말해서, 파라미터 서버(610)는 글로벌 파라미터를 기 정의된 룰에 기초하여 업데이트할 수 있다. 파라미터 서버(610)는 업데이트된 글로벌 파라미터를 업데이트 주기마다 글로벌 파라미터를 전송한다. 이때, 업데이트 주기에 도달하였을 경우, 도 7과 같이, 파라미터 서버(610)에서 워커(620)로 업데이트된 글로벌 파라미터가 전송될 수 있다(706). 워커(620)는 업데이트된 글로벌 파라미터를 수신할 수 있다(707). 워커(620)는 업데이트된 글로벌 파라미터와 로컬 파라미터를 가중 평균하여 로컬 파라미터를 업데이트할 수 있다(708).

업데이트 주기에 도달하지 않았을 경우, 도 8을 참고하면, 파라미터 서버(610)가 워커(620)로 업데이트된 글로벌 파라미터가 전송되지 않을 수 있다. 파라미터 서버(610)에서 워커(620)로 글로벌 파라미터가 전송되지 않았을 경우, 워커(620)는 다음의 학습을 진행할 수 있다(801). 예를 들면, 워커(620)가 제1 학습을 진행하고 있었을 경우, 제2 학습을 진행할 수 있다.

일 실시예에 따른 분산 시스템에서의 비대칭 분산 학습 동작의 효과를 검증하기 위하여 기존의 분산 딥 러닝 방법들을 모델의 정확도와 학습 시간 측면에서 비교될 수 있다.

표 1:

표 1은 정확도와 학습 시간의 비교 결과를 나타낸 것이다. 학습 모델(예를 들면, ResNet-50, VGG-16 두 모델)과 데이터 셋(예를 들면, CIFAR-10, ImageNet-1K) 모두에서 실시예에서 제안된 비대칭 분산 학습이 가장 좋은 결과를 보임을 확인할 수 있다.

특히, 실시예에서 제안된 비대칭 통신 기반의 분산 학습은 기존 파라미터 서버 기반 분산 딥 러닝 방법의 학습 성능 저하 문제를 해결할 수 있고, 기존의 방법들과 비교하였을 때, 높은 정확도를 가장 빠른 시간 안에 달성하는 결과를 보임을 확인할 수 있다. 다시 말해서, 실시예에서 제안된 비대칭 통신 기반의 분산 학습이 종래 기술들에 비해 우수함을 보임을 확인할 수 있다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

비대칭 통신 기반의 분산 학습 시스템에 있어서,
로컬 데이터를 이용하여 학습 모델을 학습함에 따라 계산된 학습 결과에 기초하여 업데이트된 글로벌 파라미터와 워커의 로컬 파라미터를 가중 평균(weighted average)하여 로컬 파라미터를 업데이트하는 복수의 워커; 및
상기 복수의 워커에서 계산된 학습 결과에 기초하여 업데이트된 글로벌 파라미터를 비대칭 통신을 통해 기 정의된 업데이트 룰에 따라 복수의 워커로 전송하는 파라미터 서버
를 포함하는 분산 학습 시스템.
제1항에 있어서,
상기 복수의 워커는,
상기 로컬 데이터를 이용하여 학습 모델을 학습시킴에 따라 그레디언트를 계산하고, 상기 계산한 그레이디언트로 상기 복수의 워커의 각각에 대한 로컬 파라미터를 업데이트하는
것을 특징으로 하는 분산 학습 시스템.
제1항에 있어서,
상기 복수의 워커는,
상기 파라미터 서버로부터 업데이트된 글로벌 파라미터가 전송될 경우, 상기 업데이트된 글로벌 파라미터와 워커의 로컬 파라미터를 가중 평균(weighted average)하여 워커의 로컬 파라미터를 업데이트하는
것을 특징으로 하는 분산 학습 시스템.
제1항에 있어서,
상기 복수의 워커는,
상기 파라미터 서버로부터 업데이트된 글로벌 파라미터가 전송되지 않을 경우, 상기 학습에 대한 다음 학습 과정을 진행하는
것을 특징으로 하는 분산 학습 시스템.
제1항에 있어서,
상기 파라미터 서버는,
상기 복수의 워커에서 계산된 그레이디언트를 수집하고, 상기 수집된 그레디언트를 이용하여 글로벌 파라미터를 업데이트하는
것을 특징으로 하는 분산 학습 시스템.
제5항에 있어서,
상기 파라미터 서버는,
상기 복수의 워커에 대하여 수집된 그레디언트를 이용하여 분산 학습에서 손실함수를 최소화하는 글로벌 파라미터를 탐색하고, 상기 탐색된 글로벌 파라미터를 업데이트 주기마다 상기 복수의 워커에게 전송하는
것을 특징으로 하는 분산 학습 시스템.
워커에서 수행되는 비대칭 통신 기반의 분산 학습 방법에 있어서,
로컬 데이터를 이용하여 학습 모델을 학습함에 따라 학습 결과를 계산하는 단계;
상기 계산된 학습 결과를 파라미터 서버로 전달하는 단계; 및
상기 파라미터 서버로부터 업데이트된 글로벌 파라미터를 비대칭 통신을 통해 기 정의된 파라미터 업데이트 룰에 기초하여 수신하는 단계
를 포함하고,
상기 수신하는 단계에서, 상기 업데이트된 글로벌 파라미터와 워커의 로컬 파라미터가 가중 평균(weighted average)되어 상기 워커의 로컬 파라미터가 업데이트되는
분산 학습 방법.
제7항에 있어서,
상기 계산하는 단계는,
제1 학습 과정에서 상기 복수의 워커가 로컬 데이터를 이용하여 학습 모델을 학습시킴에 따라 그레디언트를 계산하고, 상기 계산한 그레이디언트로 상기 복수의 워커의 각각에 대한 로컬 파라미터를 업데이트하는 단계
를 포함하는 분산 학습 방법.
제7항에 있어서,
상기 수신하는 단계는,
상기 파라미터 서버로부터 업데이트된 글로벌 파라미터가 전송됨을 수신할 경우, 상기 업데이트된 글로벌 파라미터와 워커의 로컬 파라미터를 가중 평균(weighted average)하여 워커의 로컬 파라미터를 업데이트하고, 상기 파라미터 서버로부터 업데이트된 글로벌 파라미터가 전송되지 않을 경우, 제2 학습 과정을 진행하는 단계
를 포함하는 분산 학습 방법.
파라미터 서버에 의해 수행되는 비대칭 분산 학습 방법에 있어서,
복수의 워커에서 로컬 데이터를 이용하여 학습 모델을 학습함에 따라 계산된 학습 결과를 수집하는 단계;
상기 수집된 학습 결과를 이용하여 글로벌 파라미터를 업데이트하는 단계; 및
기 설정된 업데이트 룰에 기초하여 비대칭 통신을 통해 상기 업데이트된 글로벌 파라미터를 복수의 워커로 전송하는 단계
를 포함하고,
상기 전송하는 단계에서, 상기 복수의 워커로 전송된 업데이트된 글로벌 파라미터와 상기 복수의 워커의 로컬 파라미터가 가중 평균(weighted average)되어 상기 복수의 워커의 로컬 파라미터가 업데이트되는
를 포함하는 분산 학습 방법
제10항에 있어서,
상기 업데이트하는 단계는,
상기 복수의 워커에서 계산된 그레이디언트를 수집하고, 상기 수집된 그레디언트를 이용하여 분산 학습에서 손실함수를 최소화하는 글로벌 파라미터를 탐색하는 단계
를 포함하는 분산 학습 방법
제10항에 있어서,
상기 전송하는 단계는,
상기 수집된 그레디언트를 이용하여 분산 학습에서 손실함수를 최소화하기 위하여 탐색된 글로벌 파라미터를 업데이트 주기마다 상기 복수의 워커에게 전송하는 단계
를 포함하는 분산 학습 방법