KR20240053405A

KR20240053405A - 서버리스 엣지 컴퓨팅 환경에서의 동적 분할 컴퓨팅 방법

Info

Publication number: KR20240053405A
Application number: KR1020220133449A
Authority: KR
Inventors: 백상헌; 고한얼; 정현재; 정대영
Original assignee: 고려대학교 산학협력단
Priority date: 2022-10-17
Filing date: 2022-10-17
Publication date: 2024-04-24
Also published as: US20240137287A1

Abstract

서버리스 엣지 컴퓨팅(Serverless Edge Computing) 환경에서 동작하는 분할 컴퓨팅 장치가 개시된다. 상기 분할 컴퓨팅 장치는 단말로부터 상기 단말의 자원 정보를 수신하고, 상기 단말의 자원 정보를 수신하는 과정에서 상기 단말과 상기 컴퓨팅 장치 사이의 데이터 전송률을 측정하는 송수신부, 및 상기 단말의 자원 정보, 상기 데이터 전송률, 및 상기 분할 컴퓨팅 장치의 자원 정보를 이용하여, 분할 컴퓨팅을 위한 심층 신경망(Deep Neural Network, DNN) 모델의 분할 지점(spliting poing)과 분할 지점들 각각에 대응하는 DNN의 테일(tail) 모델들 각각에 대한 컨테이너 인스턴스의 활성화 여부를 결정하는 분할 지점 도출부를 포함한다.

Description

서버리스 엣지 컴퓨팅 환경에서의 동적 분할 컴퓨팅 방법{DYNAMIC SPLIT COMPUTING FRAMEWORK IN SERVERLESS EDGE COMPUTING}

본 발명은 서버리스 엣지 컴퓨팅(Serverless Edge Computing) 환경에서의 분할 컴퓨팅(Split Computing)에 관한 것이다.

기존의 DNN(Deep Neural Network, 심층 신경망) 추론 방법은 전체 DNN 모델에 대한 출력을 단일 장치(예컨대, 모바일 단말 혹은 엣지 클라우드 등)에서 도출하는 구조를 갖는다. 추론(Inference)이란, 모델 파라미터를 업데이트하는 학습 단계 이후에 학습을 통해 생성된 모델에 새로운 데이터를 입력하여 결과를 도출하는 과정이다.

기존의 DNN 추론 구조는 전체 DNN 추론이 모바일 단말에서 수행되는 경우, 로데이터(raw data)를 엣지 클라우드로 전송하지 않는다. 하지만, 모바일 단말의 제한된 컴퓨팅 파워로 인해 높은 추론 지연 시간이 발생할 수 있다. 반대로, 전체 DNN 추론이 엣지 클라우드에서 수행되는 경우, 엣지 클라우드의 높은 컴퓨팅 파워 및 자원을 사용하여 추론 지연 시간을 줄일 수 있는 잇점이 있다. 하지만, 로데이터를 엣지 클라우드로 전송해야 하는 오버헤드가 존재하고, 다수의 추론 서비스로 인한 트래픽이 엣지 클라우드에서의 과부하를 발생시킬 수 있다.

분할 컴퓨팅(Split Computing)은 추론을 여러 장치에서 수행할 수 있도록 하여 장치의 컴퓨팅 능력 및 네트워크 상태에 따라 유연하게 작업을 수행할 수 있도록 한다. 분할 컴퓨팅은 일반적으로 DNN 계층 분할 지점을 선택하여 DNN을 앞(head), 뒤(tail) 모델로 나누고 헤드(head) 모델은 모바일 단말에, 테일(tail) 모델은 엣지 클라우드에 배포한다. 이러한 구조는 장치의 컴퓨팅 파워, 에너지, 자원, 통신 상태 등에 따라 적절히 분할 지점을 선택하여 모바일 단말과 엣지 클라우드의 장점을 유연하게 활용할 수 있도록 한다. 하지만, 분할 컴퓨팅에서 DNN 분할 지점(Spliting Point)에 따라 추론 지연 시간, 모바일 단말 에너지 및 엣지 클라우드 자원 소모량이 달라지기 때문에 적절한 분할 지점을 찾는 것이 중요하다.

한편, 서버리스 컴퓨팅(Serveless Computing)은 클라우드 컴퓨팅 모델 중 하나로, 클라우드 서비스(예컨대, AWS Lambda)를 사용하여 개발자가 서버 자원 할당 등의 서버 관리 어려움에서 벗어나 어플리케이션을 개발할 수 있도록 하는 기술이다. 즉, 개발자가 서버의 가용량을 직접 증감하지 않고, 클라우드 서비스를 제공하는 기업이 자원 및 운영 체제를 관리하고 개발자에 자원 소모 비용을 청구한다. 따라서, 서버리스 컴퓨팅은 사용자가 없다면 클라우드 컨테이너 인스턴스를 비활성화(Cold) 상태로 유지하고 사용자의 요청이 들어오면 인스턴스를 활성화(Warm) 상태로 전환하여, 동적으로 서버의 자원을 할당할 수 있다는 장점이 있다. 한편, 효율적인 자원 가용을 위해서는 자원 낭비를 최소화하며 지연 시간 등의 서비스 요구 사항을 충족할 수 있도록 컨테이너 인스턴스 활성화 여부를 선택하는 것이 중요하다. 예를 들어, 컨테이너 인스턴스를 비활성화 상태로 유지하는 경우, 자원 낭비는 줄어들지만 사용자 요청이 들어오면 인스턴스 활성화를 위한 긴 초기 응답 시간이 필요하다. 반대로 컨테이너 인스턴스를 항상 활성화하면 초기 응답 시간은 짧으나, 낮은 자원 가용성을 가진다.

기존의 분할 컴퓨팅 관련 기법들은 서버리스 컴퓨팅 환경을 가정하지 않고 있다. 즉, 컨테이너 인스턴스 활성화 시간을 고려하지 않았기 때문에 해당 방법을 서버리스 컴퓨팅 환경에 적용하더라도 원하는 추론 지연 시간을 얻기 힘들다. 따라서, 본 발명에서는 동적인 시스템 환경을 고려하여 적합한 DNN 분할 지점과 클라우드에서의 컨테이너 인스턴스 활성화 여부를 동시에 결정하는 기법을 제한하고자 한다.

분할 컴퓨팅에서는 DNN 분할 지점에 따라 추론 지연 시간과 모바일 단말의 에너지 소비량, 엣지 클라우드의 자원 소비량 및 통신 오버헤드가 결정된다. 하지만, 최적의 분할 지점을 적용하여도 비활성화 상태인 컨테이너 인스턴스를 활성화하는 데에 2 ~ 5 초의 긴 시간이 필요하기 때문에 요구 시간 내에 추론 결과를 반환하기 힘들다. 반대로, 항상 활성화 상태를 유지하는 것은 엣지 클라우드 자원 효율성 측면에서 효율이 떨어진다. 따라서, 엣지 클라우드의 컨테이너 인스턴스 활성화 상태를 일정 값(즉, 자원 소모량) 이하로 유지하는 방안이 필요하다.

이를 위해, 본 발명에서는 분할 컴퓨팅 시 적합한 분할 지점과 컨테이너 인스턴스 활성화 여부를 동적으로 결정하기 위한 기법을 제안하다. 제안 기법에서는 최적의 분할 지점 및 활성화 여부를 결정하기 위해 CMDP(Constrained Markov Decision Process)로 문제를 공식화하고, LP(Linear Programming, 선형 프로그래밍)로 최적의 확률적 정책(Policy)을 찾는다.

대한민국 등록특허 제10-2113662호 (2020.05.22. 공고)

본 발명이 이루고자 하는 기술적인 과제는 서버리스 엣지 컴퓨팅 환경에서 심층 신경망의 분할 지점과 컨테이너 인스턴스의 활성화 여부를 도출할 수 있는 동적 분할 컴퓨팅 장치 및 방법을 제공하는 것이다.

본 발명의 일 실시예에 따른 분할 컴퓨팅 장치는 서버리스 엣지 컴퓨팅(Serverless Edge Computing) 환경에서 동작하는 분할 컴퓨팅 장치로써, 단말로부터 상기 단말의 자원 정보를 수신하고, 상기 단말의 자원 정보를 수신하는 과정에서 상기 단말과 상기 컴퓨팅 장치 사이의 데이터 전송률을 측정하는 송수신부, 및 상기 단말의 자원 정보, 상기 데이터 전송률, 및 상기 분할 컴퓨팅 장치의 자원 정보를 이용하여, 분할 컴퓨팅을 위한 심층 신경망(Deep Neural Network, DNN) 모델의 분할 지점(spliting poing)과 분할 지점들 각각에 대응하는 DNN의 테일(tail) 모델들 각각에 대한 컨테이너 인스턴스의 활성화 여부를 결정하는 분할 지점 도출부를 포함한다.

본 발명의 실시예들에 의할 경우, 적절한 DNN 분할 지점과 클라우드 인스턴스의 활성화 여부 선택이 가능하다. 이는 엣지 클라우드에서 시간마다 새로 결정되기 때문에, 본 발명을 통해 동적 네트워크 자원 상태 및 서비스 요구 사항(예컨대, 지연 시간) 변화에 적응적인 분할 및 인스턴스 활성화 결정이 가능하다.

특히, 본 발명에서 기반 환경으로 두는 서버리스 컴퓨팅 환경은 가상 혹은 물리 서버를 유지하지 않고, 요청이 있을 때만 코드를 실행하는 어플리케이션을 제공한다. 이는 비디오 스트리밍 혹은 모니터링 등의 짧은 지연 시간을 요구하는 서비스에 적합하고 인프라 관리를 용이하게 하여 개발과 시스템 운영 측면 모두에서 장점을 가지고 있다. 따라서, 서버리스 컴퓨팅 환경에 기반한 효율적인 엣지 컴퓨팅 방안은 이후 분할 컴퓨팅을 포함하여 다양한 서비스 적용 사례를 만들 수 있다.

본 발명의 상세한 설명에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 상세한 설명이 제공된다.
도 1은 본 발명의 일 실시예에 따른 시스템의 개요도이다.
도 2는 엣지 클라우드의 자원 소비량 임계값(threshold)에 따른 평균 추론 지연 시간 변화를 도시하는 그래프이다.
도 3은 모바일 단말의 에너지 소비량 임계값에 따른 평균 지연 시간 변화를 도시하는 그래프이다.
도 4는 도 1에 도시된 서버의 기능 블럭도이다.

본 명세서에 개시되어 있는 본 발명의 개념에 따른 실시예들에 대해서 특정한 구조적 또는 기능적 설명들은 단지 본 발명의 개념에 따른 실시예들을 설명하기 위한 목적으로 예시된 것으로서, 본 발명의 개념에 따른 실시예들은 다양한 형태들로 실시될 수 있으며 본 명세서에 설명된 실시예들에 한정되지 않는다.

본 발명의 개념에 따른 실시예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시예들을 도면에 예시하고 본 명세서에서 상세하게 설명하고자 한다. 그러나, 이는 본 발명의 개념에 따른 실시예들을 특정한 개시 형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물, 또는 대체물을 포함한다.

제1 또는 제2 등의 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만, 예컨대 본 발명의 개념에 따른 권리 범위로부터 벗어나지 않은 채, 제1 구성 요소는 제2 구성 요소로 명명될 수 있고 유사하게 제2 구성 요소는 제1 구성 요소로도 명명될 수 있다.

어떤 구성 요소가 다른 구성 요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성 요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성 요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성 요소가 다른 구성 요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는 중간에 다른 구성 요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성 요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.

본 명세서에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로서, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 본 명세서에 기재된 특징, 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 본 명세서에 첨부된 도면들을 참조하여 본 발명의 실시예들을 상세히 설명한다. 그러나, 특허출원의 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.

도 1은 본 발명에서 제안하는 시스템 모델이다. 서버리스 엣지 컴퓨팅(Serverless Edge Computing) 환경에서의 동적 분할 컴퓨팅 시스템 등으로 명명될 수도 있는 시스템은 (모바일) 단말(Mobile device)과 서버(엣지 클라우드(Edge cloud))를 포함한다. DNN 추론을 효과적으로 수행하기 위해 단말과 서버(엣지 클라우드)에서의 분할 컴퓨팅을 활용한다. 즉, L(L은 임의의 자연수)개의 계층을 가지는 전체 DNN 모델을 헤드(head)와 테일(tail) 모델로 분할하여 헤드(head) 모델은 단말에, 테일(tail) 모델은 서버(엣지 클라우드)에 배치한다. 도 1과 같이, 단말과 서버(엣지 클라우드)는 모든 분할 지점에 따른 헤드(head), 테일(tail) 모델을 가지고 있다고 가정한다. 따라서 어떤 분할 지점이 선택되어도, 단말과 서버(엣지 클라우드)는 추론 동작을 수행할 수 있다.

단말과 서버는 적어도 프로세서(processor) 및/또는 메모리(memory)를 포함하는 컴퓨팅 장치로 구현될 수 있다. 컴퓨팅 장치는 스마트폰, PC(Personal), 서버(server), 태블릿 PC, 랩탑 컴퓨터 등을 포함할 수 있다.

또한, 본 명세서에서 말하는 DNN은 소정의 학습이 완료된 모델로써, ANN(Artificial Neural Network), CNN(Convolution Neural Network), RNN(Recurrent Neural Network), MLP(Multi Layer Perceptron), LSTM(Long Short-Term Memory), DFN(Deep Feedforward Network), Autoencoder, VAE(Variational Autoencoder), DRN(Deep Residual Network), GAN(Generative Adversarial Network), GCN(Graph Convolutiona Network), SNN(Spiking Neural Network) 등을 포함하는 개념으로 이해될 수 있다.

서버(엣지 클라우드)에서 분할 지점 및 클라우드 인스턴스 상태에 대한 결정을 내리기 위해서는 먼저 단말의 정보가 필요하다. 본 발명에서는 단말이 추론에 사용 가능한 에너지(예컨대, 컴퓨팅 파워)를 미리 서버(엣지 클라우드)로 전송하는 것으로 가정한다. 컨테이너 인스턴스의 경우, 초기 인스턴스 상태는 활성화 혹은 비활성화 상태 중 랜덤하게 선택된다. 서버(엣지 클라우드)는 시간 T 마다 컨테이너 인스턴스 상태를 유지하거나 전환할 수 있다. 따라서 서버(엣지 클라우드)는 분할 지점 결정 시 서버(엣지 클라우드)의 자원 정보와 단말의 에너지 정보 및 두 장치 간 데이터 전송 속도(데이터 전송률)를 고려하여 DNN 분할 지점과 컨테이너 인스턴스 상태 결정을 내릴 수 있다.

상술한 정보(예컨대, 단말의 에너지 정보, 서버(엣지 클라우드)의 자원 정보, 컨테이너 인스턴스의 상태 정보, 데이터 전송률)들은 서버(엣지 클라우드) 내의 결정을 내리는 기능을 수행하는 구성(도 1의 Decision maker)의 입력으로 입력된다. 해당 기능에서는 후술되는 동작 절차를 수행 후 출력으로 분할 지점 및/또는 컨테이너 인스턴스 상태 결정을 내리게 된다. 시스템 모델 수식화를 위해, 전체 DNN 모델이 l(l은 0 보다 크거나 같고 L 보다 작거나 같은 자연수) 번째 분할 지점에서 분할되면 서버(엣지 클라우드)는 l 번째 계층 이후 테일(tail) 모델의 추론을 위해 컨테이너 인스턴스 을 활성화 상태로 유지하는 것으로 정의한다. 서버(엣지 클라우드)에서 분할 지점 및/또는 컨테이너 인스턴스 상태 결정은 시간 T(T는 0 보다 큰 임의의 실수) 마다 수행될 수 있다. 결정은 단말의 평균 에너지 소모량 및 서버(엣지 클라우드)의 평균 자원 소모량을 일정 값(임계값) 이하로 유지하면서 추론 지연 시간을 최소화하는 것을 목적으로 한다. 여기서, 임계값은 관리자에 의해 미리 정해진 값을 가질 수 있고, 환경과 정책에 따라 가변될 수 있다.

서버(엣지 클라우드)에서 분할 지점이 결정되면, 해당 결과는 단말로 전송된다. 이후 단말은 수신된 결정(분할 지점)에 따라, 입력된 로데이터(raw data)에 대하여 분할 지점까지 추론을 수행 후 출력(즉, 헤드 모델의 출력)인 중간 데이터(intermediate data)를 서버(엣지 클라우드)로 전송한다. 서버(엣지 클라우드)는 중간 데이터를 입력으로 받아 추론을 수행하여 최종 출력을 도출하고, 도출된 최종 출력을 단말에 반환하게 된다. 단말로부터 중간 데이터(intermediate data)를 받은 서버(엣지 클라우드)는 컨테이너 인스턴스를 비활성화에서 활성화 상태로 전환을 위해 인스턴스 초기화 등의 프로세스를 수행한다. 실시예에 따라, 인스턴스 초기화 등의 프로세스는 인스턴스의 상태에 대한 결정이 수행된 후에 실행될 수도 있다. 즉, 해당하는 컨테이너 인스턴스를 미리 활성화하여 응답 지연을 줄일 수 있다.

이하에서는, DNN의 분할 지점 및/또는 컨테이너 인스턴스의 활성화 여부를 결정하는 방법에 대하여 구체적으로 설명한다.

우선, CMDP(constrained Markov decision process) 모델링에 대하여 상세하게 설명한다.

상태 공간(State Space) S는 수학식 1과 같이 정의된다.

[수학식 1]

수학식 1에서, C_M과 C_E는 각각 단말과 서버(엣지 클라우드)의 (가용) 컴퓨팅 파워(availabe computing power)를 나타낸다. R은 단말과 서버(엣지 클라우드) 사이의 데이터 전송 속도(data transmission rate, 데이터 전송률)을 나타낸다. W_l은 컨테이너 인스턴스 I_T,l이 시간 T에 DNN 계층 l 번째부터 추론하는 경우 컨테이너 인스턴스 활성화 상태를 나타내는 값으로, 0 혹은 1의 값을 가진다. 여기서, 1은 활성화, 0은 비활성화 상태임을 의미한다.

과 가 각각 단말과 서버(엣지 클라우드)의 최대 컴퓨팅 파워(maximum computing power)를 나타낼 때, 과 는 수학식 2와 수학식 3과 같이 나타낼 수 있다.

[수학식 2]

[수학식 3]

수학식 2와 수학식 3에서 는 단위 컴퓨팅 파워(unit of computing power)를 나타낸다.

R은 수학식 4와 같이 표현된다.

[수학식 4]

수학식 4에서, 은 단위 전송률(unit of the transmission rate)을 나타낸다. 또한, R^min과 R^max는 각각 최소 전송률과 최대 전송률을 나타낸다.

W_l은 수학식 5와 같이 0 또는 1의 값을 갖는다.

[수학식 5]

수학식 5에서, W_l은 이 활성화 상태인지 아닌지를 나타낸다. 즉, W_l=1이면 은 활성화 상태이고, 그렇지 않으면 는 비활성화 상태이다.

액션 공간(Action Space) A는 수학식 6과 같이 정의된다.

[수학식 6]

수학식 6에서, A_S는 0 ~ L 번째 사이의 계층 중에서 분할 지점을 지정한다. A_S=0은 모든 추론이 서버(엣지 클라우드)에서 수행됨을 의미하고, 반대로 A_S=L은 모든 추론이 단말에서 수행됨을 의미한다. 또한 계층 l 까지는 헤드(head) 모델, 계층 l 이후 계층은 테일(tail) 모델로 지칭한다. A_W,I는 인스턴스 활성화 여부를 지정하며, 0 혹은 1의 값을 가진다. 여기서, 1은 활성화, 0은 비활성화 상태임을 의미한다. 모델은 L 개의 레이어들(layers)을 포함하기 때문에, A_S는 수학식 7과 같이 표현된다.

[수학식 7]

서버(엣지 클라우드)에서 각 컨테이너 인스턴스 는 활성화 상태를 유지할 수 있기 때문에, A_W,l은 수학식 8과 같이 표현된다.

[수학식 8]

현재 상태 로부터 다음 상태 로의 전이 확률(Transition Probability) P는 수학식 9와 같이 정의된다.

[수학식 9]

마르코프 체인(Markov chain) 정의에 따라 현재 상태(current state) S와 다음 상태(next state) S′는 독립적이다. P는 아래와 같이 서버(엣지 클라우드)의 컨테이너 인스턴스 활성화 여부에 따라 달리 정의된다. W_l외에 C_M, C_E, R의 상태(state)에 대한 전이 확률(transition probability)은 통계적으로 정의된다. W_l의 전이 확률은 다음과 같은 4가지 경우로 정의된다.

① A_W,l=1 일 때, 컨테이너 인스턴스가 비활성화 상태(W_l=0)에서 활성화 상태로 전환될 확률은 수학식 10과 같다.

[수학식 10]

(∵컨테이너 인스턴스 I_T,l가 비활성화 상태에서 활성화 상태로 전환하는 데에 소요되는 시간은 평균이 인 지수 분포를 따를 경우, 인스턴스가 비활성화 상태에서 활성화 상태로 결정 주기 안에 변경될 확률은 로 정의)

② A_W,l=0 일 때, 컨테이너 인스턴스 비활성화 상태(W_l=0)가 유지될 확률은 수학식 11과 같다.

[수학식 11]

③ A_W,l=1 일 때, 컨테이너 인스턴스 활성화 상태(W_l=1)가 유지될 확률은 [수학식 12와 같다.

[수학식 12]

④ A_W,l=0 일 때, 컨테이너 인스턴스 활성화 상태(W_l=1)에서 비활성화 상태로 전환될 확률은 수학식 13]과 같다.

[수학식 13]

추론 지연(inference latency)을 최소화하기 위한 비용 함수(Cost Function) r(S,A)는 수학식 14와 같이 정의된다.

[수학식 14]

수학식 14에서, 와 은 각각 헤드(head)와 테일(tail) 모델의 추론 지연 시간이다. 은 단말과 서버(엣지 클라우드) 사이에서 중간 데이터의 전송으로 인한 전송 지연(transmission latency)을 나타낸다. 헤드 모델의 추론 지연은 분할 지점과 단말의 가용 컴퓨팅 파워에 의존한다. 테일 모델의 추론 지연은 테일 모델의 컨테이너 인스턴스의 상태, 분할 지점, 및 서버(엣지 클라우드)의 가용 컴퓨팅 파워에 의존한다. 전송 지연은 단말과 서버(엣지 클라우드) 사이의 전송률과 분할 지점(즉, 중간 데이터의 크기)에 영향을 받는다.

(모바일) 단말의 평균 에너지 소비량(aeverage energy consumption)과 서버(엣지 클라우드)의 평균 자원 소모량(average resource consumption)을 일정 레벨로 유지하기 위하여 두 개의 제약 함수(Constraint functions)를 정의한다.

단말의 평균 에너지 소비량 c_E는 수학식 15와 같다.

[수학식 15]

수학식 15에서, E_l은 단말에서 분할 지점이 l인 헤드(head) 모델에 대한 컴퓨팅(추론) 수행 시 발생하는 에너지 소비량이다.

서버(엣지 클라우드)의 평균 자원 소모량 c_R은 수학식 16과 같다.

[수학식 16]

수학식 16에서, 는 주어진 조건이 참(true)이면 1을 반환하고, 그렇지 않으면 0을 반환하는 델타 함수(delta function)이다.

이하에서는, 최적화 과정을 상세히 설명한다.

본 발명에서 최소화하고자 하는 평균 지연 시간(average inference latency) 은 수학식 17과 같이 정의된다.

[수학식 17]

수학식 17에서, 와 는 각각 시점 에서의 상태(state)와 선택된 액션(chosen action)을 나타낸다.

단말의 평균 에너지 소비량 와 서버(엣지 클라우드)의 평균 자원 소모량 은 수학식 18과 수학식 19로 나타낼 수 있다.

[수학식 18]

[수학식 19]

CMDP 모델은 수학식 20과 수학식 21과 같이 표현될 수 있다.

[수학식 20]

[수학식 21]

와 은 각각 단말의 에너지 소비량 및 서버(엣지 클라우드)의 자원 소비량의 임계값(threshold)이다. 또한, 는 각 상태(state)에서 특정 액션을 선택하는 확률을 암시하는 정책(policy)을 나타낸다. 본 발명에서는 최적의 정책(policy)을 얻기 위해 CMDP 모델을 LP(Linear Programming)으로 변형하였고, 변형한 수식은 아래와 같다. 상태 S와 액션 A의 정상 확률(stationary probabilities) 는 아래와 같이 CMDP 모델을 동치의(equivalent) LP 모델로 변환하기 위한 LP 모델의 결정 변수(decision variables)로 정의된다. 최적의 정책(policy)은 아래의 LP 문제를 해결함으로써 도출될 수 있다.

[수학식 22]

[수학식 23]

[수학식 24]

[수학식 25]

[수학식 26]

[수학식 27]

위 식에서 도출된 결과는 지연 시간을 최소화하고 단말 및 클라우드의 자원 효율성을 최대화하는 최적의 DNN 분할 지점과 컨테이너 인스턴스 활성화 여부이다.

수학식 22는 추론 지연을 최소화하기 위한 목적 함수(objective function)이다. 수학식 23과 수학식 24의 제약 조건은 수학식 21의 CMDP 모델의 제약 조건에 대응한다. 또한, Chapman-Kolmogorov equation이 수학식 25에 적용된다. 수학식 26과 수학식 27에서의 제약 조건은 확률 특징(probability characteristics)의 보존을 위해 요구된다.

최적의 스토캐스틱 정책(optimal stochastic policy) 는 LP 문제를 풀이함으로써 CMDP 모델 솔루션으로 도출될 수 있다. 최적의 스토캐스틱 정책은 주어진 상태 S에서 최적의 확률 분포에 기초하여 액션 A를 선택한다.

도 2는 서버(엣지 클라우드)의 자원 소비량 임계값(threshold) 에 따른 평균 추론 지연 시간 변화를 도시하는 그래프이다. 도 2를 참조하여, 제안 기법(DSCF)의 성능을 다음 네 가지 DNN 분할 방안과 비교한다. 1) EDGE-COLD: 전체 DNN을 엣지 클라우드에서 추론하고 인스턴스 비활성화 상태를 유지하는 방안, 2) EDGE-WARM: 전체 DNN을 엣지 클라우드에서 추론하고 인스턴스 활성화 상태를 유지하는 방안, 3) MOBILE: 전체 DNN을 모바일 단말에서 추론하는 방안, 4) OPT-DATA: 중간 데이터(intermediate data) 크기가 가장 작은 계층을 찾아 헤드(head) 모델은 모바일 단말에서 추론하고, 테일(tail) 모델은 인스턴스 활성화 상태를 유지하는 엣지 클라우드에서 추론하는 방안 네 가지로 시뮬레이션이 비교된다.

도 2의 결과와 같이 제안 기법(DSCF)이 임계값(threshold)에 따라 지연 시간이 변화하며 동시에 2)와 가장 유사한 지연 시간을 가지는 것을 확인할 수 있다. 이는 제안 기법(DSCF)이 활성화된 인스턴스로 추론 수행 시 임계값(threshold)이 커질수록 엣지 클라우드 자원을 더 많이 사용하기 때문에 지연 시간은 낮아지는 것으로 볼 수 있다.

도 3은 모바일 단말의 에너지 소비량 임계값(threshold) 에 따른 평균 지연 시간 변화를 도시하는 그래프이다. 전체 DNN을 추론하는 3)과 비교하였을 때, 제안 기법(DSCF)은 제한된 에너지 소비량에 기반하여 지연 시간을 최소화하는 분할 지점을 선택하기 때문에 3)보다 낮은 평균 지연 시간을 가진다. 또한, 도 3의 다른 방안과 달리, 모바일 단말 에너지가 많이 소비될수록 지연 시간이 짧아지는 것을 볼 수 있다. 그 이유는 똑같이 헤드(head), 테일(tail) 모델로 DNN을 분할하는 4)와 비교하였을 때, 제안 기법(DSCF)은 의 변화에 적응적으로 지연 시간을 최소화하는 분할 지점을 선택하기 때문이다.

도 4는 도 1에 도시된 서버의 기능 블럭도이다.

도 4를 참조하면, 서버리스 엣지 컴퓨팅 환경에서 동작하고, (동적) 분할 컴퓨팅 장치 등으로 명명될 수도 있는 서버(100)는 송수신부(110), 분할 지점 도출부(120), 및 추론부(130)를 포함한다. 실시예에 따라, 서버(100)는 저장부(140)를 더 포함할 수도 있다.

송수신부(110)는 단말로부터 단말의 정보(예컨대, 단말의 (가용) 컴퓨팅 파워)를 주기적으로 또는 비주기적으로 수신할 수 있다. 또한, 송수신부(110)는 단말로부터 소정의 DNN 모델의 헤드 모델의 추론 결과, 즉 중간 데이터(intermediate data)를 수신할 수도 있다. 수신된 단말의 정보 및/또는 중간 데이터는 저장부(140)에 저장될 수 있다.

실시예에 따라, 송수신부(110)는 단말로부터 수신되는 정보 및/또는 중간 데이터를 수신하는 과정에서 단말과 서버(100) 사이의 데이터 전송 속도(전송률)를 측정하고, 측정된 데이터 전송 속도를 저장부(140)에 저장할 수 있다.

분할 지점 도출부(120)는 송수신부(110)에 의해 수신된 단말의 정보(예컨대, 단말의 컴퓨팅 파워), 데이터 전송 속도, 및 서버(100)의 컴퓨팅 파워를 이용하여, 분할 컴퓨팅을 위한 DNN 모델의 분할 지점 및/또는 각 테일 모델의 컨테이너 인스턴스의 활성화 여부를 결정할 수 있다. 분할 지점 및/또는 컨테이너 인스턴스의 활성화 여부는 상술한 최적화 과정을 통해 결정될 수 있다. 분할 지점 도출부(120)에 의해 결정된 분할 지점은 송수신부(110)에 의해 단말로 송신될 수 있다. 이에 따라, 단말은 소정의 입력에 대하여, DNN 모델의 헤드 모델(즉, 분할 지점까지의 레이어만을 포함하는 모델)에 대한 추론 결과(중간 데이터)를 도출하고, 도출된 중간 데이터를 서버(100)로 송신할 수 있다. 분할 지점 도출부(120)에 의한 분할 지점 도출 동작 및/또는 컨테이너 인스턴스의 활성화 여부 결정 동장 중 일시적으로 또는 비일시적으로 생성되는 데이터는 저장부(140)에 저장될 수 있다.

실시예에 따라, 분할 지점 도출부(120)는 주기적으로 또는 비주기적으로 분할 지점 도출 및/또는 컨테이너 인스턴스의 활성화 여부 결정 동작을 수행할 수 있다.

추론부(130)는 송수신부(110)를 통해 수신된 DNN 모델의 헤드 모델의 추론 결과, 즉 중간 데이터에 대하여 테일 모델을 통해 추론을 수행함으로써, DNN 모델의 최종 결과를 도출할 수 있다. 테일 모델에 의한 추론 결과(즉, DNN 모델의 최종 결과)는 송수신부(110)를 통하여 단말로 송신될 수 있다.

또한, 추론부(130)는 분할 지점 도출부(120)에 의해 결정된 분할 지점에 대한 정보를 수신하고, 수신된 분할 지점 이후의 계층들에 대응하는 테일 모델에 대한 컨테이너 인스턴스만을 활성화 상태로 유지할 수 있다. 해당 컨테이너 인스턴스만을 활성화함으로써, 단말로부터의 수신된 중간 데이터에 대한 응답 지연(추론 지연 시간)을 최소화할 수 있고, 나머지 컨테이너 인스턴스를 비활성화 상태로 유지함으로써 서버(100)의 가용 자원을 늘릴 수 있다.

저장부(140)에는 서버(100)의 동작에 필요한 운영체제(Operating System, OS), 프로그램, 소스 코드 등이 저장되어 있을 수 있다. 또한, 저장부(140)에는 DNN 모델의 각 분할 지점에 따른 테일(tail) 모델들이 저장되어 있을 수도 있다. 또한, 저장부(140)에는 송수신부(110)에 의해 수신된 데이터(단말의 가용 컴퓨팅 파워, 중간 데이터), 분할 지점 도출부(120)에 의해 도출된 분할 지점 및/또는 각 컨테이너 인스턴스의 활성화 여부, 추론부(130)에 의한 추론 결과 등이 저장될 수 있다.

이상에서 설명된 장치는 하드웨어 구성 요소, 소프트웨어 구성 요소, 및/또는 하드웨어 구성 요소 및 소프트웨어 구성 요소의 집합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성 요소는, 예를 들어, 프로세서, 콘트롤러, ALU(Arithmetic Logic Unit), 디지털 신호 프로세서(Digital Signal Processor), 마이크로컴퓨터, FPA(Field Programmable array), PLU(Programmable Logic Unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(Operation System, OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술 분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(Processing Element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(Parallel Processor)와 같은, 다른 처리 구성(Processing Configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(Computer Program), 코드(Code), 명령(Instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(Collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성 요소(Component), 물리적 장치, 가상 장치(Virtual Equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(Signal Wave)에 영구적으로, 또는 일시적으로 구체화(Embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM, DVD와 같은 광기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-optical Media), 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성 요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성 요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.

100 : 분할 컴퓨팅 장치
110 : 송수신부
120 : 분할 지점 도출부
130 : 추론부
140 : 저장부

Claims

서버리스 엣지 컴퓨팅(Serverless Edge Computing) 환경에서 동작하는 분할 컴퓨팅 장치에 있어서,
단말로부터 상기 단말의 자원 정보를 수신하고, 상기 단말의 자원 정보를 수신하는 과정에서 상기 단말과 상기 컴퓨팅 장치 사이의 데이터 전송률을 측정하는 송수신부; 및
상기 단말의 자원 정보, 상기 데이터 전송률, 및 상기 분할 컴퓨팅 장치의 자원 정보를 이용하여, 분할 컴퓨팅을 위한 심층 신경망(Deep Neural Network, DNN) 모델의 분할 지점(spliting poing)과 분할 지점들 각각에 대응하는 DNN의 테일(tail) 모델들 각각에 대한 컨테이너 인스턴스의 활성화 여부를 결정하는 분할 지점 도출부를 포함하는 분할 컴퓨팅 장치.
제1항에 있어서,
상기 분할 지점 도출부에 의해 결정된 상기 DNN 모델의 분할 지점은 상기 송수신부에 의해 상기 단말로 전송되는,
분할 컴퓨팅 장치.
제2항에 있어서,
상기 송수신부는 상기 단말로부터 결정된 분할 지점에 대한 상기 DNN 모델의 헤드(head) 모델의 추론 결과인 중간 데이터를 수신하고,
상기 분할 컴퓨팅 장치는, 상기 중간 데이터를 입력으로 이용하여 결정된 분할 지점에 대한 상기 DNN 모델의 테일 모델의 추론 결과를 도출하는 추론부를 더 포함하고,
상기 추론부의 추론 결과는 상기 송수신부에 의해 상기 단말로 송신되는,
분할 컴퓨팅 장치.
제1항에 있어서,
상기 단말의 자원 정보는 상기 단말의 가용 컴퓨팅 파워이고, 상기 분할 컴퓨팅 장치의 자원 정보는 상기 분할 컴퓨팅 장치의 가용 컴퓨팅 파워이고,
상기 분할 지점 도출부는, 상기 단말의 컴퓨팅 파워를 제1 임계치 이하로 유지하고 상기 분할 컴퓨팅 장치의 컴퓨팅 파워를 제2 임계치 이하로 유지하면서 추론 지연 시간을 최소화할 수 있는 분할 지점을 결정하는,
분할 컴퓨팅 장치.
제4항에 있어서,
상기 추론 지연 시간은, 각 분할 지점에 대하여 헤드 모델의 추론 지연 시간, 헤드 모델의 결과인 중간 데이터의 전송으로 인한 전송 지연, 및 테일 모델의 추론 지연 시간의 합인,
분할 컴퓨팅 장치.