KR20230007941A

KR20230007941A - 에지 컴퓨팅 기반 산업용 사물 인터넷 환경에서 강화학습을 활용한 태스크 오프로딩 방법

Info

Publication number: KR20230007941A
Application number: KR1020220077657A
Authority: KR
Inventors: 김동성; 이재민; 호사인 사자드; 차중혁
Original assignee: 금오공과대학교 산학협력단
Priority date: 2021-07-06
Filing date: 2022-06-24
Publication date: 2023-01-13

Abstract

게이트웨이가 있는 에지 서버와, 에이전트로 간주되며 산업용 사물 인터넷 장치로서 자신의 작업 데이터를 로컬에서 처리하거나 상기 에지 서버로 오프로드 하는 복수의 엔드 장치가 구비되는 산업용 사물인터넷 네트워크 상에서 강화학습을 활용한 태스크 오프로딩 방법에 있어서, 에이전트로 간주되는 상기 복수의 엔드 장치는 각각, 자신의 작업 데이터를 오프로드 할지 여부를 결정함에 있어서, 마르코프 결정방식(Markov Decision Process, MDP)에 대한 기댓값을 최대화 하는 강화학습 기반 큐 러닝(Q-Learning)을 이용하여 오프로딩 결정 및 계산 자원 할당을 최적화하는 것을 특징으로 한다.

Description

에지 컴퓨팅 기반 산업용 사물 인터넷 환경에서 강화학습을 활용한 태스크 오프로딩 방법{Edge computational task offloading scheme using reinforcement learning for IIoT scenario}

본 발명은 태스크 오프로딩 방법에 관한 것으로서, 더 상세하게는 에지 컴퓨팅 기반 산업용 사물 인터넷 환경에서 강화학습을 활용한 태스크 오프로딩 방법에 관한 것이다.

에지 컴퓨팅은 컴퓨팅 인스턴스와 데이터 관리를 사용자 장비의 주변에서 처리되는 분산 컴퓨팅이다. 이러한 방식은 네트워크의 대역폭을 줄일 수 있어 시스템의 실시간 문제를 보다 합리적으로 처리할 수 있다. 에지 컴퓨팅의 주요장점은 사용자와 서버 간의 통신 길이를 최소화한다는 것이다. 이러한 에지 컴퓨팅은 산업용 사물인터넷(Industrial IoT, IIoT)에서 서버와 서버의 가장자리에서 수행된다. 자원의 제약이 있는 산업용 사물인터넷(Industrial IoT, IIoT) 환경에서는 클라우드를 기반으로 수행돼야 하고, 계산 복잡성, 스토리지 및 데이터 센터 등의 태스크 오프로딩을 위해 머신러닝이 적용되고 있다.

에지 컴퓨팅을 위해 머신러닝의 의사결정 과정은 일반적으로 동적 프로그래밍 방법에 이점을 가지기 때문에 마르코프 결정 과정을 채택한다. 그러나 마르코프 결정방식(Markov Decision Process, MDP)은 단일 사용자에 대한 작업 스케줄링이 적용되는 제약이 존재한다.

KR

10-2113662

B

본 발명은 상기와 같은 기술적 과제를 해결하기 위해 제안된 것으로, 큐 러닝(Q-Learning) 기반으로 산업용 사물인터넷(Industrial IoT, IIoT) 환경에서 엣지 컴퓨팅의 강화 학습을 활용한 태스크 오프로딩 방법을 제안한다.

상기 문제점을 해결하기 위한 본 발명의 일 실시예에 따르면, 산업용 사물인터넷 네트워크 상에서 강화학습을 활용한 태스크 오프로딩 시스템에 있어서, 게이트웨이가 있는 에지 서버와, 에이전트로 간주되며 산업용 사물 인터넷 장치로서 자신의 작업 데이터를 로컬에서 처리하거나 상기 에지 서버로 오프로드 하는 복수의 엔드 장치를 포함하고, 에이전트로 간주되는 상기 복수의 엔드 장치는 각각, 자신의 작업 데이터를 오프로드 할지 여부를 결정함에 있어서, 마르코프 결정방식(Markov Decision Process, MDP)에 대한 기댓값을 최대화 하는 강화학습 기반 큐 러닝(Q-Learning)을 이용하여 오프로딩 결정 및 계산 자원 할당을 최적화하는 것을 특징으로 하는 강화학습을 활용한 태스크 오프로딩 시스템이 제공된다.

또한, 본 발명에서 게이트웨이가 있는 에지 서버와, 에이전트로 간주되며 산업용 사물 인터넷 장치로서 자신의 작업 데이터를 로컬에서 처리하거나 상기 에지 서버로 오프로드 하는 복수의 엔드 장치가 구비되는 산업용 사물인터넷 네트워크 상에서 강화학습을 활용한 태스크 오프로딩 방법에 있어서, 에이전트로 간주되는 상기 복수의 엔드 장치는 각각, 자신의 작업 데이터를 오프로드 할지 여부를 결정함에 있어서, 마르코프 결정방식(Markov Decision Process, MDP)에 대한 기댓값을 최대화 하는 강화학습 기반 큐 러닝(Q-Learning)을 이용하여 오프로딩 결정 및 계산 자원 할당을 최적화하는 것을 특징으로 하는 강화학습을 활용한 태스크 오프로딩 방법이 제공된다.

본 발명은 산업용 사물인터넷(IIoT) 환경용 에지 서버에 인접한 무선 센서에 대한 에너지 소비 및 작업 계산 지연의 가중치 합으로 네트워크 아키텍처 모델을 제시한다.

또한, 최적의 이진 계산 오프로딩 결정을 제안한 다음 강화 학습을 도입하여 문제를 해결한다. 또한, 강화 학습의 문제를 해결하고 작업 오프로딩을 위한 Q-Learning 기반 알고리즘을 제안한다.

즉, 본 발명에서 엣지 컴퓨팅을 사용하는 산업용 사물인터넷 환경을 위한 강화학습(RL) 기반 방식을 제안하며, 마르코프 결정방식(Markov Decision Process, MDP)은 Q-Learning 기반 방식으로 대체한다.

시뮬레이션 결과, 산업용 사물 인터넷 시나리오에서 계산 비용과 지연 비용으로 파생되는 오프로딩 비용을 최소화하는 강화 학습 기반 방식의 효율성을 보여준다.

도 1은 산업용 사물인터넷(IIoT)에서 작업(태스크) 오프로딩 모델을 나타낸 도면
도 2는 상태 동작과 Q 값을 보여주는 기본 Q-학습 단계를 나타낸 도면
도 3은 행과 열의 Q-테이블 표현한 도면
도 4는 오프로딩 결정과 계산 자원을 최적화하기 위한 단계별 Q-러닝 방법을 나타낸 도면
도 5는 총 비용 대 사용자 장비(UE) 수를 나타낸 도면
도 6은 에지 서버의 용량 대 총 비용을 나타낸 도면
도 7은 평균 보상 대 시간 단계를 나타낸 도면

이하, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 정도로 상세히 설명하기 위하여, 본 발명의 실시예를 첨부한 도면을 참조하여 설명하기로 한다.

- 시스템 모델

도 1은 산업용 사물인터넷(IIoT)에서 작업(태스크) 오프로딩 모델을 나타낸 도면이다.

태스크 오프로딩(Task Offloading)은 컴퓨팅 작업을 다른 처리장치 또는 시스템으로 전달하여 수행하도록 하는 기술 또는 구조를 의미한다. 태스크 오프로딩은 모바일 장치 등 연산 능력과 저장 공간, 전력 등이 제한적인 장치로부터 컴퓨팅 자원이 풍부한 플랫폼으로 작업을 전달함으로써, 자원이 부족한 장치의 성능 한계를 넘어서는 작업을 빠르게 처리할 수 있다.

에지 컴퓨팅에서 제안된 작업 오프로딩 모델에 대해 도 1에 표시된 시스템 모델을 가정한다. 이 모델의 경우 산업 부문의 사물 인터넷 수요 증가로 인해 산업용 사물인터넷 환경에 중점을 둔다.

사용자 장비(UE) 세트는 N = 1, 2, 3, . . . , N, . . . , Nmax 이며, 이 산업용 사물인터넷 네트워크가 많은 엔드 장치(즉, IIoT 장치)와 게이트웨이가 있는 에지 서버를 갖추고 있다고 가정한다.

따라서 데이터는 해당 필드 내의 해당 에지 또는 엔드 장치(end device)에서 수집되고 해당 데이터는 가까운 에지 서버에서 처리된다. 네트워크의 이기종 산업용 사물인터넷 장치로 인해 제한된 계산 용량과 에너지로 다양한 계산 작업을 동시에 제공한다. 따라서 작업을 에지 서버로 오프로드하면 대기 시간이 최소화되고 전력 소비가 개선되어 작업 계산 속도가 향상될 수 있다.

본 발명의 시스템 모델의 경우, 엔드 장치(end device)에 계산 태스크가 있는 경우 계산 작업 Rn에 따라 엔드 장치를 통해 클라우드 서버 또는 에지 서버에서 실행할 수 있다

즉, 엔드 장치(end device)가 클라우드 서버 또는 에지 서버에서 실행될 수 있는 계산 작업 Rn을 갖는다는 것을 감안할 때,

Bn은 입력 매개변수 및 코드를 포함하여 Rn을 계산하기 위해 오프로드될 데이터의 계산 크기이다.

Dn은 작업 Rn을 수행하는 데 필요한 컴퓨팅 리소스의 양이고 Rn은 Bn에 비례하며, 작업이 로컬에서 실행되는지 또는 엣지 서버에서 실행되는지를 결정한다. 또한 Dn의 크기는 변하지 않을 것이라고 가정한다.

태스크(작업) 오프로딩의 경우 작업의 허용 가능한 최대 지연은 τn이며 이는 모든 엔드 장치(end device)에 대해 지연이 τn을 초과해서는 안 된다는 것을 의미한다. 이 허용 가능한 지연은 최적화 문제의 주요 제약 중 하나이다.

다시 한 번 작업이 서로 다른 부분으로 분할되지 않는다고 가정하면 모든 작업은 로컬 또는 오프로딩 컴퓨팅에 의해 직접 오프로드 되어야 한다.

따라서 오프로딩 결정은 이진 변수 αn ∈(0, 1)로 표현될 수 있다. 의미 있게, αn = 0은 작업이 에지 서버로 오프로드됨을 식별하고 αn = 1은 작업이 로컬로 실행될 것임을 정의한다.

여기서 오프로딩 결정 벡터는 A = [α1, α2......αn]으로 정의된다. 엔드 장치(end device)의 주파수 대역폭은 Bw로 표시된다. 네트워크에서 엔드 장치(end device)는 N = 1, 2, ...., N으로 표시된다.

게이트웨이와 엔드 장치(end device) 사이에 시간변화 채널(time varying chanel)이 있다고 가정해 본다. 모든 엔드 장치(end device)를 수락하는 것은 본질적으로 독립적이고 다양한 크기를 가지며 다른 CPU 사이클로 처리되어야 하는 여러 계산 작업을 수행한다.

모든 IoT 네트워크에 대해 일부 엔드 장치(end device)는 로컬에서 작업을 실행하는 반면 다른 엔드 장치(end device)는 게이트웨이에서 동시에 작업을 오프로드 한다.

각 시간 범위의 시작을 향하여 작업 오프로딩 및 전력 전송 결정은 각 엔드 장치(end device)에 의해 수행된다. 엔드 장치(end device)는 계산 작업을 오프로드할 위치를 선택한다.

에지 컴퓨팅 시나리오의 의사 결정은 데이터를 에지 장치로 오프로드할지 아니면 로컬에서 처리할지 여부를 기반으로 한다. 이 의사결정 제약이 이 본 발명의 주요 목적이며, 이 의사결정은 다양한 매개변수를 기반으로 할 수 있다.

이러한 문제는 대역폭, 데이터 크기, 에너지 소비, 신뢰, 입력 출력 데이터 크기, 지연 민감도 및 기타 여러 요인일 수 있다. 이러한 문제에 따라 에지 컴퓨팅의 의사 결정 요소를 선택하는 데 휴리스틱(heuristic) 방법이 사용된다.

계산(컴퓨팅)을 위해 데이터를 전달해야 하는 최상의 서버를 선택하고 작업 선택 측면을 고려하여 작업 오프로딩에 대한 결정을 내려야 한다.

지연 민감도가 있는 작업은 에지로 오프로드될 수 있고 다른 작업은 에지 컴퓨팅 시나리오를 위해 로컬로 처리될 수 있다.

본 발명에서는 오프로딩 결정 기준에 대해 지연 인식과 에너지 소비라는 두 가지 기준을 고려하였다.

에지 컴퓨팅 네트워크의 주요 어려움은 작업 실행, 대기 시간 및 전력 활용이다.

이러한 에지 컴퓨팅 현상은 태스크 오프로딩 방식과 전송 전력 할당 효과에 의해서도 영향을 받는다. 따라서 본 발명에서는 이러한 문제를 사물인터넷 네트워크를 고려하면서 주요 비용 함수로 고려하였다.

비용 최소화를 위해 최적화 문제를 도입하여 비용 함수가 수행하는 대기 시간과 전력 소비 효과를 최소화했다.

- 로컬 컴퓨팅

여기서

은 n개의 엔드 장치(end device)가 CPU를 통해 로컬로 작업 Rn을 실행하는 엔드 장치(end device)의 로컬 컴퓨팅 지연이다.

로컬 컴퓨팅에는 CPU로 작업을 오프로딩하는 지연만 포함된다.

이 작업은 또한

을 n개의 엔드 장치(end device)의 계산 용량으로 가정한다.

다른 엔드 장치(end device)의 계산 용량은 다를 수 있다.

그러면 작업(태스크) Rn의 로컬 컴퓨팅

의 실행 지연은 식 1과 같다.

따라서 에너지 소비량은 다음 식 2와 같이 Rn 태스크의 함수로 계산할 수 있다.

여기서 xn은 작업 Rn을 완료하기 위한 모든 클라우드 주기의 에너지 소비이고, 실제 실험에 따르면

로 값을 설정할 수 있다.

식에서 (1) & (2) 로컬 컴퓨팅의 총 비용은 식 3과 같이 표시될 수 있습니다.

여기서

과

은 시간의 가중치를 나타내고 Rn은 해당 작업에 대한 에너지 비용을 나타낸다.

가중치는 0 ≤

≤ 1, 0 ≤

≤ 1 및

+

= 1 의 세 가지 조건을 충족해야 한다.

다양한 종류의 작업에 대한 이러한 조건에 따라 가중치가 다를 수 있다. 간단함을 위해 각 작업에 대한 가중치가 동일할 것으로 기대한다.

- 컴퓨팅 모델 오프로딩

n개의 엔드 장치(end device)가 에지에서 작업을 오프로딩하여 작업 Rn을 수행하도록 선택하면 전체 에지 컴퓨팅 모델이 세 단계로 설명될 수 있다.

첫 번째는 n 엔드 장치가 원격 센서 네트워크를 통해 게이트웨이에 충분한 입력 정보를 오프로드하고 에지에서 작업을 실행해야 한다는 것이다.

그 후 컴퓨팅 리소스의 일부는 n개의 엔드 장치(end device)에 대한 컴퓨팅(계산) 작업을 수행하기 위해 에지 서버에 의해 할당된다. 마침내 에지 서버는 실행 결과를 엔드 장치(end device)에 복원한다.

첫 번째 단계에서 위의 설명에 따라 컴퓨팅을 오프로딩하는 데 필요한 시간은 전송 지연이다.

<식 4>

여기서 r_n은 네트워크의 n 에지 장치에 대한 업링크 속도이다.

첫 번째 단계의 해당 에너지 소비는 다음과 같이 설명된다.

<식 5>

오프로딩 컴퓨팅의 두 번째 단계를 논의하는 동안 필요한 시간은 에지 서버의 처리 지연이며 다음과 같이 작성된다.

<식 6>

작업을 완료하기 위해 Rn은 에지 자원에 의해 할당된 자원이 Ln이고 F는 모든 에지 서버의 자원을 나타낸다.

를 만족하며, 최대 할당 자원은 항상 에지 서버의 전체 연산 자원보다 작다는 것을 나타낸다.

다음 단계에서는 n개의 단말이 유휴 상태를 유지하는 것으로 간주하고

은 유휴 상태의 전력 소모를 표현한다.

따라서 해당 노드의 에너지 소비량은 다음과 같이 표현할 수 있다.

<식 7>

오프로딩 컴퓨팅의 마무리 단계에 대한 처리 결과의 다운로드 지연은 필요한 시간이며 다음과 같이 나타날 수 있다.

<식 8>

여기서 Bp는 처리된 결과 크기를 나타내고 rp는 n 엔드 장치(end device)의 다운로드 데이터 속도를 나타낸다.

일반적으로 다운로드 데이터 속도가 상대적으로 높고 결과의 정보 크기가 입력 정보보다 거의 작은 것을 알 수 있지만, 이 단계의 지연 명령과 에너지 사용은 본 발명의 나머지 부분에서 무시된다.

(4)-(8)은 컴퓨팅 절차를 오프로딩하여 n개의 엔드 장치(end device)에 대해 발생한 지연 및 에너지 소비인 동안

<식 9>

그리고

<식 10>

(9)와 (10)에서 오프로딩 컴퓨팅의 총 비용은 다음과 같이 표현된다.

<식 11>

에지 오프로딩 네트워크에 있는 모든 장치의 총 비용은 다음과 같다.

<식 12>

여기서 α_n ∈(0, 1)은 n개의 엔드 장치(end device)를 오프로딩하기 위한 결정이다.

n 엔드 장치(end device)가 로컬 컴퓨팅으로 작업을 실행하면 αn = 0이고, 그렇지 않은 경우 αn = 1은 작업이 에지 컴퓨팅 계층으로 오프로드됨을 나타낸다.

- 문제 분해 및 해결

(1) 작업 오프로딩 결정

본 발명에서 최적화 문제로서 산업용 사물인터넷 환경에서 엣지 컴퓨팅 네트워크에 대한 작업 오프로딩의 세부 사항을 보여준다.

본 발명의 기본 목표는 산업용 사물인터넷 네트워크의 에지 처리 시스템에서 모든 클라이언트의 실행 지연과 에너지 사용을 제한하는 것이다.

식 (3)과 (11)에서 시간과 비용은 비례관계에 있음을 알 수 있다.

따라서 시간을 최대화하는 대신 최적화된 결과를 얻기 위해 비용을 최소화하려는 시도가 이루진다.

가장 극단적인 적절한 지연 및 계산 제한에 대해 생각하면 문제는 다음과 유사하다.

여기서 Γ = [α1, α2, ... , αn]은 오프로딩 결정 벡터, f = [ f1, f2, . . . ...., fN ]은 계산 자원 할당을 정의한다.

설계된 시스템의 오프로딩 시간을 최대화하는 것이 이 최적화 문제의 목표이다.

식 (13)은 목적함수이고 제약조건은 식 (14a), (14b), (14c)로 표현된다.

C1은 모든 엔드 장치(end device)가 로컬 컴퓨팅 또는 오프로딩 컴퓨팅을 통해 컴퓨팅 작업을 오프로드하도록 선택한다고 표현한다.

C2는 작업이 완전 오프로딩 컴퓨팅 또는 완전 로컬 컴퓨팅에 의해 실행되는지 여부에 관계없이 시간 비용이 항상 최대 허용 지연 내에서 유지되어야 함을 의미한다.

제약 조건 C3은 에지 서버의 사용 가능한 리소스가 n개의 사용자 장비(UE)에 대해 할당된 계산 리소스보다 항상 높도록 보장한다.

Γ, 오프로딩 결정 벡터 및 계산 자원 할당 f의 최적 상태 비용을 구함으로써 문제 (13)을 해결할 수 있다.

여기서 Γ는 이항변수이고 (13)은 공식화된 문제의 목적함수이다.

사용자 장비(UE)가 증가하는 동안 (13)의 크기는 매우 빠르게 증가할 수 있으므로 비결정적 다항식 시간(NP hard)이라고 할 수 있다.

Backpack 문제에서 확장된 볼록하지 않은 문제를 처리하기 위해 기존 최적화 방법으로 NP 하드 문제(13)를 해결하는 강화 학습 방법을 제안한다. 최적의 Γ와 f를 찾아 최적해를 위한 강화학습 전략을 제안하였다.

(2) 제안하는 Q-Learning 방법

도 2는 상태 동작과 Q 값을 보여주는 기본 Q-학습 단계를 나타낸 도면이고, 도 3은 행과 열의 Q-테이블 표현한 도면이다.

ㅇQ-Learning은 Q 값을 업데이트하기 위해 환경 모델이 필요하지 않은 모델 없는 강화 학습 프로세스이다. Q-learning의 목적은 에이전트가 어떤 상황에서 어떤 조치를 취해야 하는지 알려주는 정책을 학습하는 것이다.

Q-learning은 확률적 전환(stochastic transition)과 보상(reward)에 대한 문제를 적응없이 처리할 수 있다. Q-learning은 모든 유한 마르코프 결정방식(Markov Decision Process, MDP)에 대한 기대값을 최대화하는 정책이다. 또한 최적화 의사 결정 문제를 해결하기 위한 최적의 조치 상태 선택 정책을 식별할 수 있다.

Q-Table은 각 주에서 활동에 대해 가장 극단적으로 예상되는 미래 보상을 계산하는 기본 쿼리 테이블의 이름이다. 기본적으로 이 표는 각 주에서 최선의 조치를 취하도록 안내한다.

우선 도 3을 참조하면, 도 3은 행과 열의 Q 테이블 표현을 보여준다.

Q-Table에서 작업은 열로 표시되고 행은 상태를 나타낸다.

모든 Q 테이블 점수는 해당 상태에서 이동하는 경우 얻을 수 있는 것과 같이 가장 극단적으로 기대되는 미래 보상이 될 것이다. 모든 반복에서 Q-Table을 개선해야 하므로 반복적인 절차이다.

여기서 몇 가지 질문이 제기될 수 있다. Q-테이블의 추정치를 확인하는 방법은 무엇인가? 추정치 또는 값이 접근 가능하거나 사전 정의되어 있나? Q-Learning 알고리즘은 Q-table의 모든 추정 또는 값을 학습하는 데 사용된다.

한편, 도 2는 기본적인 Q-러닝 단계를 보여준다.

도 2는 반복적인 단계별 Q-Learning 의 예시를 보여주며 이는 학습률을 결정짓는 요소가 된다. 이는 상태와 활동공간을 제한된 상태로 추정하고 몬테카를로 시뮬레이션을 사용하여 추론할 수 있는 접근 방식을 조사하여 거의 최적의 정책을 얻을 수 있다. Q 테이블에서 최적에 가까운 솔루션을 얻을 수 있는 상태가 Q 테이블로 적합하다고 판단된다.

Q-learning의 첫 번째 단계는 Q-table을 초기화하는 것이다.

이를 위해 열과 행의 수가 선택되고 값은 0으로 초기화된다.

두 번째 및 세 번째 단계는 작업을 선택하고 작업을 수행하는 것이다. 이러한 단계의 혼합은 불명확한 시간 측정을 위해 수행된다.

이것은 이 진행이 훈련을 중단할 때까지 실행되거나, 또는 훈련원이 코드에서 특성화된 대로 멈출 때까지 실행된다는 것을 의미한다. 여기서 동작과 상태는 Q-테이블을 기반으로 선택된다.

따라서 이제 조사 및 탐욕 교환의 아이디어가 가장 중요한 요소가 된다.

입실론 탐욕 전략(epsilon greedy strategy)이라는 것이 여기에서도 Q-러닝 접근 방식에서 사용된다. 무엇보다도 입실론 비율이 더 높을 것이다. 조사 과정에서 Q-값 평가에 대해 점차적으로 확신하게 된다.

4단계와 5단계는 Q-table의 평가이다. 그런 다음 이동하여 결과와 보상을 관찰한다. Q(s,a) 값을 업데이트해야 하고, 그런 다음 학습이 중단될 때까지 이것을 다시 해시한다. 따라서 Q-테이블이 업데이트된다.

사물인터넷 장치는 시스템 상태와 에너지 수준 및 데이터 전송 속도를 기반으로 에지 장치에서 오프로드할 데이터를 선택한다. 본 발명에서는 다른 요소를 고려하지 않는다. 사물인터넷 장치의 오프로딩 결정은 현재 상태와 동작에 의존하지만 이전 상태나 과거 이력에는 의존하지 않기 때문이다.

따라서 오프로딩은 마르코프 결정방식(Markov Decision Process, MDP)으로 간주되며, 여기서 강화학습(RL) 기반 Q 학습 정책은 최적화 문제 솔루션으로 파생될 수 있다.

본 발명은 시스템 모델에서 RL 에이전트에 대한 상태, 행동 및 보상을 정의한다.

시스템 상태는 기본적으로 두 구성 요소 s = (tc, ac)의 조합이며, 여기서 tc는 비용 합계(SC)all이다. 에지 서버의 가용 용량은 ac 및

으로 표시된다.

오프로딩 결정 벡터 Γ = [α1, α2, ... , αn] 및 계산 자원 f = [ f1, f2, ... , fN ]은 두 부분으로 구성된 동작 벡터이다.

따라서 동작 벡터는 [α1, α2, ... ,αn, f1, f2 ..., fN ] Γ 와 f 의 가능한 값 조합이 있다. 제약 조건 P1에 따라 작업 오프로딩 방식은 요청 대기열 및 계산 리소스 비율을 고려하여 설계되었다. 최적의 정책 π*을 찾는 것은 이러한 방식으로 기술하는 것이 중요하다.

그런 다음 모델 무료 Q 학습 접근 방식이 채택된다.

상태 동작(s,a)에 대해 동작 값 Q(s,a)의 함수는 다음과 같이 표현된다.

여기서 γ는 할인 계수(discount factor)이고, Q(s,a)는 모든 상태 및 조치 및 a에 대한 비용 함수에서 계산된다. 그런 다음 모든 할인 비용을 만들고 저장하기 위해 Q-table에 저장된다. 새 Q 값이 이전 값에 비해 작은 동안에만 Q 값이 업로드된다.

여기에서 현재 비용 함수는

이고 할인된 값은 Q(s^k+1, a)이며 Q(s,a)는 다음 식과 같이 업데이트된다.

여기서 α는 학습률이고 γ는 할인 요인(discount factor)이다.

도 4는 오프로딩 결정과 계산 자원을 최적화하기 위한 단계별 Q-러닝 방법을 나타낸 도면이다.

도 4는 반복적인 Q-learning 방법을 단계별로 나타낸 것이다.

본 발명에서는 상태와 활동 공간을 제한된 상태로 추정했고 몬테카를로 시뮬레이션을 사용하여 생각할 수 있는 접근 방식을 조사하여 거의 최적의 정책을 얻을 수 있었다. Q 테이블에서 최적에 가까운 솔루션을 가질 수 있는 상태를 좋은 Q 테이블로 간주한다.

- 시뮬레이션 결과

Q-learning은 무한한 조사 시간과 유한한 마르코프 결정방식(Markov Decision Process, MDP) 모델에 대한 부분적 무작위 접근에 의존하는 이상적인 행동 선택 정책을 구별할 수 있다.

본 발명에서는 상태와 활동 공간을 제한된 상태로 추정하고 몬테카를로 시뮬레이션을 사용하여 생각할 수 있는 접근 방식을 조사하여 거의 최적의 정책을 얻을 수 있었다.

시뮬레이션 부분에서는 제안된 기법의 효율성을 평가하기 위해 시뮬레이션 결과를 제시한다. 시뮬레이션을 위해 대역폭 W = 10MHz인 단일 소형 셀을 가정하고, MEC 서버가 중앙에 있다고 가정한다.

무작위로 흩어져 있는 사용자 장비(UE)는 eNB에서 200m 이내에 있다.

F = 5GHz/s는 MEC 서버의 연산 용량을 나타내고 (f)^lc _n = 1GHz/s는 각 사용자 장비(UE)의 CPU 주파수를 나타낸다.

Pn = 500mW는 사용자 장비(UE)의 전송 전력이고 (P)ⁱ _n = 100mW는 유휴 전력으로 설정된다.

또한, 계산 오프로딩 데이터 크기 Bn(kbits)이 (300, 500) 사이의 균일한 분포를 따르고 CPU 사이클 수 Dn(메가사이클)이 (900,1100) 사이의 균일한 분포를 따른다는 점을 고려한다. 명확성을 위해 각 사용자 장비(UE)의 결정 가중치는 (I)^ec _n = (I)^lc _n = 0.5로 한다.

다음 단계는 제안된 알고리즘을 전체 오프로딩 및 로컬 오프로딩과 비교하는 것이다. 여기서 전체 로컬은 모든 사용자 작업이 로컬 컴퓨팅에 의해 실행됨을 나타내고 전체 오프로딩은 모든 사용자가 작업을 에지 서버로 오프로드함을 나타낸다.

여기서 F(MEC 서버 연산 용량 F = 5GHz/s)는 각 단말에 균등하게 할당되는 총 가용 자원이다.

도 5는 총 비용 대 사용자 장비(UE) 수를 나타낸 도면이다.

도 5에는 증가된 사용자 장비(UE) 수에 대한 총 비용이 제시되어 있다.

사용자 장비(UE)의 수가 증가함에 따라 모든 방법의 합계 비용이 증가하는 것을 그래프에서 알 수 있다.

Q 학습 방법은 위에서 언급한 다른 방법보다 더 나은 성능을 보여준다.

전체 오프로딩 곡선은 3개의 사용자 장비(UE) 포인트에 대한 Q 학습보다 비교적 높다. 사용자 장비(UE) 수가 증가함에 따라 빠르게 증가한다.

그 이유는 사용자 장비(UE)가 많은 경우 MEC 서버 용량이 모든 사용자 장비(UE)에 대한 계산을 오프로딩하기에는 충분하지 않기 때문이다. 제한된 용량의 MEC 서버는 제한된 저장 용량으로 인해 많은 사용자 장비(UE)를 처리한다.

도 6은 에지 서버의 용량 대 총 비용을 나타낸 도면이다.

도 6에서 MEC 서버의 계산 용량이 증가하는 동안 합계 비용도 증가한다. 도 6에서 예상 Q-learning이 가장 좋은 결과를 보였다. 도 6에서 로컬 컴퓨팅은 MEC 서버의 계산 자원을 활용하지 않기 때문에 MEC 서버 용량이 증가하더라도 풀 로컬(Full Local)에 대한 곡선은 변하지 않는다.

다른 곡선은 각 사용자 장비(UE)가 더 많은 계산 리소스에 할당됨에 따라 실행 시간이 감소하기 때문에 계산 MEC 서버의 증가와 함께 감소한다.

F > 8GHz/s 동안 Full-Offloading 및 Q-learning 합계 비용이 천천히 감소하고 이러한 오프로딩 기술의 성능이 거의 동일하다는 것을 알 수 있다.

결과는 MEC 서버 합계 비용 프레임워크가 로컬 컴퓨팅보다 에지 서버에 훨씬 더 많은 컴퓨팅 리소스가 있기 때문에 무선 리소스와 같은 다양한 측면에 의해 강제된다는 것을 추론한다.

도 7은 평균 보상 대 시간 단계 그래프를 나타낸다.

제안된 Q-learning 접근 방식이 시간 단계에 따른 평균 보상 측면에서 다른 두 접근 방식보다 성능이 우수함을 관찰할 수 있다.

- 결론

본 발명에서는 엔드 장치(end device)에 컴퓨팅 자원이 있는 산업용 사물인터넷 네트워크를 고려하여 엣지 장치에 대한 작업 오프로딩 접근 방식을 살펴보았다.

처음에 계산 자원 할당 문제는 이 구조의 총 비용 지연이었다.

그런 다음 이러한 문제를 해결하기 위해 RL 기반 솔루션을 모방한다.

그러나 이 제안된 방식의 일반적인 실행 분석은 다른 프레임워크 매개변수에서 다른 두 가지 표준 전략보다 더 나은 결과를 보여준다.

상술한 바와 같이, 본 발명에서 엔드 장치(end device)는 여기에서 에이전트로 간주되며 네트워크가 계산 작업을 에지 장치로 오프로드(offload)할지 여부를 결정한다.

리소스 할당 및 작업 오프로딩을 해결하기 위해 본 발명에서는 이 프레임워크의 총 비용 지연으로 계산 리소스 할당 문제를 공식화했다.

최적의 이진 계산 오프로딩 결정을 제안한 다음 강화 학습을 도입하여 문제를 해결한다.

시뮬레이션 결과는 산업용 사물 인터넷 시나리오에서 계산 비용과 지연 비용으로 파생되는 오프로딩 비용을 최소화하는 강화 학습 기반 방식의 효율성을 보여준다.

이와 같이, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims

산업용 사물인터넷 네트워크 상에서 강화학습을 활용한 태스크 오프로딩 시스템에 있어서,
게이트웨이가 있는 에지 서버; 및
에이전트로 간주되며 산업용 사물 인터넷 장치로서 자신의 작업 데이터를 로컬에서 처리하거나 상기 에지 서버로 오프로드 하는 복수의 엔드 장치;를 포함하고,
에이전트로 간주되는 상기 복수의 엔드 장치는 각각,
자신의 작업 데이터를 오프로드 할지 여부를 결정함에 있어서, 마르코프 결정방식(Markov Decision Process, MDP)에 대한 기댓값을 최대화 하는 강화학습 기반 큐 러닝(Q-Learning)을 이용하여 오프로딩 결정 및 계산 자원 할당을 최적화하는 것을 특징으로 하는 강화학습을 활용한 태스크 오프로딩 시스템.
게이트웨이가 있는 에지 서버와, 에이전트로 간주되며 산업용 사물 인터넷 장치로서 자신의 작업 데이터를 로컬에서 처리하거나 상기 에지 서버로 오프로드 하는 복수의 엔드 장치가 구비되는 산업용 사물인터넷 네트워크 상에서 강화학습을 활용한 태스크 오프로딩 방법에 있어서,
에이전트로 간주되는 상기 복수의 엔드 장치는 각각,
자신의 작업 데이터를 오프로드 할지 여부를 결정함에 있어서, 마르코프 결정방식(Markov Decision Process, MDP)에 대한 기댓값을 최대화 하는 강화학습 기반 큐 러닝(Q-Learning)을 이용하여 오프로딩 결정 및 계산 자원 할당을 최적화하는 것을 특징으로 하는 강화학습을 활용한 태스크 오프로딩 방법.