KR102503794B1

KR102503794B1 - 사용자 클러스터링 및 강화학습 기반 전송전력 할당 방법

Info

Publication number: KR102503794B1
Application number: KR1020200153564A
Authority: KR
Inventors: 최우열; 시팟 레즈완
Original assignee: 조선대학교산학협력단
Priority date: 2020-11-17
Filing date: 2020-11-17
Publication date: 2023-02-23
Also published as: KR20220067160A; US20220159586A1; US11647468B2

Abstract

본 발명은 효율적인 사용자 클러스링 기법을 동반한 강화 학습 기반 전력 할당 방법을 제공한다. 본 발명의 실시예에 따른 NOMA(non-orthogonal multiple access) 시스템에서 기지국의 사용자 클러스터링 및 강화학습 기반 전송전력 할당 방법은, 상기 기지국의 커버리지에 위치한 사용자 장치들의 채널 이득들을 크기 순서로 정렬하는 정렬 단계와, 상기 크기 순서에 기반하여 각각의 클러스터로 사용자 장치를 할당하는 클러스터링 단계와, 상태 및 행동에 기반한 품질 함수를 사용하여 상기 클러스터에 포함된 각 사용자 장치에 대한 전력을 할당하는 전력 할당 단계를 포함한다. 상기 상태는 현재 타임 슬롯에서 최소의 데이터 레이트를 갖는 사용자 장치의 인덱스이고 상기 행동은 상기 클러스터 내 상기 사용자 장치의 전력 레벨에 해당하며, 상기 품질 함수는 각각의 상태 및 행동 조합에 대하여 할인 기대 보상 값을 제공하는 함수이다. 본 발명에 따른 사용자 클러스터링을 사용한 전력 할당 방법은 NOMA 시스템에서의 데이터 전송 스루풋(throughput)을 향상시킬 수 있다.

Description

사용자 클러스터링 및 강화학습 기반 전송전력 할당 방법{TRANSMISSION POWER ALLOCATION METHOD BASED ON USER CLUSTERING AND REINFORCEMENT LEARNING}

본 발명은 NOMA(Non-Orthogonal Multiple Access) 시스템에서 기지국의 사용자 클러스터링 및 강화학습 기반 전송전력 할당 방법에 관한 것으로, 단순하고 효율적인 사용자 클러스터링 기법이 적용된 강화 학습 기반 전력 할당 방법에 관한 것이다.

5G(5th generation) 네트워크는 현재 네트워크 아키텍쳐를 변혁시켜 3종류의 주요 서비스들, 이름하여 eMBB(enhanced mobile broadband), mMTC(massive machine-type communications), 및 URLCC(ultra-reliable and low latency communications)를 제공한다. 공간적 효율성과 대형 연결 지원을 위하여 NOMA(non-orthogonal multiple access)가 다른 기법보다 더욱 주목받고 있다. NOMA는 동일한 무선 자원 블록(RRB: radio resource block)을 사용하여 다중 사용자들에 서비스를 지원한다.

이전의 세대에서, 각 사용자에게 전용의 RRB가 할당되는 OMA(orthogonal multiple access)가 사용되었다. 반면, NOMA는 다수의 사용자들의 메시지 신호들을 각각 다른 전력을 사용하여 조합하고, 동일한 RRB를 사용하여 모든 사용자들에게 겹쳐진(superimposed) 신호를 전송한다. 각 UE(user equipment)는 수신된 신호로부터 그들의 원하는 신호를 검출 및 디코딩하기 위하여 SIC(successive interference cancellation)을 적용한다.

그러나, NOMA 시스템을 구현함에 있어서 몇몇 실제적인 문제점들이 존재한다. NOMA 시스템에서, 디코더는 SIC의 각 스테이지에서 SINR(signal to interference plus noise ratio)를 관측할 필요가 있기 때문에 원하는 신호를 디코딩하기 위하여 정교한 전력 제어 정책이 요구된다. 나아가, FEF(fractional error factor)로 알려진 진폭 및 위상 추정 오차들로 인해 전반적인 시스템 성능이 악화될 수 있다. 결과적으로, 이러한 문제점들을 해결하기 위하여 최적의 전력 할당 기법이 요구된다.

또 다른 실제적인 성능 향상 기법은 사용자 클러스터링(user clustering)이다. NOMA 시스템의 성능 향상 기법으로서, 사용자 클러스터링 및 전력 할당 기법이 다양한 관점에서 활발히 연구되어 왔다. 현재 진행중인 연구는 통상적으로 크기 2의 기본 클러스터를 가정하며, 이는 클러스터링 문제를 페어링 문제(pairing problem)으로 단순화한다. 그러나, 클러스터 당 사용자 개수의 증가는 공간적 효율뿐만 아니라 SIC의 시스템 복잡도를 함께 증가시킨다. 그러므로, 사용자 클러스터링은 NOMA의 전반적인 네트워크 성능을 극대화하기 위하여 최적의 클러스터 사이즈 문제와 UE 그룹핑 문제를 포괄한다.

NOMA 시스템에서 전력 할당의 문제를 극복하기 위하여, 본 발명은 효율적인 사용자 클러스링 기법을 동반한 강화 학습 기반 전력 할당 방법을 제공한다.

본 발명의 해결과제는 이상에서 언급된 것들에 한정되지 않으며, 언급되지 아니한 다른 해결과제들은 아래의 기재로부터 당업자에게 명확히 이해될 수 있을 것이다.

본 발명의 실시예에 따른 NOMA(non-orthogonal multiple access) 시스템에서 기지국의 사용자 클러스터링 및 강화학습 기반 전송전력 할당 방법은, 상기 기지국의 커버리지에 위치한 사용자 장치들의 채널 이득들을 크기 순서로 정렬하는 정렬 단계와, 상기 크기 순서에 기반하여 각각의 클러스터로 사용자 장치를 할당하는 클러스터링 단계와, 상태 및 행동에 기반한 품질 함수를 사용하여 상기 클러스터에 포함된 각 사용자 장치에 대한 전력을 할당하는 전력 할당 단계를 포함한다. 상기 상태는 현재 타임 슬롯에서 최소의 데이터 레이트를 갖는 사용자 장치의 인덱스이고 상기 행동은 상기 클러스터 내 상기 사용자 장치의 전력 레벨에 해당하며, 상기 품질 함수는 각각의 상태 및 행동 조합에 대하여 할인 기대 보상 값을 제공하는 함수이다.

본 발명의 실시예에 따르면, 상기 클러스터링 단계는, 상기 채널 이득들의 크기 순서로 정렬된 사용자 장치들 중에서 n+(z-1)*k 번째에 위치한 사용자 장치를 n 번째 클러스터에 할당하는 단계를 포함하고, 여기서 n은 클러스터의 인덱스, z는 n 번째 클러스터 내 해당 사용자 장치의 순서, k는 클러스터의 개수이다.

본 발명의 실시예에 따르면, 상기 클러스터링 단계는, 상기 커버리지 내 모든 사용자 장치들의 개수에 대한 상기 클러스터의 개수의 모듈러(modular) 연산에 기반하여 상기 각각의 클러스터에 포함된 사용자 장치의 개수를 결정하는 단계를 포함할 수 있다.

본 발명의 실시예에 따르면, 상기 전력 할당 단계는, 상기 사용자 장치에 전력을 할당하기 이전에 상기 커버리지 내 각각의 사용자 장치에 대하여 임의의 행동을 할당하는 초기화 단계를 더 포함할 수 있다.

본 발명의 실시예에 따르면, 상기 전력 할당 단계는, 상기 품질 함수에서 최대의 할인 기대 보상 값을 제공하는 행동 및 상태 조합에 대응하는 최적의 행동을 획득하는 단계를 포함할 수 있다.

본 발명의 실시예에 따르면, 상기 전력 할당 단계는, 상기 획득된 최적의 행동에 클러스터 당 전력 예산을 곱한 값을 할당하는 단계를 포함할 수 있다.

본 발명의 실시예에 따르면, 상기 전력 할당 단계는, 상기 클러스터 내 각 사용자 장치의 데이터 레이트를 획득하는 데이터 레이트 획득 단계를 더 포함할 수 있다.

본 발명의 실시예에 따르면, 상기 전력 할당 단계는, 상기 클러스터 내 각 사용자 장치의 데이터 레이트에 기반하여 상기 품질 함수를 업데이트하는 품질 함수 업데이트 단계를 더 포함할 수 있다.

본 발명의 실시예에 따르면, 상기 품질 함수 업데이트 단계는, 상기 클러스터에서 최소의 데이터 레이트가 최소 데이터 레이트 요구량 보다 크면 상기 커버리지에 위치하는 사용자 장치들의 데이터 레이트의 총합을 보상 값으로 설정하는 단계와, 상기 클러스터에서 최소의 데이터 레이트가 최소 데이터 레이트 요구량 보다 작거나 같으면 0을 상기 보상 값으로 설정하는 단계와, 상기 설정된 보상 값을 사용하여 상기 품질 함수를 업데이트하는 단계를 포함할 수 있다.

본 발명에 따른 사용자 클러스터링을 사용한 전력 할당 방법은 NOMA 시스템에서의 데이터 전송 스루풋(throughput)을 향상시킬 수 있다.

본 발명의 효과는 이상에서 언급된 것들에 한정되지 않으며, 언급되지 아니한 다른 효과들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

도 1은 SIC(successive interference cancellation)가 적용된 다운링크 NOMA(non-orthogonal multiple access) 시스템을 도시한다.
도 2는 사용자 클러스터링이 적용된 NOMA 시스템의 예를 도시한다.
도 3은 NOMA 시스템에서 사용자 클러스터링을 위한 절차를 도시한다.
도 4는 NOMA 시스템에서 사용자 클러스터링 방법의 예를 도시한다.
도 5는 NOMA 시스템에서 Q-학습에 기반한 전력 할당 절차를 도시한다.
도 6은 2-사용자 NOMA 시스템에서 데이터 레이트 총합에 대한 시뮬레이션 결과를 도시한다.
도 7은 2, 3, 4, 6-사용자 NOMA 시스템에서 데이터 레이트 총합에 대한 시뮬레이션 결과를 도시한다.
도 8은 하향링크 NOMA 시스템에서 기지국의 사용자 클러스터링 및 강화학습 기반 전송전력 할당 방법의 흐름도이다.

이하, 첨부한 도면을 참고로 하여 본 발명의 실시예들에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예들에 한정되지 않는다.

본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 동일 또는 유사한 구성요소에 대해서는 동일한 참조 부호를 붙이도록 한다.

또한, 여러 실시예들에 있어서, 동일한 구성을 가지는 구성요소에 대해서는 동일한 부호를 사용하여 대표적인 실시예에서만 설명하고, 그 외의 다른 실시예에서는 대표적인 실시예와 다른 구성에 대해서만 설명하기로 한다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결(또는 결합)"되어 있다고 할 때, 이는 "직접적으로 연결(또는 결합)"되어 있는 경우뿐만 아니라, 다른 부재를 사이에 두고 "간접적으로 연결(또는 결합)"된 것도 포함한다. 또한, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

NOMA(NON-ORTHOGONAL MULTIPLE ACCESS)

NOMA 시스템에서, 다수의 사용자들이 단일한 자원 블록을 사용하여 다른 전력 레벨에서 서빙될(served) 수 있으며, 할당된 사용자의 신호를 디코딩하기 위하여 수신기 측에 의해 SIC(successive interference cancellation)가 수행된다.

서로 다른 채널 이득을 갖는 m개의 사용자들로 NOMA 시스템이 구성된다고 가정하자. 하나의 송신기를 갖는 기지국(BS: Base Station)은 동일한 RRB(radio resource block)(즉, 주파수, 시간, 코드)을 사용하여 비-직교적으로(non-orthogonally) 신호를 전송한다. 비-직교성(non-orthogonal)은 다른 전력 레벨을 갖는 다수개의 신호들이 중첩되어 단일한 신호를 형성하는 것을 의미한다. 기지국(BS)은 동일한 RRB를 사용하므로, 모든 사용자들은 동일한 신호를 수신하며 다른 사용자의 신호는 간섭(interference)이 된다. 원하는 신호를 획득하기 위하여, 각 사용자들은 처음에 SIC를 사용하여 가장 큰 간섭 신호를 디코딩하고 원래의 신호로부터 가장 큰 간섭 신호를 제거한다. 모든 간섭 신호들의 디코딩 및 제거 이후, 사용자는 원하는 신호를 획득한다. SIC 절차를 수행하기 위하여, 간섭 신호들의 강도는 원하는 신호 보다 충분히 커야 한다. 그러므로, 각 사용자에 대한 전력 레벨을 선택하는 것이 NOMA 시스템의 핵심이 된다.

각 사용자에 대한 전력 레벨은 해당 사용자의 채널 이득에 의존한다. 더 큰 채널 이득은 사용자가 기지국(BS)에 가깝고, 적은 전력이 해당 사용자에게 신호를 전송함에 있어 요구됨을 의미한다. 낮은 채널 이득은 해당 사용자가 기지국(BS)로부터 멀리 떨어져 있고, 해당 사용자에게 신호를 전소하기 위하여 높은 전력이 요구됨을 함축한다. 그러므로, 높은 채널 이득을 갖는 사용자는 낮은 채널 이득을 갖는 사용자의 높은 전력 신호로 인하여 큰 간섭을 수신하고 SIC를 사용하여 쉽게 모든 간섭들을 억제할 수 있다. 반면, 낮은 채널 이득을 갖는 사용자는 높은 채널 이득을 갖는 사용자의 낮은 전력 신호로 인하여 낮은 간섭을 수신하고 간섭을 충분히 억제할 수 없다.

도 1에서, 3-사용자 하향링크 NOMA 시스템이 도시되며, 여기서 h₁ < h₂ < h3 이 각각 제1 사용자(UE1), 제2 사용자(UE2), 제3 사용자(UE3)의 채널 이득이다. 본 시나리오에서, 제3 사용자(UE3)가 제1 사용자(UE1)와 제2 사용자(UE2)로부터 간섭이 되는 신호를 수신하고 SIC를 사용하여 모든 간섭을 억제할 수 있다. 제2 사용자(UE2)는 제1 사용자(UE1) 및 제3 사용자(UE3)로부터 간섭이 되는 신호를 수신하나, 그러나 원하는 신호를 디코딩하기 위해 SIC를 사용하여 제1 사용자(UE1)로부터의 간섭만을 억제할 수 있다. 마지막으로, 제1 사용자(UE1)는 제3 사용자(UE3) 및 제2 사용자(UE2)의 신호들을 노이즈로서 취급하고 원하는 신호를 디코딩한다. 그리하여, 3-사용자 하향링크 NOMA 시스템에 대한 데이터 레이트(Ri)는 아래의 수학식 1과 같이 표현될 수 있다.

수학식 1에서. P_i는 사용자 i에 대한 전송 전력, h_i는 사용자 i의 채널 이득, n₀는 노이즈 전력 스펙트럼 밀도(noise power spectral density)를 나타낸다.

시스템 모델

매크로 기지국(BS)은 분산된 M개의 사용자 장치(UE: User Equipmet)들을 서빙하는 것으로 고려된다. 기지국(BS)과 사용자 장치들(UEs)은 각각 하나의 안테나로 구성된다. 총 사용 가능한 대역폭(BW: bandwidth)은 서로 직교하는 다수개의 자원 블록들로 분할된다. 각 NOMA 클러스터에 의해 서빙되는 사용자들의 개수는 m으로 표현되며, 여기서 m은 2 <= m <= M의 범위를 갖는다. 그리하여, 클러스터의 총 개수는 k이며, 여기서 k는 1 <= k <= M/2의 범위를 갖는다. NOMA 클러스터 당 최대 전송 전력은 P_t이고, i번째 사용자에 대한 채널 이득은 h_i이며, 이는 기지국(BS)과 사용자 장치(UE)사이의 거리에 의존한다. 사용자들은 채널 이득의 크기 순서(오름차순)으로 정렬(sorting)되며, 이는 h₁ < h₂ < h₃ < ... <h_M 과 같다.

본 명세서에서, NOMA 시스템의 성능을 검증하기 위한 데이터 레이트 합계를 사용한다. 본 시스템에서 데이터 레이트 합계(R_S)는 아래의 수학식 2와 같이 정의된다.

수학식 2에서. P_i는 사용자 i에 대한 전송 전력, h_i는 사용자 i의 채널 이득, n₀는 노이즈 전력 스펙트럼 밀도(noise power spectral density), m은 각 NOMA 클러스터에 의해 서빙되는 사용자들의 개수, k는 클러스터의 총 개수이다.

어느 클러스터의 모든 사용자들에 할당된 전력의 총합은 P_t 보다 작거나 같아야 하며, 이는 아래의 수학식 3과 같이 표현된다.

수학식 3에서, Pi는 사용자 i에 대한 전송 전력, m은 각 NOMA 클러스터에 의해 서빙되는 사용자들의 개수, Pt는 클러스터 내 할당된 전력의 총합이다.

i번째 사용자의 최소 데이터 레이트 요구량을 보장하기 위한 데이터 레이트(Ri)의 조건이 아래의 수학식 4와 같이 표현된다.

수학식 4에서. P_i는 사용자 i에 대한 전송 전력, h_i는 사용자 i의 채널 이득, n₀는 노이즈 전력 스펙트럼 밀도(noise power spectral density), m은 각 NOMA 클러스터에 의해 서빙되는 사용자들의 개수, k는 클러스터의 총 개수이다.

하나의 사용자 장치(UE)는 최대 하나의 클러스터에 의해 서빙될 수 있다.

이하, 데이터 레이트 합계를 극대화하기 위하여, 강화 학습 기반 전력 할당 기법이 적용된 효율적이고 직관적인 사용자 클러스터링 방법이 설명된다.

사용자 클러스터링

m개의 사용자들이 PD(power domain) NOMA 기법을 사용하여 하나의 자원 블록으로부터 서빙됨을 가정한다. 이러한 시스템에 대하여, 각 사용자의 가능한 스루풋(throughput)은 i = 1, 2, 3, ..., m에 대한 수학식 1과 같이 계산될 수 있다. 클러스터의 데이터 레이트 총합에 영향을 주는 가장 큰 인자(factor)는 사용자의 채널 이득이다. 높은 채널 이득을 갖는 사용자는 데이터 레이트 총합의 상승에 크게 기여할 것이나, 반면 낮은 채널 이득을 갖는 사용자의 데이터 레이트 합은 할당된 전력에 대부분 의존한다. 그러므로, 낮은 채널 이득을 갖는 사용자를 상당히 높은 채널 이득을 갖는 사용자와 페어링하면 데이터 레이트의 총합은 극대화될 것이다.

상술한 요구를 충족시키기 위하여, 기지국(BS)의 커버리지 영역은 도 2에 도시된 m개의 원으로 분할된다. 예를 들어, 3-사용자 NOMA의 경우 m은 3이다. 본 시나리오에서, 사용자들의 개수(M)는 12이고 그들의 채널 이득에 기반하여 오름차순으로 정렬된다. 제1 사용자 장치(UE1)는 가장 낮은 채널 이득(h1)을 갖고, 제12 사용자 장치(UE12)는 가장 높은 채널 이득(h2)을 갖는다. 본 발명의 실시예에 따른 사용자 클러스터링 방법이 도 3에 도시된다.

도 3을 참고하면, 먼저 1 단계에서 각 사용자 장치 별 채널 이득의 크기 순서로(오름차순으로) 채널 이득 값들을 정렬한다. 이후 2 단계에서 클러스터의 개수(k)를 결정하는데, 클러스터의 개수(k)는 k = ceil(M/m)에 의해 결정된다. ceil은 소수점에 대하여 올림 연산을 나타내고, M은 총 사용자 장치의 개수, m은 클러스터 당 사용자 장치의 개수를 나타낸다.

이후 3 단계에서, 사용자 그룹핑을 수행한다. 예를 들어, n번째 클러스터의 사용자 장치는 h_n, h_n+k, h_n+2*k, ..., h_n+(z-1)*k에 해당하는 사용자 장치가 포함된다. 여기서, z는 해당 클러스터 내 사용자 장치의 위치(순서)이다.

이후 4 단계에서, 클러스터의 사이즈를 결정한다. 도 3에 도시된 것과 같이 전체 사용자의 개수(M)에 대한 클러스터의 개수(k)의 모듈러 연산(M mod k) 결과가 0인지 여부를 확인하고, 0이면 모든 클러스터가 동일한 사용자 개수(m)를 가지나, 0이 아니면 클러스터 마다 다른 개수의 사용자를 가질 수 있다.

도 4는 총 사용자 개수(M)가 12인 경우에 대한 사용자 클러스터링의 예를 도시하며, 하나의 원이 하나의 클러스터를 나타낸다. 도 4의 (a)는 하나의 클러스터에 2개의 사용자, (b)는 하나의 클러스터에 3개의 사용자, (c)는 하나의 클러스터에 4개의 사용자, (d)는 하나의 클러스터에 6개의 사용자가 포함되는 경우를 각각 나타낸다.

강화 학습을 사용한 전력 할당

다양한 강화 학습 기법들 중에서, Q-학습(Q-Learning) 알고리즘이 NOMA 시스템에서 전력을 할당하기 위하여 사용될 수 있다. Q-학습은 마르코브 결정 프로세스(Markov decision process)를 사용하여 최대의 확률을 갖는 적합한 전략을 획득할 수 있다. (참조: E. R. Gomes and R. Kowalczyk, ”Dynamic analysis of multiagent Qlearning with ε-greedy exploration,” in Proceedings ACM Annual International Conference on Machine Learning, Montreal, QC, Canada, Jun. 2009, pp. 369-376). Q-학습은 다른 행동(action)을 취했을 때 마다 발생하는 다른 상태를 탐색하고 기지국(BS)의 최대 데이터 레이트 합계를 제공하는 경험들을 활용한다.

본 발명에 따른 전력 할당 방법은 품질 함수(Q-함수)에 의존하며, 이는 각 상태-행동 쌍에 대한 할인 기대 보상(discount expected reward)을 제공한다. 여기서, 상태(S_t)는 시간 슬롯(t)에서 최소의 데이터 레이트를 갖는 사용자의 인덱스이며, 행동(θ)은 클러스터 내 전력 레벨을 담당한다. 학습 프로세스 동안, 탐색과 활용 사이의 교환이 알고리즘의 성능에 영향을 미친다.

그리하여, 알고리즘은 ε-그리디 정책(ε-greedy policy)를 사용하여 행동(θ)을 획득하며, 이는 수학식 5와 같다.

초기에, Q-테이블에서의 모든 null 값들로 인하여 표준 Q-학습의 시작에서 임의의 탐색이 이루어진다. 그러므로, 큰 스케일에서 미리 트레이닝 데이터를 획득하기 위하여 핫-부팅(hot-booting) 기법이 사용된다. (참조: L. Xiao, Y. Li, C. Dai, H. Dai and H. Poor, "Reinforcement Learning-Based NOMA Power Allocation in the Presence of Smart Jamming" IEEE Transactions on Vehicular Technology, vol. 67, no. 4, pp. 3377-3389, 2018). 핫-부팅 이후, 도 5에 도시된 것과 같이 제안된 Q-학습 알고리즘은 최대의 스루풋-합을 달성하는 환경을 활용하는 것을 개시한다.

도 5를 참고하면, 먼저 핫-부팅 절차가 수행된다. 품질 함수 (Q(St, θ))가 초기화되고 각 에피소드 별로 무선 환경이 에뮬레이션(emulation)된다. 또한 각 시간 슬롯 별로 모든 사용자들에 대해 임의의 행동(θ)이 선택되고 수학식 1을 통해 각 사용자들에 대하여 데이터 레이트(R_i)를 획득한다. 이후 상태 (S_t+1)에 최소의 데이터 레이트를 갖는 사용자의 인덱스가 할당된다. 해당 에피소드에서 데이터 레이트 합(R_i)의 최소 값이 최소 데이터 레이트 요구량(R₀) 보다 큰지 여부를 확인하고, 크면 데이터 레이트 총합(R_S)을 보상 값(r)으로 설정하고 그렇지 않으면(작거나 같으면 0을 보상 값(r)으로 설정한다. 그리고 아래의 수학식 6과 같은 마르코브 결정 프로세스를 통해 품질 함수를 업데이트한다. 상술한 프로세스가 모든 에피소드 및 에피소드 별 모든 시간 슬롯에 대하여 수행되면 핫-부팅이 종료된다.

이후 매 시간 슬롯(t = 1, 2, ..., T) 마다 각 클러스터(c = 1, 2, ..., k)에 대하여 도 3의 알고리즘을 통해 사용자가 선택된다. 각 클러스터의 각 사용자(m = 1, 2, ..., M/k)에 대하여, 수학식 5를 통해 최적의 행동(θ)을 선택하고, 최적의 행동(θ_m)(전력 레벨)에 해당 클러스터의 전력 예산(P_t)을 곱한 값(θ_mP_t)을 사용자(m)의 신호를 위한 전력으로서 할당하고, 수학식 1을 통해 각 사용자의 데이터 레이트(R_i)를 획득한다. 이후 해당 클러스터에서 최소의 데이터 레이트를 갖는 사용자 인덱스를 상태(S_t+1)로 할당한다. 데이터 레이트 합(R_i)의 최소 값이 최소 데이터 레이트 요구량(R₀) 보다 큰지 여부를 확인하고, 크면 데이터 레이트 총합(R_S)을 보상 값(r)으로 설정하고 그렇지 않으면(작거나 같으면 0을 보상 값(r)으로 설정한다. 그리고 아래의 수학식 6과 같은 마르코브 결정 프로세스를 통해 품질 함수를 업데이트한다. 상술한 프로세스가 모든 시간 슬롯 및 시간 슬롯 별 모든 클러스터에 대하여 수행된다.

도 5의 알고리즘에서, E 는 에피소드의 개수, T 는 시간 슬롯을 나타낸다. 나아가, 마르코브 결정 프로세스가 Q-테이블을 업데이트하기 위하여 사용되며, 이는 수학식 6과 같다.

수학식 6에서, α ∈ (0,1]는 현재 경험의 가중치를 반영하는 알고리즘의 학습률을 나타내며, r 은 행동에 대하여 얻어지는 보상을 나타내고, δ 는 (0,1] 범위에서 미래의 이득의 불확실성에 따라 선택되는 할인 인자(discount factor)를 나타낸다.

상술한 하향링크 NOMA 시스템에서 기지국의 사용자 클러스터링 및 강화학습 기반 전송전력 할당 방법은 도 8과 같을 수 있다. 도 8을 참조하면, 사용자 클러스터링 및 강화학습 기반 전송전력 할당 방법은, 기지국(BS)의 커버리지에 위치한 사용자 장치(UE)들의 채널 이득(h)들을 크기 순서로 정렬( h₁ < h₂ < h₃ < ... <h_M )하는 정렬 단계(S810)와, 크기 순서에 기반하여 각각의 클러스터로 사용자 장치(UE)를 할당하는 클러스터링 단계(S815)와, 상태(S_t) 및 행동(θ)에 기반한 품질 함수(Q(S_t, θ))를 사용하여 클러스터에 포함된 각 사용자 장치(UE)에 대한 전력을 할당하는 전력 할당 단계(S820)를 포함한다. 여기서 상태(S_t)는 현재 타임 슬롯에서 최소의 데이터 레이트를 갖는 사용자 장치(UE)의 인덱스이고 행동(θ)은 클러스터 내 해당 사용자 장치(UE)의 전력 레벨에 해당하며, 품질 함수 Q(S_t, θ)는 각각의 상태 및 행동 조합에 대하여 할인 기대 보상 값(discount expected reward)을 제공하는 함수이다.

본 발명의 실시예에 따르면, 클러스터링 단계(S820)는 채널 이득들의 크기 순서로 정렬된 사용자 장치들 중에서 n+(z-1)*k 번째에 위치한 사용자 장치를 n 번째 클러스터에 할당하는 단계를 포함하고, 여기서 n은 클러스터의 인덱스, z는 n 번째 클러스터 내 해당 사용자 장치(UE)의 순서, k는 클러스터의 개수이다. 예를 들어, 도 3의 단계 3과 같이 클러스터 별 사용자가 할당될 수 있다.

본 발명의 실시예에 따르면, 클러스터링 단계(S815)는 커버리지 내 모든 사용자 장치들의 개수(M)에 대한 클러스터의 개수(k)의 모듈러(modular) 연산(M mod k)에 기반하여 각각의 클러스터에 포함된 사용자 장치의 개수를 결정하는 단계를 포함할 수 있다. 예를 들어, 도 3의 단계 4와 같이 클러스터의 사이즈(클러스터 내 사용자 장치의 개수)가 결정될 수 있다.

본 발명의 실시예에 따르면, 전력 할당 단계(S820)는 사용자 장치(UE)에 전력을 할당하기 이전에 커버리지 내 각각의 사용자 장치에 대하여 임의의 행동을 초기화 단계를 더 포함할 수 있다. 예를 들어, 도 5의 알고리즘에서 핫-부팅 절차와 같이 모든 사용자에게 임의의 행동(θ)을 선택하여 초기화하는 과정이 전력 할당 절차 이전에 수행될 수 있다.

본 발명의 실시예에 따르면, 전력 할당 단계(S820)는 품질 함수 Q(S_t, θ)에서 최대의 할인 기대 보상 값을 제공하는 행동 및 상태 조합에 대응하는 최적의 행동(θ = argmax Q(S_t, θ))을 획득하는 단계를 포함할 수 있다. 또한, 전력 할당 단계(S830)는 획득된 최적의 행동(θ_m)에 클러스터 당 전력 예산(P_t)을 곱한 값(θ_mP_t)을 할당하는 단계를 포함할 수 있다.

본 발명의 실시예에 따르면, 전력 할당 단계(S820)는 클러스터 내 각 사용자 장치(UE)의 데이터 레이트(R_i)를 획득하는 데이터 레이트 획득 단계를 더 포함할 수 있다. 예를 들어, 도 5의 22번째 줄에 해당하는 절차가 수행될 수 있다.

본 발명의 실시예에 따르면, 전력 할당 단계(S830)는 클러스터 내 각 사용자 장치(UE)의 데이터 레이트에 기반하여 품질 함수 Q(S_t, θ)를 업데이트하는 품질 함수 업데이트 단계를 더 포함할 수 있다.

본 발명의 실시예에 따르면, 품질 함수 업데이트 단계는 클러스터에서 최소의 데이터 레이트(min(R_i))가 최소 데이터 레이트 요구량(R₀) 보다 크면(min(R_i) > R₀) 커버리지에 위치하는 사용자 장치들의 데이터 레이트의 총합(R_S)을 보상 값(r)으로 설정하는 단계와, 클러스터에서 최소의 데이터 레이트(min(R_i))가 최소 데이터 레이트 요구량(R₀) 보다 작거나 같으면(min(R_i) <= R₀) 0을 보상 값(r)으로 설정하는 단계와, 설정된 보상 값을 사용하여 품질 함수 Q(S_t, θ)를 업데이트하는 단계를 포함할 수 있다. 품질 함수 Q(S_t, θ)의 업데이트에 있어 수학식 6이 사용될 수 있다.

본 발명의 실시예에 따른 NOMA 시스템은 상술한 사용자 클러스터링 및 강화학습 기반 전송전력 할당 방법을 수행하는 기지국(BS)과, 기지국(BS)에 의해 서비스되는 사용자 장치(UE)들을 포함할 수 있다.

성능 평가

Q-학습 기반의 전력 할당 알고리즘에 따른 사용자 클러스터링 알고리즘이 적용된 NOMA 시스템들과 오직 Q-학습 기반 전력 할당 알고리즘, 그리고 일정한 전력 할당에 따른 사용자 클러스터링과의 성능을 비교하였다. 성능을 평가하기 위하여, 아래의 표 1에서 주어진 파라미터들이 사용된다.

초기에, 기지국(BS)과 사용자들 사이의 거리는 기지국(BS)의 커버리지 내에서 임의로 선택된다. 이후, 채널 이득(h_i)이 레이레이 페이딩 모델(Rayleigh fading model)을 사용하여 계산되며, 여기서 경로 손실 지수(η)는 4이다(η = 4).

도 6은 앞에서 설명한 3가지 다른 시나리오에서 2-사용자 PD-NOMA 시스템의 데이터 레이트 합계를 도시한다. 도 4에서, 본 발명에 따른 기법이 모든 시나리오에서 최적의 성능 및 일관성(stability)을 달성함을 확인할 수 있다.

도 7은 2, 3, 4, 6-사용자 NOMA 시스템에서 데이터 레이트 총합에 대한 시뮬레이션 결과를 도시한다. 도 7을 참고하면, 본 발명에 따른 NOMA 시스템의 데이터 레이트 합계가 모든 사용자 NOMA 시스템에서 최적의 성능을 나타냄이 명확하다. 나아가, 클러스터 당 사용자의 개수가 증가함에 따라 시스템은 더욱 복잡해지고, 사용자가 많을 수록 총 전력 예산(power budget)가 나뉘어져 전체 데이터 레이트가 감소함을 도 7의 그래프로부터 확인할 수 있다. 비록 클러스터 당 사용자의 개수가 증가함에 따라 전반적인 스루풋이 감소함에도 불구하고, 본 발명에 따른 NOMA 시스템에 의해 성취될 수 있는 스루풋이 모든 시나리오에서 최적의 성능을 가짐이 확인된다.

상술한 바와 같이, NOMA 시스템에서 단순하고 효율적인 사용자 클러스터링 기법이 적용된 Q-학습 기반 전력 할당 알고리즘이 소개되고 분석되었다. 또한, 오직 Q-학습 기반 전력 할당이 적용된 NOMA 시스템과 균등하게 전력을 분배하며 사용자 클러스터링 만이 적용된 NOMA 시스템과 같은 다른 시나리오도 함께 검토되었다. 사용자 클러스터링이 적용된 전력 할당 알고리즘이 다른 시나리오와 비교하여 최적의 성능을 도출함이 확인되었다. 나아가, 전송 전력 예산(transmission power budget), 사용자의 데이터 레이트 최소 요구량과 같은 다수의 NOMA 제약들이 Q-학습 알고리즘에 통합되어 극복된다. 제안된 사용자 클러스터링 기법은 하향링크와 상향링크 NOMA 시스템에서 모두 최대의 스루풋을 달성하도록 지원한다.

본 실시예 및 본 명세서에 첨부된 도면은 본 발명에 포함되는 기술적 사상의 일부를 명확하게 나타내고 있는 것에 불과하며, 본 발명의 명세서 및 도면에 포함된 기술적 사상의 범위 내에서 당업자가 용이하게 유추할 수 있는 변형예와 구체적인 실시예는 모두 본 발명의 권리범위에 포함되는 것이 자명하다고 할 것이다.

따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.

Claims

NOMA(non-orthogonal multiple access) 시스템에서 기지국의 사용자 클러스터링 및 강화학습 기반 전송전력 할당 방법에 있어서,
상기 기지국의 커버리지에 위치한 사용자 장치들의 채널 이득들을 크기 순서로 정렬하는 정렬 단계;
상기 크기 순서에 기반하여 각각의 클러스터로 사용자 장치를 할당하는 클러스터링 단계; 및
상태 및 행동에 기반한 품질 함수를 사용하여 상기 클러스터에 포함된 각 사용자 장치에 대한 전력을 할당하는 전력 할당 단계를 포함하고,
상기 상태는 현재 타임 슬롯에서 최소의 데이터 레이트를 갖는 사용자 장치의 인덱스이고 상기 행동은 상기 클러스터 내 상기 사용자 장치의 전력 레벨에 해당하며, 상기 품질 함수는 각각의 상태 및 행동 조합에 대하여 할인 기대 보상 값을 제공하며, 상기 최소의 데이터 레이트와 최소 데이터 레이트 요구량을 비교한 결과에 기반하여 상기 보상값을 설정함으로써 업데이트되는
사용자 클러스터링 및 강화학습 기반 전송전력 할당 방법.
제1항에 있어서,
상기 클러스터링 단계는,
상기 채널 이득들의 크기 순서로 정렬된 사용자 장치들 중에서 n+(z-1)*k 번째에 위치한 사용자 장치를 n 번째 클러스터에 할당하는 단계를 포함하고,
여기서 n은 클러스터의 인덱스, z는 n 번째 클러스터 내 해당 사용자 장치의 순서, k는 클러스터의 개수인
사용자 클러스터링 및 강화학습 기반 전송전력 할당 방법.
제2항에 있어서,
상기 클러스터링 단계는,
상기 커버리지 내 모든 사용자 장치들의 개수에 대한 상기 클러스터의 개수의 모듈러(modular) 연산에 기반하여 상기 각각의 클러스터에 포함된 사용자 장치의 개수를 결정하는 단계를 포함하는
사용자 클러스터링 및 강화학습 기반 전송전력 할당 방법.
제1항에 있어서,
상기 전력 할당 단계는,
상기 사용자 장치에 전력을 할당하기 이전에 상기 커버리지 내 각각의 사용자 장치에 대하여 임의의 행동을 할당하는 초기화 단계를 더 포함하는
사용자 클러스터링 및 강화학습 기반 전송전력 할당 방법.
제1항에 있어서,
상기 전력 할당 단계는,
상기 품질 함수에서 최대의 할인 기대 보상 값을 제공하는 행동 및 상태 조합에 대응하는 최적의 행동을 획득하는 단계를 포함하는
사용자 클러스터링 및 강화학습 기반 전송전력 할당 방법.
제5항에 있어서,
상기 전력 할당 단계는,
상기 획득된 최적의 행동에 클러스터 당 전력 예산을 곱한 값을 할당하는 단계를 포함하는
사용자 클러스터링 및 강화학습 기반 전송전력 할당 방법.
제1항에 있어서,
상기 전력 할당 단계는,
상기 클러스터 내 각 사용자 장치의 데이터 레이트를 획득하는 데이터 레이트 획득 단계를 더 포함하는
사용자 클러스터링 및 강화학습 기반 전송전력 할당 방법.
제7항에 있어서,
상기 전력 할당 단계는,
상기 클러스터 내 각 사용자 장치의 데이터 레이트에 기반하여 상기 품질 함수를 업데이트하는 품질 함수 업데이트 단계를 더 포함하는
사용자 클러스터링 및 강화학습 기반 전송전력 할당 방법.
제8항에 있어서,
상기 품질 함수 업데이트 단계는,
상기 클러스터에서 최소의 데이터 레이트가 상기 최소 데이터 레이트 요구량 보다 크면 상기 커버리지에 위치하는 사용자 장치들의 데이터 레이트의 총합을 보상 값으로 설정하는 단계;
상기 클러스터에서 최소의 데이터 레이트가 상기 최소 데이터 레이트 요구량 보다 작거나 같으면 0을 상기 보상 값으로 설정하는 단계; 및
상기 설정된 보상 값을 사용하여 상기 품질 함수를 업데이트하는 단계를 포함하는
사용자 클러스터링 및 강화학습 기반 전송전력 할당 방법.
제1항 내지 제9항에 따른 사용자 클러스터링 및 강화학습 기반 전송전력 할당 방법을 수행하도록 설정된 기지국; 및
상기 기지국에 의해 서비스되는 사용자 장치들
을 포함하는 NOMA 시스템.