KR102254714B1 - 5g 무선 액세스 네트워크를 위한 강화 학습 기반 적응적 속도 제어 방법, 이를 수행하기 위한 기록 매체 및 장치 - Google Patents

5g 무선 액세스 네트워크를 위한 강화 학습 기반 적응적 속도 제어 방법, 이를 수행하기 위한 기록 매체 및 장치 Download PDF

Info

Publication number
KR102254714B1
KR102254714B1 KR1020200089542A KR20200089542A KR102254714B1 KR 102254714 B1 KR102254714 B1 KR 102254714B1 KR 1020200089542 A KR1020200089542 A KR 1020200089542A KR 20200089542 A KR20200089542 A KR 20200089542A KR 102254714 B1 KR102254714 B1 KR 102254714B1
Authority
KR
South Korea
Prior art keywords
value
state
scheduler
radio access
reinforcement learning
Prior art date
Application number
KR1020200089542A
Other languages
English (en)
Inventor
김성원
나우만알리
Original Assignee
영남대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 영남대학교 산학협력단 filed Critical 영남대학교 산학협력단
Priority to KR1020200089542A priority Critical patent/KR102254714B1/ko
Application granted granted Critical
Publication of KR102254714B1 publication Critical patent/KR102254714B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/10Flow control between communication endpoints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • H04L47/14
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/26Flow control; Congestion control using explicit feedback to the source, e.g. choke packets
    • H04L47/263Rate modification at the source after receiving feedback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/04Error control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0446Resources in time domain, e.g. slots or frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/12Wireless traffic scheduling
    • H04W72/1205
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W8/00Network data management
    • H04W8/02Processing of mobility data, e.g. registration information at HLR [Home Location Register] or VLR [Visitor Location Register]; Transfer of mobility data, e.g. between HLR, VLR or external networks
    • H04W8/04Registration at HLR or HSS [Home Subscriber Server]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

5G 무선 액세스 네트워크를 위한 강화 학습 기반 적응적 속도 제어 방법은, 5G 이기종 트래픽이 있는 신호 대기열 모델에서 스케줄러에 다수 사용자들의 패킷 수 N, K 개의 상태들과 각 상태들에 대응하는 동작 보상 매트릭스를 입력하는 단계; 스케줄러에서 각 시간 단계 t 값을 K와 비교하는 단계; 상기 t 값이 K 보다 크면(t〉K), 스케줄러에서 최대 UCB1(Upper Confidence Bound) 신뢰 지수를 가진 상태를 선택하는 단계; 패킷 전송의 성공 여부에 따른 보상 및 신뢰 지수를 기초로, 시간 단계 t에서의 각 상태에 대한 보상값을 계산하는 단계; 및 시간 단계 t에서 선택된 동작값을 리턴하는 단계;를 포함한다. 이에 따라, 이기종 트래픽의 전송률을 향상시킬 수 있다.

Description

5G 무선 액세스 네트워크를 위한 강화 학습 기반 적응적 속도 제어 방법, 이를 수행하기 위한 기록 매체 및 장치{METHOD OF CONTROLLING REINFORCEMENT LEARNING ENABLED RATE ADAPTION FOR 5G RADIO ACCESS NETWORKS, RECORDING MEDIUM AND DEVICE FOR PERFORMING THE METHOD}
본 발명은 5G 무선 액세스 네트워크를 위한 강화 학습 기반 적응적 속도 제어 방법, 이를 수행하기 위한 기록 매체 및 장치에 관한 것으로서, 더욱 상세하게는 MAB(Multi-Arm Bandit) 문제로서 TTI(Transmission Time Interval)를 위한 OFDM(Orthogonal Frequency Division Multiplex) 심벌의 최적의 수 및 숫자점의 선택을 모델링하고 MAB 문제를 해결하기 위해 UCB1(Upper Confidence Bound) 알고리즘을 이용하는 지능형 차세대 NodeB(gNB)에 관한 것이다.
ITU(International Telecommunication Union)는 5 세대(5G) 셀룰러 네트워크의 이기종 트래픽을 eMBB(Enhanced Mobile Broadband), URLLC(Ultra-Reliable and Low Latency Communication) 및 mMTC(massive machine-type communication)의 3 가지 범주로 분류한다. 이기종 트래픽의 요구 사항은 대기 시간과 안정성의 맥락에 따라 다르다.
3GPP(3rd Generation Partnership Project)는 진화된 LTE(Long Term Evolution) 및 NR(New Radio)인 5G에 대한 2 개의 무선 인터페이스를 표준화한다. NR은 15, 30, 60 및 120 kHz의 확장 가능한 부반송파 간격(SCS) 수비학을 제공하는 반면 LTE는 15 kHz의 고정 수비학을 제공한다.
LTE는 확장 가능한 짧은 전송 시간 간격(sTTI)을 제공하며, NR은 가변 개수의 OFDM 심볼로 전송하기 위한 확장 가능한 미니 슬롯을 허용한다. NR에서 SCS를 증가시키거나 sTTI 또는 미니 슬롯에서 OFDM 심벌의 수를 감소시키면 TTI가 감소될 수 있다.
이에 따라, sTTI 또는 미니 슬롯에서 SCS의 최적 선택 및 OFDM 심볼의 수는 5G 네트워크에서 이기종 트래픽의 공존을 위해 매우 중요하며, 이를 조절할 수 있는 기술이 필요한 실정하다.
WO 2018/204344A1 B1 KR 10-1977465 B1
L. Melian-Gutierrez, N. Modi, C. Moy, I. Perez-Alvarez, F. Bader and S. Zazo, "Upper Confidence Bound learning approach for real HF measurements," in 2015 IEEE International Conference on Communication Workshop (ICCW), London, 2015. J. McCaffrey, "The UCB1 Algorithm for Multi-Armed Bandit Problems," Microsoft, August 2019.
이에, 본 발명의 기술적 과제는 이러한 점에서 착안된 것으로 본 발명의 목적은 5G 무선 액세스 네트워크를 위한 강화 학습 기반 적응적 속도 제어 방법을 제공하는 것이다.
본 발명의 다른 목적은 상기 5G 무선 액세스 네트워크를 위한 강화 학습 기반 적응적 속도 제어 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 기록 매체를 제공하는 것이다.
본 발명의 또 다른 목적은 상기 5G 무선 액세스 네트워크를 위한 강화 학습 기반 적응적 속도 제어 방법을 수행하기 위한 장치를 제공하는 것이다.
상기한 본 발명의 목적을 실현하기 위한 일 실시예에 따른 5G 무선 액세스 네트워크를 위한 강화 학습 기반 적응적 속도 제어 방법은, 5G 이기종 트래픽이 있는 신호 대기열 모델에서 스케줄러에 다수 사용자들의 패킷 수 N, K 개의 상태들과 각 상태들에 대응하는 동작 보상 매트릭스를 입력하는 단계; 스케줄러에서 각 시간 단계 t 값을 K와 비교하는 단계; 상기 t 값이 K 보다 크면(t〉K), 스케줄러에서 최대 UCB1(Upper Confidence Bound) 신뢰 지수를 가진 상태를 선택하는 단계; 패킷 전송의 성공 여부에 따른 보상 및 신뢰 지수를 기초로, 시간 단계 t에서의 각 상태에 대한 보상값을 계산하는 단계; 및 시간 단계 t에서 선택된 동작값을 리턴하는 단계;를 포함한다.
본 발명의 실시예에서, 상기 5G 무선 액세스 네트워크를 위한 강화 학습 기반 적응적 속도 제어 방법은, 상기 t 값이 K 보다 작거나 같으면(t≤K), 테스트되지 않은 다음 상태를 선택하여 UCB1 지수를 결정하는 단계;를 더 포함할 수 있다.
본 발명의 실시예에서, 상기 5G 무선 액세스 네트워크를 위한 강화 학습 기반 적응적 속도 제어 방법은, 시간 단계 t에서 선택된 동작값을 리턴 후, 다음 시간 단계 t+1에 대한 동작 보상 매트릭스를 업데이트하는 단계;를 더 포함할 수 있다.
본 발명의 실시예에서, 상기 패킷 전송의 성공 여부에 따른 보상은, 전송 성공하는 경우 x이고, 전송 실패는 경우 y일 수 있다.
본 발명의 실시예에서, K는 SCS(scalable subcarrier spacing)와 OFDM(Orthogonal Frequency Division Multiplex) 심볼 수의 조합일 수 있다.
본 발명의 실시예에서, 상기 스케줄러에서 각 시간 단계 t 값을 K와 비교하는 단계는, 스케줄러가 모든 상태 k가 시도되고, 각 상태에서의 신뢰 지수가 결정되는지 여부를 검사할 수 있다.
본 발명의 실시예에서, 상기 스케줄러에서 각 시간 단계 t 값을 K와 비교하는 단계는, 모든 상태가 한 번씩 시도되고 신뢰 지수가 기록될 때까지 다음 상태가 선택될 수 있다.
기한 본 발명의 다른 목적을 실현하기 위한 일 실시예에 따른 컴퓨터로 판독 가능한 저장 매체에는, 상기 5G 무선 액세스 네트워크를 위한 강화 학습 기반 적응적 속도 제어 방법을 수행하기 위한 컴퓨터 프로그램이 기록되어 있다.
상기한 본 발명의 또 다른 목적을 실현하기 위한 일 실시예에 따른 5G 무선 액세스 네트워크를 위한 강화 학습 기반 적응적 속도 제어 장치는, 5G 이기종 트래픽이 있는 신호 대기열 모델에서 스케줄러에 다수 사용자들의 패킷 수 N, K 개의 상태들과 각 상태들에 대응하는 동작 보상 매트릭스를 입력하는 학습 데이터 입력부; 스케줄러에서 각 시간 단계 t 값을 K와 비교하는 스케쥴러 조절부; 상기 t 값이 K 보다 크면(t〉K), 스케줄러에서 최대 UCB1(Upper Confidence Bound) 신뢰 지수를 가진 상태를 선택하고, 상기 t 값이 K 보다 작거나 같으면(t≤K), 테스트되지 않은 다음 상태를 선택하여 UCB1 지수를 결정하는 신뢰 지수 선택부; 패킷 전송의 성공 여부에 따른 보상 및 신뢰 지수를 기초로, 시간 단계 t에서의 각 상태에 대한 보상값을 계산하는 보상값 계산부; 및 시간 단계 t에서 선택된 동작값을 리턴하는 동작값 리턴부;를 포함한다.
본 발명의 실시예에서, 상기 보상값 계산부는, 시간 단계 t에서 선택된 동작값을 리턴 후, 다음 시간 단계 t+1에 대한 동작 보상 매트릭스를 업데이트할 수 있다.
본 발명의 실시예에서, K는 SCS(scalable subcarrier spacing)와 OFDM(Orthogonal Frequency Division Multiplex) 심볼 수의 조합일 수 있다.
본 발명의 실시예에서, 상기 스케쥴러 조절부는, 모든 상태 k가 시도되고, 각 상태에서의 신뢰 지수가 결정되는지 여부를 검사하고, 모든 상태가 한 번씩 시도되고 신뢰 지수가 기록될 때까지 다음 상태를 선택할 수 있다.
이와 같은 5G 무선 액세스 네트워크를 위한 강화 학습 기반 적응적 속도 제어 방법에 따르면, 강화 학습에 기초하여 이기종 트래픽의 전송률을 향상시킬 수 있다.
도 1은 본 발명의 일 실시예에 따른 5G 무선 액세스 네트워크를 위한 강화 학습 기반 적응적 속도 제어 장치의 블록도이다.
도 2는 다른 스펙트럼 및 배치를 위해 실현 가능한 OFDM 수비학을 갖춘 evolved LTE 및 NR(New Radio)의 프레임 구조를 보여주는 도면이다.
도 3은 5G 애플리케이션의 gNB에서 PHY/MAC 계층 동작을 설명하는 단일 큐(queue) 모델을 보여주는 도면이다.
도 4는 5G 무선 액세스 네트워크에서의 에이전트 환경 상호 작용을 보여주는 도면이다.
도 5는 본 발명에 따른 상태 공간 다이어그램의 예를 보여주는 도면이다.
도 6은 본 발명의 UCB1 알고리즘을 보여주는 도면이다.
도 7은 본 발명의 일 실시예에 따른 5G 무선 액세스 네트워크를 위한 강화 학습 기반 적응적 속도 제어 방법의 흐름도이다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.
이하, 도면들을 참조하여 본 발명의 바람직한 실시예들을 보다 상세하게 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 5G 무선 액세스 네트워크를 위한 강화 학습 기반 적응적 속도 제어 장치의 블록도이다.
본 발명에 따른 5G 무선 액세스 네트워크를 위한 강화 학습 기반 적응적 속도 제어 장치(10, 이하 장치)는 강화 학습(RL)을 기반으로 하는 5세대 이통 통신망 전송률의 제어 기술에 대한 것이다.
도 1을 참조하면, 본 발명에 따른 장치(10)는 학습 데이터 입력부(100), 스케쥴러 조절부(300), 신뢰 지수 선택부(500), 보상값 계산부(700) 및 동작값 리턴부(900)를 포함한다.
본 발명의 상기 장치(10)는 5G 무선 액세스 네트워크를 위한 강화 학습 기반 적응적 속도 제어를 수행하기 위한 소프트웨어(애플리케이션)가 설치되어 실행될 수 있으며, 상기 학습 데이터 입력부(100), 상기 스케쥴러 조절부(300), 상기 신뢰 지수 선택부(500), 상기 보상값 계산부(700) 및 상기 동작값 리턴부(900)의 구성은 상기 장치(10)에서 실행되는 5G 무선 액세스 네트워크를 위한 강화 학습 기반 적응적 속도 제어를 수행하기 위한 소프트웨어에 의해 제어될 수 있다.
상기 장치(10)는 별도의 단말이거나 또는 단말의 일부 모듈일 수 있다. 또한, 상기 학습 데이터 입력부(100), 상기 스케쥴러 조절부(300), 상기 신뢰 지수 선택부(500), 상기 보상값 계산부(700) 및 상기 동작값 리턴부(900)의 구성은 통합 모듈로 형성되거나, 하나 이상의 모듈로 이루어 질 수 있다. 그러나, 이와 반대로 각 구성은 별도의 모듈로 이루어질 수도 있다.
상기 장치(10)는 이동성을 갖거나 고정될 수 있다. 상기 장치(10)는, 서버(server) 또는 엔진(engine) 형태일 수 있으며, 디바이스(device), 기구(apparatus), 단말(terminal), UE(user equipment), MS(mobile station), 무선기기(wireless device), 휴대기기(handheld device) 등 다른 용어로 불릴 수 있다.
상기 장치(10)는 운영체제(Operation System; OS), 즉 시스템을 기반으로 다양한 소프트웨어를 실행하거나 제작할 수 있다. 상기 운영체제는 소프트웨어가 장치의 하드웨어를 사용할 수 있도록 하기 위한 시스템 프로그램으로서, 안드로이드 OS, iOS, 윈도우 모바일 OS, 바다 OS, 심비안 OS, 블랙베리 OS 등 모바일 컴퓨터 운영체제 및 윈도우 계열, 리눅스 계열, 유닉스 계열, MAC, AIX, HP-UX 등 컴퓨터 운영체제를 모두 포함할 수 있다.
상기 학습 데이터 입력부(100)는 5G 이기종 트래픽이 있는 신호 대기열 모델에서 스케줄러에 다수 사용자들의 패킷 수 N, K 개의 상태들과 각 상태들에 대응하는 동작 보상 매트릭스를 입력한다. K는 SCS(scalable subcarrier spacing)와 OFDM(Orthogonal Frequency Division Multiplex) 심볼 수의 조합일 수 있다.
ITU(International Telecommunication Union)는 5 세대(5G) 셀룰러 통신의 이기종 트래픽을 eMBB(enhanced Mobile Broadband), URLLC(Ultra Reliable and Low Latency Communication) 및 mMTC(massive Machine-Type Communication)의 3 가지 범주로 분류한다.
eMBB에는 대규모 비디오 스트리밍 및 증강 현실/가상 현실(AR/VR)과 같은 대역폭 부족(bandwidth-hungry) 응용 프로그램이 포함된다. mMTC는 IoT(Internet-of-Things)의 대규모 배포를 지원하기 위해 감지, 측정, 모니터링, 미터링 및 캘리브레이션 응용 프로그램을 다루며, URLLC는 자율 주행 차 및 드론과 같은 대기 시간 및 안정성에 민감한 응용 프로그램을 지원한다.
상기 3 가지 응용 프로그램의 공존은 5G 네트워크에서 매우 중요하다. 3GPP(3rd Generation Partnership Project)에서 정의한 URLLC에 대한 가장 엄격한 요구 사항은 다음과 같다.
1. 낮은 종단 간(end-to-end) 대기 시간은 0.5 ms의 무선 인터페이스 대기 시간으로 1 ms만큼 낮아야 한다.
2. 신뢰성은 99.99 %로 높아야 하며, 이는 10-9 패킷 오류율에 해당한다. 이는 109의 패킷 중 하나가 1 ms 내에 전달되지 않으면 신뢰성 실패로 선언되는 것을 반영한다.
3GPP는 릴리스 15에서 5G에 대한 두 가지 무선 인터페이스인 LTE(LTE-A)와 New Radio(NR)를 표준화했다. NR과 LTE-A는 동일한 프레임 구조와 직교 주파수 분할 다중(OFDM)을 따른다. 부반송파 간격(SCS) 수비학은 NR에서 15, 30, 60, 120 kHz로 확장 가능하지만 LTE-A는 15 kHz의 고정 SCS를 갖는다.
LTE-A/NR의 무선 프레임의 길이는 10 ms이고 10 개의 서브 프레임은 1 ms이다. 각 서브 프레임에는 0.5 ms의 두 개의 슬롯이 있다. 슬롯은 물리 신호가 전송 시간 간격(TTI) 내에서 전송 및 반복되는 7 개의 OFDM 심볼을 포함하는 기본 프레임 구조이다.
NR의 슬롯은 도 2와 같이 15 kHz SCS에서 1 ms의 14 OFDM 심볼을 포함하는 서브 프레임에 해당한다. 다른 SCS 수비학은 120 kHz에서 15 kHz에서 125 ㎲까지 1 ms에서 더 짧은 TTI를 가능하게 하는 다른 슬롯 길이에 해당한다.
비 슬롯 전송 개념은 NR/LTE-A에 도입되었으며, 이는 LTE-A에서 NR의 미니 슬롯 및 짧은 TTI(sTTI)를 지칭한다. 미니 슬롯은 임의의 OFDM 심볼에서 시작할 수 있으며 가변 개수의 OFDM 심볼(예를 들어, 2, 4 또는 7 개의 기호)을 전달할 수 있다. LTE-A에서 sTTI는 2, 3 또는 7 OFDM 심볼을 전달할 수 있다. 더 적은 수의 OFDM 심벌을 갖는 미니 슬롯 또는 sTTI는 빠른 전송을 가능하게 하여 SCS 수비학에 관계없이 낮은 대기 시간 애플리케이션을 위한 실용적인 솔루션을 제공한다.
5G의 요구 사항을 충족하기 위해 릴리스 15의 3GPP는 TTI를 1 ms에서 몇 개의 기호로 단축하여 MAC(Massive and Medium Access Control) 대기 시간을 줄인다. 감소된 TTI는 업 링크 및 다운 링크 모두에서 보다 빠른 사용자 스케줄링을 가능하게 하고 HARQ(Hybrid Automatic Repeat Requests) 타임 라인을 줄여 네트워크 용량을 늘리고 대기 시간을 줄인다. 또한, 대기 시간 임계 값 내에 더 많은 재전송을 수용할 수 있어 패킷 오류율 또는 정확도가 향상된다.
한편, 큐잉 모델(Queueing Model)은 다운 링크 전송에서, MAC 계층들 사이의 성공적인 전송의 종단 간 지연은 스케줄링 지연, 큐잉 지연, 전송 지연, 처리 지연, 디코딩 지연 및 HARQ 왕복 시간(RTT)을 포함한다. 대기열 지연은 여러 사용자 데이터의 통계적 다중화로 인해 발생한다.
다양한 사용자의 트래픽 패턴이 5G 이기종 네트워크에서 다양하기 때문에 여러 사용자의 데이터 흐름이 폭발적이고 산발적일 수 있다. 따라서, 높은 신뢰성을 달성하기 위해서는 충분한 HARQ 재전송이 필요하다. 스펙트럼 효율을 최대화하기 위해 사용자의 데이터가 증가함에 따라 큐잉 지연이 증가한다. 따라서, 5G 네트워크를 설계하는 동안 큐잉 지연을 해결해야 한다.
다운 링크 전송에서 gNB는 도착하는 사용자의 패킷을 예약하고 사용자의 첫 번째 전송 대기열에 버퍼링하고 첫 번째 HARQ 재전송을 예약하기를 기다린다. 첫 번째 HARQ가 실패하면 패킷은 RTT 후 두 번째 재전송에 사용 가능하다. gNB에서 버퍼링 된 패킷이 최종 기한을 놓칠 때마다 패킷이 삭제되어 신뢰성이 떨어지게 된다.
또한, n HARQ 이후 수신기 측에서 디코딩 될 수 없는 패킷인 경우, 데이터 패킷은 gNB에 의해 실패로 선언될 수 있으며, 그 결과 신뢰성의 손실이 초래된다.
도 3은 5G 네트워크에서 이기종 트래픽이 있는 신호 대기열 모델의 동작을 보여준다.
도 3을 참조하면, 모든 스케줄링에서, gNB는 주파수 및 시간 자원을 버퍼링 된 패킷의 새로운 전송 및 재전송에 할당한다. 그러나, 버퍼가 유한하며 대기열 지연이 대기 시간 요구 사항보다 큰 경우 패킷이 gNB에서 삭제된다. 따라서, 5G 네트워크 응용 프로그램의 대기 시간 요구 사항을 충족하려면 효율적인 일정이 필요하다.
강화 학습(RL)은 학습자(에이전트)가 수치 보상을 극대화하기 위해(다시 말해, 주 목표의 방향으로 이동하기 위해) 수행할 조치에 대한 사전 지식이 없는 기계 학습(ML) 유형이다. 그러나, 에이전트는 적중 및 시험(hit and trial) 방법론에 따라 최대의 보상을 산출하기 위해 수행할 조치를 찾아야 한다. RL에는 에이전트, 환경 및 보상의 세 가지 주요 요소가 있다.
MAB(Multi-Arm Bandit) 문제는 에이전트(플레이어)가
Figure 112020075251376-pat00001
인 K 개의 상태(머신) 중에서, 해당 보상에 따라 이산 시간
Figure 112020075251376-pat00002
에서 상태 k (머신)를 반복적으로 선택하는 RL 기법의 형태이다.
에이전트(플레이어)는 상태(머신)를 선택하는데 관심이 있으며 보상을 극대화한다. 상태(머신)와 관련된 보상은 독립적이며 동일하게 분배되며(i.i.d), 알려지지 않은 고정 분배법 d_k를 따른다. 보상 분배
Figure 112020075251376-pat00003
는 상태마다 변화하며, 플레이어는 분배에 대한 사전 지식이 없다.
상기 스케쥴러 조절부(300)는 스케줄러에서 각 시간 단계 t 값을 K와 비교한다. 상기 신뢰 지수 선택부(500)는 상기 t 값이 K 보다 크면(t〉K), 스케줄러에서 최대 UCB1(Upper Confidence Bound) 신뢰 지수를 가진 상태를 선택한다. 반면, 상기 t 값이 K 보다 작거나 같으면(t≤K), 테스트되지 않은 다음 상태를 선택하여 UCB1 지수를 결정한다.
상기 스케줄러에서 각 시간 단계 t 값을 K와 비교하는 것은, 스케줄러가 모든 상태 k가 시도되고, 각 상태에서의 신뢰 지수가 결정되는지 여부를 검사하고, 모든 상태가 한 번씩 시도되고 신뢰 지수가 기록될 때까지 다음 상태가 선택되는 것을 의미한다.
본 발명에서, 플레이어(에이전트)는 gNB 스케줄러이고, 환경의 상태(머신) K는 STI 수비학과 TTI 동안 사용된 OFDM 심볼의 수의 조합이다(도 5 참조). 플레이어는 상태를 선택해야 보상을 극대화 할 수 있다. 도 4는 본 발명에서 제안된 지능형 gNB의 환경을 보여준다.
보상은 특정 상태에 대한 활동의 정량적 성과 지표이다. 본 발명에서, 보상
Figure 112020075251376-pat00004
는 각 시간 단계 t에서 최소 패킷 드롭율로 대기 시간 및 신뢰성의 요구 사항을 충족시키는 STI 및 TTI 당 심볼 수를 선택하는 것에 대한 보상이다. 보상에 대한 두 가지 값, 즉 x가 항상 양수이고 y보다 큰, 즉 x> y이다(예를 들어, x = 1이고 y = 0). 선택된 상태가 데이터를 성공적으로 전송하고 승인이 수신되면 보상은 x이고, 그렇지 않으면 보상은 y이다.
각 단계에서 에이전트는 작업을 탐색(exploration) 또는 활용(exploitation)할 수 있다. 활용 예상 값이 가장 높은 평균 보상을 나타내는 조치 값에 대한 사전 지식이 있는 조치를 선택하는 것이다. 탐색은 사전 지식이 없는 동작을 선택하는 것을 의미하며, 이는 더 나은 보상을 찾기 위해 일련의 동작에서 무작위로 동작을 선택하는 것이다.
활용은 한 단계에서 즉각적인 평균 보상을 극대화한다. 그러나, 탐색은 장기적으로 더 나은 보상을 얻을 수 있다. 탐색의 불확실성은 어떤 동작이 더 나은 보상을 하는지 알 수 없다는 것이다. 나중에 활용 할 시간 단계가 많은 경우 욕심 없는(non-greedy) 동작을 탐색하는 것이 좋다.
그러나, 단일 시간 단계에서 탐색 및 활용을 사용하여 작업을 선택할 수는 없다. 이 딜레마는 탐색 및 활용의 트레이드 오프라고 한다. UCB(Upper Confidence Bound) 알고리즘은 탐색 및 활용의 균형을 자동으로 조정하여 이러한 절충을 제거한다.
후회(Regret)는 gNB에 의해 선택된 차선이 아닌 셀룰러 상태와 관련된 예상 보상과 최적 상태와 관련된 이상적인 보상 사이의 차이에 의해 경험되는 손실을 의미한다. gNB는 보상 분배에 대한 사전 지식이 없으므로 상태를 선택할 때 손실을 피할 수 없다.
π는 최상의 상태에 대한 학습 정책을 나타내고,
Figure 112020075251376-pat00005
Figure 112020075251376-pat00006
상태의 고정 평균 보상이 되게 설정한다. 여기서, E[.]는 기대 함수를 나타낸다. 정책 π의 후회는 다음의 수학식 1과 같이 정의된다.
[수학식 1]
Figure 112020075251376-pat00007
여기서,
Figure 112020075251376-pat00008
는 최적 상태 보상의 예상 값이다. 수학식 1을 기준으로 예상되는 누적 평균 후회는 아래의 수학식 1과 같이 정의된다.
[수학식 2]
Figure 112020075251376-pat00009
여기서,
Figure 112020075251376-pat00010
는 상태 k가 순간 0에서 순간 t-1까지 선택된 총 횟수이다.
MAB 문제는 많은 RL 알고리즘으로 해결할 수 있다. 그 중에서도 신뢰 상한(Upper Confidence Bound, UCB)가 MAB 문제를 해결하는 가장 효율적인 방법이다.
상기 보상값 계산부(700)는 패킷 전송의 성공 여부에 따른 보상 및 신뢰 지수를 기초로, 시간 단계 t에서의 각 상태에 대한 보상값을 계산한다. 상기 동작값 리턴부(900)는 시간 단계 t에서 선택된 동작값을 리턴한다.
예를 들어, 상기 패킷 전송의 성공 여부에 따른 보상은, 전송 성공하는 경우 x이고, 전송 실패는 경우 y일 수 있다. 또한, 시간 단계 t에서 선택된 동작값을 리턴 후, 다음 시간 단계 t+1에 대한 동작 보상 매트릭스를 업데이트하여 다음 학습의 데이터로 이용할 수 있다.
본 발명의 정책은 TTI에 대한 상태의 선택을 위한 UCB 버전 1(UCB1) 알고리즘에 기초한다. UCB1 알고리즘은 구현에서 수학적으로 가장 복잡하지만 가장 쉬운 알고리즘이다. UCB1 알고리즘은 상태가 양호한 지 나쁜지를 반영하는 환경에서의 각 상태의 수치적 신뢰도를 교대로 선택하고 계산함으로써 기본 원칙에 대해 반복적으로 작동한다.
UCB1 알고리즘은 처리 및 저장에 필요한 리소스가 거의 없으며 최적의 성능을 그대로 보장한다. UCB1은 결과가 성공 또는 실패, 즉 Bernoulli 프로세스를 따르는 산적 문제를 위해 특별히 설계되었다. UCB1 지수(index)
Figure 112020075251376-pat00011
는 각각의 시간 순간 t에서 각 상태에 대해 계산된다. UCB1 지수는 상태 k의 예상 보상에 대한 추정치를 반영한다. UCB1 지수는 다음의 수학식 3 내지 수학식 5와 같이 정의된다.
[수학식 3]
Figure 112020075251376-pat00012
[수학식 4]
Figure 112020075251376-pat00013
[수학식 5]
Figure 112020075251376-pat00014
여기서,
Figure 112020075251376-pat00015
는 상태 k의 표본 평균 보상 또는 동작 가치를 나타내며, 활용항이라고도 한다.
Figure 112020075251376-pat00016
는 신뢰 상한이며, 상태의 불확실성 지수라고도 하며, 탐색항이라고도 한다.
Figure 112020075251376-pat00017
가 증가하면 관련 동작 값
Figure 112020075251376-pat00018
가 증가하고 상태의 불확실성이 감소한다. k 이외의 상태가 선택되면,
Figure 112020075251376-pat00019
는 일정하게 유지되고 t는 증가하여 불확실성 지수를 증가시킨다. 신뢰 지수뿐만 아니라 최대 동작 값을 가진 상태를 선택해야 한다.
상기 메커니즘을 따르면 UCB1은 탐색과 활용의 균형을 자동으로 조정한다. 1은 표시 기능이며, 수학식 5의 α는 탐색 계수이다. α가 작아지면 gNB는 이미 선택된 상태를 활용하고, α가 커지면 UCB1 알고리즘은 더 나은 대기 시간과 안정성을 위해 더 많은 상태를 탐색한다. 상태 k가 순간 l에서 선택된 경우 기능 표시의 값은
Figure 112020075251376-pat00020
=1이다. 이를 수식으로 나타내면 아래의 수학식 6과 같다.
[수학식 6]
Figure 112020075251376-pat00021
여기서,
Figure 112020075251376-pat00022
는 가장 높은 UCB1 인덱스를 갖는 UCB1 알고리즘으로부터 생성된
Figure 112020075251376-pat00023
전송에서 정책 π를 사용하여 선택된 상태 k를 선택한다. 이에 따라, 본 발명은 강화 학습에 기초하여 이기종 트래픽의 전송률을 향상시킬 수 있다.
도 6은 본 발명의 UCB1 알고리즘을 보여주는 도면이다. 도 7은 본 발명의 일 실시예에 따른 5G 무선 액세스 네트워크를 위한 강화 학습 기반 적응적 속도 제어 방법의 흐름도이다.
본 실시예에 따른 5G 무선 액세스 네트워크를 위한 강화 학습 기반 적응적 속도 제어 방법은, 도 1의 장치(10)와 실질적으로 동일한 구성에서 진행될 수 있다. 따라서, 도 1의 장치(10)와 동일한 구성요소는 동일한 도면부호를 부여하고, 반복되는 설명은 생략한다.
또한, 본 실시예에 따른 5G 무선 액세스 네트워크를 위한 강화 학습 기반 적응적 속도 제어 방법 수행하기 위한 소프트웨어(애플리케이션)에 의해 실행될 수 있다.
도 6 및 도 7을 참조하면, 본 실시예에 따른 5G 무선 액세스 네트워크를 위한 강화 학습 기반 적응적 속도 제어 방법은, 5G 이기종 트래픽이 있는 신호 대기열 모델에서 스케줄러에 다수 사용자들의 패킷 수 N, K 개의 상태들과 각 상태들
Figure 112020075251376-pat00024
에 대응하는 동작 보상 매트릭스를 입력한다(단계 S11).
각각의 시간 단계 t에서(단계 S13), 스케줄러는
Figure 112020075251376-pat00025
인지 확인한다(단계 S21). 즉, 스케줄러가 모든 상태 K가 시도되고 그들의 신뢰 지수가 결정되는지 여부를 검사함을 의미한다. 그렇지 않으면 모든 상태가 한 번 시도되고 신뢰 지수가 기록될 때까지 다음 상태가 선택된다.
Figure 112020075251376-pat00026
인 경우, 스케줄러는 테스트되지 않은 다음 상태를 선택하여 UCB1 인덱스를 결정한다(단계 S23). 반면,
Figure 112020075251376-pat00027
일 때, 스케줄러는 최대 UCB1 신뢰 지수를 갖는 상태를 선택한다(단계 S25).
전송이 성공하면 보상이 x이고, 그렇지 않으면 보상은 y로 주어지고, 보상
Figure 112020075251376-pat00028
를 계산한다(단계 S31).
증분
Figure 112020075251376-pat00029
, 상태 k가 선택된 횟수, 보상
Figure 112020075251376-pat00030
를 업데이트하고 수학식 4를 사용하여 샘플 평균 보상
Figure 112020075251376-pat00031
를 계산한다. 또한, 수학식 5를 사용하여 신뢰 지수를 결정하고 수학식 3을 이용하여 UCB1 지수
Figure 112020075251376-pat00032
를 계산한다(단계 S33).
또한, 수학식 6을 사용하여
Figure 112020075251376-pat00033
를 업데이트하고(단계 S35), 시간 단계 t에서 선택된 동작
Figure 112020075251376-pat00034
를 리턴한다(단계 S37). 이후, 입력에서 다음 단계
Figure 112020075251376-pat00035
에 대한 동작 보상 매트릭스를 업데이트한다(단계 S39).
이와 같은, 5G 무선 액세스 네트워크를 위한 강화 학습 기반 적응적 속도 제어 방법은 애플리케이션으로 구현되거나 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.
상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다.
컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.
프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상에서는 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
본 발명은 5G 네트워크에서 이기종 트래픽의 공존을 위한 기술로서 이동통신 분야에 유용하게 적용할 수 있다.
10: 5G RAN을 위한 강화 학습 기반 적응적 속도 제어 장치
100: 학습 데이터 입력부
300: 스케쥴러 조절부
500: 신뢰 지수 선택부
700: 보상값 계산부
900: 동작값 리턴부

Claims (12)

  1. 5G 이기종 트래픽이 있는 신호 대기열 모델에서 스케줄러에 다수 사용자들의 패킷 수 N, K 개의 상태들과 각 상태들에 대응하는 동작 보상 매트릭스를 입력하는 단계;
    스케줄러에서 전송 시간 간격(TTI, Transmission Time Interval)에 대응되는 이산 정수인 각 시간 단계 t 값을 K와 비교하는 단계;
    상기 t 값이 K 보다 크면(t〉K), 스케줄러에서 최대 UCB1(Upper Confidence Bound) 신뢰 지수를 가진 상태를 선택하는 단계;
    패킷 전송의 성공 여부에 따른 보상 및 신뢰 지수를 기초로, 시간 단계 t에서의 각 상태에 대한 보상값을 계산하는 단계; 및
    시간 단계 t에서 선택된 동작값을 리턴하는 단계;를 포함하는, 5G 무선 액세스 네트워크를 위한 강화 학습 기반 적응적 속도 제어 방법.
  2. 제1항에 있어서,
    상기 t 값이 K 보다 작거나 같으면(t≤K), 테스트되지 않은 다음 상태를 선택하여 UCB1 지수를 결정하는 단계;를 더 포함하는, 5G 무선 액세스 네트워크를 위한 강화 학습 기반 적응적 속도 제어 방법.
  3. 제1항에 있어서,
    시간 단계 t에서 선택된 동작값을 리턴 후, 다음 시간 단계 t+1에 대한 동작 보상 매트릭스를 업데이트하는 단계;를 더 포함하는, 5G 무선 액세스 네트워크를 위한 강화 학습 기반 적응적 속도 제어 방법.
  4. 제1항에 있어서,
    상기 패킷 전송의 성공 여부에 따른 보상은, 전송 성공하는 경우 x이고, 전송 실패는 경우 y인, 5G 무선 액세스 네트워크를 위한 강화 학습 기반 적응적 속도 제어 방법.
  5. 제1항에 있어서,
    K는 SCS(scalable subcarrier spacing)와 OFDM(Orthogonal Frequency Division Multiplex) 심볼 수의 조합인, 5G 무선 액세스 네트워크를 위한 강화 학습 기반 적응적 속도 제어 방법.
  6. 제1항에 있어서, 상기 스케줄러에서 각 시간 단계 t 값을 K와 비교하는 단계는,
    스케줄러가 모든 상태 k가 시도되고, 각 상태에서의 신뢰 지수가 결정되는지 여부를 검사하는, 5G 무선 액세스 네트워크를 위한 강화 학습 기반 적응적 속도 제어 방법.
  7. 제6항에 있어서, 상기 스케줄러에서 각 시간 단계 t 값을 K와 비교하는 단계는,
    모든 상태가 한 번씩 시도되고 신뢰 지수가 기록될 때까지 다음 상태가 선택되는, 5G 무선 액세스 네트워크를 위한 강화 학습 기반 적응적 속도 제어 방법.
  8. 제1항 내지 제7항 중 어느 하나의 항에 따른 상기 5G 무선 액세스 네트워크를 위한 강화 학습 기반 적응적 속도 제어 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터로 판독 가능한 저장 매체.
  9. 5G 이기종 트래픽이 있는 신호 대기열 모델에서 스케줄러에 다수 사용자들의 패킷 수 N, K 개의 상태들과 각 상태들에 대응하는 동작 보상 매트릭스를 입력하는 학습 데이터 입력부;
    스케줄러에서 전송 시간 간격(TTI, Transmission Time Interval)에 대응되는 이산 정수인 각 시간 단계 t 값을 K와 비교하는 스케쥴러 조절부;
    상기 t 값이 K 보다 크면(t〉K), 스케줄러에서 최대 UCB1(Upper Confidence Bound) 신뢰 지수를 가진 상태를 선택하고, 상기 t 값이 K 보다 작거나 같으면(t≤K), 테스트되지 않은 다음 상태를 선택하여 UCB1 지수를 결정하는 신뢰 지수 선택부;
    패킷 전송의 성공 여부에 따른 보상 및 신뢰 지수를 기초로, 시간 단계 t에서의 각 상태에 대한 보상값을 계산하는 보상값 계산부; 및
    시간 단계 t에서 선택된 동작값을 리턴하는 동작값 리턴부;를 포함하는, 5G 무선 액세스 네트워크를 위한 강화 학습 기반 적응적 속도 제어 장치.
  10. 제9항에 있어서, 상기 보상값 계산부는,
    시간 단계 t에서 선택된 동작값을 리턴 후, 다음 시간 단계 t+1에 대한 동작 보상 매트릭스를 업데이트하는, 5G 무선 액세스 네트워크를 위한 강화 학습 기반 적응적 속도 제어 장치.
  11. 제9항에 있어서,
    K는 SCS(scalable subcarrier spacing)와 OFDM(Orthogonal Frequency Division Multiplex) 심볼 수의 조합인, 5G 무선 액세스 네트워크를 위한 강화 학습 기반 적응적 속도 제어 장치.
  12. 제9항에 있어서, 상기 스케쥴러 조절부는,
    모든 상태 k가 시도되고, 각 상태에서의 신뢰 지수가 결정되는지 여부를 검사하고, 모든 상태가 한 번씩 시도되고 신뢰 지수가 기록될 때까지 다음 상태를 선택하는, 5G 무선 액세스 네트워크를 위한 강화 학습 기반 적응적 속도 제어 장치.
KR1020200089542A 2020-07-20 2020-07-20 5g 무선 액세스 네트워크를 위한 강화 학습 기반 적응적 속도 제어 방법, 이를 수행하기 위한 기록 매체 및 장치 KR102254714B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200089542A KR102254714B1 (ko) 2020-07-20 2020-07-20 5g 무선 액세스 네트워크를 위한 강화 학습 기반 적응적 속도 제어 방법, 이를 수행하기 위한 기록 매체 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200089542A KR102254714B1 (ko) 2020-07-20 2020-07-20 5g 무선 액세스 네트워크를 위한 강화 학습 기반 적응적 속도 제어 방법, 이를 수행하기 위한 기록 매체 및 장치

Publications (1)

Publication Number Publication Date
KR102254714B1 true KR102254714B1 (ko) 2021-05-25

Family

ID=76145338

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200089542A KR102254714B1 (ko) 2020-07-20 2020-07-20 5g 무선 액세스 네트워크를 위한 강화 학습 기반 적응적 속도 제어 방법, 이를 수행하기 위한 기록 매체 및 장치

Country Status (1)

Country Link
KR (1) KR102254714B1 (ko)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120047966A (ko) * 2009-07-22 2012-05-14 콸콤 인코포레이티드 혼합된 단일 및 다중 캐리어 네트워크에서의 업링크 제어 및 데이터 송신을 위한 방법들 및 장치들
KR101274729B1 (ko) * 2012-06-28 2013-06-17 군산대학교산학협력단 무선 애드혹 네트워크에서의 비율 기반 스케쥴링 방법
KR20170101537A (ko) * 2016-02-29 2017-09-06 한국전자통신연구원 무선 채널을 공유하는 무선 네트워크에서의 동적 큐 관리 방법 및 통신 노드
WO2018204344A1 (en) 2017-05-04 2018-11-08 Sharp Laboratories Of America, Inc. Systems and methods for supporting multiple allocations in ul/dl grant for a 5g nr ue and gnb
KR102000157B1 (ko) * 2017-12-11 2019-07-15 서울대학교산학협력단 서비스 품질을 보장하는 무선 통신 방법 및 장치
KR101977465B1 (ko) 2016-05-12 2019-08-28 아서스테크 컴퓨터 인코포레이션 무선 통신 시스템에서 단축된 전송 시간 간격의 업링크 전송
KR102016446B1 (ko) * 2011-12-28 2019-10-21 씨디에프 케 유안 지연이 큰 네트워크들에 대한 tcp 혼잡 제어

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120047966A (ko) * 2009-07-22 2012-05-14 콸콤 인코포레이티드 혼합된 단일 및 다중 캐리어 네트워크에서의 업링크 제어 및 데이터 송신을 위한 방법들 및 장치들
KR102016446B1 (ko) * 2011-12-28 2019-10-21 씨디에프 케 유안 지연이 큰 네트워크들에 대한 tcp 혼잡 제어
KR101274729B1 (ko) * 2012-06-28 2013-06-17 군산대학교산학협력단 무선 애드혹 네트워크에서의 비율 기반 스케쥴링 방법
KR20170101537A (ko) * 2016-02-29 2017-09-06 한국전자통신연구원 무선 채널을 공유하는 무선 네트워크에서의 동적 큐 관리 방법 및 통신 노드
KR101977465B1 (ko) 2016-05-12 2019-08-28 아서스테크 컴퓨터 인코포레이션 무선 통신 시스템에서 단축된 전송 시간 간격의 업링크 전송
WO2018204344A1 (en) 2017-05-04 2018-11-08 Sharp Laboratories Of America, Inc. Systems and methods for supporting multiple allocations in ul/dl grant for a 5g nr ue and gnb
KR102000157B1 (ko) * 2017-12-11 2019-07-15 서울대학교산학협력단 서비스 품질을 보장하는 무선 통신 방법 및 장치

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
J. McCaffrey, "The UCB1 Algorithm for Multi-Armed Bandit Problems," Microsoft, August 2019.
L. Melian-Gutierrez, N. Modi, C. Moy, I. Perez-Alvarez, F. Bader and S. Zazo, "Upper Confidence Bound learning approach for real HF measurements," in 2015 IEEE International Conference on Communication Workshop (ICCW), London, 2015.

Similar Documents

Publication Publication Date Title
EP2578016B1 (en) Dynamic channel and transmission rate selection
JP4397928B2 (ja) ワイヤレス通信ネットワークの資源を、ネットワークのチャネルを介してユーザ機器に送信すべきトラヒックに割り当てる方法
EP2530988B1 (en) A scheduling concept
US11678272B2 (en) System and method for joint power and resource allocation using reinforcement learning
US7426399B2 (en) Mobile communications system, radio base station, scheduling apparatus, scheduling method employed in the same, and program therefor
US8605586B2 (en) Apparatus and method for load balancing
US8848736B2 (en) Method and apparatus for transmitting data
EP2028905A1 (en) Method and apparatus for managing packet data resources
US20220312289A1 (en) Determination device, determination method, and determination program
KR102091138B1 (ko) 무선 네트워크 환경에서 데이터를 전송하는 방법 및 데이터 전송 장치
US9559819B2 (en) Data signal transmitting method and data signal receiving method in wireless communication system
KR102254714B1 (ko) 5g 무선 액세스 네트워크를 위한 강화 학습 기반 적응적 속도 제어 방법, 이를 수행하기 위한 기록 매체 및 장치
Kallel et al. A flexible numerology configuration for efficient resource allocation in 3GPP V2X 5G new radio
CN102300322B (zh) 一种降低hsupa用户干扰的方法及装置
US20180288766A1 (en) Method for allocating time-frequency resources for the transmission of data packets via a frequency selective channel
Sammour et al. Application-level data rate adaptation in Wi-Fi networks using deep reinforcement learning
WO2018054478A1 (en) Flexible resource usage between scheduling-based and contention-based resource access for wireless networks
US8767557B1 (en) Determining a data flow metric
KR20220158916A (ko) 인공지능을 이용한 무선통신 자원할당 방법, 이를 수행하기 위한 기록 매체 및 장치
Boutiba et al. On using deep reinforcement learning to reduce uplink latency for uRLLC services
Cavallero et al. Coexistence of Pull and Push Communication in Wireless Access for IoT Devices
Nguyen Adaptive multiple access schemes for massive MIMO machine-type communication networks
SE527220C2 (sv) Nedlänkshastighetsscheduleringsmetod och scheduleringsanordning
US20230336318A1 (en) Interference avoidance for cellular networks
Arora et al. Machine learning-based slice management in 5G networks for emergency scenarios

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant