KR102305159B1 - 강화학습을 이용한 드론 기지국 제어 방법 및 장치 - Google Patents

강화학습을 이용한 드론 기지국 제어 방법 및 장치 Download PDF

Info

Publication number
KR102305159B1
KR102305159B1 KR1020200154384A KR20200154384A KR102305159B1 KR 102305159 B1 KR102305159 B1 KR 102305159B1 KR 1020200154384 A KR1020200154384 A KR 1020200154384A KR 20200154384 A KR20200154384 A KR 20200154384A KR 102305159 B1 KR102305159 B1 KR 102305159B1
Authority
KR
South Korea
Prior art keywords
base station
network
drone base
drone
reinforcement learning
Prior art date
Application number
KR1020200154384A
Other languages
English (en)
Inventor
양현종
장종규
Original Assignee
포항공과대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 포항공과대학교 산학협력단 filed Critical 포항공과대학교 산학협력단
Priority to KR1020200154384A priority Critical patent/KR102305159B1/ko
Application granted granted Critical
Publication of KR102305159B1 publication Critical patent/KR102305159B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/16Central resource management; Negotiation of resources or communication parameters, e.g. negotiating bandwidth or QoS [Quality of Service]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W88/00Devices specially adapted for wireless communication networks, e.g. terminals, base stations or access point devices
    • H04W88/08Access point devices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W88/00Devices specially adapted for wireless communication networks, e.g. terminals, base stations or access point devices
    • H04W88/18Service support devices; Network management devices

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

개시된 기술은 강화학습을 이용한 드론 기지국 제어 방법 및 장치에 관한 것으로, 복수의 기지국들 중 제 1 기지국의 제어장치가 통신 네트워크에 추가된 드론 기지국에 대한 상태정보를 수신하는 단계; 상기 제어장치가 상기 상태정보를 강화학습 네트워크에 입력하여 상기 드론 기지국의 자원 할당에 대한 예측정보를 출력하는 단계; 및 상기 제어장치가 상기 예측정보에 따른 리워드를 이용하여 상기 강화학습 네트워크의 가중치를 갱신하는 단계;를 포함한다. 따라서 드론의 한정적 자원을 효율적으로 제어하여 네트워크를 고품질로 유지하는 효과가 있다.

Description

강화학습을 이용한 드론 기지국 제어 방법 및 장치 {METHOD AND DEVICE FOR CONTROL DRONE BASE STATION USING REINFORCEMENT LEARNING}
개시된 기술은 강화학습을 이용하여 드론 기지국의 배터리 용량에 따라 자원 할당을 제어하는 방법 및 장치에 관한 것이다.
일반적으로 드론 기지국 네트워크는 지상의 기지국들과 드론 기지국들로 구성되며, 지상의 기지국들로부터 거리가 먼 단말들을 드론의 이동성을 이용하여 서비스하는 것을 목표로 한다. 즉, 지상에 고정된 기지국에서 커버하지 못하는 특정 영역에 드론을 위치시켜서 네트워크를 높은 퀄리티로 유지하고자 하는 것이다.
최근 증가하는 데이터 트래픽을 감당하기 위해, 지상 기지국이 촘촘히 배치되는 초 밀집 네트워크 (ultra dense network, UDN)가 일반적으로 고려된다. 이는 드론과 같은 비행체를 이용하는 네트워크보다 지상의 기지국을 이용하는 네트워크의 신뢰성이 높기 때문이다. 그러나 위치에 대한 유연함이 없는 지상 기지국의 특성상 초 밀집 네트워크를 형성하더라도 특정 장소에서의 폭발적인 서비스 발생에 대해 대비하기 힘들며, 특정 지역의 네트워크가 마비되었을 때 서비스를 공급하지 못하는 문제가 발생할 수 있다. 또한, 지상 기지국을 추가로 설치하는 것은 높은 비용을 요구하기 때문에 한계가 분명하다는 부가적인 문제도 있었다.
이러한 한계를 극복하기 위해서 드론 기지국의 한정된 배터리 용량을 고려하는 단말 연결, 자원 할당 및 전력제어를 수행하는 드론 기지국 전용 알고리즘이 필요하다. 실시간으로 전력제어를 하기 위해서는 드론 기지국이 현재 소모 전력이 미래의 상황에 끼치는 영향을 예측할 필요가 있다. 그러나, 이러한 미래 예측은 수학적인 함수로 나타내는 것이 사실상 불가능하다. 따라서, 수많은 데이터 수집을 통해 현재 전력제어가 미래 네트워크 상황에 끼치는 영향을 예측하는 기법의 개발이 절실한 상황이다.
한국 등록특허 제10-2108292호
개시된 기술은 강화학습을 이용하여 드론 기지국의 배터리 용량에 따라 자원 할당을 제어하는 방법 및 장치를 제공하는데 있다.
상기의 기술적 과제를 이루기 위하여 개시된 기술의 제 1 측면은 복수의 기지국들 중 제 1 기지국의 제어장치가 통신 네트워크에 추가된 드론 기지국에 대한 상태정보를 수신하는 단계, 상기 제어장치가 상기 상태정보를 강화학습 네트워크에 입력하여 상기 드론 기지국의 자원 할당에 대한 예측정보를 출력하는 단계 및 상기 제어장치가 상기 예측정보에 따른 리워드를 이용하여 상기 강화학습 네트워크의 가중치를 갱신하는 단계를 포함하는 강화학습을 이용한 드론 기지국 제어 방법을 제공하는데 있다.
상기의 기술적 과제를 이루기 위하여 개시된 기술의 제 2 측면은 복수의 기지국들 중 통신 네트워크에 추가된 드론 기지국에 대한 상태정보를 수신하는 통신장치, 상기 상태정보를 입력값으로 하는 강화학습 네트워크를 저장하는 저장장치 및 상기 강화학습 네트워크에 상기 상태정보를 입력하여 상기 드론 기지국의 자원 할당에 대한 예측정보를 출력하고, 상기 출력된 예측정보를 상기 통신장치를 통해 상기 드론 기지국에 전송하고, 상기 예측정보에 따른 리워드를 수신하여 상기 강화학습 네트워크의 가중치를 갱신하는 연산장치를 포함하는 강화학습을 이용한 드론 기지국 제어 장치를 제공하는데 있다.
개시된 기술의 실시 예들은 다음의 장점들을 포함하는 효과를 가질 수 있다. 다만, 개시된 기술의 실시 예들이 이를 전부 포함하여야 한다는 의미는 아니므로, 개시된 기술의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.
개시된 기술의 일 실시예에 따르면 강화학습을 이용한 드론 기지국 제어 방법 및 장치는 유동적으로 위치를 변경할 수 있는 드론을 이용하여 네트워크를 고품질로 유지하는 효과가 있다.
또한, 드론의 한정적인 배터리 용량에 따라 최적의 단말 연결, 자원 할당 및 전력 제어를 수행하는 효과가 있다.
또한, 종래의 네트워크 최적화 알고리즘 대비 계산에 소모되는 시간을 대폭 단축시켜서 실시간으로 네트워크 변화에 대처하는 효과가 있다.
도 1은 개시된 기술의 일 실시예에 따른 강화학습을 이용한 드론 기지국 제어 과정을 나타낸 도면이다.
도 2는 개시된 기술의 일 실시예에 따른 강화학습을 이용한 드론 기지국 제어 방법에 대한 순서도이다.
도 3은 개시된 기술의 일 실시예에 따른 강화학습을 이용한 드론 기지국 제어 장치에 대한 블록도이다.
도 4는 단말과 기지국 간의 연결 및 자원 할당에 대한 예시를 나타낸 도면이다.
도 5는 백홀 용량에 따른 데이터 전송률을 나타낸 도면이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제 1 , 제 2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 해당 구성요소들은 상기 용어들에 의해 한정되지는 않으며, 단지 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제 1 구성요소는 제 2 구성요소로 명명될 수 있고, 유사하게 제 2 구성요소도 제 1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
본 명세서에서 사용되는 용어에서 단수의 표현은 문맥상 명백하게 다르게 해석되지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 한다. 그리고 "포함한다" 등의 용어는 설시된 특징, 개수, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 의미하는 것이지, 하나 또는 그 이상의 다른 특징들이나 개수, 단계 동작 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 배제하지 않는 것으로 이해되어야 한다.
도면에 대한 상세한 설명을 하기에 앞서, 본 명세서에서의 구성부들에 대한 구분은 각 구성부가 담당하는 주기능 별로 구분한 것에 불과함을 명확히 하고자 한다. 즉, 이하에서 설명할 2개 이상의 구성부가 하나의 구성부로 합쳐지거나 또는 하나의 구성부가 보다 세분화된 기능별로 2개 이상으로 분화되어 구비될 수도 있다.
그리고 이하에서 설명할 구성부 각각은 자신이 담당하는 주기능 이외에도 다른 구성부가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성부 각각이 담당하는 주기능 중 일부 기능이 다른 구성부에 의해 전담되어 수행될 수도 있음은 물론이다. 따라서, 본 명세서를 통해 설명되는 각 구성부들의 존재 여부는 기능적으로 해석되어야 할 것이다.
도 1은 개시된 기술의 일 실시예에 따른 강화학습을 이용한 드론 기지국 제어 과정을 나타낸 도면이다. 도 1은 설명의 편의를 위해 교차로의 인근에 설치된 기지국과 교차로 위를 비행하는 드론을 이용하여 교차로를 지나는 차량 또는 사용자의 단말기와 네트워크를 형성하는 것을 예시로 든 것이며, 이와 다른 환경에서도 자원 할당을 위한 네트워크를 형성할 수 있다. 예컨대, 광장 위를 비행하는 드론이 주변을 지나는 사용자의 단말기에 자원 할당을 위한 네트워크를 형성하거나 지상 기지국의 설치 개수가 적은 산간오지와 같은 지역에도 자원 할당을 위한 네트워크를 형성할 수 있다. 이와 같이 네트워크 내 품질이 저하될 것으로 우려되거나 기지국이 커버할 수 없는 위치에 드론을 비행시키는 것으로 네트워크를 형성할 수 있다. 각각의 드론은 설정된 위치에서 움직이지 않도록 부유할 수도 있고 이동체의 특성을 살려서 고도를 조절하거나 좌표를 조절할 수 있다.
도 1을 참조하면 교차로 주변에는 복수의 기지국들이 설치될 수 있다. 기지국(Base Station, BS)은 네트워크에 속하는 일반적인 노드 또는 고도화 노드(Evolved Node) 또는 펨토 기지국(Femto BS)을 포함한다. 이러한 복수의 기지국들 중 일부는 기지국A 및 기지국B와 같이 지상에 고정되는 것으로, 주변을 지나는 차량이나 단말기 등과 네트워크를 형성할 수 있다. 그리고 나머지 일부는 드론A, 드론B, 드론C와 같이 공중을 비행하는 드론이 기지국 역할을 수행하는 것일 수 있다. 여기에서 비행한다는 의미는 출발지부터 목적지까지 공중으로 이동하는 것이 아니라 공중에서 일정 시간 동안 부유하는 것을 의미한다. 상술한 바와 같이 고도나 좌표를 일부 수정하기 위해서 어느정도는 이동이 가능하지만 기본적으로는 네트워크 커버리지를 넓힐 수 있도록 정해진 위치에서 부유하는 것이며 드론에 탑재된 배터리의 용량에 따라서 부유하는 시간이 다소 달라질 수 있다.
드론 기지국은 지상에 고정된 기지국만으로는 커버하기 어려운 지역을 지나는 차량이나 사용자의 단말기에 자원을 할당하기 위해서 이용된다. 즉, 단말에 대한 자원 할당 커버리지를 높여서 전체 네트워크의 품질을 향상시키기 위해서 이용된다. 이러한 드론 기지국은 단말과의 연결이나 자원 할당, 전력 제어 등의 동작을 수행할 수 있으며 배터리의 잔여 용량에 따라서 동작의 수행 여부나 수행 정도가 결정될 수 있다. 예컨대, 배터리 잔여 용량이 적으면 단말과의 연결을 해제할 수 있다. 또는 배터리 잔여 용량이 충분하면 단말과의 연결 개수를 더 늘릴 수도 있다.
한편, 지상에 고정된 기지국이나 공중의 드론 기지국을 주변을 차량이나 사용자의 단말기가 이동할 수 있다. 차량에는 차량 간 통신을 지원하는 통신디바이스가 탑재될 수 있다. 그리고 사용자의 단말기는 네트워크를 통해 자원 할당이 가능한 스마트폰이나 노트북과 같은 디바이스일 수 있다. 복수의 기지국들 중 차량이나 사용자 단말기와 가까운 위치에 존재하거나 신호강도가 높은 특정 기지국이 차량 내 통신디바이스나 사용자의 단말기에 자원을 할당할 수 있다. 예컨대, 도 1과 같이 기지국A를 대신하여 드론A가 주변의 사용자 단말기나 차량에 자원을 할당할 수 있다. 드론A는 차량이나 사용자 단말기에 가까운 위치를 비행중이므로 기지국A보다 높은 서비스 품질(Quality of Service, QoS)을 제공할 수 있다.
한편 자원을 할당하는 기지국이 지상의 기지국인 경우에는 외부에서 공급되는 전원을 이용하기 때문에 자원 할당에 따른 별다른 리스크가 발생하지 않는다. 오히려 차량이나 단말과의 거리에 따라 네트워크 품질이 저하되는 문제가 더 빈번하게 발생할 수 있다. 그러나 공중을 비행중인 드론 기지국을 통해 자원을 할당하는 경우에는 드론의 배터리를 이용하여 자원을 할당해야 한다. 따라서 드론 기지국의 최적의 배터리 효율을 계산하여 자원 할당을 제어해야 한다.
이러한 동작을 수행하기 위해서 복수의 기지국들 중 특정 기지국이 다른 기지국에 대한 상태정보를 수신한다. 보다 상세하게는 특정 기지국에 구비된 단말이나 서버가 상태정보를 수신하여 네트워크 상태를 판단할 수 있다. 설명의 편의를 위해서 상태정보를 수신하는 특정 기지국을 제 1 기지국이라고 하고, 제 1 기지국에 설치된 단말 또는 서버를 제어장치라고 한다. 제어장치는 복수의 기지국들 중 지상에 고정된 일부의 기지국들 또는 공중에 위치한 일부의 드론 기지국들 중 하나에 구비된 단말 또는 서버일 수 있다. 제어장치는 복수의 기지국들 중 일부의 드론 기지국에 대한 상태정보를 수신한다. 즉, 자원 할당을 위해 배터리 용량이나 소모 효율을 계산할 필요가 있는 드론 기지국에 대해서만 상태정보를 수신할 수 있다. 예컨대, 도 1에서는 기지국 A가 제 1 기지국일 수 있고, 기지국A에 구비된 제어장치가 상태정보를 수신할 수 있다.
복수의 기지국들은 각 기지국들과 통신하기 위한 글로벌 채널을 형성한다. 제어장치는 글로벌 채널을 통해 드론 기지국에서 전송하는 상태정보를 수신할 수 있다. 이러한 글로벌 채널은 복수의 기지국들 각각에 구비된 단말 또는 서버들이 동일한 주파수 대역을 이용하도록 형성되어 있다. 예컨대, 모든 기지국 내 단말 또는 서버들이 같은 주파수 자원을 사용하기 때문에 각 장치들의 신호간섭이 발생할 수 있으며 단말의 신호 대 간섭잡음 비율(Signal-to-Interference and noise ratio, SINR))이 시간에 따라 크게 변할 수 있다. 주파수 측면으로는 잘 변하지 않는 주파수 비 선택적 페이딩 채널을 대상으로 한다. 따라서 기지국 간 정보 교환이 거의 없는 환경에서도 글로벌 채널의 상태정보를 특정 기지국에서 얻을 수 있다. 즉, 제 1 기지국의 제어장치는 기지국들 간의 중심에 위치하는 지상 기지국 또는 드론 기지국에 구비될 수 있다. 제어장치는 이와 같이 형성된 글로벌 채널을 이용하여 특정 드론 기지국의 상태정보 또는 네트워크 내 전체 드론 기지국의 상태정보를 수신할 수 있다.
한편, 제어장치는 강화학습 네트워크를 포함한다. 강화학습 네트워크로는 일반적으로 특정 행동에 대한 확률을 계산하고 계산된 확률에 대한 가중치를 적용하는 액터-크리틱(Actor-Critic) 네트워크를 이용할 수 있다. 제어장치는 액터 네트워크에 대응되는 정책(Poilcy) 네트워크를 저장한다. 그리고 크리틱 네트워크에 대응되는 가치 네트워크를 저장한다. 제어장치는 정책 네트워크에 상태정보를 입력하여 드론 기지국의 상태를 예측할 수 있다. 그리고, 예측 결과를 가치 네트워크에 입력하여 드론 기지국에 대한 예측정보를 출력할 수 있다.
이와 같이 출력된 예측정보는 드론 기지국의 좌표나 고도를 변경하는 정보를 포함한다. 제어장치의 강화학습 네트워크는 예측정보를 출력한 이후 드론 기지국의 상태에 대한 리워드를 입력받아 강화학습 네트워크의 가중치를 갱신할 수 있다. 즉 강화학습을 이용하여 예측 정확도를 높일 수 있다. 이때 강화학습 네트워크는 리워드가 최대값이 되도록 가중치를 갱신할 수 있다. 제어장치에 저장된 강화학습 네트워크는 학습이 충분하게 수행되지 않은 단계에서는 예측 정확도가 다소 부정확할 수 있으므로 초기에는 관리자의 입력값을 참고하여 예측을 수행할 수 있으며 충분한 학습이 수행된 이후에는 상태정보만을 이용하여 드론을 예측할 수 있다.
한편, 제어장치는 예측정보를 토대로 드론 기지국과 단말 사이의 연결, 단말에 대한 드론 기지국의 자원 할당 및 드론 기지국의 전력 제어 중 적어도 하나를 제어하기 위한 제어신호를 생성한다. 제어신호 생성을 위해 제어장치는 이하의 연산과정을 수행한다.
편의를 위해 단말의 인덱스를
Figure 112020123630696-pat00001
, 기지국의 인덱스를
Figure 112020123630696-pat00002
로 나타내며, 첫 번째 기지국 (j=1)은 지상의 기지국을 나타낸다. 단말-기지국 간 연결을 나타내는 변수는 아래 수학식 1에 따라 계산한다.
Figure 112020123630696-pat00003
여기서 변수
Figure 112020123630696-pat00004
는 슬롯에서의 단말 i과 기지국 j간의 연결을 나타내며 0 또는 1의 값을 가진다. 또한, 각 단말은 오직 하나의 기지국에만 연결될 수 있기 때문에 변수
Figure 112020123630696-pat00005
는 다음의 수학식 2를 만족해야 한다.
Figure 112020123630696-pat00006
기지국이 단말에게 할당하는 주파수 자원의 비율을 나타내기 위한 변수는
Figure 112020123630696-pat00007
로 표현된다. 변수
Figure 112020123630696-pat00008
는 단말 i가 기지국 j로부터 할당받는 주파수 자원의 비율을 나타내며, 할당하는 총 주파수 자원 비율의 합은 1을 초과할 수 없기 때문에 변수
Figure 112020123630696-pat00009
는 다음의 수학식 3을 만족해야 한다.
Figure 112020123630696-pat00010
기지국 j가 t번째 타임 슬롯에서 신호를 송신하는 전력은 다음과 변수
Figure 112020123630696-pat00011
로 나타내진다.
Figure 112020123630696-pat00012
를 최대 송신전력으로 정의하면, 송신 전력에 대한 변수
Figure 112020123630696-pat00013
는 수학식 4에 의해 제약된다.
Figure 112020123630696-pat00014
여기에서 사용자들의 잡음세기를
Figure 112020123630696-pat00015
로 나타내면, 사용자들의 신호 대 간섭잡음비(SINR)는 아래 수학식 5와 같다.
Figure 112020123630696-pat00016
한편, 단말 i와 기지국 j간의 최대 달성 가능한 전송률은 수학식 6에 따라 계산한다.
Figure 112020123630696-pat00017
여기서 변수
Figure 112020123630696-pat00018
는 총 주파수 자원을 나타낸다. 드론 기지국은 지상의 기지국과 무선 연결을 통해 단말에서 전송할 데이터를 전달받기 때문에, j번째 기지국의 무선 백홀 용량을
Figure 112020123630696-pat00019
라 하면 각 기지국의 전송 가능한 데이터는 아래 수학식 7과 같이 제한받는다.
Figure 112020123630696-pat00020
여기에서 각 단말들의 질적 서비스 요구량(Quality of Service, QoS)를
Figure 112020123630696-pat00021
로 나타내면, 기지국들은 아래 수학식 8을 만족하도록 단말 연결, 자원 할당 및 전력제어를 수행해야 한다.
Figure 112020123630696-pat00022
한편, 본 발명의 목표는 각 기지국의 무선 백홀 용량과 단말들의 질적 서비스 요구량을 만족하며 총 전송률을 최대화하는 것이다. 여기서 총 전송률은 망각 변수(
Figure 112020123630696-pat00023
)와 함께 아래 수학식 9와 같이 나타내진다.
Figure 112020123630696-pat00024
여기서 각 드론 기지국의 배터리는 변수
Figure 112020123630696-pat00025
로 정의되며, 단말들에 대한 서비스를 하기 위해 소모하는 전력은 아래 수학식 10을 참고하여 계산한다.
Figure 112020123630696-pat00026
여기서
Figure 112020123630696-pat00027
는 기지국 j의 t번째 타임 슬롯에 대한 전력 소모를 나타내며, 아래 수학식 11을 만족한다.
Figure 112020123630696-pat00028
여기서 변수
Figure 112020123630696-pat00029
는 기지국 j의 기본적인 전력 소모량을 나타내며,
Figure 112020123630696-pat00030
는 단위 주파수당 전력소모 효율을 나타낸다.
한편, 수식 유도를 통해 최적의 자원할당 변수
Figure 112020123630696-pat00031
는 아래 수학식 12와 같이 계산할 수 있다.
Figure 112020123630696-pat00032
단말-기지국 연결 변수
Figure 112020123630696-pat00033
는 라그랑주 승수들
Figure 112020123630696-pat00034
Figure 112020123630696-pat00035
로 표현될 수 있다. 여기서 라그랑주 승수들로부터 변수
Figure 112020123630696-pat00036
는 강화학습 알고리즘을 통해 복원될 수 있다.
한편, 강화학습은 주어진 상태(State)를 관찰하여 리워드(Reward)를 최대화하는 행동(Action)을 내주는 최적의 정책(Policy)을 목표로 한다. 여기서 t번째 타임슬롯의 상태, 행동 및 리워드는 각각
Figure 112020123630696-pat00037
,
Figure 112020123630696-pat00038
,
Figure 112020123630696-pat00039
로 표현된다.
한편, 강화학습 네트워크는 상술한 바와같이 가치 네트워크와 정책 네트워크를 포함한다. 그리고 2개의 네트워크 각각에 대한 가중치들이 존재한다. 예컨대, 가치 네트워크(Value network)의 가중치는
Figure 112020123630696-pat00040
이고 , 정책 네트워크 (Policy network)의 가중치는
Figure 112020123630696-pat00041
으로 표시될 수 있다. 각각 가중치에는 타겟 신경망 가중치
Figure 112020123630696-pat00042
Figure 112020123630696-pat00043
가 존재하며, 아래의 수학식 13에 의해 업데이트 된다.
Figure 112020123630696-pat00044
여기서
Figure 112020123630696-pat00045
는 1보다 작은 임의의 상수다. 가치 네트워크는 입력값으로 상태와 행동을 수신하며, 정책 네트워크는 입력값으로 상태를 받는다. 가치 네트워크와 정책 네트워크의 결과는 아래 수학식 14와 같이 도출된다.
Figure 112020123630696-pat00046
먼저 가치 네트워크는 손실 함수를 최대화하기 위해 업데이트 된다. 여기서 손실 함수는 아래 수학식 15와 같이 나타난다.
Figure 112020123630696-pat00047
다음으로 정책 네트워크는 가치 네트워크 결과
Figure 112020123630696-pat00048
를 최대화하기 위해 업데이트 된다. 본 발명에서는 단말 연결을 제어하는 에이전트와 전력을 제어 에이전트 총 2개의 강화학습 에이전트가 제안된다. 먼저 단말 연결 에이전트의 상태, 행동, 리워드는 다음 수학식 16과 같이 도출된다.
Figure 112020123630696-pat00049
Figure 112020123630696-pat00050
여기서
Figure 112020123630696-pat00051
는 기지국 j에 연결된 단말들의 최대 주파수 효율을 나타내고,
Figure 112020123630696-pat00052
는 해당 단말을 표현하는 변수이다. 또한
Figure 112020123630696-pat00053
는 다음과 같이 표현된다. 그리고 정책 네트워크의 상태, 행동, 리워드는 다음 수학식 17과 같이 도출된다.
Figure 112020123630696-pat00054
여기서
Figure 112020123630696-pat00055
Figure 112020123630696-pat00056
는 각각 단말의 질적 서비스 요구량과 백홀에 대한 가중치를 나타낸다. 제 1 기지국은 상술한 계산과정에 따라 드론 기지국의 단말 연결 또는 전력 제어를 제어하여 자원 할당을 관리할 수 있다. 드론 기지국은 제어장치에서 계산된 결과에 따라 전송되는 제어정보에 따라 단말과의 연결을 유지 또는 끊을 수 있고 배터리 전력을 제어할 수 있다.
도 2는 개시된 기술의 일 실시예에 따른 강화학습을 이용한 드론 기지국 제어 방법에 대한 순서도이다. 도 2를 참조하면 강화학습을 이용한 드론 기지국 제어 방법은 드론 기지국의 상태정보를 수신하는 단계(210), 강화학습 네트워크를 이용하여 드론 기지국을 예측하는 단계(220) 및 강화학습 네트워크의 가중치를 갱신하는 단계(230)를 포함한다.
210 단계에서 복수의 기지국들 중 제 1 기지국의 제어장치가 단말과 연결된 드론 기지국에 대한 상태정보를 수신한다. 제 1 기지국은 복수의 기지국들 중 지상에 고정된 일부의 기지국들 또는 공중에 위치한 일부의 드론 기지국들 중 하나이다. 그리고 제어장치는 제 1 기지국에 탑재되거나 설치되는 단말 또는 서버일 수 있다. 바람직하게는 지상에 고정된 기지국에 설치된 제어장치에서 공중에 떠 있는 드론 기지국의 자원 할당을 위한 연산과정을 수행할 수 있다. 복수의 기지국들 각각에 구비된 단말 또는 서버들은 서로 통신하기 위한 글로벌 채널을 형성한다. 제 1 기지국의 제어장치는 글로벌 채널의 동일 주파수 대역을 통해 각 드론 기지국에서 전송되는 각각의 상태정보를 수신하여 강화학습에 이용할 수 있다.
220 단계에서 제어장치는 수신한 상태정보를 강화학습 네트워크에 입력하여 드론 기지국에 대한 예측정보를 출력한다. 일 실시예로, 2개의 네트워크로 이루어진 강화학습 네트워크에 상태정보를 입력하여 드론 기지국의 상태를 예측하고 예측 결과를 나머지 네트워크에 입력하여 예측정보를 출력할 수 있다. 도 1을 통해 설명한 바와 같이 상태정보를 입력하는 네트워크는 정책 네트워크와 가치 네트워크일 수 있다.
230 단계에서 제어장치는 강화학습 네트워크에서 예측정보가 출력되면 드론 기지국의 상태에 대한 리워드를 입력받아 다시 강화학습 네트워크에 입력할 수 있다. 이에 따라 강화학습 네트워크는 정책 네트워크와 가치 네트워크 각각의 가중치를 갱신하되, 리워드가 최대값이 되도록 가중치를 갱신할 수 있다.
한편, 230 단계에서 제어장치는 예측정보를 토대로 드론 기지국의 단말 연결, 자원 할당 및 전력 제어 중 적어도 하나를 제어하기 위한 제어신호를 생성한다. 제어신호의 생성은 앞서 도 1을 통해 설명한 바와 같이 소정의 계산과정을 거쳐서 생성된다. 생성된 제어신호는 드론 기지국에 전송된다.
도 3은 개시된 기술의 일 실시예에 따른 강화학습을 이용한 드론 기지국 제어 장치에 대한 블록도이다. 도 3을 참조하면 강화학습을 이용한 드론 기지국 제어 장치는 지상의 기지국 또는 드론 기지국일 수 있으며 각 기지국은 상태정보를 수신할 수 있는 통신장치(310), 상태정보를 입력받아 예측정보를 출력하는 강화학습 네트워크를 저장하는 저장장치(320) 및 제어신호를 연산하는 과정을 수행하는 연산장치(330)를 포함한다.
한편, 상술한 바와 같은 강화학습을 이용한 드론 기지국 제어 장치는 컴퓨터에서 실행될 수 있는 실행가능한 알고리즘을 포함하는 프로그램(또는 어플리케이션)으로 구현될 수 있다. 즉, 드론에 탑재되거나 기지국 내 설치된 컴퓨터 상에서 실행되는 프로그램일 수 있다. 상기 프로그램은 일시적 또는 비일시적 판독 가능 매체(non-transitory computer readable medium)에 저장되어 제공될 수 있다.
비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM (read-only memory), PROM (programmable read only memory), EPROM(Erasable PROM, EPROM) 또는 EEPROM(Electrically EPROM) 또는 플래시 메모리 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.
일시적 판독 가능 매체는 스태틱 램(Static RAM,SRAM), 다이내믹 램(Dynamic RAM,DRAM), 싱크로너스 디램 (Synchronous DRAM,SDRAM), 2배속 SDRAM(Double Data Rate SDRAM,DDR SDRAM), 증강형 SDRAM(Enhanced SDRAM,ESDRAM), 동기화 DRAM(Synclink DRAM,SLDRAM) 및 직접 램버스 램(Direct Rambus RAM,DRRAM) 과 같은 다양한 RAM을 의미한다.
통신장치(310)는 지상 기지국에 설치된 컴퓨터 또는 드론에 탑재된 컴퓨팅 디바이스 간에 상태정보를 무선으로 송수신하는 통신모듈의 형태로 구현된다. 통신장치는 복수의 기지국들과 통신하기 위한 특정 프로토콜을 통해 상태정보를 수신할 수 있다. 예컨대, ISO/IEC JTC1/SC6 국제표준화회의에서 제안하는 저고도 드론 통신 프로토콜을 통해 상태정보를 무선으로 송수신할 수 있다. 물론 지상에 위치한 기지국들 간에는 다른 통신 프로토콜을 이용할 수 있다.
저장장치(320)는 지상 기지국에 설치된 컴퓨터 또는 드론 기지국에 탑재된 컴퓨팅 디바이스의 메모리로 구현된다. 저장장치는 상술한 바와 같이 비일시적 판독 가능한 매체를 이용할 수 있으며 상태정보를 입력값으로 하는 강화학습 네트워크를 저장한다. 그리고 연산장치의 제어에 따라 저장된 강화학습 네트워크를 로딩할 수 있다.
연산장치(330)는 지상 기지국에 설치된 컴퓨터 또는 드론 기지국에 탑재된 컴퓨팅 디바이스의 CPU, AP 등의 장치로 구현된다. 연산장치는 강화학습 네트워크에 상태정보를 입력하여 일부의 드론 기지국의 단말 연결 상태를 예측한 예측정보를 출력한다. 그리고 예측정보를 토대로 드론 기지국의 단말 연결, 자원 할당 및 전력 제어 중 적어도 하나를 제어하기 위한 제어신호를 생성한다.
도 4는 단말과 기지국 간의 연결 및 자원 할당에 대한 예시를 나타낸 도면이다. 도 4를 참조하면 지상 또는 공중에 복수의 기지국들(401, 402, 403)이 위치한다. 각각의 기지국들에는 단말들이 연결되며 각 단말은 주파수 자원(405)을 나누어 할당받는다. 도 4는 20MHz의 대역폭을 가지는 B개의 기지국들이 각각 40개의 단말에 주파수 자원을 할당하는 것을 나타낸다.
여기에서 401 기지국의 경우 타 기지국(402, 403) 대비 많은 수의 단말에 자원을 할당하고 있는데 자원 할당에 대한 안정성을 고려하면 401이 지상에 고정된 기지국일 수 있으나 특별히 할당된 단말의 개수에 제한이 있는 것은 아니다. 즉 401 기지국이 드론 기지국일 수도 있다. 다만 바람직하게는 드론 기지국의 배터리 소모 효율을 고려하여 가급적이면 지상기지국보다 적은 수의 단말에 자원을 할당할 수 있도록 별도의 설정값이 입력될 수도 있다.
도 5는 백홀 용량에 따른 데이터 전송률을 나타낸 도면이다. 도 5를 참조하면 실제 지상 기지국과 드론 기지국을 이용하여 다수의 단말에 자원을 할당하는 테스트를 진행하였다. 테스트는 1개의 지상 기지국과 3개의 드론 기지국 그리고 40개의 단말을 구비하여 진행되었다. 이때, 40개의 단말은 무작위의 질적 서비스 요구치를 가지고, 지상의 기지국은 무한정한 백홀 용량과 배터리를 가진다고 가정하였다.
도 5에 나타난 바와 같이 백홀 용량(Backhaul Capacity)이 증가함에 따른 데이터 전송률(Sum-rate)와 단말의 서비스 질적 불만족도를 확인한 결과, 백홀 용량이 증가함에 따라 서비스 질적 요구치가 불만족되는 비율이 증가하고 데이터 전송률이 증가하는 것이 확인되었다. 즉, 본 기술을 적용하게 되면 자원 할당에 대한 성능을 상한선에 매우 가까운 수준으로 달성하는 것이 가능하였다. 또한, 오로지 24ms만의 계산시간을 요구하기 때문에 종래의 최적화 이론을 기반으로 구축한 알고리즘에 비해 약 100배 가량 짧은 계산시간을 요구하는 것을 확인하였다. 따라서 실시간으로 드론 기지국의 자원 할당을 제어하는 것이 가능하므로 지상 지기국과 드론 기지국이 혼용되는 높은 복잡도를 가진 네트워크의 품질을 효율적으로 관리하는 것이 가능하다.
개시된 기술의 일 실시예에 따른 강화학습을 이용한 드론 기지국 제어 방법 및 장치는 이해를 돕기 위하여 도면에 도시된 실시 예를 참고로 설명되었으나, 이는 예시적인 것에 불과하며, 당해 분야에서 통상적 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시 예가 가능하다는 점을 이해할 것이다. 따라서, 개시된 기술의 진정한 기술적 보호범위는 첨부된 특허청구범위에 의해 정해져야 할 것이다.

Claims (12)

  1. 복수의 기지국들 중 제 1 기지국의 제어장치가 통신 네트워크에 추가된 드론 기지국에 대한 상태정보를 수신하는 단계;
    상기 제어장치가 상기 상태정보를 강화학습 네트워크에 입력하여 상기 드론 기지국의 자원 할당에 대한 예측정보를 출력하는 단계; 및
    상기 제어장치가 상기 예측정보에 따른 리워드를 이용하여 상기 강화학습 네트워크의 가중치를 갱신하는 단계;를 포함하되,
    상기 상태정보는 상기 드론 기지국과 단말 간의 네트워크 상태에 대한 정보를 포함하고,
    상기 예측정보는 상기 제어장치가 상기 드론 기지국의 배터리 용량에 따른 단말 연결 여부 및 전력제어를 예측한 정보를 포함하고,
    상기 리워드는 상기 예측정보에 따라 상기 드론 기지국의 갱신된 네트워크 상태를 나타내는 정보를 포함하고,
    상기 제어장치는 상기 강화학습 네트워크로 정책 네트워크 및 가치 네트워크를 포함하고 상기 정책 네트워크는 아래의 수학식에 따라 상태, 액션 및 리워드를 계산하는 강화학습을 이용한 드론 기지국 제어 방법.
    [수학식 17]
    Figure 112021099116700-pat00062

    (여기서
    Figure 112021099116700-pat00068
    Figure 112021099116700-pat00069
    는 각각 단말의 질적 서비스 요구량과 백홀에 대한 가중치를 나타냄. 그리고
    Figure 112021099116700-pat00070
    는 N번째 사용자와 B번째 드론 기지국 사이의 채널 이득을 의미하고,
    Figure 112021099116700-pat00071
    는 드론 기지국의 현재 배터리 잔량을 의미하고,
    Figure 112021099116700-pat00072
    는 N번째 사용자의 서비스 요구치 (QoS)를 의미하고,
    Figure 112021099116700-pat00073
    는 B번째 드론 기지국의 백홀 용량을 의미하고,
    Figure 112021099116700-pat00074
    는 B번째 드론 기지국의 송신 전력을 의미하고,
    Figure 112021099116700-pat00075
    는 i번째 사용자와 j번째 드론 기지국 사이의 주파수 자원 전송률을 의미하고,
    Figure 112021099116700-pat00076
    는 i번째 사용자의 단말과 j번째 드론 기지국 사이의 연결을 의미하고,
    Figure 112021099116700-pat00077
    는 j번째 드론 기지국이 i번째 사용자에게 할당한 주파수 자원 할당을 의미함.)
  2. 삭제
  3. 제 1 항에 있어서,
    상기 제 1 기지국은 상기 복수의 기지국들 중 지상에 고정된 기지국 또는 공중에 위치한 드론 기지국 중 어느 하나이고, 상기 제어장치는 상기 지상에 고정된 기지국 또는 상기 드론 기지국에 탑재된 단말 또는 서버인 것을 특징으로 하는 강화학습을 이용한 드론 기지국 제어 방법.
  4. 제 1 항에 있어서,
    상기 제어장치는 상기 복수의 기지국들 내 구비된 단말 또는 서버와 통신하기 위한 글로벌 채널을 형성하고 상기 글로벌 채널의 동일 주파수 대역을 통해 상기 복수의 기지국들 중 일부의 드론 기지국에서 전송되는 각각의 상태정보를 수신하는 강화학습을 이용한 드론 기지국 제어 방법.
  5. 제 1 항에 있어서,
    상기 제어장치는 상기 강화학습 네트워크로 정책 네트워크 및 가치 네트워크를 포함하고 상기 정책 네트워크는 상기 상태정보를 입력받아 상기 드론 기지국의 행동을 예측하고, 상기 가치 네트워크는 상기 상태정보 및 상기 행동을 예측한 결과를 입력받아 상기 리워드를 예측하는 강화학습을 이용한 드론 기지국 제어 방법.
  6. 제 5 항에 있어서,
    상기 정책 네트워크 및 상기 가치 네트워크 각각의 가중치들은 상기 리워드를 예측한 결과가 최대값이 되도록 갱신되는 강화학습을 이용한 드론 기지국 제어 방법.
  7. 복수의 기지국들 중 통신 네트워크에 추가된 드론 기지국에 대한 상태정보를 수신하는 통신장치;
    상기 상태정보를 입력값으로 하는 강화학습 네트워크를 저장하는 저장장치; 및
    상기 강화학습 네트워크에 상기 상태정보를 입력하여 상기 드론 기지국의 자원 할당에 대한 예측정보를 출력하고, 상기 출력된 예측정보를 상기 통신장치를 통해 상기 드론 기지국에 전송하고, 상기 예측정보에 따른 리워드를 수신하여 상기 강화학습 네트워크의 가중치를 갱신하는 연산장치;를 포함하되,
    상기 상태정보는 상기 드론 기지국과 단말 간의 네트워크 상태에 대한 정보를 포함하고,
    상기 예측정보는 상기 연산장치가 상기 드론 기지국의 배터리 용량에 따른 단말 연결 여부 및 전력제어를 예측한 정보를 포함하고,
    상기 리워드는 상기 예측정보에 따라 상기 드론 기지국의 갱신된 네트워크 상태를 나타내는 정보를 포함하고,
    상기 연산장치는 상기 강화학습 네트워크로 정책 네트워크 및 가치 네트워크를 포함하고 상기 정책 네트워크는 아래의 수학식에 따라 상태, 액션 및 리워드를 계산하는 강화학습을 이용한 드론 기지국 제어 장치.
    [수학식 17]
    Figure 112021099116700-pat00065

    (여기서
    Figure 112021099116700-pat00078
    Figure 112021099116700-pat00079
    는 각각 단말의 질적 서비스 요구량과 백홀에 대한 가중치를 나타냄. 그리고
    Figure 112021099116700-pat00080
    는 N번째 사용자와 B번째 드론 기지국 사이의 채널 이득을 의미하고,
    Figure 112021099116700-pat00081
    는 드론 기지국의 현재 배터리 잔량을 의미하고,
    Figure 112021099116700-pat00082
    는 N번째 사용자의 서비스 요구치 (QoS)를 의미하고,
    Figure 112021099116700-pat00083
    는 B번째 드론 기지국의 백홀 용량을 의미하고,
    Figure 112021099116700-pat00084
    는 B번째 드론 기지국의 송신 전력을 의미하고,
    Figure 112021099116700-pat00085
    는 i번째 사용자와 j번째 드론 기지국 사이의 주파수 자원 전송률을 의미하고,
    Figure 112021099116700-pat00086
    는 i번째 사용자의 단말과 j번째 드론 기지국 사이의 연결을 의미하고,
    Figure 112021099116700-pat00087
    는 j번째 드론 기지국이 i번째 사용자에게 할당한 주파수 자원 할당을 의미함.)
  8. 삭제
  9. 제 7 항에 있어서,
    상기 드론 기지국 제어 장치는 상기 복수의 기지국들 중 지상에 고정된 기지국 또는 공중에 위치한 드론 기지국 중 어느 하나에 탑재된 단말 또는 서버인 것을 특징으로 하는 강화학습을 이용한 드론 기지국 제어 장치.
  10. 제 7 항에 있어서,
    상기 통신장치는 상기 복수의 기지국들 각각에 구비된 단말 또는 서버와 통신하기 위한 글로벌 채널을 형성하고 상기 글로벌 채널의 동일 주파수 대역을 통해 상기 복수의 기지국들 중 일부의 드론 기지국에서 전송되는 각각의 상태정보를 수신하는 강화학습을 이용한 드론 기지국 제어 장치.
  11. 제 7 항에 있어서,
    상기 저장장치는 상기 강화학습 네트워크로 정책 네트워크 및 가치 네트워크를 포함하고, 상기 정책 네트워크는 상기 상태정보를 입력받아 상기 드론 기지국의 행동을 예측하고, 상기 가치 네트워크는 상기 상태정보 및 상기 행동을 예측한 결과를 입력받아 상기 리워드를 예측하는 강화학습을 이용한 드론 기지국 제어 장치.
  12. 제 11 항에 있어서,
    상기 정책 네트워크 및 상기 가치 네트워크 각각의 가중치들은 상기 리워드를 예측한 결과가 최대값이 되도록 갱신되는 강화학습을 이용한 드론 기지국 제어 장치.
KR1020200154384A 2020-11-18 2020-11-18 강화학습을 이용한 드론 기지국 제어 방법 및 장치 KR102305159B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200154384A KR102305159B1 (ko) 2020-11-18 2020-11-18 강화학습을 이용한 드론 기지국 제어 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200154384A KR102305159B1 (ko) 2020-11-18 2020-11-18 강화학습을 이용한 드론 기지국 제어 방법 및 장치

Publications (1)

Publication Number Publication Date
KR102305159B1 true KR102305159B1 (ko) 2021-09-24

Family

ID=77914767

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200154384A KR102305159B1 (ko) 2020-11-18 2020-11-18 강화학습을 이용한 드론 기지국 제어 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102305159B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114630335A (zh) * 2022-03-11 2022-06-14 西安电子科技大学 时效性保障的低能耗高动态空中网络覆盖方法
KR102529331B1 (ko) * 2021-12-29 2023-05-09 서울대학교산학협력단 강화 학습을 사용한 uav bs 기반의 통신 방법 및 이러한 방법을 수행하는 장치
CN116233869A (zh) * 2023-05-10 2023-06-06 湖北工业大学 计算激励、任务分配及无人机位置联合优化方法及系统
CN116506965A (zh) * 2023-06-20 2023-07-28 南方科技大学 一种多无人机通信资源分配方法及终端
WO2023191518A1 (ko) * 2022-03-31 2023-10-05 한양대학교 에리카산학협력단 심층강화학습을 이용한 전이중 비직교 다중접속 기반 전송전력 제어장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170116882A (ko) * 2016-04-12 2017-10-20 아주대학교산학협력단 이동통신 노드를 이용한 자율 네트워크 시스템 및 이의 운영 방법
KR102108292B1 (ko) 2018-11-14 2020-05-07 한국과학기술원 네트워크 커버리지를 넓히기 위한 무인 이동 기지국의 위치 조정 방법 및 장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170116882A (ko) * 2016-04-12 2017-10-20 아주대학교산학협력단 이동통신 노드를 이용한 자율 네트워크 시스템 및 이의 운영 방법
KR102108292B1 (ko) 2018-11-14 2020-05-07 한국과학기술원 네트워크 커버리지를 넓히기 위한 무인 이동 기지국의 위치 조정 방법 및 장치

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Jonggyu Jang et.al.,"Deep Reinforcement Learning-based Resource Allocation and Power Control in Small Cells with Limited Information Exchange,"IEEE Transactions on Vehicular Technology, Nov. 2020. *
Parisotto RP, et. al.,"Drone base station positioning and power allocation using reinforcement learnin,"International Symposium on Wireless Communication Systems(ISWCS) pp.213-217, Aug. 2019. *
김기태, 홍충선,"강화학습을 이용한 UAV-EDGE 협업 태스크 오프로딩 방안 연구,"통신망 운용관리 학술대회(KNOM 2019), May 2019. *
김기태, 홍충선,"모바일 엣지 컴퓨팅 기반 무인항공기 네트워크에서 강화학습을 통한 무인항공기와 태스크 매칭 방안 연구,"한국소프트웨어종합학술대회, vol.46, no.2, pp.0897-0899, Dec. 2019. *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102529331B1 (ko) * 2021-12-29 2023-05-09 서울대학교산학협력단 강화 학습을 사용한 uav bs 기반의 통신 방법 및 이러한 방법을 수행하는 장치
CN114630335A (zh) * 2022-03-11 2022-06-14 西安电子科技大学 时效性保障的低能耗高动态空中网络覆盖方法
CN114630335B (zh) * 2022-03-11 2023-09-08 西安电子科技大学 时效性保障的低能耗高动态空中网络覆盖方法
WO2023191518A1 (ko) * 2022-03-31 2023-10-05 한양대학교 에리카산학협력단 심층강화학습을 이용한 전이중 비직교 다중접속 기반 전송전력 제어장치
CN116233869A (zh) * 2023-05-10 2023-06-06 湖北工业大学 计算激励、任务分配及无人机位置联合优化方法及系统
CN116233869B (zh) * 2023-05-10 2023-07-18 湖北工业大学 计算激励、任务分配及无人机位置联合优化方法及系统
CN116506965A (zh) * 2023-06-20 2023-07-28 南方科技大学 一种多无人机通信资源分配方法及终端
CN116506965B (zh) * 2023-06-20 2023-09-19 南方科技大学 一种多无人机通信资源分配方法及终端

Similar Documents

Publication Publication Date Title
KR102305159B1 (ko) 강화학습을 이용한 드론 기지국 제어 방법 및 장치
KR102030128B1 (ko) 기계학습을 이용한 무선 백홀망 자원할당방법 및 자원할당 장치
Liu et al. Path planning for UAV-mounted mobile edge computing with deep reinforcement learning
CN111666149B (zh) 基于深度强化学习的超密边缘计算网络移动性管理方法
US20210406696A1 (en) Learning-based service migration in mobile edge computing
Berthold et al. Detection of spectral resources in cognitive radios using reinforcement learning
EP4109356A1 (en) Apparatus and method for federated learning, and storage medium
Nguyen et al. DRL‐based intelligent resource allocation for diverse QoS in 5G and toward 6G vehicular networks: a comprehensive survey
Ramya et al. Using learning methods for V2V path loss prediction
CN113391824A (zh) 计算卸载方法、电子设备、存储介质以及计算机程序产品
Mlika et al. Network slicing for vehicular communications: a multi-agent deep reinforcement learning approach
Alwarafy et al. DeepRAT: A DRL-based framework for multi-RAT assignment and power allocation in HetNets
CN103561103B (zh) 业务迁移的控制方法和装置
Fardad et al. A fast and effective graph-based resource allocation and power control scheme in vehicular network slicing
Fardad et al. Latency-aware V2X operation mode coordination in vehicular network slicing
CN113727278B (zh) 一种路径规划方法、接入网设备及飞行控制设备
Gures et al. A comparative study of machine learning-based load balancing in high-speed train system
Moradbeikie et al. A cost-effective LoRaWAN-based IoT localization method using fixed reference nodes and dual-slope path-loss modeling
EP3553966A1 (en) Beam pattern selection for vehicular communication using machine learning
Zhang et al. Deep reinforcement learning for fog computing-based vehicular system with multi-operator support
Ma et al. Credibility Computation Offloading Based Task-Driven Routing Strategy for Emergency UAVs Network
US20210120491A1 (en) Information processing apparatus, control method, and program
WO2022079834A1 (ja) 通信情報予測装置、通信情報予測方法、および通信情報予測プログラム
Lee et al. Decentralized Multi-Agent DQN-Based Resource Allocation for Heterogeneous Traffic in V2X Communications
US11019644B2 (en) Systems and methods for a multi-tier self-organizing network architecture

Legal Events

Date Code Title Description
AMND Amendment
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant