KR102529331B1 - 강화 학습을 사용한 uav bs 기반의 통신 방법 및 이러한 방법을 수행하는 장치 - Google Patents

강화 학습을 사용한 uav bs 기반의 통신 방법 및 이러한 방법을 수행하는 장치 Download PDF

Info

Publication number
KR102529331B1
KR102529331B1 KR1020220021201A KR20220021201A KR102529331B1 KR 102529331 B1 KR102529331 B1 KR 102529331B1 KR 1020220021201 A KR1020220021201 A KR 1020220021201A KR 20220021201 A KR20220021201 A KR 20220021201A KR 102529331 B1 KR102529331 B1 KR 102529331B1
Authority
KR
South Korea
Prior art keywords
uav
state
network
reinforcement learning
charging
Prior art date
Application number
KR1020220021201A
Other languages
English (en)
Inventor
박세웅
이경한
이굳솔
이주헌
이지현
Original Assignee
서울대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교산학협력단 filed Critical 서울대학교산학협력단
Priority to PCT/KR2022/020331 priority Critical patent/WO2023128404A1/ko
Application granted granted Critical
Publication of KR102529331B1 publication Critical patent/KR102529331B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/18Network planning tools
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60LPROPULSION OF ELECTRICALLY-PROPELLED VEHICLES; SUPPLYING ELECTRIC POWER FOR AUXILIARY EQUIPMENT OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRODYNAMIC BRAKE SYSTEMS FOR VEHICLES IN GENERAL; MAGNETIC SUSPENSION OR LEVITATION FOR VEHICLES; MONITORING OPERATING VARIABLES OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRIC SAFETY DEVICES FOR ELECTRICALLY-PROPELLED VEHICLES
    • B60L53/00Methods of charging batteries, specially adapted for electric vehicles; Charging stations or on-board charging equipment therefor; Exchange of energy storage elements in electric vehicles
    • B60L53/30Constructional details of charging stations
    • B60L53/35Means for automatic or assisted adjustment of the relative position of charging devices and vehicles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/22Traffic simulation tools or models
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W84/00Network topologies
    • H04W84/02Hierarchically pre-organised networks, e.g. paging networks, cellular networks, WLAN [Wireless Local Area Network] or WLL [Wireless Local Loop]
    • H04W84/04Large scale networks; Deep hierarchical networks
    • H04W84/06Airborne or Satellite Networks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60LPROPULSION OF ELECTRICALLY-PROPELLED VEHICLES; SUPPLYING ELECTRIC POWER FOR AUXILIARY EQUIPMENT OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRODYNAMIC BRAKE SYSTEMS FOR VEHICLES IN GENERAL; MAGNETIC SUSPENSION OR LEVITATION FOR VEHICLES; MONITORING OPERATING VARIABLES OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRIC SAFETY DEVICES FOR ELECTRICALLY-PROPELLED VEHICLES
    • B60L2200/00Type of vehicles
    • B60L2200/10Air crafts
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60YINDEXING SCHEME RELATING TO ASPECTS CROSS-CUTTING VEHICLE TECHNOLOGY
    • B60Y2200/00Type of vehicle
    • B60Y2200/50Aeroplanes, Helicopters
    • B60Y2200/51Aeroplanes

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mechanical Engineering (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Transportation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Power Engineering (AREA)
  • Astronomy & Astrophysics (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

본 발명은 강화 학습을 사용한 UAV BS 기반의 통신 방법 및 이러한 방법을 수행하는 장치에 관한 것이다. 강화 학습을 사용한 UAV BS 기반의 통신 방법은 강화 학습 서버가 모바일 에이전트를 기반으로 제1 Q-네트워크를 학습하는 단계, 강화 학습 서버가 스태틱 에이전트를 기반으로 제2 Q-네트워크를 학습하는 단계, 강화 학습 서버가 DQN(Deep Q-network)을 통해 상태 정보를 기반으로 모바일 에이전트의 액션을 결정하는 단계와 강화 학습 서버가 DQN을 통해 상태 정보를 기반으로 스태틱 에이전트의 액션을 결정하는 단계를 포함할 수 있되, DQN은 제1 Q-네트워크와 제2 Q-네트워크를 포함할 수 있다.

Description

강화 학습을 사용한 UAV BS 기반의 통신 방법 및 이러한 방법을 수행하는 장치{Method for communication based on UAV(unmanned aerial vehicle) BS(base station) using reinforcement learning and apparatus for performing the method}
본 발명은 강화 학습을 사용한 UAV BS 기반의 통신 방법 및 이러한 방법을 수행하는 장치에 관한 것이다. 보다 상세하게는 강화 학습을 통해 최적의 통신을 제공하기 위해 UAV BS 상태를 학습하여 효과적으로 UAV BS의 동작을 스케줄링하기 위한 강화 학습을 사용한 UAV BS 기반의 통신 방법 및 이러한 방법을 수행하는 장치에 관한 것이다.
5G는 20Gbps 피크 에그리게이트 레이트(peak aggregate rate)와 100Mbps의 유저 익스피어런스 레이트(user-experienced rate)를 mmWave 기술을 통해 제공할 수 있다. mmWave는 NLOS(non-line of sight) 조건에서 사용자에게 안정적이지 않은 무선 채널을 제공하기 때문에 5G에서 mmWave의 적용은 5G의 서브 6GHz 스펙트럼의 적용에 비교하여 느리다.
5G의 통신 처리량을 지원하기 위해 그라운드 BS(ground base station)의 밀집된 설계는 비용 상의 문제로 어렵다. 따라서, BS로서 동작하고 그라운드 BS와 무선 백홀을 가지는 UAV(unmanned aerial vehicle)가 UAV BS에 대한 연구가 진행되고 있다. UAV BS를 통해 LOS링크가 안정적으로 구현 가능하고, 일시적으로 필요한 피크 트래픽에 대한 처리가 그라운드 BS 없이도 가능하다.
본 발명은 상술한 문제점을 모두 해결하는 것을 그 목적으로 한다.
또한, 본 발명은, 복잡한 환경을 보다 단순하게 정의하여 전환 확률이 필요없는 개선된 강화 학습 방법을 사용하여 UAV BS의 서비스 영역 상의 배치를 최적화하여 5G 통신 환경을 제공하는 것을 목적으로 한다.
또한, 본 발명은, 충전 방법을 기반으로 모바일 에이전트와 스태틱 에이전트로 정의하고 서로 다른 Q-네트워크를 기반으로 한 강화 학습을 통해 영역 내 배치, 영역 외 배치를 결정하여 서비스 영역 내에 UAV BS의 최적 배치를 제공하는 것을 목적으로 한다.
상기 목적을 달성하기 위한 본 발명의 대표적인 구성은 다음과 같다.
본 발명의 일 실시예에 따르면, 강화 학습을 사용한 UAV BS 기반의 통신 방법은 강화 학습 서버가 모바일 에이전트를 기반으로 제1 Q-네트워크를 학습하는 단계, 상기 강화 학습 서버가 스태틱 에이전트를 기반으로 제2 Q-네트워크를 학습하는 단계, 상기 강화 학습 서버가 DQN(Deep Q-network)을 통해 상태 정보를 기반으로 상기 모바일 에이전트의 액션을 결정하는 단계와 상기 강화 학습 서버가 상기 DQN을 통해 상태 정보를 기반으로 상기 스태틱 에이전트의 액션을 결정하는 단계를 포함하되, 상기 DQN은 상기 제1 Q-네트워크와 상기 제2 Q-네트워크를 포함할 수 있다.
한편, 상기 스태틱 에이전트의 액션은 스태틱 충전 스테이션을 기반으로 한 충전 UAV BS의 개수와 서비스 UAV BS의 개수이고, 상기 모바일 에이전트의 액션은 모바일 충전 스테이션을 기반으로 한 충전 UAV BS의 개수와 서비스 UAV BS의 개수이고, 상기 스태틱 충전 스테이션은 서비스 영역 내에 고정되어서 UAV BS의 충전을 위해 구현되고, 상기 모바일 충전 스테이션은 상기 서비스 영역 간을 이동하면서 UAV BS의 충전을 위해 구현될 수 있다.
또한, 상기 제1 Q-네트워크는 UAV BS의 영역 내 배치를 학습하기 위해 구현되고, 상기 제2 Q-네트워크는 UAV BS의 영역 간 배치를 학습하기 위해 구현되고, 상기 모바일 에이전트의 상기 제1 Q-네트워크의 학습을 위한 리워드는 UAV BS가 적합한 위치에 존재 여부를 고려하여 결정되고, 상기 스태틱 에이전트의 상기 제2 Q-네트워크의 학습을 위한 리워드는 서비스 영역 내의 사용자에게 제공되는 통신 서비스 품질을 기반으로 결정될 수 있다.
또한, 상기 상태 정보는 UAV 상태1, UAV 상태2, UAV 상태3 및 UAV 상태4를 기반으로 정의되고, 상기 UAV 상태1는 UAV BS가 사용자에게 통신 서비스를 제공하는 상태이고, 상기 UAV 상태2는 UAV BS가 상기 스태틱 충전 스테이션에서 충전되는 상태이고, 상기 UAV 상태3는 UAV BS가 충전 또는 통신 서비스를 위해 이동하는 상태이고, 상기 UAV 상태4는 UAV BS가 상기 모바일 충전 스테이션에서 충전되면서 이동하는 상태일 수 있다.
본 발명의 다른 실시예에 따르면, 강화 학습을 사용한 UAV BS 기반의 통신을 위한 강화 학습 서버는 모바일 에이전트를 기반으로 제1 Q-네트워크를 학습하고, 스태틱 에이전트를 기반으로 제2 Q-네트워크를 학습하고, DQN(Deep Q-network)을 통해 상태 정보를 기반으로 상기 모바일 에이전트의 액션을 결정하고, 상기 DQN을 통해 상태 정보를 기반으로 상기 스태틱 에이전트의 액션을 결정하도록 구현되되, 상기 DQN은 상기 제1 Q-네트워크와 상기 제2 Q-네트워크를 포함할 수 있다.
한편, 상기 스태틱 에이전트의 액션은 스태틱 충전 스테이션을 기반으로 한 충전 UAV BS의 개수와 서비스 UAV BS의 개수이고, 상기 모바일 에이전트의 액션은 모바일 충전 스테이션을 기반으로 한 충전 UAV BS의 개수와 서비스 UAV BS의 개수이고, 상기 스태틱 충전 스테이션은 서비스 영역 내에 고정되어서 UAV BS의 충전을 위해 구현되고, 상기 모바일 충전 스테이션은 상기 서비스 영역 간을 이동하면서 UAV BS의 충전을 위해 구현될 수 있다.
또한, 상기 제1 Q-네트워크는 UAV BS의 영역 내 배치를 학습하기 위해 구현되고, 상기 제2 Q-네트워크는 UAV BS의 영역 간 배치를 학습하기 위해 구현되고, 상기 모바일 에이전트의 상기 제1 Q-네트워크의 학습을 위한 리워드는 UAV BS가 적합한 위치에 존재 여부를 고려하여 결정되고, 상기 스태틱 에이전트의 상기 제2 Q-네트워크의 학습을 위한 리워드는 서비스 영역 내의 사용자에게 제공되는 통신 서비스 품질을 기반으로 결정될 수 있다.
또한, 상기 상태 정보는 UAV 상태1, UAV 상태2, UAV 상태3 및 UAV 상태4를 기반으로 정의되고, 상기 UAV 상태1는 UAV BS가 사용자에게 통신 서비스를 제공하는 상태이고, 상기 UAV 상태2는 UAV BS가 상기 스태틱 충전 스테이션에서 충전되는 상태이고, 상기 UAV 상태3는 UAV BS가 충전 또는 통신 서비스를 위해 이동하는 상태이고, 상기 UAV 상태4는 UAV BS가 상기 모바일 충전 스테이션에서 충전되면서 이동하는 상태일 수 있다.
본 발명에 의하면, 복잡한 환경을 보다 단순하게 정의하여 전환 확률이 필요없는 개선된 강화 학습 방법을 사용하여 UAV BS의 서비스 영역 상의 배치를 최적화하여 5G 통신 환경이 제공될 수 있다.
또한, 본 발명에 의하면, 충전 방법을 기반으로 모바일 에이전트와 스태틱 에이전트로 정의하고 서로 다른 Q-네트워크를 기반으로 한 강화 학습을 통해 영역 내 배치, 영역 외 배치를 결정하여 서비스 영역 내에 UAV BS의 최적 배치가 제공될 수 있다.
도 1은 본 발명의 실시예에 따른 UAV BS 통신 시스템을 나타낸 개념도이다.
도 2는 본 발명의 실시예에 따른 UAV BS의 배치를 위한 강화 학습 방법을 나타낸 개념도이다.
도 3은 본 발명의 실시예에 따른 Q-네트워크를 나타내는 개념도이다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이러한 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 본 명세서에 기재되어 있는 특정 형상, 구조 및 특성은 본 발명의 정신과 범위를 벗어나지 않으면서 일 실시예로부터 다른 실시예로 변경되어 구현될 수 있다. 또한, 각각의 실시예 내의 개별 구성요소의 위치 또는 배치도 본 발명의 정신과 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 행하여 지는 것이 아니며, 본 발명의 범위는 특허청구범위의 청구항들이 청구하는 범위 및 그와 균등한 모든 범위를 포괄하는 것으로 받아들여져야 한다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 구성요소를 나타낸다.
이하에서는, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 여러 바람직한 실시예에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.
본 발명의 실시예에 따른 강화 학습을 사용한 UAV BS 기반의 통신 방법에서는 영역 상에서 트래픽 요구량의 변화가 클 경우, UAV BS를 적응적으로 구동하여 트래픽 요구를 만족시킬 수 있다. UAV BS는 배터리를 기반으로 동작하기 때문에 본 발명에서는 연속적인 서비스를 위해서 두가지 타입의 충전 스테이션이 활용될 수 있다. 첫번째 타입의 충전 스테이션은 고정된 위치에 존재하는 스태틱 충전 스테이션이고, 두번째 타입의 충전 스테이션은 이동 수단에 위치한 모바일 충전 스테이션이다. 이러한 두가지 타입의 충전 스테이션을 통해 UAV BS의 충전이 가능하다. 효율적인 통신 환경의 구현을 위해서 UAV BS의 배치가 중요하다. 본 발명에서는 강화 학습을 통한 최적 UAV BS의 배치 방법이 개시된다.
도 1은 본 발명의 실시예에 따른 UAV BS 통신 시스템을 나타낸 개념도이다.
도 1을 참조하면, UAV BS 통신 시스템은 그라운드 베이스 스테이션(ground base station, GBS)(100), UAV 베이스 스테이션(UAV BS)(160), 스태틱 충전 스테이션(static charging station, SCS)(140), 모바일 충전 스테이션(mobile charging station, MCS)(120)을 포함할 수 있다.
GBS(100)는 서비스 영역 상에 배치되어 UAV BS(160) 기반의 통신을 위한 백홀 링크(backhaul link)를 제공하기 위해 구현될 수 있다.
UAV BS(160)는 서비스 영역 상에서 동작하면서 사용자들의 통신을 위한 기지국 역할을 수행하기 위해 구현될 수 있다. UAV BS(160)의 상태는 아래의 5가지 상태로 정의될 수 있다.
UAV 상태1: UAV BS(160)가 사용자에게 통신 서비스를 제공하는 상태
UAV 상태2: UAV BS(160)가 SCS(140)에서 충전되는 상태
UAV 상태3: UAV BS(160)가 충전 또는 통신 서비스를 위해 이동하는 상태
UAV 상태4: UAV BS(160)가 MCS(120)에서 충전되면서 이동하는 상태
UAV 상태5: UAV BS(160)의 배터리 방전 또는 고장으로 인해 정지된 상태
SCS(140)는 고정된 충전소로서 UAV BS(160)의 충전을 위해 구현될 수 있다.
MCS(120)는 이동 충전소로서 UAV BS(160)의 충전을 위해 구현될 수 있다. MCS(120)는 대중 교통 수단과 같은 곳에 설치될 수 있고, UAV BS(160)는 MCS(120) 상에서 이동하면서 충전될 수 있다.
UAV BS(160)는 SCS(140), MCS(120)를 이동하면서 서비스 영역 상에서 통신 환경을 제공할 수 있고, 효과적인 통신 서비스를 위해 서비스 영역 내에서 UAV BS(160)의 최적의 배치가 필요하다. 본 발명에서는 UAV BS(160)의 최적 배치를 위해 강화 학습이 수행될 수 있다.
강화 학습 서버(180)는 그라운드 베이스 스테이션(100), UAV 베이스 스테이션(160), 스태틱 충전 스테이션(140) 또는 모바일 충전 스테이션(120)와 연결되어, 강화 학습을 수행하고, UAV BS의 배치를 결정할 수 있다. 강화 학습 서버(180)의 구체적인 동작은 후술된다.
도 2는 본 발명의 실시예에 따른 UAV BS의 배치를 위한 강화 학습 방법을 나타낸 개념도이다.
도 2에서는 서비스 영역 상에서 최적의 통신 환경을 제공하기 위해서는 최적의 UAV BS 배치가 필요하고, 최적의 UAV BS 배치를 위한 강화 학습 방법이 개시된다.
도 2를 참조하면, 강화 학습을 통해 시간별 UAV BS에 대한 배치가 이루어질 수 있다.
통신 상황을 고려하여 UAV BS는 MCS 위에서 서비스 영역을 이동하여 통신 서비스를 제공할 수 있고, 통신 상황, UAV BS의 충전 상황 등을 고려하여 UAV BS가 충전을 추가적으로 할지 통신할지에 대한 결정 등이 이루어질 수 있다. 이러한 시간별로 복수의 UAV BS의 상태를 결정하는 것이 UAV BS의 배치이다.
UAV BS의 강화 학습을 위해 MDP(Markov Decision Process) 모델이 사용될 수 있다. MDP 모델을 기반으로 한 강화 학습을 통해 복수의 UAV BS의 최적 배치가 결정될 수 있다.
기존의 MDP 모델은 액션(action), 상태(state), 전환 확률(transition probability), 보상(reward) 및 디스카운트 팩터(discount factor)를 기반으로 강화 학습을 수행할 수 있다.
기존의 MDP 모델이 그대로 적용되는 경우, 전환 확률에 대한 예측이 불가능하기 때문에 기존의 MDP 모델의 사용이 어렵다. 전환 확률은 트래픽 요구량, 배터리 상태, 이동성 등과 같은 다양한 외부 요소로 인해 결정된다. 따라서, 기존의 MDP 모델이 그대로 사용되는 경우, 전환 확률에 대한 정확한 예측이 어렵고 모델링이 어렵다. 또한, 기존의 MDP 모델이 사용되는 경우, 수백 대의 UAV BS와 상호 작용이 필요한 큰 스케일의 환경은 액션의 결과를 예측하기 어렵다. 왜냐하면, 액션 스페이스(action space)가 UAV BS의 개수에 따라 지수적으로 증가하기 때문에 액션 결과의 예측은 불가능하고 정확도가 낮아진다.
따라서, 위와 같은 문제를 해결하기 위해 본 발명의 MDP 모델에서는 두 개의 에이전트(agent)를 별도로 설정하여 학습 효율이 증가될 수 있다. 본 발명의 MDP 모델은 서로 다른 두가지 타입의 서로 다른 Q-네트워크(network)를 사용하여 강화 학습될 수 있다. 본 발명의 MDP 모델은 DQN(deep Q-network)를 기반으로 전환 확률을 사용하지 않고, 두개의 에이전트 각각의 액션, 상태, 보상을 기반으로 강화 학습을 수행할 수 있다.
본 발명의 MDP 모델에서 사용되는 에이전트는 모바일 에이전트(200) 및 스태틱 에이전트(250)를 포함할 수 있다. 모바일 에이전트(200)는 MCS를 기준으로 서비스 영역상에 UAV BS를 배치할 수 있다. 모바일 에이전트(200)에 의한 UAV BS의 배치는 영역 간 배치(inter area deployment)라는 용어로 표현될 수 있다. 스태틱 에이전트(250)에 의한 UAV BS의 배치는 SCS를 기준으로 서비스 영역상에 UAV BS를 배치할 수 있다. 스태틱 에이전트(250)에 의한 배치는 영역 내 배치(intra area deployment)라는 용어로 표현될 수 있다.
모바일 에이전트(200)는 UAV BS의 이동 루트와 UAV BS의 현재 상태에 대한 정보를 중앙 서버인 강화 학습 서버를 통해 공유할 수 있다. 모바일 에이전트(200)에 의해 수집된 정보를 기반으로 제1 Q-네트워크(220)에 대한 학습이 이루어질 수 있다. 마찬가지로, 스태틱 에이전트(250)는 UAV BS의 이동 루트와 UAV BS의 현재 상태에 대한 정보를 강화 학습 서버를 통해 공유할 수 있다. 스태틱 에이전트(250)에 의해 수집된 정보를 기반으로 제2 Q-네트워크(270)에 대한 학습이 이루어질 수 있다.
이하, 모바일 에이전트(200)와 스태틱 에이전트(250) 각각의 제1 Q-네트워크(220) 및 제2 Q-네트워크(270)의 학습을 위한 액션, 상태, 보상이 개시된다.
(1) 액션(action)
액션 공간은 충전 스테이션(모바일 에이전트(200) 및 스태틱 에이전트(250)) 각각에 대해 정의될 수 있다. 액션은 1) 충전하는 UAV BS의 개수, 2) 통신 서비스를 수행하는 UAB BS의 개수로 단순화될 수 있다. 충전 UAV BS 개수, 통신 UAV BS 개수가 결정되는 경우, 전체 UAV BS의 배터리 상태를 고려하여 우선 순위가 설정되어 전체 UAV BS는 충전 UAV BS, 통신 UAV BS로 분할될 수 있다.
강화 학습 효율을 위해 모바일 에이전트(200) 및 스태틱 에이전트(250)는 이벤트 드리븐 강화 학습(event-driven reinforcement learning technique) 방법을 사용할 수 있다. 이벤트 드리븐 강화 학습 방법은 이벤트의 발생시에만 액션을 트리거하도록 하는 방법이다. 이벤트 드리븐 강화 학습 방법을 기반으로 모바일 에이전트(200)는 서비스 영역에 도착시에만 액션을 트리거할 수 있고, 스태틱 에이전트(250)는 설정된 인터벌에서 액션이 트리거되도록 설정될 수 있다.
보다 구체적으로 모바일 에이전트(200)의 액션은 MCS를 기반으로 한 {충전 UAV BS의 개수, 서비스 UAV BS의 개수}일 수 있다. 스태틱 에이전트(250)의 액션은 SCS를 기반으로 한 {충전 UAV BS의 개수, 서비스 UAV BS의 개수}일 수 있다.
(2) 상태(state)
모바일 에이전트(200) 및 스태틱 에이전트(250)의 상태는 배터리 상태와 트래픽 요구량 등을 기반으로 결정될 수 있다. 상태는 액션을 트리거할 수 있다. 스태틱 에이전트(250)는 로컬 영역에서 사용자 성능의 향상을 고려하고, 모바일 에이전트(200)는 상대적으로 넓은 영역에서 UAV BS의 분배를 고려하여 상태가 정의될 수 있다.
스태틱 에이전트(250)의 상태는 서비스 영역 k 및 차량v에 대해 정의되되, 차량 v는 서비스 영역k에서 가장 가까운 MCS일 수 있다.
스태틱 에이전트(250)의 상태는 {서비스 영역 기준 하위 상태, 차량 기준 하위 상태}로 정의될 수 있다.
서비스 영역 기준 하위 상태 : {서비스 영역k, UAV 상태1의 UAV BS의 배터리 상태, UAV 상태2의 UAV BS의 배터리 상태, UAV 상태3의 UAV BS의 배터리 상태, 트래픽 요구량}으로 정의될 수 있다.
차량 기준 하위 상태 : {차량v의 다음 서비스 영역, UAV 상태4의 UAV BS의 배터리 상태, 차량v가 다음 서비스 영역으로 움직이기 까지 남은 시간 }
UAV 상태1: UAV BS가 사용자에게 통신 서비스를 제공하는 상태
UAV 상태2: UAV BS가 SCS에서 충전되는 상태
UAV 상태3: UAV가 충전 또는 통신 서비스를 위해 이동하는 상태
UAV 상태4: UAV BS가 MCS에서 충전되면서 이동하는 상태
모바일 에이전트의 상태는 {시간, 서비스 영역 기준 하위 상태(모바일), 차량 기준 하위 상태(모바일)}을 고려하여 결정될 수 있다.
시간은 이벤트 드리븐 강화 학습을 위한 이벤트 발생 시간이다.
서비스 영역 기준 하위 상태(모바일)은 n번째 이벤트로서 서비스 영역으로 이동하였거나 이동할 차량과 관련된 서비스 영역 기준 하위 상태일 수 있다. 서비스 영역 기준 하위 상태는 전술한 스태틱 에이전트의 상태와 동일하다.
차량 기준 하위 상태(모바일)은 l번째 이벤트로서 서비스 영역으로 이동하였거나 이동할 차량들의 차량 기준 하위 상태일 수 있다. 차량 기준 하위 상태는 전술한 스태틱 에이전트의 상태와 동일하다.
모바일 에이전트는 대중 교통과 미리 알 수 있는 경로를 기준으로 상태를 결정할 수 있다.
(3) 리워드(reward)
모바일 에이전트의 리워드는 UAV BS가 적합한 위치에 존재 여부를 고려하여 결정된다. 스태틱 에이전트의 리워드는 서비스 영역 내의 사용자에게 제공되는 통신 서비스 품질을 기준으로 결정된다.
본 발명에서는 전환 확률 없이 모바일 에이전트 및 스태틱 에이전트 각각에 대해 정의된 액션, 상태, 보상을 기반으로 모바일 에이전트의 제1 Q-네트워크 및 스태틱 에이전트의 제2 Q-네트워크의 학습이 수행될 수 있다.
도 3은 본 발명의 실시예에 따른 Q-네트워크를 나타내는 개념도이다.
도 3을 참조하면, Deep Q-Network(DQN)는 제1 Q-네트워크와 제2 Q-네트워크를 포함할 수 있다.
DQN에 상태가 주어지는 경우, 모바일 에이전트와 스태틱 에이전트 각각의 액션으로서 UAV BS의 충전 또는 통신 서비스가 결정될 수 있다. 제1 Q-네트워크는 UAV BS의 영역 간 배치를 위해 학습되고, 제2 Q-네트워크는 UAV BS의 영역 내 배치를 위해 학습될 수 있다.
(1) 영역 간 배치 단계(300)
모바일 에이전트는 제1 Q-네트워크를 기반으로 차량이 서비스 영역에 도착하는 경우, 상태를 탐색하고, 액션을 결정할 수 있다. 액션의 결정시 e-greedy 익스플로레인션 스트레티지(exploration stratery)가 사용될 수 있다.
결정된 액션을 기반으로 UAV 상태1, UAV 상태2, UAV 상태3가 변화되게 되고 이에 따라 리워드가 결정될 수 있다. 이러한 상태, 액션, 리워드에 대한 정보는 리플레이 버퍼 상에 저장되고, 저장된 정보는 제1 Q-네트워크의 학습을 위해 활용될 수 있다.
(2) 영역 내 배치 단계(35)
영역 내 배치 단계에서는 스태틱 에이전트는 상태를 탐색하고 제2 Q- 네트워크를 기반으로 설정된 주기p 마다 액션을 수행할 수 있다. 액션의 결과에 따른 리워드가 생성되고, 상태, 액션, 리워드는 리플레이 버퍼 상에 저장되어 제2 Q-네트워크를 학습시키기 위해 활용될 수 있다.
이러한 제1 Q-네트워크와 제2 Q-네트워크의 강화 학습을 사용한 UAV BS 기반의 통신을 위한 강화 학습 서버는 아래와 같은 동작이 수행될 수 있다.
강화학습 서버는 모바일 에이전트를 기반으로 제1 Q-네트워크를 학습하고, 스태틱 에이전트를 기반으로 제2 Q-네트워크를 학습할 수 있다.
DQN(Deep Q-network)을 통해 상태 정보를 기반으로 모바일 에이전트의 액션을 결정하고, DQN을 통해 상태 정보를 기반으로 스태틱 에이전트의 액션을 결정하도록 구현되되, DQN은 제1 Q-네트워크와 상기 제2 Q-네트워크를 포함할 수 있다.
스태틱 에이전트의 액션은 스태틱 충전 스테이션을 기반으로 한 충전 UAV BS의 개수와 서비스 UAV BS의 개수이고, 모바일 에이전트의 액션은 모바일 충전 스테이션을 기반으로 한 충전 UAV BS의 개수와 서비스 UAV BS의 개수이고, 스태틱 충전 스테이션은 서비스 영역 내에 고정되어서 UAV BS의 충전을 위해 구현될 수 있다. 모바일 충전 스테이션은 서비스 영역 간을 이동하면서 UAV BS의 충전을 위해 구현될 수 있다.
제1 Q-네트워크는 UAV BS의 영역 내 배치를 학습하기 위해 구현되고, 제2 Q-네트워크는 UAV BS의 영역 간 배치를 학습하기 위해 구현되고, 모바일 에이전트의 제1 Q-네트워크의 학습을 위한 리워드는 UAV BS가 적합한 위치에 존재 여부를 고려하여 결정될 수 있다. 스태틱 에이전트의 제2 Q-네트워크의 학습을 위한 리워드는 서비스 영역 내의 사용자에게 제공되는 통신 서비스 품질을 기반으로 결정될 수 있다.
이상 설명된 본 발명에 따른 실시예는 다양한 컴퓨터 구성요소를 통하여 실행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등과 같은, 프로그램 명령어를 저장하고 실행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의하여 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용하여 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위하여 하나 이상의 소프트웨어 모듈로 변경될 수 있으며, 그 역도 마찬가지이다.
이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항과 한정된 실시예 및 도면에 의하여 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위하여 제공된 것일 뿐, 본 발명이 상기 실시예에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정과 변경을 꾀할 수 있다.
따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다.

Claims (8)

  1. 강화 학습을 사용한 UAV BS 기반의 통신 방법은,
    강화 학습 서버가 모바일 에이전트를 기반으로 제1 Q-네트워크를 학습하는 단계;
    상기 강화 학습 서버가 스태틱 에이전트를 기반으로 제2 Q-네트워크를 학습하는 단계;
    상기 강화 학습 서버가 DQN(Deep Q-network)을 통해 상태 정보를 기반으로 상기 모바일 에이전트의 액션을 결정하는 단계; 및
    상기 강화 학습 서버가 상기 DQN을 통해 상태 정보를 기반으로 상기 스태틱 에이전트의 액션을 결정하는 단계를 포함하되,
    상기 DQN은 상기 제1 Q-네트워크와 상기 제2 Q-네트워크를 포함하는 것을 특징으로 하는 방법.
  2. 제1항에 있어서,
    상기 스태틱 에이전트의 액션은 스태틱 충전 스테이션을 기반으로 한 충전 UAV BS의 개수와 서비스 UAV BS의 개수이고,
    상기 모바일 에이전트의 액션은 모바일 충전 스테이션을 기반으로 한 충전 UAV BS의 개수와 서비스 UAV BS의 개수이고,
    상기 스태틱 충전 스테이션은 서비스 영역 내에 고정되어서 UAV BS의 충전을 위해 구현되고,
    상기 모바일 충전 스테이션은 상기 서비스 영역 간을 이동하면서 UAV BS의 충전을 위해 구현되는 것을 특징으로 하는 방법.
  3. 제2항에 있어서,
    상기 제1 Q-네트워크는 UAV BS의 영역 내 배치를 학습하기 위해 구현되고,
    상기 제2 Q-네트워크는 UAV BS의 영역 간 배치를 학습하기 위해 구현되고,
    상기 모바일 에이전트의 상기 제1 Q-네트워크의 학습을 위한 리워드는 UAV BS가 적합한 위치에 존재 여부를 고려하여 결정되고,
    상기 스태틱 에이전트의 상기 제2 Q-네트워크의 학습을 위한 리워드는 서비스 영역 내의 사용자에게 제공되는 통신 서비스 품질을 기반으로 결정되는 것을 특징으로 하는 방법.
  4. 제3항에 있어서,
    상기 상태 정보는 UAV 상태1, UAV 상태2, UAV 상태3 및 UAV 상태4를 기반으로 정의되고,
    상기 UAV 상태1는 UAV BS가 사용자에게 통신 서비스를 제공하는 상태이고
    상기 UAV 상태2는 UAV BS가 상기 스태틱 충전 스테이션에서 충전되는 상태이고,
    상기 UAV 상태3는 UAV BS가 충전 또는 통신 서비스를 위해 이동하는 상태이고,
    상기 UAV 상태4는 UAV BS가 상기 모바일 충전 스테이션에서 충전되면서 이동하는 상태인 것을 특징으로 하는 방법.
  5. 강화 학습을 사용한 UAV BS 기반의 통신을 위한 강화 학습 서버는,
    모바일 에이전트를 기반으로 제1 Q-네트워크를 학습하고,
    스태틱 에이전트를 기반으로 제2 Q-네트워크를 학습하고,
    DQN(Deep Q-network)을 통해 상태 정보를 기반으로 상기 모바일 에이전트의 액션을 결정하고,
    상기 DQN을 통해 상태 정보를 기반으로 상기 스태틱 에이전트의 액션을 결정하도록 구현되되,
    상기 DQN은 상기 제1 Q-네트워크와 상기 제2 Q-네트워크를 포함하는 것을 특징으로 하는 강화 학습 서버.
  6. 제5항에 있어서,
    상기 스태틱 에이전트의 액션은 스태틱 충전 스테이션을 기반으로 한 충전 UAV BS의 개수와 서비스 UAV BS의 개수이고,
    상기 모바일 에이전트의 액션은 모바일 충전 스테이션을 기반으로 한 충전 UAV BS의 개수와 서비스 UAV BS의 개수이고,
    상기 스태틱 충전 스테이션은 서비스 영역 내에 고정되어서 UAV BS의 충전을 위해 구현되고,
    상기 모바일 충전 스테이션은 상기 서비스 영역 간을 이동하면서 UAV BS의 충전을 위해 구현되는 것을 특징으로 하는 강화 학습 서버.
  7. 제6항에 있어서,
    상기 제1 Q-네트워크는 UAV BS의 영역 내 배치를 학습하기 위해 구현되고,
    상기 제2 Q-네트워크는 UAV BS의 영역 간 배치를 학습하기 위해 구현되고,
    상기 모바일 에이전트의 상기 제1 Q-네트워크의 학습을 위한 리워드는 UAV BS가 적합한 위치에 존재 여부를 고려하여 결정되고,
    상기 스태틱 에이전트의 상기 제2 Q-네트워크의 학습을 위한 리워드는 서비스 영역 내의 사용자에게 제공되는 통신 서비스 품질을 기반으로 결정되는 것을 특징으로 하는 강화 학습 서버.
  8. 제7항에 있어서,
    상기 상태 정보는 UAV 상태1, UAV 상태2, UAV 상태3 및 UAV 상태4를 기반으로 정의되고,
    상기 UAV 상태1는 UAV BS가 사용자에게 통신 서비스를 제공하는 상태이고
    상기 UAV 상태2는 UAV BS가 상기 스태틱 충전 스테이션에서 충전되는 상태이고,
    상기 UAV 상태3는 UAV BS가 충전 또는 통신 서비스를 위해 이동하는 상태이고,
    상기 UAV 상태4는 UAV BS가 상기 모바일 충전 스테이션에서 충전되면서 이동하는 상태인 것을 특징으로 하는 강화 학습 서버.
KR1020220021201A 2021-12-29 2022-02-18 강화 학습을 사용한 uav bs 기반의 통신 방법 및 이러한 방법을 수행하는 장치 KR102529331B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/KR2022/020331 WO2023128404A1 (ko) 2021-12-29 2022-12-14 강화 학습을 사용한 uav bs 기반의 통신 방법 및 이러한 방법을 수행하는 장치

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020210190912 2021-12-29
KR20210190912 2021-12-29

Publications (1)

Publication Number Publication Date
KR102529331B1 true KR102529331B1 (ko) 2023-05-09

Family

ID=86408071

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220021201A KR102529331B1 (ko) 2021-12-29 2022-02-18 강화 학습을 사용한 uav bs 기반의 통신 방법 및 이러한 방법을 수행하는 장치

Country Status (2)

Country Link
KR (1) KR102529331B1 (ko)
WO (1) WO2023128404A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114089762A (zh) * 2021-11-22 2022-02-25 江苏科技大学 一种基于强化学习的水空两栖无人航行器路径规划方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102305159B1 (ko) * 2020-11-18 2021-09-24 포항공과대학교 산학협력단 강화학습을 이용한 드론 기지국 제어 방법 및 장치

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109803344B (zh) * 2018-12-28 2019-10-11 北京邮电大学 一种无人机网络拓扑及路由联合构建方法
KR102394237B1 (ko) * 2019-12-03 2022-05-04 경희대학교 산학협력단 다중 무인항공기 네비게이션 최적화 방법 및 그를 이용한 무인항공항 시스템
KR102346653B1 (ko) * 2020-05-19 2022-01-03 국방과학연구소 강화학습 기반 uav 애드혹 네트워크 중계 시스템

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102305159B1 (ko) * 2020-11-18 2021-09-24 포항공과대학교 산학협력단 강화학습을 이용한 드론 기지국 제어 방법 및 장치

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Trajectory Planning of UAV in Wireless Powered IoT System Based on Deep Reinforce Learning," Jidong Ahang et al., IEEE/CIC Int'l Conf. on Communications in China (2020.08.11.) *
"UAV-BS 환경에서 서비스 처리량 최대화를 위한 강화학습 기반의 UAV 배치 연구", 박유민 외 1인, Jounarl of KIISE, Vol.47, No.7, pp.700-706, (2020.07.31.) *
"개별 노드의 위치 및 접속 가능성을 고려한 효율적 UAV 기지국 배치", 박재형 외 5인, Jounarl of Korea Institute of Communications and Information Science, Vol.46, No.01, pp.66-73, (2021.01.31.) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114089762A (zh) * 2021-11-22 2022-02-25 江苏科技大学 一种基于强化学习的水空两栖无人航行器路径规划方法

Also Published As

Publication number Publication date
WO2023128404A1 (ko) 2023-07-06

Similar Documents

Publication Publication Date Title
Trotta et al. When UAVs ride a bus: Towards energy-efficient city-scale video surveillance
Prasad et al. Movement prediction in wireless networks using mobility traces
KR102433739B1 (ko) 항공 운송 네트워크에서 효율적인 vtol 자원 관리
CN103874149B (zh) 无线通信网络中的移动切换管理方法、设备及系统
KR101386066B1 (ko) 셀 커버리지 제어 방법 및 그 시스템
KR102394237B1 (ko) 다중 무인항공기 네비게이션 최적화 방법 및 그를 이용한 무인항공항 시스템
US20220151001A1 (en) Methods, systems, and devices for enhanced cell activation in a network supporting dual connectivity
KR102529331B1 (ko) 강화 학습을 사용한 uav bs 기반의 통신 방법 및 이러한 방법을 수행하는 장치
Malandrino et al. Content downloading in vehicular networks: Bringing parked cars into the picture
Ramezani et al. Dynamic modeling and control of taxi services in large-scale urban networks: A macroscopic approach
CN102083088B (zh) 用于一无线网络的数据中继移动装置及数据中继方法
Andryeyev et al. Increasing the cellular network capacity using self-organized aerial base stations
Chou et al. Mobile small cell deployment for service time maximization over next-generation cellular networks
Nait-Abdesselam et al. Towards enabling unmanned aerial vehicles as a service for heterogeneous applications
JP7268139B2 (ja) 基地局、通信システム、通信方法、及びプログラム
Boucetta et al. Optimizing drone deployment for cellular communication coverage during crowded events
Fouladian et al. Using AHP and interval VIKOR methods to gateway selection in integrated VANET and 3G heterogeneous wireless networks in sparse situations
Parvaresh et al. Deep Q-learning-enabled deployment of aerial base stations in the presence of mobile users
US20210116255A1 (en) Apparatus and method for providing route in wireless communication system
Islam et al. Proactive uavs placement in vanets
Li et al. Routing in taxi and public transport based heterogeneous vehicular networks
Toufga et al. Effective prediction of V2I link lifetime and vehicle's next cell for software defined vehicular networks: A machine learning approach
Nahrstedt et al. Placement of energy sources for electric transportation in smart cities
Abdelkhalek et al. A genetic algorithm for a multi-objective nodes placement problem in heterogeneous network infrastructure for surveillance applications
Nakayama et al. Adaptive C-RAN architecture for smart city using crowdsourced radio units

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant