KR20230080588A - 차량 간 통신 최적화를 위한 심층 강화학습 기반 분산전력제어 장치 및 방법. - Google Patents

차량 간 통신 최적화를 위한 심층 강화학습 기반 분산전력제어 장치 및 방법. Download PDF

Info

Publication number
KR20230080588A
KR20230080588A KR1020210167920A KR20210167920A KR20230080588A KR 20230080588 A KR20230080588 A KR 20230080588A KR 1020210167920 A KR1020210167920 A KR 1020210167920A KR 20210167920 A KR20210167920 A KR 20210167920A KR 20230080588 A KR20230080588 A KR 20230080588A
Authority
KR
South Korea
Prior art keywords
vue
learning
pdr
communication range
power control
Prior art date
Application number
KR1020210167920A
Other languages
English (en)
Other versions
KR102636756B1 (ko
Inventor
양우열
조한신
Original Assignee
한밭대학교 산학협력단
한밭대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한밭대학교 산학협력단, 한밭대학교 산학협력단 filed Critical 한밭대학교 산학협력단
Priority to KR1020210167920A priority Critical patent/KR102636756B1/ko
Publication of KR20230080588A publication Critical patent/KR20230080588A/ko
Application granted granted Critical
Publication of KR102636756B1 publication Critical patent/KR102636756B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/18TPC being performed according to specific parameters
    • H04W52/22TPC being performed according to specific parameters taking into account previous information or commands
    • H04W52/225Calculation of statistics, e.g. average, variance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • H04W4/46Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for vehicle-to-vehicle communication [V2V]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/18TPC being performed according to specific parameters
    • H04W52/26TPC being performed according to specific parameters using transmission rate or quality of service QoS [Quality of Service]
    • H04W52/267TPC being performed according to specific parameters using transmission rate or quality of service QoS [Quality of Service] taking into account the information rate
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/30TPC using constraints in the total amount of available transmission power
    • H04W52/34TPC management, i.e. sharing limited amount of power among users or channels or data types, e.g. cell loading
    • H04W52/343TPC management, i.e. sharing limited amount of power among users or channels or data types, e.g. cell loading taking into account loading or congestion level

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Quality & Reliability (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

본 발명은, 목표 통신 범위에 있는 VUE(Vehicular user equipment)의 송신 전력, 송신 안테나 이득, 수신 안테나 이득, 1m에서의 경로 손실치, 손실지수, 및 VUE 사이의 거리 중 적어도 어느 하나를 수집하는 데이터 수집부; 상기 데이터 수집부에서 수집한 데이터로 계산된 서브 채널의 누적 간섭 전력과 에이전트 VUE의 개별전력 레벨을 심층 강화학습 기반 신경망 모델에 적용하여 목표 통신 범위 내에서 최적의 PDR(packet delivery ratio)을 결정하는 학습부; 및 상기 학습부에서 결정된 최적의 PDR을 갖도록 VUE의 개별전력을 제어하는 제어부;를 포함하여, 목표 통신 범위 내에서 통신 성능을 최적화하는 것을 일 특징으로 한다.

Description

차량 간 통신 최적화를 위한 심층 강화학습 기반 분산전력제어 장치 및 방법.{DEEP-REINFORCEMENT-LEARNING-BASED DISTRIBUTED POWER CONTROL FOR VEHICLE-TO-VEHICLE COMMUNICATIONS}
본 발명은 분산전력제어 장치 및 방법에 관한 것으로서, 특히 차량 간 통신 시 에너지 효율을 향상시킬 수 있는 심층 강화학습 기반의 분산전력제어 장치 및 방법에 관한 것이다.
도 1은 본 발명의 실시예에 따른 V2X 통신환경을 나타낸다. 도 1을 참조하면, V2X(Vehicle to Everything communication)란, 차량이 유무선망을 통해 다른 차량 및 도로 등 인프라가 구축된 사물과 정보를 교환하는 것 또는 그 기술을 뜻한다. V2X는 V2V(Vehicle-to-Vehicle), V2I(Vehicle-to-Infrastructure), V2N(Vehicle-to-Nomadic Device), V2P(Vehicle-to-Pedestrian) 등을 총칭한다.
C-V2X(CELLUAR-V2X)는 LTE(Long-Term Evolution) 기반의 V2X 통신을 말하며 3GPP(the third generation partnership project) release 14에서 도입되었다. C-V2X는 V2V 통신을 위해 PC5 인터페이스를 사용하며 두 가지 작동 모드를 포함한다. 모드 3에서 기지국은 각 차량에 대한 서브 채널 및 무선 자원의 스케줄링을 관리한다. 반면, 모드 4는 기지국 개입이 필요하지 않으며, V2V 통신을 위해 각 차량이 센싱 기반 SB-SPS(Semi-Persistent Scheduling)를 통해 서브 채널이나 무선 자원을 자율적으로 선택한다. V2V 통신의 주요 목적은 주기적으로 CAM을 주변 차량에 브로드캐스트하는 것이며 3GPP는 CAM 통신 범위를 300~500m로 지정했다.
V2V 통신은 혼잡한(고밀도) 환경에서 더 나쁜 성능을 나타내며, 이 문제를 극복하기 위해 DCC(Distrubuted Congestion Control, 분산형 혼잡 제어)가 제안되었다. Society of Automotive Engineers는 DSRC(Dedicated Short-Range Communication, 단거리 전용 통신)를 위한 속도 제어 및 전력 제어를 활용하는 DCC 알고리즘을 개발했다. DCC는 고밀도 환경에서 C-V2X의 통신 성능을 향상시키기 위한 대표적인 알고리즘이다. DCC 알고리즘은 문서 J2945/1에 개시되었으며 C-V2X에 대한 적용을 고려하고 있다. 유럽 전자통신표준 연구소는 DCC 알고리즘을 위한 프레임워크를 설정했다.
그러나, 앞서 언급한 DCC 알고리즘은 CAM 통신 범위를 고려하지 않고, 속도, 전력 및 데이터 속도 제어를 수행한다. 도 2는 5G NR V2X의 통신 방식의 실시예로서, 도 2의 (a)는 브로드캐스트 방식을 나타내고, 도 2의 (b)는 유니캐스트 방식을 나타내고, 도 2의 (c)는 멀티캐스트 방식을 나타내다. CAM 통신 범위는 300~500m이고 5G NR V2X는 유니캐스트 및 멀티캐스트를 추가로 지원하므로, DCC 알고리즘은 필요한 통신 범위 내에서 통신 성능을 최적화하도록 설계되어야 한다. 따라서, 목표 통신 범위(Target Communication Range, TCR) 내에서 성능을 최적화할 수 있는 제어 장치가 요구되고 있는 실정이다.
본 발명은 분산전력제어 장치 및 방법에 있어서, 목표 통신 범위 내에서 성능을 최적화할 수 있는 심층 강화학습 기반 분산전력제어 장치 및 방법을 제공하는 것을 목적으로 한다.
상기 목적을 달성하기 위하여 본 발명은, 목표 통신 범위에 있는 VUE(Vehicular user equipment)의 정보를 수집하는 데이터 수집부; 상기 데이터 수집부에서 수집한 정보로 계산된 서브 채널의 누적 간섭 전력과 에이전트 VUE의 개별전력 레벨을 심층 강화학습 기반 신경망 모델에 적용하여 목표 통신 범위 내에서 최적의 PDR(packet delivery ratio)을 결정하는 학습부; 및 상기 학습부에서 결정된 최적의 PDR을 갖도록 VUE의 개별전력을 제어하는 제어부;를 포함하여, 목표 통신 범위 내에서 통신 성능을 최적화하는 것을 일 특징으로 한다.
바람직하게는, 상기 데이터 수집부는, 수집한 정보가 송신 전력, 송신 안테나 이득, 수신 안테나 이득, 1m에서의 경로 손실치, 손실지수, 및 VUE 사이의 거리 중 적어도 어느 하나일 수 있다.
바람직하게는, 상기 학습부는, MCPG(Monte Carlo Policy Gradient) 알고리즘을 이용한 심층 강화학습 기반 신경망 모델을 이용할 수 있다.
바람직하게는, 상기 학습부는, 심층 강화학습 기반 신경망 모델에서 상태는 서브 채널의 누적 간섭 전력, 행동은 에이전트 VUE의 개별전력 레벨, 보상은 목표 통신 범위 내에서의 PDR로 할 수 있다.
바람직하게는, 상기 학습부는, 에이전트 VUE의 개별전력 레벨을 10 내지 23 dBm으로 할 수 있다.
또한 본 발명은, 목표 통신 범위에 있는 VUE(Vehicular user equipment)의 송신 전력, 송신 안테나 이득, 수신 안테나 이득, 1m에서의 경로 손실치, 손실지수, 및 VUE 사이의 거리 중 적어도 어느 하나를 수집하는 데이터 수집 단계; 상기 데이터 수집 단계에서 수집한 데이터로 계산된 서브 채널의 누적 간섭 전력과 에이전트 VUE의 개별전력 레벨을 심층 강화학습 기반 신경망 모델에 적용하여 목표 통신 범위 내에서 최적의 PDR(packet delivery ratio)을 결정하는 학습 단계; 및 상기 학습 단계에서 결정된 최적의 PDR을 갖도록 VUE의 개별전력을 제어하는 제어 단계;를 포함하여, 목표 통신 범위 내에서 통신 성능을 최적화하는 것을 다른 특징으로 한다.
본 발명에 따르면, 학습부에서 MCPG(Monte Carlo Policy Gradient)를 기반으로 한 심층강화학습을 사용하여 필요한 목표 통신 범위에 따라 전력레벨을 적응적으로 선택하여 기존 기술보다 에너지 효율 및 PDR(Pocket Delivery Ratio) 측면에서 더 나은 성능을 제공한다는 이점이 있다.
도 1은 본 발명의 실시예에 따른 V2X 통신환경을 나타낸다.
도 2는 5G NR V2X의 통신 방식의 실시예로서, 도 2의 (a)는 브로드캐스트 방식을 나타내고, 도 2의 (b)는 유니캐스트 방식을 나타내고, 도 2의 (c)는 멀티캐스트 방식을 나타내다.
도 3은 본 발명의 실시예에 따른 분산전력제어 장치의 구성도를 나타낸다.
도 4는 본 발명의 실시예에 따른 차량 간 통신을 위한 SB-SPS 구조를 나타낸다.
도 5는 본 발명의 실시예에 따른 강화학습 기반 신경망 모델의 구조도를 나타낸다.
도 6은 본 발명의 실시예에 따른 에피소드 진행되는 동안의 목표 통신 범위 내에서의 평균 PDR을 나타낸다.
도 7은 본 발명의 실시예에 따른 에피소드 진행되는 동안의 거리에 따른 PDR의 성능을 나타낸다.
도 8은 본 발명의 실시예에 따른 에피소드 진행되는 동안의 평균 전력을 나타낸다.
도 9는 본 발명의 실시예에 따른 분산전력제어 장치의 세 가지 간섭 영역에 대한 전송 전력의 CDF를 나타낸다.
이하, 첨부된 도면들에 기재된 내용들을 참조하여 본 발명을 상세히 설명한다. 다만, 본 발명이 예시적 실시 예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일 참조부호는 실질적으로 동일한 기능을 수행하는 부재를 나타낸다.
본 발명의 목적 및 효과는 하기의 설명에 의해서 자연스럽게 이해되거나 보다 분명해 질 수 있으며, 하기의 기재만으로 본 발명의 목적 및 효과가 제한되는 것은 아니다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이, 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다.
도 3은 본 발명의 실시예에 따른 분산전력제어 장치(10)의 구성도를 나타낸다. 도 3을 참조하면, 분산전력제어 장치(10)는 데이터 수집부(100), 학습부(300), 및 제어부(500)를 포함할 수 있다. 분산전력제어 장치(10)는 상기 구성을 포함하여 목표 통신 범위 내에서 통신 성능을 최적화할 수 있다.
분산전력제어 장치(10)는 무선 통신 기술, 차랑 네트워크에 적용가능한 심층 강화학습(Deep, Reinforcement Learning, DRL) 알고리즘을 이용할 수 있다. 분산전력제어 장치(10)는 기존에 시도된바 없는 C-V2X에 대한 DCC 전력제어에 심층 강화학습을 사용할 수 있다.
분산전력제어 장치(10)는 C-V2X DCC 전원 제어를 위해 심층 강화학습을 사용할 수 있다. 분산전력제어 장치(10)는 DCC 알고리즘에 존재하지 않는 목표 통신 범위(TCR) 개념이 적용될 수 있다. 분산전력제어 장치(10)는 주어진 목표 통신 범위에 따라 전력 레벨을 적응적으로 선택하여 기존 기술보다 에너지 효율 및 PDR(Packet Delivery Ratio) 측면에서 더 나은 성능을 제공할 수 있다.
분산전력제어 장치(10)는 10MHz 및 20MHz 채널을 지원하고, 단일 반송파 주파수 분할 다중 액세스를 사용하는 셀룰러 차량 간 통신에 적용될 수 있다. VUE간 통신에 사용되는 각 채널은 1ms 서브 프레임, 자원 블록(RB), 및 서브 채널로 구분될 수 있다. 자원 블록은 셀룰러 사용자에게 할당할 수 있는 가장 작은 주파수 단위 자원이다. 서브 채널은 동일한 서브 프레임 내에서의 자원 블록 그룹이다. 패킷(ex, CAM)은 메시지 크기 및 MCS(Modulation Coding Scheme)에 따라 하나 이상의 서브 채널을 통해 전송될 수 있다. 각 차량 사용자 장비(VUE)는 SB-SPS를 사용하여 CAM 전송을 위한 서브채널을 예약할 수 있다.
VUE는 에이전트 VUE와 주변 VUE로 구분될 수 있다. VUE는 모두 독립적인 신경망을 통해 학습될 수 있다. 각 VUE는 에이전트 VUE임과 동시에 주변 VUE가 될 수 있다. 즉, 분산전력제어 장치(10)는 다중 에이전트로 구성될 수 있다.
도 4는 본 발명의 실시예에 따른 차량 간 통신을 위한 SB-SPS 구조를 나타낸다. 도 4를 참조하면, VUE는 주어진 CAM 전송 주기
Figure pat00001
내에서 n번째 서브 프레임의 s번째 서브 채널을 예약하여 CAM을 브로드캐스트할 수 있다. S는 해당 주파수에서 패킷을 브로드캐스트하는 데 필요한 서브채널의 집합이다(S=[s|s=1,2,...,S]). n은 n번째 서브 프레임이고, N=[n|n=1,2,...,N]으로 정의되는 서브 프레임 인덱스이다. VUE는 센싱 윈도우
Figure pat00002
동안 사이드링크를 통해 서브 채널의 S-RSSI(Sidelink-Received Signal Strength Indication) 값을 측정할 수 있다. VUE는 재선택 기간
Figure pat00003
Figure pat00004
에서 서브 채널을 더 낮은 S-RSSI 값을 갖는 서브 채널로 변경할 수 있다.
SINR(signal-to-interference-plus-noise)은 패킷의 성공적인 수신을 결정할 수 있다. M=[m|m=1,2,...,M]으로 정의되는 M VUEs의 V2V 통신에서 m번째 VUE는 n번째 서브 프레임의 s번째 서브 채널을 사용하여 패킷을 브로드캐스트할 수 있다.
[수학식 1]
Figure pat00005
K번째 VUE에서 SINR은 [수학식 1]로 표현될 수 있으며, 여기서
Figure pat00006
은 잡음 전력이다. 계산된
Figure pat00007
가 MCS에 의해 결정된 임계값
Figure pat00008
보다 낮으면 패킷은 오류로 평가될 수 있다.
[수학식 2]
Figure pat00009
k번째 VUE가 m번째 VUE로부터 수신한 전력은 [수학식 2]이고, 여기서
Figure pat00010
은 송신 전력,
Figure pat00011
는 송신 안테나 이득,
Figure pat00012
은 수신 안테나 이득,
Figure pat00013
는 1m에서의 경로 손실,
Figure pat00014
는 두 VUE 사이의 거리,
Figure pat00015
는 손실 지수이다.
[수학식 3]
Figure pat00016
m번째 VUE와 동일한 서브 채널을 점유하는 VUE에 의해 발생되는 누적 간섭 전력은 [수학식 3]이고, 여기서
Figure pat00017
은 m번째 VUE와 동일한 s번째 서브 채널을 사용하는 VUE의 집합이다.
PDR(Packet Delivery Ratio)은 통신 성능의 핵심 지표가 될 수 있다.
[수학식 4]
Figure pat00018
m번째 VUE가 n번째 서브 프레임의 s번째 서브 채널을 사용하여 패킷을 브로드캐스트하는 경우 PDR은 [수학식 4]로 계산할 수 있다. 여기서,
Figure pat00019
[n,s]는 n번째 서프 프레임의 s번째 서브 채널을 통해 커버리지를 위해 브로드캐스트된 총 패킷의 수이다.
Figure pat00020
[n,s]는
Figure pat00021
[n,s] 패킷 중 성공적으로 수신된 패킷의 수이다. 따라서,
Figure pat00022
[n,s]는
Figure pat00023
[n,s]를 초과할 수 없으며,
Figure pat00024
[n,s]의 최대값은 1이다.
전력제어는 V2V 통신에서 SINR에 직접적인 영향을 미칠 수 있다. 에이전트 VUE가 높은 전력을 사용할수록 주변 VUE에 더 높은 전력 간섭이 발생할 수 있다. 에이전트 VUE가 낮은 전력을 사용할수록 SINR이 감소할 수 있다. 따라서, 각 VUE는 적절한 양의 전력을 사용해야 한다.
[수학식 5]
Figure pat00025
따라서, 본 발명의 실시예인 분산전력제어 장치(10)는 주어진 목표 통신 범위(TCR) 내에서 PDR을 최대화해야 한다. 이를 공식화하면 [수학식 5]가 되고, 여기서
Figure pat00026
는 목표 통신 범위(TCR),
Figure pat00027
[n,s,
Figure pat00028
]는 n번째 서브 프레임의 s번째 서브 채널을 통해
Figure pat00029
으로 브로드캐스트되는 패킷 수이고,
Figure pat00030
[n,s,
Figure pat00031
]는
Figure pat00032
[n,s,
Figure pat00033
] 패킷 중 성공적으로 수신된 패킷 수이다. P1은 전력제어를 통해
Figure pat00034
내의 모든 VUE의 평균 PDR을 최대화하는 것과 같다. C1는 전력 레벨 조건이다.
분산전력제어 장치(10)는
Figure pat00035
Figure pat00036
사이에서 P1을 최적화하기 위해 심층 강화학습을 사용한다. 이하에서는 상기 문제를 해결하고 목적을 달성하기 위한 분산전력제어 장치(10)의 각 구성에 대해 설명한다.
데이터 수집부(100)는 목표 통신 범위에 있는 VUE(Vehicular user equipment)의 정보를 수집할 수 있다. 데이터 수집부(100)는 수집한 정보를 주변 VUE에 의한 서브 채널의 누적 간섭 전력을 계산하는데 사용할 수 있도록 학습부(300)에 제공할 수 있다.
데이터 수집부(100)는 수집한 정보가 송신 전력, 송신 안테나 이득, 수신 안테나 이득, 1m에서의 경로 손실치, 손실지수, 및 VUE 사이의 거리 중 적어도 어느 하나일 수 있다.
학습부(300)는 데이터 수집부(100)에서 수집한 데이터로 계산된 서브 채널의 누적 간섭 전력과 에이전트 VUE의 개별전력 레벨을 심층 강화학습 기반 신경망 모델에 적용하여 목표 통신 범위 내에서 최적의 PDR(packet delivery ratio)을 결정할 수 있다. 학습부(300)는 제어부(500)에서 최적의 PDR을 갖게 하는 VUE의 개별전력을 제어할 수 있도록 목표 통신 범위 내에서 최적의 PDR을 제공할 수 있다.
학습부(300)는 MCPG(Monte Carlo Policy Gradient) 알고리즘을 이용한 심층 강화학습 기반 신경망 모델을 이용할 수 있다. 학습부(300)는 심층 강화학습을 위해 많은 수의 전력 레벨을 사용해야 하므로 이에 적합한 MCPG 알고리즘을 사용할 수 있다.
도 5는 본 발명의 실시예에 따른 강화학습 기반 신경망 모델의 구조도를 나타낸다. 도 5를 참조하면, 학습부(300)는 MCPG 알고리즘에서 시간 t에서 상태
Figure pat00037
를 입력하여
Figure pat00038
조치를 취하고 정책
Figure pat00039
에 대한 보상
Figure pat00040
를 받을 수 있다.
[수학식 6]
Figure pat00041
학습부(300)는 MCPG 알고리즘의 목적 함수를 [수학식 6]으로 할 수 있다. 즉, MCPG 알고리즘의 목적 함수는 에피소드의 시작시간 t부터 종료시간 T까지의 보상 기댓값을 의미하고, 여기서
Figure pat00042
는 임의의 시작 상태이다.
[수학식 7]
Figure pat00043
학습부(300)는 보상을 최대화하기 위한 최적 정책을 [수학식 7]로 할 수 있고, 여기서
Figure pat00044
는 신경망 가중치이다.
학습부(300)는 MCPG(Monte Carlo Policy Gradient) 알고리즘을 이용한 심층 강화학습 기반 신경망 모델을 다음과 같은 세 단계로 학습시킬 수 있다.
[수학식 8]
Figure pat00045
첫 번째로, 학습부(300)는
Figure pat00046
미만의 에피소드를 경험하고 [수학식 8]과 같이 궤적을 메모리에 저장할 수 있다.
[수학식 9]
Figure pat00047
[수학식 10]
Figure pat00048
[수학식 11]
Figure pat00049
두 번째로, 학습부(300)는
Figure pat00050
가 최대화되도록
Figure pat00051
를 업데이트하기 위해 정책 기울기 정리에 정의된 대로
Figure pat00052
의 기울기
Figure pat00053
가 증가하는 방향으로
Figure pat00054
를 업데이트할 수 있다. 구체적으로,
Figure pat00055
는 [수학식 9]와 같이 정의될 수 있다. 여기서,
Figure pat00056
는 정책
Figure pat00057
에 따라 상태
Figure pat00058
에서
Figure pat00059
조치에 대한 기댓값이다.
Figure pat00060
이므로,
Figure pat00061
는 최종적으로 [수학식 10]과 같이 정의될 수 있다. 여기서,
Figure pat00062
는 에피소드의 반환이며 [수학식 11]로 계산될 수 있다.
[수학식 12]
Figure pat00063
세 번째로, 학습부(300)는 [수학식 12]와 같이 기울기 상승 방법을 사용하여
Figure pat00064
를 업데이트하여 [수학식 7]과 같은 최적의 정책을 얻을 수 있다. [수학식 11]과 [수학식 12]에서
Figure pat00065
이고,
Figure pat00066
Figure pat00067
는 각각 학습률과 할인율이다.
학습부(300)는 각 에피소드에 대해 첫 번째 단계에서 세 번째 단계를 반복하여
Figure pat00068
를 최적화할 수 있다.
학습부(300)는 심층 강화학습 기반 신경망 모델에서 상태(
Figure pat00069
)는 서브 채널의 누적 간섭 전력, 행동(
Figure pat00070
)은 에이전트 VUE의 개별전력 레벨, 보상(
Figure pat00071
)은 목표 통신 범위 내에서의 PDR로 할 수 있다.
[수학식 13]
Figure pat00072
학습부(300)는 m번째 서브 채널의 누적 간섭 전력을 [수학식 13]과 같이 설정할 수 있다.
[수학식 14]
Figure pat00073
학습부(300)는 에이전트 VUE의 개별전력 레벨을 10 내지 23dBm으로 할 수 있다. 학습부(300)는 3GPP 문서를 참조하여
Figure pat00074
의 값을 [수학식 14]와 같이 설정할 수 있다.
[수학식 15]
Figure pat00075
학습부(300)는
Figure pat00076
이내의 통신 성능을 최적화하기 위해
Figure pat00077
를 [수학식 15]와 같이 설정할 수 있다. [수학식 15]는
Figure pat00078
이내의 PDR을 의미한다.
제어부(500)는 학습부(300)에서 결정된 최적의 PDR을 갖도록 VUE의 개별전력을 제어할 수 있다. 제어부(500)는 최적의 PDR을 갖도록하는 VUE의 개별전력 레벨을 10 내지 23dBm 사이에서 조절할 수 있다.
본 발명의 또 다른 실시예로 분산전력제어 방법은 데이터 수집 단계, 학습 단계, 및 제어 단계를 포함할 수 있다. 분산전력제어 방법은 상기 구성을 포함하여 목표 통신 범위 내에서 통신 성능을 최적화할 수 있다.
데이터 수집 단계는 목표 통신 범위에 있는 VUE(Vehicular user equipment)의 송신 전력, 송신 안테나 이득, 수신 안테나 이득, 1m에서의 경로 손실치, 손실지수, 및 VUE 사이의 거리 중 적어도 어느 하나를 수집할 수 있다. 데이터 수집 단계는 전술한 데이터 수집부(100)에서 수행되는 동작을 의미한다.
학습 단계는 데이터 수집 단계에서 수집한 데이터로 계산된 서브 채널의 누적 간섭 전력과 에이전트 VUE의 개별전력 레벨을 심층 강화학습 기반 신경망 모델에 적용하여 목표 통신 범위 내에서 최적의 PDR(packet delivery ratio)을 결정할 수 있다. 학습 단계는 전술한 학습부(300)에서 수행되는 동작을 의미한다.
제어 단계는 학습 단계에서 결정된 최적의 PDR을 갖도록 VUE의 개별전력을 제어할 수 있다. 제어 단계는 전술한 제어부(500)에서 수행되는 동작을 의미한다.
이하에서는 본 발명의 성능 평가를 위해 다른 알고리즘과 비교 실험한 시뮬레이션 결과를 설명한다. 분산전력제어 장치(10)를 평가하기 위해 LTEV2Vsim 시뮬레이터를 사용하였다. 본 시뮬레이션에서는 1차원 포아송 분포에 따라 차량이 1km 도로에 배치될 수 있다. VUE는 10Hz의 전송 속도를 사용하며 SB-SPS는 분산 스케줄링에 사용될 수 있다. 채널 혼잡 레벨을 측정하기 위해 각 VUE는 점유된 서브 채널의 간섭 전력을 측정할 수 있다고 가정하였다. 시뮬레이션에 사용한 매개변수의 값은 아래 TABLE Ⅰ과 같다.
Figure pat00079
분산전력제어 장치(10)에서 사용하는 알고리즘과 기존 알고리즘을 비교하기 위해 J2945/1의 전력제어와 SBPA(Sensing Based Power Adaptation) 알고리즘을 살펴본다.
[수학식 16]
Figure pat00080
J2945/1의 전력제어 알고리즘은 전력 레벨을 선형적으로 결정하는 CBR(Channel Busy Ratio) 값을 사용한다. J2945/1의 전력제어 알고리즘은 CBR 값이 클수록 전력 레벨이 낮아진다. J2945/1의 전력제어 알고리즘에서는 구체적으로 전력 레벨을 [수학식 16]과 같이 계산한다.
[수학식 17]
Figure pat00081
SBPA 알고리즘은 C-V2X 모드 4를 기반으로 한다. SBPA 알고리즘은 각 VUE가 서브 채널을 다시 선택할 때 전력 레벨을 할당한다. VUE는 새로 선택된 자원의 S-RSSI를 통해 간섭 Ⅰ을 추정한다. SBPA 알고리즘에 의해 할당된 전력 레벨은 [수학식 17]과 같이 계산된다. 여기서 시스템 매개변수 TH는 시뮬레이션에 의해 결정될 수 있는 임계값이다.
도 6은 본 발명의 실시예에 따른 에피소드 진행되는 동안의 목표 통신 범위 내에서의 평균 PDR을 나타낸다. 도 6을 참조하면,
Figure pat00082
=200m의 경우 J2945/1은 SBPA보다 약 5% 낮은 최저의 평균 PDR 성능을 보인다. 반면, 분산전력제어 장치(10)는 SBPA보다 약 2% 높은 최고의 평균 PDR 성능을 보인다.
Figure pat00083
=500m의 경우 J2945/1은 최저의 평균 PDR 성능을 보인다. 반면, 분산전력제어 장치(10)는 학습이 진행됨에 따라 약 600개의 에피소드 후에는 SBPA와 동일한 PDR의 성능을 보인다.
도 7은 본 발명의 실시예에 따른 에피소드 진행되는 동안의 거리에 따른 PDR의 성능을 나타낸다. 도 7을 참조하면,
Figure pat00084
=200m의 경우 J2945/1은 약 80m 거리까지 우수한 PDR 성능을 보이지만 거리가 멀이질수록 PDR 성능이 급격히 저하된다. 반면, SBPA는 80m 거리까지는 최저 PDR 성능을 보이지만 거리가 멀어질수록 PDR 성능이 향상된다. 분산전력제어 장치(10)는 80m 거리까지는 J2945/1과 PDR 성능이 동등하고, 거리가 멀어질수록 SBPA와 PDR 성능이 동등해진다. 이를 통해, 분산전력제어 장치(10)는 PDR 측면에서 좋은 성능을 가짐을 알 수 있다.
도 8은 본 발명의 실시예에 따른 에피소드 진행되는 동안의 평균 전력을 나타낸다. 도 8을 참조하면, J2945/1 알고리즘은 높은 CBR 값 때문에 가장 낮은 평균 전력을 사용한다. SBPA 알고리즘은 모든 에피소드에서 가장 높은 평균 전력(23dBm에 가까움)을 사용한다. 분산전력제어 장치(10)는
Figure pat00085
에 따라 시뮬레이션 값이 달라진다. 분산전력제어 장치(10)는
Figure pat00086
=200m 및
Figure pat00087
=500m의 경우 초기 신경망의 전력 확률 분포가 균일하기 때문에 초기 평균 전력은 약 16.5dBm이다. 분산전력제어 장치(10)는
Figure pat00088
=200m의 경우 약 19dBm의 평균 전력을 사용한다. 분산전력제어 장치(10)는
Figure pat00089
=500m의 경우 약 22dBm의 평균 전력을 사용한다. 본 시뮬레이션에서
Figure pat00090
=200m의 경우 초기 평균 전력이 16.5dBm에서 19dBm으로 수렴되기 때문에 평균 PDR의 증가가 학습 진행만큼 크지는 않다. 이러한 결과는 분산전력제어 장치(10)가
Figure pat00091
에 대해 적응적으로 전력을 사용한다는 것을 보여주므로 다른 알고리즘보다 에너지 효율적임을 알 수 있다.
도 9는 본 발명의 실시예에 따른 분산전력제어 장치의 세 가지 간섭 영역에 대한 전송 전력의 CDF를 나타낸다. 도 9를 참조하면, 에이전트 VUE는
Figure pat00092
=200m보다
Figure pat00093
=500m에 더 높은 전력을 사용한다. 또한 누적 간섭이 클수록 전력 레벨이 높음을 알 수 있다. 이러한 VUE의 행동 정책은 PDR이 최대화될 수 있도록 높은 간섭에서 높은 전력을 사용하는 것으로 분석된다.
상기 시뮬레이션 결과를 통해, 분산전력제어 장치(10)는 기존 전력제어 및 DCC 알고리즘에서 사용되지 않은 TCR의 개념을 도입하고 TCR에 따라 전력을 적응적으로 제어함을 알 수 있다. 분산전력제어 장치(10)는 TCR에 따라 최대 3dBm 더 낮은 전력을 사용하여 더 향상되거나 동등한 평균 PDR 성능을 나타낸다. 이로 인해, 분산전력제어 장치(10)는 PDR 및 에너지 효율 측면에서 우수함이 입증되었다고 볼 수 있다.
이상에서 대표적인 실시예를 통하여 본 발명을 상세하게 설명하였으나, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리 범위는 설명한 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 특허청구범위와 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태에 의하여 정해져야 한다.
10 : 분산전력제어 장치
100 : 데이터 수집부
300 : 학습부
500 : 제어부

Claims (6)

  1. 목표 통신 범위에 있는 VUE(Vehicular user equipment)의 정보를 수집하는 데이터 수집부;
    상기 데이터 수집부에서 수집한 정보로 계산된 서브 채널의 누적 간섭 전력과 에이전트 VUE의 개별전력 레벨을 심층 강화학습 기반 신경망 모델에 적용하여 목표 통신 범위 내에서 최적의 PDR(packet delivery ratio)을 결정하는 학습부; 및
    상기 학습부에서 결정된 최적의 PDR을 갖도록 VUE의 개별전력을 제어하는 제어부;를 포함하여,
    목표 통신 범위 내에서 통신 성능을 최적화하는 분산전력제어 장치.
  2. 제 1 항에 있어서,
    상기 데이터 수집부는,
    수집하는 정보가 송신 전력, 송신 안테나 이득, 수신 안테나 이득, 1m에서의 경로 손실치, 손실지수, 및 VUE 사이의 거리 중 적어도 어느 하나인 것을 특징으로 하는 분산전력제어 장치.

  3. 제 1 항에 있어서,
    상기 학습부는,
    MCPG(Monte Carlo Policy Gradient) 알고리즘을 이용한 심층 강화학습 기반 신경망 모델을 이용하는 것을 특징으로 하는 분산전력제어 장치.
  4. 제 1 항에 있어서,
    상기 학습부는,
    심층 강화학습 기반 신경망 모델에서 상태는 서브 채널의 누적 간섭 전력, 행동은 에이전트 VUE의 개별전력 레벨, 보상은 목표 통신 범위 내에서의 PDR로 하는 것을 특징으로 하는 분산전력제어 장치.
  5. 제 3 항에 있어서.
    상기 학습부는,
    에이전트 VUE의 개별전력 레벨을 10 내지 23 dBm으로 하는 것을 특징으로 하는 분산전력제어 장치.
  6. 목표 통신 범위에 있는 VUE(Vehicular user equipment)의 송신 전력, 송신 안테나 이득, 수신 안테나 이득, 1m에서의 경로 손실치, 손실지수, 및 VUE 사이의 거리 중 적어도 어느 하나를 수집하는 데이터 수집 단계;
    상기 데이터 수집 단계에서 수집한 데이터로 계산된 서브 채널의 누적 간섭 전력과 에이전트 VUE의 개별전력 레벨을 심층 강화학습 기반 신경망 모델에 적용하여 목표 통신 범위 내에서 최적의 PDR(packet delivery ratio)을 결정하는 학습 단계; 및
    상기 학습 단계에서 결정된 최적의 PDR을 갖도록 VUE의 개별전력을 제어하는 제어 단계;를 포함하여,
    목표 통신 범위 내에서 통신 성능을 최적화하는 분산전력제어 방법.
KR1020210167920A 2021-11-30 2021-11-30 차량 간 통신 최적화를 위한 심층 강화학습 기반 분산전력제어 장치 및 방법. KR102636756B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210167920A KR102636756B1 (ko) 2021-11-30 2021-11-30 차량 간 통신 최적화를 위한 심층 강화학습 기반 분산전력제어 장치 및 방법.

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210167920A KR102636756B1 (ko) 2021-11-30 2021-11-30 차량 간 통신 최적화를 위한 심층 강화학습 기반 분산전력제어 장치 및 방법.

Publications (2)

Publication Number Publication Date
KR20230080588A true KR20230080588A (ko) 2023-06-07
KR102636756B1 KR102636756B1 (ko) 2024-02-19

Family

ID=86761290

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210167920A KR102636756B1 (ko) 2021-11-30 2021-11-30 차량 간 통신 최적화를 위한 심층 강화학습 기반 분산전력제어 장치 및 방법.

Country Status (1)

Country Link
KR (1) KR102636756B1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180112393A (ko) * 2017-04-03 2018-10-12 주식회사 웨이티즈 V2x 통신 시스템의 통신 성능 분석 방법 및 그를 수행하는 분석 시스템
KR102257536B1 (ko) 2019-12-02 2021-05-31 한국교통대학교산학협력단 강화학습 기반 신경망 모델을 이용한 vanet의 분산혼잡제어 방법 및 장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180112393A (ko) * 2017-04-03 2018-10-12 주식회사 웨이티즈 V2x 통신 시스템의 통신 성능 분석 방법 및 그를 수행하는 분석 시스템
KR102257536B1 (ko) 2019-12-02 2021-05-31 한국교통대학교산학협력단 강화학습 기반 신경망 모델을 이용한 vanet의 분산혼잡제어 방법 및 장치

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Deep Reinforcement Learning-Based Distributed Congestion Control in Cellular V2X Networks", IEEE Wireless Communications Letters ( Volume: 10, Issue: 11, November 2021)(2021.08.30.)* *
Dongji Li외 2명, "Deep Reinforcement Learning-Empowered Resource Allocation for Mobile Edge Computing in Cellular V2X Networks", Sensors 2021, 21(2), 372(2021.01.07.)* *

Also Published As

Publication number Publication date
KR102636756B1 (ko) 2024-02-19

Similar Documents

Publication Publication Date Title
Nabil et al. Performance analysis of sensing-based semi-persistent scheduling in C-V2X networks
Botsov et al. Location dependent resource allocation for mobile device-to-device communications
Toghi et al. Analysis of distributed congestion control in cellular vehicle-to-everything networks
JP4627312B2 (ja) 広帯域無線アクセスシステムの接続承認の制御方法及びその装置
CN101626622A (zh) 上行链路无线电资源控制方法、基站设备和无线电网络控制器
JP2019533364A (ja) データ送信方法及びその端末デバイス
Choi et al. Deep reinforcement learning-based distributed congestion control in cellular V2X networks
US20210385844A1 (en) Scheduling method for sidelink communication, terminal apparatus, and network apparatus
Gu et al. Multiagent reinforcement learning-based semi-persistent scheduling scheme in c-v2x mode 4
Videv et al. Resource allocation for energy efficient cellular systems
US9769837B2 (en) Resource allocation method in wireless communication system and apparatus using the same
Masmoudi et al. Efficient radio resource management for D2D-based LTE-V2X communications
Roshdi et al. Deep reinforcement learning based congestion control for V2X communication
Trichias et al. Modeling and evaluation of LTE in intelligent transportation systems
Sabeeh et al. C-V2X mode 4 resource allocation in high mobility vehicle communication
Sharma et al. Context aware autonomous resource selection and Q-learning based power control strategy for enhanced cooperative awareness in LTE-V2V communication
CN111741450A (zh) 网络流量预测方法、装置和电子设备
CN116582860A (zh) 一种基于信息年龄约束的链路资源分配方法
EP2250850B1 (en) Channel selection in an ad hoc wireless network
Mosavat-Jahromi et al. NC–MAC: a distributed MAC protocol for reliable beacon broadcasting in V2X
Sabeeh et al. Congestion control in autonomous resource selection of cellular-v2x
Fouda et al. Interleaved one-shot semi-persistent scheduling for BSM transmissions in C-V2X networks
Li et al. A traffic flow-based and dynamic grouping-enabled resource allocation algorithm for LTE-D2D vehicular networks
Bhadauria et al. A deep reinforcement learning: Location-based resource allocation for congested C-V2X scenario
CN111132298B (zh) 一种功率分配方法和装置

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right