KR102346653B1 - 강화학습 기반 uav 애드혹 네트워크 중계 시스템 - Google Patents

강화학습 기반 uav 애드혹 네트워크 중계 시스템 Download PDF

Info

Publication number
KR102346653B1
KR102346653B1 KR1020200059908A KR20200059908A KR102346653B1 KR 102346653 B1 KR102346653 B1 KR 102346653B1 KR 1020200059908 A KR1020200059908 A KR 1020200059908A KR 20200059908 A KR20200059908 A KR 20200059908A KR 102346653 B1 KR102346653 B1 KR 102346653B1
Authority
KR
South Korea
Prior art keywords
node
ground
public
ground node
routing
Prior art date
Application number
KR1020200059908A
Other languages
English (en)
Other versions
KR20210143021A (ko
Inventor
한명훈
노봉수
함재현
Original Assignee
국방과학연구소
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 국방과학연구소 filed Critical 국방과학연구소
Priority to KR1020200059908A priority Critical patent/KR102346653B1/ko
Publication of KR20210143021A publication Critical patent/KR20210143021A/ko
Application granted granted Critical
Publication of KR102346653B1 publication Critical patent/KR102346653B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W40/00Communication routing or communication path finding
    • H04W40/02Communication route or path selection, e.g. power-based or shortest path routing
    • H04W40/22Communication route or path selection, e.g. power-based or shortest path routing using selective relaying for reaching a BTS [Base Transceiver Station] or an access point
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/18502Airborne stations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/02Topology update or discovery
    • H04L45/08Learning-based routing, e.g. using neural networks or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/12Shortest path evaluation
    • H04L45/125Shortest path evaluation based on throughput or bandwidth
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W40/00Communication routing or communication path finding
    • H04W40/02Communication route or path selection, e.g. power-based or shortest path routing
    • H04W40/12Communication route or path selection, e.g. power-based or shortest path routing based on transmission quality or channel quality
    • H04W40/14Communication route or path selection, e.g. power-based or shortest path routing based on transmission quality or channel quality based on stability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W84/00Network topologies
    • H04W84/18Self-organising networks, e.g. ad-hoc networks or sensor networks

Abstract

본 발명은 애드혹 네트워크 중계 시스템에 관한 것으로, 네트워크에 진입하면 목적지 노드로의 경로를 탐색하고, 경로가 탐색되면 상기 공중 노드로부터 수신된 라우팅 파라메터에 근거하여 서로 다른 라우팅 방식으로 패킷이 전송되도록 정의된 라우팅 정책 영역들을 식별 및, 상기 공중 노드의 부하도 상태와 전송할 패킷의 중요도에 따라 상기 라우팅 정책 영역 중 어느 하나에 따라 지상 노드 또는 공중 노드로 패킷을 전송하는 복수의 지상 노드와, 상기 지상 노드로부터 패킷이 전송되는 경우 이를 수신하여 공중 경로를 통해 목적지 노드로 패킷을 전송하며, 상기 복수의 지상 노드가 브로드캐스팅하는 메시지들로부터 취합된 지상 노드의 부하도 상태를 산출 및 공중망의 부하도 상태를 산출하고, 산출된 부하도 상태들에 근거하여 상기 라우팅 정책 영역들 간의 경계를 결정하기 위한 상기 라우팅 파라메터를 결정하고 결정된 라우팅 파라메터를 지상 노드로 브로드캐스팅하는 적어도 하나의 공중 노드를 포함하는 것을 특징으로 한다.

Description

강화학습 기반 UAV 애드혹 네트워크 중계 시스템{SYSTEM FOR UAV ASSISTED RELAY AD-HOC NETWORK SYSTEM AND METHOD BASED ON REINFORCEMENT LEARNING}
본 발명은 무선 이동 에드혹 네트워크 환경에서 강화학습에 기반한 UAV 공중중계 애드혹 네트워크 중계 시스템에 관한 것이다.
에드혹 네트워크 환경은 기지국 등의 특정 인프라 구조 없이 분산적인 멀티홉 망(Multi hop network) 구조에서 자율적인 네트워크 환경 구성이 가능하다. 그러나 에드혹 네트워크의 이동성에 의한 동적 토폴로지 특성 및 지형ㅇ지물에 의한 성능열화는 네트워크의 안정적인 성능을 확보하기 어려운 문제점이 존재한다.
최근 UAV를 활용한 공중중계 운용을 통해 지상망 무선채널의 품질저하 및 가시선 제약을 극복하기 위한 연구가 활발하게 이루어지고 있다. 일반적으로 공중 노드를 활용하여 통신링크를 구성하는 경우 지상 노드와 명시적인 가시선(LoS: Line of Sight) 확보가 가능하므로 링크구성 시 무선채널 품질의 향상으로 인한 커버리지 확장을 기대할 수 있다. 또한 공중 노드의 고도에 따라 지형ㅇ지물에 의한 비가시선 지역에 대한 제약사항을 극복할 수 있으며, 대부분의 지상 노드에 대하여 2홉 내 연결이 가능한 네트워크 구성이 가능하다.
그러나 지상 에드혹 시스템의 UAV 공중중계 노드 운용 시 지형마찰이 적은 공중 노드의 링크가 지상 노드간 링크에 비해 상대적으로 양호한 무선품질 기반의 링크구성이 가능하고 홉 수가 현저히 낮으므로 라우팅 경로 상 지상망의 트래픽이 집중될 가능성이 높다. 지상망의 트래픽이 공중 노드에 집중되는 경우 공중 노드의 큐 혼잡(Queue Congestion) 및 전체 무선자원의 과점유가 유발될 수 있다.
그러므로 공중 노드와 지상 에드혹 시스템이 효과적으로 운용되기 위해서는 공중 노드에 집중되는 트래픽과 지상 노드 부하도를 고려한 분산 방안이 필수적으로 요구된다.
본 발명은 전술한 문제를 해결하기 위한 것으로, 본 발명은 지상 에드혹 시스템의 공중 노드 운용 시 트래픽을 효율적으로 분산하기 위하여 패킷의 중요도 및 공중 노드 경로존재 유무를 조건으로 공중중계 경로설정 여부를 결정하고, 공중 노드가 지상 노드 부하도 및 공중 노드 부하도를 인지하고, 강화학습을 통해 지상 노드 부하도의 임계값 이하이면서 지속적인 공중 노드의 네트워크 처리율을 극대화하고 신속한 수렴을 위한 보상함수를 통해 공중 노드에 집중되는 트래픽을 제어할 수 있는 UAV 애드혹 네트워크 중계 시스템을 제공하는 것이다.
상술한 목적을 달성하기 위한 본 발명의 실시 예에 따라 복수의 지상 노드와 적어도 하나의 공중 노드를 포함하는 네트워크 중계 시스템은, 네트워크에 진입하면 목적지 노드로의 경로를 탐색하고, 경로가 탐색되면 상기 공중 노드로부터 수신된 라우팅 파라메터에 근거하여 서로 다른 라우팅 방식으로 패킷이 전송되도록 정의된 라우팅 정책 영역들을 식별 및, 상기 공중 노드의 부하도 상태와 전송할 패킷의 중요도에 따라 상기 라우팅 정책 영역 중 어느 하나에 따라 지상 노드 또는 공중 노드로 패킷을 전송하는 복수의 지상 노드와, 상기 지상 노드로부터 패킷이 전송되는 경우 이를 수신하여 공중 경로를 통해 목적지 노드로 패킷을 전송하며, 상기 복수의 지상 노드가 브로드캐스팅 및 유니캐스팅하는 메시지들로부터 취합된 지상 노드의 부하도 상태를 산출 및 공중망의 부하도 상태를 산출하고, 산출된 부하도 상태들에 근거하여 상기 라우팅 정책 영역들 간의 경계를 결정하기 위한 상기 라우팅 파라메터를 결정하고 결정된 라우팅 파라메터를 지상 노드로 브로드캐스팅하는 적어도 하나의 공중 노드를 포함하는 것을 특징으로 한다.
일 실시 예에 있어서, 상기 라우팅 정책 영역은, 전송할 패킷의 중요도 및 공중 경로 유무에 따라 제1, 제2 내지 제3 정책 영역으로 구분되며, 상기 제1 정책 영역과 제2 정책 영역은 URPA_upper 파라메터에 따라 구분되고, 상기 제2 정책 영역과 제3 정책 영역은 URPA_lower 파라메터에 따라 구분되며, 상기 제1 정책 영역은 패킷의 중요도가 높은 트래픽의 공중 중계 경로만 존재하는 경우에만 공중 노드를 통해 패킷을 전송하는 라우팅 정책이 설정된 영역이고, 상기 제2 정책 영역은 패킷의 중요도는 고려하지 않고 공중 중계 경로만 존재하는 경우에만 공중 노드를 통해 패킷을 전송하는 라우팅 정책이 설정된 영역이며, 상기 제3 정책 영역은 패킷의 중요도 및 지상망 경로 유무를 고려하지 않고 모든 패킷을 공중 노드를 통해 전송하는 라우팅 정책이 설정된 영역임을 특징으로 한다.
일 실시 예에 있어서, 상기 지상 노드는, 라우팅 정책 영역에 따라 지상 노드로 패킷을 전송하는 경우, 요청된 시간 자원과 획득 가능한 시간 자원의 비율에 따라 상기 지상 노드의 부하도를 산출하는 것을 특징으로 한다.
일 실시 예에 있어서, 상기 지상 노드는, 상기 지상 노드의 부하도 상태를 나타내는 정보를 1비트의 크기를 가지는 메시지 필드에 마킹하여 전송하는 것을 특징으로 한다.
일 실시 예에 있어서, 상기 지상 노드는, 하기 수학식에 따라, 시간 구간별 가중치 값에 따른 시간구간별 개별 지상 노드 부하도의 합에 근거하여 상기 지상 노드 부하도를 산출하는 것을 특징으로 한다.
[수학식]
Figure 112020050497168-pat00001
여기서,
Figure 112020050497168-pat00002
는 개별 지상 노드 부하도의 합을, wi는 시간 구간별 가중치를, k는 시간 구간을 의미함.
일 실시 예에 있어서, 상기 지상 노드는, 하기 수학식과 같이, 산출된 개별 지상 노드의 부하도 합이 기 설정된 임계값을 초과하는지 여부에 근거하여, 상기 메시지 필드에 1 또는 0의 지상 부하도 상태값을 마킹하는 것을 특징으로 한다.
[수학식]
Figure 112020050497168-pat00003
여기서
Figure 112020050497168-pat00004
는 기 설정된 임계값을,
Figure 112020050497168-pat00005
는 개별 지상 노드 부하도의 합을 의미함.
일 실시 예에 있어서, 상기 공중 노드는, 엿듣기 특성을 사용하여 상기 복수의 지상 노드가 데이터 전송시 전송하는 상기 지상 노드 부하도 상태값을 취합하고, 임계값을 초과하는 지상 노드 부하도의 상태를 취합하여 취합된 지상 노드 부하도 상태를 산출하는 것을 특징으로 한다.
[수학식]
Figure 112020050497168-pat00006
여기서 N은 지상 노드의 개수를,
Figure 112020050497168-pat00007
는 지상 노드 상태값 중 1을 마킹한 지상 노드의 개수를 의미함.
일 실시 예에 있어서, 상기 공중 노드는, 하기 수학식에 따라, 평균 큐 길이와 시간에 따라 획득 가능한 시간 슬롯의 비율에 근거하여 공중 노드 부하도 상태를 산출하는 것을 특징으로 한다.
[수학식]
Figure 112020050497168-pat00008
여기서
Figure 112020050497168-pat00009
는 시간에 따른 공중 노드의 평균 큐 길이를,
Figure 112020050497168-pat00010
는 공중 노드의 시간에 따른 획득 가능한 시간슬롯을 의미함.
일 실시 예에 있어서, 상기 공중 노드는, 산출된 지상 노드 부하도 상태와 공중 노드 부하도 상태에 근거하여 상기 라우팅 정책 영역들을 결정하기 위한 서로 다른 보상 함수를 정의하고, 정의된 보상 함수를 반영하여 기 설정된 학습 기법에 따른 강화 학습을 수행하고, 수행된 강화 학습을 통해, 라우팅 정책 영역들을 구분하기 위한 상기 라우팅 파라메터를 결정하는 것을 특징으로 한다.
일 실시 예에 있어서, 상기 보상 함수는, 하기 수학식에 따른 긍정 보상을 위한 보상 함수임을 특징으로 한다.
[수학식]
Figure 112020050497168-pat00011
여기서 k는 척도계수(scale parameter),
Figure 112020050497168-pat00012
는 최대 보상값,
Figure 112020050497168-pat00013
Figure 112020050497168-pat00014
Figure 112020050497168-pat00015
에 따른 보상값을 결정하기 위한 보상제어함수(RCF: Reward Control Function)임.
일 실시 예에 있어서, 상기 보상 함수는, 하기 수학식에 따른 부정 보상을 위한 보상 함수임을 특징으로 한다.
[수학식]
Figure 112020050497168-pat00016
여기서 k는 척도계수(scale parameter),
Figure 112020050497168-pat00017
는 최대 보상값,
Figure 112020050497168-pat00018
Figure 112020050497168-pat00019
Figure 112020050497168-pat00020
에 따른 보상값을 결정하기 위한 보상제어함수(RCF: Reward Control Function)임.
일 실시 예에 있어서, 상기 보상제어함수는, 하기 수학식에 따라 공중 노드 부하도 상태(
Figure 112020050497168-pat00021
)와 사전에 정의된 공중 노드 부하도 임계값(
Figure 112020050497168-pat00022
), 지상 노드 부하도 상태(
Figure 112020050497168-pat00023
)와 사전에 정의된 지상 노드 부하도 임계값(
Figure 112020050497168-pat00024
), 공중 노드 부하도의 가중치 w1이, 지상 노드 부하도의 가중치 w2에 근거하여 결정되는 것을 특징으로 한다.
[수학식]
Figure 112020050497168-pat00025
일 실시 예에 있어서, 상기 공중 노드 부하도의 가중치 w1과 상기 지상 노드 부하도의 가중치 w2는, 라우팅 파라메터에 의해 구분되는 정책 영역의 특성에 따라 서로 다르게 결정되는 것을 특징으로 한다.
본 발명에 따른 UAV 애드혹 네트워크 중계 시스템의 효과에 대해 설명하면 다음과 같다.
본 발명의 실시 예들 중 적어도 하나에 의하면, 본 발명은 기존 라우팅 방법에 따른 공중 노드로의 트래픽 병목 문제를 해결할 수 있으며, 지상 노드 부하도 및 공중 노드 부하도에 따른 트래피의 효율적인 분산이 가능하다는 효과가 있다.
또한 본 발명의 실시 예들 중 적어도 하나에 의하면, 본 발명은 강화학습을 수행하고, 강화된 학습 결과를 보상 함수에 반영함으로써, 지속적인 공중 노드의 네트워크 처리율을 극대화하고 동적으로 변화하는 네트워크 환경에 빠른 적응이 가능하다는 효과가 있다.
도 1은 본 발명의 실시 예에 따라 지상 노드와 공중 노드로 구성되는 네트워크의 구조도이다.
도 2는 본 발명의 실시 예에 따라 지상 노드와 공중 노드의 동작 흐름을 도시한 흐름도이다.
도 3 및 도 4는 본 발명의 실시 예에 따라 지상 노드가 산출한 지상 노드 부하도에 따라 지상 노드 부하도의 상태를 나타내는 정보가 포함되는 메시지 헤더의 구조를 도시한 예시도이다.
도 5는 본 발명의 실시 예에 따라 지상 노드가 UAV로부터 수신되는 Hello 제어 패킷을 통해 정책 영역을 식별 및 트래픽이 적용될 정책 영역을 맵핑하는 동작 과정을 도시한 예시도이다.
도 6은 본 발명의 실시 예에 따라 공중 노드가 강화 학습을 통해 최적의 정책 영역을 결정하기 위한 Q-table의 예를 도시한 예시도이다.
본 명세서에서 사용되는 기술적 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아님을 유의해야 한다. 또한, 본 명세서에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다
본 명세서에서, "구성된다." 또는 "포함한다." 등의 용어는 명세서상에 기재된 여러 구성 요소들, 또는 여러 단계를 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.
또한, 본 명세서에 개시된 기술을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 기술의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
또한, 첨부된 도면은 본 명세서에 개시된 실시 예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 또한 이하에서 설명되는 각각의 실시 예들 뿐만 아니라, 실시 예들의 조합은 본 발명의 사상 및 기술 범위에 포함되는 변경, 균등물 내지 대체물로서, 본 발명의 사상 및 기술 범위에 해당될 수 있음은 물론이다.
우선 도 1은 본 발명의 실시 예에 따라 지상 노드와 공중 노드로 구성되는 네트워크의 구조도이다.
도 1에서 보이고 있는 바와 같이, 본 발명의 UAV 공중중계 에드혹 네트워크 시스템은 '지상 노드'와 공중 중계를 수행하는 '공중 노드'로 구성되는 네트워크 구조를 기반으로 운용될 수 있다.
한편 본 발명의 지상 노드 및 공중 노드 장치에 대한 전체적인 동작구조는 도 2에 도시된 흐름도와 같다. 그리고 도 3 및 도 4는 본 발명의 실시 예에 따라 지상 노드가 산출한 지상 노드 부하도에 따라 지상 노드 부하도의 상태를 나타내는 정보가 포함되는 메시지 헤더의 구조를 도시한 예시도이다.
도 2에서 보이고 있는 바와 같이, 지상 노드는 개별적으로 '지상 노드 부하도'를 산출하여 도 3에서 보이고 있는 Hello 메시지 헤더(브로드캐스트) 혹은 도 4에서 보이고 있는 데이터 메시지 헤더(유니캐스트) 전송 시 qGround 필드에 1Bit 정보를 지상 노드 부하도 상태 정보로서 마킹하여 전송할 수 있다.
한편 공중 노드는 지상 노드의 제어(RREQ/RREP) 및 데이터 메시지의 엿듣기(Overhearing)를 통해 해당정보를 취합할 수 있다. 따라서 데이터 메시지의 qGround 필드에 포함된 정보로부터 '지상 노드 부하도 상태'를 인지할 수 있다. 그러면 공중 노드는 인지한'지상 노드 부하도 상태'와, 공중 노드가 산출한 '공중 노드 부하도 상태'를 기반으로 강화학습을 통한 최적화를 수행하고, 최적화 수행 결과에 따른 공중중계 정책영역 정보를 지상 노드에 전파할 수 있다.
이 경우 공중 노드는 상기 강화학습을 통하여 전파된 정책영역 정보가 시간에 따라 '지상 노드 부하도 상태' 및 '공중 노드 부하도 상태'에 미치는 영향을, 기 설정된 보상함수를 통해 학습함으로서 네트워크 상태에 따라 효율적인 트래픽 분산을 수행할 수 있다.
먼저 도 2를 참조하여 살펴보면, 먼저 지상 노드는 최초 네트워크 가입 이후, 데이터 전송을 위한 무선 자원의 획득을 위해 네트워크 진입을 시도할 수 있다(201).
그러면 지상 노드는 데이터 전송 시 목적지에 대한 경로 탐색 메시지(RREQ)를 브로드캐스트 할 수 있으며, 목적지 노드는 경로 탐색 메시지를 수신하는 경우 중계 노드에 대해 경로 응답 메시지(RREP)를 유니캐스트할 수 있다(202).
한편 경로 응답 메시지를 통해 경로 탐색이 완료되면, 지상 노드는 데이터 트래픽의 IP 패킷의 중요도를 식별하는 DSCP(Differential Service Code Point) 값과 현재의 URPA(UAV Routing Policy Area), 즉 UAV 라우팅 정책 영역을 맵핑할 수있다(203).
여기서 UAV 라우팅 정책 영역, 즉 URPA는 라우팅 정책 설정을 위한 파라메터로서, 지상 노드들의 라우팅 경로 상에 UAV 공중중계 노드가 존재하는 경우 공중중계 라우팅 여부를 결정하기 위한 파라메터일 수 있다. 상기 UAV 라우팅 정책 영역은, 패킷의 중요도 및 UAV 경로 유무를 조건으로 다음의 3가지 정책 영역으로 정의될 수 있다.
- Policy Area A : 중요도 높은 트래픽의 공중중계 경로만 존재하는 경우에만 공중 노드 전송
- Policy Area B : 중요도는 고려하지 않고 공중중계 경로만 존재하는 경우에만 공중 노드 전송
- Policy Area C : 중요도 및 지상망 경로유무를 고려하지 않고 공중 노드 전송(모든 트래픽)
한편 지상 노드는, 공중 노드(UAV)로부터 일정 시간 간격으로 Hello 제어패킷을 수신할 수 있다. 그리고 수신된 Hello 제어패킷으로부터 UAV 라우팅 정책 영역의 경계를 결정하는 URPA_lower, URPA_upper 파라메터를 수신하여 UAV 라우팅 정책 영역을 식별할 수 있다. 그리고 시간(t)의 공중 노드 부하도 상태인
Figure 112020050497168-pat00026
를 수신하고, 수신된
Figure 112020050497168-pat00027
에 따라 트래픽이 적용될 UAV 정책 영역을 맵핑할 수 있다. 여기서, 상기 URPA_upper 파라메터는 URPA_lower 파라메터보다 큰 값을 가지며, Q_uav_th_max(공중 노드 부하도 최대값)은 상기 URPA_upper 파라메터보다 작은 값을 가질 수 있다.
한편 트래픽이 적용될 UAV 정책 영역에 따라 공중 노드를 중계 노드로 선택하여 전송하는 경우, 지상 노드는 공중 노드를 중계 노드로 선택하여 공중 경로로 데이터가 전송될 수 있다(207).
반면 트래픽이 적용될 UAV 정책 영역에 따라 지상 노드를 중계 노드로 선택하여 전송하는 경우, 지상 노드는 다른 지상 노드를 중계 노드로 선택하여 지상 경로로 데이터가 전송될 수 있다. 이 경우 지상 노드는 개별적으로 지상 노드의 부하도를 산출할 수 있다.
이 경우 지상 노드의 부하도는 하기 수학식 1에 따라 요청된 시간 자원과 획득 가능한 시간 자원의 비율에 따라 산출될 수 있다(204).
Figure 112020050497168-pat00028
여기서, RTSi(t)는 요청된 시간 자원(Request Time Slot)의 양을, ATSi(t)는 획득 가능한 시간 자원(Available Time Slot)의 양을 의미함.
한편 지상 노드는 하기 수학식 2를 통해, 시간에 따른 개별 지상 노드 부하도 결과에 기반하여 가중 이동 평균 결과를 계산할 수 있다. 하기 수학식 2는 시간 구간별 가중치 wi값에 따른 시간구간 k별 개별 지상 노드 부하도의 합을 나타낼 수 있다.
Figure 112020050497168-pat00029
한편 지상 노드는 상기 수학식 2에서 산출된 가중 이동 평균 결과와 사전에 정의된 개별 지상 노드 부하도 임계값에 근거하여, 지상 노드 부하도의 상태를 나타내는 정보를 도 3 또는 도 4에서 도시된 1 비트의 메시지 헤더 'qGround' 필드에 마킹할 수 있다. 하기 수학식 3은 이와 같이, 사전에 정의된 개별 지상 노드 부하도 임계값을 의미하는 Qthreshold값과 상기 수학식 2를 통해 산출된 가중 이동 평균 결과를 비교하여, 가중 이동 평균 결과가 임계값을 초과하는지 여부에 따라 qGround 정보를 '1' 혹은 '0'으로 마킹하여 데이터 전송 시에 상기 도 3 또는 도 4에서 살펴본 메시지의 헤더를 통해 지상 노드 부하도를 전송할 수 있다(205, 206).
Figure 112020050497168-pat00030
한편 공중 노드는 지형 마찰 없이 대부분의 지상 노드와 1홉의 연결성을 가질 수 있다. 따라서 지상 노드에서 전송되는 유니캐스트 패킷을 자신의 주소로 송신되는 정보가 아니더라도 디코딩할 수 있는 엿듣기(Overhearing)가 가능하다.
그리고 공중 노드는 엿듣기 특성을 이용하여, 지상 노드들이 데이터 전송 시 개별적으로 브로드캐스트 및 유니캐스트 패킷에 마킹한 지상 노드 부하도 상태, 즉
Figure 112020050497168-pat00031
정보를 취합할 수 있다.
그러면 공중 노드는 엿듣기를 통해 획득한 지상 노드 수를 의미하는 'N'과 지상 노드의 NCI(i, t)중 '1'을 마킹한 지상 노드 수의 비율을 의미하는 '취합한 지상 노드 부하도 상태'인
Figure 112020050497168-pat00032
를, 하기 수학식 4와 같이 계산할 수 있다(208).
Figure 112020050497168-pat00033
한편 공중 노드의 시간 t의 부하도 상태를 의미하는
Figure 112020050497168-pat00034
는 하기 수학식 5와 같이, 시간에 따른 공중 노드의 평균 큐 길이를 의미하는
Figure 112020050497168-pat00035
값과 공중 노드의 시간에 따른 획득 가능한 시간슬롯을 의미하는
Figure 112020050497168-pat00036
값에 의해 계산될 수 있다(209).
Figure 112020050497168-pat00037
그러면 공중 노드는 시간 t의 지상 노드 부하도 상태를 의미하는
Figure 112020050497168-pat00038
와 공중 노드 부하도 상태의 현재 값인
Figure 112020050497168-pat00039
를 기반으로 현재 지상망 및 공중 노드의 네트워크 상태를 인지할 수 있다. 그리고 인지된 네트워크 상태에 근거하여 최적의 URPA_lower, URPA_upper 값을 획득하기 위한 보상 함수를 정의하고, 정의된 보상 함수에 따른 강화 학습을 수행할 수 있다(210).
먼저 강화학습은 Q-learning 학습 기법을 사용하여 수행될 수 있으며, 하기 수학식 6을 통해 도 6에서 도시한 Q-table의 상태천이(State Transition)를 위한 Q값을 산출할 수 있다. 그리고 상태 천이된 Q 값에 따라 URPA_lower 파라메터 및 URPA_upper 파라메터 중 적어도 하나가 변경될 수 있다.
Figure 112020050497168-pat00040
여기서,
Figure 112020050497168-pat00041
Figure 112020050497168-pat00042
는 각각 학습률(Learning rate)과, 할인계수(Discount Factor)를 나타내며,
Figure 112020050497168-pat00043
은 보상함수를 의미함.
한편 강화학습에 의한 보상함수
Figure 112020050497168-pat00044
은 하기 수학식 7 내지 수학식 9를 통해 산출될 수 있다. 하기와 같이 수학식 7 내지 수학식 9를 통해 보상함수
Figure 112020050497168-pat00045
이 산출되는 경우 보상함수
Figure 112020050497168-pat00046
의 수렴속도가 향상될 수 있다.
먼저 수학식 7은 긍정보상(Positive Reward)을 위한 보상 함수를 의미할 수 있다. 수학식 7에서 k는 척도계수(scale parameter),
Figure 112020050497168-pat00047
는 최대 보상값,
Figure 112020050497168-pat00048
Figure 112020050497168-pat00049
Figure 112020050497168-pat00050
에 따른 보상값을 결정하기 위한 보상제어함수(RCF: Reward Control Function)이다.
Figure 112020050497168-pat00051
한편 수학식 8은 부정보상(Negative Reward)을 위한 보상 함수로서 상기 수학식 7의 부호가 변경된 점을 제외하면 상기에 제시된 각 변수와 동일한 변수로서, k는 척도계수(scale parameter),
Figure 112020050497168-pat00052
는 최대 보상값,
Figure 112020050497168-pat00053
Figure 112020050497168-pat00054
Figure 112020050497168-pat00055
에 따른 보상값을 결정하기 위한 보상제어함수(RCF: Reward Control Function)를 의미할 수 있다.
Figure 112020050497168-pat00056
한편 수학식 9는 보상제어함수를 위한 수식으로서
Figure 112020050497168-pat00057
Figure 112020050497168-pat00058
의 비율,
Figure 112020050497168-pat00059
Figure 112020050497168-pat00060
를 통해 계산될 수 있다. 그리고 두 값의 반영비율을 위한 가중치를 의미하는 가중치 w를 통해 계산될 수 있다. 여기서
Figure 112020050497168-pat00061
는 사전에 정의된 입력값으로서 공중 노드 부하도 임계값을 의미하며,
Figure 112020050497168-pat00062
는 사전에 정의된 입력값으로서 지상 노드 부하도 임계값을 의미한다.
한편 가중치 w는 URPA의 특성에 따라 비율을 산정할 수 있다. URPA_lower의 경우 Policy Area B와 Policy Area C의 경계를 결정하는 값이므로, 지상망과 공중 노드 경로가 모두 존재하는 상황일 수 있다. 따라서 UAV의 활용도 측면에서 전체 망의 처리율 향상에 대한 정책에 해당하게 된다. 그러므로 상대적으로 공중 노드 부하도에 비해 지상 노드 부하도의 가중치가 중요한 요인이 되며, 지상 노드 부하도의 가중치 w2는 공중 노드 부하도의 가중치 w1에 비해 큰 값을 가질 수 있다.
반면 URPA_upper의 경우 Policy Area A와 Policy Area B에 해당하는 경계를 결정하는 값이므로, 공중 노드를 통한 경로 외에는 전송이 불가한 트래픽에 대한 정책에 해당할 수 있다. 따라서 공중 노드 부하도의 가중치가 중요한 요인이 되며, 공중 노드 부하도의 가중치 w1이, 지상 노드 부하도의 가중치 w2에 비해 큰 값을 가질 수 있다(211).
Figure 112020050497168-pat00063
한편 공중 노드는 강화학습을 통해 계산된 값(URPA_upper, URPA_lower)과 현재 공중 노드 상태정보(qUAVc)를, 주기적인 토폴로지 업데이트를 위한 Hello 메시지 전송 시 도 3의 UAVInfo 정보에 포함하여 전파할 수 있다(212).
한편 상술한 본 발명의 설명에서는 구체적인 실시 예에 관해 설명하였으나, 여러 가지 변형이 본 발명의 범위에서 벗어나지 않고 실시할 수 있다. 그러나 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서 본 발명에 개시된 실시 예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시 예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석 되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (13)

  1. 복수의 지상 노드와 적어도 하나의 공중 노드를 포함하는 네트워크 중계 시스템에 있어서,
    네트워크에 진입하면 목적지 노드로의 경로를 탐색하고, 경로가 탐색되면 상기 공중 노드로부터 수신된 라우팅 파라메터에 근거하여 서로 다른 라우팅 방식으로 패킷이 전송되도록 정의된 라우팅 정책 영역들을 식별 및, 상기 공중 노드의 부하도 상태와 전송할 패킷의 중요도에 따라 상기 라우팅 정책 영역 중 어느 하나에 따라 지상 노드 또는 공중 노드로 패킷을 전송하는 복수의 지상 노드; 및,
    상기 지상 노드로부터 패킷이 전송되는 경우 이를 수신하여 공중 경로를 통해 목적지 노드로 패킷을 전송하며, 상기 복수의 지상 노드가 브로드캐스팅 및 유니캐스팅하는 메시지들로부터 취합된 지상 노드의 부하도 상태를 산출 및 공중망의 부하도 상태를 산출하고, 산출된 부하도 상태들에 근거하여 상기 라우팅 정책 영역들 간의 경계를 결정하기 위한 상기 라우팅 파라메터를 결정하고 결정된 라우팅 파라메터를 지상 노드로 브로드캐스팅하는 적어도 하나의 공중 노드를 포함하는 것을 특징으로 하는 네트워크 중계 시스템.
  2. 제1항에 있어서, 상기 라우팅 정책 영역은,
    전송할 패킷의 중요도 및 공중 경로 유무에 따라 제1, 제2 내지 제3 정책 영역으로 구분되며, 상기 제1 정책 영역과 제2 정책 영역은 URPA_upper 파라메터에 따라 구분되고, 상기 제2 정책 영역과 제3 정책 영역은 URPA_lower 파라메터에 따라 구분되며,
    상기 제1 정책 영역은 패킷의 중요도를 고려하는 트래픽의 공중 중계 경로만 존재하는 경우에만 공중 노드를 통해 패킷을 전송하는 라우팅 정책이 설정된 영역이고,
    상기 제2 정책 영역은 패킷의 중요도는 고려하지 않고 공중 중계 경로만 존재하는 경우에만 공중 노드를 통해 패킷을 전송하는 라우팅 정책이 설정된 영역이며,
    상기 제3 정책 영역은 패킷의 중요도 및 지상망 경로 유무를 고려하지 않고 모든 패킷을 공중 노드를 통해 전송하는 라우팅 정책이 설정된 영역임을 특징으로 하는 네트워크 중계 시스템.
  3. 제1항에 있어서, 상기 지상 노드는,
    라우팅 정책 영역에 따라 지상 노드로 패킷을 전송하는 경우, 요청된 시간 자원과 획득 가능한 시간 자원의 비율에 따라 상기 지상 노드의 부하도를 산출하는 것을 특징으로 하는 네트워크 중계 시스템.
  4. 제3항에 있어서, 상기 지상 노드는,
    상기 지상 노드의 부하도 상태를 나타내는 정보를 1비트의 크기를 가지는 메시지 필드에 마킹하여 전송하는 것을 특징으로 하는 네트워크 중계 시스템.
  5. 제4항에 있어서, 상기 지상 노드는,
    하기 수학식에 따라, 시간 구간별 가중치 값에 따른 시간구간별 개별 지상 노드 부하도의 합에 근거하여 상기 지상 노드 부하도를 산출하는 것을 특징으로 하는 네트워크 중계 시스템.
    [수학식]
    Figure 112021095751116-pat00064

    여기서,
    Figure 112021095751116-pat00065
    는 개별 지상 노드 부하도의 합을, wi는 시간 구간별 가중치를, k는 시간 구간을,
    Figure 112021095751116-pat00095
    는 시간에 따른 개별 지상 노드 부하도를 의미함.
  6. 제5항에 있어서, 상기 지상 노드는,
    하기 수학식과 같이, 산출된 개별 지상 노드의 부하도 합이 기 설정된 임계값을 초과하는지 여부에 근거하여, 상기 메시지 필드에 1 또는 0의 지상 노드 부하도 상태값을 마킹하는 것을 특징으로 하는 네트워크 중계 시스템.
    [수학식]
    Figure 112021095751116-pat00066

    여기서
    Figure 112021095751116-pat00067
    는 기 설정된 임계값을,
    Figure 112021095751116-pat00068
    는 개별 지상 노드 부하도의 합을,
    Figure 112021095751116-pat00096
    는 지상 노드 부하도 상태값을 의미함.
  7. 제6항에 있어서, 상기 공중 노드는,
    엿듣기 특성을 사용하여 상기 복수의 지상 노드가 데이터 전송시 전송하는 상기 지상 노드 부하도 상태값을 취합하고, 임계값을 초과하는 지상 노드 부하도의 상태를 취합하여 취합된 지상 노드 부하도 상태를 산출하는 것을 특징으로 하는 네트워크 중계 시스템.
    [수학식]
    Figure 112021095751116-pat00069

    여기서 N은 지상 노드의 개수를,
    Figure 112021095751116-pat00070
    는 지상 노드 부하도 상태값 중 1을 마킹한 지상 노드의 개수를,
    Figure 112021095751116-pat00097
    는 지상 노드 부하도 상태를 의미함.
  8. 제6항에 있어서, 상기 공중 노드는,
    하기 수학식에 따라, 평균 큐 길이와 시간에 따라 획득 가능한 시간 슬롯의 비율에 근거하여 공중 노드 부하도 상태를 산출하는 것을 특징으로 하는 네트워크 중계 시스템.
    [수학식]
    Figure 112021095751116-pat00071

    여기서
    Figure 112021095751116-pat00072
    는 시간에 따른 공중 노드의 평균 큐 길이를,
    Figure 112021095751116-pat00073
    는 공중 노드의 시간에 따른 획득 가능한 시간슬롯을,
    Figure 112021095751116-pat00098
    는 공중 노드 부하도 상태를 의미함.
  9. 제1항에 있어서, 상기 공중 노드는,
    산출된 지상 노드 부하도 상태와 공중 노드 부하도 상태에 근거하여 상기 라우팅 정책 영역들을 결정하기 위한 서로 다른 보상 함수를 정의하고, 정의된 보상 함수를 반영하여 기 설정된 학습 기법에 따른 강화 학습을 수행하고, 수행된 강화 학습을 통해, 라우팅 정책 영역들을 구분하기 위한 상기 라우팅 파라메터를 결정하는 것을 특징으로 하는 네트워크 중계 시스템.
  10. 제9항에 있어서, 상기 보상 함수는,
    하기 수학식에 따른 긍정 보상을 위한 보상 함수임을 특징으로 하는 네트워크 중계 시스템.
    [수학식]
    Figure 112021095751116-pat00074

    여기서
    Figure 112021095751116-pat00099
    는 보상 함수,
    Figure 112021095751116-pat00100
    는 공중 노드 부하도 상태,
    Figure 112021095751116-pat00101
    는 지상 노드 부하도 상태, k는 척도계수(scale parameter),
    Figure 112021095751116-pat00102
    는 최대 보상값,
    Figure 112021095751116-pat00103
    Figure 112021095751116-pat00104
    Figure 112021095751116-pat00105
    에 따른 보상값을 결정하기 위한 보상제어함수(RCF: Reward Control Function)임.
  11. 제9항에 있어서, 상기 보상 함수는,
    하기 수학식에 따른 부정 보상을 위한 보상 함수임을 특징으로 하는 네트워크 중계 시스템.
    [수학식]
    Figure 112021095751116-pat00079

    여기서
    Figure 112021095751116-pat00106
    는 보상 함수,
    Figure 112021095751116-pat00107
    는 공중 노드 부하도 상태,
    Figure 112021095751116-pat00108
    는 지상 노드 부하도 상태, k는 척도계수(scale parameter),
    Figure 112021095751116-pat00109
    는 최대 보상값,
    Figure 112021095751116-pat00110
    Figure 112021095751116-pat00111
    Figure 112021095751116-pat00112
    에 따른 보상값을 결정하기 위한 보상제어함수(RCF: Reward Control Function)임.
  12. 제10항 또는 제11항에 있어서, 상기 보상제어함수는,
    하기 수학식에 따라 공중 노드 부하도 상태(
    Figure 112020050497168-pat00084
    )와 사전에 정의된 공중 노드 부하도 임계값(
    Figure 112020050497168-pat00085
    ), 지상 노드 부하도 상태(
    Figure 112020050497168-pat00086
    )와 사전에 정의된 지상 노드 부하도 임계값(
    Figure 112020050497168-pat00087
    ), 공중 노드 부하도의 가중치 w1이, 지상 노드 부하도의 가중치 w2에 근거하여 결정되는 것을 특징으로 하는 네트워크 중계 시스템.
    [수학식]
    Figure 112020050497168-pat00088
  13. 제12항에 있어서,
    상기 공중 노드 부하도의 가중치 w1과 상기 지상 노드 부하도의 가중치 w2는, 라우팅 파라메터에 의해 구분되는 정책 영역의 특성에 따라 서로 다르게 결정되는 것을 특징으로 하는 네트워크 중계 시스템.
KR1020200059908A 2020-05-19 2020-05-19 강화학습 기반 uav 애드혹 네트워크 중계 시스템 KR102346653B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200059908A KR102346653B1 (ko) 2020-05-19 2020-05-19 강화학습 기반 uav 애드혹 네트워크 중계 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200059908A KR102346653B1 (ko) 2020-05-19 2020-05-19 강화학습 기반 uav 애드혹 네트워크 중계 시스템

Publications (2)

Publication Number Publication Date
KR20210143021A KR20210143021A (ko) 2021-11-26
KR102346653B1 true KR102346653B1 (ko) 2022-01-03

Family

ID=78700361

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200059908A KR102346653B1 (ko) 2020-05-19 2020-05-19 강화학습 기반 uav 애드혹 네트워크 중계 시스템

Country Status (1)

Country Link
KR (1) KR102346653B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230137098A (ko) 2022-03-21 2023-10-04 국방과학연구소 애드혹 라우팅 강화학습 시스템, 방법, 컴퓨터 판독 가능한 기록 매체 및 컴퓨터 프로그램

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102529331B1 (ko) * 2021-12-29 2023-05-09 서울대학교산학협력단 강화 학습을 사용한 uav bs 기반의 통신 방법 및 이러한 방법을 수행하는 장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100776327B1 (ko) 2006-11-16 2007-11-13 (재)대구경북과학기술연구원 무선망 네트워크에서의 동적인 로드 밸런싱 라우팅 방법
WO2019133048A1 (en) 2017-12-30 2019-07-04 Intel Corporation Methods and devices for wireless communications

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060133926A (ko) * 2006-10-17 2006-12-27 김영한 이동 애드혹 네트워크에서 트래픽 부하를 고려한 라우팅기법
KR100999342B1 (ko) * 2008-10-17 2010-12-09 숭실대학교산학협력단 애드 혹 네트워크에서 핸드오프 방법
KR101366832B1 (ko) * 2012-01-31 2014-02-26 부산대학교 산학협력단 멀티홉 네트워크에서의 채널 부하 기반 라우팅 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100776327B1 (ko) 2006-11-16 2007-11-13 (재)대구경북과학기술연구원 무선망 네트워크에서의 동적인 로드 밸런싱 라우팅 방법
WO2019133048A1 (en) 2017-12-30 2019-07-04 Intel Corporation Methods and devices for wireless communications

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230137098A (ko) 2022-03-21 2023-10-04 국방과학연구소 애드혹 라우팅 강화학습 시스템, 방법, 컴퓨터 판독 가능한 기록 매체 및 컴퓨터 프로그램

Also Published As

Publication number Publication date
KR20210143021A (ko) 2021-11-26

Similar Documents

Publication Publication Date Title
CN110149671B (zh) 无人机蜂群网络的路由选择方法
Ji et al. SDGR: An SDN-based geographic routing protocol for VANET
US7911962B2 (en) Integrating local congestion and path interference into QoS routing for wireless mobile AD HOC networks
Saleet et al. Intersection-based geographical routing protocol for VANETs: A proposal and analysis
Teo et al. Interference-minimized multipath routing with congestion control in wireless sensor network for high-rate streaming
Yang et al. ACAR: Adaptive connectivity aware routing protocol for vehicular ad hoc networks
Raw et al. Performance comparison of Position based routing Protocols in vehicle-to-vehicle (V2V) Communication
CN101945432A (zh) 一种用于无线mesh网络的多速率机会路由方法
Wu et al. Geographic load balancing routing in hybrid vehicular ad hoc networks
KR102346653B1 (ko) 강화학습 기반 uav 애드혹 네트워크 중계 시스템
Bauza et al. Power-aware link quality estimation for vehicular communication networks
Bayad et al. Comparative study of topology-based routing protocols in vehicular ad hoc network using IEEE802. 11p
Arzil et al. Adaptive routing protocol for VANETs in city environments using real-time traffic information
CN108093454A (zh) 一种跨层路由准则的实现方法
Nawaz et al. Implementation of cross layer design for efficient power and routing in UAV communication networks
Li et al. Ad hoc network routing protocol based on location and neighbor sensing
Amaya et al. Traffic-aware beacon interval for position-based protocols in VANETs
Abada et al. Improving routing performances to provide internet connectivity in VANETs over IEEE 802.11 p
Quy et al. PRP: A high-performance routing protocol for mobile ad-hoc networks
Huang et al. SDN-based V2V offloading for cellular network using the LifeTime-based network state routing (LT-NSR)
CN115665860A (zh) 一种基于候鸟群特性的无人机自组网的资源分配方法
Moussaoui et al. Towards enhanced reactive routing in urban Vehicular Ad hoc Networks
Mershad et al. Utilizing roadside units and software defined networking to route packets efficiently in internet of vehicles
KR20190087218A (ko) 위성 통신망을 이용한 통신 시스템
Khoza et al. An ant colony hybrid routing protocol for vanet

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant