KR102664367B1 - Wi-SUN에서의 강화학습을 이용한 비슬롯 기반 CSMA/CA 최적화를 위한 장치 및 방법 - Google Patents

Wi-SUN에서의 강화학습을 이용한 비슬롯 기반 CSMA/CA 최적화를 위한 장치 및 방법 Download PDF

Info

Publication number
KR102664367B1
KR102664367B1 KR1020210158160A KR20210158160A KR102664367B1 KR 102664367 B1 KR102664367 B1 KR 102664367B1 KR 1020210158160 A KR1020210158160 A KR 1020210158160A KR 20210158160 A KR20210158160 A KR 20210158160A KR 102664367 B1 KR102664367 B1 KR 102664367B1
Authority
KR
South Korea
Prior art keywords
channel
backoff
action
csma
optimization
Prior art date
Application number
KR1020210158160A
Other languages
English (en)
Other versions
KR20230071969A (ko
Inventor
정상화
이시현
Original Assignee
부산대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 부산대학교 산학협력단 filed Critical 부산대학교 산학협력단
Priority to KR1020210158160A priority Critical patent/KR102664367B1/ko
Priority to US17/874,942 priority patent/US20230156794A1/en
Publication of KR20230071969A publication Critical patent/KR20230071969A/ko
Application granted granted Critical
Publication of KR102664367B1 publication Critical patent/KR102664367B1/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W74/00Wireless channel access
    • H04W74/08Non-scheduled access, e.g. ALOHA
    • H04W74/0808Non-scheduled access, e.g. ALOHA using carrier sensing, e.g. carrier sense multiple access [CSMA]
    • H04W74/0816Non-scheduled access, e.g. ALOHA using carrier sensing, e.g. carrier sense multiple access [CSMA] with collision avoidance
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W74/00Wireless channel access
    • H04W74/08Non-scheduled access, e.g. ALOHA
    • H04W74/0808Non-scheduled access, e.g. ALOHA using carrier sensing, e.g. carrier sense multiple access [CSMA]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)

Abstract

본 발명은 각 노드의 Unslotted CSMA/CA 파라미터를 강화학습을 통해 학습시켜 IEEE 802.15.4 Wi-SUN MAC의 채널 액세스 방식인 Unslotted CSMA/CA의 최적화가 가능하도록 한 Wi-SUN에서의 강화학습을 이용한 비슬롯 기반 CSMA/CA 최적화를 위한 장치 및 방법에 관한 것으로, 비슬롯 기반 CSMA/CA 최적화를 위한 알고리즘에 사용되는 변수 초기화를 하는 변수 초기화부;Epsilon greedy 알고리즘을 사용하여 탐색(exploration)/활용(Exploitation)을 결정하는 탐색 및 활용 선택부;활용(Exploitation)이 선택되면, 행동들 중에서 가장 좋은 Q-Value를 가지는 행동을 선택하고, 탐색(Exploration)이 선택되면, 랜덤하게 행동을 선택하는 행동 선택부;행동(Action)이 선택되면, 백오프를 실행하되, 백오프 시간동안 CCA를 반복 실행하고 백오프 시간동안 channel의 Idle한 횟수, busy한 횟수를 카운트하는 채널 정보 수집부;채널이 Idle하다면 패킷을 전송하고 Ack를 받으면 성공 보상을 하는 성공 보상부;받은 보상(Reward)을 확인하고, 행동(Action), 상태(State), 보상(Reward)을 토대로 Q-table을 업데이트하는 Q 테이블 업데이트부;를 포함하는 것이다.

Description

Wi-SUN에서의 강화학습을 이용한 비슬롯 기반 CSMA/CA 최적화를 위한 장치 및 방법{Unslotted CSMACA Optimization Method and Devices in Wi-SUN using Reinforcement Learning}
본 발명은 산업 무선 네트워크에 관한 것으로, 구체적으로 각 노드의 Unslotted CSMA/CA 파라미터를 강화학습을 통해 학습시켜 IEEE 802.15.4 Wi-SUN MAC의 채널 액세스 방식인 Unslotted CSMA/CA의 최적화가 가능하도록 한 Wi-SUN에서의 강화학습을 이용한 비슬롯 기반 CSMA/CA 최적화를 위한 장치 및 방법에 관한 것이다.
Wi-SUN(Wireless Smart Utility Network)은 국제 무선 통신 규격으로, 다른 LPWA(Low Power Wide Area)에 비해 통신 비용이 필요하지 않고, 멀티홉 통신을 통해 자동으로 전파 상황을 모니터링하여 경로를 전환할 수 있는 높은 신뢰성을 구비하고 있다.
따라서 스마트 시티 및 스마트 그리드 실현에 필요한 대규모 메쉬 네트워크를 구축할 수 있는 통신기술로써 주목을 받고 있다. Wi-SUN의 MAC layer는 채널에 접근하기 위하여 Unslotted CSMA/CA를 채택하고 있다.
도 1은 IEEE 802.15.4의 Unslotted CSMA/CA 알고리즘이다.
패킷을 전송하고자 하는 노드는 채널에 접근하기 이전에 Unslotted CSMA/CA 알고리즘을 통해 채널에 대한 접근 권한을 얻어 전송할 수 있다. 각 전송 노드는 전송 시점으로부터 [0, 2BE-1] 범위의 Backoff 값을 무작위로 선택하여 해당 기간만큼 전송을 지연시킨다. 여기서, BE는 백오프 결정 인자(Back-off Exponent)를 의미한다.
이후 CCA(Channel Clear Access)를 실시하여 접근하고자 하는 채널에 대해 유휴(idle)상태인지 판단한다.
채널이 유휴하다면 노드는 채널에 대한 접근 권한을 승인받고 패킷을 전송 할 수 있다. 유휴하지 않다면 BE(Back-off Exponent) 값을 증가시키고 더 넓은 범위에서 랜덤하게 Backoff값을 정하여 CCA를 재시도하며, 최대 재시도 기회에 도달할 때까지 반복 할 수 있다.
세계의 사물인터넷으로 향한 추세는 분명하지만 점점 늘어나는 노드 수는 점차 네트워크 성능에 악영향을 미친다.
네트워크 성능을 높이기 위하여 사용되는 무선 채널접근 방식인 CSMA/CA는 서로 다른 노드 간 패킷 충돌을 회피하는 방법이지만, 여전히 패킷 충돌문제는 발생한다. 이는 경쟁노드가 많으면 많을수록 심화되어 네트워크 효율을 급격하게 감소시킨다.
더구나 Wi-SUN은 광범위한 영역에 수십, 수백 대의 노드가 연결되어 스마트 시티, 스마트 그리드를 목표로 하는 통신 규격임에도 불구하고 채널 접근 방식으로 Unslotted CSMA/CA를 채택하고 있어 밀집된 노드에서 충돌에 따른 성능 저하는 불가피하다.
802.15.4의 다른 MAC 프로토콜인 TSCH는 패킷 전송을 스케쥴링을 함으로써 저 지연, 고 신뢰도, 경쟁없는 송수신을 보장한다.
반면 Wi-SUN의 무선 노드들은 대부분 센서 노드들로, 일정한 주기로 트래픽을 주기적으로 발생시킴에도 불구하고 TDMA방식을 채택하지 않은 Wi-SUN에서는 시간에 따른 스케쥴링 방식을 도입하기 힘들다.
Unslotted CSMA/CA는 표 1에서와 같은 파라미터를 가지고 있다.
이 파라미터들을 적절하게 조절하면 성능이 증가된다는 연구가 존재하나, 특정 환경일 때에 알맞은 파라미터 값에 대한 연구나, 이 파라미터들을 더 동적으로 조절함으로써 네트워크 상황에 따라 파라미터를 적응적으로 변화시키는 연구의 진척도는 미비하다.
종래 기술의 Unslotted CSMA/CA Backoff 방식의 문제점은 다음과 같다.
도 2는 종래 기술의 백오프 알고리즘 동작을 나타낸 구성도이다.
첫째, 채널 자원의 낭비이다.
Unslotted CSMA/CA방식은 각 노드가 전송하고자 할 때 알고리즘이 작동하기 때문에 노드간 스케줄링을 할 수 없다. 그렇기 때문에 전체 네트워크에서 채널의 사용 효율을 보았을 때 미사용 되는 시간이 존재한다.
도 3은 스타 토폴로지를 나타낸 것이고, 도 4는 채널 자원 낭비 문제 예시도이다.
그리고 도 5는 최적화된 백오프일 때의 예시도이다.
부모노드 A아래 자식노드 B, C, D, E는 하나의 채널로만 노드 A에게 전송하며, Hidden Terminal 문제는 없다고 가정한다.
노드 B가 먼저 Backoff후 노드 A에게 전송을 하고, 노드 C, E는 Backoff를 진행하고 노드 A에게 전송하고자 CCA를 진행하였다.
노드 B가 채널을 사용 중 이기에 노드 C, E는 또 다시 Backoff를 진행하고, 노드 D 또한 같은 이유로 CCA후 Backoff를 진행한다. 이러한 과정 속에서 A노드의 빨간색으로 처리된 칸은 사용되지 못하고 낭비되었다.
둘째, Latency의 증가이다.
CSMA/CA는 채널에 접근하기 전 CCA를 통해 채널이 유휴한지 확인한다.
유휴하지 않다면 BE(Back-off Exponent) 값을 증가시키고 더 넓어진 범위에서 Backoff를 선택하기 때문에 불필요하게 높은 Backoff값을 선택할 수 있다. 이는 패킷의 Latency를 증가시키는 요인 중 하나이다.
예를 들어, 도 4의 노드 D를 보면 전송 기회를 얻기까지 10칸이 소모되었지만 도7과 같이 최적화 후에는 6칸만에 전송 기회를 얻었다. 마찬가지로 노드 C, E는 각각 3칸, 5칸에서 2칸, 4칸으로 줄어들었다.
이와 같은 예시는 단지 자식노드가 4개일 때의 예시일 뿐, 수십~수백 개의 노드를 연결 할 목적인 Wi-SUN에서는 이와 같은 현상이 더더욱 심해진다.
이러한 문제점을 완벽히 해결하기 위해서는 노드 간의 시간 동기화가 필요하다.
Slotted(Beacon Enabled) CSMA/CA과 같이 Beacon에 의해 동기화되어 작동하기 위해서는 Beacon이라는 동기화를 위한 패킷이 추가되어야 하고 이는 네트워크에 추가 부하를 주는 문제가 있다.
따라서, Beacon등 노드간 동기화에 필요한 추가적인 패킷 없이 CSMA/CA 동작을 최적화할 수 있도록 하는 새로운 기술의 개발이 요구되고 있다.
대한민국 공개특허 제10-2009-0012427호 대한민국 공개특허 제10-2009-0050913호 대한민국 공개특허 제10-2009-0113139호
본 발명은 종래 기술의 산업 무선 네트워크 기술의 문제점을 해결하기 위한 것으로, 각 노드의 Unslotted CSMA/CA 파라미터를 강화학습을 통해 학습시켜 IEEE 802.15.4 Wi-SUN MAC의 채널 액세스 방식인 Unslotted CSMA/CA의 최적화가 가능하도록 한 Wi-SUN에서의 강화학습을 이용한 비슬롯 기반 CSMA/CA 최적화를 위한 장치 및 방법을 제공하는데 그 목적이 있다.
본 발명은 IEEE 802.15.4 표준 기술인 Wi-SUN MAC layer의 채널 접근 방식인 Unslotted CSMA/CA를 강화학습을 통해 적절한 Backoff를 선택하게 함으로써 네트워크 상황에 맞게 적응적으로 최적화시킬 수 있도록 한 Wi-SUN에서의 강화학습을 이용한 비슬롯 기반 CSMA/CA 최적화를 위한 장치 및 방법을 제공하는데 그 목적이 있다.
본 발명은 각 노드의 Backoff 기간 동안 CCA를 지속시켜 접근하려는 채널의 사용률을 측정할 수 있고, 강화학습의 Agent가 직접 적절한 Backoff Time을 선택함으로써 MAC layer의 효율을 향상시킬 수 있도록 한 Wi-SUN에서의 강화학습을 이용한 비슬롯 기반 CSMA/CA 최적화를 위한 장치 및 방법을 제공하는데 그 목적이 있다.
본 발명은 무선 네트워크에서 노드 간 추가적인 패킷 교환없이 각 노드를 학습 시킬 수 있도록 하여 네트워크 전체의 오버헤드를 추가하지 않고서도 전체적인 성능을 상승시킬 수 있도록 한 Wi-SUN에서의 강화학습을 이용한 비슬롯 기반 CSMA/CA 최적화를 위한 장치 및 방법을 제공하는데 그 목적이 있다.
본 발명은 각 노드는 학습 후 적절한 Backoff값을 선택하여 채널을 더욱 효율적으로 사용하게 되며, 패킷들의 Latency는 최적화되어 감소하게 되어 학습 후 네트워크의 채널 낭비, 패킷의 Latency를 최소화할 수 있도록 한 Wi-SUN에서의 강화학습을 이용한 비슬롯 기반 CSMA/CA 최적화를 위한 장치 및 방법을 제공하는데 그 목적이 있다.
본 발명은 채널을 효율적으로 사용할 수 있도록 하여 각 노드가 TX를 실시하게 되는 횟수가 적어짐으로써 TX에 사용되는 에너지를 줄일 수 있도록 한 Wi-SUN에서의 강화학습을 이용한 비슬롯 기반 CSMA/CA 최적화를 위한 장치 및 방법을 제공하는데 그 목적이 있다.
본 발명의 다른 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기와 같은 목적을 달성하기 위한 본 발명에 따른 Wi-SUN에서의 강화학습을 이용한 비슬롯 기반 CSMA/CA 최적화를 위한 장치는 비슬롯 기반 CSMA/CA 최적화를 위한 알고리즘에 사용되는 변수 초기화를 하는 변수 초기화부;Epsilon greedy 알고리즘을 사용하여 탐색(exploration)/활용(Exploitation)을 결정하는 탐색 및 활용 선택부;활용(Exploitation)이 선택되면, 행동들 중에서 가장 좋은 Q-Value를 가지는 행동을 선택하고, 탐색(Exploration)이 선택되면, 랜덤하게 행동을 선택하는 행동 선택부;행동(Action)이 선택되면, 백오프를 실행하되, 백오프 시간동안 CCA를 반복 실행하고 백오프 시간동안 channel의 Idle한 횟수, busy한 횟수를 카운트하는 채널 정보 수집부;채널이 Idle하다면 패킷을 전송하고 Ack를 받으면 성공 보상을 하는 성공 보상부;받은 보상(Reward)을 확인하고, 행동(Action), 상태(State), 보상(Reward)을 토대로 Q-table을 업데이트하는 Q 테이블 업데이트부;를 포함하는 것을 특징으로 한다.
다른 목적을 달성하기 위한 본 발명에 따른 Wi-SUN에서의 강화학습을 이용한 비슬롯 기반 CSMA/CA 최적화를 위한 방법은 비슬롯 기반 CSMA/CA 최적화를 위한 알고리즘에 사용되는 변수 초기화를 하는 변수 초기화 단계;Epsilon greedy 알고리즘을 사용하여 탐색(exploration)/활용(Exploitation)을 결정하는 탐색 및 활용 선택 단계;활용(Exploitation)이 선택되면, 행동들 중에서 가장 좋은 Q-Value를 가지는 행동을 선택하고, 탐색(Exploration)이 선택되면, 랜덤하게 행동을 선택하는 행동 선택 단계;행동(Action)이 선택되면, 백오프를 실행하되, 백오프 시간동안 CCA를 반복 실행하고 백오프 시간동안 channel의 Idle한 횟수, busy한 횟수를 카운트하는 채널 정보 수집 단계;채널이 Idle하다면 패킷을 전송하고 Ack를 받으면 성공 보상을 하는 성공 보상 단계;받은 보상(Reward)을 확인하고, 행동(Action), 상태(State), 보상(Reward)을 토대로 Q-table을 업데이트하는 Q 테이블 업데이트 단계;를 포함하는 것을 특징으로 한다.
이상에서 설명한 바와 같은 본 발명에 따른 Wi-SUN에서의 강화학습을 이용한 비슬롯 기반 CSMA/CA 최적화를 위한 장치 및 방법은 다음과 같은 효과가 있다.
첫째, 각 노드의 Unslotted CSMA/CA 파라미터를 강화학습을 통해 학습시켜 IEEE 802.15.4 Wi-SUN MAC의 채널 액세스 방식인 Unslotted CSMA/CA의 최적화가 가능하도록 한다.
둘째, IEEE 802.15.4 표준 기술인 Wi-SUN MAC layer의 채널 접근 방식인 Unslotted CSMA/CA를 강화학습을 통해 적절한 Backoff를 선택하게 함으로써 네트워크 상황에 맞게 적응적으로 최적화시킬 수 있도록 한다.
셋째, 각 노드의 Backoff 기간 동안 CCA를 지속시켜 접근하려는 채널의 사용률을 측정할 수 있고, 강화학습의 Agent가 직접 적절한 Backoff Time을 선택함으로써 MAC layer의 효율을 향상시킬 수 있도록 한다.
넷째, 무선 네트워크에서 노드 간 추가적인 패킷 교환없이 각 노드를 학습 시킬 수 있도록 하여 네트워크 전체의 오버헤드를 추가하지 않고서도 전체적인 성능을 상승시킬 수 있도록 한다.
다섯째, 각 노드는 학습 후 적절한 Backoff값을 선택하여 채널을 더욱 효율적으로 사용하게 되며, 패킷들의 Latency는 최적화되어 감소하게 되어 학습 후 네트워크의 채널 낭비, 패킷의 Latency를 최소화할 수 있도록 한다.
여섯째, 채널을 효율적으로 사용할 수 있도록 하여 각 노드가 TX를 실시하게 되는 횟수가 적어짐으로써 TX에 사용되는 에너지를 줄일 수 있도록 한다.
도 1은 IEEE 802.15.4의 Unslotted CSMA/CA 알고리즘 흐름도
도 2는 종래 기술의 백오프 알고리즘 동작을 나타낸 구성도
도 3은 스타 토폴로지
도 4는 채널 자원 낭비 문제 예시도
도 5는 최적화된 백오프일 때의 예시도
도 6은 본 발명에 적용되는 강화학습 모델의 일 예를 나타낸 구성도
도 7은 Epsilon-Greedy 알고리즘을 설명하기 위한 구성도
도 8은 본 발명에 따른 백오프 알고리즘 동작을 나타낸 구성도
도 9는 본 발명에 따른 Wi-SUN에서의 강화학습을 이용한 비슬롯 기반 CSMA/CA 최적화를 위한 장치의 구성도
도 10은 본 발명에 따른 Wi-SUN에서의 강화학습을 이용한 비슬롯 기반 CSMA/CA 최적화를 위한 방법을 나타낸 플로우 차트
이하, 본 발명에 따른 Wi-SUN에서의 강화학습을 이용한 비슬롯 기반 CSMA/CA 최적화를 위한 장치 및 방법의 바람직한 실시 예에 관하여 상세히 설명하면 다음과 같다.
본 발명에 따른 Wi-SUN에서의 강화학습을 이용한 비슬롯 기반 CSMA/CA 최적화를 위한 장치 및 방법의 특징 및 이점들은 이하에서의 각 실시 예에 대한 상세한 설명을 통해 명백해질 것이다.
도 6은 본 발명에 적용되는 강화학습 모델의 일 예를 나타낸 구성도이고, 도 7은 Epsilon-Greedy 알고리즘을 설명하기 위한 구성도이다.
본 발명에 따른 Wi-SUN에서의 강화학습을 이용한 비슬롯 기반 CSMA/CA 최적화를 위한 장치 및 방법은 각 노드의 Unslotted CSMA/CA 파라미터를 강화학습을 통해 학습시켜 IEEE 802.15.4 Wi-SUN MAC의 채널 액세스 방식인 Unslotted CSMA/CA의 최적화가 가능하도록 한 것이다.
이를 위하여, 본 발명은 IEEE 802.15.4 표준 기술인 Wi-SUN MAC layer의 채널 접근 방식인 Unslotted CSMA/CA를 강화학습을 통해 적절한 Backoff를 선택하게 함으로써 네트워크 상황에 맞게 적응적으로 최적화시킬 수 있도록 하기 위한 구성을 포함할 수 있다.
본 발명은 각 노드의 Backoff 기간 동안 CCA를 지속시켜 접근하려는 채널의 사용률을 측정할 수 있고, 강화학습의 Agent가 직접 적절한 Backoff Time을 선택함으로써 MAC layer의 효율을 향상시키기 위한 구성을 포함할 수 있다.
강화학습(Reinforcement Learning)은 MDP(Markov Decision Process) 기반의 최적화 개념과 동물심리학 개념(trial-and-error)을 결합한 인공지능 기반 기계학습 알고리즘 중 하나이며, 시스템 최적화 문제를 풀기 위해 많은 연구 및 개발이 이루어지고 있다.
또한, 강화학습은 모든 시스템 환경 정보를 담당하고 관여하는 시뮬레이션 혹은 시스템환경(Environment)을 중심으로 에이전트(Agent)가 환경에서 파생되는 데이터를 이용하여 보상함수(Reward Function)를 구성하고 이를 반복적으로 개선하여 최적의 목표를 달성하는 시스템 제어 방법이다.
이를 위해서 에이전트는 도 6에서와 같이 환경으로부터 파생되는 복수의 환경 상태(State) 변화, 에이전트의 행동(Action) 제어, 시스템 보상함수 설계, 정책(Policy) 개선 및 최적화(Optimization) 모델 도출이라는 유기적인 프로세스를 진행하여야 하며, 이에 따른 환경 상태 정의, 행동 결정, 보상함수 및 정책 설계 등의 학습 지표들이 잘 맞물려서 작동해야 좋은 학습 효과를 얻을 수 있다.
특히 강화학습은 무선네트워크의 동적 상황을 반영하여 학습시킬 수 있기에 무선네트워크 분야에서 사용할 수 있는 기계학습법이다.
강화학습의 요소로는 정책, 보상, 가치 함수, 환경, 에이전트가 있다. 정책은 에이전트의 행동을 결정짓는 방식을 정의하며, 보상은 에이전트의 행동에 의한 환경으로부터의 평가이다. 가치함수는 에이전트가 특정 상태(State)에서 이후 받을 수 있는 보상들의 감가가 더해진 값이다. 일반적으로 정책은 이 가치함수를 최대화 할 수 있는 방향으로 정해진다.
본 발명에서 사용될 Q-learning은 TD(Temporal-Difference)모델에 기반한 Off-policy 알고리즘이다.
가치 함수 V(s)가 에이전트의 상태(s)에 대해서만 보상을 저장하는 것과는 다르게 Q(s,a)는 에이전트의 상태, 행동까지 반영하여 보상을 저장한다.
Q(s,a) 값은 수학식 1,2에 의해 갱신되며 이 Q(s,a)의 Q-Table을 통하여 보상을 최대화할 행동을 선택하는 정책을 가지게 된다.
여기서, 행동(Action)을 선택하는 방식은 2가지가 있는데, Exploitation과 Exploration이다.
Q값을 최대화 하는 행동만 취해서는 더 좋은 정책을 발견할 수 없기 때문에, 일정 확률로 새로운 시도를 함으로써 더 좋은 보상을 가지는 정책을 찾고자 Epsilon-Greedy 알고리즘을 사용하게 된다.
도 7에 따라 ε의 확률만큼은 무작위 행동을 선택하고, 1-ε 만큼의 확률로 Q값을 최대화 하는 행동을 선택하게 된다.
도 8은 본 발명에 따른 백오프 알고리즘 동작을 나타낸 구성도이다.
본 발명은 IEEE 802.15.4 표준 기술인 Wi-SUN MAC layer의 채널 접근 방식인 Unslotted CSMA/CA를 강화학습을 통해 적절한 Backoff를 선택하게 함으로써 네트워크 상황에 맞게 적응적으로 최적화 시키는 방법에 대한 것이다.
각 CSMA/CA가 적용된 노드는 Backoff 기간 동안 Radio를 Sleep상태로 동작시키고, Backoff기간이 끝날 때 Radio를 다시 작동시켜 CCA를 동작시킨다. 본 발명에서는 각 노드의 Backoff 기간 동안 CCA를 지속시켜 접근하려는 채널의 사용률을 측정하고자 한다.
도 8에서와 같이, 본 발명에서는 노드의 Backoff 기간동안 Radio가 Sleep상태가 아닌 CCA를 지속한다. 파란색 화살표는 해당 시간에 CCA를 하였을 때 채널이 idle함을 의미하고, 빨간색 화살표는 채널이 Busy함을 의미한다.
Backoff의 단위가 되는 Unit Backoff Period는 수학식 3에서와 같고, Unit Backoff Period가 CCA 시간을 포함하고 있기에 가능하다. 그러므로 노드의 Backoff 기간 동안 연속적인 CCA를 통해 채널이 얼마나 유휴한지 측정할 수 있다.
여기서, aUnitBackoffPeriod는 Backoff기간의 단위 시간, aTurnaroundTime은 장치에서 RX-to-TX 혹은 TX-to-RX로 전환하기위해 소요되는 시간, phyCcaDuration은 CCA에 소요되는 시간이다.
도 9는 본 발명에 따른 Wi-SUN에서의 강화학습을 이용한 비슬롯 기반 CSMA/CA 최적화를 위한 장치의 구성도이다.
본 발명에 따른 Wi-SUN에서의 강화학습을 이용한 비슬롯 기반 CSMA/CA 최적화를 위한 장치는 도 9에서와 같이, 비슬롯 기반 CSMA/CA 최적화를 위한 알고리즘에 사용되는 변수 초기화를 하는 변수 초기화부(10)와, Epsilon greedy 알고리즘을 사용하여 탐색(exploration)/활용(Exploitation)을 결정하는 탐색 및 활용 선택부(20)와, 활용(Exploitation)이 선택되면, 행동들 중에서 가장 좋은 Q-Value를 가지는 행동을 선택하고, 탐색(Exploration)이 선택되면, 랜덤하게 행동을 선택하는 행동 선택부(30)와, 행동(Action)이 선택되면, 백오프를 실행하되, 백오프 시간동안 CCA를 반복 실행하고 백오프 시간동안 channel의 Idle한 횟수, busy한 횟수를 카운트하는 채널 정보 수집부(40)와, 채널이 Idle하다면 패킷을 전송하고 Ack를 받으면 성공 보상을 하는 성공 보상부(50)와, 받은 보상(Reward)을 확인하고, 행동(Action), 상태(State), 보상(Reward)을 토대로 Q-table을 업데이트하는 Q 테이블 업데이트부(60)를 포함한다.
여기서, 탐색 및 활용 선택부(20)는 Epsilon값을 랜덤으로 얻어내어 선택하고(0~1값), 예를들어, ε = 0.2라면 80%의 확률로 Exploitation이 선택되고, 20%의 확률로 Exploration을 선택한다.
그리고 백오프 시간이 끝나면, CCA를 1회 실행하고, Channel이 busy한지 Idle한지 확인하고, 채널이 Idle하다면, 패킷을 전송하고, Ack timeout 시간동안 대기한다.
그리고 Ack를 받았다면, 전송에 성공했으므로 성공 보상부(50)에서 성공 보상 R1을 주고, Ack를 받지 못했다면 실패 보상 R2를 주고, 혹은, 백오프 횟수를 초과했을 때에도 R2를 준다.
그리고 채널 정보 수집부(40)에서 Channel이 busy한지 Idle한지 확인하는 단계에서 채널이 Busy하다면, 다시한번 Unslotted CSMA/CA를 수행하기 위해 관련 변수들을 업데이트 한다.
그리고 NB(현재 백오프 시도한 횟수)가 CSMA알고리즘에서 설정된 MAX값 보다 많다면 더 이상 시도할 수 없으므로 실패 보상을 받는다.
그리고 백오프를 추가로 수행할 수 있는 상황이라면, 보상 R3를 받고 Reward와 Q-table을 업데이트 한 후 재시도를 한다.
도 10은 본 발명에 따른 Wi-SUN에서의 강화학습을 이용한 비슬롯 기반 CSMA/CA 최적화를 위한 방법을 나타낸 플로우 차트이다.
먼저, 변수 초기화부(10)에서 비슬롯 기반 CSMA/CA 최적화를 위한 알고리즘에 사용되는 변수 초기화를 한다.(S1001)
이어, 탐색 및 활용 선택부(20)에서 Epsilon greedy 알고리즘을 사용하여 탐색(exploration)/활용(Exploitation)을 결정한다.(S1002)
Epsilon값을 랜덤으로 얻어내어 선택하고(0~1값), 예를들어, ε = 0.2라면 80%의 확률로 Exploitation이 선택되고, 20%의 확률로 Exploration을 선택한다.
그리고 행동 선택부(30)에서 Exploitation이 선택되면, 행동들 중에서 가장 좋은 Q-Value를 가지는 행동을 선택하고(S1003), Exploration이 선택되면, 랜덤하게 행동을 선택한다.(S1004)
이어, 행동(Action)이 선택되면, 백오프를 실행하되, 백오프 시간동안 CCA를 반복 실행하여 백오프 시간동안 채널 정보 수집부(40)에서 channel의 Idle한 횟수, busy한 횟수를 카운트한다.(S1005)
그리고 백오프 시간이 끝나면, CCA를 1회 실행한다.(S1006)
이어. Channel이 busy한지 Idle한지 확인하고(S1007), 채널이 Idle하다면, 패킷을 전송하고(S1008), Ack timeout 시간동안 대기한다.(S1009)
그리고 Ack를 받았다면, 전송에 성공했으므로 성공 보상부(50)에서 성공 보상 R1을 준다.(S1010)
Ack를 받지 못했다면, 실패 보상 R2를 주고, 혹은, 백오프 횟수를 초과했을
때에도 R2를 준다.(S1011)
이어, 받은 보상(Reward)을 확인하고, 과정이 끝났으므로 Q 테이블 업데이트부(60)에서 Action ,State, Reward를 토대로 Q-table을 업데이트한다.(S1012)
만약, Channel이 busy한지 Idle한지 확인하는 단계(S1007)에서 채널이 Busy하다면, 다시한번 Unslotted CSMA/CA를 수행하기 위해 관련 변수들을 업데이트 한다.(S1013)
만약, NB(현재 백오프 시도한 횟수)가 CSMA알고리즘에서 설정된 MAX값 보다 많다면 더 이상 시도할 수 없으므로 S1011 단계로 넘어가 실패 보상을 받는다.(S1014)
그리고 백오프를 추가로 수행할 수 있는 상황이라면, 보상 R3를 받고 Reward와 Q-table을 업데이트 한 후 재시도를 한다.(S1015)
이와 같은 비슬롯 기반 CSMA/CA 최적화를 위한 방법을 더 구체적으로 설명하면 다음과 같다.
Q-learning이 적용된 Unslotted CSMA/CA 알고리즘으로, Q-learning은 다음 Action, State, Reward를 가진다.
Action은 기존 [0, 2BE-1] 이였으나, Agent에게 자율선택권을 부여하기 위해 BE(Back-off Exponent) 값을 표 1의 MacMaxBE의 최대 값인 6을 사용하여 [0, 63(26-1)]을 사용한다.
즉, 각 Agent는 Action을 선택할 때 ε의 확률로 [0, 2BE-1]중 무작위 값을 Backoff Time으로 설정하고, 1-ε의 확률로 Q-Table을 참조해 가장 높은 Q를 가진 Action을 선택한다.
State는 Ni, Nb의 누적에 의해 정해진다. Ni와 Nb는 각각 Channel Idle, Channel Busy의 수이며, 도 8에서 지속적인 CCA를 하였을 때 계산되는 값이다.
이 값은 각 Agent가 자신이 패킷을 전송할 타이밍에 채널의 사용률 정보를 아래 수학식 4 및 수학식 5와 같이 누적되어 사용하게 된다.
여기서, Ni는 Backoff Time동안 실시된 CCA로부터 측정된 채널의 Idle 횟수, Nb는 Backoff Time동안 실시된 CCA로부터 측정된 채널 Busy 횟수, macIdleSum은 장치에서 Ni를 통해 갱신하고 유지중인 채널 Idle횟수, macBusySum은 장치에서 Nb를 통해 갱신하고 유지중인 채널 Busy횟수이다.
Q-learning은 상태(state), 행동(action)의 Q-Table을 참조하여 행동(Action)을 결정하게 되므로 상태(State), 행동(Action)의 수가 성능에 영향을 미친다.
채널의 사용도를 보기 위해 수학식 4와 같이 설정하게 되면 소숫 점을 포함하여 상태(State)수가 굉장히 커지게 되므로 수학식 6의 결과 값을 반올림하여 사용한다.
그러므로 State는 0~10까지 총 11개의 State를 가지게 된다. 결과적으로 Q-Table의 사이즈는 Action(64) * State(11)이다.
이에 따른 Agent가 받는 보상은 4가지로 구분한다.
첫째, Agent가 행동(Action)을 선택하고, Backoff된 시점에 채널이 Idle하여 패킷을 전송하고, ACK를 수신한 경우이고,
둘째, Agent가 행동(Action)을 선택하고, Backoff된 시점에 채널이 Idle하여 패킷을 전송했지만, ACK를 수신하지 못한 경우이고,
셋째, Agent가 행동(Action)을 선택하고, Backoff된 시점에 채널이 Busy하여 다음 State로 넘어가 Action을 선택해야 하는 경우이고,
넷째, Agent가 지속적으로 셋째의 경우를 수행했음에도 불구하고 Backoff 기회를 모두 소진하여 채널 접근에 실패한 경우이다.
첫째의 경우를 R1, 둘째, 넷째의 경우를 R2, 셋째의 경우를 R3라고 정의하며, 이에 대한 수식은 각각 아래와 같다.
여기서, Nbackoff는 장치가 선택한 Backoff 기간, D는 보상 정규화 및 Latency에 대한 규제를 위한 나눔수이다.
공통 수식 이전에 부여되는 (-1, 0, 1) 값은 각각 (전송실패, 채널이 Busy한 상황, 전송 성공)에 대한 보상이다.
공통적으로 들어간 은 Agent가 불필요하게 높은 Backoff를 선택했을 시 패널티를 주기 위한 수식으로 은 채널이 얼마나 유휴 했는가를 나타내는 지표이다.
변수D은 Latency에 대한 패널티를 얼마나 줄 것인가에 대한 하이퍼 파라미터(Hyper parameter)이다. 즉, D값이 작아질수록 해당 수식의 전체 값은 커지게되고, D값이 커질수록 해당 수식의 값은 작아지게 된다.
이 공통된 수식으로 인해 Agent가 채널이 유휴한 상황이 많았음에도 불구하고 높은 Backoff값을 선택할수록 높은 패널티를 가하는 것이며 이 패널티의 정도를 D값으로 조절할 수 있다.
예를 들어, D값을 크게 적용하면 Latency에 대한 패널티가 작게 적용되어 노드는 Latency보다 패킷을 성공적으로 보내는 것에 더 높은 보상을 얻게되어 Latency는 늘어날 지언정 성공 확률을 높이는 것이다.
이 두 수식을 합함으로써 Agent는 전송에 성공할수록, 낭비가 덜한 Backoff를 Action으로 선택할수록 높은 보상을 받을 수 있다.
이상에서 설명한 본 발명에 따른 Wi-SUN에서의 강화학습을 이용한 비슬롯 기반 CSMA/CA 최적화를 위한 장치 및 방법은 IEEE 802.15.4 표준 기술인 Wi-SUN MAC layer의 채널 접근 방식인 Unslotted CSMA/CA를 강화학습을 통해 적절한 Backoff를 선택하게 함으로써 네트워크 상황에 맞게 적응적으로 최적화시킬 수 있도록 한 것이다.
이상에서의 설명에서와 같이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 본 발명이 구현되어 있음을 이해할 수 있을 것이다.
그러므로 명시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 하고, 본 발명의 범위는 전술한 설명이 아니라 특허청구 범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
10. 변수 초기화부 20. 탐색 및 활용 선택부
30. 행동 선택부 40. 채널 정보 수집부
50. 성공 보상부 60. Q 테이블 업데이트부

Claims (17)

  1. 비슬롯 기반 CSMA/CA 최적화를 위한 알고리즘에 사용되는 변수 초기화를 하는 변수 초기화부;
    Epsilon greedy 알고리즘을 사용하여 탐색(exploration)/활용(Exploitation)을 결정하는 탐색 및 활용 선택부;
    활용(Exploitation)이 선택되면, 행동들 중에서 가장 좋은 Q-Value를 가지는 행동을 선택하고, 탐색(Exploration)이 선택되면, 랜덤하게 행동을 선택하는 행동 선택부;
    행동(Action)이 선택되면, 백오프를 실행하되, 백오프 시간동안 CCA를 반복 실행하고 백오프 시간동안 channel의 Idle한 횟수, busy한 횟수를 카운트하는 채널 정보 수집부;
    채널이 Idle하다면 패킷을 전송하고 Ack를 받으면 성공 보상을 하는 성공 보상부;
    받은 보상(Reward)을 확인하고, 행동(Action), 상태(State), 보상(Reward)을 토대로 Q-table을 업데이트하는 Q 테이블 업데이트부;를 포함하는 것을 특징으로 하는 Wi-SUN에서의 강화학습을 이용한 비슬롯 기반 CSMA/CA 최적화를 위한 장치.
  2. 제 1 항에 있어서, 백오프 시간이 끝나면, CCA를 1회 실행하고, Channel이 busy한지 Idle한지 확인하고, 채널이 Idle하다면, 패킷을 전송하고, Ack timeout 시간동안 대기하는 것을 특징으로 하는 Wi-SUN에서의 강화학습을 이용한 비슬롯 기반 CSMA/CA 최적화를 위한 장치.
  3. 제 1 항에 있어서, Ack를 받았다면, 전송에 성공했으므로 성공 보상부에서 성공 보상 R1을 주고, Ack를 받지 못했다면 실패 보상 R2를 주고, 혹은, 백오프 횟수를 초과했을 때에도 R2를 주는 것을 특징으로 하는 Wi-SUN에서의 강화학습을 이용한 비슬롯 기반 CSMA/CA 최적화를 위한 장치.
  4. 제 3 항에 있어서, NB(현재 백오프 시도한 횟수)가 CSMA 알고리즘에서 설정된 MAX값 보다 많다면 더 이상 시도할 수 없으므로 실패 보상을 받고,
    백오프를 추가로 수행할 수 있는 상황이라면, 보상 R3를 받고 Reward와 Q-table을 업데이트 한 후 재시도를 하는 것을 특징으로 하는 Wi-SUN에서의 강화학습을 이용한 비슬롯 기반 CSMA/CA 최적화를 위한 장치.
  5. 제 1 항에 있어서, 채널 정보 수집부에서 Channel이 busy한지 Idle한지 확인하는 단계에서 채널이 Busy하다면, 다시한번 Unslotted CSMA/CA를 수행하기 위해 관련 변수들을 업데이트하는 것을 특징으로 하는 Wi-SUN에서의 강화학습을 이용한 비슬롯 기반 CSMA/CA 최적화를 위한 장치.
  6. 비슬롯 기반 CSMA/CA 최적화를 위한 알고리즘에 사용되는 변수 초기화를 하는 변수 초기화 단계;
    Epsilon greedy 알고리즘을 사용하여 탐색(exploration)/활용(Exploitation)을 결정하는 탐색 및 활용 선택 단계;
    활용(Exploitation)이 선택되면, 행동들 중에서 가장 좋은 Q-Value를 가지는 행동을 선택하고, 탐색(Exploration)이 선택되면, 랜덤하게 행동을 선택하는 행동 선택 단계;
    행동(Action)이 선택되면, 백오프를 실행하되, 백오프 시간동안 CCA를 반복 실행하고 백오프 시간동안 channel의 Idle한 횟수, busy한 횟수를 카운트하는 채널 정보 수집 단계;
    채널이 Idle하다면 패킷을 전송하고 Ack를 받으면 성공 보상을 하는 성공 보상 단계;
    받은 보상(Reward)을 확인하고, 행동(Action), 상태(State), 보상(Reward)을 토대로 Q-table을 업데이트하는 Q 테이블 업데이트 단계;를 포함하는 것을 특징으로 하는 Wi-SUN에서의 강화학습을 이용한 비슬롯 기반 CSMA/CA 최적화를 위한 방법.
  7. 제 6 항에 있어서, Backoff 기간동안 Radio가 Sleep상태가 아닌 CCA를 지속하고,
    Backoff의 단위가 되는 Unit Backoff Period는,
    으로 정의되고,
    aUnitBackoffPeriod는 Backoff기간의 단위 시간, aTurnaroundTime은 장치에서 RX-to-TX 혹은 TX-to-RX로 전환하기위해 소요되는 시간, phyCcaDuration은 CCA에 소요되는 시간이고,
    Unit Backoff Period가 CCA 시간을 포함하고 있어 Backoff 기간 동안 연속적인 CCA를 통해 채널이 얼마나 유휴한지 측정하는 것을 특징으로 하는 Wi-SUN에서의 강화학습을 이용한 비슬롯 기반 CSMA/CA 최적화를 위한 방법.
  8. 제 6 항에 있어서, 행동을 선택할 때 ε의 확률로 [0, 2BE-1]중 무작위 값을 Backoff Time으로 설정하고, 1-ε의 확률로 Q-Table을 참조해 가장 높은 Q를 가진 Action을 선택하고, BE는 백오프 결정 인자(Back-off Exponent)인 것을 특징으로 하는 Wi-SUN에서의 강화학습을 이용한 비슬롯 기반 CSMA/CA 최적화를 위한 방법.
  9. 제 6 항에 있어서, 상태(State)는 Ni(Channel Idle의 수), Nb(Channel Busy의 수)의 누적에 의해 정해지고,
    지속적인 CCA를 하였을 때 계산되는 값으로 이 값은 각 Agent가 자신이 패킷을 전송할 타이밍에 채널의 사용률 정보를 각각,
    ,
    으로 구하고,
    Ni는 Backoff Time동안 실시된 CCA로부터 측정된 채널의 Idle 횟수, Nb는 Backoff Time동안 실시된 CCA로부터 측정된 채널 Busy 횟수, macIdleSum은 장치에서 Ni를 통해 갱신하고 유지중인 채널 Idle횟수, macBusySum은 장치에서 Nb를 통해 갱신하고 유지중인 채널 Busy횟수인 것을 특징으로 하는 Wi-SUN에서의 강화학습을 이용한 비슬롯 기반 CSMA/CA 최적화를 위한 방법.
  10. 제 9 항에 있어서, 상태(State)는 0~10까지 총 11개의 State를 갖고, Q-Table의 사이즈는 Action(64) * State(11)이고,
    으로 정의되는 것을 특징으로 하는 Wi-SUN에서의 강화학습을 이용한 비슬롯 기반 CSMA/CA 최적화를 위한 방법.
  11. 제 10 항에 있어서, Agent가 받는 보상은,
    (A)Agent가 행동(Action)을 선택하고, Backoff된 시점에 채널이 Idle하여 패킷을 전송하고, ACK를 수신한 경우,
    (B)Agent가 행동(Action)을 선택하고, Backoff된 시점에 채널이 Idle하여 패킷을 전송했지만, ACK를 수신하지 못한 경우,
    (C)Agent가 행동(Action)을 선택하고, Backoff된 시점에 채널이 Busy하여 다음 State로 넘어가 행동(Action)을 선택해야 하는 경우,
    (D)Agent가 지속적으로 (C)의 경우를 수행했음에도 불구하고 Backoff 기회를 모두 소진하여 채널 접근에 실패한 경우로 구분되고,
    (A)의 경우를 R1, (B)(D)의 경우를 R2, (C)의 경우를 R3라고 정의하는 것을 특징으로 하는 Wi-SUN에서의 강화학습을 이용한 비슬롯 기반 CSMA/CA 최적화를 위한 방법.
  12. 제 11 항에 있어서, 각각의 보상은,
    ,,으로 정의되고,
    Nbackoff는 장치가 선택한 Backoff 기간, D는 보상 정규화 및 Latency에 대한 규제를 위한 나눔수이고, 공통 수식 이전에 부여되는 (-1, 0, 1) 값은 각각 (전송실패, 채널이 Busy한 상황, 전송 성공)에 대한 보상인 것을 특징으로 하는 Wi-SUN에서의 강화학습을 이용한 비슬롯 기반 CSMA/CA 최적화를 위한 방법.
  13. 제 12 항에 있어서, 공통 수식 은 Agent가 불필요하게 높은 Backoff를 선택했을 시 패널티를 주기 위한 수식으로 은 채널이 얼마나 유휴 했는가를 나타내는 지표인 것을 특징으로 하는 Wi-SUN에서의 강화학습을 이용한 비슬롯 기반 CSMA/CA 최적화를 위한 방법.
  14. 제 13 항에 있어서, 변수D은 Latency에 대한 패널티를 얼마나 줄 것인가에 대한 하이퍼 파라미터(Hyper parameter)이고,
    D값이 작아질수록 해당 수식의 전체 값은 커지게 되고, D값이 커질수록 해당 수식의 값은 작아지게 되고. 공통 수식으로 인해 Agent가 채널이 유휴한 상황이 많았음에도 불구하고 높은 Backoff값을 선택할수록 높은 패널티를 가하는 것이며 이 패널티의 정도를 D값으로 조절하는 것을 특징으로 하는 Wi-SUN에서의 강화학습을 이용한 비슬롯 기반 CSMA/CA 최적화를 위한 방법.
  15. 제 6 항에 있어서, 백오프 시간이 끝나면, CCA를 1회 실행하고, Channel이 busy한지 Idle한지 확인하고, 채널이 Idle하다면, 패킷을 전송하고, Ack timeout 시간동안 대기하는 것을 특징으로 하는 Wi-SUN에서의 강화학습을 이용한 비슬롯 기반 CSMA/CA 최적화를 위한 방법.
  16. 제 6 항에 있어서, NB(현재 백오프 시도한 횟수)가 CSMA 알고리즘에서 설정된 MAX값 보다 많다면 더 이상 시도할 수 없으므로 실패 보상을 받고,
    백오프를 추가로 수행할 수 있는 상황이라면, 보상 R3를 받고 Reward와 Q-table을 업데이트 한 후 재시도를 하는 것을 특징으로 하는 Wi-SUN에서의 강화학습을 이용한 비슬롯 기반 CSMA/CA 최적화를 위한 방법.
  17. 제 6 항에 있어서, 채널 정보 수집 단계에서 Channel이 busy한지 Idle한지 확인하는 단계에서 채널이 Busy하다면, 다시한번 Unslotted CSMA/CA를 수행하기 위해 관련 변수들을 업데이트하는 것을 특징으로 하는 Wi-SUN에서의 강화학습을 이용한 비슬롯 기반 CSMA/CA 최적화를 위한 방법.
KR1020210158160A 2021-11-17 2021-11-17 Wi-SUN에서의 강화학습을 이용한 비슬롯 기반 CSMA/CA 최적화를 위한 장치 및 방법 KR102664367B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020210158160A KR102664367B1 (ko) 2021-11-17 2021-11-17 Wi-SUN에서의 강화학습을 이용한 비슬롯 기반 CSMA/CA 최적화를 위한 장치 및 방법
US17/874,942 US20230156794A1 (en) 2021-11-17 2022-07-27 Unslotted csmaca optimization method and devices in wi-sun using reinforcement learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210158160A KR102664367B1 (ko) 2021-11-17 2021-11-17 Wi-SUN에서의 강화학습을 이용한 비슬롯 기반 CSMA/CA 최적화를 위한 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20230071969A KR20230071969A (ko) 2023-05-24
KR102664367B1 true KR102664367B1 (ko) 2024-05-08

Family

ID=86323338

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210158160A KR102664367B1 (ko) 2021-11-17 2021-11-17 Wi-SUN에서의 강화학습을 이용한 비슬롯 기반 CSMA/CA 최적화를 위한 장치 및 방법

Country Status (2)

Country Link
US (1) US20230156794A1 (ko)
KR (1) KR102664367B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116822655B (zh) * 2023-08-24 2023-11-24 南京邮电大学 自动化控制的训练过程的加速方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102308799B1 (ko) 2020-07-10 2021-10-01 영남대학교 산학협력단 사물 인터넷 네트워크 환경에서 mac 계층 충돌 학습을 기초로 전달 경로를 선택하는 방법, 이를 수행하기 위한 기록 매체 및 장치

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100904342B1 (ko) 2007-07-30 2009-06-23 고려대학교 산학협력단 비슬롯 기반 csma/ca 네트워크 구성에서의 ack보호 방법 및 성능척도 예측방법
KR100942891B1 (ko) 2007-11-16 2010-02-17 성균관대학교산학협력단 Ieee 802.15.4의 프로토콜 csma/ca 방식 하에서채널의 점유 상태를 확인하는 방법
KR100968245B1 (ko) 2008-04-26 2010-07-06 고려대학교 산학협력단 무선 네트워크에서의 데이터 전송 제어 시스템 및 그 방법
KR102206775B1 (ko) * 2018-12-27 2021-01-26 영남대학교 산학협력단 무선 네트워크에서 기계 학습을 이용하여 자원을 할당하는 방법 및 그 방법을 수행하기 위한 기록 매체
KR102289471B1 (ko) * 2020-01-31 2021-08-11 세종대학교산학협력단 강화 학습 기반의 채널 액세스 제어

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102308799B1 (ko) 2020-07-10 2021-10-01 영남대학교 산학협력단 사물 인터넷 네트워크 환경에서 mac 계층 충돌 학습을 기초로 전달 경로를 선택하는 방법, 이를 수행하기 위한 기록 매체 및 장치

Also Published As

Publication number Publication date
KR20230071969A (ko) 2023-05-24
US20230156794A1 (en) 2023-05-18

Similar Documents

Publication Publication Date Title
Bhar A Mac protocol implementation for wireless sensor network
Abdeddaim et al. Adaptive IEEE 802.15. 4 MAC for throughput and energy optimization
CN113691391B (zh) 基于q学习的节点数量可变水声网络介质访问控制方法
KR102664367B1 (ko) Wi-SUN에서의 강화학습을 이용한 비슬롯 기반 CSMA/CA 최적화를 위한 장치 및 방법
Meghanathan An algorithm to determine energy-aware maximal leaf nodes data gathering tree for wireless sensor networks
CN102740496B (zh) 一种系统能效优化的上行链路协作mac方法
CN116471629A (zh) 一种基于深度强化学习的物联网智能拥塞控制方法
CN105007586A (zh) 无线传感网smac协议的双因子自适应竞争窗口调整方法
CN108184251B (zh) 一种基于生命期最优dag的节能调度方法
Mazandarani et al. Self-sustaining multiple access with continual deep reinforcement learning for dynamic metaverse applications
Portillo et al. Modelling of s-mac for heterogeneous wsn
Kosunalp et al. Practical implementation and stability analysis of ALOHA‐Q for wireless sensor networks
KR102027291B1 (ko) 무선센서 네트워크에서 결합 큐롬 기반의 이웃노드 탐색프로토콜 스케쥴링 생성 방법, 이를 적용한 무선 센서와 그 시스템
Khandish et al. An efficient backoff scheme in wireless sensor networks
Farayev et al. Optimal power control and rate adaptation for ultra-reliable M2M control applications
Fathi et al. Reinforcement learning for multiple access control in wireless sensor networks: Review, model, and open issues
Choudhury et al. DADC: A novel duty-cycling scheme for IEEE 802.15. 4 cluster-tree-based IoT applications
Asuti et al. An optimal clear channel assessment in IEEE 802.15. 4 medium access control protocol for recurrent data transmission and long acknowledgement wait period
Lee et al. Unslotted CSMA/CA mechanism with reinforcement learning of Wi-SUN MAC layer
Han et al. Multi-agent reinforcement learning for green energy powered IoT networks with random access
Yan et al. Distributed frame size selection for a Q learning based slotted ALOHA protocol
Chen et al. Reciprocal learning for cognitive medium access
Bhatti et al. A novel scheme to improve lifetime and real-time support for IEEE 802.15. 4 based wireless personal area networks
Bouazzi et al. Analysis of the IEEE 802.15. 4 MAC parameters to achieve lower packet loss rates
Taneja A framework for traffic management in IoT networks

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant