KR102308799B1

KR102308799B1 - 사물 인터넷 네트워크 환경에서 mac 계층 충돌 학습을 기초로 전달 경로를 선택하는 방법, 이를 수행하기 위한 기록 매체 및 장치

Info

Publication number: KR102308799B1
Application number: KR1020200085236A
Authority: KR
Inventors: 김성원; 무사띠크아르스란
Original assignee: 영남대학교 산학협력단
Priority date: 2020-07-10
Filing date: 2020-07-10
Publication date: 2021-10-01

Abstract

사물 인터넷 네트워크 환경에서 MAC 계층 충돌 학습을 기초로 전달 경로를 선택하는 방법은, 루트 노드 및 상기 루트 노드로 패킷을 전송하는 이기종 센서 노드들에서 각각 Q-러닝 알고리즘을 통해 MAC(medium access control) 계층의 충돌확률을 학습하는 단계; 각 노드는 백 오프 스테이지에서 백오프 지수(backoff exponent, BE)를 이용하여 현재 컨텐션 윈도우(contention window, CW)의 사이즈를 측정하는 단계; 상기 컨텐션 윈도우 사이즈 정보와 인접 노드의 수를 이용하여 충돌확률(P _coll )을 계산하는 단계; 상기 노드의 부모 순위와 상기 충돌확률(P _coll )을 기초로 결정된 순위 정보를 DIO 제어 패킷에 저장하여 전송하는 단계; 및 상기 DIO 제어 패킷을 수신하는 경우, 노드의 순위에 기반하는 네트워크 탐색(exploration) 또는 상기 Q-러닝 알고리즘을 통해 획득한 보상값에 기반하는 네트워크 활용(exploitation) 중 하나의 프로세스를 통해 패킷의 전달 경로를 선택하는 단계;를 포함한다. 이에 따라, IoT 네트워크 환경에서 보다 높은 패킷 수신률을 효율적으로 달성 할 수 있고, 제어 오버 헤드를 현저히 낮추며, 적은 에너지를 소비한다.

Description

사물 인터넷 네트워크 환경에서 MAC 계층 충돌 학습을 기초로 전달 경로를 선택하는 방법, 이를 수행하기 위한 기록 매체 및 장치{METHOD FOR SELECTING FORWARDING PATH BASED ON LEARNING MEDIUM ACCESS CONTROL LAYER COLLISIONS IN INTERNET OF THINGS NETWORKS, RECORDING MEDIUM AND DEVICE FOR PERFORMING THE METHOD}

본 발명은 사물 인터넷 네트워크 환경에서 MAC 계층 충돌 학습을 기초로 전달 경로를 선택하는 방법, 이를 수행하기 위한 기록 매체 및 장치에 관한 것으로서, 더욱 상세하게는 저전력 및 손실이 있는 사물 인터넷 네트워크에서 강화 학습 기술을 사용하여 라우팅을 최적화하는 기술에 관한 것이다.

IoT(Internet of Things)는 언제 어디서나 물리적 객체에 대한 연결성을 제공하는 유망한 통신 기술이다. IoT의 사물을 센서, 액추에이터 및 마이크로 프로세서 기반 임베디드 장치라고도 한다. IoT 네트워크는 배터리로 구동되며 제한된 처리 및 저장 용량을 포함하는 수많은 센서와 액추에이터로 구성된다. IoT 기반 시스템에는 스마트 시티, 스마트 헬스 케어, 스마트 산업 및 스마트 그리드와 같은 방대한 애플리케이션이 있다.

따라서, 앞으로 많은 수의 IoT 센서가 무선 링크를 통해 배치될 것으로 예상된다. 이러한 대규모 네트워크에는 효율성과 안정성이 필요하다. 센서는 일반적으로 복잡한 환경에 배치될 것으로 예상되고, 열악한 환경에서의 시스템 설치 비용은 증가하게 된다. 따라서, 이러한 소형 장치는 데이터 처리, 패킷 전송 및 에너지 소비를 지능적으로 처리할 수 있어야 한다.

MAC(medium access control) 프로토콜 및 라우팅 메커니즘은 간단한 수학적 모델로 해결될 수 있지만 여전히 복잡한 프로토콜이 필요하다. IoT 기반 네트워크는 리소스 측면에서 제약을 받기 때문에 지능형 통신 프로토콜을 설계하는 것은 어렵다.

저전력 및 손실 네트워크(RPL; Routing Protocol for Low power and lossy network)를 위한 라우팅 프로토콜은 IETF(Internet Engineering Task Force)에 의해 제안되었다. RPL은 자원이 제한된 IoT 장치를 위한 사실상의 라우팅 프로토콜이며, IPv6 저전력 무선 개인 영역 네트워크(6LoWPAN; IPv6 low-power wireless personal area network)를 기반으로 한다.

RPL 메커니즘에서 경로는 네트워크가 초기화 되자마자 구성되는 사전 라우팅 프로토콜이다. RPL 프로토콜을 사용하는 노드는 목적지 지향 비순환 그래프(DODAG; destination-oriented directed acyclic graph)라는 트리형 라우팅 토폴로지를 작성한다. 패킷은 하나 이상의 싱크 노드로 보내지므로 "대상 지향"이라는 이름이 지정된다. 이러한 경로는 특정 목적 함수(OF)를 기반으로 작성된다.

IETF는 기본 전송 메트릭으로 예상 전송 카운트(ETX)를 기반으로 하는 이력 현상 목표 함수(MRHOF)와 홉 카운트를 기반으로 하는 목적 함수 0(OF0)을 가진 최소 순위를 기본 라우팅 메트릭으로 제안하였다. MRHOF의 경로는 경로와 관련된 링크 비용을 기반으로 한다. 링크 비용 또는 링크 품질은 시간 간격으로 프로브 패킷을 브로드캐스트하여 계산된다. 수신 노드는 프로브 패킷을 다시 브로드캐스트한다. 이러한 지속적인 링크 평가 메커니즘은 네트워크에서 정체를 유발하는 문제점이 있다.

한편, MAC 계층에서, 장치는 채널을 액세스하기 위해 CSMA/CA(Carrier Sense Multiple Access)를 충돌 회피와 함께 사용한다. 따라서, 장치는 MAC 계층에서 리소스를 동적으로 관리하여 네트워크를 효율적으로 향상시키고, OSI 모델의 하위 계층에서 장치의 기능을 향상시켜 전반적인 네트워크 품질을 향상시킬 수 있다.

마찬가지로, 트래픽 이질성과 다양성을 학습하는 장치 기능을 향상시켜 네트워크 성능을 향상시킬 수 있다. 따라서, 이기종 데이터 트래픽 시나리오에서 최적의 성능을 제공하려면 지능형 통신 프로토콜과 함께 계층 간 최적화가 중요하다. CSMA/CA 메커니즘은 네트워크 충돌을 방지한다.

무선 채널의 충돌확률은 주로 주변의 인접 노드 수에 따라 다르다. 네트워크 밀도가 높아질수록 충돌 가능성이 높아지고 네트워크 성능이 저하된다. 동시에 네트워크 트래픽 흐름이 증가함에 따라 충돌 가능성도 증가한다. 실제 네트워크 배포에서는 트래픽이 포화되고 이기종이다. 이기종은 균일성이 부족함을 나타내며, 모든 노드는 항상 보낼 패킷이 있다.

IoT 네트워크에서 일부 노드는 트래픽을 많이 사용하는 반면 다른 노드는 낮은 생성 속도로 트래픽을 생성할 수 있다. 따라서, 전체적인 결과 트래픽 패턴을 예측할 수 없으며 로드 불균형이 자주 발생할 수 있다.

따라서, 현재의 통신 프로토콜은 이기종 데이터 트래픽 환경에 대한 적응성이 결여되어 있으며, 전체 네트워크 용량의 이용률이 낮아서 정체 및 패킷 손실이 심한 문제가 있다. 따라서, 변동하는 전송 부하 동안 네트워크를 관리하기 위해 MAC 및 네트워크 계층 모두에서 효율적인 메커니즘이 필요한 실정이다.

US 10,149,335 B2 KR 10-2019-0093785 A KR 10-2061320 B1

이에, 본 발명의 기술적 과제는 이러한 점에서 착안된 것으로 본 발명의 목적은 사물 인터넷 네트워크 환경에서 MAC 계층 충돌 학습을 기초로 최적의 전달 경로를 선택하는 방법을 제공하는 것이다.

본 발명의 다른 목적은 상기 사물 인터넷 네트워크 환경에서 MAC 계층 충돌 학습을 기초로 최적의 전달 경로를 선택하는 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 기록 매체를 제공하는 것이다.

본 발명의 또 다른 목적은 상기 사물 인터넷 네트워크 환경에서 MAC 계층 충돌 학습을 기초로 최적의 전달 경로를 선택하는 방법을 수행하기 위한 장치를 제공하는 것이다.

상기한 본 발명의 목적을 실현하기 위한 일 실시예에 따른 사물 인터넷 네트워크 환경에서 MAC 계층 충돌 학습을 기초로 전달 경로를 선택하는 방법은, 루트 노드 및 상기 루트 노드로 패킷을 전송하는 이기종 센서 노드들에서 각각 Q-러닝 알고리즘을 통해 MAC(medium access control) 계층의 충돌확률을 학습하는 단계; 각 노드는 백 오프 스테이지에서 백오프 지수(backoff exponent, BE)를 이용하여 현재 컨텐션 윈도우(contention window, CW)의 사이즈를 측정하는 단계; 상기 컨텐션 윈도우 사이즈 정보와 인접 노드의 수를 이용하여 충돌확률(P _coll )을 계산하는 단계; 상기 노드의 부모 순위와 상기 충돌확률(P _coll )을 기초로 결정된 순위 정보를 DIO 제어 패킷에 저장하여 전송하는 단계; 및 상기 DIO 제어 패킷을 수신하는 경우, 노드의 순위에 기반하는 네트워크 탐색(exploration) 또는 상기 Q-러닝 알고리즘을 통해 획득한 보상값에 기반하는 네트워크 활용(exploitation) 중 하나의 프로세스를 통해 패킷의 전달 경로를 선택하는 단계;를 포함한다.

본 발명의 실시예에서, 상기 Q-러닝 알고리즘을 통해 MAC 계층의 충돌확률을 학습하는 단계는, 노드의 각 상태, 상기 상태에 대응하는 동작 및 상기 동작에 대응하는 보상을 기반으로 Q 테이블의 엔트리를 완성할 수 있다.

본 발명의 실시예에서, 상기 사물 인터넷 네트워크 환경에서 MAC 계층 충돌 학습을 기초로 전달 경로를 선택하는 방법은, 현재 상태의 충돌확률이 이전 충돌확률보다 작으면 양의 보상값이 제공되고, 현재 상태의 충돌확률이 이전 충돌확률보다 크거나 같으면 음의 보상값이 제공될 수 있다.

본 발명의 실시예에서, 상기 사물 인터넷 네트워크 환경에서 MAC 계층 충돌 학습을 기초로 전달 경로를 선택하는 방법은, 제공된 보상값을 보상 테이블에 갱신하는 단계; 상기 보상값을 통해 Q-러닝 알고리즘의 학습 추정치(△Q)를 계산하는 단계; 및 상기 학습 추정치(△Q)를 Q 테이블에 업데이트하는 단계;를 더 포함할 수 있다.

본 발명의 실시예에서, 상기 네트워크 탐색(exploration) 또는 네트워크 활용(exploitation) 중 하나의 프로세스를 통해 패킷의 전달 경로를 선택하는 단계는, ε-greedy 방법을 사용하여 두 개의 프로세스 중 하나를 선택할 수 있다.

본 발명의 실시예에서, 상기 순위 정보를 DIO 제어 패킷에 저장하여 전송하는 단계는, 상기 노드가 루트 노드인 경우 가장 낮은 순위로 결정되고, 상기 노드가 센서 노드인 경우 부모의 순위와 상기 충돌확률(P _coll )을 합산하여 순위를 결정하는 단계;를 포함할 수 있다.

본 발명의 실시예에서, 상기 순위 정보를 DIO 제어 패킷에 저장하여 전송하는 단계는, 세류 타이머를 이용하여 설정된 시간 동안에만 상기 DIO 제어 패킷을 전달할 수 있다.

본 발명의 실시예에서, 상기 Q-러닝 알고리즘을 통해 MAC 계층의 충돌확률을 학습하는 단계는, Q-러닝 알고리즘의 학습 변수들을 널(NULL) 값으로 초기화하는 단계;를 포함할 수 있다.

본 발명의 실시예에서, 상기 Q-러닝 알고리즘의 학습 변수들을 널(NULL) 값으로 초기화하는 단계는, 노드는 0부터 CW_i-1(여기서, CW는 현재 컨텐션 윈도우 사이즈, i는 현재 백 오프 스테이지의 순서) 사이에서 무작위로 선택된 백 오프 간격으로 백 오프 타이머를 초기화하는 단계; 및 컨텐션 윈도우 최소 사이즈, 컨텐션 윈도우 최대 사이즈, 보상값, 상태와 동작의 학습 추정치 및 상태와 동작의 Q 값 중 적어도 하나를 초기화하는 단계;를 포함할 수 있다.

본 발명의 실시예에서, 상기 현재 컨텐션 윈도우(contention window, CW)의 사이즈를 측정하는 단계는, 노드의 각 충돌마다 0 이상 내지 5 이하 범위의 백 오프 지수(BE)를 증가시키는 단계를 포함할 수 있다.

상기한 본 발명의 다른 목적을 실현하기 위한 일 실시예에 따른 컴퓨터로 판독 가능한 저장 매체에는, 상기 사물 인터넷 네트워크 환경에서 MAC 계층 충돌 학습을 기초로 전달 경로를 선택하는 방법을 수행하기 위한 컴퓨터 프로그램이 기록되어 있다.

상기한 본 발명의 또 다른 목적을 실현하기 위한 일 실시예에 따른 사물 인터넷 네트워크 환경에서 MAC 계층 충돌 학습을 기초로 전달 경로를 선택하는 장치는, 루트 노드 및 상기 루트 노드로 패킷을 전송하는 이기종 센서 노드들에서 Q-러닝 알고리즘을 통해 MAC(medium access control) 계층의 충돌확률을 학습하는 지능형 학습 모듈; 배터리 에너지를 기반으로 에너지를 제공하는 전력부; 및 노드의 순위에 기반하는 네트워크 탐색(exploration) 또는 상기 지능형 학습 모듈의 학습 결과를 기초로 획득한 보상값에 기반하는 네트워크 활용(exploitation) 중 하나의 프로세스를 통해 패킷의 전달 경로를 선택하는 처리부;를 포함한다.

본 발명의 실시예에서, 상기 지능형 학습 모듈은, 노드의 각 상태, 상기 상태에 대응하는 동작 및 상기 동작에 대응하는 보상을 기반으로 Q 테이블의 엔트리를 완성할 수 있다.

본 발명의 실시예에서, 상기 지능형 학습 모듈은, DAG(Directed Acyclic Graph) 프로세스에 따른 강화 학습(Reinforcement Learning, RL)을 수행하기 위한 네트워크 탐색부 및 네트워크 활용부를 포함할 수 있다.

이와 같은 사물 인터넷 네트워크 환경에서 MAC 계층 충돌 학습을 기초로 전달 경로를 선택하는 방법에 따르면, IoT 노드가 RL 기반 알고리즘을 사용하여 충돌확률을 결정하고 OSI 모델의 하위 계층에서 지능적인 결정을 내릴 수 있도록 한다. 또한, 노드는 지능형 충돌확률 학습 알고리즘의 사용으로 인하여 제어 패킷의 전송을 조정하므로, 메시지의 효율적인 전송이 가능하다.

이에 따라, 본 발명은 IoT 네트워크 환경에서 높은 패킷 수신률을 효율적으로 달성할 수 있고, 제어 오버 헤드를 현저히 낮추며, 적은 에너지를 소비한다.

도 1은 지능형 IoT 장치의 Q-학습 모델 환경을 포함하는 사물 인터넷 네트워크에 대한 도면이다.
도 2는 본 발명의 일 실시예에 따른 사물 인터넷 네트워크 환경에서 MAC 계층 충돌 학습을 기초로 전달 경로를 선택하는 장치의 블록도이다.
도 3은 본 발명의 일 실시예에 따른 사물 인터넷 네트워크 환경에서 MAC 계층 충돌 학습을 기초로 전달 경로를 선택하는 방법의 흐름도이다.
도 4는 본 발명에 따라 패킷 수신 비율(PRR %) 대 무선 센서 노드의 수에 관한 시뮬레이션 결과를 도시한 그래프이다.
도 5는 본 발명에 따라 7200 초의 시뮬레이션 시간 동안 전송된 오버 헤드의 총 백분율에 관한 시뮬레이션 결과를 도시한 그래프이다.
도 6은 본 발명에 따라 7200 초의 시뮬레이션 시간 동안 총 에너지 소비 대 전송된 데이터 패킷의 수의 시뮬레이션 결과를 도시한 그래프이다.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.

이하, 도면들을 참조하여 본 발명의 바람직한 실시예들을 보다 상세하게 설명하기로 한다.

도 1은 지능형 IoT 장치의 Q-학습 모델 환경을 포함하는 사물 인터넷 네트워크에 대한 도면이다. 도 2는 본 발명의 일 실시예에 따른 사물 인터넷 네트워크 환경에서 MAC 계층 충돌 학습을 기초로 전달 경로를 선택하는 장치의 블록도이다.

도 1을 참조하면, 본 발명의 일 실시예에서 네트워크(1)는 IETF(Internet Engineering Task Force)에 의해 제안된 저전력 및 손실 네트워크(RPL; Routing Protocol for Low power and lossy network)일 수 있다.

본 발명의 Q-학습 모델 환경(30)은 IPv6 인터넷(10)을 이용하며, 센서 노드들은 백본 링크를 통하여 인터넷(10)에 연결될 수 있다.

본 발명에 따른 Q-학습 모델 환경(30)에는 루트 노드(50)와 많은 센서 노드들(61 내지 68)이 있다. 상기 센서 노드들(61 내지 68)은 각각 IoT 장치이며, 서로 다른 트래픽을 갖는 이기종일 수 있다. 상기 루트 노드(50) 및 상기 센서 노드들(61 내지 68)은 장치, 에이전트, 디바이스 등 다른 용어로 불릴 수 있다.

Q-학습 모델 환경(30)에서 모든 센서 노드들(61 내지 68)은 패킷을 루트 노드(50)로 전송한다. 따라서, 네트워크(1)는 목적지 지향 비순환 그래프(destination-oriented directed acyclic graph, DODAG)로 구성되며, 노드들(50, 61 내지 68)은 Q-러닝 모델 환경의 상태이다.

도 1에서 하부 방향(31) 및 상부 방향(32)을 도시한 화살표는 제어 패킷의 방향을 나타낸다. DIO 및 DAO-ACK 제어 패킷은 하부 방향(31)으로 이동하고, 루트 노드(50)에서 멀어질수록 노드의 순위가 높아진다.

반면, DAO 및 DIS 패킷은 상부 방향(32)으로 이동한다. DAO, DAO-ACK 및 DIS는 표준 프로토콜에 따라 동작하지만, DIO 패킷 전송은 본 발명에서 제안되는 메커니즘에 따라 최적화된다.

차세대 IoT 네트워크는 근본적으로 이기종 트래픽 애플리케이션으로 대규모 센서 배치를 처리할 것으로 예상된다. 고밀도로 배치된 네트워크에서 다양한 응용 프로그램을 만족시키기 위해 IoT 장치는 여러 통신 계층의 공동 협력을 활용하여 지능적으로 적응, 학습 및 의사 결정을 내릴 수 있어야 한다.

이와 관련하여, RL은 IoT 네트워크에 유망한 지능형 메커니즘을 제공한다. IEEE 802.15.4의 매체 액세스 제어 계층은 분산 조정 기능 방법을 사용하여 IoT 네트워크에서 무선 채널에 액세스하는 효율성을 결정한다. 유사하게, 네트워크 계층은 홉 카운트 및 예상 전송 카운트에 기초한 랭킹 메커니즘을 사용한다.

이기종 트래픽은 네트워크를 통해 더 많은 재전송을 발생시킨다. 따라서, 노드는 동적 트래픽 환경에 적응할 수 없으며, 충돌 가능성이 높고 정체가 심하며 패킷이 손실될 수 있다. 충돌 가능성은 특히 고밀도로 배포된 시스템에서 미래의 IoT 네트워크의 중요한 과제 중 하나이다.

본 발명에서는 학습을 위해 기계 학습(Machine Learning, ML)을 기초로 한다. 기계 학습 기술은 기계에 명시적인 프로그램 없이 학습할 수 있는 기능을 제공하는 가장 강력한 인공 지능 도구 중 하나이다. 기계 학습 기술은 IoT 통신 기술에서 머신 인텔리전스 기능을 활성화하기 위해 많은 관심을 갖고 있다. 기계 학습은 이미 음성 인식, 빅 데이터 분석 및 언어 처리 분야에서 성공적으로 적용되었다.

기계 학습은 데이터 패턴과 일련의 동작으로부터 학습 패러다임을 설정하기 때문에, 네트워크 성능 최적화를 위해 주어진 입력 벡터에 적합한 출력 벡터를 활용한다. IoT 네트워크와 관련하여 지능형 IoT 장치는 특정 목표 기능을 개선하기 위해 일련의 동작을 관찰하고 학습한다.

이에 따라, 학습을 기반으로 장치는 차후 동작을 실행하고, 이전 경험을 활용하여 성능을 향상시킬 수 있다. 기계 학습은 IoT 네트워크에서 수많은 실시 문제를 개선하기 위해 광범위하게 사용될 수 있다. 또한, 기계 학습 기반 알고리즘을 통해 미래의 고밀도 IoT 네트워크를 위한 MAC 계층 및 네트워크 계층 기능을 향상시킬 수 있다.

특히, 강화 학습(Reinforcement Learning, RL)은 에이전트(IoT 장치)가 환경과 상호 작용하여 누적 보상을 최대화하도록 학습할 수 있는 중요한 기계 학습 기술 중 하나이다. 예를 들어, 종래의 라우팅 절차는 계산 및 에너지 비용의 관점에서 고가의 제어 패킷의 교환을 포함한다.

그러나, 강화 학습은 MAC 계층과 네트워크 계층 매개 변수 사이의 중요한 상관 관계를 추출하여 네트워크 역학을 학습할 수 있다. 또한, 이러한 방식으로 센서는 자원 활용을 줄이면서 통신 작업을 독립적으로 처리할 수 있다.

한편, IoT 네트워크에서 QoS(Quality of Service)는 다중 통신 계층의 공동 협력에 의해 개선될 수 있다. 이기종 트래픽 환경에서는 트래픽 흐름의 변동으로 인해 충돌 가능성이 변동한다. 따라서, 효율적인 네트워크 계층 결정을 위해 MAC 계층에서 충돌 정보의 확률을 학습하고 활용할 수 있다.

본 발명에서는 표준화된 프로토콜에서 ETX 기반 메커니즘을 사용하는 대신 MAC 계층에서 충돌 정보를 활용하여 네트워크 역학을 학습하고, 결과적으로 전체 네트워크 성능을 향상시킨다.

다시 말해, 강화 학습(RL) 기반 메커니즘을 사용하여 센서 노드는 최적의 전달 경로를 찾는 방법을 학습할 수 있고, 다른 상태를 학습하고 각 동작으로 얻은 보상에 따라 동작을 수행한다. 또한, 각 반복에서 Q-값을 업데이트함으로써 각 장치는 상태-동작-보상(state-action-reward) 튜플을 기반으로 효율적인 결정을 내릴 수 있다.

도 2를 참조하면, 저전력 및 손실 IoT 네트워크의 최적화를 위한 본 발명에 따른 사물 인터넷(Internet of Things, 이하 IoT) 네트워크 환경에서 MAC 계층 충돌 학습을 기초로 전달 경로를 선택하는 노드(70, 이하 장치)의 블록도이다.

본 발명에 따른 노드(70)는 지능형 학습 메커니즘을 위해 탐색 및 활용 부분으로 구성된 지능형 학습 모듈(100), 전력부(300) 및 처리부(400)을 포함한다. 일 실시예에서, 상기 지능형 학습 모듈(100)은 상기 처리부(400)의 일부 모듈이거나 별도 모듈일 수 있다.

본 발명의 노드(70)는 도 1의 IoT 네트워크(1) 환경에서 각 센서 노드(IoT 장치)의 역할을 할 수 있다. 상기 장치(10)는 별도의 단말이거나 또는 단말의 일부 모듈일 수 있다.

일 실시예에 따라, 본 발명에 따른 노드(70)는 메모리부(500), 센싱부(600) 및 패킷 수신 및 전송을 위한 네트워크 인터페이스(700) 중 적어도 하나를 더 포함할 수 있다.

상기 전력부(300)는 센싱 노드(70)에 에너지를 제공하기 위한 전원 장치일 수 있고, 전원 장치는 제한된 배터리 에너지를 기반으로 할 수 있다.

지능형 학습 모듈(100)은 DAG(Directed Acyclic Graph) 프로세스를 수행하며, DAG 프로세스는 탐색(exploration) 또는 활용(exploitation)의 두 가지 방법 중 하나로 수행된다. 두 가지 프로세스는ε-greedy 기술을 사용하여 선택될 수 있다.

탐색 중에 노드(70)는 DIO 제어 오버 헤드 교환을 포함하는 세류 타이머(trickle timer) 메커니즘을 사용한다. 수신된 DIO 메시지에 기초하여, 상기 노드(70)는 순위를 비교하고 경로 선택(DAG 구성)을 위한 순위 정보를 처리한다.

이를 위해, 상기 지능형 학습 모듈(100)의 탐색부(110)는 세류 타이머(111), DIO 오버헤드 제어부(113), 순위 획득부(115) 및 랭크 전달부(117)를 포함할 수 있다.

한편, 상기 노드(70)는 학습된 값의 활용을 수행한다. 활용은 MAC 계층 충돌확률 정보, 획득된 보상, Q-학습 평가를 기반으로 하여, 최적의 동작을 수행한다.

이를 위해, 상기 지능형 학습 모듈(100)의 활용부(130)는 MAC 층 충돌확률 계산부(131), 보상 처리부(133), Q-학습부(135) 및 최적 동작부(137)를 포함할 수 있다.

상기 노드(70)의 각 구성에 대한 기능 및 자세한 설명은 이후 방법의 설명에서 상세히 설명한다.

본 발명은 적응, 학습 및 지능적으로 의사 결정이 가능하도록 다수의 통신 계층의 공동 협력을 이용함으로써 보다 효율적인 저전력 및 손실 IoT 장치 통신을 제공하기 위한 패킷 충돌확률을 학습하는 것이다.

본 발명은 동적 네트워크를 학습하고 결과적으로 전체 네트워크 성능을 향상시키기 위해 MAC 계층에서 충돌 정보의 확률을 활용한다. 이에 따라, 본 발명은 더 나은 패킷 수신률(Packet Reception Ratio, PRR), 제어 오버헤드 및 낮은 에너지 소비를 달성할 수 있다.

본 발명의 실시예는 네트워크의 효율을 최적화하기 위해 Q-러닝 기술을 사용할 수 있다. ETX 기반 메커니즘을 사용하는 대신 MAC 계층에서 충돌 정보를 활용하여 동적 네트워크를 학습하고 결과적으로 전체 네트워크 성능을 향상시키기 위함이다.

센서 노드는 RL 기반(Q-learning) 메커니즘을 이용하여 최적의 전달 경로를 찾는 방법을 학습할 수 있다. RL 메커니즘에서 노드는 다른 상태를 학습하고 각 동작으로 얻은 보상에 따라 동작을 수행한다. 각 반복에서 Q-값을 업데이트함으로써 각 장치는 상태-동작-보상 튜플(tuple)을 기반으로 효율적인 결정을 내릴 수 있다.

본 발명은 다음과 같은 환경으로 구성될 수 있다. 에이전트는 센서 노드이고 환경은 무선 매체이다. 센서 노드는 값 함수(value function)에 기초하여 환경을 학습한다. 이 함수는 주어진 상태에서 작업의 상태를 평가한다.

에이전트와 환경은 일련의 불연속 단계(t = 0, 1, 2, 3,..., n)로 서로 상호 작용한다(도 1 참조). 시간 step _t 에서, 센서 노드는 상태 s _t 에 있고 동작 a₁을 수행한다. 다음 단계 step _t+1 에서, 센서 노드는 보상 r _t+1 을 수신하고, 새로운 상태 및 동작에 대응하는 새로운 상태 s _t+1 로 이동한다. 다음 상태 s _t+1 에서, 노드는 a _t+1 에서 동작을 수행하고 대응하는 보상 r _t+2 을 수신한다.

네트워크는 부모-자식 토폴로지에 기초한 DODAG라는 그래프를 사용하여 생성된다. 노드 수는 N = (n ₁ , n ₂ , n ₃ ,..., n _i ) 개이며, 각 노드는 그래프에서의 위치를 기준으로 순위가 매겨진다. 루트 노드는 순위 1로 표시되고, 다음 노드는 순위 2로 표시된다.

노드는 추가로 부모 노드 세트(p ₁ , p ₂ , p ₃ ,..., p _i )와 자식 노드(c ₁ , c ₂ , c ₃ ,..., c _j )로 분할되며, 각 자식 노드는 선택된 부모 노드에게 패킷을 전달한다. 각 노드는 경합을 위해 CSMA/CA 이진 지수 백 오프(Binary Exponential Backoff, BEB) 채널 액세스 메커니즘을 사용한다.

노드들은 서로 임의의 거리로 무작위로 배치된다. 일부 노드는 트래픽이 많은 한편 다른 노드는 전송률이 낮은 패킷을 생성할 수 있다. 따라서, 트래픽 로드는 변동적이고 예측할 수 없는 패턴을 가지는 이기종(heterogeneous)이다.

예를 들어, 링크 계층에 대한 최대 허용 전송 시도는 8 회의 재전송이고, CSMA/CA 최대 백 오프 지수는 5로 설정될 수 있다. MAC 계층은 자원 할당을 위한 BEB 알고리즘을 갖는 CSMA/CA DCF 메커니즘에 기초한다. 네트워크 계층은 RPL 프로토콜을 기반으로 한다.

iCPLA 프로토콜에서, 각 노드의 이웃 노드는 그 상태를 나타낸다. 각 노드에는 m개의 상태 세트가 있다(예를 들어, S = {0, 1, 2,..., m}). Q-table의 최소값은 잠재적 상태 s'에 대해 가장 근접한 값을 제공한다.

동작은 경로 전달을 위한 특정 이웃 노드의 선택이다. 먼저, 본 발명에서 제안된 프로토콜은 경로 결정을 전달하기 위한 ETX 메커니즘을 P _coll 값으로 대체한다. 두 번째로, 탐색(exploration) 및 활용(exploitation) 단계에서 사용될 MAC 계층으로부터의 충돌확률을 학습하여 라우팅 테이블 엔트리를 구성한다.

다른 k-1 이웃 중 적어도 하나로 정의되는 P _coll 은 동시에 전송된다. CW(현재 컨텐션 윈도우 사이즈) 추정에 기초하여, 노드는 P _coll 을 계산하고, 인접 노드의 정보는 네트워크 계층으로부터 획득된다. 예를 들어, 각 전송 간격마다 노드는 마지막 5개 간격의 충돌확률의 평균을 계산할 수 있다.

네트워크 계층은 전달 경로 선택 결정 동안 탐색을 위해 이 정보를 이용한다. DIO 패킷은 각 노드에 의해 브로드캐스팅된다. 노드는 DIO 메시지에서 얻은 순위를 사용하여 잠재적인 부모 노드 목록을 생성한다. RPL 방법에서, 전달 경로 선택 동안, 순위가 가장 낮은 노드가 부모 노드로 선택된다.

본 발명에서 제안된 메커니즘에서, MAC 계층으로부터의 충돌 정보의 확률은 순위 계산을 위해 아래의 수학식 1과 같이 DIO 메시지에 내장된다.

[수학식 1]

여기서, Rank(c)는 자식 노드의 순위를, Rank(ｐ)는 부모 노드의 순위를 나타내고, P _coll (ｐ)는 부모 노드의 충돌확률을 나타낸다.

본 발명은 ETX 프로빙 메커니즘에 의해 야기되는 혼잡 및 오버 헤드 문제를 완화시키기 위해, 순위 계산에서 ETX 정보를 이용하지 않는 대신 추가적인 오버헤드 없이 혼잡을 반영하는 P _coll 을 사용한다.

본 발명의 메커니즘에서, 센서 노드는 policy function으로도 지칭되는 정책에 따라 특정 상태 하에서 동작을 선택하기로 결정한다. 최적 정책은 value function이라는 목표 값에 가능한 최상의 값을 결정한다.

동작은 여러 가지가 가능하다. 각각의 가능한 동작은 보상과 연관되며, 결과적으로 해당 특정 동작의 Q 값을 리턴한다. Q-러닝에서 Q(s, a)는 누적된 보상에 따라 보상을 추정하며, 아래의 수학식 2를 사용하여 업데이트된다.

[수학식 2]

여기서, ΔQ는 학습 추정치이며, 다음의 수학식 3과 같이 계산된다.

[수학식 3]

r(s, a)는 상태 s 및 동작 a의 보상을 나타낸다. 마찬가지로, α와 β는 각각 학습률과 감퇴 상수이다. 학습률은 α로 표시되며, 이는 새로운 값이 이전 값을 재정의(override)하는 정도를 나타내며, α의 범위는 0과 1 사이이다. α = 0 인 경우 장치는 새로운 값을 학습하지 않지만, α = 1 인 경우 장치는 새로운 값만을 고려한다.

감퇴 상수는 β로 표시되며, 향후 보상의 중요성을 보여주며, 마찬가지로 β의 범위는 0과 1 사이이다. β = 0 인 경우, 장치가 현재 보상만 평가하고 향후 보상을 고려하지 않음을 의미한다. 반대로, β = 1인 경우, 장치가 장기적인 미래 보상만을 가치 있게 평가한다는 것을 의미한다.

각 노드는 활용 동안 Q-테이블 값에 대응하는 라우팅 테이블 엔트리를 생성한다. 또한, 각 노드는 또한 각 인접 노드의 예상 순위 값을 유지한다.

최적의 행동 값에 도달하기 위해, 노드는 Rank(c) 방정식을 사용하여 탐색을 수행하고, Q-값을 사용하여 활용을 수행한다. 연속 탐색은 순간 보상을 증가시키고, 에피소드 수가 증가함에 따라 Q(s, a) 값은 최적의 Q ^* (s, a) 값으로 이동한다.

본 발명에서 DIO 패킷은 순위 정보를 운반한다. 순위 정보는 탐색 단계 중에만 필요하므로, 활용 단계에 대한 세류 타이머 기간을 재설정한다. 활용 동안 노드는 학습 메커니즘을 사용하여 결정을 내리고 DIO 전송이 중지된다.

탐색 단계 동안에는 DIO 패킷의 전송이 다시 시작된다. 이 절차는 네트워크 성능을 저하시키지 않으면서 네트워크의 제어 오버 헤드 수를 크게 줄일 수 있다. RL 기반 알고리즘은 탐색 단계 동안 네트워크 정보를 업데이트하고 활용 단계 동안 네트워크를 활용한다. 결과적으로, 활용하는 동안 성급한 DIO 전송의 요구를 완화시킬 수 있다.

보상은 채널 충돌확률을 나타낸다. 노드가 상태 s에서 동작 a를 수행한 후, 그러한 동작이 얼마나 바람직한지를 나타내는 보상을 수신한다. 현재 상태의 충돌확률이 이전 충돌확률보다 작으면 양의 보상이 제공된다. 마찬가지로, 충돌확률이 증가하면 음의 보상이 제공된다. 각 노드에 대한 보상은 다음의 수학식 4와 같다.

[수학식 4]

.

노드는 보상으로서 R⁺ 및 R^-를 사용하여, 한 상태에서 다른 상태로 이동한다.

도 3은 본 발명의 일 실시예에 따른 사물 인터넷 네트워크 환경에서 MAC 계층 충돌 학습을 기초로 전달 경로를 선택하는 방법의 흐름도이다.

본 실시예에 따른 사물 인터넷 네트워크 환경에서 MAC 계층 충돌 학습을 기초로 전달 경로를 선택하는 방법은, 도 1의 네트워크(1)와 도 2의 노드(70)와 실질적으로 동일한 구성에서 진행될 수 있다. 따라서, 도 1의 네트워크(1)와 도 2의 노드(70)와 동일한 구성요소는 동일한 도면부호를 부여하고, 반복되는 설명은 생략한다.

또한, 본 실시예에 따른 사물 인터넷 네트워크 환경에서 MAC 계층 충돌 학습을 기초로 전달 경로를 선택하는 방법은 사물 인터넷 네트워크 환경에서 MAC 계층 충돌 학습을 기초로 전달 경로를 선택하기 위한 소프트웨어(애플리케이션)에 의해 실행될 수 있다.

도 3을 참조하면, iCPLA를 사용하여 사물 장치의 저전력 및 손실 인터넷에 최적화를 제공하기 위해, Q-러닝 기술에 기반한 센서 네트워크의 효율적인 교차 계층 최적화 방법은 다음과 같은 단계로 구성된다.

먼저, 무선 센서 노드에서 학습 알고리즘이 시작되면(단계 S201), 노드는 CW_min = 0, CW_max = 31, 현재 보상 = 0, △Q (s, a) = 0, Q (s, a) = 0로 설정된다(단계 S202). 즉, 네트워크는 학습 변수들을 널(NULL) 값으로 초기화된다. 그러나, 학습 변수들의 초기값은 필요에 따라 변경 가능하다.

또한, 노드는 0부터 CW_i-1 (여기서, CW는 현재 컨텐션 윈도우 사이즈, i는 현재 백 오프 스테이지의 순서) 범위에서 무작위로 선택된 백 오프 간격으로 백 오프 타이머를 초기화할 수 있다.

이후, 노드는 백오프 지수(backoff exponent, BE)를 계산하고, 얻어진 백 오프 지수에 따라 CW(contention window)를 측정한다(단계 S204). 예를 들어, 노드는 각 충돌에서 0 내지 5 범위의 백 오프 지수(BE)를 증가시킬 수 있다. 노드는 CSMA/CA DCF 프로토콜, 즉 아래의 수학식 5를 이용하여 CW 크기를 계산한다.

[수학식 5]

.

또한, CW를 이용하여 충돌확률(P _coll )을 계산한다(단계 S205). P _coll 은 이론적 충돌확률이며, Q-학습 알고리즘을 사용하여 노드에서 학습한 실제 충돌확률이다.

충돌확률(P _coll )은 CW 정보 및 인접 노드 정보를 포함한다. 충돌확률(P _coll )은 Bianchi 분석 모델, 즉 아래의 수학식 6을 이용하여 계산한다.

[수학식 6]

여기서, k는 이웃 노드의 수를 나타낸다.

이후, 노드가 루트 노드인지 여부를 검사하여(단계 S206), 노드가 루트 노드인 경우, 가장 낮은 순위, 즉 1을 부여 받는다(단계 S207). 반면, 노드가 루트 노드가 아닌 경우, 순위는 부모의 순위와 CW를 사용하여 획득한 P _coll 이 합산되어 결정된다(단계 S208).

단계 S207 및 단계 S208에서 결정된 순위 정보는 네트워크 계층에 제공되며, 순위 계산을 위해 DODAG Information Object (DIO) 제어 패킷에 내장된다(단계 S209). DIO 제어 패킷은 랭크 정보를 이웃 노드에 전송하기 위해 필요하다.

DIO 패킷의 전송은 세류 타이머(trickle timer)라 불리는 메커니즘에 의해 제어된다(단계 S210). 세류 타이머는 DIO 전송 주파수를 조정한다.

노드는 DIO 패킷을 수신하고(단계 S211), 획득된 P _coll 이 이전 값보다 작은지 확인한다(단계 S212).

P _coll 이 이전 값보다 낮으면, 노드는 양의 보상을 얻는다(단계 S213). 양수 보상은 양의 정수, 즉 +1을 의미할 수 있다. 반면, 충돌 값이 증가하는 경우, 노드는 음의 보상, 즉 -1을 수신한다(단계 S214).

노드는 양의 보상 또는 음의 보상을 수신하면, 보상 테이블을 갱신하고(단계 S215), 학습 추정치 △Q를 계산한다(단계 S216). 또한, Q-테이블 값을 갱신(단계 S217)하고, 이에 따라 Q-값은 획득한 보상을 기반으로 한다. 각 반복 또는 에피소드마다 노드는 안정적인 학습 추정치로 이동한다.

노드는 보상, △Q 및 Q-테이블을 갱신한 후 ε-greedy 방법을 사용하여 네트워크를 탐색하거나 활용한다(단계 S218). 네트워크 활용(exploitation)이란 최적의 Q 값에 따라 전달 경로를 선택하는 것을 의미한다(단계 S219). 네트워크 탐색(exploration)은 순위 값에 따라 전달 경로를 선택하는 것을 의미한다(단계 S220).

본 발명의 실시예에서, 70 %의 시간을 탐색하고, 30 %의 시간을 활용할 수 있다.

본 발명은 저전력 및 손실 사물 인터넷(IoT) 네트워크의 최적화에 관한 것으로, 효율적인 센서 네트워크를 위한 다중 통신 계층의 협력을 포함한다. 본 발명은 IoT 네트워크를 위한 지능형 메커니즘을 제공하기 위해 RL(Reinforcement Learning) 기반 기술을 포함한다. 본 발명의 일 실시예에 따르면, RL 기반 Q-러닝 알고리즘은 개방 시스템 상호 접속(OSI) 모델의 하위 계층에서 효율적인 의사 결정을 위한 충돌확률을 학습하는데 사용된다.

이 방법은 IEEE 802.15.4의 매체 액세스 제어 계층을 포함한다. 또한, 분산 조정 기능 방법을 사용하여 IoT 네트워크에서 무선 채널에 액세스하는 효율성을 결정한다. 마찬가지로, 네트워크 계층은 전달 경로 선택을 위해 순위 매커니즘을 사용한다. 이 방법은 밀집된 이기종 트래픽 IoT 네트워크를 위한 지능형 충돌확률 학습 알고리즘(iCPLA)을 제공한다.

본 발명에서 제안된 방법은 Q-러닝을 사용하여 안정적인 경로, 부하 분산 및 에너지 효율을 달성하기 위해 네트워크 충돌을 학습한다. Q-러닝 기반 iCPLA 방법은 epsilon-greedy (ε-greedy) 기술을 사용하여 네트워크를 탐색하거나 활용할 수 있다.

본 발명은 또한 제어 패킷이 에너지 및 전체 네트워크 성능에 상당한 영향을 미치기 때문에 제어 메시지의 효율적인 전송을 포함한다. 이에 따라, 본 발명은 보다 높은 패킷 수신률을 효율적으로 달성 할 수 있고, 제어 오버 헤드를 현저히 낮추며, 적은 에너지를 소비한다.

도 4 내지 도 6은 사물 인터넷 네트워크 환경에서 MAC 계층 충돌 학습을 기초로 전달 경로를 선택하는 방법의 효과를 검증하기 위한 시뮬레이션 결과들이다.

도 4는 본 발명에 따른 무선 센서 네트워크에 대한 패킷 수신 비율(Packets Reception Ratio, PRR %) 대 노드 수의 관점에서 수행한 시뮬레이션 데이터이다.

도 4를 참조하면, 목적 함수 0(OF0)이라고 하는 IETF 표준 프로토콜과 MRHOF(히스테리시스 목표 함수)가 있는 최소 순위, 큐 활용 기반 RPL(QU-RPL)과 비교하여 본 발명에서 제안된 iCPLA 네트워크의 총 PRR %를 보여준다. 본 발명에 따른 iCPLA는 다른 최신 메커니즘과 비교하여 우수한 PRR을 보여준다.

도 5는 7200 초의 시뮬레이션 시간 동안 전송된 오버 헤드의 총 백분율에 관한 본 발명의 시뮬레이션 데이터이다.

도 5를 참조하면, 본 발명에서 제안된 iCPLA 방법은 QU-RPL, MRHOF 및 OF0에 비해 제어 패킷 전송을 크게 줄인다. 본 발명에 따른 iCPLA 오버헤드는 QU-RPL 및 MRHOF의 20-42 %와 OF0의 48-58 %에 비해 약 8-9 %으로 오버헤드의 큰 감소를 보였다.

도 6은 7200 초의 시뮬레이션 시간 동안 총 에너지 소비(J) 대 전송 된 데이터 패킷의 수에 관한 본 발명의 시뮬레이션 데이터이다. 본 발명에서 제안된 프로토콜은 다른 최신 메커니즘과 비교하여 가장 낮은 총 에너지 소비를 유지하는 것을 확인할 수 있다.

이와 같은, 사물 인터넷 네트워크 환경에서 MAC 계층 충돌 학습을 기초로 전달 경로를 선택하는 방법은 애플리케이션으로 구현되거나 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.

상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다.

컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.

프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상에서는 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

본 발명은 언제 어디서나 물리적 객체에 대한 연결성을 제공하는 IoT(Internet of Things) 기술에 관한 것으로, 스마트 시티, 스마트 헬스 케어, 스마트 산업 및 스마트 그리드와 같은 IoT 기반 시스템에 유용하게 적용할 수 있다.

1: RPL 네트워크
10: IPv6 인터넷
30: Q-학습 모델 환경
50: 루트 노드
61 내지 68: 센서 노드
70: 노드 또는 IoT 장치
100: 지능형 학습 모듈
110: 탐색부
130: 활용부
300: 전력부
400: 처리부
500: 메모리부
600: 센싱부
700: 네트워크 인터페이스

Claims

루트 노드 및 상기 루트 노드로 패킷을 전송하는 이기종 센서 노드들에서 각각 Q-러닝 알고리즘을 통해 MAC(medium access control) 계층에서의 충돌확률을 학습하는 단계;
각 노드는 백 오프 스테이지에서 백오프 지수(backoff exponent, BE)를 이용하여 현재 컨텐션 윈도우(contention window, CW)의 사이즈를 측정하는 단계;
상기 컨텐션 윈도우 사이즈 정보와 인접 노드의 수를 이용하여 충돌확률(P_coll )을 계산하는 단계;
상기 노드의 부모 순위와 상기 충돌확률(P_coll )을 기초로 결정된 순위 정보를 DIO 제어 패킷에 저장하여 전송하는 단계; 및
상기 DIO 제어 패킷을 수신하는 경우, 노드의 순위에 기반하는 네트워크 탐색(exploration) 또는 상기 Q-러닝 알고리즘을 통해 획득한 보상값에 기반하는 네트워크 활용(exploitation) 중 하나의 프로세스를 통해 패킷의 전달 경로를 선택하는 단계;를 포함하는, 사물 인터넷 네트워크 환경에서 MAC 계층에서의 충돌 학습을 기초로 전달 경로를 선택하는 방법.
제1항에 있어서, 상기 Q-러닝 알고리즘을 통해 MAC 계층에서의 충돌확률을 학습하는 단계는,
노드의 각 상태, 상기 상태에 대응하는 동작 및 상기 동작에 대응하는 보상을 기반으로 Q 테이블의 엔트리를 완성하는, 사물 인터넷 네트워크 환경에서 MAC 계층에서의 충돌 학습을 기초로 전달 경로를 선택하는 방법.
제2항에 있어서,
현재 상태의 충돌확률이 이전 충돌확률보다 작으면 양의 보상값이 제공되고, 현재 상태의 충돌확률이 이전 충돌확률보다 크거나 같으면 음의 보상값이 제공되는, 사물 인터넷 네트워크 환경에서 MAC 계층에서의 충돌 학습을 기초로 전달 경로를 선택하는 방법.
제3항에 있어서,
제공된 보상값을 보상 테이블에 갱신하는 단계;
상기 보상값을 통해 Q-러닝 알고리즘의 학습 추정치(△Q)를 계산하는 단계; 및
상기 학습 추정치(△Q)를 Q 테이블에 업데이트하는 단계;를 더 포함하는, 사물 인터넷 네트워크 환경에서 MAC 계층에서의 충돌 학습을 기초로 전달 경로를 선택하는 방법.
제1항에 있어서, 상기 네트워크 탐색(exploration) 또는 네트워크 활용(exploitation) 중 하나의 프로세스를 통해 패킷의 전달 경로를 선택하는 단계는,ε-greedy 방법을 사용하여 두 개의 프로세스 중 하나를 선택하는, 사물 인터넷 네트워크 환경에서 MAC 계층에서의 충돌 학습을 기초로 전달 경로를 선택하는 방법.
제1항에 있어서, 상기 순위 정보를 DIO 제어 패킷에 저장하여 전송하는 단계는,
상기 노드가 루트 노드인 경우 가장 낮은 순위로 결정되고, 상기 노드가 센서 노드인 경우 부모의 순위와 상기 충돌확률(P_coll )을 합산하여 순위를 결정하는 단계;를 포함하는, 사물 인터넷 네트워크 환경에서 MAC 계층에서의 충돌 학습을 기초로 전달 경로를 선택하는 방법.
제1항에 있어서, 상기 순위 정보를 DIO 제어 패킷에 저장하여 전송하는 단계는,
세류 타이머를 이용하여 설정된 시간 동안에만 상기 DIO 제어 패킷을 전달하는, 사물 인터넷 네트워크 환경에서 MAC 계층에서의 충돌 학습을 기초로 전달 경로를 선택하는 방법.
제1항에 있어서, 상기 Q-러닝 알고리즘을 통해 MAC 계층에서의 충돌확률을 학습하는 단계는,
Q-러닝 알고리즘의 학습 변수들을 널(NULL) 값으로 초기화하는 단계;를 포함하는, 사물 인터넷 네트워크 환경에서 MAC 계층에서의 충돌 학습을 기초로 전달 경로를 선택하는 방법.
제8항에 있어서, 상기 Q-러닝 알고리즘의 학습 변수들을 널(NULL) 값으로 초기화하는 단계는,
노드는 0부터 CW_i-1(여기서, CW는 현재 컨텐션 윈도우 사이즈, i는 현재 백 오프 스테이지의 순서) 사이에서 무작위로 선택된 백 오프 간격으로 백 오프 타이머를 초기화하는 단계; 및
컨텐션 윈도우 최소 사이즈, 컨텐션 윈도우 최대 사이즈, 보상값, 상태와 동작의 학습 추정치 및 상태와 동작의 Q 값 중 적어도 하나를 초기화하는 단계;를 포함하는, 사물 인터넷 네트워크 환경에서 MAC 계층에서의 충돌 학습을 기초로 전달 경로를 선택하는 방법.
제1항에 있어서, 상기 현재 컨텐션 윈도우(contention window, CW)의 사이즈를 측정하는 단계는,
노드의 각 충돌마다 0 이상 내지 5 이하 범위의 백 오프 지수(BE)를 증가시키는 단계를 포함하는, 사물 인터넷 네트워크 환경에서 MAC 계층에서의 충돌 학습을 기초로 전달 경로를 선택하는 방법.
제1항 내지 제10항 중 어느 하나의 항에 따른 사물 인터넷 네트워크 환경에서 MAC 계층에서의 충돌 학습을 기초로 전달 경로를 선택하는 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터로 판독 가능한 저장 매체.
루트 노드 및 상기 루트 노드로 패킷을 전송하는 이기종 센서 노드들에서 Q-러닝 알고리즘을 통해 MAC(medium access control) 계층에서의 충돌확률을 학습하는 지능형 학습 모듈;
배터리 에너지를 기반으로 에너지를 제공하는 전력부; 및
노드의 순위에 기반하는 네트워크 탐색(exploration) 또는 상기 지능형 학습 모듈의 학습 결과를 기초로 획득한 보상값에 기반하는 네트워크 활용(exploitation) 중 하나의 프로세스를 통해 패킷의 전달 경로를 선택하는 처리부;를 포함하는, 사물 인터넷 네트워크 환경에서 MAC 계층에서의 충돌 학습을 기초로 전달 경로를 선택하는 장치.
제12항에 있어서, 상기 지능형 학습 모듈은,
노드의 각 상태, 상기 상태에 대응하는 동작 및 상기 동작에 대응하는 보상을 기반으로 Q 테이블의 엔트리를 완성하고,
DAG(Directed Acyclic Graph) 프로세스에 따른 강화 학습(Reinforcement Learning, RL)을 수행하기 위한 네트워크 탐색부 및 네트워크 활용부를 포함하는, 사물 인터넷 네트워크 환경에서 MAC 계층에서의 충돌 학습을 기초로 전달 경로를 선택하는 장치.