KR20200086592A

KR20200086592A - 사물인터넷 환경에서의 큐-러닝을 이용한 적응형 패킷 스케쥴링 방법 및 이를 수행하는 패킷 스케줄링 장치

Info

Publication number: KR20200086592A
Application number: KR1020190003005A
Authority: KR
Inventors: 윤희용; 김경태; 이병준; 김동현; 이태호; 유승언
Original assignee: 성균관대학교산학협력단
Priority date: 2019-01-09
Filing date: 2019-01-09
Publication date: 2020-07-17
Also published as: KR102138198B1

Abstract

복수의 센서 노드와 패킷 스케쥴링 장치를 포함하는 사물 인터넷(internet of things; IoT) 통신 환경에서, 큐-러닝(Q-learning)을 이용한 적응적 패킷 스케줄링 방법을 수행하는 패킷 스케쥴링 장치는, 상기 복수의 센서 노드와 통신하여 상기 복수의 센서 노드로부터 센싱된 각각의 데이터 패킷을 수신하는 통신부와 상기 통신 모듈과 연결된 프로세서를 포함하고, 상기 프로세서는 상기 복수의 센서 노드로부터 센싱된 각각의 데이터 패킷을 제공받아 복수의 큐-여기서, 상기 복수의 큐는 상기 센서 노드의 개수 만큼의 큐를 포함하며, 각 센서 노드당 하나의 큐가 할당됨-에 대하여 각 큐의 데이터 패킷 도착율에 관한 상한 경계값과 하한 경계값을 설정하고, 상기 설정된 상한 경계값과 상기 하한 경계값에 기초하여 상기 각 큐의 데이터 패킷에 대한 평균 지연 시간의 지연 요구 조건 만족 여부를 확인하여 상기 각 큐의 데이터 패킷을 처리한다.

Description

사물인터넷 환경에서의 큐-러닝을 이용한 적응형 패킷 스케쥴링 방법 및 이를 수행하는 패킷 스케줄링 장치{ADAPTIVE PACKET SCHEDULING METHOD USING Q-LEARNING IN INTERNET OF THINGS ENVIRONMENT AND APPARATUS FOR PERFORMING THE SAME}

본 발명은 패킷 스케줄링에 관한 것이며, 보다 구체적으로는 사물인터넷 (Internet of Things;IoT) 환경에서의 패킷 스케줄링 방법 및 이를 수행하는 패킷 스케쥴링 장치에 관한 것이다.

사물 인터넷(internet of things; IoT)은 사물 등 분산된 구성 요소들 간에 정보를 주고 받아 처리하며, 사물 인터넷을 구현하기 위해서, 센싱 기술, 유무선 통신 및 네트워크 인프라, 서비스 인터페이스 기술 및 보안 기술 등과 같은 기술 요소 들이 요구된다.

이러한 사물간의 연결을 위한 센서 네트워크(sensor network) 통신, 사물 통신(machine type communication; MTC) 통신등의 기술이 연구되고 있다.

사물인터넷(IoT) 통신 환경에서는 연결된 사물들에서 생성된 데이터를 수집, 분석하여 새로운 가치를 창출하는 지능형 서비스가 제공될 수 있으며, 기존의 IT 기술과 다양한 산업 간의 융복합을 통하여 스마트 홈, 스마트 빌딩, 스마트 팩토리, 스마트 시티, 스마트 카 혹은 커넥티드 카, 스마트 그리드, 헬스 케어, 첨단 의료 서비스 등의 분야에 응용될 수 있다.

이러한 사물 인터넷 통신 시스템에서 센서 노드에서 센싱된 데이터 패킷을 스케쥴링하는 것은 사물 인터넷 통신 시스템의 성능을 향상시키기 위한 중요한 이슈이며, 따라서 사물 인터넷 통신 시스템에서는 패킷을 스케쥴링하는 여러 방식들이 사용되고 있다.

상기 패킷을 스케쥴링하는 방식들로는 선입선출(First Come First Service; FCFS) 기반 패킷 스케쥴링 방식, 우선 순위 기반 패킷 스케쥴링 방식과 공정성 기반 패킷 스케쥴링 방식등이 있다.

데이터의 도착 순서에 따라 처리하는 선입선출(FCFS) 스케쥴링 기법의 경우, 복잡한 계산 없이 빠른 데이터 처리가 가능하지만, 센서 노드에서 센싱된 처리시간이 짧은 데이터가 먼저 들어온 처리시간이 긴 센싱 데이터를 기다리게되어 비효율적인 대기시간이 발생될 수 있는 단점이 있다.

또한 데이터에 우선순위(Priority)를 부여하는 최선 마감 우선(Earliest Deadline First; EDF) 스케쥴링 기법, 그리고 가중치 기반 공정 패킷 스케쥴링(Weighted Fair Packet Scheduling; WFQ) 기법 또한 마찬가지로 센서 노드에서 센싱된 데이터 패킷을 스케쥴링하는 과정에서 낮은 우선순위를 가지는 데이터 패킷이 처리되지 못하는 단점이 있다.

이러한 문제점을 해결하기 위한 기계 학습의 일종인 강화학습(Reenforcement Learning; RL)의 한 종류인 큐-러닝(Q-learning)을 이용한 패킷 스케줄링 기법의 경우 변화하는 지연 요구 조건(Delay requirement)을 만족하는데 시간(Timeslot)이 다소 오래 걸리는 단점이 있다.

한국공개특허 10-2017-0036509호(통신 시스템에서 패킷을 스케쥴링하는 장치 및 방법, 삼성전자 주식회사)

한국통신학회 2017년도 추계종합학술발표회, "Q-learning을 이용한 무선 네트워크에서 패킷 스케줄링 기법", 김진영. 이현석, 이장원 한국인터넷정보학회(12권3호), 2011년 6월, "무선 인지 시스템을 위한 Q-learning 기반 채널접근기법", 이영두, 구인수

다수의 센싱 노드와 하나의 게이트웨이로 구성된 사물인터넷(IoT) 환경의 일예로서 스마트 팩토리 응용의 경우, 공장내 다수의 온도 센서에서 온도 데이터를 센싱하여 센싱된 데이터 패킷을 패킷 스케쥴링을 수행하는 게이트웨이(100)의 각 큐로 전송하는 경우, 센싱된 온도 데이터는 평소의 정상적인 상태에서는 예를 들어 30도에서 70도의 값을 가지고, 비정상적인 상태에서는 100도 이상의 값을 나타낼 수 있으며, 스마트 팩토리와 같은 사물인터넷(IoT) 환경하에서 이러한 센싱된 데이터 값은 동적인 값으로 예측이 곤란하며, 이러한 비정상적인 온도 센싱값은 해당 센싱 노드로부터 실시간으로 지연이 최소화되어 전송되어야 이상 상태를 감지할 수 있으며, 기존의 정적인 패킷 스케쥴링 기법을 적용할 경우 문제가 발생될 수 있다.

본 발명의 목적은, 기존의 큐-러닝(Q-learning)을 이용한 패킷 스케줄링 기법을 개선하여, 시간(Timeslot)을 고려한 상이한 가중치 부여 기법과 상한 및 하한 경계값을 이용한 큐-러닝(Q-learning)의 초기화 기법을 제공함으로써 변화하는 지연 요구 조건(Delay requirement)을 만족시키면서 정확도(Accuracy) 및/또는 수렴시간(Convergence time)을 향상시키기 위한 큐-러닝(Q-learning)을 이용한 적응적 패킷 스케줄링 방법 및 이를 수행하는 패킷 스케쥴링 장치를 제공하는 것이다.

본 발명의 일 실시 예에 따르면, 복수의 센서 노드와 패킷 스케쥴링 장치를 포함하는 사물 인터넷(internet of things; IoT) 통신 환경에서 상기 패킷 스케쥴링 장치에서의 큐-러닝(Q-learning)을 이용한 적응적 패킷 스케줄링 방법은, 상기 복수의 센서 노드로부터 센싱된 각각의 데이터 패킷을 복수의 큐-여기서, 상기 복수의 큐는 상기 센서 노드의 개수 만큼의 큐를 포함하며, 각 센서 노드당 하나의 큐가 할당됨-에서 제공받는 단계와, 상기 각 큐의 데이터 패킷 도착율에 관한 상한 경계값과 하한 경계값을 설정하는 단계와, 상기 설정된 상한 경계값과 상기 하한 경계값에 기초하여 상기 각 큐의 데이터 패킷에 대한 평균 지연 시간의 지연 요구 조건 만족 여부를 확인하여 상기 각 큐의 데이터 패킷을 처리하는 단계를 포함한다.

상기 상한 경계값 및 하한 경계값은 강화학습 알고리즘인 큐-러닝(Q-learning)의 초기화 조건에 대한 경계값이 될 수 있다.

새로이 들어오는 다음 p/2개의 데이터 패킷 도착율-여기서 p는 데이터 패킷의 개수로서 자연수-이 상기 상한 경계값과 상기 하한 경계값을 벗어나면 상기 상한 경계값과 상기 하한 경계값을 초기화하는 단계를 더 포함할 수 있다.

상기 각 큐의 상태-여기서 각 큐의 상태는 각 센서 노드의 지연요구조건보다 상기 각 센서 노드에 할당된 각 큐의 실제 측정된 평균 지연 시간이 큰 경우 상기 지연 요구 조건을 만족하지 못한 큐로 판단함-를 파악하고 상기 각 큐의 데이터 패킷에 대한 평균 지연 시간의 상기 지연 요구 조건을 만족하지 못하는 큐를 우선적으로 처리할 수 있다.

상기 각 큐의 현재 상태에 따른 학습된 스케줄링 정책(Scheduling policy)를 기반으로 상기 각 큐의 현재 상태에서 가능한 행동들 중 보상(reward)를 극대화 할 수 있는 행동(Action)-여기서 행동은 처리할 큐를 선택하여 선택된 큐의 패킷을 처리하는 것-을 선택하여 처리할 수 있다.

상기 큐-러닝(Q-learning)의 보상은 상기 각 큐의 상태의 행동(Action)에 대한 학습 알고리즘(Learning algorithm)의 피드백으로, 상기 보상을 기반으로 상기 학습 알고리즘의 스케줄링 정책을 갱신(Update)할 수 있다.

상기 각 큐의 데이터 패킷이 상기 지연 요구조건 내에서 처리될 경우 상기 패킷 스케쥴링 장치에게 긍정적인 보상을 부여하며, 상기 각 큐의 데이터 패킷이 상기 지연 요구조건 내에 처리되지 않을 경우 상기 패킷 스케쥴링 장치에게 부정적인 보상을 부여할 수 있다.

상기 각 큐의 p개의 데이터 패킷에 대한 데이터 패킷 도착율을 측정하는 단계를 더 포함할 수 있다.

본 발명의 다른 실시 예에 따르면, 복수의 센서 노드와 패킷 스케쥴링 장치를 포함하는 사물 인터넷(internet of things; IoT) 통신 환경에서, 큐-러닝(Q-learning)을 이용한 적응적 패킷 스케줄링 방법을 수행하는 패킷 스케쥴링 장치는, 상기 복수의 센서 노드와 통신하여 상기 복수의 센서 노드로부터 센싱된 각각의 데이터 패킷을 수신하는 통신부와 상기 통신 모듈과 연결된 프로세서를 포함하고, 상기 프로세서는 상기 복수의 센서 노드로부터 센싱된 각각의 데이터 패킷을 제공받아 복수의 큐-여기서, 상기 복수의 큐는 상기 센서 노드의 개수 만큼의 큐를 포함하며, 각 센서 노드당 하나의 큐가 할당됨-에 대하여 각 큐의 데이터 패킷 도착율에 관한 상한 경계값과 하한 경계값을 설정하고, 상기 설정된 상한 경계값과 상기 하한 경계값에 기초하여 상기 각 큐의 데이터 패킷에 대한 평균 지연 시간의 지연 요구 조건 만족 여부를 확인하여 상기 각 큐의 데이터 패킷을 처리한다.

상기 상한 경계값 및 하한 경계값은 큐-러닝(Q-learning)의 초기화 조건에 대한 경계값일 수 있다.

상기 프로세서는 새로운 p/2개의 데이터 패킷 도착율-여기서 p는 데이터 패킷의 개수로서 자연수-이 상기 상한 경계값과 상기 하한 경계값을 벗어나면 상기 상한 경계값과 상기 하한 경계값을 초기화하는 것을 더 수행할 수 있다.

상기 프로세서는 상기 각 큐의 상태-여기서 각 큐의 상태는 각 센서 노드의 지연요구조건보다 상기 각 센서 노드에 할당된 각 큐의 실제 측정된 평균 지연 시간이 큰 경우 상기 지연 요구 조건을 만족하지 못한 큐로 판단함-를 파악하고 상기 각 큐의 데이터 패킷에 대한 평균 지연 시간의 상기 지연 요구 조건을 만족하지 못하는 큐를 우선적으로 처리할 수 있다.

상기 프로세서는 상기 각 큐의 현재 상태에 따른 학습된 스케줄링 정책(Scheduling policy)를 기반으로 상기 각 큐의 현재 상태에서 가능한 행동들 중 보상(reward)를 극대화 할 수 있는 행동(Action)-여기서 행동은 처리할 큐를 선택하여 선택된 큐의 패킷을 처리하는 것-을 선택하여 처리할 수 있다.

상기 큐-러닝(Q-learning)의 보상은 상기 각 큐의 상태의 행동(Action)에 대한 학습 알고리즘(Learning algorithm)의 피드백으로, 상기 프로세서는 상기 보상을 기반으로 상기 학습 알고리즘의 스케줄링 정책을 갱신(Update)할 수 있다.

본 발명의 또 다른 실시 예에 따르면, 복수의 센서 노드와 패킷 스케쥴링 장치를 포함하는 사물 인터넷(internet of things; IoT) 통신 환경에서 상기 패킷 스케쥴링 장치에서 큐-러닝(Q-learning)을 이용한 적응적 패킷 스케줄링 방법을 컴퓨터에 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체는, 상기 복수의 센서 노드로부터 센싱된 각각의 데이터 패킷을 복수의 큐-여기서, 상기 복수의 큐는 상기 센서 노드의 개수 만큼의 큐를 포함하며, 각 센서 노드당 하나의 큐가 할당됨-에서 제공받는 단계와, 상기 각 큐의 데이터 패킷 도착율에 관한 상한 경계값과 하한 경계값을 설정하는 단계와, 상기 설정된 상한 경계값과 상기 하한 경계값에 기초하여 상기 각 큐의 데이터 패킷에 대한 평균 지연 시간의 지연 요구 조건 만족 여부를 확인하여 상기 각 큐의 데이터 패킷을 처리하는 단계를 실행시킨다.

본 발명의 실시 예들에 따른 큐-러닝(Q-learning)을 이용한 적응적 패킷 스케줄링 방법 및 이를 수행하는 패킷 스케쥴링 장치는 사물인터넷(IoT) 환경하에서 시간(Timeslot)을 고려한 상이한 가중치 부여 기법 및/또는 상한 경계값과 하한 경계값을 이용한 큐-러닝 초기화(Q-learning Initialization) 기법을 제공함으로써 각 센싱 노드에서의 변화하는 지연 요구 조건(Delay requirement)을 만족시키면서 지연 요구 조건 만족 정확도(Accuracy) 및/또는 지연 요구 조건 만족 수렴시간(Convergence time)을 기존 큐-러닝(Q-learning) 패킷 스케줄링 기법 대비 향상시킬 수 있다.

도 1은 본 발명의 일 실시예에 따른 큐-러닝(Q-learning)을 이용한 적응적 패킷 스케줄링을 수행하는 사물인터넷(Internet of Things; IoT) 네트워크 환경을 개략적으로 나타낸다.
도 2는 본 발명의 일 실시예에 따른 사물인터넷(Internet of Things;IoT) 환경에서의 큐-러닝(Q-learning)을 이용한 적응적 패킷 스케줄링 방법을 설명하기 위한 순서도이다.
도 3는 본 발명의 일 실시예에 따른 사물인터넷(Internet of Things; IoT) 환경에서의 적응적 패킷 스케줄링 방법의 큐-러닝(Q-learning) 초기화 알고리즘을 나타낸다.
도 4 및 도 5는 본 발명의 일 실시예에 따른 시간을 고려한 패널티 부여 기법과 기존의 패널티 부여 기법을 비교하기 위한 그래프이다.
도 6은 본 발명의 일 실시예에 따른 사물인터넷(Internet of Things; IoT) 환경에서의 큐-러닝(Q-learning)을 이용한 적응적 패킷 스케줄링 방법의 효율성을 검증하기 위한 시뮬레이션 환경을 나타낸 테이블이다.
도 7은 본 발명의 일 실시예에 따른 사물인터넷(Internet of Things; IoT) 환경에서의 큐-러닝(Q-learning)을 이용한 적응적 패킷 스케줄링 방법을 수행하는 패킷 스케쥴링 장치의 내부 블록도이다.
도 8은 본 발명의 일 실시예에 따른 사물인터넷(Internet of Things;IoT) 환경에서의 큐-러닝(Q-learning)을 이용한 적응적 패킷 스케줄링 방법과 기존의 큐-러닝(Q-learning) 패킷 스케줄링 방법의 평균 대기시간을 비교한 그래프이다.
도 9는 본 발명의 일 실시예에 따른 사물인터넷(Internet of Things;IoT) 환경에서의 Q-learning을 이용한 패킷 스케줄링 방법과 기존의 큐-러닝(Q-learning)을 이용한 패킷 스케줄링 방법의 수렴시간을 비교한 그래프이다.
도 10은 본 발명의 일 실시예에 따른 사물인터넷(Internet of Things; IoT) 환경에서의 큐-러닝(Q-learning)을 이용한 적응적 패킷 스케줄링 방법과 기존의 큐-러닝(Q-learning) 패킷 스케줄링 방법의 정확도를 비교한 그래프이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는바, 특정 실시 예들을 도면에 예시하고 상세하게 설명하고자 한다.

그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.

도 1은 본 발명의 일 실시예에 따른 큐-러닝(Q-learning)을 이용한 적응적 패킷 스케줄링을 수행하는 사물인터넷(Internet of Things; IoT) 네트워크 환경을 개략적으로 나타낸다.

N개의 엔드 노드(End node)와 하나의 게이트웨이로 구성된 사물인터넷(IoT) 환경에서, 각 엔드 노드는 센서 노드에 해당될 수 있다. 각 센서노드는 예를 들어 스마트 팩토리 응용에서, 온도 데이터를 센싱하여 센싱된 데이터 패킷을 게이트웨이(100)의 각 큐로 전송할 수 있다. 각 큐의 데이터 패킷은 강화 학습의 한 종류인 큐-러닝(Q-learning)을 기반으로 처리될 수 있다.

도 1을 참조하면, 복수의 센서 노드(110-1, 110-2, ..., 110-N)로 구성된 사물 인터넷 환경에서, 복수의 센서 노드(110-1, 110-2, ..., 110-N)에서 센싱된 데이터는 게이트웨이(100)로 전송되어 본 발명의 일실시예에 따른 큐-러닝(Q-learning)을 이용한 적응적 패킷 스케쥴링이 수행된다.

본 발명의 일실시에에 따른 큐-러닝(Q-learning)을 이용한 적응적 패킷 스케쥴링은 패킷 스케쥴러 또는 패킷 스케쥴링 장치에서 수행될 수 있으며, 상기 게이트웨이는 패킷 스케쥴러 또는 패킷 스케쥴링 장치를 포함할 수 있다.

이하, 본 발명의 일실시에에 따른 큐-러닝(Q-learning)을 이용한 적응적 패킷 스케쥴링이 게이트웨이에서 수행되는 경우를 예로 들어 설명한다.

게이트웨이(100)는 복수의 큐(122)와 프로세서(140)를 포함하도록 구성될 수 있다. 게이트웨이(100) 내부에 하나의 센서 노드 당 하나의 큐를 할당할 수 있다. 도 1에서는 하나의 최선 노력 큐(best effort queue)를 포함하는 총 3개의 큐(122, 124, 126)를 예시적으로 도시한다.

본 발명의 일실시에에 따른 큐-러닝(Q-learning)을 이용한 적응적 패킷 스케쥴링은 미리 설정되어 있는, 적어도 하나의 파라미터를 기반으로 상기 복수의 센서 노드(110-1, 110-2, ..., 110-N)에서 센싱된 데이터 패킷에 대해 패킷 스케쥴링 동작을 수행할 수 있다. 또는 도 1에서는 도시하지 않았지만, 각 센서 노드(110-1, 110-2, ..., 110-N)와 각 큐(122) 사이에 각각 별도의 버퍼를 구비하여 복수의 센서 노드(110-1, 110-2, ..., 110-N)에서 센싱된 데이터 패킷을 임시적으로 저장하고 상기 각각의 버퍼에 저장되어 있는 데이터 패킷들에 대해 패킷 스케쥴링 동작을 수행할 수도 있다.

본 발명의 일 실시예에 따른 사물인터넷(IoT) 환경에서의 큐-러닝(Q-learning)을 이용한 적응적 패킷 스케줄링 방법의 목표는 다수의 센서 노드(Sensor nodes)로 구성된 사물인터넷 환경에서 각 큐의 지연 요구 조건 만족 정확도와 각 큐의 지연 요구 조건 만족 수렴시간을 기존 기법 대비 향상시키기 위해 큐-러닝(Q-learning)의 초기화에 패킷 도착율에 대한 상한 경계값 및 하한 경계값을 이용한다. 이하, 본 발명의 일실시예에 따른 큐-러닝(Q-learning)의 초기화 방법에 대해서는 도 3을 참조하여 자세히 설명한다.

사물인터넷 환경에서의 방대한 데이터 패킷을 신속하게 처리하기 위해서는 각 데이터에 대한 간단한 수식이 요구되며, 먼저 학습을 위한 큐-러닝(Q-learning)의 각 요소(Factor)을 정의한다.

먼저 큐-러닝(Q-learning)의 상태(State; si)는 각 센서 노드의 지연요구조건 dRi에 대한 센서 노드에 할당된 각 큐 qi의 실제 측정된 평균 지연 시간 Mdi의 만족 여부로 정의된다. 따라서 게이트웨이(100)의 프로세서(Processor, 140)는 각 큐의 상태를 파악하고 지연 요구조건을 만족하지 못하는 큐를 우선시 처리한다.

수학식 1의 si는 각 큐의 상태, Mdi는 큐 qi의 실제 측정된 평균 지연시간, 그리고 dRi는 큐 qi의 지연 요구조건이다. 하나의 최선 노력 큐(best effort queue)를 포함하는 전체 N개의 큐가 있을 때, 전체 2^N-1개의 상태 집합을 가진다. 예를 들어, N=3 개의 큐가 있을때, 1개의 최선 노력 큐(best effort queue)를 포함하며, 3개의 상태 집합이 존재할 수 있다.

수학식 1을 참조하면, 각 센서 노드 i의 지연요구조건 dRi 보다 각 센서 노드 i에 할당된 각 큐 qi의 실제 측정된 평균 지연 시간 Mdi이 작거나 같다면 해당 큐 qi는 상태 si는 0의 값을 가진다. 각 센서 노드 i의 지연요구조건 dRi 보다 각 센서 노드 i에 할당된 각 큐 qi의 실제 측정된 평균 지연 시간 Mdi이 크다면 해당 큐 qi의 상태 si는 1의 값을 가지며 이와 같이 지연 요구조건을 만족하지 못하는 큐를 우선시 처리한다.

큐-러닝(Q-learning)의 행동(Action; ai)은 처리할 큐를 선택하는 것으로, 행동 ai는 큐 qi의 패킷을 처리하는 것이다. 즉, 현재 상태에서 가능한 행동들 중 학습된 스케줄링 정책(Scheduling policy)를 기반으로 보상(reward)을 극대화 할 수 있는 행동을 선택하여 처리할 수 있다.

큐-러닝(Q-learning)의 보상은 각 상태의 행동에 대한 학습 알고리즘(Learning algorithm)의 피드백(Feedback)으로, 보상을 기반으로 학습 알고리즘의 스케줄링 정책이 갱신(Update)될 수 있다. 따라서, 큐 qi의 데이터 패킷 pi가 지연 요구조건 dRi 내에 처리될 경우 프로세서(140)에게 긍정적인 보상을 부여하며, 큐 qi의 데이터 패킷 pi가 지연 요구조건 dRi 내에 처리되지 않을 경우 부정적인 보상을 부여할 수 있다. 프로세서(140)는 보상을 통해 현재의 스케줄링 정책이 적절한지 판단하여 학습 알고리즘의 스케쥴링 정책을 갱신할 수 있다.

전체 보상 함수는 다음의 수학식 2와 같이 정의될 수 있다.

수학식 2에서 rqtime은 전체 큐에 대한 시간 보상함수로, 각 큐에 대한 보상의 합으로 정의되며, rqstate는 각 큐의 상태 변화에 따라 결정되는 값이다.

수학식 3에서 wi는 같은 큐가 반복적으로 서비스되는 것을 방지하기 위한 가중치로, 마지막 행동 ai에 해당하는 큐 qi의 가중치 wi는 예를 들어 0.3, 서비스 받지 못한 나머지 큐에 대한 가중치는 예를 들어 1을 부여하여 서비스 될 수 있도록 더 높은 가중치를 부여할 수 있다. 또한 rqtime,i는 큐 qi에 대한 시간 보상으로, 큐를 처리하는 행동이 수행될 때 마다 아래의 수학식 4와 같이 계산된다.

수학식 4를 이용하여 도 5를 설명하면, 큐 qi의 실제 측정된 평균 지연시간 Mdi가 큐 qi의 지연 요구 조건 dRi보다 작은 경우 시간 보상 rqtime,i는 도 5의 Mi < dRi인 구간에서의 V1 x Mdi/dRi의 긍정적 시간 보상값(평균 지연시간 Mdi가 증가함에 따라 증가)을 가지며, 큐 qi의 실제 측정된 평균 지연시간 Mdi이 큐 qi의 지연 요구 조건 dRi와 같은 경우 시간 보상 rqtime,i는 도 5의 Mi = dRi인 지점에서 V1의 시간 보상 값을 가지며, 큐 qi의 실제 측정된 평균 지연시간 Mdi가 큐 qi의 지연 요구 조건 dRi보다 큰 경우 시간 보상 rqtime,i는 도 5의 Mi > dRi인 구간에서의 -V2의 부정적 시간 보상값을 가진다.

수학식 4에서 V1은 예를 들어 50으로 설정할 수 있다. V2는 각 큐의 측정된 지연시간이 지연요구조건을 만족하지 못할 때 부여되는 패널티(Penalty)로, 시간에 관계없이 도 5의 기존 패킷 스케쥴링 기법처럼 동일한 -V2 값(401)이 부여되는 것을 방지하기 위해 도 5의 501로 나타낸 바와 같이 시간에 따라 패널티를 가중할 수 있으며, V2는 다음과 같이 수학식 5로 정의될 수 있다.

하기 수학식 5를 참조하면, 도 5의 501으로 나타낸 바와 같이, 시간에 따라 패널티를 가중하여 시간에 따른 보상이 부정적으로 증가될 수 있다.

수학식 5 우측의 -0.0003의 마이너스 부호에 의해 시간에 따라 페널티가 증가하여 부정적 보상이 증가하게 된다.

수학식 2의 전체 보상 함수에서 rqstate는 각 큐의 상태 변화에 따라 결정되는 값으로, 하기 수학식 6에 정의된 바와 같이 게이트웨이(100)의 상태 s가 행동 ai함으로써 상태 s'로 전이되었을 때 상태 s'가 상태 s에 비해 좋은 상태이면 긍정적인 보상을, 그렇지 않으면 보상 0을 부여한다.

수학식 6에서 V3는 예를 들어 50으로 설정할 수 있다.

큐-러닝(Q-learning)의 큐-테이블(Q-table) 및 보상 테이블(Reward table)을 초기화하는 조건 알고리즘은 도 3을 참조하여 설명한다.

도 2는 본 발명의 일 실시예에 따른 사물인터넷(Internet of Things;IoT) 환경에서의 큐-러닝(Q-learning)을 이용한 적응적 패킷 스케줄링 방법을 설명하기 위한 순서도이다.

본 발명의 일 실시예에 따른 큐-러닝(Q-learning)을 이용한 적응적 패킷 스케줄링 방법은 N개의 엔드 노드(End node)-예를 들어 센서 노드-와 하나의 게이트웨이로 구성된 사물인터넷(IoT) 환경에서, 각 센서 노드는 센싱된 데이터-예를 들어 스마트 팩토리에서의 온도 센서에서 감지된 온도 데이터-를 센싱하여 센싱된 데이터 패킷을 게이트웨이(100)의 각 대기 큐로 전송한다. 도 2에서는 4개의 센서노드(센서 노드 1, 2. 3, 4)와 각 센서노드에 대응되는 대기 큐 1. 2, 3, 4를 예를 들어 설명한다. 각 대기 큐의 데이터 패킷은 강화학습의 한 종류인 큐-러닝(Q-learning)을 기반으로 처리된다.

큐-러닝(Q-learning) 이란 행동-값 함수(action-value function) 값을 업데이트 해주면서 가장 나은 행동(action)을 취해주는 강화학습 알고리즘이다.

큐-러닝(Q-learning)의 핵심은 에이전트(agent)가 상태(state) s에 있을때 보상(reward) r을 받고 상태 s'로 움직이는데 에이전트가 움직이면서 가장 보상을 많이 받을 수 있는 행동(action)을 취하도록하는 것이며, 이때 다음 상태(state)에서 가장 높게 받을 수 있는 보상(reward)까지 생각을 해야하기때문에 에이전트는 움직이면서 Q(s, a)= r + max Q(s',a') 식을 이용하여 Q값을 업데이트하며, Q 값을 업데이트 하려면 다음 상태의 Q 값도 알아야 한다.

현재 상태에서 행동(action) a 의 Q값은 그 행동(action) a를 했을 때의 보상(reward) 값 r과 다음 상태(stats) s'에서 가장 많이 받을 수 있는 Q값을 더해서 산출한다.

큐-러닝(Q-learning), 큐-테이블(Q-table) 및 보상 테이블(Reward table)에 대해서는 기존에 사용되고 있는 강화학습 알고리즘에 대한 것이므로 더 자세한 설명은 생략한다.

도 2를 참조하면, 큐-러닝(Q-learning)의 에피소드(Epiosde)가 시작함과 동시에 각 큐에 대한 첫번째 입력된 시간을 측정(단계 231)하여 각 큐의 패킷 도착율(packets/time slot)을 계산(단계 233)한다. 그 다음 각 큐의 현재 지연 시간을 측정하고(단계 235) 실행 가능한 큐-러닝(Q-learning)의 행동(Action)을 계산한다(단계 237). 여기서, 큐-러닝(Q-learning)의 행동(Action)은 처리할 큐를 선택하는 것으로, 행동(action) ai는 큐 qi의 패킷을 처리하는 것이다. 예를 들어, 현재 상태에서 가능한 행동들 중 학습된 스케줄링 정책(Scheduling policy)를 기반으로 보상(reward)을 극대화할 수 있는 행동을 선택하여 처리할 수 있다.

각 큐의 평균 지연시간을 측정(단계 239)하고, 각 큐의 상태를 측정(단계 241)하고, 현재 상태에서 실행 가능한 행동(Action)이 1개 이상인지 판단(단계 243)하여, 실행 가능한 행동(Action)이 1개 이상이 아닌 경우에는 단계 231로 되돌아간다. 상기 판단 결과, 실행 가능한 행동(Action)이 1개 이상인 경우 큐-테이블(Q-table), 보상-테이블(Reward-table 또는 R-table)을 업데이트(단계 245)하면서 Rqstate(), Rqtime(), weight(), 전체 보상(Reward)을 측정한다(단계 247).

큐-러닝(Q-learning)을 이용한 패킷 처리를 수행(단계 249)하고, 처리된 총 패킷의 수(p)가 1보다 크고 (p Mod 1000)의 연산값이 0인지 여부를 판단(단계 251)하여, 이러한 조건을 만족하지 않으면 단계 231로 되돌아 가며, 처리된 총 패킷의 수가 1보다 크고 상기 (p Mod 1000)의 연산값이 0이 되면-예를 들어 처리된 총 패킷수 p가 1000에 도달되면-, 각 패킷 도착율에 대한 상한 경계(Upper bound)값, 하한 경계(Lower bound) 값을 설정하여 저장한다(단계 253). 여기서 Mod는 양변을 나누어 나머지를 구하는 모듈러 연산을 나타낸다. (p Mod 1000)에서 1000은 패킷의 수를 나타내는 예시적인 값이다. 이러한 과정에서의 데이터 패킷들은 큐-러닝(Q-learning)을 기반으로 총 패킷이 다 처리될 때까지 계속 처리된다.

그 다음 들어오는 p/2개의 데이터 패킷에 대한 패킷 도착율을 측정(단계 255)하고, 여기서 측정한 패킷 도착율이 상기 설정된 상한 경계(Upper bound)값과 하한 경계(Lower bound) 값을 벗어나게 되면 큐-테이블(Q-table)과 보상-테이블(Reward-table)을 초기화 하고 새로운 상한 경계(Upper bound)값과 하한 경계(Lower bound) 값을 설정한다(단계 259). 상기 측정한 패킷 도착율이 상기 상한 경계(Upper bound)값과 하한 경계(Lower bound) 값을 벗어나지 않을 경우 기존 큐-러닝(Q-learning)의 스케줄링 정책을 기반으로 학습한다.

이러한 큐-러닝(Q-learning)의 초기화 기법은 선행 기술에서는 연구되지 않은 새로운 기법으로 큐-러닝(Q-learning)의 학습 과정에서 데이터 패킷 도착율과 지연 요구조건(Delay requirement)이 급격하게 변화되었을 때, 기존 스케줄링 정책을 기반으로 학습했을 때보다 본 발명의 실시예들에 따른 스케줄링 정책을 확립하여 학습하는 것이 더 빠를수 있다.

도 3는 본 발명의 일 실시예에 따른 사물인터넷(Internet of Things; IoT) 환경에서의 적응적 패킷 스케줄링 방법의 큐-러닝(Q-learning) 초기화 알고리즘을 나타낸다. 구체적으로, 도 3은 큐-러닝(Q-learning)의 큐-테이블(Q-table) 및 보상 테이블(Reward table)을 초기화하는 조건 알고리즘을 나타낸다.

도 3을 참조하면, 본 발명의 일 실시예에 따른 큐-러닝(Q-learning) 초기화 알고리즘으로 큐-러닝(Q-learning)의 에피소드(episode)가 시작되면 각 큐의 데이터 패킷 도착율을 측정하고 p개의 데이터 패킷에 대하여 평균 패킷 도착율을 측정하고 패킷 도착율에 대한 상한 경계값과 하한 경계값을 설정한다. 여기서, 도 3에서 데이터 패킷의 개수 p = 1000인 경우를 예로 들어 설명한다. 상·하한 경계값을 설정하는 arrival rate_i x (1 + x)에서 x값은 0.3으로, 데이터 패킷의 중요도에 따라 변경될 수 있다.

q(s, a)= r + maxq(s',a') 정책(policy)를 이용하여 q값을 업데이트하며, 현재 상태에서 행동(action) a의 q값은 그 행동(action) a를 했을 때의 보상(reward) 값 r과 다음 상태(stats) s'에서 가장 많이 받을 수 있는 q값을 더해서 산출한다(q(s, a)= r + maxq(s',a')).

전술한 패킷 도착율에 대한 상·하한 경계값 설정 후 새로이 들어오는 다음 데이터 패킷(2/p개의 패킷)의 패킷 도착율(arrival rate)을 측정하고, 새로운 데이터 패킷(2/p개의 패킷)의 패킷 도착율이 상기 설정된 상·하한 경계값을 벗어나게 되면, 큐-러닝(Q-learning)의 큐-테이블(Q-table)과 보상 테이블(Reward table)을 초기화하고, 새로운 상·하한 경계값을 설정한다. 상·하한 경계값을 벗어나지 않으면, 학습된 스케줄링 정책으로 학습한다. 이러한 과정을 모든 데이터 패킷이 처리될 때까지 반복수행한다.

도 6은 본 발명의 일 실시예에 따른 사물인터넷(IoT) 환경에서의 큐-러닝(Q-learning)을 이용한 적응적 패킷 스케줄링 방법의 효율성을 검증하기 위한 시뮬레이션 환경을 나타낸 테이블이다.

본 발명의 일 실시예에 따른 사물인터넷(IoT) 환경에서의 큐-러닝(Q-learning)을 이용한 적응적 패킷 스케줄링 방법의 효율성을 검증하기 위한 실험 환경으로, 도 6은 전체 45,000의 시간-예를 들어 타임슬롯(time slot)) 중 15,000 타임슬롯과 30,000 타임슬롯에서 각 큐의 패킷 도착율 및 각 큐의 평균 지연 요구 조건이 변경되는 것을 나타낸다.

예를들어, 도 6에 도시된 바와 같이, 전체 45,000의 시간(time slot) 중 큐 1의 경우 15,000 타임슬롯에서 패킷 도착율은 0.30이고, 30,000 타임슬롯에서 패킷 도착율은 0.20, 45,000 타임슬롯에서의 패킷 도착율은 0.30으로 변경되며, 큐 2의 경우 15,000 타임슬롯에서 패킷 도착율은 0.25이고, 30,000 타임슬롯에서 패킷 도착율은 0.40, 45,000 타임슬롯에서의 패킷 도착율은 0.25으로 변경되며, 큐 3의 경우 15,000 타임슬롯에서 패킷 도착율은 0.40이고, 30,000 타임슬롯에서 패킷 도착율은 0.35, 45,000 타임슬롯에서의 패킷 도착율은 0.40으로 변경된다.

예를들어, 도 6에 도시된 바와 같이, 전체 45,000의 시간(time slot) 중 큐 1의 경우 15,000 타임슬롯에서 평균 지연 요구는 5이고, 30,000 타임슬롯에서 평균 지연 요구는 2, 45,000 타임슬롯에서의 평균 지연 요구는 6으로 변경되며, 큐 2의 경우 15,000 타임슬롯에서 평균 지연 요구는 4이고, 30,000 타임슬롯에서 평균 지연 요구는 3, 45,000 타임슬롯에서의 평균 지연 요구는 7로 변경되며, 큐 3의 경우 최선 노력으로 동작한다.

도 7은 본 발명의 일 실시예에 따른 사물인터넷(Internet of Things; IoT) 환경에서의 큐-러닝(Q-learning)을 이용한 적응적 패킷 스케줄링 방법을 수행하는 패킷 스케쥴링 장치의 내부 블록도이다.

도 7을 참조하면, 상기 패킷 스케쥴링 장치는 복수의 센서 노드와 통신하여 상기 복수의 센서 노드로부터 센싱된 각각의 데이터 패킷을 수신하는 통신부(710), 통신부(720)와 연결된 프로세서(720) 및 메모리(730)을 포함한다.

프로세서(720)는 복수의 센서 노드로부터 센싱된 각각의 데이터 패킷을 수신하는 복수의 큐-여기서, 상기 복수의 큐는 상기 센서 노드의 개수 만큼의 큐를 포함하며, 각 센서 노드당 하나의 큐가 할당됨-에 대하여 각 큐의 데이터 패킷 도착율에 관한 상한 경계값과 하한 경계값을 설정한다.

또한, 프로세서(720)는 상기 설정된 상한 경계값과 상기 하한 경계값에 기초하여 상기 각 큐의 데이터 패킷에 대한 평균 지연 시간의 지연 요구 조건 만족 여부를 확인하여 상기 각 큐의 데이터 패킷을 처리한다.

상기 패킷 스케쥴링 장치는 게이트웨이내에 구현될 수도 있다.

본 발명의 실시예들에 따른 사물인터넷(IoT) 환경에서의 큐-러닝(Q-learning)을 이용한 적응적 패킷 스케줄링 방법의 효율성을 검증하기 위해 윈도우 기반 이클립스 자바를 이용하여 기존 큐-러닝(Q-learning) 패킷 스케줄링 알고리즘과의 성능을 비교 실험하였다. 실험을 위한 환경은 하나의 최선 노력 큐를 포함하는 전체 3개의 큐를 설계하였다. 여기서 각 큐는 베르누이 확률을 따라 데이터 패킷을 생성하며, 전체 45,000의 시간 중 15,000 그리고 30,000에서 도 6과 같이 데이터 패킷 도착율과 서비스 요구조건(평균 지연 요구 조건)이 변경되도록 하였다.

각 큐의 데이터 패킷에 대한 평균 대기시간 비교 결과는, 기존 큐-러닝(Q-learning) 패킷 스케줄링 기법을 이용했을 때 도 8의 (a)와 같이 변화된 서비스 요구조건(평균 지연 요구 조건)에 서서히 적응하는 반면, 본 발명의 일실시예에 따른 큐-러닝(Q-learning)을 이용한 적응적 패킷 스케줄링 방법을 적용했을때 도 8의 (b)와 같이 변화된 서비스 요구조건(평균 지연 요구 조건)에 신속히 적응하는 모습을 보인다. 정확한 수렴시간 비교를 위해 10번의 반복 실험을 진행하였으며, 결과는 본 발명의 일실시예에 따른 큐-러닝(Q-learning)을 이용한 적응적 패킷 스케줄링 방법의 수렴시간이 도 9와 같이 50% 감소됨을 확인하였다.

도 8은 본 발명의 일 실시예에 따른 사물인터넷(Internet of Things;IoT) 환경에서의 큐-러닝(Q-learning)을 이용한 적응적 패킷 스케줄링 방법과 기존의 큐-러닝(Q-learning) 패킷 스케줄링 방법의 평균 대기시간을 비교한 그래프이다.

도 8(a)의 기존 기법의 경우 15,000 타임슬롯에서 최선 노력 큐(805)는 큐 1(803), 큐 2(801)의 평균 대기 시간값에서 크게 벗어나면서 변화된 서비스 요구조건(평균 지연 요구 조건)에 서서히 적응하지만, 도 8b의 본 발명의 일실시예에 따른 큐-러닝(Q-learning)을 이용한 적응적 패킷 스케줄링 방법은 15,000 타임슬롯에서 30,000 타임슬롯 사이 구간에서 기존 기법보다 평균 대기 시간값이 빠르게 수렴하는 것을 확인할 수 있으며 변화된 서비스 요구조건(평균 지연 요구 조건)에 신속히 적응하는 모습을 보인다.

도 9는 본 발명의 일 실시예에 따른 사물인터넷(IoT) 환경에서의 Q-learning을 이용한 패킷 스케줄링 방법과 기존의 큐-러닝(Q-learning)을 이용한 패킷 스케줄링 방법의 수렴시간을 비교한 그래프이다.

도 9를 참조하면 큐 1와 큐 2의 경우 기존 큐-러닝(Q-learning) 패킷 스케줄링 기법의 패킷 데이터의 지연 요구조건 만족 수렴시간(1005a, 1005b)에 비해 본 발명의 일실시예에 따른 큐-러닝(Q-learning)을 이용한 패킷 스케줄링 방법이 패킷 데이터의 지연 요구조건 만족 수렴시간(1001a, 1001b)이 최대 50% 감소한다.

도 10은 본 발명의 일 실시예에 따른 사물인터넷(IoT) 환경에서의 큐-러닝(Q-learning)을 이용한 적응적 패킷 스케줄링 방법과 기존의 큐-러닝(Q-learning) 패킷 스케줄링 방법의 정확도를 비교한 그래프이다.

도 10을 참조하면 큐 1와 큐 2의 경우 기존 큐-러닝(Q-learning) 패킷 스케줄링 기법의 패킷 데이터의 지연 요구조건 만족 정확도(1005a, 1005b)에 비해 본 발명의 일실시예에 따른 큐-러닝(Q-learning)을 이용한 패킷 스케줄링 방법이 패킷 데이터의 지연 요구조건 만족 정확도(1001a, 1001b)이 최대 6% 증가한다.

즉, 제안된 기법의 효율성을 보다 정확히 검증하기 위해, 각 큐의 평균 대기시간에 대한 서비스 요구조건 정확성을 도 10과 같이 비교하였다. 여기서 정확성은 각 큐의 서비스 요구조건을 만족하여 처리된 패킷의 수 / 처리된 데이터 패킷의 수이다. 여기서, 제안 기법의 정확성이 기존 큐-러닝(Q-learning) 패킷 스케줄링 기법에 비해 최대 6% 상승함을 확인함으로써, 본 발명의 효율성을 검증한다.

상술한 본 발명의 실시 예들에 따른 큐-러닝(Q-learning)을 이용한 적응적 패킷 스케줄링 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다. 본 발명의 실시 예들에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다.

본 발명의 실시 예들에 따른 복수의 센서 노드와 패킷 스케쥴링 장치를 포함하는 사물 인터넷(internet of things; IoT) 통신 환경에서 상기 패킷 스케쥴링 장치에서 큐-러닝(Q-learning)을 이용한 적응적 패킷 스케줄링 방법을 컴퓨터에 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 있어서, 상기 복수의 센서 노드로부터 센싱된 각각의 데이터 패킷을 복수의 큐-여기서, 상기 복수의 큐는 상기 센서 노드의 개수 만큼의 큐를 포함하며, 각 센서 노드당 하나의 큐가 할당됨-에서 수신하는 단계와, 상기 각 큐의 데이터 패킷 도착율에 관한 상한 경계값과 하한 경계값을 설정하는 단계와, 상기 상한 경계값과 상기 하한 경계값에 기초하여 상기 각 큐의 데이터 패킷에 대한 평균 지연 시간의 지연 요구 조건 만족 여부를 확인하여 상기 각 큐의 데이터 패킷을 처리하는 단계를 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체가 제공될 수 있다.

컴퓨터가 읽을 수 있는 기록 매체로는 컴퓨터 시스템에 의하여 해독될 수 있는 데이터가 저장된 모든 종류의 기록 매체를 포함한다. 예를 들어, ROM(Read Only Memory), RAM(Random Access Memory), 자기 테이프, 자기 디스크, 플래시 메모리, 광 데이터 저장장치 등이 있을 수 있다. 또한, 컴퓨터로 판독 가능한 기록매체는 컴퓨터 통신망으로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 읽을 수 있는 코드로서 저장되고 실행될 수 있다.

구체적으로, 설명된 특징들은 디지털 전자 회로, 또는 컴퓨터 하드웨어, 펌웨어, 또는 그들의 조합들 내에서 실행될 수 있다. 특징들은 예컨대, 프로그래밍 가능한 프로세서에 의한 실행을 위해, 기계 판독 가능한 저장 디바이스 내의 저장장치 내에서 구현되는 컴퓨터 프로그램 제품에서 실행될 수 있다. 그리고 특징들은 입력 데이터 상에서 동작하고 출력을 생성함으로써 설명된 실시예들의 함수들을 수행하기 위한 지시어들의 프로그램을 실행하는 프로그래밍 가능한 프로세서에 의해 수행될 수 있다. 설명된 특징들은, 데이터 저장 시스템으로부터 데이터 및 지시어들을 수신하기 위해, 및 데이터 저장 시스템으로 데이터 및 지시어들을 전송하기 위해, 결합된 적어도 하나의 프로그래밍 가능한 프로세서, 적어도 하나의 입력 디바이스, 및 적어도 하나의 출력 디바이스를 포함하는 프로그래밍 가능한 시스템 상에서 실행될 수 있는 하나 이상의 컴퓨터 프로그램들 내에서 실행될 수 있다. 컴퓨터 프로그램은 소정 결과에 대해 특정 동작을 수행하기 위해 컴퓨터 내에서 직접 또는 간접적으로 사용될 수 있는 지시어들의 집합을 포함한다. 컴퓨터 프로그램은 컴파일된 또는 해석된 언어들을 포함하는 프로그래밍 언어 중 어느 형태로 쓰여지고, 모듈, 소자, 서브루틴(subroutine), 또는 다른 컴퓨터 환경에서 사용을 위해 적합한 다른 유닛으로서, 또는 독립 조작 가능한 프로그램으로서 포함하는 어느 형태로도 사용될 수 있다.

지시어들의 프로그램의 실행을 위한 적합한 프로세서들은, 예를 들어, 범용 및 특수 용도 마이크로프로세서들 둘 모두, 및 단독 프로세서 또는 다른 종류의 컴퓨터의 다중 프로세서들 중 하나를 포함한다. 또한 설명된 특징들을 구현하는 컴퓨터 프로그램 지시어들 및 데이터를 구현하기 적합한 저장 디바이스들은 예컨대, EPROM, EEPROM, 및 플래쉬 메모리 디바이스들과 같은 반도체 메모리 디바이스들, 내부 하드 디스크들 및 제거 가능한 디스크들과 같은 자기 디바이스들, 광자기 디스크들 및 CD-ROM 및 DVD-ROM 디스크들을 포함하는 비휘발성 메모리의 모든 형태들을 포함한다. 프로세서 및 메모리는 ASIC들(application-specific integrated circuits) 내에서 통합되거나 또는 ASIC들에 의해 추가될 수 있다.

이상에서 설명한 본 발명은 일련의 기능 블록들을 기초로 설명되고 있지만, 전술한 실시 예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경 가능하다는 것이 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 명백할 것이다.

전술한 실시 예들의 조합은 전술한 실시 예에 한정되는 것이 아니며, 구현 및/또는 필요에 따라 전술한 실시예들 뿐 아니라 다양한 형태의 조합이 제공될 수 있다.

전술한 실시 예들에서, 방법들은 일련의 단계 또는 블록으로서 순서도를 기초로 설명되고 있으나, 본 발명은 단계들의 순서에 한정되는 것은 아니며, 어떤 단계는 상술한 바와 다른 단계와 다른 순서로 또는 동시에 발생할 수 있다. 또한, 당해 기술 분야에서 통상의 지식을 가진 자라면 순서도에 나타난 단계들이 배타적이지 않고, 다른 단계가 포함되거나, 순서도의 하나 또는 그 이상의 단계가 본 발명의 범위에 영향을 미치지 않고 삭제될 수 있음을 이해할 수 있을 것이다.

전술한 실시 예는 다양한 양태의 예시들을 포함한다. 다양한 양태들을 나타내기 위한 모든 가능한 조합을 기술할 수는 없지만, 해당 기술 분야의 통상의 지식을 가진 자는 다른 조합이 가능함을 인식할 수 있을 것이다. 따라서, 본 발명은 이하의 특허청구범위 내에 속하는 모든 다른 교체, 수정 및 변경을 포함한다고 할 것이다.

Claims

복수의 센서 노드와 패킷 스케쥴링 장치를 포함하는 사물 인터넷(internet of things; IoT) 통신 환경에서 상기 패킷 스케쥴링 장치에서의 큐-러닝(Q-learning)을 이용한 적응적 패킷 스케줄링 방법은,
상기 복수의 센서 노드로부터 센싱된 각각의 데이터 패킷을 복수의 큐-여기서, 상기 복수의 큐는 상기 센서 노드의 개수 만큼의 큐를 포함하며, 각 센서 노드당 하나의 큐가 할당됨-에서 제공받는 단계;
상기 각 큐의 데이터 패킷 도착율에 관한 상한 경계값과 하한 경계값을 설정하는 단계; 및
상기 설정된 상한 경계값과 상기 하한 경계값에 기초하여 상기 각 큐의 데이터 패킷에 대한 평균 지연 시간의 지연 요구 조건 만족 여부를 확인하여 상기 각 큐의 데이터 패킷을 처리하는 단계
를 포함하는 큐-러닝(Q-learning)을 이용한 적응적 패킷 스케줄링 방법.
제1항에 있어서, 상기 상한 경계값 및 하한 경계값은 강화학습 알고리즘인 큐-러닝(Q-learning)의 초기화 조건에 대한 경계값 인 것을 특징으로 하는 큐-러닝(Q-learning)을 이용한 적응적 패킷 스케줄링 방법.
제1항에 있어서, 새로이 들어오는 다음 p/2개의 데이터 패킷 도착율-여기서 p는 데이터 패킷의 개수로서 자연수-이 상기 상한 경계값과 상기 하한 경계값을 벗어나면 상기 상한 경계값과 상기 하한 경계값을 초기화하는 단계를 더 포함하는 큐-러닝(Q-learning)을 이용한 적응적 패킷 스케줄링 방법.
제1항에 있어서, 상기 각 큐의 상태-여기서 각 큐의 상태는 각 센서 노드의 지연요구조건보다 상기 각 센서 노드에 할당된 각 큐의 실제 측정된 평균 지연 시간이 큰 경우 상기 지연 요구 조건을 만족하지 못한 큐로 판단함-를 파악하고 상기 각 큐의 데이터 패킷에 대한 평균 지연 시간의 상기 지연 요구 조건을 만족하지 못하는 큐를 우선적으로 처리하는 것을 특징으로하는 큐-러닝(Q-learning)을 이용한 적응적 패킷 스케줄링 방법.
제1항에 있어서,
상기 각 큐의 현재 상태에 따른 학습된 스케줄링 정책(Scheduling policy)를 기반으로 상기 각 큐의 현재 상태에서 가능한 행동들 중 보상(reward)를 극대화 할 수 있는 행동(Action)-여기서 행동은 처리할 큐를 선택하여 선택된 큐의 패킷을 처리하는 것-을 선택하여 처리하는 것을 특징으로하는 큐-러닝(Q-learning)을 이용한 적응적 패킷 스케줄링 방법.
제1항에 있어서,
상기 큐-러닝(Q-learning)의 보상은 상기 각 큐의 상태의 행동(Action)에 대한 학습 알고리즘(Learning algorithm)의 피드백으로, 상기 보상을 기반으로 상기 학습 알고리즘의 스케줄링 정책을 갱신(Update)하는 것을 특징으로하는 큐-러닝(Q-learning)을 이용한 적응적 패킷 스케줄링 방법.
제1항에 있어서, 상기 각 큐의 데이터 패킷이 상기 지연 요구조건 내에서 처리될 경우 상기 패킷 스케쥴링 장치에게 긍정적인 보상을 부여하며, 상기 각 큐의 데이터 패킷이 상기 지연 요구조건 내에 처리되지 않을 경우 상기 패킷 스케쥴링 장치에게 부정적인 보상을 부여하는 것을 특징으로하는 큐-러닝(Q-learning)을 이용한 적응적 패킷 스케줄링 방법.
제1항에 있어서, 상기 각 큐의 p개의 데이터 패킷에 대한 데이터 패킷 도착율을 측정하는 단계를 더 포함하는 것을 특징으로하는 큐-러닝(Q-learning)을 이용한 적응적 패킷 스케줄링 방법.
복수의 센서 노드와 패킷 스케쥴링 장치를 포함하는 사물 인터넷(internet of things; IoT) 통신 환경에서, 상기 패킷 스케쥴링 장치는,
상기 복수의 센서 노드와 통신하여 상기 복수의 센서 노드로부터 센싱된 각각의 데이터 패킷을 수신하는 통신부;
상기 통신 모듈과 연결된 프로세서를 포함하고,
상기 프로세서는
상기 복수의 센서 노드로부터 센싱된 각각의 데이터 패킷을 제공받아 복수의 큐-여기서, 상기 복수의 큐는 상기 센서 노드의 개수 만큼의 큐를 포함하며, 각 센서 노드당 하나의 큐가 할당됨-에 대하여 각 큐의 데이터 패킷 도착율에 관한 상한 경계값과 하한 경계값을 설정하고,
상기 설정된 상한 경계값과 상기 하한 경계값에 기초하여 상기 각 큐의 데이터 패킷에 대한 평균 지연 시간의 지연 요구 조건 만족 여부를 확인하여 상기 각 큐의 데이터 패킷을 처리하는 큐-러닝(Q-learning)을 이용한 적응적 패킷 스케줄링 방법을 수행하는 패킷 스케쥴링 장치.
제9항에 있어서, 상기 상한 경계값 및 하한 경계값은 큐-러닝(Q-learning)의 초기화 조건에 대한 경계값 인 것을 특징으로 하는 큐-러닝(Q-learning)을 이용한 적응적 패킷 스케줄링 방법을 수행하는 패킷 스케쥴링 장치.
제9항에 있어서, 상기 프로세서는 새로운 p/2개의 데이터 패킷 도착율-여기서 p는 데이터 패킷의 개수로서 자연수-이 상기 상한 경계값과 상기 하한 경계값을 벗어나면 상기 상한 경계값과 상기 하한 경계값을 초기화하는 것을 더 수행하는 것을 특징으로 하는 큐-러닝(Q-learning)을 이용한 적응적 패킷 스케줄링 방법을 수행하는 패킷 스케쥴링 장치.
제9항에 있어서, 상기 프로세서는 상기 각 큐의 상태-여기서 각 큐의 상태는 각 센서 노드의 지연요구조건보다 상기 각 센서 노드에 할당된 각 큐의 실제 측정된 평균 지연 시간이 큰 경우 상기 지연 요구 조건을 만족하지 못한 큐로 판단함-를 파악하고 상기 각 큐의 데이터 패킷에 대한 평균 지연 시간의 상기 지연 요구 조건을 만족하지 못하는 큐를 우선적으로 처리하는 것을 특징으로 하는 큐-러닝(Q-learning)을 이용한 적응적 패킷 스케줄링 방법을 수행하는 패킷 스케쥴링 장치.
제9항에 있어서, 상기 프로세서는
상기 각 큐의 현재 상태에 따른 학습된 스케줄링 정책(Scheduling policy)를 기반으로 상기 각 큐의 현재 상태에서 가능한 행동들 중 보상(reward)를 극대화 할 수 있는 행동(Action)-여기서 행동은 처리할 큐를 선택하여 선택된 큐의 패킷을 처리하는 것-을 선택하여 처리하는 것을 특징으로 하는 큐-러닝(Q-learning)을 이용한 적응적 패킷 스케줄링 방법을 수행하는 패킷 스케쥴링 장치.
제9항에 있어서, 상기 큐-러닝(Q-learning)의 보상은 상기 각 큐의 상태의 행동(Action)에 대한 학습 알고리즘(Learning algorithm)의 피드백으로, 상기 프로세서는 상기 보상을 기반으로 상기 학습 알고리즘의 스케줄링 정책을 갱신(Update)하는 것을 특징으로 하는 큐-러닝(Q-learning)을 이용한 적응적 패킷 스케줄링 방법을 수행하는 패킷 스케쥴링 장치.
제9항에 있어서, 상기 각 큐의 데이터 패킷이 상기 지연 요구조건 내에서 처리될 경우 상기 패킷 스케쥴링 장치에게 긍정적인 보상을 부여하며, 상기 각 큐의 데이터 패킷이 상기 지연 요구조건 내에 처리되지 않을 경우 상기 패킷 스케쥴링 장치에게 부정적인 보상을 부여하는 것을 특징으로 하는 큐-러닝(Q-learning)을 이용한 적응적 패킷 스케줄링 방법을 수행하는 패킷 스케쥴링 장치.
복수의 센서 노드와 패킷 스케쥴링 장치를 포함하는 사물 인터넷(internet of things; IoT) 통신 환경에서 상기 패킷 스케쥴링 장치에서 큐-러닝(Q-learning)을 이용한 적응적 패킷 스케줄링 방법을 컴퓨터에 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 있어서,
상기 복수의 센서 노드로부터 센싱된 각각의 데이터 패킷을 복수의 큐-여기서, 상기 복수의 큐는 상기 센서 노드의 개수 만큼의 큐를 포함하며, 각 센서 노드당 하나의 큐가 할당됨-에서 제공받는 단계;
상기 각 큐의 데이터 패킷 도착율에 관한 상한 경계값과 하한 경계값을 설정하는 단계; 및
상기 설정된 상한 경계값과 상기 하한 경계값에 기초하여 상기 각 큐의 데이터 패킷에 대한 평균 지연 시간의 지연 요구 조건 만족 여부를 확인하여 상기 각 큐의 데이터 패킷을 처리하는 단계를 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.