KR20150053179A

KR20150053179A - 인지 무선 네트워크에서 큐-학습 기법을 이용한 부사용자의 데이터 전송 속도 향상 방법

Info

Publication number: KR20150053179A
Application number: KR1020130135037A
Authority: KR
Inventors: 홍충선; 안 투안 레; 더 쿠옹 두
Original assignee: 경희대학교 산학협력단
Priority date: 2013-11-07
Filing date: 2013-11-07
Publication date: 2015-05-15

Abstract

본 발명은 무선 인지 네트워크(cognitive radio network)에서의 부사용자(secondary user)의 핸드오버에 관한 것이다. 다중 무선(multi-radio)를 가지는 무선 인지 네트워크에서 데이터 전송율을 향상하기 위한 부사용자의 적절한 핸드오버 방식이 제안되고 있다. 우리 발명은 장시간에서 기대 데이터 전송율을 최대화하기 위한 강화 학습 방식(reinforcement learning approach, Q-learning)을 규정한다.

Description

인지 무선 네트워크에서 큐-학습 기법을 이용한 부사용자의 데이터 전송 속도 향상 방법{Method for improving data transmission rate of SU in CR network with multi-radio by using Q-learning}

무선 인지 통신 시스템은 주사용자의 통신을 방해하지 않으며 부사용자가 주사용자와 병렬로 통신을 수행하는 시스템이다.

본 발명이 이루고자 하는 목적은 다중 무선 채널을 구비하는 무선 인지 통신 시스템에서 부사용자의 데이터 전송율을 향상시키기 위한 핸드오버 방식을 제공하는 것이다

본 발명에 따른 핸드오버 제공 방식은 장시간 기대 보상을 최대화하기 위해 강화 학습 방식(Q-learning)을 수행하는 것을 특징으로 한다.

본 발명에 따른 핸드오버 방식은 강화 학습 방식을 통해 부사용자의 데이터 전송율을 최대화시킨다.

도 1은 본 발명에 따른 무선 인지 네트워크를 설명하기 위한 도면이다.
도 2는 본 발명에 따른 핸드오프 방법의 성능을 나타내는 도면이다.

병렬 다중 무선 채널에서 데이터 유닛을 전송하기 위하여, 각 부사용자 단말기는 다중 노드로부터 대역폭을 활당받아야 한다. 대역폭을 활당받은 후, 각 부사용자 단말기는 각 노드에서 각 대역폭의 서로 다른 채널 이득을 가지게 된다. L개의 인터페이스를 가지는 부사용자 단말기는 L개의 노드와 접속하며, 가우시안 채널의 새논 용량(shannon capacity) 공식으로부터 부사용자 단말기가 이룰 수 있는 데이터 전송률(r)은 아래의 수학식(1)과 같다.

[수학식 1]

여기서 b_l은 노드l로부터 부사용자 단말기로의 활당된 대역폭을 의미하며, p_l은 부사용자 단말기로부터 노드l로의 송신 전력을 의미하며, β_l(0≤β_l≤1)은 부사용자 단말기에게 보증하는 노드l로의 효율을 의미하며, H_l은 채널 이득 함수를 의미하며, Nl은 노이즈 전력 스펙트럼 밀도를 의미한다.

조인트 결합에 적용되는 Q-learning

부사용자 단말기의 결정은 항상 현재의 상황 또는 다음의 상황에 영향을 받는다. 따라서 강화 학습은 부사용자 단말기가 정확하게 결정하기 위한 적절한 방법으로 평가된다. 이 방식은 보상 함수와 가치 함수의 정책으로 구성된다. 시간 t에 부사용자 단말기의 상태가 s_k이고 행동 a_k를 수행한다고 가정하면, 다음 시간에 수행되는 부사용자 단말기의 행동은 보상 r_k ₊₁을 수신하고 새로운 상황 s_k ₊₁을 수신한다. 강화 학습은 보다 구체적으로 이하의 수학식(2), (3)으로 설명되며, 상황 s_k, 행동 a_k, 보상

의 기대 보상E(r_k) 정책(φ)은 아래와 같이 수학식(4)와 같이 설명된다.

[수학식 2]

[수학식 3]

[수학식 4]

정책(φ)의 상황(s)에서 말하기 행동(a)의 가치(Q^φ(s,a))는 아래의 수학식(5)와 같이 설명된다.

[수학식 5]

상황 s(k)는 페이딩 채널과 스펙트럼 센싱의 상황 확률값을 아래의 수학식(6)과 같이 포함한다.

[수학식 6]

여기서 pi'j'(k)는 현재 채널 상황j'인 경우 다음 상황 i'에서 페이딩 채널 전이 확률(fading channel transition probability)을 의미하며,

는 현재 채널 상황 j인 경우 다음 상황 i에서 스펙트럼 상황 전이 확률(spectrum state transition probability)을 의미한다.

행동은 아래의 수학식(7)과 같이 설명된다.

[수학식 7]

여기서

는 시간 k에서 L개의 후보 노드들 세트에서 노드 l을 선택하는 행동을 의미하며, aca(k)는 시간 k에서 노드1의 채널 세트{1, 2, 3....,M}에서 채널을 선택하는 행동을 의미하며, 채널 센싱 결정은 aca(k)=0(센싱이 없는 경우), aca(k)=1(센싱이 있는 경우)이며, aAMC(k)는 AMC 결정 방식을 의미한다.

보상 결정은 아래의 수학식(8)과 같다.

[수학식 8]

가치(Q(sk, ak))는 아래의 수학식(9)과 같다.

[수학식 9]

여기서 부사용자 단말기는 통신을 수행할 때, 부사용자 단말기는 순간 보상을 순간 역 데이터 전송율과 동일하게 계산하며, 매트릭스(Q(sk, ak))를 부사용자 단말기의 클래스 i에 상응하도록 갱신한다.

우리는 수렴을 아래와 같이 검사할 수 있다. 만약

인 경우 수렴이 발생한다. 그렇지 않은 경우 수렴될 때까지 가치(Q(sk, ak))의 학습을 다시 시작한다. 마지막으로 부사용자 단말기는 장시간 후에 기대 보상(r)을 최대화하는 적절한 정책을 계산한다.

수치 결과

시스템이 3개의 노드를 포함하고 있으며, 각 노드는 2개의 채널을 가진다고 가정하자. 부사용자 단말기는 한번에 2개의 노드와 접속할 수 있는 단지 2개의 인터페이스를 가진다. 3개의 노드의 대역폭은 각각 5MHz, 5MHz, 10MHz이다. 각 네트워크는 동일한 2AMC(QPSK, 64-QAM)을 가지며, 2개의 상황 SNR(나쁨, 좋음)은 각각 1dB, 10.2488dB이다.

도 1을 참고로 살펴보면, 무선 인지 통신 시스템에 N개의 부사용자 단말기가 존재한다고 가정하면, 각 노드는 허가된 스펙트럼 풀(pool)을 사용할 것이다. 게다가 부사용자 단말기는 L개의 무선 인터페이스를 가지며 부사용자 단말기의 이동은 N개의 노드들의 범위에서 매우 느리다. 주사용자(primary user)의 송신기(PU_T)는 주사용자 수신기(PU_R)로 데이터를 전송하고 있다. 부사용자 단말기는 허가된 스펙트럼을 이용하여 다른 부사용자 단말기와 접속한다.

도 2를 참고로 살펴보면, Q-learning을 수행한 수, 도 2(a)와 같이 데이터 전송을 위해 2개의 채널을 사용하여 적절한 정책을 달성하였다. 도2(b)와 같이 기대 보상 데이터 전송율을 달성하였으며, 도 2(c)와 같이 부사용자 단말기의 학습의 수렴 인자를 달성하였다. 본원발명은 도 2(b)에 도시되어 있는 바와 같이 높은 데이터 전송율을 달성하였다.

PU_T: 주사용자 송신기
PU_R: 주사용자 수신기

Claims

장시간 기대 보상을 최대화하기 위해 강화 학습(Q-learning) 방법.