KR20150053179A - 인지 무선 네트워크에서 큐-학습 기법을 이용한 부사용자의 데이터 전송 속도 향상 방법 - Google Patents

인지 무선 네트워크에서 큐-학습 기법을 이용한 부사용자의 데이터 전송 속도 향상 방법 Download PDF

Info

Publication number
KR20150053179A
KR20150053179A KR1020130135037A KR20130135037A KR20150053179A KR 20150053179 A KR20150053179 A KR 20150053179A KR 1020130135037 A KR1020130135037 A KR 1020130135037A KR 20130135037 A KR20130135037 A KR 20130135037A KR 20150053179 A KR20150053179 A KR 20150053179A
Authority
KR
South Korea
Prior art keywords
secondary user
learning
user terminal
quot
network
Prior art date
Application number
KR1020130135037A
Other languages
English (en)
Inventor
홍충선
안 투안 레
더 쿠옹 두
Original Assignee
경희대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 경희대학교 산학협력단 filed Critical 경희대학교 산학협력단
Priority to KR1020130135037A priority Critical patent/KR20150053179A/ko
Publication of KR20150053179A publication Critical patent/KR20150053179A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/10Scheduling measurement reports ; Arrangements for measurement reports
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W36/00Hand-off or reselection arrangements
    • H04W36/02Buffering or recovering information during reselection ; Modification of the traffic flow during hand-off

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

본 발명은 무선 인지 네트워크(cognitive radio network)에서의 부사용자(secondary user)의 핸드오버에 관한 것이다. 다중 무선(multi-radio)를 가지는 무선 인지 네트워크에서 데이터 전송율을 향상하기 위한 부사용자의 적절한 핸드오버 방식이 제안되고 있다. 우리 발명은 장시간에서 기대 데이터 전송율을 최대화하기 위한 강화 학습 방식(reinforcement learning approach, Q-learning)을 규정한다.

Description

인지 무선 네트워크에서 큐-학습 기법을 이용한 부사용자의 데이터 전송 속도 향상 방법{Method for improving data transmission rate of SU in CR network with multi-radio by using Q-learning}
본 발명은 무선 인지 네트워크(cognitive radio network)에서의 부사용자(secondary user)의 핸드오버에 관한 것이다. 다중 무선(multi-radio)를 가지는 무선 인지 네트워크에서 데이터 전송율을 향상하기 위한 부사용자의 적절한 핸드오버 방식이 제안되고 있다. 우리 발명은 장시간에서 기대 데이터 전송율을 최대화하기 위한 강화 학습 방식(reinforcement learning approach, Q-learning)을 규정한다.
무선 인지 통신 시스템은 주사용자의 통신을 방해하지 않으며 부사용자가 주사용자와 병렬로 통신을 수행하는 시스템이다.
본 발명이 이루고자 하는 목적은 다중 무선 채널을 구비하는 무선 인지 통신 시스템에서 부사용자의 데이터 전송율을 향상시키기 위한 핸드오버 방식을 제공하는 것이다
본 발명에 따른 핸드오버 제공 방식은 장시간 기대 보상을 최대화하기 위해 강화 학습 방식(Q-learning)을 수행하는 것을 특징으로 한다.
본 발명에 따른 핸드오버 방식은 강화 학습 방식을 통해 부사용자의 데이터 전송율을 최대화시킨다.
도 1은 본 발명에 따른 무선 인지 네트워크를 설명하기 위한 도면이다.
도 2는 본 발명에 따른 핸드오프 방법의 성능을 나타내는 도면이다.
병렬 다중 무선 채널에서 데이터 유닛을 전송하기 위하여, 각 부사용자 단말기는 다중 노드로부터 대역폭을 활당받아야 한다. 대역폭을 활당받은 후, 각 부사용자 단말기는 각 노드에서 각 대역폭의 서로 다른 채널 이득을 가지게 된다. L개의 인터페이스를 가지는 부사용자 단말기는 L개의 노드와 접속하며, 가우시안 채널의 새논 용량(shannon capacity) 공식으로부터 부사용자 단말기가 이룰 수 있는 데이터 전송률(r)은 아래의 수학식(1)과 같다.
[수학식 1]
Figure pat00001
여기서 bl은 노드l로부터 부사용자 단말기로의 활당된 대역폭을 의미하며, pl은 부사용자 단말기로부터 노드l로의 송신 전력을 의미하며, βl(0≤βl≤1)은 부사용자 단말기에게 보증하는 노드l로의 효율을 의미하며, Hl은 채널 이득 함수를 의미하며, Nl은 노이즈 전력 스펙트럼 밀도를 의미한다.
조인트 결합에 적용되는 Q-learning
부사용자 단말기의 결정은 항상 현재의 상황 또는 다음의 상황에 영향을 받는다. 따라서 강화 학습은 부사용자 단말기가 정확하게 결정하기 위한 적절한 방법으로 평가된다. 이 방식은 보상 함수와 가치 함수의 정책으로 구성된다. 시간 t에 부사용자 단말기의 상태가 sk이고 행동 ak를 수행한다고 가정하면, 다음 시간에 수행되는 부사용자 단말기의 행동은 보상 rk +1을 수신하고 새로운 상황 sk +1을 수신한다. 강화 학습은 보다 구체적으로 이하의 수학식(2), (3)으로 설명되며, 상황 sk, 행동 ak, 보상
Figure pat00002
의 기대 보상E(rk) 정책(φ)은 아래와 같이 수학식(4)와 같이 설명된다.
[수학식 2]
Figure pat00003
[수학식 3]
Figure pat00004
[수학식 4]
Figure pat00005
정책(φ)의 상황(s)에서 말하기 행동(a)의 가치(Qφ(s,a))는 아래의 수학식(5)와 같이 설명된다.
[수학식 5]
Figure pat00006
상황 s(k)는 페이딩 채널과 스펙트럼 센싱의 상황 확률값을 아래의 수학식(6)과 같이 포함한다.
[수학식 6]
Figure pat00007
여기서 pi'j'(k)는 현재 채널 상황j'인 경우 다음 상황 i'에서 페이딩 채널 전이 확률(fading channel transition probability)을 의미하며,
Figure pat00008
는 현재 채널 상황 j인 경우 다음 상황 i에서 스펙트럼 상황 전이 확률(spectrum state transition probability)을 의미한다.
행동은 아래의 수학식(7)과 같이 설명된다.
[수학식 7]
Figure pat00009
여기서
Figure pat00010
는 시간 k에서 L개의 후보 노드들 세트에서 노드 l을 선택하는 행동을 의미하며, aca(k)는 시간 k에서 노드1의 채널 세트{1, 2, 3....,M}에서 채널을 선택하는 행동을 의미하며, 채널 센싱 결정은 aca(k)=0(센싱이 없는 경우), aca(k)=1(센싱이 있는 경우)이며, aAMC(k)는 AMC 결정 방식을 의미한다.
보상 결정은 아래의 수학식(8)과 같다.
[수학식 8]
Figure pat00011
가치(Q(sk, ak))는 아래의 수학식(9)과 같다.
[수학식 9]
Figure pat00012
여기서 부사용자 단말기는 통신을 수행할 때, 부사용자 단말기는 순간 보상을 순간 역 데이터 전송율과 동일하게 계산하며, 매트릭스(Q(sk, ak))를 부사용자 단말기의 클래스 i에 상응하도록 갱신한다.
우리는 수렴을 아래와 같이 검사할 수 있다. 만약
Figure pat00013
인 경우 수렴이 발생한다. 그렇지 않은 경우 수렴될 때까지 가치(Q(sk, ak))의 학습을 다시 시작한다. 마지막으로 부사용자 단말기는 장시간 후에 기대 보상(r)을 최대화하는 적절한 정책을 계산한다.
수치 결과
시스템이 3개의 노드를 포함하고 있으며, 각 노드는 2개의 채널을 가진다고 가정하자. 부사용자 단말기는 한번에 2개의 노드와 접속할 수 있는 단지 2개의 인터페이스를 가진다. 3개의 노드의 대역폭은 각각 5MHz, 5MHz, 10MHz이다. 각 네트워크는 동일한 2AMC(QPSK, 64-QAM)을 가지며, 2개의 상황 SNR(나쁨, 좋음)은 각각 1dB, 10.2488dB이다.
도 1을 참고로 살펴보면, 무선 인지 통신 시스템에 N개의 부사용자 단말기가 존재한다고 가정하면, 각 노드는 허가된 스펙트럼 풀(pool)을 사용할 것이다. 게다가 부사용자 단말기는 L개의 무선 인터페이스를 가지며 부사용자 단말기의 이동은 N개의 노드들의 범위에서 매우 느리다. 주사용자(primary user)의 송신기(PU_T)는 주사용자 수신기(PU_R)로 데이터를 전송하고 있다. 부사용자 단말기는 허가된 스펙트럼을 이용하여 다른 부사용자 단말기와 접속한다.
도 2를 참고로 살펴보면, Q-learning을 수행한 수, 도 2(a)와 같이 데이터 전송을 위해 2개의 채널을 사용하여 적절한 정책을 달성하였다. 도2(b)와 같이 기대 보상 데이터 전송율을 달성하였으며, 도 2(c)와 같이 부사용자 단말기의 학습의 수렴 인자를 달성하였다. 본원발명은 도 2(b)에 도시되어 있는 바와 같이 높은 데이터 전송율을 달성하였다.
PU_T: 주사용자 송신기
PU_R: 주사용자 수신기

Claims (1)

  1. 장시간 기대 보상을 최대화하기 위해 강화 학습(Q-learning) 방법.
KR1020130135037A 2013-11-07 2013-11-07 인지 무선 네트워크에서 큐-학습 기법을 이용한 부사용자의 데이터 전송 속도 향상 방법 KR20150053179A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020130135037A KR20150053179A (ko) 2013-11-07 2013-11-07 인지 무선 네트워크에서 큐-학습 기법을 이용한 부사용자의 데이터 전송 속도 향상 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130135037A KR20150053179A (ko) 2013-11-07 2013-11-07 인지 무선 네트워크에서 큐-학습 기법을 이용한 부사용자의 데이터 전송 속도 향상 방법

Publications (1)

Publication Number Publication Date
KR20150053179A true KR20150053179A (ko) 2015-05-15

Family

ID=53389831

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130135037A KR20150053179A (ko) 2013-11-07 2013-11-07 인지 무선 네트워크에서 큐-학습 기법을 이용한 부사용자의 데이터 전송 속도 향상 방법

Country Status (1)

Country Link
KR (1) KR20150053179A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108885717A (zh) * 2015-11-12 2018-11-23 渊慧科技有限公司 异步深度强化学习

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108885717A (zh) * 2015-11-12 2018-11-23 渊慧科技有限公司 异步深度强化学习
CN108885717B (zh) * 2015-11-12 2022-05-10 渊慧科技有限公司 异步深度强化学习
US11334792B2 (en) 2015-11-12 2022-05-17 Deepmind Technologies Limited Asynchronous deep reinforcement learning
US11783182B2 (en) 2015-11-12 2023-10-10 Deepmind Technologies Limited Asynchronous deep reinforcement learning
US12020155B2 (en) 2015-11-12 2024-06-25 Deepmind Technologies Limited Reinforcement learning using baseline and policy neural networks

Similar Documents

Publication Publication Date Title
US10362588B2 (en) Determining a threshold value for determining whether to steer a particular node from associating with one node to another node in a wireless environment
JP5986324B2 (ja) デバイス・ツー・デバイスとセルラ通信のためのリソース共有方法と装置
KR101891131B1 (ko) 고위 코딩의 변조 처리 방법 및 장치, 기지국, 단말
US8861430B2 (en) Methods of point association for cooperative multiple point transmission
JP5814041B2 (ja) 無線通信システム、無線基地局装置、ユーザ端末、及び無線通信方法
CN101843131B (zh) 在无线通信系统中的资源调节
US20160044603A1 (en) Mechanism for enhancing power control in time division based communications
CN103259635B (zh) 一种dmrs扰码序列的生成方法及装置
KR20110091502A (ko) 상향 전송 파워 제어 방법, 시스템 및 기지국
RU2687966C2 (ru) Сигнализация для скоординированной многоточечной передачи и приема (comp)
CN110418307B (zh) 一种用于无线通信的方法、装置
WO2019030913A1 (ja) ユーザ端末及び無線通信方法
WO2019210648A1 (zh) 一种基于非线性能量收集的swipt系统自适应时隙信号接收方法
US9832763B2 (en) Signalling scheme for coordinated transmissions
KR20120121299A (ko) 기지국의 상향링크 전력 제어 정보 제공 방법 및 단말의 상향링크 전력 제어 방법, 그 기지국, 그 단말
CN104581853B (zh) 一种无线路由器的自适应调制方法
JP2013179587A (ja) 電力割当方法および基地局
EP2922333B1 (en) Methods and devices for selecting uplink comp set
AU2014394870B2 (en) Method, device and user terminal for measuring discovery signal
EP3127377B1 (en) A method to save energy for mobile terminals in wireless network
WO2020239023A1 (zh) 发射功率确定方法、信息传输方法及通信设备
WO2024021652A1 (zh) 一种无线通信方法及设备、存储介质
WO2013104120A1 (zh) 动态频谱环境中基于多智能体强化学习的频率功率联合分配方法
KR20150053179A (ko) 인지 무선 네트워크에서 큐-학습 기법을 이용한 부사용자의 데이터 전송 속도 향상 방법
US11722873B2 (en) Bluetooth mesh network system and connection method having communication range extending mechanism

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid