KR20220148422A - 강화 학습에 기반하여 무선 채널 상태 정보의 피드백 전송을 제어하는 방법 및 장치 - Google Patents

강화 학습에 기반하여 무선 채널 상태 정보의 피드백 전송을 제어하는 방법 및 장치 Download PDF

Info

Publication number
KR20220148422A
KR20220148422A KR1020210055422A KR20210055422A KR20220148422A KR 20220148422 A KR20220148422 A KR 20220148422A KR 1020210055422 A KR1020210055422 A KR 1020210055422A KR 20210055422 A KR20210055422 A KR 20210055422A KR 20220148422 A KR20220148422 A KR 20220148422A
Authority
KR
South Korea
Prior art keywords
feedback
channel state
terminal
radio channel
state information
Prior art date
Application number
KR1020210055422A
Other languages
English (en)
Inventor
소재우
Original Assignee
서강대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서강대학교산학협력단 filed Critical 서강대학교산학협력단
Priority to KR1020210055422A priority Critical patent/KR20220148422A/ko
Publication of KR20220148422A publication Critical patent/KR20220148422A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/06Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station
    • H04B7/0613Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission
    • H04B7/0615Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal
    • H04B7/0619Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal using feedback from receiving side
    • H04B7/0621Feedback content
    • H04B7/0626Channel coefficients, e.g. channel state information [CSI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/0413MIMO systems
    • H04B7/0417Feedback systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/06Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station
    • H04B7/0613Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission
    • H04B7/0615Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal
    • H04B7/0619Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal using feedback from receiving side
    • H04B7/0652Feedback error handling

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

본 발명은 이동 통신 시스템에서 단말과 기지국 간의 무선 채널 상태 정보(channel state information)를 송수신하는 기술에 관한 것으로, 피드백 제어 장치가 단말로부터 기지국으로 무선 채널 상태 정보를 전송하는 피드백 제어 방법은, 피드백 전송으로 인한 오버헤드(overhead) 및 무선 채널 상태 정보의 오차를 페널티(penalty)로서 고려하여 무선 채널 상태 정보의 피드백 여부에 따라 강화 학습의 상태(state), 행동(action) 및 보상(reward)을 정의하고, 정의된 강화 학습에 따라 단말로부터 기지국에 피드백 전송 제어를 수행한다.

Description

강화 학습에 기반하여 무선 채널 상태 정보의 피드백 전송을 제어하는 방법 및 장치{Feedback transmission controlling method for channel state information based on reinforcement learning and apparatus thereof}
본 발명은 이동 통신 시스템에서 단말과 기지국 간의 무선 채널 상태 정보(channel state information, CSI)를 송수신하는 기술에 관한 것으로, 특히 무선 채널 상태 정보를 피드백하는 주기를 결정하여 전송 여부를 제어하는 방법 및 그 방법에 따른 장치에 관한 것이다.
이동 통신 단말은 기지국으로부터 수신되는 신호들의 무선 채널 상태 정보를 기지국에 주기적으로 피드백한다. 기지국은 단말이 피드백하는 무선 채널 상태 정보를 기반으로 순방향 스케줄링 및 데이터의 변조 및 코딩 방식을 결정한다.
이러한 구조에 관하여, 선행기술문헌에는 단말이 물리 하향 링크 공유 채널(PDSCH) 신호를 수신하고, 무선 채널 상태 정보(CSI)를 측정하며, 측정한 무선 채널 상태 정보를 물리 상향 링크 공유 채널(PUSCH) 신호를 이용하여 피드백하는 구성에 관하여 소개하고 있다.
그런데, 종래의 무선 통신 기법에서 무선 채널 상태 정보의 피드백 주기가 고정되어 있어 피드백 주기의 길고 짧은 수준에 따라 피드백 전송으로 인한 오버헤드 및 무선 채널 상태 정보의 오차(error)가 변화하는 현상을 발견할 수 있었다. 이때, 고정된 피드백 주기는 이러한 피드백 전송의 오버헤드 및 무선 채널 상태 정보의 오차를 효율적으로 다루는데 어려움이 존재하였다.
특히, 주파수와 전력의 증가 없이 안테나 수의 증가를 통해 전송 속도 및 전송 용량을 향상시키기 위한 MIMO(multiple-input and multiple-output) 기술에서 전송 오버헤드(overhead)를 감소시킬 방법과 채널 상태 정보 교환 방법에 대한 개선이 꾸준하게 요구되고 있는바, 이러한 피드백 방식에 대한 개선이 필요하다.
한국특허공개공보 제2016-0041932호, "기계타입통신을 지원하는 무선 접속 시스템에서 채널상태정보 전송 방법 및 장치"
본 발명이 해결하고자 하는 기술적 과제는, 무선 채널 상태 정보에 관하여 종래의 고정된 피드백 주기로 인해 전송 오버헤드 및 무선 채널 상태 정보의 오차를 효율적으로 제어할 수 없다는 문제를 해결하고, 피드백 주기를 변화시킴에 있어서 자칫 임의로 증가 내지 감소시킨 설정값으로 인해 피드백 전송의 오버헤드가 지나치게 증가하거나 또는 무선 채널 상태 정보의 오차가 급격하게 증가하는 한계를 극복하고자 한다.
상기 기술적 과제를 해결하기 위하여, 본 발명의 일 실시예에 따른 피드백 제어 장치가 단말로부터 기지국으로 무선 채널 상태 정보(channel state information, CSI)를 전송하는 피드백을 제어하는 방법은, (a) 피드백 제어 장치가 무선 채널 상태 정보의 피드백 여부에 따라 강화 학습의 상태(state), 행동(action) 및 보상(reward)을 정의하는 단계; 및 (b) 상기 피드백 제어 장치가 정의된 상기 강화 학습에 따라 단말로부터 기지국에 피드백 전송 제어를 수행하는 단계;를 포함하되, 상기 (a) 단계는, (a1) 단말의 피드백 여부에 따라 무선 채널 상태 정보의 오차(error)가 제거되거나 오차가 더해지도록 상기 상태를 정의하는 단계; (a2) 단말의 피드백 여부에 따라 전송 동작으로서 상기 행동을 정의하는 단계; 및 (a3) 단말의 피드백 여부에 따라 피드백 전송으로 인한 오버헤드(overhead) 및 무선 채널 상태 정보의 오차를 배타적인 페널티(penalty)로서 상기 보상을 정의하는 단계;를 포함한다.
일 실시예에 따른 피드백 제어 방법에서, 상기 강화 학습은 Q-학습(Q-learning)이고, 피드백 제어 장치의 피드백 전송 제어를 수행하는 에이전트(agent)는 주어진 상태에서 정의된 행동을 수행하여 미래의 보상을 나타내는 Q-함수(Q-function)를 학습하며, 상기 Q-함수는 이전의 Q-함수 값(old value) 및 새롭게 학습된 값(learned value)을 결합하되, 상기 단말이 피드백 전송을 수행하는 경우 또는 피드백 전송을 수행하지 않는 경우에 따라 반복하여 갱신될 수 있다. 또한, 일 실시예에 따른 피드백 제어 방법에서, 상기 Q-함수는 학습 속도 인자(learning rate)에 기반하여 상기 이전의 Q-함수 값 및 상기 새롭게 학습된 값(learned value)을 가중합으로 결합하고, 상기 Q-함수의 새롭게 학습된 값은 미래의 Q-함수 값의 최대값에 할인 인자(discount factor)를 승산하고 보상을 가산하여 산출될 수 있다.
일 실시예에 따른 피드백 제어 방법에서, 상태를 정의하는 상기 (a1) 단계의 상기 상태는, 단말이 피드백을 하는 경우 무선 채널 상태 정보의 오차가 없음을 나타내는 '0'으로 설정되고, 단말이 피드백을 하지 않는 경우 단말이 측정한 실제 무선 채널 상태와 기지국이 사용하는 무선 채널 상태의 차이를 이전의 상태 값에 가산하도록 설정될 수 있다.
일 실시예에 따른 피드백 제어 방법에서, 행동을 정의하는 상기 (a2) 단계의 상기 행동은, 단말이 피드백을 하는 경우 전송 동작이 '1'로 설정되고, 단말이 피드백을 하지 않는 경우 전송 동작이 '0'으로 설정될 수 있다.
일 실시예에 따른 피드백 제어 방법에서, 보상을 정의하는 상기 (a3) 단계의 상기 보상은, 단말이 피드백을 하는 경우 피드백 전송으로 인한 오버헤드의 증가분만큼 페널티가 설정되고, 단말이 피드백을 하지 않는 경우 무선 채널 상태 정보의 오차만큼 페널티가 설정될 수 있다. 또한, 일 실시예에 따른 피드백 제어 방법에서, 상기 피드백 전송으로 인한 오버헤드 및 상기 무선 채널 상태 정보의 오차는 피드백 전송 주기에 따라 서로 트레이드오프(tradeoff) 관계를 갖는다.
일 실시예에 따른 피드백 제어 방법에서, 피드백 전송 제어를 수행하는 상기 (b) 단계는, (b1) 기지국으로부터 방송된 파일럿 신호를 단말이 수신하여 무선 채널 상태 정보를 추정하는 단계; (b2) 추정된 무선 채널 상태 정보를 이용하여 상기 강화 학습에 따라 상기 단말로부터 상기 기지국에 피드백 전송 여부를 결정하는 단계; 및 (b3) 결정된 상기 피드백 전송 여부에 따라 피드백 전송을 동적으로 수행하는 단계;를 포함할 수 있다.
일 실시예에 따른 피드백 제어 방법에서, 피드백 전송 제어를 수행하는 상기 (b) 단계는, 정의된 상기 강화 학습에 따라, 상기 단말이 피드백을 하는 경우에 설정된 페널티가 증가함에 따라 페널티를 피하기 위해 피드백 전송을 감소시키면, 상기 피드백 전송으로 인한 오버헤드는 감소하되 무선 채널 상태 정보의 오차가 증가하도록 피드백 전송 제어를 수행할 수 있다.
한편, 이하에서는 상기 기재된 피드백 제어 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
상기 기술적 과제를 해결하기 위하여, 본 발명의 일 실시예에 따른 단말로부터 기지국으로 무선 채널 상태 정보(channel state information, CSI)를 전송하는 피드백 제어 장치는, 무선 신호를 송수신하는 통신부; 무선 채널 상태 정보의 피드백 여부에 따라 강화 학습의 상태(state), 행동(action) 및 보상(reward)을 정의하고, 통신부를 통해 수신된 무선 신호에 기초하여 단말로부터 기지국에 피드백 전송을 제어하는 프로그램을 저장하는 메모리; 및 상기 프로그램을 구동하여 피드백 전송 제어를 수행하는 프로세서를 포함하되, 상기 메모리에 저장된 프로그램은, 단말의 피드백 여부에 따라 무선 채널 상태 정보의 오차(error)가 제거되거나 오차가 더해지도록 상기 상태를 정의하고, 단말의 피드백 여부에 따라 전송 동작으로서 상기 행동을 정의하며, 단말의 피드백 여부에 따라 피드백 전송으로 인한 오버헤드(overhead) 및 무선 채널 상태 정보의 오차를 배타적인 페널티(penalty)로서 상기 보상을 정의하는 명령어를 포함한다.
일 실시예에 따른 피드백 제어 장치에서, 상기 강화 학습은 Q-학습(Q-learning)이고, 피드백 제어 장치의 피드백 전송 제어를 수행하는 에이전트(agent)는 주어진 상태에서 정의된 행동을 수행하여 미래의 보상을 나타내는 Q-함수(Q-function)를 학습하며, 상기 Q-함수는 이전의 Q-함수 값(old value) 및 새롭게 학습된 값(learned value)을 결합하되, 상기 단말이 피드백 전송을 수행하는 경우 또는 피드백 전송을 수행하지 않는 경우에 따라 반복하여 갱신될 수 있다. 또한, 일 실시예에 따른 피드백 제어 장치에서, 상기 Q-함수는 학습 속도 인자(learning rate)에 기반하여 상기 이전의 Q-함수 값 및 상기 새롭게 학습된 값(learned value)을 가중합으로 결합하고, 상기 Q-함수의 새롭게 학습된 값은 미래의 Q-함수 값의 최대값에 할인 인자(discount factor)를 승산하고 보상을 가산하여 산출될 수 있다.
일 실시예에 따른 피드백 제어 장치에서, 상기 메모리에 저장된 프로그램의 상기 상태는, 단말이 피드백을 하는 경우 무선 채널 상태 정보의 오차가 없음을 나타내는 '0'으로 설정되고, 단말이 피드백을 하지 않는 경우 단말이 측정한 실제 무선 채널 상태와 기지국이 사용하는 무선 채널 상태의 차이를 이전의 상태 값에 가산하도록 설정될 수 있다.
일 실시예에 따른 피드백 제어 장치에서, 상기 메모리에 저장된 프로그램의 상기 행동은, 단말이 피드백을 하는 경우 전송 동작이 '1'로 설정되고, 단말이 피드백을 하지 않는 경우 전송 동작이 '0'으로 설정될 수 있다.
일 실시예에 따른 피드백 제어 장치에서, 상기 메모리에 저장된 프로그램의 상기 보상은, 단말이 피드백을 하는 경우 피드백 전송으로 인한 오버헤드의 증가분만큼 페널티가 설정되고, 단말이 피드백을 하지 않는 경우 무선 채널 상태 정보의 오차만큼 페널티가 설정될 수 있다. 또한, 일 실시예에 따른 피드백 제어 장치에서, 상기 피드백 전송으로 인한 오버헤드 및 상기 무선 채널 상태 정보의 오차는 피드백 전송 주기에 따라 서로 트레이드오프(tradeoff) 관계를 갖는다.
일 실시예에 따른 피드백 제어 장치에서, 상기 메모리에 저장된 프로그램은, 기지국으로부터 방송된 파일럿 신호를 단말이 수신하여 무선 채널 상태 정보를 추정하고, 추정된 무선 채널 상태 정보를 이용하여 상기 강화 학습에 따라 상기 단말로부터 상기 기지국에 피드백 전송 여부를 결정하며, 결정된 상기 피드백 전송 여부에 따라 피드백 전송을 동적으로 수행하는 명령어를 포함할 수 있다.
일 실시예에 따른 피드백 제어 장치에서, 상기 메모리에 저장된 프로그램은, 정의된 상기 강화 학습에 따라, 상기 단말이 피드백을 하는 경우에 설정된 페널티가 증가함에 따라 페널티를 피하기 위해 피드백 전송을 감소시키면, 상기 피드백 전송으로 인한 오버헤드는 감소하되 무선 채널 상태 정보의 오차가 증가하도록 피드백 전송 제어를 수행할 수 있다.
상기 기술적 과제를 해결하기 위하여, 본 발명의 다른 실시예에 따른 이동 통신 시스템에서 무선 채널 상태 정보의 피드백을 기지국으로 전송하는 단말은, 상기된 피드백 제어 장치를 구비하고, 상기 통신부를 통해 기지국이 사용하는 무선 채널 상태를 수신하여 무선 채널 상태 정보의 오차를 산출하거나, 또는 단말 자신이 측정한 실제 무선 채널 상태를 상기 기지국에 전송하여 산출된 무선 채널 상태 정보의 오차를 상기 기지국으로부터 수신받음으로써 피드백 전송 제어를 수행한다.
상기 기술적 과제를 해결하기 위하여, 본 발명의 또 다른 실시예에 따른 이동 통신 시스템에서 무선 채널 상태 정보의 피드백을 단말로부터 수신하는 기지국은, 상기된 피드백 제어 장치를 구비하고, 상기 통신부를 통해 기지국 자신이 사용하는 무선 채널 상태를 단말에 송신하여 상기 단말로 하여금 무선 채널 상태 정보의 오차를 산출하도록 유도하거나, 또는 단말이 측정한 실제 무선 채널 상태를 수신하여 산출된 무선 채널 상태 정보의 오차를 상기 단말에 송신함으로써 피드백 전송 제어를 유도한다.
본 발명의 실시예들은, 피드백 전송으로 인한 오버헤드 및 무선 채널 상태 정보의 오차를 페널티(penalty)로서 고려한 강화 학습을 채택함으로써, 무선 채널 상태 정보를 피드백함에 있어 나타나는 무선 채널 상태 정보의 오차 및 피드백 오버헤드 간의 트레이드오프를 적절히 조절할 수 있고, 동일한 피드백 오버헤드를 기준으로 볼 때 적응적 피드백 주기 기법을 활용할 경우 종래의 고정된 피드백 주기 기법에 비해 상대적으로 무선 채널 상태 정보의 오차를 현저하게 감소시킬 수 있다.
도 1은 본 발명의 실시예들이 구현되는 이동 통신 시스템에서 무선 채널 상태 정보의 피드백을 위해 단말과 기지국이 주고받는 신호를 개략적으로 도시한 도면이다.
도 2는 피드백 전송 주기에 따라 기지국이 추정하는 단말의 무선 채널 상태를 비교하여 예시한 도면이다.
도 3은 본 발명의 일 실시예에 따른 강화 학습에 기반하여 무선 채널 상태 정보의 피드백 전송을 제어하는 방법을 도시한 흐름도이다.
도 4 및 도 5는 무선 채널 상태 정보의 피드백 전송을 제어하는 도 3의 처리 과정 각각을 보다 구체적으로 도시한 흐름도이다.
도 6은 본 발명의 일 실시예에 따른 강화 학습에 기반하여 무선 채널 상태 정보의 피드백 전송을 제어하는 장치를 도시한 블록도이다.
도 7 및 도 8은 강화 학습에 기반하여 무선 채널 상태 정보의 피드백 전송을 제어하는 도 6의 장치를 구비하여 각각 단말 및 기지국을 구현한 예를 도시한 블록도이다.
도 9는 본 발명의 실시예들에 따른 강화 학습 기반의 피드백 전송 기법을 구현한 프로토타입(prototype)에서 채널 오차 및 피드백 오버헤드를 측정한 시뮬레이션 결과를 예시한 그래프이다.
본 발명의 실시예들을 설명하기에 앞서, 무선 통신 환경에서 종래의 고정된 피드백 주기에 따라 무선 채널 상태 정보를 피드백 전송할 경우 나타날 수 있는 물리적 특징과 예상되는 문제점을 살펴본 후, 이를 해결하기 위해 본 발명의 실시예들이 채택하고 있는 아이디어와 기술적 수단을 순차적으로 소개하도록 한다.
도 1은 본 발명의 실시예들이 구현되는 이동 통신 시스템에서 무선 채널 상태 정보의 피드백을 위해 단말과 기지국이 주고받는 신호를 개략적으로 도시한 도면이다.
앞서 간략히 소개한 바와 같이, 이동 통신 단말은 기지국으로부터 수신되는 신호들의 무선 채널 상태 정보를 기지국에 주기적으로 피드백한다. 그러면, 기지국은 단말이 피드백하는 무선 채널 상태 정보를 기반으로 순방향 스케줄링 및 데이터의 변조 및 코딩 방식을 결정하게 된다.
이때, 무선 채널 상태 정보(channel state information, CSI)의 오차(error)는 단말이 피드백하는 무선 채널 상태 정보와 기지국이 사용하는 무선 채널 상태 정보 차이의 평균 제곱 오차(Mean Squared Error, MSE)로 표현될 수 있다. 종래의 피드백 전송 기법에서는 무선 채널 상태 정보의 피드백 주기가 고정되어 있었다. 따라서, 만약 피드백 주기가 짧으면, 피드백 횟수가 증가하여 피드백으로 인한 오버헤드가 증가하지만 무선 채널 상태 정보의 오차는 감소한다. 반면, 만약 피드백 주기가 길면, 피드백 횟수가 감소하여 피드백으로 인한 오버헤드가 감소하지만 무선 채널 상태 정보의 오차는 증가한다. 즉, 피드백 주기에 따라, 피드백으로 인한 오버헤드와 무선 채널 상태 정보의 오차 간의 트레이드오프(tradeoff)가 성립한다.
그런데, 종래의 기술에서 이러한 피드백 주기가 고정되어 있거나 임의의 값으로 설정되어 있었기에 피드백 오버헤드와 무선 채널 상태 정보의 오차 간의 트레이드오프를 적절히 조절하지 못하는 문제점이 발견되었다. 따라서, 이하에서 제시될 본 발명의 실시예들은 피드백 전송으로 인한 오버헤드 및 무선 채널 상태 정보의 오차를 페널티(penalty)로서 고려하여 피드백 전송 여부를 동적으로 결정함으로써 무선 채널 상태 정보의 오차를 일정 수준 이하로 유지하면서도 피드백 오버헤드를 최대한 감소시키고자 하였다.
도 2는 피드백 전송 주기에 따라 기지국이 추정하는 단말의 무선 채널 상태를 비교하여 예시한 도면이다. 실제의 무선 채널 신호를 검은색 실선으로 표시하였고, 종래의 방식에 따른 고정 주기의 피드백 기법을 빨간색 점선으로 표시하였으며, 본 발명의 실시예들이 제안하고자 하는 적응적 주기의 피드백 기법을 파란색의 일점쇄선으로 표시하였다. 가로축은 시간의 추이를 나타내었고, 세로축은 채널 이득을 나타내었다.
도 2를 참조하면, 피드백 전송 주기가 고정인 경우에 비해 피드백 전송 주기가 동적일 경우 상대적으로 무선 채널 상태 정보의 오차를 더욱 많이 감소시킬 수 있음을 알 수 있다. 예시된 시뮬레이션 값에 따르면, 피드백 전송 횟수가 동일할 때, 피드백 전송 주기가 고정인 경우 평균 제곱 오차가 0.0872이었지만, 피드백 전송 주기가 동적인 경우 평균 제공 오차는 0.0182로 크게 감소시킬 수 있었다.
이러한 목표를 달성하기 위해, 본 발명의 실시예들은 이동통신 시스템에서 단말이 기지국으로 무선 채널 상태 정보를 피드백함에 있어서 강화 학습(reinforcement learning)을 이용한 피드백 전송 여부를 결정하는 기법을 제안한다. 강화 학습은 어떤 환경 내에서 정의된 에이전트(agent)가 현재의 상태(state)를 인식하여 선택 가능한 행동(action)들 중 보상(reward)을 최대화하는 행동 혹은 행동 순서를 선택하는 방법을 말한다. 따라서, 본 발명의 실시예들을 구현하기 위해, 일례로서, 피드백 여부에 따라 강화 학습의 상태, 행동, 보상을 정의하는 과정과 강화 학습의 Q-학습(Q-learning) 방법에 따라 피드백 전송 여부를 결정하는 과정을 구체적으로 기술할 필요가 있다.
이하에서는 도면을 참조하여 본 발명의 실시예들을 구체적으로 설명하도록 한다. 다만, 하기의 설명 및 첨부된 도면에서 본 발명의 요지를 흐릴 수 있는 공지 기능 또는 구성에 대한 상세한 설명은 생략한다. 덧붙여, 명세서 전체에서, 어떤 구성 요소를 '포함'한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라, 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
본 발명에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "구비하다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
특별히 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미이다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미인 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
도 3은 본 발명의 일 실시예에 따른 강화 학습에 기반하여 무선 채널 상태 정보의 피드백 전송을 제어하는 방법을 도시한 흐름도로서, 크게 2가지 단계로 구성된다. 또한, 도 4 및 도 5는 무선 채널 상태 정보의 피드백 전송을 제어하는 도 3의 처리 과정 각각(S310, S320 단계)을 보다 구체적으로 도시한 흐름도이다. 이들 도면을 종합적으로 참고하여, 피드백 제어 장치가 단말로부터 기지국으로 무선 채널 상태 정보(channel state information, CSI)를 전송하는 피드백 제어 방법을 설명한다.
먼저, S310 단계에서, 피드백 제어 장치는 무선 채널 상태 정보의 피드백 여부에 따라 강화 학습의 상태(state), 행동(action) 및 보상(reward)을 정의한다. 여기서, 상기 강화 학습은 Q-학습(Q-learning)이 될 수 있다.
Q-학습은 모델 없이 학습하는 강화 학습 기법으로서, 주어진 상태에서 주어진 행동을 수행하는 것이 가져다 줄 효용의 기대값을 예측하는 함수인 Q-함수(Q-function)를 학습함으로써 최적의 정책을 학습한다. 정책이란 주어진 상태에서 어떤 행동을 수행할지 나타내는 규칙이다. Q-함수를 학습하면 각 상태에서 최고의 Q를 주는 행동을 수행함으로써 최적의 정책을 유도할 수 있다. 따라서, 본 발명의 일 실시예에 따른 피드백 제어 장치의 피드백 전송 제어를 수행하는 에이전트(agent)는 주어진 상태에서 현재의 상태(state)를 인식하고 정의된 행동(action)을 수행하여 미래의 보상을 나타내는 Q-함수(Q-function)를 학습하게 된다. 이때, 피드백 전송으로 인한 오버헤드(overhead) 및 무선 채널 상태 정보의 오차를 페널티(penalty)로서 함께 고려하여 가능한 행동들 중에서 향후 기대되는 보상(reward)이 최대가 되도록 행동을 선택하는 정책(policy)을 찾고자 하였다.
기지국은 단말이 순방향 무선 채널 상태를 측정할 수 있도록 주기적으로 파일럿 신호를 방송한다. 종래의 기법에서 단말은 수신된 파일럿 신호로부터 추정된 무선 채널 상태 정보를 기지국에 피드백한다. 그러나, 본 발명의 실시예들에서 단말은 수신된 파일럿 신호로부터 추정된 무선 채널 상태 정보를 기지국에 피드백할 수도 있고 안 할 수도 있다. 즉, 적응적으로 피드백을 수행한다. 이를 위해, 본 발명의 일 실시예에서 기지국이 시간 t에서 추정하는 단말의 순방향 무선 채널 상태 정보는 다음의 수학식 1과 같이 표현될 수 있다.
Figure pat00001
여기서 tf는 단말이 마지막으로 피드백한 시간 인덱스이다.
앞서 설명한 바와 같이, 에이전트는 주어진 상태에서 행동을 수행하여 미래 보상을 나타내는 Q-함수를 학습한다. Q-함수는 다음의 수학식 2와 같이 표현될 수 있다.
Figure pat00002
여기서, St는 시간 t에서의 상태이고, At는 시간 t에서의 행동이고, Rt는 시간 t에서의 보상이며, α는 '0'보다 크고 '1'보다 작은 학습 속도 인자(learning rate) 또는 학습률이고, γ는 할인 인자(discount factor)이다.
즉, 상기 Q-함수는 이전의 Q-함수 값(old value) 및 새롭게 학습된 값(learned value)을 결합하되, 상기 단말이 피드백 전송을 수행하는 경우 또는 피드백 전송을 수행하지 않는 경우에 따라 반복하여 갱신될 수 있다. 또한, 상기 Q-함수는 학습 속도 인자(learning rate)에 기반하여 상기 이전의 Q-함수 값 및 상기 새롭게 학습된 값(learned value)을 가중합으로 결합하고, 상기 Q-함수의 새롭게 학습된 값은 미래의 Q-함수 값의 최대값에 할인 인자(discount factor)를 승산하고 보상을 가산하여 산출될 수 있다.
Q-함수에 기반한 강화 학습 알고리즘이 시작되기 전에 Q-함수는 고정된 임의의 값을 가진다. 매 시간 t에 에이전트는 어떠한 상태 St에서 행동 At를 취하고 새로운 상태 St+1로 전이한다. 이때, 보상 Rt가 얻어지며, Q-함수가 갱신된다. 알고리즘의 핵심은 이전의 값과 새로운 정보의 가중합(weighted sum)을 이용하는 반복 갱신 과정에 있다. 즉, Q-함수는 고정된 값으로 시작하여 에이전트의 행동으로 얻은 보상을 통해 갱신되며, 미래의 보상의 기대 합이 극대화되도록 정책을 학습하게 된다.
강화 학습을 정의(S310 단계)하는 도 4를 참조하면, S311 단계에서는 단말의 피드백 여부에 따라 무선 채널 상태 정보의 오차(error)가 제거되거나 오차가 더해지도록 상태를 정의할 수 있다.
본 발명의 일 실시예에서 강화 학습의 상태 St는 단말이 피드백 전송을 하는 경우와 하지 않는 경우에 따라 다음의 수학식 3과 같이 정의될 수 있다.
Figure pat00003
여기서,
Figure pat00004
는 시간 t에서 단말이 측정한 실제 무선 채널 상태
Figure pat00005
와 기지국이 사용하는 무선 채널 상태
Figure pat00006
와의 차이를 나타내며, 수학식 4와 같이 정의될 수 있다.
Figure pat00007
요약하건대, 강화 학습의 상태는, 단말이 피드백을 하는 경우 무선 채널 상태 정보의 오차가 없음을 나타내는 '0'으로 설정되고, 단말이 피드백을 하지 않는 경우 단말이 측정한 실제 무선 채널 상태와 기지국이 사용하는 무선 채널 상태의 차이를 이전의 상태 값에 가산하도록 설정될 수 있다.
다음으로, S312 단계에서는, 단말의 피드백 여부에 따라 전송 동작으로서 행동을 정의할 수 있다.
본 발명의 일 실시예에서 강화 학습의 행동 At는 다음의 수학식 5와 같이 정의될 수 있다.
Figure pat00008
즉, 강화 학습의 행동은, 단말이 피드백을 하는 경우 전송 동작이 '1'로 설정되고, 단말이 피드백을 하지 않는 경우 전송 동작이 '0'으로 설정될 수 있다.
이제, S313 단계에서는, 단말의 피드백 여부에 따라 피드백 전송으로 인한 오버헤드(overhead) 및 무선 채널 상태 정보의 오차를 배타적인 페널티(penalty)로서 보상을 정의할 수 있다.
피드백 오버헤드와 무선 채널 상태 정보의 오차 간의 트레이드오프를 타협하기 위해 보상은 다음의 수학식 6과 같이 2개의 패널티(penalty)로 정의할 수 있다.
Figure pat00009
즉, 강화 학습의 보상은, 단말이 피드백을 하는 경우 피드백 전송으로 인한 오버헤드의 증가분만큼 페널티가 설정되고, 단말이 피드백을 하지 않는 경우 무선 채널 상태 정보의 오차만큼 페널티가 설정될 수 있다. 이때, 상기 피드백 전송으로 인한 오버헤드 및 상기 무선 채널 상태 정보의 오차는 피드백 전송 주기에 따라 서로 트레이드오프(tradeoff) 관계를 갖는다.
이제, S320 단계에서, 상기 피드백 제어 장치는 정의된 상기 강화 학습에 따라 단말로부터 기지국에 피드백 전송 제어를 수행한다.
도 5를 참조하면, S321 단계에서는 기지국으로부터 방송된 파일럿 신호를 단말이 수신하여 무선 채널 상태 정보를 추정할 수 있다. 그런 다음, S322 단계에서는 앞서 추정된 무선 채널 상태 정보를 이용하여 상기 강화 학습에 따라 상기 단말로부터 상기 기지국에 피드백 전송 여부를 결정하게 된다. 이제, 결정된 상기 피드백 전송 여부에 따라 피드백 전송을 동적으로 수행하게 된다. 만약 피드백을 전송하기로 결정되었다면 S323 단계로 진행하여 단말로부터 기지국으로 무선 채널 상태 정보의 피드백을 전송한다. 반면, 그렇지 않다고 결정되었다면 피드백 전송 없이 곧바로 종료하게 된다(보다 정확하게는 이번 반복 과정에서 피드백 전송을 생략하게 된다).
이상에서 정의된 상기 강화 학습에 따라, 상기 단말이 피드백을 하는 경우에 설정된 페널티가 증가함에 따라 페널티를 피하기 위해 피드백 전송을 감소시키면, 상기 피드백 전송으로 인한 오버헤드는 감소하되 무선 채널 상태 정보의 오차가 증가하도록 피드백 전송 제어를 수행할 수 있다.
도 6은 본 발명의 일 실시예에 따른 강화 학습에 기반하여 무선 채널 상태 정보의 피드백 전송을 제어하는 장치를 도시한 블록도로서, 앞서 기술한 도 3 내지 도 5의 피드백 전송의 제어 방법의 각 수행 과정을 하드웨어 구현의 관점에서 재구성한 도면이다. 따라서, 여기서는 설명의 중복을 피하고자 각 구성의 동작 및 기능을 약술하도록 한다.
단말로부터 기지국으로 무선 채널 상태 정보(channel state information, CSI)를 전송하는 피드백 제어 장치(30)는 무선 신호를 송수신하는 통신부(31), 메모리(33) 및 프로세서(35)를 포함한다. 여기서, 메모리(33)는, 무선 채널 상태 정보의 피드백 여부에 따라 강화 학습의 상태(state), 행동(action) 및 보상(reward)을 정의하고, 통신부(31)를 통해 수신된 무선 신호에 기초하여 단말로부터 기지국에 피드백 전송을 제어하는 프로그램을 저장한다. 또한, 프로세서(35)는 상기 메모리(33)에 저장된 프로그램을 구동하여 피드백 전송 제어를 수행하는 구성이다. 특히, 상기 메모리(33)에 저장된 프로그램은, 단말의 피드백 여부에 따라 무선 채널 상태 정보의 오차(error)가 제거되거나 오차가 더해지도록 상기 상태를 정의하고, 단말의 피드백 여부에 따라 전송 동작으로서 상기 행동을 정의하며, 단말의 피드백 여부에 따라 피드백 전송으로 인한 오버헤드(overhead) 및 무선 채널 상태 정보의 오차를 배타적인 페널티(penalty)로서 상기 보상을 정의하는 명령어를 포함한다.
도 6의 피드백 제어 장치(30)에서, 상기 강화 학습은 Q-학습(Q-learning)이고, 피드백 제어 장치의 피드백 전송 제어를 수행하는 에이전트(agent)는 주어진 상태에서 정의된 행동을 수행하여 미래의 보상을 나타내는 Q-함수(Q-function)를 학습하며, 상기 Q-함수는 이전의 Q-함수 값(old value) 및 새롭게 학습된 값(learned value)을 결합하되, 상기 단말이 피드백 전송을 수행하는 경우 또는 피드백 전송을 수행하지 않는 경우에 따라 반복하여 갱신되는 것이 바람직하다. 나아가, 상기 Q-함수는 학습 속도 인자(learning rate)에 기반하여 상기 이전의 Q-함수 값 및 상기 새롭게 학습된 값(learned value)을 가중합으로 결합하고, 상기 Q-함수의 새롭게 학습된 값은 미래의 Q-함수 값의 최대값에 할인 인자(discount factor)를 승산하고 보상을 가산하여 산출되는 것이 바람직하다.
메모리(33)에 저장된 프로그램의 상기 상태는, 단말이 피드백을 하는 경우 무선 채널 상태 정보의 오차가 없음을 나타내는 '0'으로 설정되고, 단말이 피드백을 하지 않는 경우 단말이 측정한 실제 무선 채널 상태와 기지국이 사용하는 무선 채널 상태의 차이를 이전의 상태 값에 가산하도록 설정될 수 있다.
또한, 메모리(33)에 저장된 프로그램의 상기 행동은, 단말이 피드백을 하는 경우 전송 동작이 '1'로 설정되고, 단말이 피드백을 하지 않는 경우 전송 동작이 '0'으로 설정될 수 있다.
또한, 메모리(33)에 저장된 프로그램의 상기 보상은, 단말이 피드백을 하는 경우 피드백 전송으로 인한 오버헤드의 증가분만큼 페널티가 설정되고, 단말이 피드백을 하지 않는 경우 무선 채널 상태 정보의 오차만큼 페널티가 설정될 수 있다. 여기서, 상기 피드백 전송으로 인한 오버헤드 및 상기 무선 채널 상태 정보의 오차는 피드백 전송 주기에 따라 서로 트레이드오프(tradeoff) 관계를 가질 수 있다.
메모리(33)에 저장된 프로그램은, 기지국으로부터 방송된 파일럿 신호를 단말이 수신하여 무선 채널 상태 정보를 추정하고, 추정된 무선 채널 상태 정보를 이용하여 상기 강화 학습에 따라 상기 단말로부터 상기 기지국에 피드백 전송 여부를 결정하며, 결정된 상기 피드백 전송 여부에 따라 피드백 전송을 동적으로 수행하는 명령어를 포함할 수 있다.
나아가, 메모리(33)에 저장된 프로그램은, 정의된 상기 강화 학습에 따라, 상기 단말이 피드백을 하는 경우에 설정된 페널티가 증가함에 따라 페널티를 피하기 위해 피드백 전송을 감소시키면, 상기 피드백 전송으로 인한 오버헤드는 감소하되 무선 채널 상태 정보의 오차가 증가하도록 피드백 전송 제어를 수행할 수 있다.
한편, 도 7 및 도 8은 강화 학습에 기반하여 무선 채널 상태 정보의 피드백 전송을 제어하는 도 6의 장치를 구비하여 각각 단말 및 기지국을 구현한 예를 도시한 블록도이다. 즉, 이동 통신 시스템에서 도 6의 피드백 제어 장치가 단말(10) 또는 기지국(20)에 포함되는 경우에 다른 일방과 송수신할 필요가 있는 신호 내지 데이터를 특정하여 기술하였다.
이동 통신 시스템에서 무선 채널 상태 정보의 피드백을 기지국(20)으로 전송하는 단말(10)에 관한 도 7을 참조하면, 도 6을 통해 기술하였던 피드백 제어 장치를 단말(10) 내부에 구비하는 형태로 구현될 수 있다. 단말(10)은 통신부(11)를 통해 기지국(20)이 사용하는 무선 채널 상태를 수신하여 무선 채널 상태 정보의 오차를 산출하거나, 또는 단말(10) 자신이 측정한 실제 무선 채널 상태를 상기 기지국(20)에 전송하여 산출된 무선 채널 상태 정보의 오차를 상기 기지국(20)으로부터 수신받음으로써 피드백 전송 제어를 수행할 수 있다.
이동 통신 시스템에서 무선 채널 상태 정보의 피드백을 단말(10)로부터 수신하는 기지국(20)에 관한 도 8을 참조하면, 도 6을 통해 기술하였던 피드백 제어 장치를 기지국(20) 내부에 구비하는 형태로 구현될 수 있다. 기지국(20)은 통신부(21)를 통해 기지국(20) 자신이 사용하는 무선 채널 상태를 단말(10)에 송신하여 상기 단말(10)로 하여금 무선 채널 상태 정보의 오차를 산출하도록 유도하거나, 또는 단말(10)이 측정한 실제 무선 채널 상태를 수신하여 산출된 무선 채널 상태 정보의 오차를 상기 단말(10)에 송신함으로써 피드백 전송 제어를 유도할 수 있다.
도 7 및 도 8에서와 같이, 단말(10) 또는 기지국(20) 일방은 다른 장치가 갖는 무선 채널 상태 또는 무선 채널 상태 정보의 오차를 스스로 보유하지 못하는 경우가 있으므로 이를 송수신하여 피드백 제어의 근거로 활용할 필요가 있다. 즉, 단말(10) 또는 기지국(20) 각각이 보유하고 있는 무선 채널 상태 또는 무선 채널 상태 정보의 오차를 어느 일방에서 취합하여 현재 상태에서의 피드백 전송 여부를 결정하게 된다.
이상에서 기술된 본 발명의 실시예들이 제안하는 적응적 피드백 주기를 활용한 피드백 제어 기법의 성능을 확인하기 위해 시뮬레이션을 수행하였다.
도 9는 본 발명의 실시예들에 따른 강화 학습 기반의 피드백 전송 기법을 구현한 프로토타입(prototype)에서 채널 오차 및 피드백 오버헤드를 측정한 시뮬레이션 결과를 예시한 그래프로서, Q-학습 모델에서 γ=0.99, 그리고 α=0.5로 설정하였다.
도 9를 참조하면, 강화 학습 보상 패널티 β에 따른 무선 채널 상태 정보의 오차(즉, MSE)와 피드백 전송 횟수를 보여준다. 피드백 페널티 β가 증가함에 따라 단말은 패널티를 피하기 위해 피드백 전송을 줄이게 되고, 그에 따라 피드백 오버헤드는 감소하게 되는데 반해 오차(MSE)는 증가한다.
또한, 100개의 타임 슬롯 동안 피드백 횟수를 250회로 고정할 때, 종래의 고정 주기 피드백 기법의 오차(MSE)는 0.0447이었지만, 본 발명의 실시예들에 따른 강화 학습 기반의 동적 피드백 기법의 오차(MSE)는 0.0278로서, 오차가 크게 감소되는 성능 향상을 얻을 수 있었다.
상기된 본 발명의 실시예들에 따르면, 피드백 전송으로 인한 오버헤드 및 무선 채널 상태 정보의 오차를 페널티(penalty)로서 고려한 강화 학습을 채택함으로써, 무선 채널 상태 정보를 피드백함에 있어 나타나는 무선 채널 상태 정보의 오차 및 피드백 오버헤드 간의 트레이드오프를 적절히 조절할 수 있고, 동일한 피드백 오버헤드를 기준으로 볼 때 적응적 피드백 주기 기법을 활용할 경우 종래의 고정된 피드백 주기 기법에 비해 상대적으로 무선 채널 상태 정보의 오차를 현저하게 감소시킬 수 있다.
한편, 본 발명의 실시예들은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다.
컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등을 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술 분야의 프로그래머들에 의하여 용이하게 추론될 수 있다.
이상에서 본 발명에 대하여 그 다양한 실시예들을 중심으로 살펴보았다. 본 발명에 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
10: 단말
20: 기지국
30: 피드백 제어 장치
11, 21, 31: 통신부
13, 23, 33: 메모리
15, 25, 35: 프로세서

Claims (21)

  1. 피드백 제어 장치가 단말로부터 기지국으로 무선 채널 상태 정보(channel state information, CSI)를 전송하는 피드백을 제어하는 방법에 있어서,
    (a) 피드백 제어 장치가 무선 채널 상태 정보의 피드백 여부에 따라 강화 학습의 상태(state), 행동(action) 및 보상(reward)을 정의하는 단계; 및
    (b) 상기 피드백 제어 장치가 정의된 상기 강화 학습에 따라 단말로부터 기지국에 피드백 전송 제어를 수행하는 단계;를 포함하되,
    상기 (a) 단계는,
    (a1) 단말의 피드백 여부에 따라 무선 채널 상태 정보의 오차(error)가 제거되거나 오차가 더해지도록 상기 상태를 정의하는 단계;
    (a2) 단말의 피드백 여부에 따라 전송 동작으로서 상기 행동을 정의하는 단계; 및
    (a3) 단말의 피드백 여부에 따라 피드백 전송으로 인한 오버헤드(overhead) 및 무선 채널 상태 정보의 오차를 배타적인 페널티(penalty)로서 상기 보상을 정의하는 단계;를 포함하는, 피드백 제어 방법.
  2. 제 1 항에 있어서,
    상기 강화 학습은 Q-학습(Q-learning)이고,
    피드백 제어 장치의 피드백 전송 제어를 수행하는 에이전트(agent)는 주어진 상태에서 정의된 행동을 수행하여 미래의 보상을 나타내는 Q-함수(Q-function)를 학습하며,
    상기 Q-함수는 이전의 Q-함수 값(old value) 및 새롭게 학습된 값(learned value)을 결합하되, 상기 단말이 피드백 전송을 수행하는 경우 또는 피드백 전송을 수행하지 않는 경우에 따라 반복하여 갱신되는, 피드백 제어 방법.
  3. 제 2 항에 있어서,
    상기 Q-함수는 학습 속도 인자(learning rate)에 기반하여 상기 이전의 Q-함수 값 및 상기 새롭게 학습된 값(learned value)을 가중합으로 결합하고,
    상기 Q-함수의 새롭게 학습된 값은 미래의 Q-함수 값의 최대값에 할인 인자(discount factor)를 승산하고 보상을 가산하여 산출되는, 피드백 제어 방법.
  4. 제 1 항에 있어서,
    상기 (a1) 단계의 상기 상태는,
    단말이 피드백을 하는 경우 무선 채널 상태 정보의 오차가 없음을 나타내는 '0'으로 설정되고,
    단말이 피드백을 하지 않는 경우 단말이 측정한 실제 무선 채널 상태와 기지국이 사용하는 무선 채널 상태의 차이를 이전의 상태 값에 가산하도록 설정되는, 피드백 제어 방법.
  5. 제 1 항에 있어서,
    상기 (a2) 단계의 상기 행동은,
    단말이 피드백을 하는 경우 전송 동작이 '1'로 설정되고,
    단말이 피드백을 하지 않는 경우 전송 동작이 '0'으로 설정되는, 피드백 제어 방법.
  6. 제 1 항에 있어서,
    상기 (a3) 단계의 상기 보상은,
    단말이 피드백을 하는 경우 피드백 전송으로 인한 오버헤드의 증가분만큼 페널티가 설정되고,
    단말이 피드백을 하지 않는 경우 무선 채널 상태 정보의 오차만큼 페널티가 설정되는, 피드백 제어 방법.
  7. 제 6 항에 있어서,
    상기 피드백 전송으로 인한 오버헤드 및 상기 무선 채널 상태 정보의 오차는 피드백 전송 주기에 따라 서로 트레이드오프(tradeoff) 관계를 갖는, 피드백 제어 방법.
  8. 제 1 항에 있어서,
    상기 (b) 단계는,
    (b1) 기지국으로부터 방송된 파일럿 신호를 단말이 수신하여 무선 채널 상태 정보를 추정하는 단계;
    (b2) 추정된 무선 채널 상태 정보를 이용하여 상기 강화 학습에 따라 상기 단말로부터 상기 기지국에 피드백 전송 여부를 결정하는 단계; 및
    (b3) 결정된 상기 피드백 전송 여부에 따라 피드백 전송을 동적으로 수행하는 단계;를 포함하는, 피드백 제어 방법.
  9. 제 1 항에 있어서,
    상기 (b) 단계는,
    정의된 상기 강화 학습에 따라, 상기 단말이 피드백을 하는 경우에 설정된 페널티가 증가함에 따라 페널티를 피하기 위해 피드백 전송을 감소시키면, 상기 피드백 전송으로 인한 오버헤드는 감소하되 무선 채널 상태 정보의 오차가 증가하도록 피드백 전송 제어를 수행하는, 피드백 제어 방법.
  10. 제 1 항 내지 제 9 항 중에 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
  11. 단말로부터 기지국으로 무선 채널 상태 정보(channel state information, CSI)를 전송하는 피드백 제어 장치에 있어서,
    무선 신호를 송수신하는 통신부;
    무선 채널 상태 정보의 피드백 여부에 따라 강화 학습의 상태(state), 행동(action) 및 보상(reward)을 정의하고, 통신부를 통해 수신된 무선 신호에 기초하여 단말로부터 기지국에 피드백 전송을 제어하는 프로그램을 저장하는 메모리; 및
    상기 프로그램을 구동하여 피드백 전송 제어를 수행하는 프로세서를 포함하되,
    상기 메모리에 저장된 프로그램은,
    단말의 피드백 여부에 따라 무선 채널 상태 정보의 오차(error)가 제거되거나 오차가 더해지도록 상기 상태를 정의하고, 단말의 피드백 여부에 따라 전송 동작으로서 상기 행동을 정의하며, 단말의 피드백 여부에 따라 피드백 전송으로 인한 오버헤드(overhead) 및 무선 채널 상태 정보의 오차를 배타적인 페널티(penalty)로서 상기 보상을 정의하는 명령어를 포함하는, 피드백 제어 장치.
  12. 제 11 항에 있어서,
    상기 강화 학습은 Q-학습(Q-learning)이고,
    피드백 제어 장치의 피드백 전송 제어를 수행하는 에이전트(agent)는 주어진 상태에서 정의된 행동을 수행하여 미래의 보상을 나타내는 Q-함수(Q-function)를 학습하며,
    상기 Q-함수는 이전의 Q-함수 값(old value) 및 새롭게 학습된 값(learned value)을 결합하되, 상기 단말이 피드백 전송을 수행하는 경우 또는 피드백 전송을 수행하지 않는 경우에 따라 반복하여 갱신되는, 피드백 제어 장치.
  13. 제 12 항에 있어서,
    상기 Q-함수는 학습 속도 인자(learning rate)에 기반하여 상기 이전의 Q-함수 값 및 상기 새롭게 학습된 값(learned value)을 가중합으로 결합하고,
    상기 Q-함수의 새롭게 학습된 값은 미래의 Q-함수 값의 최대값에 할인 인자(discount factor)를 승산하고 보상을 가산하여 산출되는, 피드백 제어 장치.
  14. 제 11 항에 있어서,
    상기 메모리에 저장된 프로그램의 상기 상태는,
    단말이 피드백을 하는 경우 무선 채널 상태 정보의 오차가 없음을 나타내는 '0'으로 설정되고,
    단말이 피드백을 하지 않는 경우 단말이 측정한 실제 무선 채널 상태와 기지국이 사용하는 무선 채널 상태의 차이를 이전의 상태 값에 가산하도록 설정되는, 피드백 제어 장치.
  15. 제 11 항에 있어서,
    상기 메모리에 저장된 프로그램의 상기 행동은,
    단말이 피드백을 하는 경우 전송 동작이 '1'로 설정되고,
    단말이 피드백을 하지 않는 경우 전송 동작이 '0'으로 설정되는, 피드백 제어 장치.
  16. 제 11 항에 있어서,
    상기 메모리에 저장된 프로그램의 상기 보상은,
    단말이 피드백을 하는 경우 피드백 전송으로 인한 오버헤드의 증가분만큼 페널티가 설정되고,
    단말이 피드백을 하지 않는 경우 무선 채널 상태 정보의 오차만큼 페널티가 설정되는, 피드백 제어 장치.
  17. 제 16 항에 있어서,
    상기 피드백 전송으로 인한 오버헤드 및 상기 무선 채널 상태 정보의 오차는 피드백 전송 주기에 따라 서로 트레이드오프(tradeoff) 관계를 갖는, 피드백 제어 장치.
  18. 제 11 항에 있어서,
    상기 메모리에 저장된 프로그램은,
    기지국으로부터 방송된 파일럿 신호를 단말이 수신하여 무선 채널 상태 정보를 추정하고, 추정된 무선 채널 상태 정보를 이용하여 상기 강화 학습에 따라 상기 단말로부터 상기 기지국에 피드백 전송 여부를 결정하며, 결정된 상기 피드백 전송 여부에 따라 피드백 전송을 동적으로 수행하는 명령어를 포함하는, 피드백 제어 장치.
  19. 제 11 항에 있어서,
    상기 메모리에 저장된 프로그램은,
    정의된 상기 강화 학습에 따라, 상기 단말이 피드백을 하는 경우에 설정된 페널티가 증가함에 따라 페널티를 피하기 위해 피드백 전송을 감소시키면, 상기 피드백 전송으로 인한 오버헤드는 감소하되 무선 채널 상태 정보의 오차가 증가하도록 피드백 전송 제어를 수행하는, 피드백 제어 장치.
  20. 이동 통신 시스템에서 무선 채널 상태 정보의 피드백을 기지국으로 전송하는 단말에 있어서,
    제 11 항 내지 제 19 항 중 어느 한 항에 따른 피드백 제어 장치를 구비하고,
    상기 통신부를 통해 기지국이 사용하는 무선 채널 상태를 수신하여 무선 채널 상태 정보의 오차를 산출하거나, 또는 단말 자신이 측정한 실제 무선 채널 상태를 상기 기지국에 전송하여 산출된 무선 채널 상태 정보의 오차를 상기 기지국으로부터 수신받음으로써 피드백 전송 제어를 수행하는, 단말.
  21. 이동 통신 시스템에서 무선 채널 상태 정보의 피드백을 단말로부터 수신하는 기지국에 있어서,
    제 11 항 내지 제 19 항 중 어느 한 항에 따른 피드백 제어 장치를 구비하고,
    상기 통신부를 통해 기지국 자신이 사용하는 무선 채널 상태를 단말에 송신하여 상기 단말로 하여금 무선 채널 상태 정보의 오차를 산출하도록 유도하거나, 또는 단말이 측정한 실제 무선 채널 상태를 수신하여 산출된 무선 채널 상태 정보의 오차를 상기 단말에 송신함으로써 피드백 전송 제어를 유도하는, 기지국.
KR1020210055422A 2021-04-29 2021-04-29 강화 학습에 기반하여 무선 채널 상태 정보의 피드백 전송을 제어하는 방법 및 장치 KR20220148422A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210055422A KR20220148422A (ko) 2021-04-29 2021-04-29 강화 학습에 기반하여 무선 채널 상태 정보의 피드백 전송을 제어하는 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210055422A KR20220148422A (ko) 2021-04-29 2021-04-29 강화 학습에 기반하여 무선 채널 상태 정보의 피드백 전송을 제어하는 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20220148422A true KR20220148422A (ko) 2022-11-07

Family

ID=84043340

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210055422A KR20220148422A (ko) 2021-04-29 2021-04-29 강화 학습에 기반하여 무선 채널 상태 정보의 피드백 전송을 제어하는 방법 및 장치

Country Status (1)

Country Link
KR (1) KR20220148422A (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160041932A (ko) 2013-08-29 2016-04-18 엘지전자 주식회사 기계타입통신을 지원하는 무선 접속 시스템에서 채널상태정보 전송 방법 및 장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160041932A (ko) 2013-08-29 2016-04-18 엘지전자 주식회사 기계타입통신을 지원하는 무선 접속 시스템에서 채널상태정보 전송 방법 및 장치

Similar Documents

Publication Publication Date Title
KR101176622B1 (ko) 릴레이 네트워크들에서 전송 가중치들을 결정하는 장치, 방법 및 컴퓨터 프로그램 제품
CN102158263B (zh) 基于码书的信道信息反馈方法、设备和系统
EP2416502B1 (en) Method and apparatus for multiple input multiple output (mimo) downlink transmission control
CN102035584B (zh) 确定上行链路发射分集方式的方法及通信装置
CN104303543A (zh) 基于信道估计特性和报告要求的自适应信道状态反馈
KR101432637B1 (ko) 다중 입출력 통신 시스템을 제어하는 통신 시스템 제어장치 및 그 방법
CN103283157B (zh) 用于选择输出流的方法、用户设备和装置
JP2013531431A (ja) 無線通信システムに用いるチャネル状態情報フィードバック方法及び設備
CN104767586A (zh) 一种控制探测用参考信号的发送的方法及基站设备
EP2997688B1 (en) Method and apparatus for rank override
US8903007B2 (en) Method and apparatus for determining precoding matrix
CN102932114A (zh) 一种上行预编码发射方法及装置
KR102235645B1 (ko) 다중 기지국 대용량 안테나 시스템에서 에너지 하베스팅을 수행할 기지국을 결정하는 장치 및 방법
KR20220148422A (ko) 강화 학습에 기반하여 무선 채널 상태 정보의 피드백 전송을 제어하는 방법 및 장치
EP2490346B1 (en) Method for increasing quality of signals received by at least one destination device among a plurality
US20140204865A1 (en) Exploiting Hybrid-Channel Information For Downlink Multi-User Scheduling
CN102026267B (zh) 混合信道状态信息的反馈方法、反馈信息处理方法及系统
KR20190127480A (ko) 통신 시스템에서 전송 포인트 및 링크 적응 방식을 결정하기 위한 방법 및 장치
KR101020141B1 (ko) 무선 통신 시스템에서의 자원 할당 방법
WO2018027804A1 (en) Apparatus and method for unified csi feedback framework for control and data channel
CN116801367A (zh) 一种交叉链路干扰抑制方法、网络节点及存储介质
KR101455692B1 (ko) 다중 사용자 다중 입출력 통신 시스템을 위한 데이터 전송모드 결정 장치 및 방법
WO2019128985A1 (zh) 一种干扰控制方法、装置、用户设备、基站及系统
CN109314551B (zh) 多输入多输出导频信号
KR101458790B1 (ko) 다중모드 코드북 기반의 mimo 운영 방법 및 그 방법을지원하는 송수신 장치

Legal Events

Date Code Title Description
A201 Request for examination