KR20220149228A - 강화 학습 기반의 빔 훈련 방법 및 이를 수행하는 무선 통신 장치 - Google Patents

강화 학습 기반의 빔 훈련 방법 및 이를 수행하는 무선 통신 장치 Download PDF

Info

Publication number
KR20220149228A
KR20220149228A KR1020210056571A KR20210056571A KR20220149228A KR 20220149228 A KR20220149228 A KR 20220149228A KR 1020210056571 A KR1020210056571 A KR 1020210056571A KR 20210056571 A KR20210056571 A KR 20210056571A KR 20220149228 A KR20220149228 A KR 20220149228A
Authority
KR
South Korea
Prior art keywords
training
beams
equation
current
probability distribution
Prior art date
Application number
KR1020210056571A
Other languages
English (en)
Inventor
이준호
김재인
문종건
이혁연
최승진
제희원
최진원
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020210056571A priority Critical patent/KR20220149228A/ko
Priority to US17/539,759 priority patent/US11546033B2/en
Priority to CN202210278012.5A priority patent/CN115276741A/zh
Publication of KR20220149228A publication Critical patent/KR20220149228A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/06Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station
    • H04B7/0686Hybrid systems, i.e. switching and simultaneous transmission
    • H04B7/0695Hybrid systems, i.e. switching and simultaneous transmission using beam selection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/0408Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas using two or more beams, i.e. beam diversity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/06Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station
    • H04B7/0613Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission
    • H04B7/0615Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal
    • H04B7/0617Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal for beam forming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/06Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station
    • H04B7/0613Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission
    • H04B7/0615Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal
    • H04B7/0619Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal using feedback from receiving side
    • H04B7/0621Feedback content
    • H04B7/0634Antenna weights or vector/matrix coefficients
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/06Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station
    • H04B7/0613Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission
    • H04B7/0615Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal
    • H04B7/0619Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal using feedback from receiving side
    • H04B7/0636Feedback format
    • H04B7/0639Using selective indices, e.g. of a codebook, e.g. pre-distortion matrix index [PMI] or for beam selection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/08Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the receiving station
    • H04B7/0837Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the receiving station using pre-detection combining
    • H04B7/0842Weighted combining
    • H04B7/0848Joint weighting
    • H04B7/0851Joint weighting using training sequences or error signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/08Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the receiving station
    • H04B7/0868Hybrid systems, i.e. switching and combining
    • H04B7/088Hybrid systems, i.e. switching and combining using beam selection

Abstract

강화 학습 기반의 빔 훈련 방법에서, 빔포밍(beamforming) 수행 시에 이용되는 복수의 빔(beam)들 중 하나를 선택하기 위한 확률 분포(probability distribution) 및 가치 함수(value function) 중 적어도 하나를 획득한다. 상기 확률 분포 및 상기 가치 함수 중 적어도 하나에 기초하여, 상기 복수의 빔들 중 가장 유망할 것으로 예상되는 후보 빔을 선택한다. 상기 후보 빔 및 적어도 하나의 이전 훈련 동작에 의해 선택된 이전 빔에 기초하여, 현재 훈련 동작을 수행한다. 상기 현재 훈련 동작의 결과에 기초하여, 최적 빔에 대응하도록 현재 빔을 선택한다.

Description

강화 학습 기반의 빔 훈련 방법 및 이를 수행하는 무선 통신 장치{METHOD OF PERFORMING BEAM TRAINING BASED ON REINFORCEMENT LEARNING AND WIRELESS COMMUNICATION DEVICE PERFORMING THE SAME}
본 발명은 반도체 집적 회로에 관한 것으로서, 더욱 상세하게는 빔포밍(beamforming)을 구현하기 위한 강화 학습 기반의 빔 훈련 방법 및 상기 빔 훈련 방법을 수행하는 무선 통신 장치에 관한 것이다.
최근 5G 통신 시스템은 신규 무선 접속 기술(new radio access technology)로서 기존의 LTE(long-term evolution) 및 LTE-A(LTE advanced) 대비 대역폭 100MHz 이상의 초광대역을 사용해서 수 Gbps의 초고속 데이터 서비스를 제공하는 것을 목표로 한다. 하지만, LTE 및 LTE-A에서 사용하는 수백 MHz 혹은 수 GHz의 주파수 대역에서는 100MHz 이상의 초광대역 주파수를 확보하기가 어렵기 때문에, 5G 통신 시스템은 6GHz 이상의 주파수 대역에 존재하는 넓은 주파수 대역을 사용하여 신호를 전송하는 방법이 고려되고 있다. 구체적으로, 5G 통신 시스템에서는 28GHz 대역, 또는 60GHz 대역과 같이 밀리미터파(millimeter wave) 대역을 사용하여 전송률을 증대시키는 것을 고려하고 있다. 다만, 주파수 대역과 전파의 경로 손실은 비례하기 때문에 이와 같은 초고주파에서는 전파의 경로 손실이 큰 특성을 가지므로 서비스 영역이 작아지게 된다.
5G 통신 시스템에서는 이런 서비스 영역 감소의 단점을 극복하기 위해, 다수의 안테나를 사용해서 지향성 빔(directional beam)을 생성시켜 전파의 도달 거리를 증가시키는 빔포밍(beamforming) 기술이 중요하게 부각되고 있다. 빔포밍 기술은 송신 장치(예를 들면, 기지국) 및 수신 장치(예를 들면, 단말)에 각각 적용할 수 있으며, 서비스 영역의 확대 이외에도, 목표 방향으로의 물리적인 빔 집중으로 인한 간섭을 감소시키는 효과가 있다.
5G 통신 시스템에서는 송신 장치의 송신 빔과 수신 장치의 수신 빔의 지향 방향이 서로 동조(alignment)되어야 빔포밍 기술의 효과가 증대되는 바, 최적의 송신 빔과 수신 빔을 선택하기 위한 기술이 연구되고 있다. 예를 들어, 송신측 및 수신측의 빔들을 정렬하기 위하여 빔 훈련(beam training)이 수행될 수 있고, 변동하는 무선 통신 환경에 기인하여 빔 훈련은 반복될 수 있으며, 빔 훈련의 정확성 및 효율성에 따라 무선 통신의 품질이 좌우될 수 있다.
본 발명의 일 목적은 무선 통신에서 빔포밍을 구현하기 위해 강화 학습을 이용하여 효과적으로 빔 훈련을 수행하는 방법을 제공하는 것이다.
본 발명의 다른 목적은 상기 빔 훈련 방법을 수행하는 무선 통신 장치를 제공하는 것이다.
상기 일 목적을 달성하기 위해, 본 발명의 실시예들에 따른 빔 훈련 방법에서, 빔포밍(beamforming) 수행 시에 이용되는 복수의 빔(beam)들 중 하나를 선택하기 위한 확률 분포(probability distribution) 및 가치 함수(value function) 중 적어도 하나를 획득한다. 상기 확률 분포 및 상기 가치 함수 중 적어도 하나에 기초하여, 상기 복수의 빔들 중 가장 유망할 것으로 예상되는 후보 빔을 선택한다. 상기 후보 빔 및 적어도 하나의 이전 훈련 동작에 의해 선택된 이전 빔에 기초하여, 현재 훈련 동작을 수행한다. 상기 현재 훈련 동작의 결과에 기초하여, 최적 빔에 대응하도록 현재 빔을 선택한다.
상기 다른 목적을 달성하기 위해, 본 발명의 실시예들에 따른 무선 통신 장치는 복수의 안테나 어레이들, 복수의 RF(radio frequency) 체인들 및 신호 프로세서를 포함한다. 상기 복수의 RF 체인들은 상기 복수의 안테나 어레이들과 연결된다. 상기 신호 프로세서는 상기 복수의 안테나 어레이들로부터 수신된 신호들을 처리한다. 상기 신호 프로세서는 빔포밍(beamforming) 수행 시에 이용되는 복수의 빔(beam)들 중 하나를 선택하기 위한 확률 분포(probability distribution) 및 가치 함수(value function) 중 적어도 하나를 획득하고, 상기 확률 분포 및 상기 가치 함수 중 적어도 하나에 기초하여 상기 복수의 빔들 중 가장 유망할 것으로 예상되는 후보 빔을 선택하고, 상기 후보 빔 및 적어도 하나의 이전 훈련 동작에 의해 선택된 이전 빔에 기초하여 현재 훈련 동작을 수행하며 상기 현재 훈련 동작의 결과에 기초하여 최적 빔에 대응하도록 현재 빔을 선택하도록, 빔 훈련을 수행한다.
상기와 같은 본 발명의 실시예들에 따른 빔 훈련 방법 및 무선 통신 장치에서는, 가변 채널 하에서 효율적인 빔 훈련을 위하여 강화 학습 기반의 빔 훈련 동작을 수행할 수 있다. 구체적으로, 더 유망한 빔(또는 더 가능성이 높은 빔)에 대해 선택적으로 더 많은 훈련을 수행하도록 효율적인 온라인 강화 학습 기반의 프레임워크를 구현할 수 있고, 이에 따라 점진적으로 최적 방향을 탐색할 수 있으며, 고정적인 훈련 시퀀스가 아닌 적응적인(또는 가변적인) 훈련 시퀀스가 형성될 수 있다. 따라서, 효율적으로 빔 트래킹을 수행하고, 빔 변화에 따른 훈련 오버헤드를 감소시킬 수 있으며, 제한된 훈련 시퀀스 내에 빠르게 최적 빔에 수렴할 수 있어, 통신 성능이 향상될 수 있다.
도 1은 본 발명의 실시예들에 따른 빔 훈련 방법을 나타내는 순서도이다.
도 2는 본 발명의 실시예들에 따른 무선 통신 장치 및 이를 포함하는 무선 통신 시스템을 나타내는 블록도이다.
도 3, 4 및 5는 본 발명의 실시예들에 따른 빔 훈련 방법을 설명하기 위한 도면들이다.
도 6은 도 1의 빔 훈련 방법의 구체적인 일 예를 나타내는 순서도이다.
도 7은 도 6의 확률 분포를 업데이트하는 단계의 일 예를 나타내는 순서도이다.
도 8은 도 1의 현재 훈련 동작을 수행하는 단계의 일 예를 나타내는 순서도이다.
도 9는 도 1의 상기 현재 빔을 선택하는 단계의 일 예를 나타내는 순서도이다.
도 10, 11a, 11b 및 12는 도 6의 빔 훈련 방법을 설명하기 위한 도면들이다.
도 13, 14, 15a, 15b 및 15c는 본 발명의 실시예들에 따른 빔 훈련 방법을 설명하기 위한 도면들이다.
도 16은 도 1의 빔 훈련 방법의 구체적인 다른 예를 나타내는 순서도이다.
도 17 및 18은 본 발명의 실시예들에 따른 무선 통신 장치에 포함되는 빔 컨트롤러의 예를 나타내는 블록도들이다.
도 19는 본 발명의 실시예들에 따른 네트워크 환경 내의 전자 디바이스를 나타내는 블록도이다.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.
도 1은 본 발명의 실시예들에 따른 빔 훈련 방법을 나타내는 순서도이다.
도 1을 참조하면, 본 발명의 실시예들에 따른 빔 훈련 방법은 강화 학습(reinforcement learning)에 기초하여 구현된다. 예를 들어, 상기 강화 학습은 멀티 암 밴딧 학습(multi-armed bandit (MAB) learning)을 포함할 수 있다. 또한, 본 발명의 실시예들에 따른 빔 훈련 방법은 무선 통신 장치 및 이를 포함하는 무선 통신 시스템에 의해 수행될 수 있다. 예를 들어, 상기 무선 통신 시스템은 다중 안테나 배열을 사용하는 송수신단과, 훈련 기반 아날로그 빔포밍을 사용하는 밀리미터파(mmWave) 대역 통신 시스템일 수 있다. 상기 무선 통신 장치 및 상기 무선 통신 시스템의 구체적인 구조에 대해서는 도 2를 참조하여 후술하도록 하고, 상기 강화 학습에 대해서는 도 4 및 5를 참조하여 후술하도록 한다.
본 발명의 실시예들에 따른 빔 훈련 방법에서, 빔포밍(beamforming) 수행 시에 이용되는 복수의 빔(beam)들 중 하나를 선택하기 위한 확률 분포(probability distribution) 및 가치 함수(value function) 중 적어도 하나를 획득한다(단계 S100). 예를 들어, 단계 S100에서는 상기 확률 분포 및 상기 가치 함수 중 적어도 하나를 정의, 설정 및/또는 업데이트할 수 있다.
상기 확률 분포 및 상기 가치 함수 중 적어도 하나에 기초하여, 상기 복수의 빔들 중 가장 유망할 것으로 예상되는 후보 빔(또는 선택 빔)을 선택한다(단계 S200). 도 5 등을 참조하여 후술하는 것처럼, 상기 후보 빔을 선택하는데 있어서 온라인(또는 실시간) 강화 학습 기반의 프레임워크가 수행될 수 있다.
일 실시예에서, 도 6을 참조하여 후술하는 것처럼, EXP3(Exponential-weight algorithm for Exploration and Exploitation) 기반의 적대적 밴딧 모델(adversarial bandit model)을 이용하여 상기 후보 빔을 선택하는 경우에, 상기 확률 분포에 기초하여 상기 후보 빔을 선택하도록 구현될 수 있다.
다른 실시예에서, 도 16을 참조하여 후술하는 것처럼, 상향 신뢰 바운드(upper confidence bound, UCB) 알고리즘 기반의 통계적 밴딧 모델(statistical bandit model)을 이용하여 상기 후보 빔을 선택하는 경우에, 상기 가치 함수에 기초하여(예를 들어, 상기 가치 함수에 대응하는 상향 신뢰 바운드 인덱스에 기초하여) 상기 후보 빔을 선택하도록 구현될 수 있다.
상기 후보 빔 및 적어도 하나의 이전 훈련 동작에 의해 선택된 이전 빔에 기초하여, 현재 훈련 동작을 수행한다(단계 S300). 예를 들어, 상기 후보 빔 및 상기 이전 빔에 기초하여 공지된(known) 심볼들을 복수 회 송신 및/또는 수신함으로써, 상기 현재 훈련 동작이 수행될 수 있다. 단계 S300에 대해서는 도 8을 참조하여 후술하도록 한다.
상기 현재 훈련 동작의 결과에 기초하여, 최적 빔(best beam)에 대응하도록 현재 빔을 선택한다(단계 S400). 예를 들어, 상기 후보 빔 및 상기 이전 빔에 의한 신호 품질(또는 특성)을 비교하여, 상기 후보 빔 및 상기 이전 빔 중 하나를 상기 현재 빔으로 선택할 수 있다. 단계 S400에 대해서는 도 9를 참조하여 후술하도록 한다.
한편, 도 1에서는 단계 S100, S200, S300 및 S400이 각각 1회 수행되고 종료되는 것으로 도시하였으나, 실제로는 도 6 및 16을 참조하여 후술하는 것처럼 단계 S100, S200, S300 및 S400이 계속 반복 수행될 수 있다. 도 5를 참조하여 후술하는 것처럼, 단계 S100, S200, S300 및 S400이 1회 수행되는 것을 하나의 훈련 구간(training phase)(또는 훈련 주기(training period))으로 정의할 수 있고, 각 훈련 구간에서 하나의 후보 빔이 선택되어 훈련 동작이 수행될 수 있으며, 훈련 구간들이 계속 수행됨에 따라 후보 빔들이 선택되는 순서를 훈련 시퀀스로 정의할 수 있다.
본 발명의 실시예들에 따른 빔 훈련 방법에서는, 가변 채널 하에서 효율적인 빔 훈련을 위하여 강화 학습 기반의 빔 훈련 동작을 수행할 수 있다. 구체적으로, 더 유망한 빔(또는 더 가능성이 높은 빔)에 대해 선택적으로 더 많은 훈련을 수행하도록 효율적인 온라인 강화 학습 기반의 프레임워크를 구현할 수 있고, 이에 따라 점진적으로 최적 방향을 탐색할 수 있으며, 고정적인 훈련 시퀀스가 아닌 적응적인(또는 가변적인) 훈련 시퀀스가 형성될 수 있다. 따라서, 효율적으로 빔 트래킹을 수행하고, 빔 변화에 따른 훈련 오버헤드를 감소시킬 수 있으며, 제한된 훈련 시퀀스 내에 빠르게 최적 빔에 수렴할 수 있어, 통신 성능이 향상될 수 있다.
도 2는 본 발명의 실시예들에 따른 무선 통신 장치 및 이를 포함하는 무선 통신 시스템을 나타내는 블록도이다.
도 2를 참조하면, 무선 통신 시스템(1)은 사용자 기기(user equipment, UE)(100) 및 기지국(base station, BS)(200)을 포함할 수 있다.
일 실시예에서, 무선 통신 시스템(1)은 5G(5th generation wireless) 시스템, LTE(Long Term Evolution) 시스템, LTE-Advanced 시스템, CDMA(Code Division Multiple Access) 시스템, GSM(Global System for Mobile Communications) 시스템 등과 같은 셀룰러 네트워크(cellular network)를 이용하는 무선 통신 시스템일 수도 있고, WLAN(Wireless Local Area Network) 시스템, WPAN(Wireless Personal Area Network) 시스템 또는 다른 임의의 무선 통신 시스템일 수 있다. 본 명세서에서, 무선 통신 시스템(1)은 셀룰러 네트워크를 이용하는 무선 통신 시스템에 기초하여 설명되지만, 본 발명의 실시예들은 이에 한정되지 않을 수 있다.
사용자 기기(100)는 무선 통신 장치이며, 고정되거나 이동성을 가질 수 있고, 기지국(200)과 무선 통신함으로써 데이터 및/또는 제어 정보를 송수신할 수 있는 임의의 기기일 수 있다. 예를 들어, 사용자 기기(010)는 단말(terminal), 단말 기기(terminal equipment), MS(Mobile Station), MT(Mobile Terminal), UT(User Terminal), SS(Subscribe Station), 무선 장치(wireless device), 휴대 장치(handheld device) 등으로 지칭될 수 있다. 예를 들어, 사용자 기기(100)는 복수의 안테나들(120), 프리코더(140), 송수신기(160) 및 신호 프로세서(180)를 포함할 수 있다.
기지국(200)은 일반적으로 사용자 기기(100) 및/또는 다른 기지국과 통신하는 고정된 지점(fixed station)을 지칭할 수 있고, 사용자 기기(100) 및/또는 다른 기지국과 통신함으로써 데이터 및 제어 정보를 교환할 수 있으며, 네트워크 액세스 디바이스로서 지칭될 수도 있다. 예를 들어, 기지국(200)은 Node B, eNB(evolved-Node B), gNB(Next generation Node B), 섹터(Sector), 사이트(Site), BTS(Base Transceiver System), AP(Access Point), 릴레이 노드(Relay Node), RRH(Remote Radio Head), RU(Radio Unit), 스몰 셀(small cell) 등으로 지칭될 수도 있다. 본 명세서에서, 기지국(200)은 CDMA에서의 BSC(Base Station Controller), WCDMA의 Node-B, LTE에서의 eNB, 5G의 gNB 또는 섹터(사이트) 등이 커버하는 일부 영역 또는 기능을 나타내는 포괄적인 의미로 해석될 수 있고, 메가 셀, 매크로 셀, 마이크로 셀, 피코 셀, 펨토 셀, 릴레이 노드, RRH, RU, 스몰 셀 통신범위 등 다양한 커버리지 영역을 모두 포괄할 수 있다.
사용자 기기(100) 및 기지국(200)은 빔포밍(beamforming)에 의해서 무선 통신할 수 있고, 무선 통신 시스템(1)은 빔포밍을 위하여 사용자 기기(100) 및 기지국(200)에 대한 요건들을 규정할 수 있다. 예를 들면, 무선 통신 시스템(1)은 전송량(throughput)의 증대를 위하여 밀리미터파 주파수 대역을 채용할 수 있고, 밀리미터파의 중대한 경로 손실을 극복하기 위하여 빔포밍을 채용할 수 있다. 빔포밍에 의한 무선 통신을 위하여 사용자 기기(100) 및 기지국(200)의 빔들의 정렬(alignment)이 요구될 수 있고, 빔 정렬을 위하여 사용자 기기(100) 및 기지국(200)은 빔 훈련(beam training)을 수행할 수 있다. 예를 들어, 기지국(200)은 빔 훈련 동안 송신 빔(20)으로 동일한 심볼을 반복하여 송신할 수 있고, 사용자 기기(100)는 반복해서 송신되는 심볼들을 복수의 수신 빔들(10)로 각각 수신할 수 있다. 사용자 기기(100)는 복수의 수신 빔들(10)에 기초하여 기지국(200)과의 무선 통신에 사용될 최적의 수신 빔을 판정할 수 있고, 최적의 수신 빔에 대한 정보를 기지국(200)에 제공할 수 있으며, 최적의 수신 빔은 사용자 기기(100) 및 기지국(200) 사이 무선 통신, 즉 페이로드(payload)의 송신 및/또는 수신에 사용될 수 있다. 복수의 수신 빔들(10)이 도 1을 참조하여 상술한 상기 복수의 빔들에 대응할 수 있고, 최적의 수신 빔이 도 1을 참조하여 상술한 상기 현재 빔에 대응할 수 있다.
사용자 기기(100)의 이동성(mobility), 복수의 안테나들(120) 중 적어도 일부에 인접한 장애물 등에 기인하여, 사용자 기기(100) 및 기지국(200) 사이 무선 통신 환경이 변동함에 따라 빔 훈련은 빈번하게 수행될 수 있고, 결과적으로 빔 훈련을 통해서 최적의 수신 빔을 조기에 판정하는 것이 무선 통신 시스템(1)에서 중요할 수 있다. 예를 들어, 사용자 기기(100) 및 기지국(200) 사이의 채널이 추정될 수 있고, 추정된 채널에 기초하여 도 1을 참조하여 상술한 강화 학습 기반의 훈련 동작이 수행될 수 있고, 훈련 동작에 기초하여 선택 및/또는 업데이트된 최적의 수신 빔이 무선 통신에 사용될 수 있으며, 이에 따라 보다 높은 효율(예를 들어, 빔포밍 이득)을 제공하는 최적의 수신 빔이 무선 통신에 사용될 수 있다. 이하에서, 본 발명의 실시예들은 사용자 기기(100)에서 강화 학습 기반의 훈련 동작이 수행되는 경우에 기초하여 설명되지만, 본 발명은 이에 한정되지 않으며, 기지국(200)에도 동일하거나 유사하게 강화 학습 기반의 훈련 동작이 수행될 수 있다.
사용자 기기(100)는 빔포밍을 위하여 복수의 안테나들(120)을 포함할 수 있고, 복수의 안테나들(120)은 안테나 어레이로 지칭될 수도 있다. 일 실시예에서, 복수의 안테나들(120)은 복수의 빔들을 각각 형성하는 복수의 서브 어레이들을 포함할 수 있으며, 서브 어레이는 서브 어레이에 포함되는 요소 안테나들 및 요소 안테나들에 대응하는 프리코더(140)의 구성요소들(예를 들어, 위상 천이기들)을 총괄적으로 지칭할 수도 있다. 서브 어레이는 송수신기(160)에 포함된 RF(Radio Frequency) 체인으로부터 RF 신호를 수신하거나 RF 체인에 RF 신호를 제공할 수 있고, 서브 어레이들의 개수 및 송수신기(160)에 포함된 RF 체인들의 개수가 상이한 경우, 스위치들 및/또는 멀티플렉서들이 서브 어레이 및 RF 체인 사이에 배치될 수 있다. 본 명세서에서, 서브 어레이들의 개수 및 RF 체인들의 개수는 M(M은 2 이상의 자연수)로서 동일한 것으로 가정되지만, 본 발명은 이에 한정되지 않을 수 있다. 일 실시예에서, 복수의 안테나들(120)은 공간 다이버시티(spatial diversity), 편파 다이버시티(polarization diversity), 공간 다중화(spatial multiplexer) 등에 사용될 수도 있다.
프리코더(140)는 제어 신호(CTRL)에 따라 빔을 형성하기 위한 신호들을 복수의 안테나들(120)에 제공할 수 있다. 일 실시예에서, 프리코더(140)는 제어 신호(CTRL)를 수신하는 복수의 위상 천이기들(phase shifters) 및/또는 증폭기들, 예를 들어 전력 증폭기들(power amplifiers), 저잡음 증폭기들(low noise amplifiers)을 포함할 수 있고, 아날로그 프리코더로서 지칭될 수 있다. 예를 들어, 프리코더(140)는 송신 모드에서, 제1 내지 제M RF 신호들(RF_1, ..., RF_M)을 송수신기(160)로부터 수신할 수 있고, 제1 내지 제M RF 신호들(RF_1, ..., RF_M)을 제어 신호(CTRL)에 따라 증폭할 수 있으며, 및/또는 제1 내지 제M RF 신호들(RF_1, ..., RF_M)의 위상들을 제어 신호(CTRL)에 따라 조절할 수 있다. 또한, 프리코더(140)는 수신 모드에서, 복수의 안테나들(120)을 통해서 수신되는 신호들을 제어 신호(CTRL)에 따라 증폭함으로써, 및/또는 복수의 안테나들(120)을 통해서 수신되는 신호들의 위상들을 제어 신호(CTRL)에 따라 조절함으로써, 제1 내지 제M RF 신호들(RF_1, ..., RF_M)을 생성할 수도 있다.
송수신기(160)는 제1 내지 제M RF 체인들(161_1, ..., 161_M)을 포함할 수 있고, 예를 들어 RFIC(Radio Frequency Integrated Circuit)로서 지칭될 수 있다. RF 체인은 독립적으로 RF 신호를 처리할 수 있는 경로를 지칭할 수 있고, 예를 들어 증폭기, 필터, 믹서 등을 포함할 수 있으며, 아날로그-디지털 컨버터(Analog-to-Digital Converter; ADC) 및/또는 디지털-아날로그 컨버터(Digital-to-Analog Converter; DAC)를 더 포함할 수도 있다. 일 실시예에서, 송수신기(160)는 스위치들 및/또는 멀티플렉서들을 포함할 수 있고, 스위치들 및/또는 멀티플렉서들에 의해서 RF 체인들은 재구성 가능할(reconfigurable) 수도 있다. 제1 내지 제M RF 체인들(161_1, ..., 161_M)은 송신 모드에서 제1 내지 제M 기저대역 신호들(BB_1, ..., BB_M)을 처리함으로써 제1 내지 제M RF 신호들(RF_1, ..., RF_M)을 생성할 수 있고, 수신 모드에서 제1 내지 제M RF 신호들(RF_1, ..., RF_M)을 처리함으로써 제1 내지 제M 기저대역 신호들(BB_1, ..., BB_M)을 생성할 수 있다.
신호 프로세서(180)는 송수신기(160)에 제1 내지 제M 기저대역 신호들(BB_1, ..., BB_M)을 제공할 수 있고, 송수신기(160)로부터 제1 내지 제M 기저대역 신호들(BB_1, ..., BB_M)을 수신할 수 있다. 신호 프로세서(180)는 통신 프로세서, 기저대역 프로세서 등으로 지칭될 수 있으며, 논리 합성을 통해서 설계된 로직 하드웨어를 포함할 수도 있고, 코어 및 코어에 의해서 실행되는 일련의 명령어들을 포함하는 소프트웨어를 포함하는 프로세싱 유닛을 포함할 수도 있다. 예를 들어, 신호 프로세서(180)는 데이터 프로세서(182) 및 빔 컨트롤러(184)를 포함할 수 있다.
데이터 프로세서(182)는 기지국(200)에 제공할 정보를 포함하는 송신 데이터를 생성할 수 있고, 송신 데이터로부터 제1 내지 제M 기저대역 신호들(BB_1, ..., BB_M)(또는 제1 내지 제M 기저대역 신호들(BB_1, ..., BB_M)에 대응하는 디지털 신호들)을 생성할 수 있다. 또한, 데이터 프로세서(182)는 기지국(200)이 제공한 정보를 포함하는 수신 데이터를 제1 내지 제M 기저대역 신호들(BB_1, ..., BB_M)(또는 제1 내지 제M 기저대역 신호들(BB_1, ..., BB_M)에 대응하는 디지털 신호들)로부터 생성할 수도 있다. 예를 들어, 데이터 프로세서(182)는 인코더, 디코더, 변조기, 복조기 등을 포함할 수 있다. 일 실시예에서, 데이터 프로세서(182)는 빔포밍을 위한 프리코더, 즉 디지털 프리코더를 포함할 수도 있다. 이에 따라, 데이터 프로세서(182)는 빔 컨트롤러(184)로부터 빔포밍 정보를 수신할 수 있고, 빔포밍 정보에 기초하여 프리코딩을 수행할 수 있다.
빔 컨트롤러(184)는 도 1을 참조하여 상술한 본 발명의 실시예들에 따른 빔 훈련 방법을 수행할 수 있고, 복수의 안테나들(120)에 의해서 형성되는 빔을 위한 빔포밍 정보를 정의할 수 있다. 예를 들어, 빔 컨트롤러(184)는 확률 분포 및 가치 함수 중 적어도 하나를 획득하고, 상기 확률 분포 및 상기 가치 함수 중 적어도 하나에 기초하여 복수의 수신 빔들(20) 중 후보 빔을 선택하고, 상기 후보 빔 및 적어도 하나의 이전 훈련 동작에 의해 선택된 빔에 기초하여 현재 훈련 동작을 수행하며, 상기 현재 훈련 동작의 결과에 기초하여 최적 빔에 대응하도록 현재 빔을 선택할 수 있다. 또한, 빔 컨트롤러(184)는 상기 현재 훈련 동작의 결과 및 상기 현재 빔을 위한 빔포밍 정보를 정의할 수 있고, 빔포밍 정보에 따라 제어 신호(CTRL)를 생성할 수 있다. 일 실시예에서, 데이터 프로세서(182)가 디지털 프리코더를 포함하는 경우, 빔 컨트롤러(184)는 디지털 프리코더에 빔포밍 정보를 제공할 수도 있다.
도 3, 4 및 5는 본 발명의 실시예들에 따른 빔 훈련 방법을 설명하기 위한 도면들이다.
도 3은 고정적인 훈련 시퀀스에 기초하여 수행되는 기존의 빔 훈련 방법을 나타내고, 도 4는 본 발명의 실시예들에 따른 빔 훈련 방법의 기반이 되는 강화 학습 방식을 나타내며, 도 5는 강화 학습 기반으로 구현되고 적응적인 훈련 시퀀스에 기초하여 수행되는 본 발명의 실시예들에 따른 빔 훈련 방법을 나타낸다. 도 3 및 5는 수신단(예를 들어, 사용자 기기(100))에서 최적의 수신 빔을 선택하는 경우를 예시하였으며, BEAM#0, BEAM#1, BEAM#2, BEAM#3, BEAM#4, BEAM#5 및 BEAM#6의 총 7개의 수신 빔들이 존재하는 것으로 예시하였다.
도 3을 참조하면, 기존의 빔 훈련 방법은 고정된 시퀀스의 수신 빔 인덱스를 활용하여 수행될 수 있다. 예를 들어, 하나의 훈련 구간(TP)에서, 송신단(예를 들어, 기지국(200))은 SSB(synchronization signal block) 버스트(burst)를 2회 전송하고, 수신단은 서로 다른 수신 빔들을 이용하여 전송된 SSB 버스트를 수신하고, 수신된 SSB 버스트를 평가하여 최적의 수신 빔을 탐색할 수 있다. 이 때, 채널의 오프셋 파라미터를 추적(tracking)하기 위하여, 수신단은 항상 가장 최근에 선택된 최적 빔을 이용할 수 있고, 최적 빔 업데이트는 매 훈련 동작이 종료된 후 가장 최근에 선택된 최적 빔과 새롭게 훈련된 빔 사이의 품질을 비교하여 결정될 수 있다.
구체적으로, BEAM#0이 초기 최적 빔(30a)으로 주어질 수 있고, BEAM#1, BEAM#2, ..., BEAM#6의 순서로 고정적인 훈련 시퀀스가 주어질 수 있다. 제1 훈련 구간에서, 수신단은 BEAM#0인 초기 최적 빔(30a) 및 BEAM#1인 제1 훈련 빔(30b)을 이용하여 SSB 버스트(SSB#0~#N)를 수신하는 제1 훈련 동작을 수행할 수 있고, 수신된 SSB 버스트를 평가하여 빔 업데이트를 수행하여 제1 최적 빔(31a)을 상기 제1 훈련 동작의 결과로서 선택할 수 있다. 이후의 제2 훈련 구간에서, 수신단은 상기 제1 훈련 동작의 결과로서 선택된 제1 최적 빔(31a) 및 BEAM#2인 제2 훈련 빔(31b)을 이용하여 SSB 버스트(SSB#0~#N)를 수신하는 제2 훈련 동작을 수행할 수 있고, 수신된 SSB 버스트를 평가하여 빔 업데이트를 수행하여 상기 제2 훈련 동작의 결과로서 제2 최적 빔을 선택할 수 있다. 이와 유사하게, 이후의 제6 훈련 구간에서, 수신단은 이전의 제5 훈련 동작의 결과로서 선택된 제5 최적 빔(32a) 및 BEAM#6인 제6 훈련 빔(32b)을 이용하여 SSB 버스트(SSB#0~#N)를 수신하는 제6 훈련 동작을 수행할 수 있고, 수신된 SSB 버스트를 평가하여 빔 업데이트를 수행하여 상기 제6 훈련 동작의 결과로서 제6 최적 빔을 선택할 수 있다.
도 3의 기존의 빔 훈련 방법에서, 훈련 시퀀스는 하기의 [수학식 1]과 같이 표현될 수 있다.
[수학식 1]
Figure pat00001
상기의 [수학식 1]에서,
Figure pat00002
는 최적 빔의 인덱스, K는 복수의 수신 빔들의 개수를 나타낸다.
도 3의 기존의 빔 훈련 방법은 항상 동일한 훈련 시퀀스를 가지기 때문에, 시변 채널에 적절하게 대응하기 어렵고 제한된 훈련 시퀀스 내에 빠르게 최적 빔에 수렴하지 못하며, 훈련 오버헤드가 증가할 수 있다는 문제점이 있다.
도 4를 참조하면, 온라인 강화 학습 방식은, 행동의 주체인 에이전트(agent)가 어떠한 행동(action)을 취하면 환경(environment)은 행동에 대한 어떠한 보상 값(reward)을 제공하는 방식으로 진행되며, 그동안 취한 행동들과 그로부터 관측된 보상 값들을 기반으로 행동 정책(policy)을 결정 및/또는 수정하는 방식으로 진행될 수 있다. 예를 들어, 에이전트는 강화 학습 모델을 나타낼 수 있다.
온라인 강화 학습 방식에서, 행동 정책은 가장 높은 보상 기대치를 가지도록 수립될 수 있다. 매 단계(또는 라운드)에서 환경은 에이전트에게는 알려져 있지 않은 분포를 기반으로 보상 값을 생성할 수 있다. 매 단계에서 제한된 환경만이 사용될 수 있기에, 보상 값의 분포에 대한 정보를 향상시키고 최적의 행동을 찾아내기 위하여 환경을 탐색하는 '탐험(explore 또는 exploration)'과 현재까지 관측된 보상 값을 기반으로 경험적으로 최적 선택을 내리는 '착취(exploit 또는 exploitation)' 사이의 트레이드 오프를 잘 조절하는 것이 필요할 수 있다.
본 발명의 실시예들에 따른 최적 빔 훈련 문제 또는 빔 선택 문제는, 온라인 강화 학습 방식 중 하나인 멀티 암 밴딧 문제로 변환하여 수행될 수 있다. 멀티 암 밴딧 문제는 얻을 수 있는 정보가 제한된 상황에서 기대 이득을 극대화하는 후보 선택 방법을 나타낼 수 있다. 멀티 암 밴딧 문제에서, 매 단계에서 선택 가능한 기계(machine)는 사용자에게는 알려져 있지 않은 분포를 기반으로 보상 값을 생성하고, 매 단계에서 제한된 수의 기계만이 사용될 수 있으며, 선택에 대한 결과값은 선택 시점에서는 얻을 수 없거나, 제한적으로만 얻을 수 있다.
멀티 암 밴딧 문제를 본 발명의 실시예들에 따른 최적 빔 훈련 문제 또는 빔 선택 문제에 대입하면, 한 번에 제한된 수의 빔을 훈련에 할당하는 상황으로 볼 수 있다. 구체적으로, 상기 적어도 하나의 이전 훈련 동작과 관련하여 상기 후보 빔을 선택했던 행동(action) 및 상기 적어도 하나의 이전 훈련 동작의 결과에 대응하는 보상 값(reward)에 기초하여, 상기 현재 훈련 동작과 관련하여 상기 후보 빔을 선택하는 행동 정책(policy)이 결정될 수 있다. 또한, 각 단계(또는 라운드)는 하나의 훈련 동작을 수행하는 하나의 훈련 구간에 대응할 수 있다.
도 5를 참조하면, 본 발명의 실시예들에 따른 빔 훈련 방법은 고정되지 않고 적응적인(또는 가변적인) 시퀀스의 수신 빔 인덱스를 활용하여 수행될 수 있다. 이하 도 3과 중복되는 설명은 생략한다.
구체적으로, BEAM#0, BEAM#1, BEAM#2, BEAM#3, BEAM#4, BEAM#5 및 BEAM#6 중 하나가 초기 빔(40a)으로 주어질 수 있다. 제1 훈련 구간에서, 수신단에 포함되는 강화 학습 모델(예를 들어, 멀티 암 밴딧 모델)은 행동 정책에 따라 제1 훈련 빔(BEAM_A1)(40b)을 선택할 수 있고, 초기 빔(40a) 및 제1 훈련 빔(40b)을 이용하여 동기화 신호(SYNC)를 수신하는 제1 훈련 동작을 수행할 수 있고, 제1 최적 빔을 상기 제1 훈련 동작의 결과로서 선택할 수 있으며, 상기 제1 훈련 동작의 결과에 기초하여 보상 값(RW) 및 행동 정책을 업데이트할 수 있다. 이후의 제2 훈련 구간에서, 강화 학습 모델은 업데이트된 행동 정책에 따라 제2 훈련 빔(BEAM_A2)(41b)을 선택할 수 있고, 제1 빔(41a) 및 제2 훈련 빔(41b)을 이용하여 동기화 신호(SYNC)를 수신하는 제2 훈련 동작을 수행할 수 있고, 제2 최적 빔을 상기 제2 훈련 동작의 결과로서 선택할 수 있으며, 상기 제2 훈련 동작의 결과에 기초하여 보상 값(RW) 및 행동 정책을 업데이트할 수 있다. 이와 유사하게, 이후의 제t(t는 3 이상의 자연수) 훈련 구간에서, 강화 학습 모델은 행동 정책에 따라 제t 훈련 빔(BEAM_At)(42b)을 선택할 수 있고, 제(t-1) 빔(42a) 및 제t 훈련 빔(42b)을 이용하여 동기화 신호(SYNC)를 수신하는 제2 훈련 동작을 수행할 수 있고, 제t 최적 빔을 상기 제t 훈련 동작의 결과로서 선택할 수 있으며, 상기 제t 훈련 동작의 결과에 기초하여 보상 값(RW) 및 행동 정책을 업데이트할 수 있다.
일 실시예에서, 도 3을 참조하여 상술한 것처럼, 동기화 신호(SYNC)는 SSB 버스트를 포함할 수 있다. 다만 본 발명은 이에 한정되지 않으며, 동기화 신호(SYNC)는 PSS(primary synchronization signal)/SSS(secondary synchronization signal)를 포함하거나 그 밖에 다양한 reference signal을 포함할 수도 있다.
일 실시예에서, 도 5의 빔들(40a, 41a, 42a)은 이전의 훈련 구간에서 선택된 최적 빔에 대응할 수 있다. 예를 들어, 초기 빔(40a)은 동작 초기에 주어진 초기 최적 빔에 대응하고, 제1 빔(41a)은 상기 제1 훈련 구간에서 선택된 상기 제1 최적 빔에 대응하며, 제(t-1) 빔(42a)은 이전의 제(t-1) 훈련 동작의 결과로서 선택된 제(t-1) 최적 빔에 대응할 수 있다. 이 경우, 하나의 훈련 구간(예를 들어, 상기 제1 훈련 구간)에서 이용되는 2개의 빔들(예를 들어, 초기 최적 빔(40a) 및 제1 훈련 빔(40b)) 및 훈련 동작의 결과에 따라 업데이트되는 최적 빔(예를 들어, 제1 최적 빔(41a))이 각각 도 1의 상기 이전 빔, 상기 후보 빔 및 상기 현재 빔에 대응할 수 있다. 한편, 하나의 훈련 구간(예를 들어, 상기 제1 훈련 구간)에서 이용되는 최적 빔(예를 들어, 초기 최적 빔(40a))을 상기 이전 빔이 아닌 현재 빔으로 정의할 수도 있으며, 이 경우 도 1의 단계 S400은 상기 현재 빔을 업데이트하는 단계로 설명될 수도 있다.
다른 실시예에서, 도 5의 빔들(40a, 41a, 42a)은 훈련 빔들(40b, 41b, 42b)과 유사하게 강화 학습 모델의 행동 정책에 따라 선택된 훈련 빔에 대응할 수 있다. 다시 말하면, 본 발명의 실시예는 1개의 최적 빔 및 1개의 훈련 빔을 이용하는 빔 스위핑(beam sweeping)에 적용될 뿐만 아니라, 2개의 훈련 빔들을 이용하는 빔 스위핑에도 적용될 수 있다.
한편, 본 발명의 실시예들에 따른 빔 훈련 방법은 도래각 분포와 같은 사전 정보를 필요로 하지 않을 수 있다. 동작 초기에, 수신단은 균등 분포 도래각을 가정하여 초기에 K(K는 2 이상의 자연수) 크기를 갖는 훈련 빔 셋을 구축하고 훈련 빔 응답을 수신하여 대응되는 훈련 빔 셋을 업데이트한다. 이 경우, 채널을 점진적으로 학습하여 조금 더 불균등하고 최적에 가까운 방향 분포로 수렴해간다. 실시예에 따라서, 동작 초기에, 수신단은 도 3을 참조하여 상술한 방법에 기초하여 초기 훈련 동작을 수행할 수도 있다.
한편, 상세하게 설명하지는 않았으나, 최적의 송신 빔을 탐색하는 동작도 상술한 것과 유사하게 수행될 수 있다. 예를 들어, 하나의 훈련 구간에서, 송신단은 서로 다른 송신 빔들을 이용하여 SSB 버스트를 전송하고, 수신단은 수신된 SSB 버스트를 평가하여 최적의 송신 빔을 탐색할 수 있다.
도 6은 도 1의 빔 훈련 방법의 구체적인 일 예를 나타내는 순서도이다. 도 7은 도 6의 확률 분포를 업데이트하는 단계의 일 예를 나타내는 순서도이다.
도 6 및 7을 참조하면, 본 발명의 실시예들에 따른 빔 훈련 방법에서, EXP3 기반의 적대적 밴딧 모델을 이용하여 상기 후보 빔을 선택하는 행동 정책이 결정될 수 있다.
예를 들어, 확률 분포 및 그에 대한 초기 값을 정의할 수 있고(단계 S110), 상기 확률 분포에 기초하여 상기 후보 빔을 선택할 수 있고(단계 S210), 상기 후보 빔 및 상기 이전 빔에 기초하여 상기 현재 훈련 동작을 수행할 수 있고(단계 S300), 상기 현재 훈련 동작의 결과에 기초하여 상기 현재 빔을 선택할 수 있으며(단계 S400), 상기 현재 훈련 동작의 결과에 기초하여 상기 확률 분포를 업데이트할 수 있다(단계 S120). 단계 S110 및 S120은 도 1의 단계 S100에 대응하고, 단계 S210은 도 1의 단계 S200에 대응하며, 단계 S300 및 S400은 각각 도 1의 단계 S300 및 S400과 실질적으로 동일할 수 있다.
상기 확률 분포를 업데이트하는데 있어서(단계 S120), 상기 현재 빔에 대한 제1 보상 값을 업데이트할 수 있고(단계 S122), 상기 현재 빔과 인접한 인접 빔들에 대한 제2 보상 값들을 업데이트할 수 있으며(단계 S124), 업데이트된 상기 제1 보상 값 및 상기 제2 보상 값들에 기초하여 누적 보상 값을 업데이트할 수 있다(단계 S126).
적대적 밴딧 모델은 보상 값이 어떻게 생성되느냐에 대한 가정을 필요로 하지 않는다. 각 라운드마다 에이전트는 행동에 대한 분포 Pt를 선택하며, 다음에 취해지는 행동 At는 분포 Pt로부터 구해지고, 에이전트는 그 결과값으로 보상 Xt를 얻는다. 다시 말하면, 적대적 밴딧 모델의 주요 가정은 다음과 같다. 1) 사용자는 분포 Pt를 선택하고 그로부터 행동 At를 결정한다. 2) 사용자는 보상 값 Xt를 관측한다.
적대적 밴딧 모델링의 핵심 사항은 선택되지 않은 행동에 대한 보상을 추정하는 것이다. Pt가 t(
Figure pat00003
)라운드에 행해진 행동에 대한 조건부 분포인 경우에, Ptk는 하기의 [수학식 2]와 같은 조건부 확률로 나타낼 수 있다.
[수학식 2]
Figure pat00004
여기서, Xtk의 중요도 가중 추정치는 하기의 [수학식 3]과 같이 나타낼 수 있다.
[수학식 3]
Figure pat00005
(t-1)라운드까지를 통해
Figure pat00006
의 조건부 평균은 하기의 [수학식 4]를 만족할 수 있다.
[수학식 4]
Figure pat00007
상기의 [수학식 4]에서,
Figure pat00008
는 (t-1)라운드 동안의 관측을 기준으로 Xti의 불편성(unbiased) 추정치를 나타낸다.
본 명세서에서,
Figure pat00009
는 t라운드까지의 상기 복수의 빔들 k번째 빔에 대한 누적 보상 값의 추정치라고 가정하고, 여기서 k는 1 이상 K 이하의 정수이며 K는 상기 복수의 빔들의 개수를 나타낸다. 예를 들어,
Figure pat00010
가 최대가 되도록 행동 정책이 결정될 수 있다.
Figure pat00011
를 확률 분포로 매핑하는 데에는 다양한 방법이 있으나, 가장 잘 알려진 방법은 지수 가중치를 사용하는 것이며, 하기의 [수학식 5]와 같이 나타낼 수 있다.
[수학식 5]
Figure pat00012
상기의 [수학식 5]에서, pk(t)는 상기 k번째 빔에 대한 확률 분포, Tk(t+1)은 (t+1)라운드까지의 상기 k번째 빔이 선택된 횟수, γ는 탐험(exploration)과 착취(exploitation) 사이의 비율을 조절하는 파라미터, ρ>0는 학습률을 나타낸다.
확률 분포 pk(t)는 균일 분포와 누적 보상 관련 분포가 혼합된 형태일 수 있다. EXP3 알고리즘에서, (1-γ)의 확률로 더 높은 지수 가중치를 갖는 빔을 훈련하며(착취), γ의 확률로 균등하게 빔을 선택한다(탐험). 학습률 ρ가 클수록, pk(t)는 가장 큰 보상 값을 나타낸 빔 인덱스에 집중하며 착취에 더 많은 비중을 할애한 알고리즘이 될 수 있다. 학습률이 작다면, pk(t)는 조금 더 균등하게 빔을 선택하고 알고리즘은 탐험을 더 자주 수행할 수 있다. 보상 값과 관련된 보상 함수는 하기의 [수학식 6]과 같이 주어질 수 있다.
[수학식 6]
Figure pat00013
상기의 [수학식 6]에서,
Figure pat00014
는 상기 k번째 빔에 대한 보상 값 또는 보상 함수, α>0 및 β>0는 각각 학습률, SINRk는 신호 대 간섭 및 잡음비(signal to interference plus noise ratio), τ는 성능 기준을 나타낸다.
훈련되지 않은 빔에 대한 보상은 관측할 수 없지만, 이웃한 빔 사이에는 보상 값에 대한 높은 상관이 있다는 가정을 내릴 수 있다. 따라서, 인접한 빔에 대한 가중치가 더해진 보상 값을 하기의 [수학식 7]과 같이 업데이트할 수 있다.
[수학식 7]
Figure pat00015
상기의 [수학식 7]에서,
Figure pat00016
Figure pat00017
은 상기 k번째 빔과 인접한 (k-1)번째 빔 및 (k+1)째 빔에 대한 보상 값들 또는 보상 함수들, w1 및 w2는 상기 (k-1)번째 빔 및 상기 (k+1)째 빔에 대한 상기 보상 값들 또는 상기 보상 함수들을 업데이트하기 위한 가중치들을 나타낸다.
다시 말하면, 단계 S110에서 상기 확률 분포는 상기의 [수학식 5]에 의해 정의되고, 단계 S122에서 상기 제1 보상 값은 상기의 [수학식 6]에 기초하여 획득되고, 단계 S124에서 상기 제2 보상 값들은 상기의 [수학식 7]에 기초하여 획득되며, 단계 S126에서 상기의 [수학식 6] 및 [수학식 7]에 의해 업데이트된 보상 값들에 기초하여 누적 보상 값의 추정치인
Figure pat00018
를 업데이트할 수 있다.
일 실시예에서, 단계 S110의 상기 초기 값은 균일 분포에 대응하며, 하기의 [수학식 8]과 같이 나타낼 수 있다.
[수학식 8]
Figure pat00019
도 6 및 7을 참조하여 상술한 EXP3 기반의 적대적 밴딧 모델을 이용한 빔 훈련 프레임워크는 하기의 [표 1]과 같이 나타낼 수 있다.
[표 1]
Figure pat00020
도 8은 도 1의 현재 훈련 동작을 수행하는 단계의 일 예를 나타내는 순서도이다.
도 1 및 8을 참조하면, 상기 현재 훈련 동작을 수행하는데 있어서(단계 S300), 상기 이전 빔에 기초하여 SSB 버스트를 수신할 수 있고(단계 S310), 상기 후보 빔에 기초하여 상기 SSB 버스트를 수신할 수 있다(단계 S320). 예를 들어, 도 8의 단계 S310 및 S320은 도 5를 참조하여 상술한 하나의 훈련 구간에서의 동작에 대응할 수 있다. 다만 본 발명은 이에 한정되지 않으며, 상기 SSB 버스트는 그 밖에 다양한 reference signal로 대체될 수도 있다.
실시예에 따라서, 최적의 송신 빔을 탐색하도록 구현되는 경우에, 단계 S310은 상기 이전 빔에 기초하여 SSB 버스트를 전송하는 것으로, 단계 S320은 상기 후보 빔에 기초하여 상기 SSB 버스트를 전송하는 것으로 변경될 수 있다.
도 9는 도 1의 상기 현재 빔을 선택하는 단계의 일 예를 나타내는 순서도이다.
도 1 및 9를 참조하면, 상기 현재 빔을 선택하는데 있어서(단계 S400), 상기 이전 빔에 기초한 제1 응답 특성 및 상기 후보 빔에 기초한 제2 응답 특성을 측정할 수 있고(단계 S410), 상기 제1 응답 특성 및 상기 제2 응답 특성을 비교할 수 있다(단계 S420).
상기 제2 응답 특성이 상기 제1 응답 특성보다 높은 경우에(단계 S420: 예), 상기 후보 빔을 상기 현재 빔으로 선택할 수 있다(단계 S430). 상기 제1 응답 특성이 상기 제2 응답 특성보다 높거나 같은 경우에, 상기 이전 빔을 상기 현재 빔으로 선택할 수 있다(단계 S440).
일 실시예에서, 상기 제1 응답 특성 및 상기 제2 응답 특성은 빔포밍 이득에 기초하여 획득될 수 있다. 빔포밍 이득은 빔에 의해서 획득되는 효율을 나타내기 위하여 임의의 방식으로 정의된 수치일 수 있고, 보다 높은 빔포밍 이득을 제공하는 빔이 보다 적합한 것으로 판단될 수 있다. 다시 말하면, 빔포밍 이득이 높은 빔이 상기 현재 빔으로 선택될 수 있다.
도 10, 11a, 11b 및 12는 도 6의 빔 훈련 방법을 설명하기 위한 도면들이다.
도 10을 참조하면, 시변(time-varying) 채널 하에서 본 발명의 실시예들에 따른 빔 훈련 방법의 성능 평가 결과를 나타낸다. 도 6 및 7을 참조하여 상술한 EXP3 알고리즘 기반 프레임워크가 사용되었으며, EXP3 알고리즘의 조정 파라미터는 γ=0.01, ρ=0.01, α=1, β=50, τ = optimal beamforming gain * 0.98 로 설정되었다.
도 3 및 5를 참조하여 상술한 것과 유사하게, 총 7개의 수신 빔들이 존재하는 것으로 예시하였고, BEAM#0, BEAM#1, BEAM#2, BEAM#3, BEAM#4, BEAM#5 및 BEAM#6을 각각 1, 2, 3, 4, 5, 6 및 7의 beam index로 매핑하였다. 또한, 제10 훈련 구간에서 30도의 도래각 변화가 일어나도록 구현하였으며, 이에 따라 제1 내지 제9 훈련 구간에서의 optimal beam index는 2이고 제10 내지 제20 훈련 구간에서의 optimal beam index는 4일 수 있다.
도 10에서, fixed training sequence는 도 3을 참조하여 상술한 기존의 빔 훈련 방법에 대응하고, adaptive training sequence는 도 5를 참조하여 상술한 본 발명의 실시예들에 따른 빔 훈련 방법에 대응할 수 있다. 각 훈련 시퀀스에서, 좌측 상단의 beam index는 상기 이전 빔에 대응하고, 우측 상단의 빗금 친 beam index는 상기 후보 빔에 대응하며, 우측 하단의 beam index는 상기 현재 빔에 대응할 수 있다. 빗금 친 beam index의 선택(또는 배열) 순서가 training sequence를 나타낼 수 있다.
예를 들어, fixed training sequence는 3, 4, 5, 6, 7, 1, 3, 4, 5, 6, 7, 1, 2, 4, 5, 6, 7, 1, 2 및 3과 같이 구현되며, 상기 후보 빔이 고정된 순서에 따라 선택되는 것을 확인할 수 있다. 이에 비하여, adaptive training sequence는 4, 3, 3, 3, 3, 5, 1, 1, 3, 3, 2, 4, 1, 3, 3, 3, 3, 5, 3 및 3과 같이 구현되며, 상기 후보 빔이 고정되지 않은 임의의 순서에 따라 선택되고 특정 빔에 대해 더 많은 훈련이 수행되는 것을 확인할 수 있다.
도 11a를 참조하면, 도 10의 성능 평가에 따라 학습된 확률을 나타낸다. 제1 내지 제10 훈련 구간에서 우선 순위는 현재 최적 빔에 집중되어 있으며, 제10 훈련 구간에서 채널의 도래각이 변화한 후 확률 분포는 채널 변화를 감지하고 학습하는 것을 확인할 수 있다.
도 11b를 참조하면, 도 10의 성능 평가에 따른 빔포밍 이득 손실을 나타낸다. CASE1은 도 10의 fixed training sequence, 즉 도 3을 참조하여 상술한 기존의 빔 훈련 방법에서의 빔포밍 이득 손실을 나타내고, CASE2는 도 10의 adaptive training sequence, 즉 도 5를 참조하여 상술한 본 발명의 실시예들에 따른 빔 훈련 방법에서의 빔포밍 이득 손실을 나타낸다. 본 발명의 실시예들에 따른 빔 훈련 방법에서는 갑작스러운 도래각 변화에도 상대적으로 적은 이득 손실을 유지하는 것을 확인할 수 있으며, 이는 변화된 채널 방향을 가리키는 빔에 더 높은 확률을 할당할 수 있기 때문이다.
도 12를 참조하면, 도래각의 변화량에 따른 빔포밍 이득 손실을 나타낸다. CASEA는 fixed training sequence, 즉 도 3을 참조하여 상술한 기존의 빔 훈련 방법에서의 빔포밍 이득 손실을 나타내고, CASEB는 adaptive training sequence, 즉 도 5를 참조하여 상술한 본 발명의 실시예들에 따른 빔 훈련 방법에서의 빔포밍 이득 손실을 나타내며, 도래각의 변화량은 약 1, 5, 10, 15, 20, 25, 30, 35 및 40도 중에서 선택되었다. 본 발명의 실시예들에 따른 빔 훈련 방법이 기존의 빔 훈련 방법보다 뛰어난 성능을 가지는 것을 확인할 수 있으며, 이는 최적 빔 주변의 빔들이 더 자주 훈련되기 때문이다. 또한 임의로 선택된 빔으로 갑작스러운 도래각 변화에도 조금 더 강인함을 확인할 수 있다.
도 13, 14, 15a, 15b 및 15c는 본 발명의 실시예들에 따른 빔 훈련 방법을 설명하기 위한 도면들이다.
도 13은 기존의 빔 훈련 방법에서의 고정적인 훈련 시퀀스의 일 예를 나타내고, 도 14, 15a, 15b 및 15c는 본 발명의 실시예들에 따른 빔 훈련 방법에서의 적응적인 훈련 시퀀스의 예들을 나타낸다.
도 13을 참조하면, 기존의 빔 훈련 방법에서는 훈련 시퀀스가 균등 기회(equal opportunity) 방식으로 결정되며, 표 내의 하나의 행(row)이 하나의 훈련 시퀀스로 선택될 수 있다. 예를 들어, BEAM#0이 최적 빔인 경우에(즉, BESTBEAM#0), BEAM#0, BEAM#1, BEAM#2, BEAM#3, BEAM#4, BEAM#5 및 BEAM#6의 순서로 훈련 시퀀스가 결정될 수 있다.
도 14를 참조하면, 본 발명의 실시예들에 따른 빔 훈련 방법에서는, EXP3 알고리즘 기반 프레임워크가 사용되는 경우에, 상기 적어도 하나의 이전 훈련 동작 및 상기 현재 훈련 동작을 포함하는 훈련 시퀀스는 상기 현재 빔과 인접한 인접 빔들이 우선적으로 훈련되는 불균등 기회(unequal opportunity) 방식으로 결정되며, 도 13을 참조하여 상술한 것과 유사하게 표 내의 하나의 행이 하나의 훈련 시퀀스로 선택될 수 있다.
구체적으로, 도 14의 표는 착취와 탐험의 두 단계로 나뉘어져 있으며, 모든 빔이 커버될 때까지 반복될 수 있다. 착취 단계에서는 최적 빔 주변의 이웃한 빔들이 우선적으로 훈련되고, 다른 빔들은 각 탐험 단계에서 우선 순위 없이 순차적으로 할당될 수 있다. 예를 들어, BEAM#0이 최적 빔인 경우에(즉, BESTBEAM#0), BEAM#0, BEAM#6, BEAM#1, BEAM#2, BEAM#6, BEAM#1, BEAM#3, BEAM#6, BEAM#1, BEAM#4, BEAM#6, BEAM#1 및 BEAM#5의 순서로 상기 후보 빔의 훈련 시퀀스가 결정되고, 착취 단계에서는 BEAM#0과 인접한 BEAM#6 및 BEAM#1이 선택되며, 탐험 단계에서는 나머지 빔들이 선택될 수 있다.
도 15a, 15b 및 15c를 참조하면, 본 발명의 실시예들에 따른 빔 훈련 방법에서는, EXP3 알고리즘 기반 프레임워크가 사용되는 경우에, 도 14를 참조하여 상술한 것과 유사하게 훈련 시퀀스는 상기 현재 빔과 인접한 인접 빔들이 우선적으로 훈련되는 불균등 기회 방식으로 결정될 수 있다. 또한, 상기 현재 빔이 변화 지점에 해당하는 경우에, 훈련 시퀀스는 탐험이 먼저 수행되고 상기 탐험이 모두 완료된 이후에 착취를 수행하는 적응적(adaptive) 불균등 기회 방식으로 결정될 수 있다. 이하 도 14와 중복되는 설명은 생략한다.
변화 지점 검출(change point detection) 방식은 통계 분포의 갑작스러운 변화를 감지하는 것을 나타내며, 예를 들어 확률 분포의 변화 여부와 변화 시간을 탐지할 수 있다.
일 실시예에서, 상기 현재 빔이 상기 변화 지점에 해당하는 경우에, 상기 현재 빔의 LHS(left hand side) 인접 빔과 RHS(right hand side) 인접 빔에 대한 수신 참조 신호 전력(reference signal received power, RSRP)을 이용하여 훈련 시퀀스가 결정될 수 있다.
구체적으로, LHS 인접 빔의 RSRP가 RHS 인접 빔의 RSRP보다 큰 경우에, 도 15b에 도시된 것처럼 탐험 단계의 훈련 시퀀스가 결정될 수 있다. 다시 말하면, 도 15a의 TRAIL#3, TRAIL#6, TRAIL#9 및 TRAIL#12의 위치에 도 15b의 TRAIL#3, TRAIL#6, TRAIL#9 및 TRAIL#12가 BEAM#A, BEAM#B, BEAM#C 및 BEAM#D로서 삽입될 수 있고, 이에 기초하여 훈련 시퀀스가 결정될 수 있다. 예를 들어, BEAM#0이 최적 빔인 경우에(즉, BESTBEAM#0), BEAM#0, BEAM#6, BEAM#1, BEAM#6, BEAM#6, BEAM#1, BEAM#5, BEAM#6, BEAM#1, BEAM#4, BEAM#6, BEAM#1 및 BEAM#3의 순서로 상기 후보 빔의 훈련 시퀀스가 결정될 수 있다.
또한, LHS 인접 빔의 RSRP가 RHS 인접 빔의 RSRP보다 작거나 같은 경우에, 도 15c에 도시된 것처럼 탐험 단계의 훈련 시퀀스가 결정될 수 있다. 다시 말하면, 도 15a의 TRAIL#3, TRAIL#6, TRAIL#9 및 TRAIL#12의 위치에 도 15c의 TRAIL#3, TRAIL#6, TRAIL#9 및 TRAIL#12가 BEAM#A, BEAM#B, BEAM#C 및 BEAM#D로서 삽입될 수 있고, 이에 기초하여 훈련 시퀀스가 결정될 수 있다. 예를 들어, BEAM#0이 최적 빔인 경우에(즉, BESTBEAM#0), BEAM#0, BEAM#6, BEAM#1, BEAM#1, BEAM#6, BEAM#1, BEAM#2, BEAM#6, BEAM#1, BEAM#3, BEAM#6, BEAM#1 및 BEAM#4의 순서로 상기 후보 빔의 훈련 시퀀스가 결정될 수 있다.
도 15a, 15b 및 15c에 도시된 적응적 불균등 기회 방식 기반의 훈련 시퀀스 결정 프레임워크는 하기의 [표 2]와 같이 나타낼 수 있다.
[표 2]
Figure pat00021
일 실시예에서, 상기 현재 빔 및 상기 이전 빔의 수신 참조 신호 전력을 이용하여 상기 현재 빔이 상기 변화 지점에 해당하는지 판단할 수 있다. 예를 들어, 상기 현재 빔의 RSRP와 상기 이전 빔의 RSRP를 비교하여 상기 현재 빔에서 미리 정해진 제1 수치(예를 들어, 약 5dB)보다 많은 손실이 발생한 경우에, 상기 현재 빔이 상기 변화 지점에 해당하는 것으로 판단할 수 있다.
다른 실시예에서, 상기 현재 빔 및 상기 이전 빔의 수신 참조 신호 전력을 이용하고 상기 현재 빔과 인접한 인접 빔들의 수신 참조 신호 전력을 추가적으로 이용하여 상기 현재 빔이 상기 변화 지점에 해당하는지 판단할 수 있다. 예를 들어, 상술한 것처럼 상기 현재 빔에서 상기 제1 수치보다 큰 손실이 발생한 경우, 및 상기 현재 빔의 RSRP와 LHS/RHS 인접 빔들의 RSRP들을 비교하여 상기 현재 빔에서 제2 수치(예를 들어, 약 3dB)보다 많은 손실이 발생한 경우에, 상기 현재 빔이 상기 변화 지점에 해당하는 것으로 판단할 수 있다. 예를 들어, 상기 제2 수치는 상기 제1 수치보다 낮을 수 있다.
상기 현재 빔이 상기 변화 지점에 해당하는 것으로 판단된 경우에, 즉 이벤트가 검출된 경우에, 탐험이 먼저 수행되며, 모든 탐험이 수행된 이후 착취가 수행될 수 있다.
상술한 변화 지점 검출 방식의 프레임워크는 하기의 [표 3]과 같이 나타낼 수 있다.
[표 3]
Figure pat00022
도 16은 도 1의 빔 훈련 방법의 구체적인 다른 예를 나타내는 순서도이다. 이하 도 6과 중복되는 설명은 생략한다.
도 16을 참조하면, 본 발명의 실시예들에 따른 빔 훈련 방법에서, 상향 신뢰 바운드 알고리즘 기반의 통계적 밴딧 모델을 이용하여 상기 후보 빔을 선택하는 행동 정책이 결정될 수 있다.
예를 들어, 상기 가치 함수에 대응하는 상향 신뢰 바운드 인덱스 및 그에 대한 초기 값을 정의할 수 있고(단계 S150), 상기 상향 신뢰 바운드 인덱스에 기초하여 상기 후보 빔을 선택할 수 있고(단계 S250), 상기 후보 빔 및 상기 이전 빔에 기초하여 상기 현재 훈련 동작을 수행할 수 있고(단계 S300), 상기 현재 훈련 동작의 결과에 기초하여 상기 현재 빔을 선택할 수 있으며(단계 S400), 상기 현재 훈련 동작의 결과에 기초하여 상기 상향 신뢰 바운드 인덱스에 대한 경험적 평균을 업데이트할 수 있다(단계 S160). 예를 들어, 상기 상향 신뢰 바운드 인덱스의 초기 값은 0으로 설정될 수 있다. 단계 S150 및 S160은 도 1의 단계 S100에 대응하고, 단계 S250은 도 1의 단계 S200에 대응하며, 단계 S300 및 S400은 각각 도 1의 단계 S300 및 S400과 실질적으로 동일할 수 있다.
통계적 밴딧 모델은 취할 수 있는 행동을 분포(distribution)의 집합으로 나타낸다. 에이전트와 환경은 정해진 수의 라운드 동안 순차적으로 상호 작용한다. 각각의 t라운드 동안, 사용자는 취할 행동 At를 선택하고, 환경은 분포 Pt로부터 보상 Xt를 생성하며, 학습자에게 보상값 Xt를 피드백한다. 사용자와 환경 사이의 상호 작용은 일련의 결과값에 대한 확률적 측정을 내포한다. 다시 말하면, 통계적 밴딧 모델에서 일련의 결과값은 다음과 같은 가정을 만족시킨다. 1) A1, X1, A2, X2, ..., A(t-1), X(t-1)가 주어졌을 때, 보상 Xt에 대한 조건부 분포는 Pt와 같이 주어지며, t번째 라운드에서 환경이 분포 Pt로부터 생성된다. 2) A1, X1, A2, X2, ..., A(t-1), X(t-1)가 주어졌을 때, 행동 At에 대한 조건부 정책은
Figure pat00023
와 같이 주어진다. 사용자는 현재 결정에서 미래의 관측 정보를 사용할 수 없다.
통계적 밴딧 모델에서, 최종적으로 총 보상의 합인
Figure pat00024
를 극대화하는 것을 목표로 한다.
본 명세서에서, 상향 신뢰 바운드 알고리즘은 현재까지 관측된 데이터를 기반으로 각각의 빔에 대한 우선 순위를 부여한다. 상향 신뢰 바운드가 알고리즘에서 의미하는 바는, 알려지지 않은 보상의 평균값을 높은 확률로 과대 평가하는 것을 나타낸다. 보상 값
Figure pat00025
를 평균이 μ이고
Figure pat00026
인 일련의 독립 sub-Gaussian 랜덤 변수라고 가정하면, 체비쇼프의 부등식에 의하여 하기의 [수학식 9]를 획득할 수 있다.
[수학식 9]
Figure pat00027
학습 단계에서 k번째 팔(즉, k번째 빔)에 대하여 Tk개의 샘플을 관측하며 경험적 평균이
Figure pat00028
인 보상 값을 획득할 수 있다. δ는 신뢰도를 나타내며 확실성의 정도를 의미한다.
상향 신뢰 바운드 알고리즘에서는 탐험과 착취 사이의 상태를 상향 신뢰 인덱스로 수치화한다. 상향 신뢰 인덱스는 1) 지금까지 얻어진 보상 값의 경험적 평균과 2) 사용자의 지식 혹은 신뢰 수준에 대한 불확실성, 두 가지 항의 합으로 나타낼 수 있다. 시간 t에서 k번째 빔의 상향 신뢰 바운드 인덱스는 하기의 [수학식 10]과 같이 나타낼 수 있다.
[수학식 10]
Figure pat00029
상기의 [수학식 10]에서, UCBk(t)는 상기 복수의 빔들 중 k번째 빔에 대한 상향 신뢰 바운드 인덱스, k는 1 이상 K 이하의 정수이며 K는 상기 복수의 빔들의 개수,
Figure pat00030
은 (t-1)라운드까지의 상기 k번째 빔에 대한 보상 값의 경험적 평균(empirical mean), Tk(t-1)은 상기 (t-1)라운드까지의 상기 k번째 빔이 선택된 횟수를 나타낸다.
상기의 [수학식 10]에서, 첫번째 항은 사용자의 지식을 나타내며, 두번째 항은 (t-1)라운드까지 k번째 빔이 선택된 횟수의 역수에 제곱근을 취한 형태로, 탐험의 결과를 나타낸다. δ는 탐험이 의미하는 항이 갖는 비율을 조절한다. 시간이 무한대로 갈수록, 탐험이 의미하는 항은 0에 가까워지고 상향 신뢰 바운드 인덱스는 경험적 평균에 근접해간다. 결과적으로, 기대 보상 값에 수렴하게 된다.
또한, 상기 경험적 평균은 하기의 [수학식 11]에 기초하여 획득 및/또는 업데이트될 수 있다.
[수학식 11]
Figure pat00031
상기의 [수학식 11]에서,
Figure pat00032
은 (t+1)라운드까지의 상기 복수의 빔들 중 k번째 빔에 대한 경험적 평균, k는 1 이상 K 이하의 정수이며 K는 상기 복수의 빔들의 개수, Tk(t+1)은 (t+1)라운드까지의 상기 k번째 빔이 선택된 횟수, Xk(t)는 상기 k번째 빔에 대한 보상 값을 나타낸다.
다시 말하면, 단계 S150에서 상기 상향 신뢰 바운드 인덱스는 상기의 [수학식 10]에 의해 정의되고, 단계 S250에서 상기 상향 신뢰 바운드 인덱스를 최대가 되도록 하는 상기 후보 빔을 선택하며, 단계 S160에서 상기의 [수학식 11]에 기초하여 상기 경험적 평균이 업데이트될 수 있다.
도 16을 참조하여 상술한 상향 신뢰 바운드 알고리즘 기반의 통계적 밴딧 모델을 이용한 빔 훈련 프레임워크는 하기의 [표 4]와 같이 나타낼 수 있다.
[표 4]
Figure pat00033
도 17 및 18은 본 발명의 실시예들에 따른 무선 통신 장치에 포함되는 빔 컨트롤러의 예를 나타내는 블록도들이다.
도 17을 참조하면, 빔 컨트롤러(184a)는 논리 합성에 의해서 설계되는 로직 하드웨어로 구성된 구성요소들로서, 프리코딩 컨트롤러(192), 채널 추정기(194), 빔 계산기(196) 및 빔 선택기(198)를 포함할 수 있다.
프리코딩 컨트롤러(192)는 프리코더(140)를 제어하기 위한 제어 신호(CTRL)를 생성할 수 있다. 일 실시예에서, 데이터 프로세서(182)가 디지털 프리코더를 포함하는 경우, 프리코딩 컨트롤러(192)는 디지털 프리코더를 제어할 수도 있다. 채널 추정기(194)는 빔 훈련 구간에서 채널을 추정할 수 있다. 빔 계산기(196)는 본 발명의 실시예들에 따라 상기 확률 분포 및 상기 가치 함수 중 적어도 하나를 획득하는 동작, 현재 훈련 동작 등을 수행할 수 있다. 빔 선택기(198)는 본 발명의 실시예들에 따라 상기 후보 빔을 선택하는 동작, 상기 현재 빔을 선택하는 동작 등을 수행할 수 있다.
도 18을 참조하면, 빔 컨트롤러(184b)는 프로세서(186) 및 메모리(188)를 포함할 수 있다.
프로세서(186)는 적어도 하나의 코어를 포함할 수 있고, 메모리(188)는 프로세서(186)에 의해서 실행되는 일련의 명령어들 또는 프로그램을 포함할 수 있다. 예를 들어, 메모리(188)는 휘발성 메모리 및 비휘발성 메모리 중 적어도 하나를 포함할 수 있다. 메모리(188)는 프로세서(186)에 의해서 실행되는 소프트웨어 모듈들로서, 프리코딩 컨트롤러(193), 채널 추정기(195), 빔 계산기(197) 및 빔 선택기(199)를 포함할 수 있다. 프로세서(186)는 프리코딩 컨트롤러(193), 채널 추정기(195), 빔 계산기(197) 및 빔 선택기(199)를 실행함으로써, 도 17의 프리코딩 컨트롤러(192), 채널 추정기(194), 빔 계산기(196) 및 빔 선택기(198)에 대응하는 동작들을 각각 수행할 수 있다.
일 실시예에서, 빔 컨트롤러(184)는 로직 하드웨어 및 소프트웨어 모듈이 조합되어 구성될 수 있다. 예를 들어, 빔 컨트롤러(184)는 로직 하드웨어로 구현된 프리코딩 컨트롤러를 포함할 수 있는 한편, 소프트웨어 모듈들로서 채널 추정기, 빔 계산기 및 빔 선택기를 포함하는 메모리 및 프로세서를 포함할 수 있다.
도 19는 본 발명의 실시예들에 따른 네트워크 환경 내의 전자 디바이스를 나타내는 블록도이다.
도 19를 참조하면, 네트워크 환경(300)에서 전자 디바이스(301)는 제1 네트워크(398)(예: 근거리 무선 통신)를 통하여 전자 디바이스(302)와 통신하거나, 또는 제2 네트워크(399)(예: 원거리 무선 통신)를 통하여 전자 디바이스(304) 또는 서버(308)와 통신할 수 있다. 일 실시예에서, 전자 디바이스(301)는 서버(308)를 통하여 전자 디바이스(304)와 통신할 수 있다. 일 실시예에서, 전자 디바이스(301)는 프로세서(320), 메모리(330), 입력 디바이스(350), 음향 출력 디바이스(355), 디스플레이 디바이스(360), 오디오 모듈(370), 센서 모듈(376), 인터페이스(377), 햅틱 모듈(379), 카메라 모듈(380), 전력 관리 모듈(388), 배터리(389), 통신 모듈(390), 가입자 식별 모듈(396), 및 안테나 모듈(397)을 포함할 수 있다.
프로세서(320)는, 예를 들면, 소프트웨어(예: 프로그램(340))를 구동하여 프로세서(320)에 연결된 전자 디바이스(301)의 적어도 하나의 다른 구성 요소(예: 하드웨어 또는 소프트웨어 구성 요소)를 제어할 수 있고, 다양한 데이터 처리 및 연산을 수행할 수 있다. 일 실시예에서, 프로세서(320)는 메인 프로세서(321) 및 보조 프로세서(323)를 포함할 수 있다.
메모리(330)는, 전자 디바이스(301)의 적어도 하나의 구성 요소(예: 프로세서(320) 또는 센서 모듈(376))에 의해 사용되는 다양한 데이터, 예를 들어, 소프트웨어(예: 프로그램(340)) 및, 이와 관련된 명령에 대한 입력 데이터 또는 출력 데이터를 저장할 수 있다. 메모리(330)는, 휘발성 메모리(332) 또는 비휘발성 메모리(334)를 포함할 수 있다.
프로그램(340)은 메모리(330)에 저장되는 소프트웨어로서, 예를 들면, 운영 체제(OS, operating system)(342), 미들 웨어(middleware)(344) 또는 어플리케이션(346)을 포함할 수 있다.
입력 디바이스(350)는, 전자 디바이스(301)의 구성 요소(예: 프로세서(320))에 사용될 명령 또는 데이터를 전자 디바이스(301)의 외부(예: 사용자)로부터 수신할 수 있다. 음향 출력 디바이스(355)는 음향 신호를 전자 디바이스(301)의 외부로 출력할 수 있다. 디스플레이 디바이스(360)는 전자 디바이스(301)의 사용자에게 정보를 시각적으로 제공할 수 있다.
오디오 모듈(370)은 소리와 전기 신호를 쌍방향으로 변환시킬 수 있다. 센서 모듈(376)은 전자 디바이스(301)의 내부의 작동 상태(예: 전력 또는 온도), 또는 외부의 환경 상태에 대응하는 전기 신호 또는 데이터 값을 생성할 수 있다. 인터페이스(377)는 외부 전자 디바이스(예: 전자 디바이스(302))와 유선 또는 무선으로 연결할 수 있는 지정된 프로토콜(protocol)을 지원할 수 있다.
연결 단자(connection terminal)(378)는 전자 디바이스(301)와 외부 전자 디바이스(예: 전자 디바이스(302))를 물리적으로 연결시킬 수 있는 커넥터를 포함할 수 있다. 햅틱 모듈(haptic module)(379)은 전기적 신호를 사용자가 촉각 또는 운동 감각을 통해서 인지할 수 있는 기계적인 자극(예: 진동 또는 움직임) 또는 전기적인 자극으로 변환할 수 있다. 카메라 모듈(380)은 정지 영상 및 동영상을 촬영할 수 있다.
전력 관리 모듈(388)은 전자 디바이스(301)에 공급되는 전력을 관리하기 위한 모듈로서, 예를 들면, PMIC(power management integrated circuit)의 적어도 일부로서 구성될 수 있다. 배터리(389)는 전자 디바이스(301)의 적어도 하나의 구성 요소에 전력을 공급하기 위한 장치일 수 있다.
통신 모듈(390)은 전자 디바이스(301)와 외부 전자 디바이스(예: 전자 디바이스(302), 전자 디바이스(304), 또는 서버(308)) 간의 유선 또는 무선 통신 채널의 수립, 및 수립된 통신 채널을 통한 통신 수행을 지원할 수 있다. 일 실시예에서, 통신 모듈(390)은 무선 통신 모듈(392) 또는 유선 통신 모듈(394)을 포함할 수 있다.
일 실시예에서, 통신 모듈(390)에 포함되는 무선 통신 모듈(392)은 본 발명의 실시예들에 따른 무선 통신 장치의 적어도 일부를 포함하며, 본 발명의 실시예들에 따른 빔 훈련 방법을 수행하도록 구현될 수 있다. 예를 들어, 전자 디바이스(301)에 포함되는 무선 통신 모듈(392) 및 전자 디바이스(304)에 포함되는 무선 통신 모듈(미도시)은 각각 본 발명의 실시예들에 따른 사용자 기기(예를 들어, 도 2의 100)의 일부 구성요소(예를 들어, 프리코더(140), 송수신기(160) 및 신호 프로세서(180))를 포함하고, 전자 디바이스들(301, 304) 사이에 형성되는 제2 네트워크(399)는 채널에 대응할 수 있다. 전자 디바이스(301)와 전자 디바이스(304)는 빔포밍에 의해서 무선 통신할 수 있고, 이 때 본 발명의 실시예들에 따른 강화 학습 기반의 빔 훈련 동작을 수행할 수 있다.
안테나 모듈(397)은 전자 디바이스(301)의 외부(예: 외부 전자 디바이스)로부터 신호 또는 전력을 수신하거나, 외부(예: 외부 전자 디바이스)로 신호 또는 전력을 전송할 수 있다. 예를 들어, 안테나 모듈(397)은 본 발명의 실시예들에 따른 사용자 기기(예를 들어, 도 2의 100)의 일부 구성요소(예를 들어, 복수의 안테나들(120))를 포함할 수 있다.
본 발명의 실시예들은 빔포밍 및 빔 훈련을 수행하는 다양한 통신 장치 및 시스템과 이를 포함하는 임의의 전자 장치 및 시스템에 유용하게 이용될 수 있다. 예를 들어, 본 발명의 실시예들은 PC(Personal Computer), 노트북(laptop), 핸드폰(cellular), 스마트 폰(smart phone), MP3 플레이어, PDA(Personal Digital Assistant), PMP(Portable Multimedia Player), 디지털 TV, 디지털 카메라, 포터블 게임 콘솔(portable game console), 네비게이션(navigation) 기기, 웨어러블(wearable) 기기, IoT(Internet of Things) 기기, IoE(Internet of Everything) 기기, e-북(e-book), VR(Virtual Reality) 기기, AR(Augmented Reality) 기기, 드론(drone) 등과 같은 전자 시스템에 더욱 유용하게 적용될 수 있다.
상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술분야의 숙련된 당업자는 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 것이다.

Claims (10)

  1. 빔포밍(beamforming) 수행 시에 이용되는 복수의 빔(beam)들 중 하나를 선택하기 위한 확률 분포(probability distribution) 및 가치 함수(value function) 중 적어도 하나를 획득하는 단계;
    상기 확률 분포 및 상기 가치 함수 중 적어도 하나에 기초하여, 상기 복수의 빔들 중 가장 유망할 것으로 예상되는 후보 빔을 선택하는 단계;
    상기 후보 빔 및 적어도 하나의 이전 훈련 동작에 의해 선택된 이전 빔에 기초하여, 현재 훈련 동작을 수행하는 단계; 및
    상기 현재 훈련 동작의 결과에 기초하여, 최적 빔에 대응하도록 현재 빔을 선택하는 단계를 포함하는 빔 훈련 방법.
  2. 제 1 항에 있어서,
    상기 적어도 하나의 이전 훈련 동작과 관련하여 상기 후보 빔을 선택했던 행동(action) 및 상기 적어도 하나의 이전 훈련 동작의 결과에 대응하는 보상 값(reward)에 기초하여, 상기 현재 훈련 동작과 관련하여 상기 후보 빔을 선택하는 행동 정책(policy)이 결정되는 것을 특징으로 하는 빔 훈련 방법.
  3. 제 1 항에 있어서,
    EXP3(Exponential-weight algorithm for Exploration and Exploitation) 기반의 적대적 밴딧 모델(adversarial bandit model)을 이용하여 상기 후보 빔을 선택하는 행동 정책이 결정되며,
    상기 확률 분포에 기초하여 상기 후보 빔을 선택하고,
    상기 확률 분포는 하기의 [수학식 1]에 의해 정의되는 것을 특징으로 하는 빔 훈련 방법.
    [수학식 1]
    Figure pat00034

    상기의 [수학식 1]에서, pk(t)는 상기 복수의 빔들 중 k번째 빔에 대한 확률 분포, k는 1 이상 K 이하의 정수이며 K는 상기 복수의 빔들의 개수,
    Figure pat00035
    는 t라운드까지의 상기 k번째 빔에 대한 누적 보상 값의 추정치, γ는 탐험(exploration)과 착취(exploitation) 사이의 비율을 조절하는 파라미터, ρ>0는 학습률을 나타냄.
  4. 제 3 항에 있어서,
    상기 확률 분포를 업데이트하는 단계를 더 포함하는 것을 특징으로 하는 빔 훈련 방법.
  5. 제 4 항에 있어서, 상기 확률 분포를 업데이트하는 단계는,
    상기 현재 빔에 대한 제1 보상 값을 업데이트하는 단계;
    상기 현재 빔과 인접한 인접 빔들에 대한 제2 보상 값들을 업데이트하는 단계; 및
    업데이트된 상기 제1 보상 값 및 상기 제2 보상 값들에 기초하여 누적 보상 값을 업데이트하는 단계를 포함하며,
    상기 제1 보상 값은 하기의 [수학식 2]에 기초하여 획득되고, 상기 제2 보상 값들은 하기의 [수학식 3]에 기초하여 획득되는 것을 특징으로 하는 빔 훈련 방법.
    [수학식 2]
    Figure pat00036

    [수학식 3]
    Figure pat00037

    상기의 [수학식 2]에서,
    Figure pat00038
    는 상기 제1 보상 값, pk(t)는 상기 현재 빔에 대한 확률 분포, k는 1 이상 K 이하의 정수이며 K는 상기 복수의 빔들의 개수, α>0 및 β>0는 각각 학습률, SINRk는 신호 대 간섭 및 잡음비(signal to interference plus noise ratio), τ는 성능 기준을 나타내고, 상기의 [수학식 3]에서,
    Figure pat00039
    Figure pat00040
    는 상기 제2 보상 값들, w1 및 w2는 각각 상기 제2 보상 값들을 업데이트하기 위한 가중치를 나타냄.
  6. 제 3 항에 있어서,
    상기 적어도 하나의 이전 훈련 동작 및 상기 현재 훈련 동작을 포함하는 훈련 시퀀스(sequence)는 상기 현재 빔과 인접한 인접 빔들이 우선적으로 훈련되는 불균등 기회(unequal opportunity) 방식으로 결정되는 것을 특징으로 하는 빔 훈련 방법.
  7. 제 6 항에 있어서,
    상기 현재 빔이 변화 지점에 해당하는 경우에, 상기 훈련 시퀀스는 탐험이 먼저 수행되고 상기 탐험이 모두 완료된 이후에 착취를 수행하는 적응적(adaptive) 불균등 기회 방식으로 결정되는 것을 특징으로 하는 빔 훈련 방법.
  8. 제 1 항에 있어서,
    상향 신뢰 바운드(upper confidence bound, UCB) 알고리즘 기반의 통계적 밴딧 모델(statistical bandit model)을 이용하여 상기 후보 빔을 선택하는 행동 정책이 결정되며,
    상기 가치 함수에 대응하는 상향 신뢰 바운드 인덱스에 기초하여 상기 후보 빔을 선택하고,
    상기 상향 신뢰 바운드 인덱스는 하기의 [수학식 4]에 의해 정의되는 것을 특징으로 하는 빔 훈련 방법.
    [수학식 4]
    Figure pat00041

    상기의 [수학식 4]에서, UCBk(t)는 상기 복수의 빔들 중 k번째 빔에 대한 상향 신뢰 바운드 인덱스, k는 1 이상 K 이하의 정수이며 K는 상기 복수의 빔들의 개수,
    Figure pat00042
    은 (t-1)라운드까지의 상기 k번째 빔에 대한 보상 값의 경험적 평균(empirical mean), Tk(t-1)은 상기 (t-1)라운드까지의 상기 k번째 빔이 선택된 횟수를 나타냄.
  9. 제 8 항에 있어서,
    상기 상향 신뢰 바운드 인덱스에 대한 경험적 평균을 업데이트하는 단계를 더 포함하고,
    상기 경험적 평균은 하기의 [수학식 5]에 기초하여 획득되는 것을 특징으로 하는 빔 훈련 방법.
    [수학식 5]
    Figure pat00043

    상기의 [수학식 5]에서,
    Figure pat00044
    은 (t+1)라운드까지의 상기 복수의 빔들 중 k번째 빔에 대한 경험적 평균, k는 1 이상 K 이하의 정수이며 K는 상기 복수의 빔들의 개수, Tk(t+1)은 (t+1)라운드까지의 상기 k번째 빔이 선택된 횟수, Xk(t)는 상기 k번째 빔에 대한 보상 값을 나타냄.
  10. 복수의 안테나 어레이들;
    상기 복수의 안테나 어레이들과 연결되는 복수의 RF(radio frequency) 체인들; 및
    상기 복수의 안테나 어레이들로부터 수신된 신호들을 처리하는 신호 프로세서를 포함하고,
    상기 신호 프로세서는,
    빔포밍(beamforming) 수행 시에 이용되는 복수의 빔(beam)들 중 하나를 선택하기 위한 확률 분포(probability distribution) 및 가치 함수(value function) 중 적어도 하나를 획득하고, 상기 확률 분포 및 상기 가치 함수 중 적어도 하나에 기초하여 상기 복수의 빔들 중 가장 유망할 것으로 예상되는 후보 빔을 선택하고, 상기 후보 빔 및 적어도 하나의 이전 훈련 동작에 의해 선택된 이전 빔에 기초하여 현재 훈련 동작을 수행하며 상기 현재 훈련 동작의 결과에 기초하여 최적 빔에 대응하도록 현재 빔을 선택하도록, 빔 훈련을 수행하는 무선 통신 장치.
KR1020210056571A 2021-04-30 2021-04-30 강화 학습 기반의 빔 훈련 방법 및 이를 수행하는 무선 통신 장치 KR20220149228A (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020210056571A KR20220149228A (ko) 2021-04-30 2021-04-30 강화 학습 기반의 빔 훈련 방법 및 이를 수행하는 무선 통신 장치
US17/539,759 US11546033B2 (en) 2021-04-30 2021-12-01 Method of performing beam training based on reinforcement learning and wireless communication device performing the same
CN202210278012.5A CN115276741A (zh) 2021-04-30 2022-03-21 基于强化学习执行波束训练的方法和执行该方法的无线通信设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210056571A KR20220149228A (ko) 2021-04-30 2021-04-30 강화 학습 기반의 빔 훈련 방법 및 이를 수행하는 무선 통신 장치

Publications (1)

Publication Number Publication Date
KR20220149228A true KR20220149228A (ko) 2022-11-08

Family

ID=83758527

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210056571A KR20220149228A (ko) 2021-04-30 2021-04-30 강화 학습 기반의 빔 훈련 방법 및 이를 수행하는 무선 통신 장치

Country Status (3)

Country Link
US (1) US11546033B2 (ko)
KR (1) KR20220149228A (ko)
CN (1) CN115276741A (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230091614A1 (en) * 2021-09-22 2023-03-23 Qualcomm Incorporated Beam-specific key performance indicator indication for serving node selection
CN115865155B (zh) * 2023-02-20 2023-05-23 南京邮电大学 一种多散射簇信道下基于mab的两阶段预编码方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8280445B2 (en) 2008-02-13 2012-10-02 Samsung Electronics Co., Ltd. System and method for antenna training of beamforming vectors by selective use of beam level training
EP2342837B1 (en) 2008-11-04 2016-04-13 Nokia Technologies Oy Asymmetric beam steering protocol
KR102321994B1 (ko) 2015-04-01 2021-11-04 삼성전자주식회사 무선 통신 시스템에서 무선 링크를 관리하기 위한 장치 및 방법
EP3427404B1 (en) 2016-03-10 2022-08-24 Interdigital Patent Holdings, Inc. Systems and methods for beamforming training in wireless local area networks
KR102158151B1 (ko) 2016-03-11 2020-09-23 소니 주식회사 빔형성 디바이스 및 방법, 통신 디바이스 및 통신 시스템
CN108574954A (zh) 2017-03-08 2018-09-25 索尼公司 无线通信系统中的电子设备和方法
CN108631842B (zh) 2017-03-17 2021-06-04 电信科学技术研究院 一种确定设备波束互易性的方法、装置和电子设备
WO2019050380A1 (ko) 2017-09-11 2019-03-14 엘지전자 주식회사 무선 통신 시스템에서 빔 복구를 수행하는 방법 및 이를 위한 장치
US20190147355A1 (en) 2017-11-14 2019-05-16 International Business Machines Corporation Self-critical sequence training of multimodal systems
US10505616B1 (en) * 2018-06-01 2019-12-10 Samsung Electronics Co., Ltd. Method and apparatus for machine learning based wide beam optimization in cellular network
KR102067114B1 (ko) 2018-08-22 2020-01-16 한양대학교 산학협력단 밀리미터 통신을 위한 딥러닝 기반 빔추적 및 예측 방법 그리고 시스템
KR102553888B1 (ko) 2018-09-13 2023-07-11 삼성전자주식회사 빔을 제어하는 방법 및 그 전자 장치
US20210336687A1 (en) * 2020-04-24 2021-10-28 Qualcomm Incorporated Modification of ssb burst pattern

Also Published As

Publication number Publication date
CN115276741A (zh) 2022-11-01
US11546033B2 (en) 2023-01-03
US20220368393A1 (en) 2022-11-17

Similar Documents

Publication Publication Date Title
JP6980048B2 (ja) レスポンダ及び通信方法
US20230262506A1 (en) Beam reporting method, beam information determining method, and related device
Aykin et al. MAMBA: A multi-armed bandit framework for beam tracking in millimeter-wave systems
US9155097B2 (en) Methods and arrangements for beam refinement in a wireless network
US9391361B2 (en) Arrangements for beam refinement in a wireless network
CN114363921A (zh) Ai网络参数的配置方法和设备
US11546033B2 (en) Method of performing beam training based on reinforcement learning and wireless communication device performing the same
Mollel et al. Intelligent handover decision scheme using double deep reinforcement learning
Shen et al. Design and implementation for deep learning based adjustable beamforming training for millimeter wave communication systems
Mazgula et al. Ultra reliable low latency communications in mmWave for factory floor automation
Chafaa et al. One-bit feedback exponential learning for beam alignment in mobile mmWave
CN113169777A (zh) 波束对准
CN115552973A (zh) 用于网络负载平衡优化的方法和装置
Attaoui et al. Beam alignment game for self-organized mmWave-empowered 5G initial access
Ebrahiem et al. A deep learning approach for channel estimation in 5G wireless communications
Krunz et al. Online Reinforcement Learning for Beam Tracking and Rate Adaptation in Millimeter-wave Systems
Fonseca et al. Adaptive height optimisation for cellular-connected UAVs using reinforcement learning
CN116017493A (zh) 模型请求方法、模型请求处理方法及相关设备
Deng et al. Interference constrained beam alignment for time-varying channels via kernelized bandits
Chafaa et al. Exploiting channel sparsity for beam alignment in mmWave systems via exponential learning
US11742928B2 (en) Terminal performing beam sweeping operation and method of operation thereof
Xie et al. Position-aided fast beam training in mm-wave multiuser MIMO systems
Mohamed Millimeter wave beamforming training: A reinforcement learning approach
WO2024046206A1 (zh) 接收方法、设备及可读存储介质
WO2023174325A1 (zh) Ai模型的处理方法及设备

Legal Events

Date Code Title Description
A201 Request for examination