KR20220094581A - 무선 통신 방법 및 그 장치 - Google Patents

무선 통신 방법 및 그 장치 Download PDF

Info

Publication number
KR20220094581A
KR20220094581A KR1020200185930A KR20200185930A KR20220094581A KR 20220094581 A KR20220094581 A KR 20220094581A KR 1020200185930 A KR1020200185930 A KR 1020200185930A KR 20200185930 A KR20200185930 A KR 20200185930A KR 20220094581 A KR20220094581 A KR 20220094581A
Authority
KR
South Korea
Prior art keywords
information
learning
state
received signal
calculating
Prior art date
Application number
KR1020200185930A
Other languages
English (en)
Inventor
김선우
박현우
강정완
Original Assignee
한양대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한양대학교 산학협력단 filed Critical 한양대학교 산학협력단
Priority to KR1020200185930A priority Critical patent/KR20220094581A/ko
Publication of KR20220094581A publication Critical patent/KR20220094581A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/06Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station
    • H04B7/0613Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission
    • H04B7/0615Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal
    • H04B7/0617Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal for beam forming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/309Measuring or estimating channel quality parameters
    • H04B17/318Received signal strength
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/06Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station
    • H04B7/0613Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission
    • H04B7/0615Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal
    • H04B7/0619Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal using feedback from receiving side
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/06Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station
    • H04B7/0613Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission
    • H04B7/0615Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal
    • H04B7/0619Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal using feedback from receiving side
    • H04B7/0621Feedback content
    • H04B7/0626Channel coefficients, e.g. channel state information [CSI]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • Electromagnetism (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

본 개시는 무선 통신 방법 및 그 장치에 관한 것으로, 적어도 하나 이상의 단말로부터 수신되는 수신 신호에 기초하여 상태 정보를 산출하고, 상태 정보에 기초하여 단말의 방향에 관한 방향 추정 정보를 산출하며, 상태 정보 및 방향 추정 정보 중 적어도 하나에 기초하여 학습 보상 정보를 산출하는 학습을 수행하는 학습부와, 방향 추정 정보에 기초하여 단말에 대한 통신 빔을 형성하도록 제어하는 제어부를 포함한다.

Description

무선 통신 방법 및 그 장치{A METHOD FOR WIRELESS COMMUNICATION AND APPARATUS THEREOF}
본 개시는 무선 통신 방법 및 그 장치에 관한 것으로, 보다 상세하게는 단말로부터의 수신 신호에 기초하여 빔 추적을 수행하는 무선 통신 방법 및 그 장치에 관한 것이다.
무선 통신 시스템(Wireless Communication System)에서, 다중 안테나를 이용하여 신호를 특정 방향으로 집중시키는 빔 형성(Beamforming) 기술이 이용되고 있다. 이러한 빔 형성 기술은, 안테나 수가 증가할 수록 더 높은 빔 이득을 제공하는 반면, 빔 폭은 좁아지게 되므로, 빔 조합 또는 빔 정렬을 수행함에 있어 오버헤드가 커지게 되는 문제점이 있었다.
특히, 이동하는 단말을 추적하는 경우에는, 단말의 이동성에 대응하면서 통신 링크를 지속적으로 유지해야 하므로, 이를 위하여는 보다 짧은 주기로 빔을 형성할 필요성이 있다.
이에 따라, 다중 안테나를 이용한 빔 형성 기술에 기초하여 이동하는 단말을 실시간으로 추적함에 있어서, 지속적으로 빔 형성을 수행하면서도, 오버헤드 부담을 줄이고 정확성을 향상시킬 수 있는 빔 형성 기술이 요구된다.
본 개시는 이동하는 단말을 실시간으로 추적하여 빔 형성을 수행할 수 있는 무선 통신 방법 및 그 장치를 제안하고자 한다.
또한, 본 개시는 강화 학습을 기반으로 하여 이동하는 단말의 실시간 추적 속도 및 정확성을 향상시킬 수 있는 무선 통신 방법 및 그 장치를 제안하고자 한다.
일 측면에서, 본 실시예들은 무선통신을 수행하는 기지국에 있어서, 적어도 하나 이상의 단말로부터 수신되는 수신 신호에 기초하여 상태 정보를 산출하고, 상태 정보에 기초하여 단말의 방향에 관한 방향 추정 정보를 산출하며, 상태 정보 및 방향 추정 정보 중 적어도 하나에 기초하여 학습 보상 정보를 산출하는 학습을 수행하는 학습부와, 방향 추정 정보에 기초하여 단말에 대한 통신 빔을 형성하도록 제어하는 제어부를 포함하는 기지국을 제공할 수 있다.
다른 측면에서, 본 실시예들은 기지국이 무선 통신을 수행하는 방법에 있어서, 적어도 하나 이상의 단말로부터 수신되는 수신 신호에 기초하여 상태 정보를 산출하고, 상태 정보에 기초하여 단말의 방향에 관한 방향 추정 정보를 산출하며, 상태 정보 및 방향 추정 정보 중 적어도 하나에 기초하여 학습 보상 정보를 산출하는 학습을 수행하는 빔 추적 학습 단계와, 방향 추정 정보에 기초하여 단말에 대한 통신 빔을 형성하도록 제어하는 빔 형성 제어 단계를 포함하는 방법을 제공할 수 있다.
이상에서 설명한 바와 같이, 본 개시는 이동하는 단말을 실시간으로 추적하여 빔 형성을 수행할 수 있는 무선 통신 방법 및 그 장치를 제공할 수 있다.
또한, 본 개시는 강화 학습을 기반으로 하여 이동하는 단말의 실시간 추적 속도 및 정확성을 향상시킬 수 있는 무선 통신 방법 및 그 장치를 제공할 수 있다.
도 1은 본 실시예가 적용될 수 있는 NR 무선 통신 시스템에 대한 구조를 간략하게 도시한 도면이다.
도 2는 본 실시예가 적용될 수 있는 NR 시스템에서의 프레임 구조를 설명하기 위한 도면이다.
도 3은 본 실시예가 적용될 수 있는 무선 접속 기술이 지원하는 자원 그리드를 설명하기 위한 도면이다.
도 4는 본 실시예가 적용될 수 있는 무선 접속 기술이 지원하는 대역폭 파트를 설명하기 위한 도면이다.
도 5는 본 실시예가 적용될 수 있는 무선 접속 기술에서의 동기 신호 블록을 예시적으로 도시한 도면이다.
도 6는 본 실시예가 적용될 수 있는 무선 접속 기술에서의 랜덤 액세스 절차를 설명하기 위한 도면이다.
도 7은 CORESET에 대해서 설명하기 위한 도면이다.
도 8은 본 개시에 따른 무선 통신 시스템에서 통신 빔 형성을 설명하기 위한 도면이다.
도 9는 일 실시예에 따른 강화 학습이 수행되는 구성을 예시적으로 설명하기 위한 도면이다.
도 10은 본 개시에 따른 무선 통신을 수행하는 기지국에 관한 블록도이다.
도 11은 일 실시예에 따른 방향 추정 정보가 산출되는 구성을 예시적으로 설명하기 위한 도면이다.
도 12는 일 실시예에 따른 강화 학습 기반의 통신 빔 추적을 예시적으로 설명하기 위한 도면이다.
도 13은 본 개시에 따른 기지국이 무선 통신을 수행하는 방법을 설명하기 위한 순서도이다.
도 14는 일 실시예에 따른 빔 추적 학습 단계를 설명하기 위한 순서도이다.
이하, 본 개시의 일부 실시예들을 예시적인 도면을 참조하여 상세하게 설명한다. 각 도면의 구성 요소들에 참조부호를 부가함에 있어서, 동일한 구성 요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가질 수 있다. 또한, 본 실시예들을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 기술 사상의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략할 수 있다. 본 명세서 상에서 언급된 "포함한다", "갖는다", "이루어진다" 등이 사용되는 경우 "~만"이 사용되지 않는 이상 다른 부분이 추가될 수 있다. 구성 요소를 단수로 표현한 경우에 특별한 명시적인 기재 사항이 없는 한 복수를 포함하는 경우를 포함할 수 있다.
또한, 본 개시의 구성 요소를 설명하는 데 있어서, 제1, 제2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질, 차례, 순서 또는 개수 등이 한정되지 않는다.
구성 요소들의 위치 관계에 대한 설명에 있어서, 둘 이상의 구성 요소가 "연결", "결합" 또는 "접속" 등이 된다고 기재된 경우, 둘 이상의 구성 요소가 직접적으로 "연결", "결합" 또는 "접속" 될 수 있지만, 둘 이상의 구성 요소와 다른 구성 요소가 더 "개재"되어 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다. 여기서, 다른 구성 요소는 서로 "연결", "결합" 또는 "접속" 되는 둘 이상의 구성 요소 중 하나 이상에 포함될 수도 있다.
구성 요소들이나, 동작 방법이나 제작 방법 등과 관련한 시간적 흐름 관계에 대한 설명에 있어서, 예를 들어, "~후에", "~에 이어서", "~다음에", "~전에" 등으로 시간적 선후 관계 또는 흐름적 선후 관계가 설명되는 경우, "바로" 또는 "직접"이 사용되지 않는 이상 연속적이지 않은 경우도 포함할 수 있다.
한편, 구성 요소에 대한 수치 또는 그 대응 정보(예: 레벨 등)가 언급된 경우, 별도의 명시적 기재가 없더라도, 수치 또는 그 대응 정보는 각종 요인(예: 공정상의 요인, 내부 또는 외부 충격, 노이즈 등)에 의해 발생할 수 있는 오차 범위를 포함하는 것으로 해석될 수 있다.
본 명세서에서의 무선 통신 시스템은 음성, 데이터 패킷 등과 같은 다양한 통신 서비스를 무선자원을 이용하여 제공하기 위한 시스템을 의미하며, 단말과 기지국, 코어 네트워크를 포함할 수 있다.
이하에서 개시하는 본 실시 예들은 다양한 무선 접속 기술을 사용하는 무선 통신 시스템에서 적용될 수 있다. 예를 들어, 본 실시 예들은 CDMA(code division multiple access), FDMA(frequency division multiple access), TDMA(timedivision multiple access), OFDMA(orthogonal frequency division multiple access), SC-FDMA(singlecarrier frequency division multiple access) 등과 같은 다양한 무선 접속 기술에 적용될 수 있다. CDMA는 UTRA(universal terrestrial radio access)나 CDMA2000과 같은 무선 기술로 구현될 수 있다. TDMA는 GSM(global system for mobile communications)/GPRS(general packet radio service)/EDGE(enhanced datarates for GSM evolution)와 같은 무선 기술로 구현될 수 있다. OFDMA는 IEEE(institute of electrical andelectronics engineers) 802.11(Wi-Fi), IEEE 802.16(WiMAX), IEEE 802-20, E-UTRA(evolved UTRA) 등과 같은 무선 기술로 구현될 수 있다. IEEE 802.16m은 IEEE 802.16e의 진화로, IEEE 802.16e에 기반한 시스템과의 하위 호환성(backward compatibility)를 제공한다. UTRA는 UMTS(universal mobile telecommunications system)의 일부이다. 3GPP(3rd generation partnership project) LTE(long term evolution)은 E-UTRA(evolved-UMTSterrestrial radio access)를 사용하는 E-UMTS(evolved UMTS)의 일부로써, 하향링크에서 OFDMA를 채용하고 상향링크에서 SC-FDMA를 채용한다. 이와 같이 본 실시 예들은 현재 개시되거나 상용화된 무선 접속 기술에 적용될 수 있고, 현재 개발 중이거나 향후 개발될 무선 접속 기술에 적용될 수도 있다.
한편, 본 명세서에서의 단말은 무선 통신 시스템에서 기지국과 통신을 수행하는 무선 통신 모듈을 포함하는 장치를 의미하는 포괄적 개념으로서, WCDMA, LTE, HSPA 및 IMT-2020(5G 또는 New Radio) 등에서의 UE(User Equipment)는 물론, GSM에서의 MS(Mobile Station), UT(User Terminal), SS(Subscriber Station), 무선 기기(wireless device) 등을 모두 포함하는 개념으로 해석되어야 할 것이다. 또한, 단말은 사용 형태에 따라 스마트 폰과 같은 사용자 휴대 기기가 될 수도 있고, V2X 통신 시스템에서는 차량, 차량 내의 무선 통신 모듈을 포함하는 장치 등을 의미할 수도 있다. 또한, 기계 형태 통신(Machine Type Communication) 시스템의 경우에 기계 형태 통신이 수행되도록 통신 모듈을 탑재한 MTC 단말, M2M 단말 등을 의미할 수도 있다.
본 명세서의 기지국 또는 셀은 네트워크 측면에서 단말과 통신하는 종단을 지칭하며, 노드-B(Node-B), eNB(evolved Node-B), gNB(gNode-B), LPN(Low Power Node), 섹터(Sector), 싸이트(Site), 다양한 형태의 안테나, BTS(Base Transceiver System), 액세스 포인트(Access Point), 포인트(예를 들어, 송신포인트, 수신포인트, 송수신포인트), 릴레이 노드(Relay Node), 메가 셀, 매크로 셀, 마이크로 셀, 피코 셀, 펨토셀, RRH(Remote Radio Head), RU(Radio Unit), 스몰 셀(small cell) 등 다양한 커버리지 영역을 모두 포괄하는 의미이다. 또한, 셀은 단말에 설정되는 BWP(Bandwidth Part)를 포함하는 의미일 수 있다. 예를 들어, 서빙 셀은 단말의 Activation BWP를 의미할 수 있다.
앞서 나열된 다양한 셀은 각 셀을 제어하는 기지국이 존재하므로 기지국은 두 가지 의미로 해석될 수 있다. 1) 무선 영역과 관련하여 메가 셀, 매크로 셀, 마이크로 셀, 피코 셀, 펨토 셀, 스몰 셀(small cell)을 제공하는 장치 그 자체이거나, 2) 무선 영역 그 자체를 지시할 수 있다. 1)에서 소정의 무선 영역을 제공하는 장치들이 동일한 개체에 의해 제어되거나 무선 영역을 협업으로 구성하도록 상호 작용하는 모든 장치들을 모두 기지국으로 지시한다. 무선 영역의 구성 방식에 따라 포인트, 송수신 포인트, 송신 포인트, 수신 포인트 등은 기지국의 일 실시 예가 된다. 2)에서 사용자 단말의 관점 또는 이웃하는 기지국의 입장에서 신호를 수신하거나 송신하게 되는 무선 영역 그 자체를 기지국으로 지시할 수 있다.
본 명세서에서 셀(Cell)은 송수신 포인트로부터 전송되는 신호의 커버리지 또는 송수신 포인트(transmission point 또는 transmission/reception point)로부터 전송되는 신호의 커버리지를 가지는 요소 반송파(component carrier), 그 송수신 포인트 자체를 의미할 수 있다.
상향링크(Uplink, UL, 또는 업링크)는 단말에 의해 기지국으로 데이터를 송수신하는 방식을 의미하며, 하향링크(Downlink, DL, 또는 다운링크)는 기지국에 의해 단말로 데이터를 송수신하는 방식을 의미한다. 하향링크(downlink)는 다중 송수신 포인트에서 단말로의 통신 또는 통신 경로를 의미할 수 있으며, 상향링크(uplink)는 단말에서 다중 송수신 포인트로의 통신 또는 통신 경로를 의미할 수 있다. 이때, 하향링크에서 송신기는 다중 송수신 포인트의 일부분일 수 있고, 수신기는 단말의 일부분일 수 있다. 또한, 상향링크에서 송신기는 단말의 일부분일 수 있고, 수신기는 다중 송수신 포인트의 일부분일 수 있다.
상향링크와 하향링크는, PDCCH(Physical Downlink Control CHannel), PUCCH(Physical Uplink Control CHannel) 등과 같은 제어 채널을 통하여 제어 정보를 송수신하고, PDSCH(Physical Downlink Shared CHannel), PUSCH(Physical Uplink Shared CHannel) 등과 같은 데이터 채널을 구성하여 데이터를 송수신한다. 이하에서는 PUCCH, PUSCH, PDCCH 및 PDSCH 등과 같은 채널을 통해 신호가 송수신되는 상황을 'PUCCH, PUSCH, PDCCH 및 PDSCH를 전송, 수신한다'는 형태로 표기하기도 한다.
설명을 명확하게 하기 위해, 이하에서는 본 기술 사상을 3GPP LTE/LTE-A/NR(New RAT) 통신 시스템을 위주로 기술하지만 본 기술적 특징이 이에 제한되는 것은 아니다.
3GPP에서는 4G(4th-Generation) 통신 기술에 대한 연구 이후에 ITU-R의 차세대 무선 접속 기술의 요구사항에 맞추기 위한 5G(5th-Generation)통신 기술에 대한 연구를 진행하고 있다. 구체적으로, 3GPP는 5G 통신 기술로 LTE-Advanced 기술을 ITU-R의 요구사항에 맞추어 향상 시킨 LTE-A pro와 4G 통신 기술과는 별개의 새로운 NR 통신 기술에 대한 연구를 진행하고 있다. LTE-A pro와 NR은 모두 5G 통신 기술로 제출될 것으로 보이나, 이하에서는 설명의 편의를 위해서 NR을 중심으로 본 실시예들을 설명한다.
NR에서의 운영 시나리오는 기존 4G LTE의 시나리오에서 위성, 자동차, 그리고 새로운 버티컬 등에 대한 고려를 추가하여 다양한 동작 시나리오를 정의하였으며, 서비스 측면에서 eMBB(Enhanced Mobile Broadband) 시나리오, 높은 단말 밀도를 가지되 넓은 범위에 전개되어 낮은 데이터 레이트(data rate)와 비동기식 접속이 요구되는 mMTC(Massive Machine Communication) 시나리오, 높은 응답성과 신뢰성이 요구되고 고속 이동성을 지원할 수 있는 URLLC(Ultra Reliability and Low Latency) 시나리오를 지원한다.
이러한 시나리오를 만족하기 위해서 NR은 새로운 waveform 및 프레임 구조 기술, 낮은 지연속도(Low latency) 기술, 초고주파 대역(mmWave) 지원 기술, 순방향 호환성(Forward compatible) 제공 기술이 적용된 무선 통신 시스템을 개시한다. 특히, NR 시스템에서는 순방향 호환성을 제공하기 위해서 유연성 측면에서 다양한 기술적 변화를 제시하고 있다. 주요 기술적 특징은 아래에서 도면을 참조하여 설명한다.
도 1은 본 실시예가 적용될 수 있는 NR 시스템에 대한 구조를 간략하게 도시한 도면이다.
도 1을 참조하면, NR 시스템은 5GC(5G Core Network)와 NR-RAN파트로 구분되며, NG-RAN은 사용자 평면(SDAP/PDCP/RLC/MAC/PHY) 및 UE(User Equipment)에 대한 제어 평면(RRC) 프로토콜 종단을 제공하는 gNB와 ng-eNB들로 구성된다.gNB 상호 또는 gNB와 ng-eNB는 Xn 인터페이스를 통해 상호 연결된다. gNB와 ng-eNB는 각각 NG 인터페이스를 통해 5GC로 연결된다. 5GC는 단말 접속 및 이동성 제어 기능 등의 제어 평면을 담당하는 AMF (Access and Mobility Management Function)와 사용자 데이터에 제어 기능을 담당하는 UPF (User Plane Function)를 포함하여 구성될 수 있다. NR에서는 6GHz 이하 주파수 대역(FR1, Frequency Range 1)과 6GHz 이상 주파수 대역(FR2, Frequency Range 2)에 대한 지원을 모두 포함한다.
gNB는 단말로 NR 사용자 평면 및 제어 평면 프로토콜 종단을 제공하는 기지국을 의미하고, ng-eNB는 단말로 E-UTRA 사용자 평면 및 제어 평면 프로토콜 종단을 제공하는 기지국을 의미한다. 본 명세서에서 기재하는 기지국은 gNB및 ng-eNB를 포괄하는 의미로 이해되어야 하며, 필요에 따라 gNB 또는 ng-eNB를 구분하여 지칭하는 의미로 사용될 수도 있다.
NR에서는 하향링크 전송을 위해서 Cyclic prefix를 사용하는 CP-OFDM 웨이브 폼을 사용하고, 상향링크 전송을 위해서 CP-OFDM 또는 DFT-s-OFDM을 사용한다. OFDM 기술은 MIMO(Multiple Input Multiple Output)와 결합이 용이하며, 높은 주파수 효율과 함께 저 복잡도의 수신기를 사용할 수 있다는 장점을 가지고 있다.
한편, NR에서는 전술한 3가지 시나리오 별로 데이터 속도, 지연속도, 커버리지 등에 대한 요구가 서로 상이하기 때문에 임의의 NR 시스템을 구성하는 주파수 대역을 통해 각각의 시나리오 별 요구사항을 효율적으로 만족시킬 필요가 있다. 이를 위해서, 서로 다른 복수의 뉴머롤러지(numerology) 기반의 무선 자원을 효율적으로 멀티플렉싱(multiplexing)하기 위한 기술이 제안되었다.
구체적으로, NR 전송 뉴머롤러지는서브캐리어 간격(sub-carrier spacing)과 CP(Cyclic prefix)에 기초하여 결정되며, 아래 표 1과 같이 15khz를 기준으로 μ 값이 2의 지수 값으로 사용되어 지수적으로 변경된다.
μ 서브캐리어 간격 Cyclic prefix Supported for data Supported for synch
0 15 Normal Yes Yes
1 30 Normal Yes Yes
2 60 Normal, Extended Yes No
3 120 Normal Yes Yes
4 240 Normal No Yes
위 표 1과 같이 NR의 뉴머롤러지는서브캐리어 간격에 따라 5가지로 구분될 수 있다. 이는 4G 통신 기술 중 하나인 LTE의 서브캐리어 간격이 15khz로 고정되는 것과는 차이가 있다. 구체적으로, NR에서 데이터 전송을 위해서 사용되는 서브캐리어 간격은 15, 30, 60, 120khz이고, 동기 신호 전송을 위해서 사용되는 서브캐리어 간격은 15, 30, 12, 240khz이다. 또한, 확장 CP는 60khz 서브캐리어 간격에만 적용된다. 한편, NR에서의 프레임 구조(frame structure)는 1ms의 동일한 길이를 가지는 10의 서브프레임(subframe)으로 구성되는 10ms의 길이를 가지는 프레임(frame)이 정의된다. 하나의 프레임은 5ms의 하프 프레임으로 나뉠 수 있으며, 각 하프 프레임은 5개의 서브프레임을 포함한다. 15khz 서브캐리어 간격의 경우에 하나의 서브프레임은 1개의 슬롯(slot)으로 구성되고, 각 슬롯은 14개의 OFDM 심볼(symbol)로 구성된다.도 2는 본 실시예가 적용될 수 있는 NR 시스템에서의 프레임 구조를 설명하기 위한 도면이다. 도 2를 참조하면, 슬롯은 노멀 CP의 경우에 고정적으로 14개의 OFDM 심볼로 구성되나, 슬롯의 길이는 서브캐리어 간격에 따라 달라질 수 있다. 예를 들어, 15khz 서브캐리어 간격을 가지는 뉴머롤러지의 경우에 슬롯은 1ms 길이로 서브프레임과 동일한 길이로 구성된다. 이와 달리, 30khz 서브캐리어 간격을 가지는 뉴머롤러지의 경우에 슬롯은 14개의 OFDM 심볼로 구성되나, 0.5ms의 길이로 하나의 서브프레임에 두 개의 슬롯이 포함될 수 있다. 즉, 서브프레임과 프레임은 고정된 시간 길이를 가지고 정의되며, 슬롯은 심볼의 개수로 정의되어 서브캐리어 간격에 따라 시간 길이가 달라질 수 있다. 한편, NR은 스케줄링의 기본 단위를 슬롯으로 정의하고, 무선 구간의 전송 지연을 감소시키기 위해서 미니 슬롯(또는 서브 슬롯 또는 non-slot based schedule)도 도입하였다. 넓은 서브캐리어 간격을 사용하면 하나의 슬롯의 길이가 반비례하여 짧아지기 때문에 무선 구간에서의 전송 지연을 줄일 수 있다. 미니 슬롯(또는 서브 슬롯)은 URLLC 시나리오에 대한 효율적인 지원을 위한 것으로 2, 4, 7개 심볼 단위로 스케줄링이 가능하다.
또한, NR은 LTE와 달리 상향링크 및 하향링크 자원 할당을 하나의 슬롯 내에서 심볼 레벨로 정의하였다. HARQ 지연을 줄이기 위해 전송 슬롯 내에서 바로 HARQ ACK/NACK을 송신할 수 있는 슬롯 구조가 정의되었으며, 이러한 슬롯 구조를 자기 포함(self-contained) 구조로 명명하여 설명한다.
NR에서는 총 256개의 슬롯 포맷을 지원할 수 있도록 설계되었으며, 이중 62개의 슬롯 포맷이 Rel-15에서 사용된다. 또한, 다양한 슬롯의 조합을 통해서 FDD 또는 TDD 프레임을 구성하는 공통 프레임 구조를 지원한다. 예를 들어, 슬롯의 심볼이 모두 하향링크로 설정되는 슬롯 구조와 심볼이 모두 상향링크로 설정되는 슬롯 구조 및 하향링크 심볼과 상향링크 심볼이 결합된 슬롯 구조를 지원한다. 또한, NR은 데이터 전송이 하나 이상의 슬롯에 분산되어 스케줄링됨을 지원한다. 따라서, 기지국은 슬롯 포맷 지시자(SFI, Slot Format Indicator)를 이용하여 단말에 슬롯이 하향링크 슬롯인지, 상향링크 슬롯인지 또는 플렉시블 슬롯인지를 알려줄 수 있다. 기지국은 단말 특정하게 RRC 시그널링을 통해서 구성된 테이블의 인덱스를 SFI를 이용하여 지시함으로써 슬롯 포맷을 지시할 수 있으며, DCI(Downlink Control Information)를 통해서 동적으로 지시하거나 RRC를 통해서 정적 또는 준정적으로 지시할 수도 있다.
NR에서의 물리 자원(physical resource)과 관련하여, 안테나 포트(antenna port), 자원 그리드(resource grid), 자원 요소(resource element), 자원 블록(resource block), 대역폭 파트(bandwidth part) 등이 고려될 수 있다.
안테나 포트는 안테나 포트 상의 심볼이 운반되는 채널이 동일한 안테나 포트 상의 다른 심볼이 운반되는 채널로부터 추론될 수 있도록 정의된다. 하나의 안테나 포트 상의 심볼이 운반되는 채널의 광범위 특성(large-scale property)이 다른 안테나 포트 상의 심볼이 운반되는 채널로부터 추론될 수 있는 경우, 2 개의 안테나 포트는 QC/QCL(quasi co-located 혹은 quasi co-location) 관계에 있다고 할 수 있다. 여기에서, 광범위 특성은 지연 확산(Delay spread), 도플러 확산(Doppler spread), 주파수 시프트(Frequency shift), 평균 수신 파워(Average received power), 수신 타이밍(Received Timing) 중 하나 이상을 포함한다.
도 3은 본 실시예가 적용될 수 있는 무선 접속 기술이 지원하는 자원 그리드를 설명하기 위한 도면이다.
도 3을 참조하면, 자원 그리드(Resource Grid)는 NR이 동일 캐리어에서 복수의 뉴머롤러지를 지원하기 때문에 각 뉴머롤러지에 따라 자원 그리드가 존재할 수 있다. 또한, 자원 그리드는 안테나 포트, 서브캐리어 간격, 전송 방향에 따라 존재할 수 있다.
자원 블록(resource block)은 12개의 서브캐리어로 구성되며, 주파수 도메인 상에서만 정의된다. 또한, 자원 요소(resource element)는 1개의 OFDM 심볼과 1개의 서브캐리어로 구성된다. 따라서, 도 3에서와 같이 하나의 자원 블록은 서브캐리어 간격에 따라 그 크기가 달라질 수 있다. 또한, NR에서는 자원 블록 그리드를 위한 공통 참조점 역할을 수행하는 "Point A"와 공통 자원 블록, 가상 자원 블록 등을 정의한다.
도 4는 본 실시예가 적용될 수 있는 무선 접속 기술이 지원하는 대역폭 파트를 설명하기 위한 도면이다.
NR에서는 캐리어 대역폭이 20Mhz로 고정된 LTE와 달리 서브캐리어 간격 별로 최대 캐리어 대역폭이 50Mhz에서 400Mhz로 설정된다. 따라서, 모든 단말이 이러한 캐리어 대역폭을 모두 사용하는 것을 가정하지 않는다. 이에 따라서 NR에서는 도 4에 도시된 바와 같이 캐리어 대역폭 내에서 대역폭 파트를 지정하여 단말이 사용할 수 있다. 또한, 대역폭 파트는 하나의 뉴머롤러지와 연계되며 연속적인 공통 자원 블록의 서브 셋으로 구성되고, 시간에 따라 동적으로 활성화 될 수 있다. 단말에는 상향링크 및 하향링크 각각 최대 4개의 대역폭 파트가 구성되고, 주어진 시간에 활성화된 대역폭 파트를 이용하여 데이터가 송수신된다.
페어드 스펙트럼(paired spectrum)의 경우 상향링크 및 하향링크 대역폭 파트가 독립적으로 설정되며, 언페어드 스펙트럼(unpaired spectrum)의 경우 하향링크와 상향링크 동작 간에 불필요한 주파수 리튜닝(re-tunning)을 방지하기 위해서 하향링크와 상향링크의 대역폭 파트가 중심 주파수를 공유할 수 있도록 쌍을 이루어 설정된다.
NR에서 단말은 기지국에 접속하여 통신을 수행하기 위해서 셀 검색 및 랜덤 액세스 절차를 수행한다.
셀 검색은 기지국이 전송하는 동기 신호 블록(SSB, Synchronization Signal Block)를 이용하여 단말이 해당 기지국의 셀에 동기를 맞추고, 물리계층 셀 ID를 획득하며, 시스템 정보를 획득하는 절차이다.
도 5는 본 실시예가 적용될 수 있는 무선 접속 기술에서의 동기 신호 블록을 예시적으로 도시한 도면이다.
도 5를 참조하면, SSB는 각각 1개 심볼 및 127개 서브 캐리어를 점유하는 PSS(primarysynchronization signal) 및 SSS(secondary synchronization signal) 및 3개의 OFDM 심볼 및 240 개의 서브캐리어에 걸쳐있는 PBCH로 구성된다.
단말은 시간 및 주파수 도메인에서 SSB를 모니터링하여 SSB를 수신한다.
SSB는 5ms 동안 최대 64번 전송될 수 있다. 다수의 SSB는 5ms 시간 내에서 서로 다른 전송 빔으로 전송되며, 단말은 전송에 사용되는 특정 하나의 빔을 기준으로 볼 때에는 20ms의 주기마다 SSB가 전송된다고 가정하고 검출을 수행한다. 5ms 시간 내에서 SSB 전송에 사용할 수 있는 빔의 개수는 주파수 대역이 높을수록 증가할 수 있다. 예를 들어, 3GHz 이하에서는 최대 4개의 SSB 빔 전송이 가능하며, 3~6GHz까지의 주파수 대역에서는 최대 8개, 6GHz 이상의 주파수 대역에서는 최대 64개의 서로 다른 빔을 사용하여 SSB를 전송할 수 있다.
SSB는 하나의 슬롯에 두 개가 포함되며, 서브캐리어 간격에 따라 아래와 같이 슬롯 내에서의 시작 심볼과 반복 횟수가 결정된다.
한편, SSB는 종래 LTE의 SS와 달리 캐리어 대역폭의 센터 주파수에서 전송되지 않는다. 즉, SSB는 시스템 대역의 중심이 아닌 곳에서도 전송될 수 있고, 광대역 운영을 지원하는 경우 주파수 도메인 상에서 복수의 SSB가 전송될 수 있다. 이에 따라서, 단말은 SSB를 모니터링 하는 후보 주파수 위치인 동기 래스터(synchronization raster)를 이용하여 SSB를 모니터링 한다. 초기 접속을 위한 채널의 중심 주파수 위치 정보인 캐리어래스터(carrier raster)와 동기 래스터는 NR에서 새롭게 정의되었으며, 동기 래스터는 캐리어래스터에 비해서, 주파수 간격이 넓게 설정되어 있어서, 단말의 빠른 SSB 검색을 지원할 수 있다.
단말은 SSB의 PBCH를 통해서 MIB를 획득할 수 있다. MIB(Master Information Block)는 단말이 네트워크가 브로드캐스팅 하는 나머지 시스템 정보(RMSI, Remaining Minimum System Information)를 수신하기 위한 최소 정보를 포함한다. 또한, PBCH는 시간 영역 상에서의 첫 번째 DM-RS 심볼의 위치에 대한 정보, SIB1을 단말이 모니터링하기 위한 정보(예를 들어, SIB1 뉴머롤러지 정보, SIB1 CORESET에 관련된 정보, 검색 공간 정보, PDCCH 관련 파라미터 정보 등), 공통 자원 블록과 SSB 사이의 오프셋 정보(캐리어 내에서의 절대 SSB의 위치는 SIB1을 통해서 전송) 등을 포함할 수 있다. 여기서, SIB1 뉴머롤러지 정보는 단말이 셀 검색 절차를 완료한 이후에 기지국에 접속하기 위한 랜덤 액세스 절차의 메시지 2와 메시지 4에서도 동일하게 적용된다.
전술한 RMSI는 SIB1(System Information Block 1)을 의미하며, SIB1은 셀에서 주기적으로(ex, 160ms) 브로드캐스팅 된다. SIB1은 단말이 초기 랜덤 액세스 절차를 수행하는데 필요한 정보를 포함하며, PDSCH를 통해서 주기적으로 전송된다. 단말이 SIB1을 수신하기 위해서는 PBCH를 통해서 SIB1 전송에 사용되는 뉴머롤러지 정보, SIB1의 스케줄링에 사용되는 CORESET(Control Resource Set) 정보를 수신해야 한다. 단말은 CORESET 내에서 SI-RNTI를 이용하여 SIB1에 대한 스케줄링 정보를 확인하고, 스케줄링 정보에 따라 SIB1을 PDSCH 상에서 획득한다. SIB1을 제외한 나머지 SIB들은 주기적으로 전송될 수도 있고, 단말의 요구에 따라 전송될 수도 있다.
도 6는 본 실시예가 적용될 수 있는 무선 접속 기술에서의 랜덤 액세스 절차를 설명하기 위한 도면이다.
도 6을 참조하면, 셀 검색이 완료되면 단말은 기지국으로 랜덤 액세스를 위한 랜덤 액세스 프리앰블을 전송한다. 랜덤 액세스 프리앰블은 PRACH를 통해서 전송된다. 구체적으로, 랜덤 액세스 프리앰블은 주기적으로 반복되는 특정 슬롯에서 연속된 무선 자원으로 구성되는 PRACH를 통해서 기지국으로 전송된다. 일반적으로, 단말이 셀에 초기 접속하는 경우에 경쟁 기반 랜덤 액세스 절차를 수행되며, 빔 실패 복구(BFR, Beam Failure Recovery)를 위해서 랜덤 액세스를 수행하는 경우에는 비경쟁 기반 랜덤 액세스 절차가 수행된다.
단말은 전송한 랜덤 액세스 프리앰블에 대한 랜덤 액세스 응답을 수신한다. 랜덤 액세스 응답에는 랜덤 액세스 프리앰블식별자(ID), UL Grant (상향링크 무선자원), 임시 C-RNTI(Temporary Cell - Radio Network Temporary Identifier) 그리고 TAC(Time Alignment Command) 이 포함될 수 있다. 하나의 랜덤 액세스 응답에는 하나 이상의 단말들을 위한 랜덤 액세스 응답 정보가 포함될 수 있기 때문에, 랜덤 액세스 프리앰블식별자는 포함된 UL Grant, 임시 C-RNTI 그리고 TAC가 어느 단말에게 유효한지를 알려주기 위하여 포함될 수 있다. 랜덤 액세스 프리앰블식별자는 기지국이 수신한 랜덤 액세스 프리앰블에 대한 식별자일 수 있다. TAC는 단말이 상향 링크 동기를 조정하기 위한 정보로서 포함될 수 있다. 랜덤 액세스 응답은 PDCCH상의 랜덤 액세스 식별자, 즉 RA-RNTI(Random Access - Radio Network Temporary Identifier)에 의해지시될 수 있다.
유효한 랜덤 액세스 응답을 수신한 단말은 랜덤 액세스 응답에 포함된 정보를 처리하고, 기지국으로 스케줄링된 전송을 수행한다. 예를 들어, 단말은 TAC을 적용시키고, 임시 C-RNTI를 저장한다. 또한, UL Grant를 이용하여, 단말의 버퍼에 저장된 데이터 또는 새롭게 생성된 데이터를 기지국으로 전송한다. 이 경우 단말을 식별할 수 있는 정보가 포함되어야 한다.
마지막으로 단말은 경쟁 해소를 위한 하향링크 메시지를 수신한다.
NR에서의 하향링크 제어채널은 1~3 심볼의 길이를 가지는 CORESET(Control Resource Set)에서 전송되며, 상/하향 스케줄링 정보와 SFI(Slot format Index), TPC(Transmit Power Control) 정보 등을 전송한다.
이와 같이 NR에서는 시스템의 유연성을 확보하기 위해서, CORESET 개념을 도입하였다. CORESET(Control Resource Set)은 하향링크 제어 신호를 위한 시간-주파수 자원을 의미한다. 단말은 CORESET 시간-주파수 자원에서 하나 이상의 검색 공간을 사용하여 제어 채널 후보를 디코딩할 수 있다. CORESET 별 QCL(Quasi CoLocation) 가정을 설정하였으며, 이는 종래 QCL에 의해서 가정되는 특성인 지연 스프레드, 도플러 스프레드, 도플러 쉬프트, 평균 지연 외에 아날로그 빔 방향에 대한 특성을 알리기 위한 목적으로 사용된다.
도 7은 CORESET에 대해서 설명하기 위한 도면이다.
도 7을 참조하면, CORESET은 하나의 슬롯 내에서 캐리어 대역폭 내에서 다양한 형태로 존재할 수 있으며, 시간 영역 상에서 CORESET은 최대 3개의 OFDM 심볼로 구성될 수 있다. 또한, CORESET은 주파수 도메인 상에서 캐리어 대역폭까지 6개의 자원 블록의 배수로 정의된다.
첫 번째 CORESET은 네트워크로부터 추가 구성 정보 및 시스템 정보를 수신할 수 있도록 초기 대역폭 파트 구성의 일부로 MIB를 통해서 지시된다. 기지국과의 연결 설정 후에 단말은 RRC 시그널링을 통해서 하나 이상의 CORESET 정보를 수신하여 구성할 수 있다.
본 명세서에서 NR(New Radio)과 관련한 주파수, 프레임, 서브프레임, 자원, 자원블럭, 영역(region), 밴드, 서브밴드, 제어채널, 데이터채널, 동기신호, 각종 참조신호, 각종 신호, 각종 메시지는 과거 또는 현재 사용되는 의미 또는 장래 사용되는 다양한 의미로 해석될 수 있다.
도 8은 본 개시에 따른 무선 통신 시스템에서 통신 빔 형성을 설명하기 위한 도면이다.
각 통신 장치는 적어도 하나 이상의 안테나를 포함할 수 있고, 안테나들은 일정한 간격으로 배열된 안테나 어레이(Antenna Array) 형태로 구성될 수 있다. 또한, 각 안테나에서 방사되는 통신 빔을 조합하여, 특정한 방향으로 강하게 빔 형성(Beamforming)을 하는 방식으로 송수신할 수 있다.
이러한 빔 형성은, 기지국에서 단말에 신호를 전송하는 하향링크에서 수행되는 하향링크 빔 형성, 단말에서 기지국에 신호를 전송하는 상향링크에서 수행되는 상향링크 빔 형성으로 구분하여 수행될 수 있다. 또는, 각 장치가 타 장치와 자신의 위치 정보를 피드백하는 방식으로 이루어지는 피드백 빔 형성, 각 장치가 타 장치의 방향을 측정하여 전파를 방사하는 방향 빔 형성으로 구분하여 수행될 수도 있다.
또한, 단말이 이동하는 경우, 이동하는 단말을 추적하면서 지속적으로 빔 형성이 이루어도록 빔 추적을 수행하는 구성을 포함할 수 있다.
도 8을 참조하면, 기지국(800)과 제 1 단말(810), 제 2 단말(820) 및 제 3 단말(830)은 각각 서로 신호를 송수신할 수 있다. 여기서, 기지국(800)은 제 1 단말(810), 제 2 단말(820) 및 제 3 단말(830) 모두와 동시에 신호를 송수신할 수도 있고, 또는 일부 단말과 신호를 송수신할 수도 있다.
이 경우, 제 1 단말(810), 제 2 단말(820) 및 제 3 단말(830)이 각각 기지국(800)에게 송신하는 신호는 반송 신호나 특정 타이밍을 얻기 위한 트레이닝 신호(training signal) 또는 파일럿 신호(pilot signal)를 포함할 수 있다.
일 예로, 제 2 단말(820)은 기지국(800)에게 트레이닝 신호를 송신할 수 있다. 기지국(800)은 수신되는 트레이닝 신호에 기초하여 일정한 신호를 송신할 수 있다. 여기서, 기지국(800)의 송신 신호는 전 방위를 대상으로 송신되는 신호일 수도 있고, 특정 방향으로 송신되는 신호일 수도 있다.
예를 들면, 기지국(800)은, 제 2 단말(820)의 트레이닝 신호에 기초하여 제 2 단말(820) 방향으로 추정되는 방향으로 송신 빔을 형성할 수 있다. 이 때, 기지국(800)은, 제 2 단말(820)의 위치가 변경되는 경우, 변경된 위치를 추적하고, 추적 결과에 기초하여 빔 형성 방향을 변경할 수 있다.
위와 같이, 이동하는 단말을 추적하여 빔 형성을 수행하는 구체적인 구성에 관하여는 이하 도 10 내지 도 12에서 보다 자세히 설명하기로 한다.
도 9는 일 실시예에 따른 강화 학습이 수행되는 구성을 예시적으로 설명하기 위한 도면이다.
도 9를 참조하면, 일 실시예에 따른 강화 학습은 학습 환경(910)으로부터 상태 S(930)를 관측하고, 학습 에이전트(920)가 상태 S(930)에 기초하여 행동 A(940)를 선택하여 수행하며, 상태 S(930)에서의 행동 A(940)에 따른 보상 R(950)이 산출되는 구성을 포함할 수 있다.
여기서, 보상 R(950)의 산출은, 학습 에이전트(920)가 상태 S(930)에서 취할 수 있는 적어도 하나 이상의 행동 중에서, 보상 기대값을 최대화 할 수 있는 행동 A(940)를 선택하고, 상태 S(930) 및 선택된 행동 A(940)에 기초하여 보상 R(950)이 산출되는 구성을 포함할 수 있다.
여기서, 보상 기대값은, 특정 상태에서 특정 행동을 선택하여 수행했을 경우에 산출될 것으로 기대되는 보상을 의미할 수 있다. 이러한 보상 기대값은, 상태에 따라 달라질 수 있고, 선택되는 행동이 무엇인가에 따라서도 달라질 수 있다. 또한, 각각의 강화 학습 수행 방법마다, 보상 기대값을 산출하는 방법이 달라질 수 있다.
또한, 이러한 강화 학습은, 행동 A(940)가 수행된 후 학습 환경(910)의 다음 상태를 관측하여 상태 S(930)를 업데이트하고, 업데이트된 상태 S(930)에 기초하여 행동 A(940)가 업데이트 되며, 그에 따라 보상 R(950)이 새롭게 산출되는 구성이 반복적으로 이루어지는 것을 포함할 수 있다.
일 예로, 일 실시예에 따른 강화 학습은, Q 함수(Q-Function)에 기초하여 Q 값(Q-Value)을 산출하는 Q 학습(Q-learning)을 수행하는 구성을 포함할 수 있다. 여기서 Q 학습은, 마르코프 결정 과정(Marcov Decision Process)에 기초하여 최적의 정책을 찾는 구성을 포함할 수 있다.
그리고 Q 함수는, 일정한 상태가 주어지고, 해당 상태에서 일정한 행동이 수행되는 경우, 그러한 행동의 수행이 가져다줄 보상의 기대값에 관한 변수인 Q 값을 예측하는 것을 포함할 수 있다.
또한, Q 함수에 기초하여 Q 학습을 수행하는 경우, 각 상태에서 최고의 Q값을 주는 행동을 선택하여 수행할 수 있다. 일 예로, Q 함수는 미리 설정된 Q 테이블에 기초하여 Q 값을 산출하는 구성을 포함할 수 있다.
예를 들면, 학습 에이전트(920)는, 상태 S(930)에서 Q 함수에 기초하여 Q 값을 최대화 할 수 있는 행동을 선택할 수 있다. 여기서, Q 함수를 이용하여 선택된 행동이 행동 A(940)인 경우, 상태 S(930) 및 상태 S(930)에서의 행동 A(940)에 기초하여 Q 값 및 보상 R(950)이 산출될 수 있다.
또한, 행동 A(940)가 수행된 후 학습 환경(910)의 상태를 다시 관측하여 상태 S(930)를 업데이트할 수 있고, 업데이트된 상태 S(930)에서 최대 Q 값을 가지는 행동을 선택하여 행동 A(940)를 업데이트할 수 있다. 또한, 상태 S(930) 및 행동 A(940) 각각의 업데이트된 값에 기초하여, Q 함수를 업데이트할 수 있다.
즉, 상태 S(930) 관측, 행동 A(940) 선택 및 수행, 보상 R(950) 산출을 Q 함수에 기초하여 반복적으로 수행함으로써, 누적 보상을 최대화 할 수 있는 최적의 정책을 학습할 수 있다.
다른 예로, 일 실시예에 따른 강화 학습은, 심층 강화 학습을 수행하는 구성을 포함할 수 있다. 여기서 심층 강화 학습은, 상태 관측, 보상 기대값을 최대화할 수 있는 행동 선택 및 그에 따른 보상 산출을 포함하는 학습 과정을 심층 신경망(Deep Neural Network)을 이용하여 수행하는 것을 포함할 수 있다.
예를 들면, 학습 에이전트(920)는, 관측된 상태 S(930)에서 보상 기대값을 최대화 할 수 있는 행동 A(940)을 선택하고, 행동 A(940) 수행에 따른 보상 R(950)을 산출하는 것을 심층 신경망을 이용하여 수행할 수 있다.
다른 예로, 일 실시예에 따른 강화 학습은, DQN(Deep Q Network)을 이용하여 수행하는 구성을 포함할 수 있다. 여기서 DQN은, Q 함수를 이용하여 Q 값을 산출하는 Q 학습을 수행하되, Q 함수의 세부 내용을 심층 신경망을 이용하여 구성하는 것을 포함할 수 있다. 일 예로, Q 함수는, 심층 신경망을 이용하여 Q 값을 산출하는 구성을 포함할 수 있다.
예를 들면, 학습 에이전트(920)는, 상태 S(930)에서 심층 신경망을 이용하는 Q 함수에 기초하여 Q 값을 최대화 할 수 있는 행동을 선택할 수 있다. 여기서, 심층 신경망을 이용하는 Q 함수를 이용하여 선택된 행동이 행동 A(940)인 경우, 상태 S(930) 및 상태 S(930)에서의 행동 A(940)에 기초하여 Q 값 및 보상 R(950)이 산출될 수 있다.
또한, 행동 A(940)가 수행된 후 학습 환경(910)의 상태를 다시 관측하여 상태 S(930)를 업데이트할 수 있고, 업데이트된 상태 S(930)에서 최대 Q 값을 가지는 행동을 선택하여 행동 A(940)를 업데이트할 수 있다. 또한, 상태 S(930) 및 행동 A(940) 각각의 업데이트된 값에 기초하여, 심층 신경망 및 심층 신경망을 이용하는 Q 함수를 업데이트할 수 있다.
즉, 상태 S(930) 관측, 행동 A(940) 선택 및 수행, 보상 R(950) 산출을 심층 신경망을 이용하는 Q 함수에 기초하여 반복적으로 수행함으로써, 누적 보상을 최대화 할 수 있는 최적의 정책을 학습할 수 있다.
이상에서 설명한 바와 같이, 일 실시예에 따른 강화 학습은, 상태 S(930) 관측, 보상 기대값을 최대화 할 수 있는 행동 A(940) 선택 및 수행, 보상 R(950) 산출을 포함할 수 있고, 이러한 강화 학습은 Q 학습을 이용하는 구성, 심층 신경망을 이용하는 구성, DQN을 이용하는 구성 중 적어도 하나를 포함할 수 있다.
그리고 이러한 강화 학습에 관한 내용은, 본 개시에 따른 강화 학습 기반의 빔 추적을 수행하는 구성에서도 모두 적용될 수 있다.
일 예로, 도 9에서 설명한 강화 학습은, 이하에서 설명할 기지국의 학습부에서 모두 수행될 수 있다. 보다 구체적인 예를 들어 설명하면, 학습 환경(910)으로부터 관측되는 상태 S(930)는, 수신 신호로부터 산출되는 상태 정보를 포함할 수 있다. 그리고, 상태 S(930)에 기초하여 선택되는 행동 A(940)는, 상태 정보에 기초하여 선택되는 방향 추정 정보를 포함할 수 있다. 또한, 상태 S(930) 및 행동 A(940) 중 적어도 하나에 기초하여 산출되는 보상 R(950)은, 상태 정보 및 방향 추정 정보 중 적어도 하나에 기초하여 산출되는 학습 보상 정보를 포함할 수 있다.
위와 같이 강화 학습을 이용하여 빔 추적을 수행하는 구성에 관하여는 이하 도 10 내지 도 12에서 보다 자세히 설명하기로 한다.
도 10은 본 개시에 따른 무선 통신을 수행하는 기지국에 관한 블록도이다.
도 10을 참조하면, 본 개시에 따른 기지국(1000)은, 학습부(1010) 및 제어부(1020) 중 적어도 하나를 포함할 수 있다. 그리고 학습부(1010)와 제어부(1020)는 서로 연결될 수 있다.
일 예로, 기지국(1000)은, 적어도 하나 이상의 단말로부터 수신되는 수신 신호에 기초하여 상태 정보를 산출하고, 상태 정보에 기초하여 단말의 방향에 관한 방향 추정 정보를 산출하며, 상태 정보 및 방향 추정 정보 중 적어도 하나에 기초하여 학습 보상 정보를 산출하는 학습을 수행하는 학습부(1010)와, 방향 추정 정보에 기초하여 단말에 대한 통신 빔을 형성하도록 제어하는 제어부(1020)를 포함할 수 있다.
학습부(1010)는, 단말로부터 수신되는 수신 신호에 기초하여 상태 정보를 산출할 수 있다. 여기서, 수신 신호는 단말이 기지국에 대하여 송신하는 트레이닝 신호를 포함할 수 있다.
상태 정보는, 적어도 하나 이상의 수신 신호에 기초하여 산출될 수 있다. 이러한 수신 신호는, 시간 경과에 따라 계속하여 수신될 수 있다. 예를 들면, 미리 설정된 시간마다 일정한 횟수로 수신 신호가 수신될 수 있고, 각 수신 신호에 기초하여 각각 서로 다른 상태 정보가 산출될 수 있다.
상태 정보 산출은, 수신 신호의 일부 또는 전부를 추출하는 방식, 수신 신호의 일부 또는 전부를 일정한 방식으로 변환하는 방식, 수신 신호로부터 추출된 정보 또는 변환된 정보에 기초하여 일정한 정보를 산출하는 방식 중 적어도 하나를 이용하여 이루어질 수 있다.
상태 정보는, 수신 신호의 채널 상태 정보(Channel State Information, CSI)를 포함할 수 있다. 이 경우, 채널 상태 정보는, 기지국과 단말 간의 통신 링크에서 채널 특성에 관한 정보를 포함할 수 있다.
또한, 상태 정보는, 수신 신호의 채널 이득 정보 및 도래각 정보 중 적어도 하나를 포함할 수 있다. 여기서, 채널 이득 정보는 단말로부터 송신되는 신호를 기지국에서 수신함에 있어서, 기지국에서의 수신 신호와 단말에서의 송신 신호와의 관계를 나타내는 데에 필요한 정보를 포함할 수 있다. 도래각 정보는, 기지국에서 단말로부터의 수신 신호가 수신되는 각도에 관한 도래각 정보를 포함할 수 있다.
한편, 상태 정보는, 수신 신호 세기 정보를 포함할 수 있다. 여기서, 수신 신호 세기 정보는, RSSI (Received Signal Strength Indicatior), RSRP (Reference Signal Received Power), RSRQ (Reference Signal Received Quality) 등 수신 신호의 세기를 표현할 수 있는 정보라면 어떠한 구성이든 포함될 수 있을 것이다.
이러한 수신 신호 세기 정보는, 수신 신호에 포함된 정보를 추출하는 방식으로 산출될 수 있다. 또는, 수신 신호에 포함된 다른 정보를 이용하여 수신 신호 세기를 계산하는 방식으로 산출될 수도 있다. 예를 들면, 채널 이득 정보 및 도래각 정보를 이용하여 수신 신호 세기에 관한 계산식을 설정하고, 설정된 계산식에 기초하여 수신 신호 세기 정보를 산출할 수 있다.
학습부(1010)는, 상태 정보에 기초하여 방향 추정 정보를 산출할 수 있다. 구체적으로, 방향 추정 정보의 산출은, 특정한 상태 정보에 기초하여 선택 가능한 적어도 하나 이상의 방향 정보 중에서 선택되는 하나의 방향 정보에 기초하여 산출될 수 있다.
여기서, 방향 정보는, 기지국이 신호를 송수신할 수 있는 적어도 하나 이상의 방향에 관한 정보를 포함할 수 있다. 이러한 방향 정보는, 기지국이 신호를 송수신할 수 있는 각 방향에 관한 정보가 미리 설정된 형태일 수 있다.
예를 들면, 360°의 전 방위에서 신호를 송수신할 수 있는 기지국인 경우, 10°를 단위 간격으로 하여 36개의 방향 정보가 미리 설정될 수 있다. 기지국에서 송수신 가능 방위의 범위, 방향 정보의 수 및 단위 간격 등은 얼마든지 다양하게 설정될 수 있다.
일 예로, 방향 추정 정보는, 상태 정보에 포함되는 채널 상태 정보에 기초하여 산출될 수 있다. 예를 들면, 채널 상태 정보에서, 수신 신호가 수신된 채널에 관한 정보를 추출하여, 추출된 정보를 각 방향 정보와 비교하는 방법으로 산출될 수 있다.
다른 예로, 방향 추정 정보는, 채널 이득 정보 및 도래각 정보를 이용하여 산출될 수 있다. 예를 들면, 상태 정보의 채널 이득 정보 및 도래각 정보를 이용하여, 노이즈 부분을 제외한 수신 신호의 크기를 계산한 후, 계산 결과를 비교하여 수신 신호 크기가 가장 큰 방향에 관한 방향 정보를 선택하고, 선택된 방향 정보에 기초하여 방향 추정 정보를 산출할 수 있다.
다른 예로, 방향 추정 정보는, 상태 정보에 포함되는 수신 신호 세기 정보에 기초하여 산출될 수도 있다. 예를 들면, 상태 정보에 포함되는 수신 신호 세기 정보를 비교하여, 수신 신호 세기 정보가 가장 큰 방향에 관한 방향 정보를 선택하고, 선택된 방향 정보에 기초하여 방향 추정 정보를 산출할 수 있다.
학습부(1010)는, 상태 정보 및 방향 추정 정보 중 적어도 하나에 기초하여 학습 보상 정보를 산출할 수 있다. 이러한 학습 보상 정보는, 특정 상태 정보 및 해당 상태 정보에 기초하여 산출된 방향 추정 정보를 이용하여 산출될 수 있다.
또한, 학습 보상 정보는, 수신 신호 세기 정보에 기초하여 산출될 수 있다. 예를 들어, 학습 보상 정보는, 수신 신호 세기 정보가 미리 설정된 상한 임계값 이상인 경우는 2로 산출하고, 수신 신호 세기 정보가 상한 임계값 미만이고, 미리 설정된 하한 임계값 이상인 경우는 1로 산출하며, 수신 신호 세기 정보가 하한 임계값 미만인 경우는 0으로 산출하는 구성을 포함할 수 있다.
위와 같은 방법으로 학습 보상 정보를 산출하는 경우, 강화 학습을 통하여 수신 신호의 크기를 더욱 더 크게 하는 방향으로 학습을 수행할 수 있다. 그리고 이에 따라, 강화 학습에 기반하여 수행되는 빔 추적의 정확도가 향상될 수 있다.
그리고, 학습 보상 정보는, 강화 학습을 수행하는 구체적인 방법에 따라 다르게 수행될 수도 있다. 예를 들면, Q 학습 기반의 강화 학습, 심층 강화 학습, DQN을 이용한 심층 강화 학습의 경우, 각각 학습 보상 정보가 서로 다른 방법으로 산출될 수 있다.
일 예로, Q 학습을 이용하여 강화 학습을 수행하는 경우, 학습부(1010)는, Q 함수에 기초하여, 특정 상태 정보에서 선택 가능한 적어도 하나 이상의 방향 정보 중에서 Q 값을 최대화 할 수 있는 방향 정보를 선택하여 방향 추정 정보를 산출할 수 있다. 그런 다음, Q 함수에 기초하여, 특정 상태 정보 및 특정 상태 정보에 기초하여 산출된 방향 추정 정보를 이용하여 학습 보상 정보를 산출할 수 있다.
다른 예로, 심층 강화 학습을 수행하는 경우, 학습부(1010)는, 심층 신경망을 이용하여, 특정 상태 정보에서 선택 가능한 적어도 하나 이상의 방향 정보 중에서 보상 기대값을 최대화 할 수 있는 방향 정보를 선택하여 방향 추정 정보를 산출할 수 있다. 그런 다음, 심층 신경망에 기초하여, 특정 상태 정보 및 특정 상태 정보에 기초하여 산출된 방향 추정 정보를 이용하여 학습 보상 정보를 산출할 수 있다.
다른 예로, DQN을 이용하여 심층 강화 학습을 수행하는 경우, 학습부(1010)는, 심층 신경망을 이용하는 Q 함수에 기초하여 특정 상태 정보에서 선택 가능한 적어도 하나 이상의 방향 정보 중에서 Q 값을 최대화 할 수 있는 방향 정보를 선택하여 방향 추정 정보를 산출할 수 있다. 그런 다음, 심층 신경망을 이용하는 Q 함수에 기초하여, 특정 상태 정보 및 특정 상태 정보에 기초하여 산출된 방향 추정 정보를 이용하여 학습 보상 정보를 산출할 수 있다.
한편, 학습부(1010)는, 단말의 제 1 상태에 관한 제 1 상태 정보 및 단말의 제 2 상태에 관한 제 2 상태 정보를 포함할 수 있고, 제 1 상태 정보에 기초하여 학습을 수행하고, 학습 결과에 기초하여 제 2 상태를 관측하여, 학습을 지속적으로 수행하는 구성을 포함할 수 있다.
이러한 구성을 강화 학습 관점에서 설명하면, 제 1 상태에서 수행된 강화 학습 결과에 기초하여 제 2 상태 관측 및 제 2 상태에서의 강화 학습이 수행되는 과정이 반복적으로 이루어질 수 있다.
구체적으로, 관측이 이루어진 제 1 상태에서 가능한 행동 중에서 보상 기대값이 최대인 행동을 선택할 수 있고, 선택된 행동을 수행할 수 있다.
그런 다음, 제 1 상태 및 제 1 상태에서 수행된 행동에 기초하여 보상을 산출할 수 있다. 또한, 제 1 상태 및 제 1 상태에서 수행된 행동에 기초하여, 제 2 상태를 관측할 수 있다.
이후, 제 2 상태에서 새로운 행동을 선택하여 수행할 수 있고, 제 2 상태에서 수행된 행동에 기초하여 새로운 보상을 산출할 수 있다.
일 예로, 상태 정보는, 단말의 제 1 상태에 관한 제 1 상태 정보 및 단말의 제 2 상태에 관한 제 2 상태 정보를 포함할 수 있다. 이 경우, 제 1 상태 정보는 제 1 수신 신호에 기초하여 산출될 수 있고, 제 2 상태 정보는 제 2 수신 신호에 기초하여 산출될 수 있다.
학습부(1010)는, 제 1 상태 정보에 기초하여 적어도 하나 이상의 방향 정보 중에서 보상 기대값이 최대인 방향 정보를 선택할 수 있고, 선택된 방향 정보에 기초하여 방향 추정 정보를 산출할 수 있다. 그리고 이를 이용하여 단말의 제 1 상태에 관한 빔 추적이 수행될 수 있다.
그런 다음, 학습부(1010)는, 제 1 상태 정보 및 제 1 상태에서 산출된 방향 추정 정보에 기초하여, 학습 보상 정보를 산출할 수 있다. 또한, 제 1 상태 정보 및 제 1 상태에서 산출된 방향 추정 정보에 기초하여, 단말의 제 2 상태에 관한 제 2 상태 정보가 산출될 수 있다.
이후, 학습부(1010)는, 제 2 상태 정보가 산출된 경우, 제 2 상태 정보에 기초하여 방향 추정 정보를 업데이트할 수 있고, 제 2 상태 정보 및 업데이트된 방향 추정 정보에 기초하여 학습 보상 정보를 업데이트하는 과정을 반복하여 수행할 수 있다.
그리고, 이러한 강화 학습은, 도 9에서 설명한 바와 같이, Q 학습, 심층 강화 학습 및 DQN 중 적어도 하나의 방법을 선택하여 수행하는 것을 포함할 수 있다.
제어부(1020)는, 기지국에서 단말의 방향을 추정하여 통신 빔이 형성되도록 제어할 수 있다. 구체적으로, 학습부(1010)에서 산출된 방향 추정 정보에 기초하여, 일정한 방향으로 통신 빔이 형성되도록 제어할 수 있다.
또한, 제어부(1020)에서 빔 형성을 수행하는 구성은, 빔을 형성하는 구성과 관련된 공지기술이라면 모두 이용될 수 있다.
도 11은 일 실시예에 따른 방향 추정 정보가 산출되는 구성을 예시적으로 설명하기 위한 도면이다.
도 11을 참조하면, 일 실시예에 따른 방향 추정 정보(1130) 산출은, 상태 정보(1100)에 기초하여 수행될 수 있다. 구체적으로, 상태 정보(1100)에서 선택 가능한 적어도 하나 이상의 방향 정보 중에서 보상 기대값이 최대인 방향 정보를 선택하고, 선택된 방향 정보에 기초하여 방향 추정 정보를 산출할 수 있다.
예를 들면, 상태 정보(1100)에서 선택 가능한 방향 정보는 제 1 방향 정보(1110), 제 2 방향 정보(1112) 및 제 3 방향 정보(1114)의 3개가 주어질 수 있다.
구체적으로, 각 방향 정보에 기초하여 보상 기대값을 산출하는 경우, 제 1 방향 정보(1110)에 기초하여 산출되는 제 1 보상 기대값(1120)은 3.0, 제 2 방향 정보(1112)에 기초하여 산출되는 제 2 보상 기대값(1122)은 2.5, 제 3 방향 정보에 기초하여 산출되는 제 3 보상 기대값(1124)은 2.0으로 각각 산출될 수 있다.
이 경우, 산출된 3개의 보상 기대값 중 가장 큰 3.0의 값을 가지는 제 1 보상 기대값(1120)에 기초하여, 제 1 방향 정보가 선택될 수 있다.
도 12는 일 실시예에 따른 강화 학습 기반의 통신 빔 추적을 예시적으로 설명하기 위한 도면이다.
도 12를 참조하면, 일 실시예에 따른 강화 학습 기반의 통신 빔 추적은, 시간 경과에 따른 단말의 각 상태에 기초하여 수행될 수 있다. 이 경우, 기지국의 상태는 기지국 제 1 상태(1210), 기지국 제 2 상태(1220), 기지국 제 3 상태(1230), 기지국 제 4 상태(1240)를 포함할 수 있고, 단말의 상태는 단말 제 1 상태(1250), 단말 제 2 상태(1260)를 포함할 수 있다.
그리고, 이하에서 설명할 제 1 신호는 k-1 번째 타임 슬롯의 2번째 수신 신호를, 제 2 신호는 k 번째 타임 슬롯의 1번째 수신 신호를, 제 3 신호는 k 번째 타임 슬롯의 2번째 수신 신호를 각각 나타낼 수 있다. 그리고 제 1 신호, 제 2 신호, 제 3 신호는 각각 단말에서 기지국으로 전송되는 다운링크 신호일 수 있다.
기지국 제 1 상태(1210)는, 단말 제 1 상태(1250)에 기초하여 빔 형성이 수행된 상태를 나타낼 수 있다. 이 경우, 단말 제 1 상태(1250)에서는 제 1 신호가 송신될 수 있다.
기지국 제 2 상태(1220)는, 단말 제 1 상태(1250)에서 단말 제 2 상태(1260)로 변화하면서 단말의 이동이 이루어진 상태를 나타낼 수 있다. 이 경우, 단말 제 2 상태(1260)에서 송신된 제 2 신호는 기지국에 수신되었으나, 제 2 신호에 기초한 빔 추적은 아직 이루어지지 않은 경우를 포함할 수 있다.
기지국 제 3 상태(1230)는, 단말 제 2 상태(1260)에서 송신된 제 2 신호를 기지국에서 수신하고, 제 2 신호에 기초하여 강화 학습 기반의 빔 추적이 이루어진 상태를 나타낼 수 있다. 그리고, 이러한 빔 추적 결과에 기초하여 단말 제 2 상태(1260)에 해당하는 위치에 빔 형성이 수행될 수 있다.
이 경우, 기지국은 제 2 신호에 기초하여 제 1 상태 정보를 산출하고, 제 1 상태 정보에 기초하여 선택 가능한 적어도 하나 이상의 방향 정보 중 보상 기대값이 최대인 방향 정보를 선택하여 방향 추정 정보를 산출할 수 있다. 그런 다음, 산출된 방향 추정 정보에 기초하여 빔 형성을 수행할 수 있다.
기지국 제 4 상태(1240)는, 단말 제 2 상태(1260)에 기초하여 빔 형성이 수행된 상태를 나타낼 수 있다. 이 경우, 단말 제 2 상태(1220)에서는 제 3 신호가 송신될 수 있다.
아래에서는 본 개시에 따른 기지국을 방법 관점에서 다시 한번 간략히 설명한다. 위에서 설명한 내용의 중복되는 내용은 필요에 따라 생략하나, 아래 방법 관점에서도 모두 적용될 수 있다.
도 13은 본 개시에 따른 기지국이 무선 통신을 수행하는 방법을 설명하기 위한 순서도이다.
도 13을 참조하면, 본 개시에 따른 무선 통신 방법은, 적어도 하나 이상의 단말로부터 수신되는 수신 신호에 기초하여 상태 정보를 산출하고, 상태 정보에 기초하여 단말의 방향에 관한 방향 추정 정보를 산출하며, 상태 정보 및 방향 추정 정보 중 적어도 하나에 기초하여 학습 보상 정보를 산출하는 학습을 수행하는 빔 추적 학습 단계(S1310)와, 방향 추정 정보에 기초하여 통신 빔을 형성하도록 제어하는 빔 형성 제어 단계(S1320)를 포함할 수 있다.
일 예로, 빔 추적 학습 단계(S1310)에서는, Q 함수에 기초하여 Q 값을 산출하는 Q 학습 기반의 강화 학습을 이용하여 빔 추적을 수행하는 것을 포함할 수 있다. 다른 예로, 심층 신경망을 이용하는 심층 강화 학습을 이용하여 빔 추적을 수행할 수 있고, 또는 Q 함수에서의 Q 값 산출을 심층 신경망을 이용하여 수행하는 DQN 기반의 심층 강화 학습을 이용하요 빔 추적을 수행할 수도 있다.
빔 형성 제어 단계(S1320)에서는, 기지국에서 단말의 방향을 추정하여 통신 빔이 형성되도록 제어하는 것을 포함할 수 있다. 구체적으로, 빔 추적 학습 단계(S1310)에서 산출된 방향 추정 정보에 기초하여, 일정한 방향으로 통신 빔이 형성되도록 제어하는 것을 포함할 수 있다.
도 14는 일 실시예에 따른 빔 추적 학습 단계를 설명하기 위한 순서도이다..
도 14를 참조하면, 일 실시예에 따른 빔 추적 학습 단계(S1310)는, 상태 정보 산출 단계(S1410)와, 방향 추정 정보 산출 단계(S1420)와, 학습 보상 정보 산출 단계(S1430)을 포함할 수 있다.
상태 정보 산출 단계(S1410)에서는, 적어도 하나 이상의 수신 신호에 기초하여 상태 정보를 산출하는 것을 포함할 수 있다. 이러한 상태 정보 산출은, 수신 신호의 일부 또는 전부를 추출하는 방식, 수신 신호의 일부 또는 전부를 일정한 방식으로 변환하는 방식, 추출된 정보 또는 변환된 정보에 기초하여 일정한 정보를 산출하는 방식 중 적어도 하나를 이용하여 이루어질 수 있다.
방향 추정 정보 산출 단계(S1420)에서는, 특정한 상태 정보에 기초하여 선택 가능한 적어도 하나 이상의 방향 정보 중에서 선택되는 하나의 방향 정보에 기초하여 산출하는 것을 포함할 수 있다.
일 예로, 방향 추정 정보 산출 단계(S1420)에서는, 채널 상태 정보에 기초하여 방향 추정 정보를 산출하는 것을 포함할 수 있다. 구체적으로, 채널 상태 정보에서 수신 신호가 수신된 채널에 관한 정보를 추출하여, 추출된 정보를 각 방향 정보와 비교하는 방법으로 방향 추정 정보를 산출하는 것을 포함할 수 있다.
다른 예로, 방향 추정 정보 산출 단계(S1420)에서는, 채널 이득 정보 및 도래각 정보를 이용하여 방향 추정 정보를 산출하는 것을 포함할 수 있다. 구체적으로, 채널 이득 정보 및 도래각 정보를 이용하여 수신 신호 크기가 가장 큰 방향에 관한 방향 정보를 선택하고, 선택된 방향 정보에 기초하여 방향 추정 정보를 산출하는 것을 포함할 수 있다.
다른 예로, 방향 추정 정보 산출 단계(S1420)에서는, 수신 신호 세기 정보에 기초하여 방향 추정 정보를 산출하는 것을 포함할 수 있다. 구체적으로, 상태 정보에 포함되는 수신 신호 세기 정보를 비교하여, 수신 신호 세기 정보가 가장 큰 방향에 관한 방향 정보를 선택하고, 선택된 방향 정보에 기초하여 방향 추정 정보를 산출하는 것을 포함할 수 있다.
학습 보상 정보 산출 단계(S1430)에서는, 특정 상태 정보 및 해당 상태 정보에 기초하여 산출된 방향 추정 정보를 이용하여 학습 보상 정보를 산출하는 것을 포함할 수 있다.
일 예로, 학습 보상 정보는, 수신 신호 세기 정보에 기초하여 산출될 수 있다. 구체적으로, 수신 신호 세기 정보가 미리 설정된 상한 임계값 이상인 경우는 2로 산출하고, 수신 신호 세기 정보가 상한 임계값 미만이고, 미리 설정된 하한 임계값 이상인 경우는 1로 산출하며, 수신 신호 세기 정보가 하한 임계값 미만인 경우는 0으로 산출하는 방식으로 학습 보상 정보를 산출하는 것을 포함할 수 있다.
이상에서 설명한 바와 같이, 심층 강화 학습 기반으로 하는 빔 추적 트레이닝이 계속될수록, 심층 강화 학습 네트워크가 더욱 더 수신신호의 크기를 크게 하는 방향으로 훈련이 될 수 있다. 이에 따라, 빔 추적의 정확도가 향상될 수 있다.
이하에서는, 또 다른 실시예에 따른 심층 강화 학습 기반 밀리미터파 V2X 통신을 위한 빔 추적을 수행하는 구성을 예시적으로 설명한다. 이러한 구성은, 차량 간 통신 (V2V), 차량과 구조물 간의 통신 (V2I) 등 다양한 V2X 통신 상황에서 활용될수 있다. 그리고 기지국은 디지털 빔 형성을 수행하는 구성을 포함할 수 있다.
여기서, 기지국은, Nb개의 선형 안테나 배열(uniform linear array)을 포함할 수 있고, 안테나 배열은 서로 평행한 구성일 수 있다. 그리고, 밀리미터파 통신 채널은, 채널 이득 α, 도래각 θ 및 빔 형성 벡터 ω 를 포함할 수 있다. 또한, 초기 엑세스와 연결은 이미 구현되었다고 가정한다.
본 실시예에 따른 심층 강화 학습 기반 밀리미터파 V2X 통신을 위한 빔 추적 알고리즘은 세 단계 프로세스로 구성된다.
첫째, 움직이는 모바일이 기지국으로 트레이닝 신호 q (정보가 공유된 신호)를 송신하여 state 를 측정한다.
둘째, 기지국은 실시간으로 측정한 수신신호를 state 으로, 심층 강화 학습을 사용해 모바일에 대한 빔 추적 action을 수행한다.
셋째, 기지국은 실시간으로 트레이닝 신호의 수신 신호 세기를 비교하여 심층 강화 학습을 위한 보상 (reward) 값을 받아 심층 강화 학습의 네트워크를 업데이트 하여 이후의 통신 성능을 향상시키는 방향으로 트레이닝을 한다.
각 단계의 구체적인 설명은 아래와 같다.
첫째, 움직이는 모바일이 기지국으로 보내는 트레이닝 신호의 채널 모델은 높은 경로 이득과 적당한 이동성이 있다고 가정한다. 이 때 k번째 타임 슬롯의 l번째 수신 신호 zk,l 에 관하여는 다음 수학식 1과 같은 수식이 예시적으로 적용될 수 있다.
Figure pat00001
여기서, Nb 는 기지국의 안테나 수, α 는 채널 이득, wb 는 기지국의 빔 형성 벡터, q 는 트레이닝 신호, n 은 노이즈이다.
그리고, 채널 특성은 경로이득 α 와 도래각 θ 로 표현될 수 있으며, 이와 관련하여 다음 수학식 2 및 수학식 3과 같은 수식이 예시적으로 적용될 수 있다.
Figure pat00002
Figure pat00003
수학식 2 및 수학식 3에 따르면, 채널이득 α 는 가우스 마르코프 모델, 도래각 θ는 가우시안 모델을 따르는 구성을 포함할 수 있다.
둘째, 기지국은 실시간으로 심층 강화 학습을 사용해 모바일의 방향(채널)을 추정하고 빔 추적을 한다. 심층 강화 학습은 state 측정, 빔 추적 action, 심층 강화 학습을 위한 reward 산출의 3단계 프로세스로 구성되며 state sk 에 관하여는 다음 수학식 4와 같은 수식이 예시적으로 적용될 수 있다.
Figure pat00004
수학식 4에 따르면, sk 는 k 번째 타임 슬롯의 1번째 수신 신호 zk,1 및 k-1 번째 타임 슬롯의 2번째 수신 신호 zk-1,2 에 기초하여 생성될 수 있다.
측정한 state 정보를 입력으로 한, 심층 강화 학습 의 action ak 는 다음 수학식 5와 같은 수식이 예시적으로 적용될 수 있다.
Figure pat00005
여기서,
Figure pat00006
는 size 이며, 각각의 ak 는 다음 수행식 6에 예시된 내용과 같은 행동을 취할 수 있다.
Figure pat00007
여기서,
Figure pat00008
는, k번째 타임 슬롯에서 도래각 θ의 추정 도래각이다.
수학식 5에 따르면, k 번째 타임 슬롯에서 행동 ak 가 수행되는 경우, 추정 도래각은 각도 변화량만큼 감소하거나, 그대로이거나, 각도 변화량만큼 증가하는 3가지 상태 중 하나로 업데이트될 수 있다.
수학식 6에 따르면, k 번째 타임 슬롯에서의 추정 도래각은, k-1번째 타임 슬롯에서의 추정 도래각에 k 번째 타임 슬롯에서의 행동 ak 에 의한 각도 변화량이 반영되는 방식으로 산출될 수 있다.
셋째, 기지국은 실시간으로 트레이닝 신호의 수신 신호 세기를 비교하여 심층 강화 학습을 위한 reward 값을 받아 심층 강화 학습의 네트워크를 업데이트 하여 이후의 통신 성능을 향상시키는 방향으로 트레이닝을 수행할 수 있다.
action 에 대한 reward rk에 관하여는 다음 수학식 7과 같은 수식이 예시적으로 적용될 수 있다.
Figure pat00009
여기서, cu 는 상한 임계값, cl 은 하한 임계값이며, 이를 이용하여 reward 를 산출하는 경우, 노이즈에 의한 오류를 줄일 수 있다.
수학식 7에 따르면, k 번째 타임 슬롯에서의 보상 rk 는 k 번째 타임 슬롯의 1번째 수신 신호 및 k 번째 타임 슬롯의 2번째 수신 신호에 기초하여 산출될 수 있다.
이상에서 설명한 바와 같이, 심층 강화 학습 기반으로 하는 빔 추적 트레이닝이 계속될수록, 심층 강화 학습 네트워크가 더욱 더 수신신호의 크기를 크게 하는 방향으로 훈련이 될 수 있다. 이에 따라, 빔 추적의 정확도가 향상될 수 있다.
이하에서는, 또 다른 실시예에 따른 차량-기지국 간 밀리터리파 통신 상향링크 SIMO(single-input-multiple-output) 채널에서 심층 강화 학습 기반 빔 추적을 수행하는 구성을 예시적으로 설명한다.
밀리미터파 V2I 통신은 고속 이동성을 가진 차량 환경을 고려하며, 이 때, 차량-기지국 간 통신 링크를 유지하기 위한 실시간 빔 추적이 필수적이다. 하지만 필터 기반 빔 추적 알고리즘은 높은 계산 복잡도로 인해 고속 이동 차량 환경에 적합하지 않을 수 있다. 이에 따라, 심층 강화 학습을 기반으로 매 시간 수신 신호를 관측, 실시간으로 차량 이동성을 따라 빔을 추적하는 경우, 추적 성능이 향상될 수 있다. 특히, 심층 강화 학습에서도 DQN(deep Q-network)을 사용하여 빔 추적을 수행하는 구성을 이용할 수 있다. 이 경우, 매우 빠른 액션이 가능하여 실시간 빔 추적에 적합할 수 있다.
본 실시예에서는, 2 차원 평면에서 차량의 움직임을 고려한다. 시간 tk = t0+ kΔt 이며, k 는 타임 슬롯 인덱스, Δt 는 타임 슬롯 간격이다. 이동성 상태 벡터 mk 는 다음과 같다.
Figure pat00010
Figure pat00011
는, 각각 x - y 평면에서 차량의 위치, 속도 및 가속도를 나타낸다. 차량의 이동성 모델은 명령 프로세스 uk = [ux,k, uy,k]T 및 가속도 잡음 vk = [vx,k, vy,k]T 로 구성된다. uk 는 마르코프 체인으로 결정되며, 가속도 잡음 vk 는 평균 0, 표준편차 σv 를 가진다. 이때, 이동성 모델은 다음 수학식 9와 같은 수식이 예시적으로 적용될 수 있다.
Figure pat00012
β는 연속적인 타임 슬롯 간의 가속 상관도이며, 인덱스 i 는 u 또는 v 에 적용될 수 있다.
채널 상태 벡터 xk 는 다음 수학식 10과 같은 수식이 예시적으로 적용될 수 있다.
Figure pat00013
ak 와 θk는 각각 채널 이득과 도래각이며, ak 는 다음 수학식 11과 같이 1차원 마르코프 모델을 따르는 구성일 수 있다.
Figure pat00014
ρ 는 상관 계수이며, ζk
Figure pat00015
을 따른다.
도래각 θk 는 이동성 모델에서 차량의 기지국에 대한 상대적 각도로 표현될 수 있으며, 다음 수학식 12와 같은 수식이 예시적으로 적용될 수 있다.
Figure pat00016
본 실시예에서는 단일 안테나를 가진 차량과 N 개의 선형 배열 안테나(uniform linear array, ULA)를 가진 기지국 간 단일 경로 SIMO 채널을 고려하며 기지국 빔포밍 벡터 wk와 채널 모델 hk 는 다음 수학식 13과 같은 수식이 예시적으로 적용될 수 있다.
Figure pat00017
여기서,
Figure pat00018
는 기지국 빔 조향 각도이다.
어레이 벡터 a(θk)는 다음 수학식 14와 같은 수식이 예시적으로 적용될 수 있다.
Figure pat00019
심층 강화 학습 중 하나인 DQN 은 에이전트(agent)가 매 시간 상태(state) sk 를 관측해 기대 보상을 최대화하는 action ak 를 수행하고, reward λk 를 받아 신경망을 학습한다.
DQN 의 액션 이전/이후 관측 모델(measurement model) rk bf, rk af 는 다음 수학식 15와 같은 수식이 예시적으로 적용될 수 있다.
Figure pat00020
여기서, 노이즈nk bf, nk af
Figure pat00021
을 따른다.
DQN 의 sk는 다음 수학식 16과 같은 수식이 예시적으로 적용될 수 있다.
Figure pat00022
DQN의 ak 는 집합 {0, 1, 2}원소 중 하나일 수 있으며, 다음 수학식 17과 같은 수식에 기초하여 동작을 취할 수 있다.
Figure pat00023
여기서,
Figure pat00024
는 액션의 각도 변화량이다.
DQN 의 λk 는 다음 수학식 18과 같은 수식이 예시적으로 적용될 수 있다.
Figure pat00025
이상에서 설명한 바와 같이, 본 개시는 이동하는 단말을 실시간으로 추적하여 빔 형성을 수행할 수 있는 무선 통신 방법 및 기지국을 제공할 수 있다.
또한, 본 개시는 강화 학습을 기반으로 하여 이동하는 단말의 실시간 추적 속도 및 정확성을 향상시킬 수 있는 무선 통신 방법 및 기지국을 제공할 수 있다.
이상의 설명은 본 개시의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 기술 사상의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 또한, 본 실시예들은 본 개시의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이므로 이러한 실시예에 의하여 본 기술 사상의 범위가 한정되는 것은 아니다. 본 개시의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 개시의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (12)

  1. 무선 통신을 수행하는 기지국에 있어서,
    적어도 하나 이상의 단말로부터 수신되는 수신 신호에 기초하여 상태 정보를 산출하고, 상기 상태 정보에 기초하여 상기 단말의 방향에 관한 방향 추정 정보를 산출하며, 상기 상태 정보 및 상기 방향 추정 정보 중 적어도 하나에 기초하여 학습 보상 정보를 산출하는 학습을 수행하는 학습부; 및
    상기 방향 추정 정보에 기초하여 상기 단말에 대한 통신 빔을 형성하도록 제어하는 제어부를 포함하는 기지국.
  2. 제 1 항에 있어서,
    상기 상태 정보는,
    상기 수신 신호의 채널 이득 정보 및 도래각 정보 중 적어도 하나를 포함하고,
    상기 학습부는,
    상기 채널 이득 정보 및 상기 도래각 정보 중 적어도 하나에 기초하여 상기 방향 추정 정보를 산출하는 기지국.
  3. 제 1 항에 있어서,
    상기 상태 정보는,
    제 1 상태 정보 및 제 2 상태 정보를 포함하고,
    상기 학습부는,
    상기 제 1 상태 정보 및 상기 방향 추정 정보에 기초하여 상기 제 2 상태 정보를 산출하고,
    상기 제 2 상태 정보에 기초하여 상기 제 1 상태 정보를 업데이트하는 기지국.
  4. 제 1 항에 있어서,
    상기 학습부는,
    상기 상태 정보 및 적어도 하나 이상의 방향 정보 중 하나에 기초하여 각각 보상 기대값을 산출하고,
    상기 보상 기대값 중 가장 큰 값을 가지는 보상 기대값의 산출에 사용된 상기 방향 정보를 선택하여, 선택된 상기 방향 정보에 기초하여 상기 방향 추정 정보를 산출하는 기지국.
  5. 제 1 항에 있어서,
    상기 상태 정보는,
    상기 수신 신호의 세기에 관한 수신 신호 세기 정보를 포함하고,
    상기 학습부는,
    상기 수신 신호 세기 정보에 기초하여 상기 학습 보상 정보를 산출하는 기지국.
  6. 제 5 항에 있어서,
    상기 학습부는,
    상기 수신 신호 세기 정보가 미리 설정된 상한 임계값 이상인 경우는 상기 학습 보상 정보를 2로 산출하고,
    상기 수신 신호 세기 정보가 상기 상한 임계값 미만이고, 미리 설정된 하한 임계값 이상인 경우는 상기 학습 보상 정보를 1로 산출하며,
    상기 수신 신호 세기 정보가 상기 하한 임계값 미만인 경우는 상기 학습 보상 정보를 0으로 산출하는 기지국.
  7. 기지국이 무선 통신을 수행하는 방법에 있어서,
    적어도 하나 이상의 단말로부터 수신되는 수신 신호에 기초하여 상태 정보를 산출하고, 상기 상태 정보에 기초하여 상기 단말의 방향에 관한 방향 추정 정보를 산출하며, 상기 상태 정보 및 상기 방향 추정 정보 중 적어도 하나에 기초하여 학습 보상 정보를 산출하는 학습을 수행하는 학습 단계; 및
    상기 방향 추정 정보에 기초하여 상기 단말에 대한 통신 빔을 형성하도록 제어하는 제어 단계를 포함하는 방법.
  8. 제 7 항에 있어서,
    상기 상태 정보는,
    상기 수신 신호의 채널 이득 정보 및 도래각 정보 중 적어도 하나를 포함하고,
    상기 학습 단계는,
    상기 채널 이득 정보 및 상기 도래각 정보 중 적어도 하나에 기초하여 상기 방향 추정 정보를 산출하는 방법.
  9. 제 7 항에 있어서,
    상기 상태 정보는,
    제 1 상태 정보 및 제 2 상태 정보를 포함하고,
    상기 학습 단계는,
    상기 제 1 상태 정보 및 상기 방향 추정 정보에 기초하여 상기 제 2 상태 정보를 산출하고,
    상기 제 2 상태 정보에 기초하여 상기 제 1 상태 정보를 업데이트하는 방법.
  10. 제 7 항에 있어서,
    상기 학습 단계는,
    상기 상태 정보 및 적어도 하나 이상의 방향 정보 중 하나에 기초하여 각각 보상 기대값을 산출하고,
    상기 보상 기대값 중 가장 큰 값을 가지는 보상 기대값의 산출에 사용된 상기 방향 정보를 선택하여, 선택된 상기 방향 정보에 기초하여 상기 방향 추정 정보를 산출하는 방법.
  11. 제 7 항에 있어서,
    상기 상태 정보는,
    상기 수신 신호의 세기에 관한 수신 신호 세기 정보를 포함하고,
    상기 학습 단계는,
    상기 수신 신호 세기 정보에 기초하여 상기 학습 보상 정보를 산출하는 방법.
  12. 제 11 항에 있어서,
    상기 학습 단계는,
    상기 수신 신호 세기 정보가 미리 설정된 상한 임계값 이상인 경우는 상기 학습 보상 정보를 2로 산출하고,
    상기 수신 신호 세기 정보가 상기 상한 임계값 미만이고, 미리 설정된 하한 임계값 이상인 경우는 상기 학습 보상 정보를 1로 산출하며,
    상기 수신 신호 세기 정보가 상기 하한 임계값 미만인 경우는 상기 학습 보상 정보를 0으로 산출하는 방법.
KR1020200185930A 2020-12-29 2020-12-29 무선 통신 방법 및 그 장치 KR20220094581A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200185930A KR20220094581A (ko) 2020-12-29 2020-12-29 무선 통신 방법 및 그 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200185930A KR20220094581A (ko) 2020-12-29 2020-12-29 무선 통신 방법 및 그 장치

Publications (1)

Publication Number Publication Date
KR20220094581A true KR20220094581A (ko) 2022-07-06

Family

ID=82399914

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200185930A KR20220094581A (ko) 2020-12-29 2020-12-29 무선 통신 방법 및 그 장치

Country Status (1)

Country Link
KR (1) KR20220094581A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240055577A (ko) * 2022-10-20 2024-04-29 한양대학교 산학협력단 무선 통신 기지국 및 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240055577A (ko) * 2022-10-20 2024-04-29 한양대학교 산학협력단 무선 통신 기지국 및 방법

Similar Documents

Publication Publication Date Title
US11057131B2 (en) Method and apparatus for measuring synchronization signal block
US10743362B2 (en) Method whereby user equipment operates in wireless communication system, and device for supporting same
US11051204B2 (en) Method and apparatus for performing beam search or beam transmission based on location error information in wireless communication system
US10602390B2 (en) RRM reporting method in wireless communication system, and apparatus supporting same
JP2020502859A (ja) 任意接続チャネル信号を送信する方法とユーザ機器、及び任意接続チャネル信号を受信する方法及び基地局
KR101595430B1 (ko) 무선 통신 시스템에서 측정보고 방법 및 장치
US10616787B2 (en) Method for reporting reference signal measurement information by terminal in wireless communication system, and apparatus supporting same
JP2020511028A (ja) ランダムアクセスプリアンブルを送信する方法とユーザ機器、及びランダムアクセスプリアンブルを受信する方法及び基地局
US10361830B2 (en) Method and apparatus for designing uplink reference signal according to repeating pattern considering cell coverage in wireless communication system
JP2020516191A (ja) 測定実行方法及びユーザ機器、並びに測定設定方法及び基地局
CN107078889B (zh) 无线通信系统中具有多个天线的装置的信号发送方法和装置
US11128419B2 (en) Reference signal reception method and user equipment, and reference signal transmission method and base station
EP3294015B1 (en) Method and device for acquiring uplink synchronism in consideration of beam forming effect in wireless communication system
US11985617B2 (en) Full duplex timing advance enhancements
US20160127030A1 (en) Method for transceiving data symbol using antenna correlation in wireless access system which supports massive antenna
US11206631B2 (en) Apparatus and method for performing positioning in new radio
KR20230027060A (ko) 무선 통신 시스템에서 신호 송수신 방법 및 장치
KR20220094581A (ko) 무선 통신 방법 및 그 장치
KR20230112479A (ko) 통신을 수행하는 방법 및 단말
KR102669662B1 (ko) 무선 통신 기지국 및 방법
KR20200087672A (ko) 차세대 무선망에서 포지셔닝을 수행하는 방법 및 장치
KR102218925B1 (ko) 밀리미터파 통신 기댓값 최대화 기반 채널 추정 장치 및 방법
KR102632602B1 (ko) 채널 추정 방법 및 기지국
KR20200049953A (ko) 차세대 무선망에서 단말의 위치 측위 정보 피드백 방법 및 장치
KR20240002180A (ko) 인공지능 및 머신러닝을 이용한 빔 관리 방법 및 장치