WO2020218634A1

WO2020218634A1 - 응답 기기 결정 방법 및 장치

Info

Publication number: WO2020218634A1
Application number: PCT/KR2019/004919
Authority: WO
Inventors: 박희완; 이동훈; 이봉기; 전유용; 정재웅
Original assignee: 엘지전자 주식회사
Priority date: 2019-04-23
Filing date: 2019-04-23
Publication date: 2020-10-29
Also published as: KR20190096861A; US20200074988A1; US11132991B2

Abstract

응답 기기 결정 방법 및 응답 기기 결정 장치를 개시한다. 본 발명의 일 실시예에 따른 응답 기기 결정 방법은, 디바이스로부터 오디오 신호를 수신하고, 오디오 신호에서 사용자와 복수의 디바이스 간의 거리를 인디케이팅할 수 있는 거리 정보를 추출하고, 기동어에 응답할 응답 디바이스를 결정하되, 미리 정해진 조건에 따라, 거리 정보를 비교하여 응답 디바이스를 결정하는 제1 단계와, 거리 정보를 입력으로 하여 심층 신경망(DNN, Deep Neural Network) 모델에 적용한 결과에 기초하여 응답 디바이스를 결정하는 제2 단계 중 적어도 하나에 기초하여 응답 기기를 결정함으로써, 동일한 기동어를 인식하는 복수의 디바이스 환경에서, 사용자의 의도를 반영하여 사용자가 한번 발화한 기동어에 의해 음성 서비스를 제공할 수 있는 기기를 선택할 수 있다.

Description

응답 기기 결정 방법 및 장치

본 발명은 응답 기기 결정 방법 및 응답 기기 결정 장치에 관한 것으로서, 보다 구체적으로는 사용자의 기동어에 대응하는 응답 기기를 결정할 수 있는 응답 기기 결정 방법 및 장치에 관한 것이다.

음성 인식 장치는 음성 인식 기능을 수행하기 위한 장치이다. 근자에 들어, 이동 통신 기술의 발달에 힘입어, 사용자에 의해 발화된 기동어를 인식하고, 기동어를 분석한 결과를 이용하여 IoT(Internet of Things) 기기(또는 디바이스)들을 제어할 수 있는 다양한 기술이 개발되고 있다.

예를 들면, 사용자가 IoT 기기를 기동시키기 위한 기동어(예를 들면, “하이 엘지”)을 발화하는 경우, 사용자 주변의 IoT 기기들은 기동어를 수신하고, 음성 신호의 형태인 기동어를 분석한다. 해당 기동어가 해당 IoT 기기 자신을 기동하기 위한 기동 신호라고 판단되면, 해당 IoT 기기는 사용자의 다른 명령을 수신할 준비, 즉 기동(또는 웨이크 업, wake up)을 수행한다.

종래의 경우, 사용자의 기동어를 수신할 수 있는 범위에 있는 복수의 IoT 기기들이 기동어를 수신하고 해당 기동어가 IoT 기기 자신을 기동시키기 위한 기동어라고 판단되면, 사용자가 기동하고자 의도한 특정 IoT 기기뿐만 아니라 그 외에 다른 IoT 기기들까지 기동된다는 문제가 있다. 이러한 경우, 사용자는 다른 IoT 기기들이 아닌 특정 IoT 기기에 가까이 접근한 후, 특정 IoT 기기만을 기동시키기 위하여 재차 기동어를 발화하여야 한다는 단점이 있다.

상기한 문제점을 해결하기 위하여, 종래의 경우, IoT 기기 중 마스터 IoT 기기 또는 별도의 서버가 각 IoT 기기로 수신된 기동어를 분석하고, 각 IoT 기기로부터 기동어가 발화된 위치까지의 거리에 기반하여, 사용자로부터 가장 가까운 위치의 IoT 기기로 판단된 IoT 기기만을 기동시키는 기술이 개발되고 있다. 다만, 이러한 기술은 사용자가 사용자로부터 비슷한 거리에 있는 A IoT 기기 및 B IoT 기기 중에서도 A IoT 기기를 바라보면서 A IoT 기기를 향해 기동어를 발화한 경우에, A IoT 기기보다 더 가까운 B IoT 기기를 기동시키게 된다는 문제가 있다.

본 발명은 전술한 필요성 및/또는 문제점을 해결하는 것을 목적으로 한다.

또한, 본 발명은, 복수의 기기에서 동일 기동어가 인식되는 환경에서, 상기 기동어에 응답하여 음성 서비스를 제공할 특정 기기를 선택하는 것을 목적으로 한다.

본 발명의 일 양상에 따른 응답 기기를 결정하는 방법은 복수의 디바이스로부터 오디오 신호를 각각 수신하는 단계; 상기 오디오 신호는 사용자로부터 발화된 동일한 기동어를 인식하여 생성된 신호이고, 상기 각각의 오디오 신호에서 상기 사용자와 상기 복수의 디바이스 간의 거리를 인디케이팅할 수 있는 복수의 거리 정보를 추출하는 단계; 및 상기 추출된 복수의 거리 정보를 이용하여 상기 기동어에 응답할 응답 디바이스를 결정하는 단계를 포함하되, 상기 디바이스를 결정하는 단계는, 미리 정해진 조건에 따라, 상기 추출된 복수의 거리 정보를 비교하여 상기 응답 디바이스를 결정하는 제1 단계와, 상기 추출된 복수의 거리 정보를 입력으로 하여 심층 신경망(DNN, Deep Neural Network) 모델에 적용한 결과에 기초하여 상기 응답 디바이스를 결정하는 제2 단계 중 적어도 하나에 기초하여 결정하는 것을 특징으로 할 수 있다.

상기 추출된 복수의 거리 정보를 최다 득표 산출 방법(MV, Max Voting)을 통해 비교한 결과, 특정 디바이스를 선택할 정도의 임계 상황으로 판단된 경우, 상기 제1 단계를 통해 상기 응답 디바이스를 결정하는 것을 특징으로 할 수 있다.

상기 비교 결과, 임계 상황이 아닌 경우, 상기 제2 단계를 통해 상기 응답 디바이스를 결정하는 것을 특징으로 할 수 있다.

상기 제2 단계를 통해 상기 응답 디바이스를 결정하는 단계는, 상기 추출된 복수의 거리 정보를 상기 DNN 모델에 적용한 결과, 상기 복수의 디바이스 중 각 디바이스가 선택될 확률 사이의 차이가 임계값보다 큰 경우, 상기 DNN 모델을 적용한 결과를 통해 상기 응답 디바이스를 결정하는 것을 특징으로 할 수 있다.

상기 확률 사이의 차이가 상기 임계값보다 작은 경우, 상기 제1 단계와 상기 제2 단계를 조합하여 상기 응답 디바이스를 결정하는 것을 특징으로 할 수 있다.

상기 제1 단계와 상기 제2 단계를 조합하는 단계는, 상기 제1 단계를 적용한 결과 상기 MV를 통해 도출된 각 디바이스가 선택될 확률인 제1 확률 사이의 차이와, 상기 제2 단계를 적용한 결과 상기 DNN 모델을 통해 도출된 각 디바이스가 선택될 확률인 제2 확률 사이의 차이를 비교하여, 상기 응답 디바이스를 결정하는 것을 특징으로 할 수 있다.

상기 각 디바이스의 제1 확률끼리 비교하고, 상기 각 디바이스의 제2 확률끼리 비교한 결과, 상기 제1 확률과 상기 제2 확률 중 확률 사이의 차이가 더 큰 확률에 더 큰 가중치를 부여하여, 상기 제1 단계와 상기 제2 단계를 조합하는 것을 특징으로 할 수 있다.

상기 복수의 디바이스로 상기 결정한 결과를 전송하는 단계;를 더 포함할 수 있다.

상기 복수의 거리 정보는 KSANR(Keyword Speech to Ambient Noise Ratio) 정보, Priori SNR(Signal to Noise Ratio) 정보, 키워드 제곱평균 제곱근 세기(Keyword RMS Power) 정보, 선형 예측 잔여 첨도(Linear Prediction Residual Kurtosis) 정보, 피크 에너지(Peak Energy) 정보 또는 프레임 에너지(Frame Energy) 정보를 포함할 수 있다.

본 발명의 일 양상에 따른 응답 기기를 결정하는 장치는 복수의 디바이스로부터 오디오 신호를 각각 수신하는 통신부; 및 상기 오디오 신호는 사용자로부터 발화된 동일한 기동어를 인식하여 생성된 신호이고, 상기 각각의 오디오 신호에서 상기 사용자와 상기 복수의 디바이스 간의 거리를 인디케이팅할 수 있는 복수의 거리 정보를 추출하고, 상기 추출된 복수의 거리 정보를 이용하여 상기 기동어에 응답할 응답 디바이스를 결정하는 프로세서;를 포함하되, 상기 프로세서는, 미리 정해진 조건에 따라, 상기 추출된 복수의 거리 정보를 비교하여 상기 응답 디바이스를 결정하는 제1 단계와, 상기 추출된 복수의 거리 정보를 입력으로 하여 심층 신경망(DNN, Deep Neural Network) 모델에 적용한 결과에 기초하여 상기 응답 디바이스를 결정하는 제2 단계 중 적어도 하나에 기초하여 결정하는 것을 특징으로 할 수 있다.

상기 프로세서는, 상기 추출된 복수의 거리 정보를 최다 득표 산출 방법(MV, Max Voting)을 통해 비교한 결과, 특정 디바이스를 선택할 정도의 임계 상황으로 판단된 경우, 상기 제1 단계를 통해 상기 응답 디바이스를 결정하는 것을 특징으로 할 수 있다.

상기 프로세서는, 상기 비교 결과, 임계 상황이 아닌 경우, 상기 제2 단계를 통해 상기 응답 디바이스를 결정하는 것을 특징으로 할 수 있다.

상기 프로세서는, 상기 추출된 복수의 거리 정보를 상기 DNN 모델에 적용한 결과, 상기 복수의 디바이스 중 각 디바이스가 선택될 확률 사이의 차이가 임계값보다 큰 경우, 상기 DNN 모델을 적용한 결과를 통해 상기 응답 디바이스를 결정하는 것을 특징으로 할 수 있다.

상기 프로세서는, 상기 확률 사이의 차이가 상기 임계값보다 작은 경우, 상기 제1 단계와 상기 제2 단계를 조합하여 상기 응답 디바이스를 결정하는 것을 특징으로 할 수 있다.

상기 프로세서는, 상기 제1 단계를 적용한 결과 상기 MV를 통해 도출된 각 디바이스가 선택될 확률인 제1 확률 사이의 차이와, 상기 제2 단계를 적용한 결과 상기 DNN 모델을 통해 도출된 각 디바이스가 선택될 확률인 제2 확률 사이의 차이를 비교하여 상기 응답 디바이스를 결정하는 것을 특징으로 할 수 있다.

상기 프로세서는, 상기 각 디바이스의 제1 확률끼리 비교하고, 상기 각 디바이스의 제2 확률끼리 비교한 결과, 상기 제1 확률과 상기 제2 확률 중 확률 사이의 차이가 더 큰 확률에 더 큰 가중치를 부여하여, 상기 제1 단계와 상기 제2 단계를 조합하는 것을 특징으로 할 수 있다.

상기 프로세서는, 상기 통신부를 통해, 상기 복수의 디바이스로 상기 결정한 결과를 전송하는 것을 특징으로 할 수 있다.

본 발명의 또 다른 양상에 따른 컴퓨팅 디바이스는, 프로세서 및 상기 프로세서에 의해 실행 가능한 명령어를 포함하는 메모리를 포함하며, 상기 명령어는, 상기 프로세서로 하여금, 복수의 디바이스로부터 오디오 신호를 각각 수신하는 단계; 상기 오디오 신호는 사용자로부터 발화된 동일한 기동어를 인식하여 생성된 신호이고, 상기 각각의 오디오 신호에서 상기 사용자와 상기 복수의 디바이스 간의 거리를 인디케이팅할 수 있는 복수의 거리 정보를 추출하는 단계; 및 상기 추출된 복수의 거리 정보를 이용하여 상기 기동어에 응답할 응답 디바이스를 결정하는 단계를 수행하도록 하되,상기 디바이스를 결정하는 단계는, 미리 정해진 조건에 따라, 상기 추출된 복수의 거리 정보를 비교하여 상기 응답 디바이스를 결정하는 제1 단계와, 상기 추출된 복수의 거리 정보를 입력으로 하여 심층 신경망(DNN, Deep Neural Network) 모델에 적용한 결과에 기초하여 상기 응답 디바이스를 결정하는 제2 단계 중 적어도 하나에 기초하여 결정하는 것을 특징으로 한다.

본 발명에 따른 응답 기기 결정 방법 및 응답 기기 결정 장치의 효과에 대해 설명하면 다음과 같다.

본 발명의 일 실시예에 따른 응답 기기 결정 방법 및 응답 기기 결정 장치는 동일한 기동어를 인식하는 복수의 디바이스 환경에서, 사용자의 의도를 반영하여 사용자가 한번 발화한 기동어에 의해 음성 서비스를 제공할 수 있는 기기를 선택할 수 있다는 효과가 있다.

또한, 본 발명의 일 실시예에 따른 응답 기기 결정 방법 및 응답 기기 결정 장치는 실제로 기기 자체가 인식하는 오디오 신호의 특징값에 의해 특정 디바이스를 결정하기 어려운 환경에서도, DNN 모델을 적용하여 학습한 결과를 반영함으로써, 사용자가 의도하는 기기를 선택할 수 있다.

또한, 본 발명은, 사용자로부터 발화된 기동어를 수신한 다수의 IoT 기기들 중에서 사용자가 기동하고자 의도한 IoT 기기를 쉽게 결정할 수 있다.

또한, 본 발명은, 기동어를 수신한 다수의 IoT 기기들이 사용자로부터 모두 동일하거나 유사한 거리에 있는 경우에도, 사용자가 의도한 IoT 기기를 정확하게 선택할 수 있다.

또한, 본 발명은, 사용자의 기동어에 대하여 여러 종류의 거리 관련 참조 정보를 학습하여 응답 기기를 결정하기 위한 모델을 생성하고, 사용자의 기동어를 모델에 입력함으로써, 사용자가 기동하고자 의도한 IoT 기기를 보다 정확하고 신속하게 파악할 수 있다.

본 발명의 적용 가능성의 추가적인 범위는 이하의 상세한 설명으로부터 명백해질 것이다. 그러나 본 발명의 사상 및 범위 내에서 다양한 변경 및 수정은 당업자에게 명확하게 이해될 수 있으므로, 상세한 설명 및 본 발명의 바람직한 실시예와 같은 특정 실시예는 단지 예시로 주어진 것으로 이해되어야 한다.

도 1은 본 명세서에서 제안하는 방법들이 적용될 수 있는 무선 통신 시스템의 블록 구성도를 예시한다.

도 2는 5G 통신 시스템에서 사용자 단말과 5G 네트워크의 기본동작의 일 예를 나타낸다.

도 3은 5G 통신 시스템에서 사용자 단말과 5G 네트워크의 응용 동작의 일 예를 나타낸다.

도 4 내지 도 7은 5G 통신을 이용한 사용자 단말의 동작의 일 예를 나타낸다.

도 8은 3GPP 신호 전송/수신 방법의 일례를 나타낸 도이다.

도 9는 SSB 구조를 예시하고, 도 10은 SSB 전송을 예시한다.

도 11은 임의 접속 과정의 일례를 예시한다.

도 12는 상향링크 그랜트의 일례를 나타낸다.

도 13은 상향링크 물리 채널 프로세싱(uplink physical channel processing)의 개념도의 일례를 나타낸다.

도 14는 PUCCH가 전송되는 NR 슬롯의 일례를 나타낸다.

도 15는 하이브리드 빔포밍(hybrid beamforming)을 위한 전송단 및 수신단의 블록도의 일례를 나타낸 도이다.

도 16은 SSB와 CSI-RS를 이용한 빔포밍의 일례를 나타낸다.

도 17은 SSB를 이용한 DL BM 과정의 일례를 나타낸 흐름도이다.

도 18은 CSI-RS를 이용한 DL BM 과정의 또 다른 일례를 나타낸다.

도 19는 UE의 수신 빔 결정 과정의 일례를 나타낸 흐름도이다.

도 20은 BS의 전송 빔 결정 과정의 일례를 나타낸 흐름도이다.

도 21은 도 18의 동작과 관련된 시간 및 주파수 도메인에서의 자원 할당의 일례를 나타낸다.

도 22는 SRS를 이용한 UL BM 과정의 일례를 나타낸다.

도 23은 SRS를 이용한 UL BM 과정의 일례를 나타낸 흐름도이다.

도 24는 프리엠션 지시 방법의 일례를 나타낸 도이다.

도 25는 프리엠션 지시의 시간/주파수 세트(timefrequency set)의 일례를 나타낸다.

도 26은 협대역 동작 및 주파수 다이버시티의 일 예를 나타낸다.

도 27은 MTC에 이용될 수 있는 물리 채널들 및 이들을 이용한 일반적인 신호 전송 방법을 나타낸 도이다.

도 28은 MTC와 기존(legacy) LTE 각각에 대한 스케줄링의 일례를 나타낸 도이다.

도 29는 부반송파 간격이 15kHz인 경우의 프레임 구조의 일 예를 나타낸다.

도 30은 부반송파 간격이 3.75kHz인 경우의 프레임 구조의 일 예를 나타낸다.

도 31은 NB-IoT 상향링크에 대한 자원 그리드의 일 예를 나타낸다.

도 32는 NB-IoT 동작 모드의 일 예를 나타낸다.

도 33은 NB-IoT에 이용될 수 있는 물리 채널들 및 이들을 이용한 일반적인 신호 전송 방법의 일 예를 나타낸 도이다.

도 34는 본 발명의 일 실시예에 따른 IoT 시스템을 도시한다.

도 35는 도 34의 IoT 기기의 세부 구성을 도시한 블록도이다.

도 36은 도 35의 프로세서의 세부 구성에 관한 하나의 예를 도시한 블록도이다.

도 37은 도 35의 프로세서의 세부 구성에 관한 다른 하나의 예를 도시한 블록도이다.

도 38은 도 36 및 도 37의 지능형 에이전트의 개략적인 블럭도를 도시한다.

도 39는 도 34의 응답 기기 결정 장치의 상세한 구성을 도시한 블록도이다.

도 40은 도 39의 프로세서의 상세한 구성을 도시한 블록도이다.

도 41은 본 발명의 다른 일 실시예에 따른 IoT 시스템을 도시한다.

도 42는 도 41의 메인 IoT 기기의 상세한 구성을 도시한다.

도 43은 본 발명의 실시예에 따른 응답 기기 결정 방법을 나타낸 흐름도이다.

도 44는 본 발명의 일 실시예에 따른 도 43의 거리 정보 수신 단계를 상세히 도시한 흐름도이다.

도 45는 본 발명의 다른 실시예에 따른 거리 정보 수신 단계를 상세히 도시한 흐름도이다.

도 46은 도 43의 거리 정보에 기초하여 임계 상황을 판단하는 단계를 상세히 도시한 흐름도이다.

도 47은 도 43의 DNN 모델 이용한 응답 기기 선택 단계를 상세히 도시한 흐름도이다.

도 48은 도 47의 응답 기기 선택 과정을 예시한다.

도 49는 도 47의 S50 단계를 상세히 도시한 흐름도이다.

도 50은 도 49를 참조하여 설명한 S50 단계에 따른 과정을 예시한다.

도 51은 특정 IoT 기기에서 수신한 음성 신호의 세기를 시간 영역에서 나타낸 그래프이다.

도 52는 특정 IoT 기기에서 서로 다른 거리로부터 전달된 음성 신호를 선형 예측 필터(Linear Prediction Filter)에 통과시킨 후 출력된 잔여 신호(residual signal)의 세기를 시간 영역에서 나타낸 그래프이다.

도 53은 특정 IoT 기기에서 서로 다른 거리로부터 전달된 음성 신호를 주파수 영역에서 나타낸 그래프이다.

이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

본 출원에서, "포함한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

A. UE 및 5G 네트워크 블록도 예시

도 1을 참조하면, AI 모듈을 포함하는 장치(AI 장치)를 제1 통신 장치로 정의(도 1의 910, 상세 설명은 단락 N 참조)하고, 프로세서(911)가 AI 상세 동작을 수행할 수 있다.

AI 장치와 통신하는 다른 장치(AI 서버)를 포함하는 5G 네트워크를 제2 통신 장치(도 1의 920, 상세는 단락 N 참조)하고, 프로세서(921)가 AI 상세 동작을 수행할 수 있다.

UE인 제1 통신장치 및 5G 네트워크인 제2 통신 장치를 포함하는 것으로 정의되는 무선 통신 시스템의 상세는 단락 N을 참조할 수 있다.

B. 5G 통신을 이용한 AI 동작

UE는 특정 정보 전송을 5G 네트워크로 전송한다(S1).

그리고, 상기 5G 네트워크는 상기 특정 정보에 대한 5G 프로세싱을 수행한다(S2).

여기서, 5G 프로세싱은 AI 프로세싱을 포함할 수 있다.

그리고, 상기 5G 네트워크는 AI 프로세싱 결과를 포함하는 응답을 상기 UE로 전송한다(S3).

UE는 5G 네트워크와 초기 접속(initial access) 절차를 수행한다(S20). 상기 초기 접속 절차는 단락 F 에서 보다 구체적으로 설명한다.

그리고, 상기 UE는 상기 5G 네트워크와 임의 접속(random access) 절차를 수행한다(S21). 상기 임의 접속 과정은 단락 G에서 보다 구체적으로 설명한다.

그리고, 상기 5G 네트워크는 상기 UE로 특정 정보의 전송을 스케쥴링하기 위한 UL grant를 전송한다(S22). 상기 UE가 UL grant를 수신하는 과정은 단락 H에서 UL 전송/수신 동작에서 보다 구체적으로 설명한다.

그리고, 상기 UE는 상기 UL grant에 기초하여 상기 5G 네트워크로 특정 정보를 전송한다(S23).

그리고, 상기 5G 네트워크는 상기 특정 정보에 대한 5G 프로세싱을 수행한다(S24).

여기서, 5G 프로세싱은 AI 프로세싱을 포함할 수 있다.

그리고, 상기 5G 네트워크는 상기 UE로 상기 특정 정보에 대한 5G 프로세싱 결과의 전송을 스케쥴링하기 위한 DL grant를 전송한다(S25).

그리고, 상기 5G 네트워크는 상기 DL grant에 기초하여 상기 UE로 AI 프로세싱 결과를 포함하는 응답을 전송한다(S26).

C. 5G 통신을 이용한 UE 동작

먼저 도 4를 참고하면, UE는 DL 동기 및 시스템 정보를 획득하기 위해 SSB에 기초하여 5G 네트워크와 초기 접속 절차를 수행한다(S30).

그리고, 상기 UE는 UL 동기 획득 및/또는 UL 전송을 위해 5G 네트워크와 임의 접속 절차를 수행한다(S31).

그리고, 상기 UE는 특정 정보를 전송하기 위해 5G 네트워크로 UL grant를 수신한다(S32).

그리고, 상기 UE는 상기 UL grant에 기초하여 특정 정보를 5G 네트워크로 전송한다(S33).

그리고, 상기 UE는 특정 정보에 대한 응답을 수신하기 위한 DL grant를 5G 네트워크로부터 수신한다(S34).

그리고, 상기 UE는 AI 프로세싱 결과를 포함하는 응답을 DL grant에 기초하여 5G 네트워크로부터 수신한다(S35).

S30에 빔 관리(beam management, BM) 과정이 추가될 수 있으며, S31에 빔 실패 복구(beam failure recovery) 과정이 추가될 수 있으며, S32 내지 S35에는 QCL(quasi-co location) 관계가 추가될 수 있으며, 이에 관한 보다 구체적인 설명은 단락 I에서 보다 구체적으로 설명한다.

다음, 도 5를 참고하면, UE는 DL 동기 및 시스템 정보를 획득하기 위해 SSB에 기초하여 5G 네트워크와 초기 접속 절차를 수행한다(S40).

그리고, 상기 UE는 UL 동기 획득 및/또는 UL 전송을 위해 5G 네트워크와 임의 접속 절차를 수행한다(S41).

그리고, 상기 UE는 설정된 그랜트(configured grant)에 기초하여 특정 정보를 5G 네트워크로 전송한다(S42). 상기 5G 네트워크로부터 UL grant를 수신하는 과정 대신, 설정된 그랜드(configured grant)를 과정은 단락 H에서 보다 구체적으로 설명한다.

그리고, 상기 UE는 특정 정보에 대한 응답을 수신하기 위한 DL grant를 5G 네트워크로부터 수신한다(S43).

그리고, 상기 UE는 AI 프로세싱 결과를 포함하는 응답을 DL grant에 기초하여 5G 네트워크로부터 수신한다(S44).

다음, 도 6을 참고하면, UE는 DL 동기 및 시스템 정보를 획득하기 위해 SSB에 기초하여 5G 네트워크와 초기 접속 절차를 수행한다(S50).

그리고, 상기 UE는 UL 동기 획득 및/또는 UL 전송을 위해 5G 네트워크와 임의 접속 절차를 수행한다(S51).

그리고, 상기 UE는 5G 네트워크로부터 DownlinkPreemption IE를 수신한다(S52).

그리고, 상기 UE는 상기 DownlinkPreemption IE에 기초하여 프리엠션 지시를 포함하는 DCI 포맷 2_1을 5G 네트워크로부터 수신한다(S53).

그리고, 상기 UE는 pre-emption indication에 의해 지시된 자원(PRB 및/또는 OFDM 심볼)에서 eMBB data의 수신을 수행(또는 기대 또는 가정)하지 않는다(S54).

프리엠션 지시(preemption indication) 관련 동작은 단락 J에서 보다 구체적으로 설명한다.

그리고, 상기 UE는 특정 정보를 전송하기 위해 5G 네트워크로 UL grant를 수신한다(S55).

그리고, 상기 UE는 상기 UL grant에 기초하여 특정 정보를 5G 네트워크로 전송한다(S56).

그리고, 상기 UE는 특정 정보에 대한 응답을 수신하기 위한 DL grant를 5G 네트워크로부터 수신한다(S57).

그리고, 상기 UE는 AI 프로세싱 결과를 포함하는 응답을 DL grant에 기초하여 5G 네트워크로부터 수신한다(S58).

다음, 도 7을 참고하면, UE는 DL 동기 및 시스템 정보를 획득하기 위해 SSB에 기초하여 5G 네트워크와 초기 접속 절차를 수행한다(S60).

그리고, 상기 UE는 UL 동기 획득 및/또는 UL 전송을 위해 5G 네트워크와 임의 접속 절차를 수행한다(S61).

그리고, 상기 UE는 특정 정보를 전송하기 위해 5G 네트워크로 UL grant를 수신한다(S62).

상기 UL grant는 상기 특정 정보의 전송에 대한 반복 횟수에 대한 정보를 포함하고, 상기 특정 정보는 상기 반복 횟수에 대한 정보에 기초하여 반복하여 전송된다(S63).

그리고, 상기 UE는 상기 UL grant에 기초하여 특정 정보를 5G 네트워크로 전송한다.

그리고, 특정 정보의 반복 전송은 주파수 호핑을 통해 수행되고, 첫 번째 특정 정보의 전송은 제 1 주파수 자원에서, 두 번째 특정 정보의 전송은 제 2 주파수 자원에서 전송될 수 있다.

상기 특정 정보는 6RB(Resource Block) 또는 1RB(Resource Block)의 협대역(narrowband)을 통해 전송될 수 있다.

그리고, 상기 UE는 특정 정보에 대한 응답을 수신하기 위한 DL grant를 5G 네트워크로부터 수신한다(S64).

그리고, 상기 UE는 AI 프로세싱 결과를 포함하는 응답을 DL grant에 기초하여 5G 네트워크로부터 수신한다(S65).

한편, 도 7에서 mMTC 관련하여 단락 K에서 보다 구체적으로 설명한다.

D. Introduction

이하에서, 하향링크(downlink, DL)는 기지국(base station, BS)에서 사용자 기기(user equipment, UE)로의 통신을 의미하며, 상향링크(uplink, UL)는 UE에서 BS로의 통신을 의미한다. 하향링크에서 전송기(transmitter)는 BS의 일부이고, 수신기(receiver)는 UE의 일부일 수 있다. 상향링크에서 전송기는 UE의 일부이고, 수신기는 BS의 일부일 수 있다. 본 명세에서 UE는 제 1 통신 장치, BS는 제 2 통신 장치로 표현될 수도 있다. BS는 고정국(fixed station), Node B, eNB(evolved-NodeB), gNB(Next Generation NodeB), BTS(base transceiver system), 접속 포인트(access point, AP), 네트워크 혹은 5G (5th generation) 네트워크 노드, AI (Artificial Intelligence) 시스템, RSU(road side unit), 로봇 등의 용어에 의해 대체될 수 있다. 또한, UE는 단말(terminal), MS(Mobile Station), UT(User Terminal), MSS(Mobile Subscriber Station), SS(Subscriber Station), AMS(Advanced Mobile Station), WT(Wireless terminal), MTC(Machine-Type Communication) 장치, M2M(Machine-to-Machine) 장치, D2D(Device-to-Device) 장치, 차량(vehicle), 로봇(robot), AI 모듈 등의 용어로 대체될 수 있다.

이하의 기술은 CDMA(Code Division Multiple Access), FDMA(Frequency Division Multiple Access), TDMA(Time Division Multiple Access), OFDMA(Orthogonal Frequency Division Multiple Access), SC-FDMA(Single Carrier FDMA) 등과 같은 다양한 무선 접속 시스템에 사용될 수 있다. CDMA는 UTRA(Universal Terrestrial Radio Access)나 CDMA2000과 같은 무선 기술로 구현될 수 있다. TDMA는 GSM(Global System for Mobile communications)/GPRS(General Packet Radio Service)/EDGE(Enhanced Data Rates for GSM Evolution)와 같은 무선 기술로 구현될 수 있다. OFDMA는 IEEE 802.11 (Wi-Fi), IEEE 802.16 (WiMAX), IEEE 802-20, E-UTRA(Evolved UTRA) 등과 같은 무선 기술로 구현될 수 있다. UTRA는 UMTS(Universal Mobile Telecommunications System)의 일부이다. 3GPP(3rd Generation Partnership Project) LTE(Long Term Evolution)은 E-UTRA를 사용하는 E-UMTS(Evolved UMTS)의 일부이고 LTE-A(Advanced)/LTE-A pro는 3GPP LTE의 진화된 버전이다. 3GPP NR(New Radio or New Radio Access Technology)는 3GPP LTE/LTE-A/LTE-A pro의 진화된 버전이다.

설명을 명확하게 하기 위해, 3GPP 통신 시스템(예, LTE-A, NR)을 기반으로 설명하지만 본 발명의 기술적 사상이 이에 제한되는 것은 아니다. LTE는 3GPP TS 36.xxx Release 8 이후의 기술을 의미한다. 세부적으로, 3GPP TS 36.xxx Release 10 이후의 LTE 기술은 LTE-A로 지칭되고, 3GPP TS 36.xxx Release 13 이후의 LTE 기술은 LTE-A pro로 지칭된다. 3GPP 5G (5th generation) 기술은 TS 36.xxx Release 15 이후의 기술 및 TS 38.XXX Release 15 이후의 기술을 의미하며, 이 중 TS 38.xxx Release 15 이후의 기술은 3GPP NR로 지칭되고, TS 36.xxx Release 15 이후의 기술은 enhanced LTE로 지칭될 수 있다. "xxx"는 표준 문서 세부 번호를 의미한다. LTE/NR은 3GPP 시스템으로 통칭될 수 있다.

본 명세(disclosure)에서, 노드(node)라 함은 UE와 통신하여 무선 신호를 전송/수신할 수 있는 고정된 포인트(point)을 말한다. 다양한 형태의 BS들이 그 명칭에 관계없이 노드로서 이용될 수 있다. 예를 들어, BS, NB, eNB, 피코-셀 eNB(PeNB), 홈 eNB(HeNB), 릴레이(relay), 리피터(repeater) 등이 노드가 될 수 있다. 또한, 노드는 BS가 아니어도 될 수 있다. 예를 들어, 무선 리모트 헤드(radio remote head, RRH), 무선 리모트 유닛(radio remote unit, RRU)가 될 수 있다. RRH, RRU 등은 일반적으로 BS의 전력 레벨(power level)에 비해 더욱 낮은 전력 레벨을 갖는다. 일 노드에는 최소 하나의 안테나가 설치된다. 상기 안테나는 물리 안테나를 의미할 수도 있으며, 안테나 포트, 가상 안테나, 또는 안테나 그룹을 의미할 수도 있다. 노드는 포인트(point)라고 불리기도 한다.

본 명세에서 셀(cell)이라 함은 하나 이상의 노드가 통신 서비스를 제공하는 일정 지리적 영역 혹은 무선 자원을 말한다. 지리적 영역의 "셀"은 노드가 반송파를 이용하여 서비스를 제공할 수 있는 커버리지(coverage)라고 이해될 수 있으며, 무선 자원의 "셀"은 상기 반송파에 의해 설정(configure)되는 주파수 크기인 대역폭(bandwidth, BW)와 연관된다. 노드가 유효한 신호를 전송할 수 있는 범위인 하향링크 커버리지와 UE로부터 유효한 신호를 수신할 수 있는 범위인 상향링크 커버리지는 해당 신호를 나르는 반송파에 의해 의존하므로 노드의 커버리지는 상기 노드가 사용하는 무선 자원의 "셀"의 커버리지와 연관되기도 한다. 따라서 "셀"이라는 용어는 때로는 노드에 의한 서비스의 커버리지를, 때로는 무선 자원을, 때로는 상기 무선 자원을 이용한 신호가 유효한 세기로 도달할 수 있는 범위를 의미하는 데 사용될 수 있다.

본 명세에서 특정 셀과 통신한다고 함은 상기 특정 셀에 통신 서비스를 제공하는 BS 혹은 노드와 통신하는 것을 의미할 수 있다. 또한, 특정 셀의 하향링크/상향링크 신호는 상기 특정 셀에 통신 서비스를 제공하는 BS 혹은 노드로부터의/로의 하향링크/상향링크 신호를 의미한다. UE에게 상향링크/하향링크 통신 서비스를 제공하는 셀을 특히 서빙 셀(serving cell)이라고 한다. 또한, 특정 셀의 채널 상태/품질은 상기 특정 셀에 통신 서비스를 제공하는 BS 혹은 노드와 UE 사이에 형성된 채널 혹은 통신 링크의 채널 상태/품질을 의미한다.

한편, 무선 자원과 연관된 "셀"은 하향링크 자원(DL resources)와 상향링크 자원(UL resources)의 조합, 즉, DL 컴포넌트 반송파(component carrier, CC) 와 UL CC의 조합으로 정의될 수 있다. 셀은 DL 자원 단독, 또는 DL 자원과 UL 자원의 조합으로 설정될(configured) 수도 있다. 반송파 집성(carrier aggregation)이 지원되는 경우, DL 자원(또는, DL CC)의 반송파 주파수(carrier frequency)와 UL 자원(또는, UL CC)의 반송파 주파수(carrier frequency) 사이의 링키지(linkage)는 해당 셀을 통해 전송되는 시스템 정보(system information)에 의해 지시될 수 있다. 여기서, 반송파 주파수는 각 셀 혹은 CC의 중심 주파수(center frequency)와 같을 수도 혹은 다를 수도 있다. 이하에서는 1차 주파수(primary frequency) 상에서 동작하는 셀을 1차 셀(primary cell, Pcell) 혹은 PCC로 지칭하고, 2차 주파수(Secondary frequency) 상에서 동작하는 셀을 2차 셀(secondary cell, Scell) 혹은 SCC로 칭한다. Scell이라 함은 UE가 BS와 RRC(Radio Resource Control) 연결 수립(connection establishment) 과정을 수행하여 상기 UE와 상기 BS 간에 RRC 연결이 수립된 상태, 즉, 상기 UE가 RRC_CONNECTED 상태가 된 후에 설정될 수 있다. 여기서 RRC 연결은 UE의 RRC와 BS의 RRC가 서로 RRC 메시지를 주고 받을 수 있는 통로를 의미할 수 있다. Scell은 UE에게 추가적인 무선 자원을 제공하기 위해 설정될 수 있다. UE의 성능(capabilities)에 따라, Scell이 Pcell과 함께, 상기 UE를 위한 서빙 셀의 모음(set)을 형성할 수 있다. RRC_CONNECTED 상태에 있지만 반송파 집성이 설정되지 않았거나 반송파 집성을 지원하지 않는 UE의 경우, Pcell로만 설정된 서빙 셀이 단 하나 존재한다.

셀은 고유의 무선 접속 기술을 지원한다. 예를 들어, LTE 셀 상에서는 LTE 무선 접속 기술(radio access technology, RAT)에 따른 전송/수신이 수행되며, 5G 셀 상에서는 5G RAT에 따른 전송/수신이 수행된다.

반송파 집성 기술은 광대역 지원을 위해 목표 대역폭(bandwidth)보다 작은 시스템 대역폭을 가지는 복수의 반송파들을 집성하여 사용하는 기술을 말한다. 반송파 집성은 각각이 시스템 대역폭(채널 대역폭이라고도 함)을 형성하는 복수의 반송파 주파수들을 사용하여 하향링크 혹은 상향링크 통신을 수행한다는 점에서, 복수의 직교하는 부반송파들로 분할된 기본 주파수 대역을 하나의 반송파 주파수에 실어 하향링크 혹은 상향링크 통신을 수행하는 OFDMA 기술과 구분된다. 예를 들어, OFDMA 혹은 직교 주파수 분할 다중화(orthogonal frequency division multiplexing, OFDM)의 경우에는 일정 시스템 대역폭을 갖는 하나의 주파수 대역이 일정 부반송파 간격을 갖는 복수의 부반송파들로 분할되고, 정보/데이터가 상기 복수의 부반송파들 내에서 매핑되며, 상기 정보/데이터가 맵핑된 상기 주파수 대역은 주파수 상향 변환(upconversion)을 거쳐 상기 주파수 대역의 반송파 주파수로 전송된다. 무선 반송파 집성의 경우에는 각각이 자신의 시스템 대역폭 및 반송파 주파수를 갖는 주파수 대역들이 동시에 통신에 사용될 수 있으며, 반송파 집성에 사용되는 각 주파수 대역은 일정 부반송파 간격을 갖는 복수의 부반송파들로 분할될 수 있다.

3GPP 기반 통신 표준은 물리 계층(physical layer)의 상위 계층(upper layer)(예, 매제 접속 제어(medium access control, MAC) 계층, 무선 링크 제어(radio link control, RLC) 계층, 패킷 데이터 수렴 프로토콜(protocol data convergence protocol, PDCP) 계층, 무선 자원 제어(radio resource control, RRC) 계층, 서비스 데이터 적응 프로토콜(service data adaptation protocol, SDAP), 비-접속 층(non-access stratum, NAS) 계층)로부터 기원한 정보를 나르는 자원 요소(resource element)들에 대응하는 하향링크 물리 채널들과, 물리 계층에 의해 사용되나 상위 계층으로부터 기원하는 정보를 나르지 않는 자원 요소들에 대응하는 하향링크 물리 신호들을 정의한다. 예를 들어, 물리 하향링크 공유 채널(physical downlink shared channel, PDSCH), 물리 브로드캐스트 채널(physical broadcast channel, PBCH), 물리 멀티캐스트 채널(physical multicast channel, PMCH), 물리 제어 포맷 지시자 채널(physical control format indicator channel, PCFICH), 물리 하향링크 제어 채널(physical downlink control channel, PDCCH)이 하향링크 물리 채널들로서 정의되어 있으며, 참조 신호와 동기 신호가 하향링크 물리 신호들로서 정의되어 있다. 파일럿(pilot)이라고도 지칭되는 참조 신호(reference signal, RS)는 BS와 UE가 서로 알고 있는 기정의된 특별한 파형의 신호를 의미하는데, 예를 들어, 셀 특정적 RS(cell specific RS), UE-특정적 RS(UE-specific RS, UE-RS), 포지셔닝 RS(positioning RS, PRS), 채널 상태 정보 RS(channel state information RS, CSI-RS), 복조 참조 신호(demodulation reference signal, DMRS)가 하향링크 참조 신호들로서 정의된다. 한편, 3GPP 기반 통신 표준은 상위 계층으로부터 기원한 정보를 나르는 자원 요소들에 대응하는 상향링크 물리 채널들과, 물리 계층에 의해 사용되나 상위 계층으로부터 기원하는 정보를 나르지 않는 자원 요소들에 대응하는 상향링크 물리 신호들을 정의하고 있다. 예를 들어, 물리 상향링크 공유 채널(physical uplink shared channel, PUSCH), 물리 상향링크 제어 채널(physical uplink control channel, PUCCH), 물리 임의 접속 채널(physical random access channel, PRACH)가 상향링크 물리 채널로서 정의되며, 상향링크 제어/데이터 신호를 위한 복조 참조 신호(demodulation reference signal, DMRS)와 상향링크 채널 측정에 사용되는 사운딩 참조 신호(sounding reference signal, SRS)가 정의된다.

본 명세에서 물리 하향링크 제어 채널(physical downlink control channel, PDCCH)와 물리 하향링크 공유 채널(physical downlink shared channel, PDSCH)는 물리 계층의 하향링크 제어 정보(downlink control information, DCI)와 하향링크 데이터를 나르는 시간-주파수 자원의 집합 혹은 자원요소의 집합을 각각 의미할 수 있다. 또한, 물리 상향링크 제어 채널(physical uplink control channel), 물리 상향링크 공유 채널(physical uplink shared channel, PUSCH) 및 물리 임의 접속 채널(physical random access channel)는 물리 계층의 상향링크 제어 정보(uplink control information, UCI), 상향링크 데이터 및 임의 접속 신호를 나르는 시간-주파수 자원의 집합 혹은 자원요소의 집합을 각각 의미한다. 이하에서 UE가 상향링크 물리 채널(예, PUCCH, PUSCH, PRACH)를 전송한다는 것은 해당 상향링크 물리 채널 상에서 혹은 상향링크 물리 채널을 통해서 UCI, 상향링크 데이터, 또는 임의 접속 신호를 전송한다는 것을 의미할 수 있다. BS가 상향링크 물리 채널을 수신한다는 것은 해당 상향링크 물리 채널 상에서 혹은 통해서 DCI, 상향링크 데이터, 또는 임의 접속 신호를 수신한다는 것을 의미할 수 있다. BS가 하향링크 물리 채널(예, PDCCH, PDSCH)를 전송한다는 것은 해당 하향링크 물리 채널 상에서 혹은 하향링크 물리 채널을 통해서 DCI 혹은 하향링크 데이터를 전송한다는 것과 동일한 의미로 사용된다. UE가 하향링크 물리 채널을 수신한다는 것은 해당 하향링크 물리 채널 상에서 혹은 통해서 DCI 혹은 하향링크 데이터를 수신한다는 것을 의미할 수 있다.

본 명세에서 수송 블록(transport block)은 물리 계층을 위한 페이로드(payload)이다. 예를 들어, 상위 계층 혹은 매체 접속 제어(medium access control, MAC) 계층으로부터 물리 계층에 주어진 데이터가 기본적으로 수송 블록으로 지칭된다.

본 명세에서 HARQ(Hybrid Automatic Repeat and reQuest)는 오류 제어 방법의 일종이다. 하향링크를 통해 전송되는 HARQ-ACK(HARQ acknowledgement)은 상향링크 데이터에 대한 오류 제어를 위해 사용되며, 상향링크를 통해 전송되는 HARQ-ACK은 하향링크 데이터에 대한 오류 제어를 위해 사용된다. HARQ 동작을 수행하는 전송단은 데이터(예, 수송 블록, 코드워드)를 전송한 후 긍정 확인(ACK; acknowledgement)를 기다린다. HARQ 동작을 수행하는 수신단은 데이터를 제대로 받은 경우만 긍정 확인(ACK)을 보내며, 수신 데이터에 오류가 생긴 경우 부정 확인(negative ACK, NACK)을 보낸다. 전송단이 ACK을 수신한 경우에는 (새로운) 데이터를 전송할 수 있고, NACK을 수신한 경우에는 데이터를 재전송할 수 있다. BS가 스케줄링 정보와 상기 스케줄링 정보에 따른 데이터를 전송한 뒤, UE로부터 ACK/NACK을 수신하고 재전송 데이터가 전송될 때까지 시간 딜레이(delay)가 발생한다. 이러한 시간 딜레이는 채널 전파 지연(channel propagation delay), 데이터 디코딩(decoding)/인코딩(encoding)에 걸리는 시간으로 인해 발생한다. 따라서, 현재 진행 중인 HARQ 프로세스가 끝난 후에 새로운 데이터를 보내는 경우, 시간 딜레이로 인해 데이터 전송에 공백이 발생한다. 따라서, 시간 딜레이 구간 동안에 데이터 전송에 공백이 생기는 것을 방지하기 위하여 복수의 독립적인 HARQ 프로세스가 사용된다. 예를 들어, 초기 전송과 재전송 사이에 7번의 전송 기회(occasion)가 있는 경우, 통신 장치는 7개의 독립적인 HARQ 프로세스를 운영하여 공백 없이 데이터 전송을 수행할 수 있다. 복수의 병렬 HARQ 프로세스들을 활용하면, 이전 UL/DL 전송에 대한 HARQ 피드백을 기다리는 동안 UL/DL 전송이 연속적으로 수행될 수 있다.

본 명세에서 채널 상태 정보(channel state information, CSI)는 UE와 안테나 포트 사이에 형성되는 무선 채널(혹은 링크라고도 함)의 품질을 나타낼 수 있는 정보를 통칭한다. CSI는 채널 품질 지시자(channel quality indicator, CQI), 프리코딩 행렬 지시자 (precoding matrix indicator, PMI), CSI-RS 자원 지시자(CSI-RS resource indicator, CRI), SSB 자원 지시자(SSB resource indicator, SSBRI), 레이어 지시자(layer indicator, LI), 랭크 지시자(rank indicator, RI) 또는 참조 신호 수신 품질(reference signal received power, RSRP) 중 적어도 하나를 포함할 수 있다.

본 명세에서 주파수 분할 다중화(frequency division multiplexing, FDM)라 함은 신호/채널/사용자들을 서로 다른 주파수 자원에서 전송/수신하는 것을 의미할 수 있으며, 시간 분할 다중화(time division multiplexing, TDM)이라 함은 신호/채널/사용자들을 서로 다른 시간 자원에서 전송/수신하는 것을 의미할 수 있다.

본 발명에서 주파수 분할 듀플렉스(frequency division duplex, FDD)는 상향링크 반송파에서 상향링크 통신이 수행되고 상기 상향링크용 반송파에 링크된 하향링크용 반송파에서 하향링크 통신이 수행되는 통신 방식을 말하며, 시간 분할 듀플렉스(time division duplex, TDD)라 함은 상향링크 통신과 하향링크 통신이 동일 반송파에서 시간을 나누어 수행되는 통신 방식을 말한다.

본 명세에서 사용된 배경기술, 용어, 약어 등에 관해서는 본 발명 이전에 공개된 표준 문서에 기재된 사항을 참조할 수 있다. 예를 들어, 다음 문서를 참조할 수 있다.

3GPP LTE

- 3GPP TS 36.211: Physical channels and modulation

- 3GPP TS 36.212: Multiplexing and channel coding

- 3GPP TS 36.213: Physical layer procedures

- 3GPP TS 36.214: Physical layer; Measurements

- 3GPP TS 36.300: Overall description

- 3GPP TS 36.304: User Equipment (UE) procedures in idle mode

- 3GPP TS 36.314: Layer 2 - Measurements

- 3GPP TS 36.321: Medium Access Control (MAC) protocol

- 3GPP TS 36.322: Radio Link Control (RLC) protocol

- 3GPP TS 36.323: Packet Data Convergence Protocol (PDCP)

- 3GPP TS 36.331: Radio Resource Control (RRC) protocol

- 3GPP TS 23.303: Proximity-based services (Prose); Stage 2

- 3GPP TS 23.285: Architecture enhancements for V2X services

- 3GPP TS 23.401: General Packet Radio Service (GPRS) enhancements for Evolved Universal Terrestrial Radio Access Network (E-UTRAN) access

- 3GPP TS 23.402: Architecture enhancements for non-3GPP accesses

- 3GPP TS 23.286: Application layer support for V2X services; Functional architecture and information flows

- 3GPP TS 24.301: Non-Access-Stratum (NAS) protocol for Evolved Packet System (EPS); Stage 3

- 3GPP TS 24.302: Access to the 3GPP Evolved Packet Core (EPC) via non-3GPP access networks; Stage 3

- 3GPP TS 24.334: Proximity-services (ProSe) User Equipment (UE) to ProSe function protocol aspects; Stage 3

- 3GPP TS 24.386: User Equipment (UE) to V2X control function; protocol aspects; Stage 3

3GPP NR

- 3GPP TS 38.211: Physical channels and modulation

- 3GPP TS 38.212: Multiplexing and channel coding

- 3GPP TS 38.213: Physical layer procedures for control

- 3GPP TS 38.214: Physical layer procedures for data

- 3GPP TS 38.215: Physical layer measurements

- 3GPP TS 38.300: NR and NG-RAN Overall Description

- 3GPP TS 38.304: User Equipment (UE) procedures in idle mode and in RRC inactive state

- 3GPP TS 38.321: Medium Access Control (MAC) protocol

- 3GPP TS 38.322: Radio Link Control (RLC) protocol

- 3GPP TS 38.323: Packet Data Convergence Protocol (PDCP)

- 3GPP TS 38.331: Radio Resource Control (RRC) protocol

- 3GPP TS 37.324: Service Data Adaptation Protocol (SDAP)

- 3GPP TS 37.340: Multi-connectivity; Overall description

- 3GPP TS 23.287: Application layer support for V2X services; Functional architecture and information flows

- 3GPP TS 23.501: System Architecture for the 5G System

- 3GPP TS 23.502: Procedures for the 5G System

- 3GPP TS 23.503: Policy and Charging Control Framework for the 5G System; Stage 2

- 3GPP TS 24.501: Non-Access-Stratum (NAS) protocol for 5G System (5GS); Stage 3

- 3GPP TS 24.502: Access to the 3GPP 5G Core Network (5GCN) via non-3GPP access networks

- 3GPP TS 24.526: User Equipment (UE) policies for 5G System (5GS); Stage 3

E. 3GPP 신호 전송/수신 방법

도 8은 3GPP 신호 전송/수신 방법의 일례를 나타낸 도이다.

도 8을 참고하면, UE는 전원이 켜지거나 새로이 셀에 진입한 경우 BS와 동기를 맞추는 등의 초기 셀 탐색(initial cell search) 작업을 수행한다(S201). 이를 위해, UE는 BS로부터 1차 동기 채널(primary synchronization channel, P-SCH) 및 2차 동기 채널(secondary synchronization channel, S-SCH)을 수신하여 BS와 동기를 맞추고, 셀 ID 등의 정보를 획득할 수 있다. LTE 시스템과 NR 시스템에서 P-SCH와 S-SCH는 각각 1차 동기 신호(primary synchronization signal, PSS)와 2차 동기 신호(secondary synchronization signal, SSS)로 불린다. 상기 초기 셀 탐색 절차는 하기 F.에서 더 상세히 설명된다.

초기 셀 탐색 후, UE는 BS로부터 물리 브로드캐스트 채널(physical broadcast channel, PBCH)를 수신하여 셀 내 브로드캐스트 정보를 획득할 수 있다. 한편, UE는 초기 셀 탐색 단계에서 하향링크 참조 신호(downlink reference Signal, DL RS)를 수신하여 하향링크 채널 상태를 확인할 수 있다.

초기 셀 탐색을 마친 UE는 물리 하향링크 제어 채널(physical downlink control channel, PDCCH) 및 상기 PDCCH에 실린 정보에 따라 물리 하향링크 공유 채널(physical downlink shared Channel, PDSCH)을 수신함으로써 좀더 구체적인 시스템 정보를 획득할 수 있다(S202).

한편, BS에 최초로 접속하거나 신호 전송을 위한 무선 자원이 없는 경우 UE는 BS에 대해 임의 접속 과정(random access procedure, RACH)을 수행할 수 있다(단계 S203 내지 단계 S206). 이를 위해, UE는 물리 임의 접속 채널(physical random access Channel, PRACH)을 통해 특정 시퀀스를 프리앰블로서 전송하고(S203 및 S205), PDCCH 및 대응하는 PDSCH를 통해 프리앰블에 대한 임의 접속 응답(random access response, RAR) 메시지를 수신할 수 있다(S204 및 S206). 경쟁 기반 RACH의 경우, 추가적으로 충돌 해결 과정(contention resolution procedure)를 수행할 수 있다. 상기 임의 접속 과정은 하기 G.에서 더 상세히 설명된다.

상술한 바와 같은 과정을 수행한 UE는 이후 일반적인 상향링크/하향링크 신호 전송 과정으로서 PDCCH/PDSCH 수신(S207) 및 물리 상향링크 공유 채널(physical uplink shared Channel, PUSCH)/물리 상향링크 제어 채널(physical uplink control channel, PUCCH) 전송(S208)을 수행할 수 있다. 특히 UE는 PDCCH를 통하여 하향링크 제어 정보(downlink control information, DCI)를 수신한다.

UE는 해당 탐색 공간 설정(configuration)들에 따라 서빙 셀 상의 하나 이상의 제어 요소 세트(control element set, CORESET)들에 설정된 모니터링 기회(occasion)들에서 PDCCH 후보(candidate)들의 세트를 모니터링한다. UE가 모니터할 PDCCH 후보들의 세트는 탐색 공간 세트들의 면에서 정의되며, 탐색 공간 세트는 공통 탐색 공간 세트 또는 UE-특정 탐색 공간 세트일 수 있다. CORESET은 1~3개 OFDM 심볼들의 시간 지속기간을 갖는 (물리) 자원 블록들의 세트로 구성된다. 네트워크는 UE가 복수의 CORESET들을 갖도록 설정할 수 있다. UE는 하나 이상의 탐색 공간 세트들 내 PDCCH 후보들을 모니터링한다. 여기서 모니터링이라 함은 탐색 공간 내 PDCCH 후보(들)에 대한 디코딩 시도하는 것을 의미한다. UE가 탐색 공간 내 PDCCH 후보들 중 하나에 대한 디코딩에 성공하면, 상기 UE는 해당 PDCCH 후보에서 PDCCH를 검출했다고 판단하고, 상기 검출된 PDCCH 내 DCI를 기반으로 PDSCH 수신 혹은 PUSCH 전송을 수행한다.

PDCCH는 PDSCH 상의 DL 전송들 및 PUSCH 상의 UL 전송들을 스케줄링하는 데 사용될 수 있다. 여기서 PDCCH 상의 DCI는 하향링크 공유 채널과 관련된, 변조(modulation) 및 코딩 포맷과 자원 할당(resource allocation) 정보를 적어도 포함하는 하향링크 배정(assignment)(즉, downlink grant; DL grant), 또는 상향링크 공유 채널과 관련된, 변조 및 코딩 포맷과 자원 할당 정보를 포함하는 상향링크 그랜트(uplink grant; UL grant)를 포함한다.

F. 초기 접속 (Initial Access, IA) 과정

SSB (Synchronization Signal Block) 전송 및 관련 동작

도 9는 SSB 구조를 예시한다. UE는 SSB에 기반하여 셀 탐색(search), 시스템 정보 획득, 초기 접속을 위한 빔 정렬, DL 측정 등을 수행할 수 있다. SSB는 SS/PBCH(Synchronization Signal/Physical Broadcast channel) 블록과 혼용된다.

도 9를 참조하면, SSB는 PSS, SSS와 PBCH로 구성된다. SSB는 4개의 연속된 OFDM 심볼들에 구성되며, OFDM 심볼별로 PSS, PBCH, SSS/PBCH 또는 PBCH가 전송된다. PSS와 SSS는 각각 1개의 OFDM 심볼과 127개의 부반송파들로 구성되고, PBCH는 3개의 OFDM 심볼과 576개의 부반송파들로 구성된다. PBCH에는 폴라(Polar) 코드를 기반으로 인코딩/디코딩되고, QPSK(Quadrature Phase Shift Keying)에 따라 변조(modulation)/복조(demodulation)된다. OFDM 심볼 내 PBCH는 PBCH의 복소 변조 값이 매핑되는 데이터 자원 요소(resource element, RE)들과 상기 PBCH를 위한 복조 참조 신호(demodulation reference signal, DMRS)가 매핑되는 DMRS RE들로 구성된다. OFDM 심볼의 자원 블록별로 3개의 DMRS RE가 존재하며, DMRS RE 사이에는 3개의 데이터 RE가 존재한다.

셀 탐색(search)

셀 탐색은 UE가 셀의 시간/주파수 동기를 획득하고, 상기 셀의 셀 ID(Identifier)(예, Physical layer Cell ID, PCI)를 검출하는 과정을 의미한다. PSS는 셀 ID 그룹 내에서 셀 ID를 검출하는데 사용되고, SSS는 셀 ID 그룹을 검출하는데 사용된다. PBCH는 SSB (시간) 인덱스 검출 및 하프-프레임 검출에 사용된다.

UE의 셀 탐색 과정은 하기 표 1과 같이 정리될 수 있다.

	Type of Signals	Operations
1st step	PSS	* SS/PBCH block (SSB) symbol timing acquisition* Cell ID detection within a cell ID group(3 hypothesis)
2nd Step	SSS	* Cell ID group detection (336 hypothesis)
3rd Step	PBCH DMRS	* SSB index and Half frame (HF) index(Slot and frame boundary detection)
4th Step	PBCH	* Time information (80 ms, System Frame Number (SFN), SSB index, HF)* Remaining Minimum System Information (RMSI) Control resource set (CORESET)/Search space configuration
5th Step	PDCCH and PDSCH	* Cell access information* RACH configuration

336개의 셀 ID 그룹이 존재하고, 셀 ID 그룹 별로 3개의 셀 ID가 존재한다. 총 1008개의 셀 ID가 존재한다. 셀의 셀 ID가 속한 셀 ID 그룹에 관한 정보는 상기 셀의 SSS를 통해 제공/획득되며, 상기 셀 ID 내 336개 셀들 중 상기 셀 ID에 관한 정보는 PSS를 통해 제공/획득된다도 10은 SSB 전송을 예시한다.

SSB는 SSB 주기(periodicity)에 맞춰 주기적으로 전송된다. 초기 셀 탐색 시에 UE가 가정하는 SSB 기본 주기는 20ms로 정의된다. 셀 접속 후, SSB 주기는 네트워크(예, BS)에 의해 {5ms, 10ms, 20ms, 40ms, 80ms, 160ms} 중 하나로 설정될 수 있다. SSB 주기의 시작 부분에 SSB 버스트(burst) 세트가 구성된다. SSB 버스트 세트는 5ms 시간 윈도우(즉, 하프-프레임)로 구성되며, SSB는 SS 버스트 세트 내에서 최대 L번 전송될 수 있다. SSB의 최대 전송 횟수 L은 반송파의 주파수 대역에 따라 다음과 같이 주어질 수 있다. 하나의 슬롯은 최대 2개의 SSB를 포함한다.

- For frequency range up to 3 GHz, L = 4

- For frequency range from 3GHz to 6 GHz, L = 8

- For frequency range from 6 GHz to 52.6 GHz, L = 64

SS 버스트 세트 내에서 SSB 후보의 시간 위치가 부반송파 간격에 따라 정의될 수 있다. SSB 후보의 시간 위치는 SSB 버스트 세트(즉, 하프-프레임) 내에서 시간 순서에 따라 0 ~ L-1로 인덱싱된다(SSB 인덱스).

반송파의 주파수 폭(span) 내에서 다수의 SSB들이 전송될 있다. 이러한 SSB들의 물리 계층 셀 식별자들은 고유(unique)할 필요는 없으며, 다른 SSB들은 다른 물리 계층 셀 식별자를 가질 수 있다.

UE는 SSB를 검출함으로써 DL 동기를 획득할 수 있다. UE는 검출된 SSB (시간) 인덱스에 기반하여 SSB 버스트 세트의 구조를 식별할 수 있고, 이에 따라 심볼/슬롯/하프-프레임 경계를 검출할 수 있다. 검출된 SSB가 속하는 프레임/하프-프레임의 번호는 시스템 프레임 번호(system frame number, SFN) 정보와 하프-프레임 지시 정보를 이용하여 식별될 수 있다.

구체적으로, UE는 PBCH로부터 상기 PBCH가 속한 프레임에 대한 10 비트 SFN을 획득할 수 있다. 다음으로, UE는 1 비트 하프-프레임 지시 정보를 획득할 수 있다. 예를 들어, UE가 하프-프레임 지시 비트가 0으로 세팅된 PBCH를 검출한 경우에는 상기 PBCH가 속한 SSB가 프레임 내 첫 번째 하프-프레임에 속한다고 판단할 수 있고, 하프-프레임 지시 비트가 1로 세팅된 PBCH를 검출한 경우에는 상기 PBCH가 속한 SSB가 프레임 내 두 번째 하프-프레임에 속한다고 판단할 수 있다. 마지막으로, UE는 DMRS 시퀀스와 PBCH가 나르는 PBCH 페이로드에 기반하여 상기 PBCH가 속한 SSB의 SSB 인덱스를 획득할 수 있다.

시스템 정보 (system information; SI ) 획득

SI는 마스터 정보 블록(master information block, MIB)와 복수의 시스템 정보 블록(system information block, SIB)들로 나눠진다. MIB 외의 SI는 RMSI(Remaining Minimum System Information)으로 지칭될 수 있다. 자세한 사항은 다음을 참조할 수 있다.

- MIB는 SIB1(SystemInformationBlock1)을 나르는 PDSCH를 스케줄링하는 PDCCH의 모니터링을 위한 정보/파라미터를 포함하며 SSB의 PBCH를 통해 BS에 의해 전송된다. 예를 들어, UE는 MIB에 기반하여 Type0-PDCCH 공통 탐색 공간(common search space)을 위한 CORESET(Control Resource Set)이 존재하는지 확인할 수 있다. Type0-PDCCH 공통 탐색 공간은 PDCCH 탐색 공간의 일종이며, SI 메시지를 스케줄링하는 PDCCH를 전송하는 데 사용된다. Type0-PDCCH 공통 탐색 공간이 존재하는 경우, UE는 MIB 내의 정보(예, pdcch-ConfigSIB1)에 기반하여 (i) CORESET을 구성하는 복수의 인접(contiguous) 자원 블록들 및 하나 이상의 연속된(consecutive) 심볼들과 (ii) PDCCH 기회(occasion)(예, PDCCH 수신을 위한 시간 도메인 위치)를 결정할 수 있다. Type0-PDCCH 공통 탐색 공간이 존재하지 않는 경우, pdcch-ConfigSIB1은 SSB/SIB1이 존재하는 주파수 위치와 SSB/SIB1이 존재하지 않는 주파수 범위에 관한 정보를 제공한다.

- SIB1은 나머지 SIB들(이하, SIBx, x는 2 이상의 정수)의 가용성(availability) 및 스케줄링(예, 전송 주기, SI-윈도우 크기)과 관련된 정보를 포함한다. 예를 들어, SIB1은 SIBx가 주기적으로 브로드캐스트되는지 on-demand 방식에 의해 UE의 요청에 의해 제공되는지 여부를 알려줄 수 있다. SIBx가 on-demand 방식에 의해 제공되는 경우, SIB1은 UE가 SI 요청을 수행하는 데 필요한 정보를 포함할 수 있다. SIB1은 PDSCH를 통해 전송되며, SIB1을 스케줄링 하는 PDCCH는 Type0-PDCCH 공통 탐색 공간을 통해 전송되며, SIB1은 상기 PDCCH에 의해 지시되는 PDSCH를 통해 전송된다.

- SIBx는 SI 메시지에 포함되며 PDSCH를 통해 전송된다. 각각의 SI 메시지는 주기적으로 발생하는 시간 윈도우(즉, SI-윈도우) 내에서 전송된다.

G. 임의 접속(Random Access) 과정

UE의 임의 접속 과정은 표 2 및 도 11과 같이 요약할 수 있다.

	신호의 타입	획득되는 동작/정보
제 1단계	UL에서의 PRACH 프리앰블(preamble)	* 초기 빔 획득* 임의 접속 프리앰블 ID의 임의 선택
제 2단계	PDSCH 상의 임의 접속 응답	* 타이밍 어드밴스 정보* 임의 접속 프리앰블 ID* 초기 UL 그랜트, 임시 C-RNTI
제 3단계	PUSCH 상의 UL 전송	* RRC 연결 요청* UE 식별자
제 4단계	DL 상의 경쟁 해결(contention resolution)	* 초기 접속을 위한 PDCCH 상의 임시 C-RNTI* RRC_CONNECTED인 UE에 대한 PDCCH 상의 C-RNTI

임의 접속 과정은 다양한 용도로 사용된다. 예를 들어, 임의 접속 과정은 네트워크 초기 접속, 핸드오버, UE-트리거드(triggered) UL 데이터 전송에 사용될 수 있다. UE는 임의 접속 과정을 통해 UL 동기와 UL 전송 자원을 획득할 수 있다. 임의 접속 과정은 경쟁 기반(contention-based) 임의 접속 과정과 경쟁 프리(contention free) 임의 접속 과정으로 구분된다. 도 11은 임의 접속 과정의 일례를 예시한다. 특히 도 11은 경쟁 기반 임의 접속 과정을 예시한다.

먼저, UE가 UL에서 임의 접속 과정의 Msg1로서 임의 접속 프리앰블을 PRACH를 통해 전송할 수 있다.

서로 다른 두 길이를 가지는 임의 접속 프리앰블 시퀀스들이 지원된다. 긴 시퀀스 길이 839는 1.25 및 5 kHz의 부반송파 간격(subcarrier spacing)에 대해 적용되며, 짧은 시퀀스 길이 139는 15, 30, 60 및 120 kHz의 부반송파 간격에 대해 적용된다.

다수의 프리앰블 포맷들이 하나 또는 그 이상의 RACH OFDM 심볼들 및 서로 다른 순환 프리픽스(cyclic prefix) (및/또는 가드 시간(guard time))에 의해 정의된다. 셀을 위한 RACH 설정(configuration)이 상기 셀의 시스템 정보에 포함되어 UE에게 제공된다. 상기 RACH 설정은 PRACH의 부반송파 간격, 이용 가능한 프리앰블들, 프리앰블 포맷 등에 관한 정보를 포함한다. 상기 RACH 설정은 SSB들과 RACH (시간-주파수) 자원들 간의 연관 정보를 포함한다. UE는 검출한 혹은 선택한 SSB와 연관된 RACH 시간-주파수 자원에서 임의 접속 프리앰블을 전송한다.

RACH 자원 연관을 위한 SSB의 임계값이 네트워크에 의해 설정될 수 있으며, SSB 기반으로 측정된 참조 신호 수신 전력(reference signal received power, RSRP)가 상기 임계값을 충족하는 SSB를 기반으로 RACH 프리앰블의 전송 또는 재전송이 수행된다. 예를 들어, UE는 임계값을 충족하는 SSB(들) 중 하나를 선택하고, 선택된 SSB에 연관된 RACH 자원을 기반으로 RACH 프리앰블을 전송 또는 재전송할 수 있다.

BS가 UE로부터 임의 접속 프리앰블을 수신하면, BS는 임의 접속 응답(random access response, RAR) 메시지(Msg2)를 상기 UE에게 전송한다. RAR을 나르는 PDSCH를 스케줄링하는 PDCCH는 임의 접속(random access, RA) 무선 네트워크 임시 식별자(radio network temporary identifier, RNTI)(RA-RNTI)로 CRC 마스킹되어 전송된다. RA-RNTI로 마스킹된 PDCCH를 검출한 UE는 상기 PDCCH가 나르는 DCI가 스케줄링하는 PDSCH로부터 RAR을 수신할 수 있다. UE는 자신이 전송한 프리앰블, 즉, Msg1에 대한 임의 접속 응답 정보가 상기 RAR 내에 있는지 확인한다. 자신이 전송한 Msg1에 대한 임의 접속 정보가 존재하는지 여부는 상기 UE가 전송한 프리앰블에 대한 임의 접속 프리앰블 ID가 존재하는지 여부에 의해 판단될 수 있다. Msg1에 대한 응답이 없으면, UE는 전력 램핑(power ramping)을 수행하면서 RACH 프리앰블을 소정의 횟수 이내에서 재전송할 수 있다. UE는 가장 최근의 경로 손실 및 전력 램핑 카운터를 기반으로 프리앰블의 재전송에 대한 PRACH 전송 전력을 계산한다.

임의 접속 응답 정보는 UL 동기화를 위한 타이밍 어드밴스 정보, UL 그랜트 및 UE 임시UE가 PDSCH 상에서 자신에 대한 임의 접속 응답 정보를 수신하면, 상기 UE는 UL 동기화를 위한 타이밍 어드밴스(timing advance) 정보, 초기 UL 그랜트, UE 임시(temporary) 셀 RNTI(cell RNTI, C-RNTI)를 알 수 있다. 상기 타이밍 어드밴스 정보는 상향링크 신호 전송 타이밍을 제어하는 데 사용된다. UE에 의한 PUSCH/PUCCH 전송이 네트워크 단에서 서브프레임 타이밍과 더 잘 정렬(align)되도록 하기 위해, 네트워크(예, BS)는 PUSCH/PUCCH/SRS 수신 및 서브프레임 간 시간 차이를 측정하고 이를 기반으로 타이밍 어드밴스 정보를 보낼 수 있다. 상기 UE는 임의 접속 응답 정보를 기반으로 상향링크 공유 채널 상에서 UL 전송을 임의 접속 과정의 Msg3로서 전송할 수 있다. Msg3은 RRC 연결 요청 및 UE 식별자를 포함할 수 있다. Msg3에 대한 응답으로서, 네트워크는 Msg4를 전송할 수 있으며, 이는 DL 상에서의 경쟁 해결 메시지로 취급될 수 있다. Msg4를 수신함으로써, UE는 RRC 연결된 상태에 진입할 수 있다.

한편, 경쟁-프리 임의 접속 과정은 UE가 다른 셀 혹은 BS로 핸드오버 하는 과정에서 사용되거나, BS의 명령에 의해 요청되는 경우에 수행될 수 있다. 경쟁-프리 임의 접속 과정의 기본적인 과정은 경쟁 기반 임의 접속 과정과 유사하다. 다만, UE가 복수의 임의 접속 프리앰블들 중 사용할 프리앰블을 임의로 선택하는 경쟁 기반 임의 접속 과정과 달리, 경쟁-프리 임의 접속 과정의 경우에는 UE가 사용할 프리앰블(이하 전용 임의 접속 프리앰블)이 BS에 의해 상기 UE에게 할당된다. 전용 임의 접속 프리앰블에 대한 정보는 RRC 메시지(예, 핸드오버 명령)에 포함되거나 PDCCH 오더(order)를 통해 UE에게 제공될 수 있다. 임의 접속 과정이 개시되면 UE는 전용 임의 접속 프리앰블을 BS에게 전송한다. 상기 UE가 상기 BS로부터 임의 접속 과정을 수신하면 상기 임의 접속 과정은 완료(complete)된다.

앞서 언급한 바와 같이 RAR 내 UL 그랜트는 UE에게 PUSCH 전송을 스케줄링한다. RAR 내 UL 그랜트에 의한 초기 UL 전송을 나르는 PUSCH는 Msg3 PUSCH로 칭하기도 한다. RAR UL 그랜트의 컨텐츠는 MSB에서 시작하여 LSB에서 끝나며, 표 3에서 주어진다.

RAR UL grant field	Number of bits
Frequency hopping flag	1
Msg3 PUSCH frequency resource allocation	12
Msg3 PUSCH time resource allocation	4
Modulation and coding scheme (MCS)	4
Transmit power control (TPC) for Msg3 PUSCH	3
CSI request	1

TPC 명령은 Msg3 PUSCH의 전송 전력을 결정하는 데 사용되며, 예를 들어, 표 4에 따라 해석된다.

TPC command	value [dB]
0	-6
1	-4
2	-2
3	0
4	2
5	4
6	6
7	8

경쟁 프리 임의 접속 과정에서, RAR UL 그랜트 내 CSI 요청 필드는 UE가 비주기적 CSI 보고를 해당 PUSCH 전송에 포함시킬 것인지 여부를 지시한다. Msg3 PUSCH 전송을 위한 부반송파 간격은 RRC 파라미터에 의해 제공된다. UE는 동일한 서비스 제공 셀의 동일한 상향링크 반송파 상에서 PRACH 및 Msg3 PUSCH을 전송하게 될 것이다. Msg3 PUSCH 전송을 위한 UL BWP는 SIB1(SystemInformationBlock1)에 의해 지시된다.

H. DL 및 UL 전송/수신 동작

DL 전송/수신 동작

하향링크 그랜트(downlink grant)(하향링크 배정(assignment)이라고도 함)는 (1) 동적 그랜트(dynamic)와 (2) 설정된 그랜트(configured grant)로 구분될 수 있다. 동적 그랜트(dynamic grant)는 자원의 활용을 최대화하기 위한 것으로 BS에 의한 동적 스케줄링 기반의 데이터 전송/수신 방법을 의미한다.

BS는 DCI를 통해 하향링크 전송을 스케줄링한다. UE는 BS로부터 하향링크 스케줄링을 위한(즉, PDSCH의 스케줄링 정보를 포함하는) DCI를 PDCCH 상에서 수신한다. 하향링크 스케줄링을 위해 DCI 포맷 1_0 또는 1_1이 이용될 수 있다. 하향링크 스케줄링을 위한 DCI 포맷 1_1에는, 예를 들어, 다음과 같은 정보가 포함될 수 있다: DCI 포맷 식별자(identifier for DCI format), 대역폭 파트 지시자(bandwidth part indicator), 주파수 도메인 자원 배정(frequency domain resource assignment), 시간 도메인 자원 배정(time domain resource assignment), MCS.

UE는 DCI 내 MCS 필드를 기반으로 PDSCH에 대한 변조 차수(modulation order), 목표 코드 레이트(target code rate), 수송 블록 크기(transport block size)를 결정할 수 있다. UE는 주파수 도메인 자원 할당 정보 및 시간 도메인 자원 할당 정보에 따른 시간-주파수 자원에서 PDSCH를 수신할 수 있다.

DL 설정된 그랜트는 준-지속적 스케줄링(semi-persistent scheduling, SPS)라고도 한다. UE는 BS로부터 DL 데이터의 전송을 위한 자원 설정(resource configuration)을 포함하는 RRC 메시지를 수신할 수 있다. DL SPS의 경우에는 실제 DL 설정된 그랜트가 PDCCH에 의해 제공되며 상기 PDCCH에 의해 활성화 혹은 활성해제(deactivate)된다. DL SPS가 설정되는 경우, BS로부터의 RRC 시그널링을 통해 적어도 다음 파라미터들이 UE에게 제공된다: 활성화, 활성해제 및 재전송을 위한 설정된 스케줄링 RNTI(configured scheduling RNTI, CS-RNTI); 및 주기. DL SPS의 실제 DL 그랜트는 CS-RNTI에 어드레스된 PDCCH 내 DCI에 의해 UE에게 제공된다. UE는 CS-RNTI에 어드레스된 PDCCH 내 DCI의 특정 필드들이 스케줄링 활성화를 위한 특정 값으로 세팅되어 있으면, 상기 CS-RNTI와 연관된 SPS를 활성화한다. UE는 SPS를 기반으로 PDSCH를 통한 하향링크 데이터를 수신할 수 있다.

UL 전송/수신 동작

BS는 상향링크 스케줄링 정보를 포함하는 DCI를 UE에게 전송한다. 상기 UE는 BS로부터 상향링크 스케줄링을 위한(즉, PUSCH의 스케줄링 정보를 포함하는) DCI를 PDCCH 상에서 수신한다. 상향링크 스케줄링을 위해 DCI 포맷 0_0 또는 0_1이 이용될 수 있다. 상향링크 스케줄링을 위한 DCI 포맷 0_1에는 다음과 같은 정보가 포함될 수 있다: DCI 포맷 식별자(Identifier for DCI format), 대역폭 파트 지시자(Bandwidth part indicator), 주파수 도메인 자원 배정(frequency domain resource assignment), 시간 도메인 자원 배정(time domain resource assignment), MCS.

상기 UE는 상기 DCI를 기반으로 상향링크 데이터를 PUSCH 상에서 전송한다. 예를 들어, UE가 DCI 포맷 0_0 또는 0_1을 포함하는 PDCCH를 검출(detect)하면, 해당 DCI에 의한 지시에 따라 해당 PUSCH를 전송한다. PUSCH 전송을 위해 2가지의 전송 방식이 지원된다: 코드북(codebook) 기반 전송 및 비-코드북(non-codebook) 기반 전송.

RRC 파라미터 'txConfig'가 'codebook'으로 세팅된 RRC 메시지를 수신하면, UE는 코드북 기반 전송으로 설정된다. 반면, RRC 파라미터 'txConfig'가 'nonCodebook'으로 세팅된 RRC 메시지를 수신하면, UE는 비-코드북 기반 전송으로 설정된다. PUSCH는 DCI 포맷 0_0에 의해, DCI 포맷 0_1에 의해 또는 RRC 시그널링에 의해 준-정적으로(semi-statically) 스케줄링될 수 있다.

상향링크 그랜트(uplink grant)는 (1) 동적 그랜트(dynamic grant)와 (2) 설정된 그랜트(configured grant)로 구분될 수 있다.

도 12는 상향링크 그랜트의 일례를 나타낸다. 도 12(a)는 동적 그랜트를 기반으로 한 UL 전송 과정을 예시하고, 도 12(b)는 설정된 그랜트를 기반으로 한 UL 전송 과정을 예시한다.

동적 그랜트(dynamic grant)는 자원의 활용을 최대화하기 위한 것으로 BS에 의한 동적 스케줄링 기반의 데이터 전송/수신 방법을 의미한다. 이는 UE가 전송할 데이터가 있는 경우 우선적으로 BS에게 상향링크 자원 할당을 요청하고, BS로부터 할당된 상향링크 자원만을 이용하여 데이터를 전송할 수 있음을 의미한다. 상향링크의 무선 자원의 효율적인 사용을 위해서는, BS가 각 UE가 어떤 종류의 데이터를 얼마만큼 상향링크로 전송할 것인지를 알아야 한다. 따라서, UE가 직접 자신이 전송하고자 하는 상향링크 데이터에 관한 정보를 BS으로 전달하고, 상기 BS는 이에 기반하여 상기 UE에게 상향링크 자원을 할당할 수 있다. 이 경우, UE가 BS로 전달하는 상향링크 데이터에 관한 정보는 버퍼 상태 보고(buffer status report, BSR)라고 하며, BSR은 UE 자신의 버퍼에 저장되어 있는 상향링크 데이터의 양과 관련이 있다.

도 12(a)를 참고하면, UE가 BSR의 전송에 이용 가능한 상향링크 무선 자원을 가지고 있지 않을 때, 실제 데이터(actual data)를 위한 상향링크 자원 할당 과정을 예시한다. 예를 들어, UL 데이터 전송에 이용 가능한 UL 그랜트가 없는 UE는 PUSCH를 통해 BSR을 전송할 수도 없으므로, PUCCH를 통한 스케줄링 요청 전송을 시작으로 상향링크 데이터를 위한 자원을 요청해야 하며, 이 경우 5단계의 상향링크 자원 할당 과정이 사용된다.

도 12(a)를 참고하면, BSR를 전송하기 위한 PUSCH 자원이 없는 경우, UE는 PUSCH 자원을 할당받기 위해 먼저 스케줄링 요청(scheduling request, SR)을 BS에 전송한다. SR은 보고 이벤트(reporting event)가 발생되었으나 UE에게 이용 가능한 PUSCH 자원이 없는 경우, UE가 상향링크 전송을 위한 PUSCH 자원을 BS에게 요청하기 위해 이용된다. SR을 위한 유효한(valid) PUCCH 자원이 있는지 여부에 따라 UE는 PUCCH를 통해 SR을 전송하거나 또는 임의 접속 과정을 개시한다. UE가 BS로부터 UL 그랜트를 수신하면, 상기 UL 그랜트에 의해 할당된 PUSCH 자원을 통해 BSR을 BS로 전송한다. BS는 BSR을 기반으로 UE가 상향링크로 전송할 데이터의 양을 확인하고 UL 그랜트를 UE에 전송한다. 상기 UL 그랜트를 수신한 UE는 상기 UL 그랜트를 기반으로 PUSCH를 통해 실제 상향링크 데이터를 BS로 전송한다.

도 12(b)를 참고하면, UE는 BS로부터 UL 데이터의 전송을 위한 자원 설정(resource configuration)을 포함하는 RRC 메시지를 수신한다. NR 시스템에서는 2가지 타입의 UL 설정된 그랜트가 있다: 타입 1 및 타입 2. UL 설정된 그랜트 타입 1의 경우에는 실제 UL 그랜트(예, 시간 자원, 주파수 자원)가 RRC 시그널링에 의해 제공되며, UL 설정된 그랜트 타입 2의 경우에는 실제 UL 그랜트가 PDCCH에 의해 제공되며 상기 PDCCH에 의해 활성화 혹은 활성해제(deactivate)된다. 설정된 그랜트 타입 1이 설정되는 경우, BS로부터의 RRC 시그널링을 통해 적어도 다음 파라미터들이 UE에게 제공된다: 재전송을 위한 CS-RNTI; 설정된 그랜트 타입 1의 주기(periodicity); 슬롯 내 PUSCH를 위한 시작 심볼 인덱스 S 및 심볼 길이 L에 관한 정보; 시간 도메인에서 SFN=0에 대한 자원의 오프셋을 나타내는 시간 도메인 오프셋; 변조 차수, 타겟 코드 레이트 및 수송 블록 크기를 나타내는 MCS 인덱스. 설정된 그랜트 타입 2가 설정되는 경우, BS로부터의 RRC 시그널링을 통해 적어도 다음 파라미터들이 UE에게 제공된다: 활성화, 활성해제 및 재전송을 위한 CS-RNTI; 설정된 그랜트 타입 2의 주기. 설정된 그랜트 타입 2의 실제 UL 그랜트는 CS-RNTI에 어드레스된 PDCCH 내 DCI에 의해 UE에게 제공된다. UE는 CS-RNTI에 어드레스된 PDCCH 내 DCI의 특정 필드들이 스케줄링 활성화를 위한 특정 값으로 세팅되어 있으면, 상기 CS-RNTI와 연관된 설정된 그랜트 타입 2를 활성화한다.

UE는 타입 1 혹은 타입 2에 따른 설정된 그랜트을 기반으로 PUSCH를 통한 상향링크 전송을 수행할 수 있다.

설정된 그랜트(configured grant)에 의한 초기 전송을 위한 자원은 하나 이상의 UE들 사이에서 공유되거나 또는 공유되지 않을 수 있다.

도 13에 도시된 블록들 각각은 전송 장치의 물리 계층 블록 내 각 모듈에서 수행될 수 있다. 보다 구체적으로, 도 13에서의 상향링크 신호 처리는 본 명세에서 기재하는 UE/BS의 프로세서에서 수행될 수 있다. 도 13를 참조하면, 상향링크 물리 채널 프로세싱은 스크램블링(scrambling), 변조 매핑(modulation mapping), 레이어 매핑(layer mapping), 트랜스폼 프리코딩(transform precoding), 프리코딩(precoding), 자원 요소 매핑(resource element mapping), SC-FDMA 신호 생성 (SC-FDMA signal generation)의 과정을 거쳐 수행될 수 있다. 위의 각 과정은 전송 장치의 각 모듈에서 별도로 또는 함께 수행될 수 있다. 상기 트랜스폼 프리코딩은 파형(waveform)의 피크-to-평균 전력 비율(peak-to-average power ratio, PAPR)을 감소시키는 특별한 방식으로 UL 데이터를 스프레드하는 것이며, 이산 푸리에 변환(discrete Fourier transform, DFT)의 일종이다. DFT 스프레딩을 수행하는 트랜스폼 프리코딩과 함께 CP를 사용하는 OFDM을 DFT-s-OFDM이라 하고, DFT 스프레딩없이 CP를 사용하는 OFDM을 CP-OFDM이라 한다. NR 시스템에서 UL에 대해 가능화(enable)되면 트랜스폼 프리코딩이 선택적으로(optionally) 적용될 수 있다. 즉, NR 시스템은 UL 파형을 위해 2가지 옵션을 지원하며, 그 중 하나는 CP-OFDM이고, 다른 하나는 DFT-s-OFDM이다. UE가 CP-OFDM을 UL 전송 파형으로 사용해야 하는지 아니면 DFT-s-OFDM을 UL 전송 파형으로 사용해야 하는지는 RRC 파라미터들을 통해 BS로부터 UE에게 제공된다. 도 13은 DFT-s-OFDM을 위한 상향링크 물리 채널 프로세싱 개념도이며, CP-OFDM의 경우에는 도 13의 프로세스들 중 트랜스폼 프리코딩이 생략된다.

위의 각 과정에 대해 보다 구체적으로 살펴보면, 전송 장치는 하나의 코드워드에 대해, 코드워드 내 부호화된 비트(coded bits)를 스크램블링 모듈에 의해 스크램블링한 후 물리 채널을 통해 전송할 수 있다. 여기서 코드워드는 수송 블록을 인코딩하여 얻어진다. 스크램블된 비트는 변조 매핑 모듈에 의해 복소 값 변조 심볼로 변조된다. 상기 변조 매핑 모듈은 상기 스크램블된 비트들을 기결정된 변조 방식에 따라 변조하여 신호 성상(signal constellation) 상의 위치를 표현하는 복소 값 변조 심볼로 배치할 수 있다. pi/2-BPSK(pi/2-Binary Phase Shift Keying), m-PSK(m-Phase Shift Keying) 또는 m-QAM(m-Quadrature Amplitude Modulation) 등이 상기 부호화된 데이터의 변조에 이용될 수 있다. 상기 복소 값 변조 심볼은 레이어 매핑 모듈에 의해 하나 이상의 전송 레이어로 맵핑될 수 있다. 각 레이어 상의 복소 값 변조 심볼은 안테나 포트 상에서의 전송을 위해 프리코딩 모듈에 의해 프리코딩될 수 있다. 트랜스폼 프리코딩이 가능화된 경우, 프리코딩 모듈은 도 13에 도시된 바와 같이 복소 값 변조 심볼들에 대한 트랜스폼 프리코딩(transform precoding)을 수행한 이후에 프리코딩을 수행할 수 있다. 상기 프리코딩 모듈은 상기 복소 값 변조 심볼들을 다중 전송 안테나에 따른 MIMO 방식으로 처리하여 안테나 특정 심볼들을 출력하고, 상기 안테나 특정 심볼들을 해당 자원 요소 매핑 모듈로 분배할 수 있다. 프리코딩 모듈의 출력 z는 레이어 매핑 모듈의 출력 y를 NХM의 프리코딩 행렬 W와 곱해 얻을 수 있다. 여기서, N은 안테나 포트의 개수, M은 레이어의 개수이다. 자원 요소 매핑 모듈은 각 안테나 포트에 대한 복조 값 변조 심볼들을 전송을 위해 할당된 자원 블록 내에 있는 적절한 자원 요소에 맵핑한다. 자원 요소 매핑 모듈은 복소 값 변조 심볼들을 적절한 부반송파들에 매핑하고, 사용자에 따라 다중화할 수 있다. SC-FDMA 신호 생성 모듈(트랜스폼 프리코딩이 불능화(disable)된 경우에는 CP-OFDM 신호 생성 모듈)은 복소 값 변조 심볼을 특정 변조 방식 예컨대, OFDM 방식으로 변조하여 복소 값 시간 도메인(complex-valued time domain) OFDM(Orthogonal Frequency Division Multiplexing) 심볼 신호를 생성할 수 있다. 상기 신호 생성 모듈은 안테나 특정 심볼에 대해 IFFT(Inverse Fast Fourier Transform)를 수행할 수 있으며, IFFT가 수행된 시간 도메인 심볼에는 CP가 삽입될 수 있다. OFDM 심볼은 디지털-아날로그(digital-to-analog) 변환, 주파수 상향변환(upconversion) 등을 거쳐, 각 전송 안테나를 통해 수신 장치로 전송된다. 상기 신호 생성 모듈은 IFFT 모듈 및 CP 삽입기, DAC(Digital-to-Analog Converter), 주파수 상향 변환기(frequency uplink converter) 등을 포함할 수 있다.

수신 장치의 신호 처리 과정은 전송 장치의 신호 처리 과정의 역으로 구성될 수 있다. 구체적인 사항은 위의 내용과 도 13을 참고하기로 한다.

다음으로, PUCCH에 대해 살펴본다.

PUCCH는 다수의 포맷(format)들을 지원하며, PUCCH 포맷들은 심볼 지속기간(symbol duration), 페이로드 크기(payload size), 그리고 다중화(multiplexing) 여부 등에 의해 분류될 수 있다. 아래 표 5는 PUCCH 포맷들을 예시한 것이다.

Format	PUCCH length in OFDM symbols	Number of bits	Usage	Etc.
0	1-2	≤2	1	Sequence selection
1	4-14	≤2	2	Sequence modulation
2	1-2	>2	4	CP-OFDM
3	4-14	>2	8	DFT-s-OFDM(no UE multiplexing)
4	4-14	>2	16	DFT-s-OFDM(Pre DFT orthogonal cover code(OCC))

표 5의 PUCCH 포맷들은 크게 (1) 짧은(short) PUCCH와, (2) 긴(long) PUCCH로 구분될 수 있다. PUCCH 포맷 0 및 2는 긴 PUCCH에 포함되고, PUCCH 포맷 1, 3 및 4는 긴 PUCCH에 포함될 수 있다.도 14는 PUCCH가 전송되는 NR 슬롯의 일례를 나타낸다.

UE는 하나의 슬롯 내 서로 다른 심볼들에서 서빙 셀(serving cell)을 통해 1 또는 2개의 PUCCH들을 전송한다. UE가 하나의 슬롯에서 2개의 PUCCH들을 전송하는 경우, 상기 2개의 PUCCH들 중 적어도 하나는 짧은 PUCCH의 구조를 가진다.

I. eMBB (enhanced Mobile Broadband communication)

NR 시스템의 경우, 전송/수신 안테나가 크게 증가하는 거대(massive) 다중 입력 다중 출력(multiple input multiple output, MIMO) 환경이 고려될 수 있다. 즉, 거대 MIMO 환경이 고려됨에 따라, 전송/수신 안테나의 수는 수십 또는 수백 개 이상으로 증가할 수 있다. 한편, NR 시스템에서는 above 6GHz 대역, 즉, 밀리미터 주파수 대역에서의 통신을 지원한다. 하지만 밀리미터 주파수 대역은 너무 높은 주파수 대역을 이용하는 것으로 인해 거리에 따른 신호 감쇄가 매우 급격하게 나타나는 주파수 특성을 갖는다. 따라서, 적어도 6GHz 이상의 대역을 사용하는 NR 시스템은 급격한 전파 감쇄 특성을 보상하기 위해 신호 전송을 전방향이 아닌 특정 방향으로 에너지를 모아서 전송하는 빔포밍 기법을 사용한다. 거대 MIMO 환경에서는 하드웨어 구현의 복잡도를 줄이고, 다수의 안테나들을 이용한 성능 증가, 자원 할당의 유연성, 주파수별 빔 제어의 용이를 위해, 빔 형성 가중치 벡터(weight vector)/프리코딩 벡터(precoding vector)를 적용하는 위치에 따라 아날로그 빔포밍(analog beamforming) 기법과 디지털 빔포밍(digital beamforming) 기법이 결합된 하이브리드(hybrid) 형태의 빔포밍 기법이 요구된다.

하이브리드 빔포밍(Hybrid Beamforming)

밀리미터 주파수 대역에서 좁은 빔을 형성하기 위한 방법으로, BS나 UE에서 많은 수의 안테나에 적절한 위상차를 이용하여 동일한 신호를 전송함으로써 특정한 방향에서만 에너지가 높아지게 하는 빔포밍 방식이 주로 고려되고 있다. 이와 같은 빔포밍 방식에는 디지털 기저대역(baseband) 신호에 위상차를 만드는 디지털 빔포밍, 변조된 아날로그 신호에 시간 지연(즉, 순환 천이)을 이용하여 위상차를 만드는 아날로그 빔포밍, 디지털 빔포밍과 아날로그 빔포밍을 모두 이용하는 하이브리드 빔포밍 등이 있다. 안테나 요소별로 전송 파워 및 위상 조절이 가능하도록 RF 유닛(혹은 트랜시버 유닛(transceiver unit, TXRU))을 가지면 주파수 자원별로 독립적인 빔포밍이 가능하다. 그러나 100여 개의 안테나 요소 모두에 RF 유닛를 설치하기에는 가격 측면에서 실효성이 떨어지는 문제를 있다. 즉, 밀리미터 주파수 대역은 급격한 전파 감쇄 특성을 보상하기 위해 많은 수의 안테나가 사용해야 하고, 디지털 빔포밍은 안테나 수에 해당하는 만큼 RF 컴포넌트(예, 디지털 아날로그 컨버터(DAC), 믹서(mixer), 전력 증폭기(power amplifier), 선형 증폭기(linear amplifier) 등)를 필요로 하므로, 밀리미터 주파수 대역에서 디지털 빔포밍을 구현하려면 통신 기기의 가격이 증가하는 문제점이 있다. 그러므로 밀리미터 주파수 대역과 같이 안테나의 수가 많이 필요한 경우에는 아날로그 빔포밍 혹은 하이브리드 빔포밍 방식의 사용이 고려된다. 아날로그 빔포밍 방식은 하나의 TXRU에 다수 개의 안테나 요소를 매핑하고 아날로그 위상 천이기(analog phase shifter)로 빔(beam)의 방향을 조절한다. 이러한 아날로그 빔포밍 방식은 전체 대역에 있어서 하나의 빔 방향만을 만들 수 있어 주파수 선택적 빔포밍(beamforming, BF)을 해줄 수 없는 단점이 있다. 하이브리드 BF는 디지털 BF와 아날로그 BF의 중간 형태로 Q개의 안테나 요소보다 적은 개수인 B개의 RF 유닛을 갖는 방식이다. 하이브리드 BF의 경우, B개의 RF 유닛과 Q개의 안테나 요소의 연결 방식에 따라서 차이는 있지만, 동시에 전송할 수 있는 빔의 방향은 B개 이하로 제한되게 된다.

빔 관리(Beam Management, BM)

BM 과정은 하향링크(downlink, DL) 및 상향링크(uplink, UL) 전송/수신에 사용될 수 있는 BS(혹은 전송 및 수신 포인트(transmission and reception point, TRP)) 및/또는 UE 빔들의 세트(set)를 획득하고 유지하기 위한 과정들로서, 아래와 같은 과정 및 용어를 포함할 수 있다.

- 빔 측정(beam measurement): BS 또는 UE가 수신된 빔포밍 신호의 특성을 측정하는 동작.

- 빔 결정(beam determination): BS 또는 UE가 자신의 전송 빔(Tx beam) / 수신 빔(Rx beam)을 선택하는 동작.

- 빔 스위핑(beam sweeping): 미리 결정된 방식으로 일정 시간 인터벌 동안 전송 및/또는 수신 빔을 이용하여 공간 도메인을 커버하는 동작.

- 빔 보고(beam report): UE가 빔 측정에 기반하여 빔포밍된 신호의 정보를 보고하는 동작.

BM 과정은 (1) SSB 또는 CSI-RS를 이용하는 DL BM 과정과, (2) SRS(sounding reference signal)을 이용하는 UL BM 과정으로 구분될 수 있다. 또한, 각 BM 과정은 Tx 빔을 결정하기 위한 Tx 빔 스위핑과 Rx 빔을 결정하기 위한 Rx 빔 스위핑을 포함할 수 있다.

DL BM 과정

DL BM 과정은 (1) BS에 의한 빔포밍된 DL RS들(예, CSI-RS 또는 SSB) 전송과, (2) UE에 의한 빔 보고(beam reporting)를 포함할 수 있다.

여기서, 빔 보고는 선호하는(preferred) DL RS ID(들) 및 이에 대응하는 참조 신호 수신 전력(reference signal received power, RSRP)를 포함할 수 있다. DL RS ID는 SSBRI(SSB Resource Indicator) 또는 CRI(CSI-RS Resource Indicator)일 수 있다.

도 16은 SSB와 CSI-RS를 이용한 빔포밍의 일례를 나타낸다.

도 16과 같이, SSB 빔과 CSI-RS 빔이 빔 측정(beam measurement)을 위해 사용될 수 있다. 측정 메트릭(measurement metric)은 자원(resource)/블록(block) 별 RSRP이다. SSB는 듬성한(coarse) 빔 측정을 위해 사용되며, CSI-RS는 미세한(fine) 빔 측정을 위해 사용될 수 있다. SSB는 Tx 빔 스위핑과 Rx 빔 스위핑 모두에 사용될 수 있다. SSB를 이용한 Rx 빔 스위핑은은 다수의 SSB 버스트들에 걸쳐서(across) 동일 SSBRI에 대해 UE가 Rx 빔을 변경하면서 SSB의 수신을 시도함으로써 수행될 수 있다. 여기서, 하나의 SS 버스트는 하나 또는 그 이상의 SSB들을 포함하고, 하나의 SS 버스트 세트는 하나 또는 그 이상의 SSB 버스트들을 포함한다.

1. SSB를 이용한 DL BM

도 17은 SSB를 이용한 DL BM 과정의 일례를 나타낸 흐름도이다.

SSB를 이용한 빔 보고(beam report)에 대한 설정은 RRC_CONNECTED에서 채널 상태 정보(channel state information, CSI)/빔 설정 시에 수행된다.

- UE는 BM을 위해 사용되는 SSB 자원들에 대한 CSI-SSB-ResourceSetList를 포함하는 CSI-ResourceConfig IE를 BS로부터 수신한다(S410). RRC 파라미터 csi-SSB-ResourceSetList는 하나의 자원 세트에서 빔 관리 및 보고을 위해 사용되는 SSB 자원들의 리스트를 나타낸다. 여기서, SSB 자원 세트는 {SSBx1, SSBx2, SSBx3, SSBx4, 쪋}으로 설정될 수 있다. SSB 인덱스는 0부터 63까지 정의될 수 있다.

- UE는 상기 CSI-SSB-ResourceSetList에 기초하여 SSB 자원들 상의 신호들을 상기 BS로부터 수신한다(S420).

- SSBRI 및 참조 신호 수신 전력(reference signal received power, RSRP)에 대한 보고와 관련된 CSI-RS reportConfig가 설정된 경우, 상기 UE는 최선(best) SSBRI 및 이에 대응하는 RSRP를 BS에게 보고한다(S430). 예를 들어, 상기 CSI-RS reportConfig IE의 reportQuantity가 'ssb-Index-RSRP'로 설정된 경우, UE는 BS으로 최선 SSBRI 및 이에 대응하는 RSRP를 보고한다.

UE는 SSB와 동일한 OFDM 심볼(들)에 CSI-RS 자원이 설정되고, 'QCL-TypeD'가 적용 가능한 경우, 상기 UE는 CSI-RS와 SSB가 'QCL-TypeD' 관점에서 유사 동일 위치된(quasi co-located, QCL) 것으로 가정할 수 있다. 여기서, QCL-TypeD는 공간(spatial) Rx 파라미터 관점에서 안테나 포트들 간에 QCL되어 있음을 의미할 수 있다. UE가 QCL-TypeD 관계에 있는 복수의 DL 안테나 포트들의 신호들을 수신 시에는 동일한 수신 빔을 적용해도 무방하다. QCL에 대한 상세는 하기 4. QCL 단락을 참고한다.

2. CSI-RS를 이용한 DL BM

CSI-RS 용도에 대해 살펴보면, i) 특정 CSI-RS 자원 세트에 대해 반복(repetition) 파라미터가 설정되고 TRS_info가 설정되지 않은 경우, CSI-RS는 빔 관리(beam management)를 위해 사용된다. ii) 반복 파라미터가 설정되지 않고 TRS_info가 설정된 경우, CSI-RS는 트랙킹 참조 신호(tracking reference signal, TRS)을 위해 사용된다. iii) 반복 파라미터가 설정되지 않고 TRS_info가 설정되지 않은 경우, CSI-RS는 CSI 획득(acquisition)을 위해 사용된다.

(RRC 파라미터) 반복이 'ON'으로 설정된 경우, UE의 Rx 빔 스위핑 과정과 관련된다. 반복이 'ON'으로 설정된 경우, UE가 NZP-CSI-RS-ResourceSet을 설정받으면, 상기 UE는 NZP-CSI-RS-ResourceSet 내 적어도 하나의 CSI-RS 자원의 신호들은 동일한 하향링크 공간 도메인 필터로 전송된다고 가정할 수 있다. 즉, NZP-CSI-RS-ResourceSet 내의 적어도 하나의 CSI-RS 자원은 동일한 Tx 빔을 통해 전송된다. 여기서, NZP-CSI-RS-ResourceSet 내 적어도 하나의 CSI-RS 자원의 신호들은 서로 다른 OFDM 심볼로 전송될 수 있다.

반면, 반복이 'OFF'로 설정된 경우는 BS의 Tx 빔 스위핑 과정과 관련된다. 반복이 'OFF'로 설정된 경우, UE는 NZP-CSI-RS-ResourceSet 내의 적어도 하나의 CSI-RS 자원의 신호들이 동일한 하향링크 공간 도메인 전송 필터로 전송된다고 가정하지 않는다. 즉, NZP-CSI-RS-ResourceSet 내의 적어도 하나의 CSI-RS 자원의 신호들은 서로 다른 Tx 빔을 통해 전송된다. 도 18은 CSI-RS를 이용한 DL BM 과정의 또 다른 일례를 나타낸다.

도 18(a)는 UE의 Rx 빔 결정(또는 정제(refinement)) 과정을 나타내며, 도 18(b)는 BS의 Tx 빔 스위핑 과정을 나타낸다. 또한, 도 18(a)는, 반복 파라미터가 'ON'으로 설정된 경우이고, 도 18(b)는, 반복 파라미터가 'OFF'로 설정된 경우이다.

도 18(a) 및 도 19를 참고하여, UE의 Rx 빔 결정 과정에 대해 살펴본다.

- UE는 'repetition'에 관한 RRC 파라미터를 포함하는 NZP CSI-RS resource set IE를 RRC 시그널링을 통해 BS로부터 수신한다(S610). 여기서, 상기 RRC 파라미터 'repetition'이 'ON'으로 세팅되어 있다.

- UE는 상기 RRC 파라미터 'repetition'이 'ON'으로 설정된 CSI-RS 자원 세트 내의 자원(들) 상에서의 신호들을 BS의 동일 Tx 빔(또는 DL 공간 도메인 전송 필터)을 통해 서로 다른 OFDM 심볼에서 반복 수신한다(S620).

- UE는 자신의 Rx 빔을 결정한다(S630).

- UE는 CSI 보고를 생략한다(S640). 즉, UE는 상가 RRC 파라미터 'repetition'이 'ON'으로 설정된 경우, CSI 보고를 생략할 수 있다.

도 18(b) 및 도 20을 참고하여, BS의 Tx 빔 결정 과정에 대해 살펴본다.

- UE는 'repetition'에 관한 RRC 파라미터를 포함하는 NZP CSI-RS resource set IE를 RRC 시그널링을 통해 BS로부터 수신한다(S710). 여기서, 상기 RRC 파라미터 'repetition'이 'OFF'로 세팅되어 있으며, BS의 Tx 빔 스위핑 과정과 관련된다.

- UE는 상기 RRC 파라미터 'repetition'이 'OFF'로 설정된 CSI-RS 자원 세트 내의 자원들 상에서의 신호들을 BS의 서로 다른 Tx 빔(DL 공간 도메인 전송 필터)을 통해 수신한다(S720).

- UE는 최상의(best) 빔을 선택(또는 결정)한다(S730)

- UE는 선택된 빔에 대한 ID(예, CRI) 및 관련 품질 정보(예, RSRP)를 BS으로 보고한다(S740). 즉, UE는 CSI-RS가 BM을 위해 전송되는 경우 CRI와 이에 대한 RSRP를 BS으로 보고한다.

CSI-RS 자원 세트에 repetition 'ON'이 설정된 경우, 복수의 CSI-RS resource들이 동일한 전송 빔을 적용하여 반복하여 사용되고, CSI-RS 자원 세트에 repetition 'OFF'가 설정된 경우, 서로 다른 CSI-RS resource들이 서로 다른 전송 빔으로 전송될 수 있다.

3. DL BM 관련 빔 지시(beam indication)

UE는 적어도 QCL(Quasi Co-location) 지시를 위한 최대 M 개의 후보(candidate) 전송 설정 지시 (Transmission Configuration Indication, TCI) 상태(state)들에 대한 리스트를 RRC 시그널링을 통해 수신할 수 있다. 여기서, M은 UE 능력(capability)에 의존하며, 64일 수 있다.

각 TCI 상태는 하나의 참조 신호(reference signal, RS) 세트를 가지고 설정될 수 있다. 표 6은 TCI-State IE의 일례를 나타낸다. TCI-State IE는 하나 또는 두 개의 DL 참조 신호(reference signal, RS) 대응하는 유사 공동-위치(quasi co-location, QCL) 타입과 연관된다.

-- ASN1START-- TAG-TCI-STATE-STARTTCI-State ::= SEQUENCE { tci-StateId TCI-StateId, qcl-Type1 QCL-Info, qcl-Type2 QCL-Info OPTIONAL, -- Need R ...}QCL-Info ::= SEQUENCE { cell ServCellIndex OPTIONAL, -- Need R bwp-Id BWP-Id OPTIONAL, -- Cond CSI-RS-Indicated referenceSignal CHOICE { csi-rs NZP-CSI-RS-ResourceId, ssb SSB-Index }, qcl-Type ENUMERATED {typeA, typeB, typeC, typeD}, ...}-- TAG-TCI-STATE-STOP-- ASN1STOP

표 6에서, 'bwp-Id'는 RS가 위치되는 DL BWP를 나타내며, 'cell'은 RS가 위치되는 반송파를 나타내며, 'referencesignal'은 타겟 안테나 포트(들)에 대해 유사 공동-위치의 소스(source)가 되는 참조 안테나 포트(들) 혹은 이를 포함하는 참조 신호를 나타낸다. 상기 타겟 안테나 포트(들)은 CSI-RS, PDCCH DMRS, 또는 PDSCH DMRS 일 수 있다.

4. QCL(Quasi-Co Location)

UE는 상기 UE 및 주어진 주어진 셀에 대해 의도된(intended) DCI를 가지는 검출된 PDCCH에 따라 PDSCH를 디코딩하기 위해, 최대 M개의 TCI-상태 설정들을 포함하는 리스트를 수신할 있다. 여기서, M은 UE 능력(capability)에 의존한다.

표 6에 예시된 바와 같이, 각각의 TCI-State는 하나 또는 두 개의 DL RS와 PDSCH의 DM-RS 포트 간에 QCL 관계를 설정하기 위한 파라미터를 포함한다. QCL 관계는 첫 번째 DL RS에 대한 RRC 파라미터 qcl-Type1과 두 번째 DL RS에 대한 qcl-Type2 (설정된 경우)를 가지고 설정된다.

각 DL RS에 대응하는 QCL 타입은 QCL-Info 내 파라미터 'qcl-Type'에 의해 주어지며, 다음 값 중 하나를 취할 수 있다:

- 'QCL-TypeA': {Doppler shift, Doppler spread, average delay, delay spread}

- 'QCL-TypeB': {Doppler shift, Doppler spread}

- 'QCL-TypeC': {Doppler shift, average delay}

- 'QCL-TypeD': {Spatial Rx parameter}

예를 들어, 타겟 안테나 포트가 특정 NZP CSI-RS 인 경우, 해당 NZP CSI-RS 안테나 포트들은 QCL-Type A관점에서는 특정 TRS와, QCL-Type D관점에서는 특정 SSB과 QCL되었다고 지시/설정될 수 있다. 이러한 지시/설정을 받은 UE는 QCL-TypeA TRS에서 측정된 도플러, 딜레이 값을 이용해서 해당 NZP CSI-RS를 수신하고, QCL-TypeD SSB 수신에 사용된 수신 빔을 해당 NZP CSI-RS 수신에 적용할 수 있다.

UL BM 과정

UL BM은 UE 구현에 따라 Tx 빔 - Rx 빔 간 빔 상호관계(reciprocity)(또는 빔 대응성)가 성립할 수 있거나 또는, 성립하지 않을 수 있다. 만약 BS와 UE 모두에서 Tx 빔 - Rx 빔 간 상호관계가 성립하는 경우, DL 빔 쌍(pair)를 통해 UL 빔 쌍을 맞출 수 있다. 하지만, BS와 UE 중 어느 하나라도 Tx 빔 - Rx 빔 간 상호관계가 성립하지 않는 경우, DL 빔 쌍 결정과 별개로 UL 빔 쌍 결정 과정이 필요하다.

또한, BS와 UE 모두 빔 대응성을 유지하고 있는 경우에도, UE가 선호(preferred) 빔의 보고를 요청하지 않고도 BS는 DL Tx 빔 결정을 위해 UL BM 과정을 사용할 수 있다.

UL BM은 빔포밍된 UL SRS 전송을 통해 수행될 수 있으며, SRS 자원 세트의 UL BM의 적용 여부는 (RRC 파라미터) 용도(usage)에 RRC 파라미터의해 설정된다. 용도가 'BeamManagement(BM)'로 설정되면, 주어진 시간 순간(time instant)에 복수의 SRS 자원 세트들 각각에 하나의 SRS 자원만 전송될 수 있다.

UE는 (RRC 파라미터) SRS-ResourceSet에 의해 설정되는 하나 또는 그 이상의 사운딩 참조 신호(sounding reference signal, SRS) 자원 세트들을 (RRC 시그널링 등을 통해) 설정받을 수 있다. 각각의 SRS 자원 세트에 대해, UE는 K≥1 SRS 자원들이 설정될 수 있다. 여기서, K는 자연수이며, K의 최대 값은 SRS_capability에 의해 지시된다.

DL BM과 마찬가지로, UL BM 과정도 UE의 Tx 빔 스위핑과 BS의 Rx 빔 스위핑으로 구분될 수 있다.

도 22는 SRS를 이용한 UL BM 과정의 일례를 나타낸다.

도 22(a)는 BS의 Rx 빔포밍 결정 과정을 나타내고, 도 22(b)는 UE의 Tx 빔 스위핑 과정을 나타낸다.

도 23은 SRS를 이용한 UL BM 과정의 일례를 나타낸 흐름도이다.

- UE는 'beam management'로 설정된 (RRC 파라미터) 용도 파라미터를 포함하는 RRC 시그널링(예, SRS-Config IE)를 BS로부터 수신한다(S1010). SRS-Config IE는 SRS 전송 설정을 위해 사용된다. SRS-Config IE는 SRS-Resources의 리스트와 SRS-ResourceSet들의 리스트를 포함한다. 각 SRS 자원 세트는 SRS-resource들의 세트를 의미한다.

- UE는 상기 SRS-Config IE에 포함된 SRS-SpatialRelation Info에 기초하여 전송할 SRS 자원에 대한 Tx 빔포밍을 결정한다(S1020). 여기서, SRS-SpatialRelation Info는 SRS 자원별로 설정되고, SRS 자원별로 SSB, CSI-RS 또는 SRS에서 사용되는 빔포밍과 동일한 빔포밍을 적용할지를 나타낸다.

- 만약 SRS 자원에 SRS-SpatialRelationInfo가 설정되면 SSB, CSI-RS 또는 SRS에서 사용되는 빔포밍과 동일한 빔포밍을 적용하여 전송한다. 하지만, SRS 자원에 SRS-SpatialRelationInfo가 설정되지 않으면, 상기 UE는 임의로 Tx 빔포밍을 결정하여 결정된 Tx 빔포밍을 통해 SRS를 전송한다(S1030).

보다 구체적으로, 'SRS-ResourceConfigType'가 'periodic'으로 설정된 P-SRS에 대해:

i) SRS-SpatialRelationInfo가 'SSB/PBCH'로 설정되는 경우, UE는 SSB/PBCH의 수신을 위해 사용한 공간 도메인 Rx 필터와 동일한 (혹은 해당 필터로부터 생성된) 공간 도메인 전송 필터를 적용하여 해당 SRS를 전송한다; 또는

ii) SRS-SpatialRelationInfo가 'CSI-RS'로 설정되는 경우, UE는 CSI-RS의 수신을 위해 사용되는 동일한 공간 도메인 전송 필터를 적용하여 SRS를 전송한다; 또는

iii) SRS-SpatialRelationInfo가 'SRS'로 설정되는 경우, UE는 SRS의 전송을 위해 사용된 동일한 공간 도메인 전송 필터를 적용하여 해당 SRS를 전송한다.

- 추가적으로, UE는 BS로부터 SRS에 대한 피드백을 다음 3가지 경우와 같이, 수신받거나 또는 수신받지 않을 수 있다(S1040).

i) SRS 자원 세트 내의 모든 SRS 자원들에 대해 Spatial_Relation_Info가 설정되는 경우, UE는 BS가 지시한 빔으로 SRS를 전송한다. 예를 들어, Spatial_Relation_Info가 모두 동일한 SSB, CRI 또는 SRI를 지시하는 경우, UE는 동일 빔으로 SRS를 반복 전송한다.

ii) SRS 자원 세트 내의 모든 SRS 자원들에 대해 Spatial_Relation_Info가 설정되지 않을 수 있다. 이 경우, UE는 자유롭게 SRS 빔포밍을 바꾸어가면서 전송할 수 있다.

iii) SRS 자원 세트 내의 일부 SRS 자원들에 대해서만 Spatial_Relation_Info가 설정될 수 있다. 이 경우, 설정된 SRS 자원에 대해서는 지시된 빔으로 SRS를 전송하고, Spatial_Relation_Info가 설정되지 않은 SRS 자원에 대해서는 UE가 임의로 Tx 빔포밍을 적용해서 전송할 수 있다.

빔 실패 복구(beam failure recovery, BFR) 과정

빔포밍된 시스템에서, RLF(Radio Link Failure)는 UE의 회전(rotation), 이동(movement) 또는 빔포밍 블로키지(blockage)로 인해 자주 발생할 수 있다. 따라서, 잦은 RLF가 발생하는 것을 방지하기 위해 BFR이 NR에서 지원된다. BFR은 무선 링크 실패 복구 과정과 유사하고, UE가 새로운 후보 빔(들)을 아는 경우에 지원될 수 있다.

빔 실패 검출을 위해, BS는 UE에게 빔 실패 검출 참조 신호들을 설정하고, 상기 UE는 상기 UE의 물리 계층으로부터의 빔 실패 지시(indication)들의 횟수가 BS의 RRC 시그널링에 의해 설정된 기간(period) 내에 RRC 시그널링에 의해 설정된 임계치(threshold)에 이르면(reach), 빔 실패를 선언(declare)한다.

빔 실패가 검출된 후, 상기 UE는 PCell 상의 임의 접속 과정을 개시(initiate)함으로써 빔 실패 복구를 트리거하고; 적절한(suitable) 빔을 선택하여 빔 실패 복구를 수행한다(BS가 어떤(certain) 빔들에 대해 전용 임의 접속 자원들을 제공한 경우, 이들이 상기 UE에 의해 우선화된다). 상기 임의 접속 절차의 완료(completion) 시, 빔 실패 복구가 완료된 것으로 간주된다.

J. URLLC (Ultra-Reliable and Low Latency Communication)

NR에서 정의하는 URLLC 전송은 (1) 상대적으로 낮은 트래픽 크기, (2) 상대적으로 낮은 도착 레이트(low arrival rate), (3) 극도의 낮은 레이턴시 요구사항(requirement)(예, 0.5, 1ms), (4) 상대적으로 짧은 전송 지속기간(duration)(예, 2 OFDM symbols), (5) 긴급한 서비스/메시지 등에 대한 전송을 의미할 수 있다.

UL의 경우, 보다 엄격(stringent)한 레이턴시 요구 사항(latency requirement)을 만족시키기 위해 특정 타입의 트래픽(예컨대, URLLC)에 대한 전송이 앞서서 스케줄링된 다른 전송(예컨대, eMBB)과 다중화(multiplexing)되어야 할 필요가 있다. 이와 관련하여 한 가지 방안으로, 앞서 스케줄링 받은 UE에게 특정 자원에 대해서 프리엠션(preemption)될 것이라는 정보를 주고, 해당 자원을 URLLC UE가 UL 전송에 사용하도록 한다.

프리엠션 지시(Pre-emption indication)

NR의 경우, eMBB와 URLLC 사이의 동적 자원 공유(sharing)이 지원된다. eMBB와 URLLC 서비스들은 비-중첩(non-overlapping) 시간/주파수 자원들 상에서 스케줄될 수 있으며, URLLC 전송은 진행 중인(ongoing) eMBB 트래픽에 대해 스케줄된 자원들에서 발생할 수 있다. eMBB UE는 해당 UE의 PDSCH 전송이 부분적으로 펑처링(puncturing)되었는지 여부를 알 수 없을 수 있고, 손상된 코딩된 비트(corrupted coded bit)들로 인해 UE는 PDSCH를 디코딩하지 못할 수 있다. 이 점을 고려하여, NR에서는 프리엠션 지시(preemption indication)을 제공한다. 상기 프리엠션 지시(preemption indication)는 중단된 전송 지시(interrupted transmission indication)으로 지칭될 수도 있다.

프리엠션 지시와 관련하여, UE는 BS로부터의 RRC 시그널링을 통해 DownlinkPreemption IE를 수신한다. 아래 표 7은 DownlinkPreemption IE의 일례를 나타낸다.

-- ASN1START-- TAG-DOWNLINKPREEMPTION-STARTDownlinkPreemption ::= SEQUENCE { int-RNTI RNTI-Value, timeFrequencySet ENUMERATED {set0, set1}, dci-PayloadSize INTEGER (0..maxINT-DCI-PayloadSize), int-ConfigurationPerServingCell SEQUENCE (SIZE (1..maxNrofServingCells)) OF INT-ConfigurationPerServingCell, ...}INT-ConfigurationPerServingCell ::= SEQUENCE { servingCellId ServCellIndex, positionInDCI INTEGER (0..maxINT-DCI-PayloadSize-1)}-- TAG-DOWNLINKPREEMPTION-STOP-- ASN1STOP

UE가 DownlinkPreemption IE를 제공받으면, DCI 포맷 2_1을 운반(convey)하는 PDCCH의 모니터링을 위해 상기 UE는 DownlinkPreemption IE 내 파라미터 int-RNTI에 의해 제공된 INT-RNTI를 가지고 설정된다. 상기 UE는 추가적으로 servingCellID에 의해 제공되는 서빙 셀 인덱스들의 세트를 포함하는 INT-ConfigurationPerServing Cell에 의해 서빙 셀들의 세트와 positionInDCI에 의해 DCI 포맷 2_1 내 필드들을 위한 위치들의 해당 세트를 가지고 설정되고, dci-PayloadSize에 의해 DCI 포맷 2_1을 위한 정보 페이로드 크기를 가지고 설정되며, timeFrequencySect에 의한 시간-주파수 자원들의 지시 입도(granularity)를 가지고 설정된다.상기 UE는 상기 DownlinkPreemption IE에 기초하여 DCI 포맷 2_1을 상기 BS로부터 수신한다.

UE가 서빙 셀들의 설정된 세트 내 서빙 셀에 대한 DCI 포맷 2_1을 검출하면, 상기 UE는 상기 DCI 포맷 2_1이 속한 모니터링 기간의 바로 앞(last) 모니터링 기간의 PRB들의 세트 및 심볼들의 세트 중 상기 DCI 포맷 2_1에 의해 지시되는 PRB들 및 심볼들 내에는 상기 UE로의 아무런 전송도 없다고 가정할 수 있다. 예를 들어, 도 9a를 참조하면, UE는 프리엠션에 의해 지시된 시간-주파수 자원 내 신호는 자신에게 스케줄링된 DL 전송이 아니라고 보고 나머지 자원 영역에서 수신된 신호들을 기반으로 데이터를 디코딩한다.

도 24는 프리엠션 지시 방법의 일례를 나타낸 도이다.

RRC 파라미터 timeFrequencySet에 의해 {M,N}의 조합이 설정된다. {M,N}={14,1}, {7,2}일 수 있다.

프리엠션 지시를 위한 14-비트 비트맵(bitmap)은 하나 이상의 주파수 파트들(N>=1) 및/또는 하나 이상의 시간 도메인 파트들(M>=1)를 지시한다. {M,N}={14,1}인 경우, 도 25의(a)에서와 같이 시간 도메인에서 14개 파트들이 14-비트 비트맵의 14개 비트들에 일대일로 대응하고, 상기 14개 비트들 중 1로 세팅된 비트에 대응하는 파트가 프리엠트된 자원들을 포함하는 파트이다. {M,N}={7,2}인 경우, 도 25의 (b)에서와 같이, 모니터링 기간의 시간-주파수 자원이 시간 도메인에서 7개 파트들로, 그리고 주파수 도메인에서 2개 파트들로 나뉘어, 총 14개 시간-주파수 파트들로 나뉜다. 상기 총 14개 시간-주파수 파트들이 14-비트 비트맵의 14개 비트들에 일대일로 대응하고, 상기 14개 비트들 중 1로 세팅된 비트에 대응하는 파트가 프리엠트된 자원들을 포함하는 파트이다.

K. mMTC (massive MTC)

mMTC(massive Machine Type Communication)은 많은 수의 UE와 동시에 통신하는 초연결 서비스를 지원하기 위한 5G의 시나리오 중 하나이다. 이 환경에서, UE는 굉장히 낮은 전송 속도와 이동성을 가지고 간헐적으로 통신하게 된다. 따라서, mMTC는 UE를 얼마나 낮은 비용으로 오랫동안 구동할 수 있는지를 주요 목표로 하고 있다. 이와 관련하여, 3GPP에서 다루고 있는 MTC와 NB-IoT에 대해 살펴본다.

이하에서는 물리 채널의 전송 시간 인터벌(transmission time interval)이 서브프레임인 경우를 예로 하여 설명된다. 예를 들어, 일 물리 채널(예, MPDCCH, PDSCH, PUCCH, PUSCH)의 전송 시작에서 다음 물리 채널의 전송 시작까지의 최소 시간 인터벌이 1개 서브프레임인 경우를 예로 하여 설명되나, 이하의 설명에서 서브프레임은 슬롯, 미니-슬롯, 혹은 다수(multiple) 슬롯들로 대체될 수 있다.

MTC (Machine Type Communication)

MTC(Machine Type Communication)은 M2M (Machine-to-Machine) 또는 IoT (Internet-of-Things) 등에 적용될 수 있는 많은 처리량(throughput)을 요구하지 않는 어플리케이션으로서, 3GPP(3rd Generation Partnership Project)에서 IoT 서비스의 요구 사항을 충족시키기 위해 채택된 통신 기술을 말한다.

MTC는 (1) 낮은 비용 & 낮은 복잡도(low cost & low complexity), (2) 향상된 커버리지 (enhanced coverage), (3) 낮은 파워 소비 (low power consumption)의 기준을 만족하도록 구현될 수 있다.

3GPP에서 MTC는 릴리즈(release) 10(3GPP 표준 문서 버전 10.x.x.)부터 적용되었으며, 3GPP의 릴리즈별로 추가된 MTC의 특징에 대해 간략히 살펴본다.

먼저, 3GPP 릴리즈 10과 릴리즈 11에서 기술된 MTC는 부하 제어(load control) 방법에 관련이 있다. 부하 제어 방법은 IoT(또는 M2M) 기기들이 갑자기 BS에 부하를 주는 것을 미리 방지하기 위한 것이다. 보다 구체적으로, 3GPP 릴리즈 10의 경우, BS는 부하가 발생하는 경우 접속되어 있는 IoT 기기들에 대한 접속을 끊음으로써 부하를 제어하는 방법에 관한 것이며, 릴리즈 11의 경우, BS가 셀의 시스템 정보를 통해 상기 셀에는 추후 접속할 것을 미리 UE에게 알림으로써 UE에 대한 접속을 사전에 차단하는 방법에 관한 것이다. 릴리즈 12에서는 저 비용(low cost) MTC를 위한 특징이 추가되었으며, 이를 위해 UE 카테고리 0이 새롭게 정의되었다. UE 카테고리는 UE가 얼마나 많은 데이터를 통신 모뎀에서 처리할 수 있는지를 나타내는 지표이다. UE 카테고리 0의 UE는 감소된 피크 데이터 레이트(peak data rate), 완화된(relaxed) 무선 주파수(radio frequency, RF) 요구사항(requirements)을 가져, 기저대역(baseband) 및 RF 복잡도를 줄인 UE이다. 릴리즈 13에서 eMTC(enhanced MTC)라는 기술이 소개되었으며, 기존 LTE에서 지원하는 최소 주파수 대역폭인 1.08MHz에서만 UE가 동작하도록 하여 UE의 가격과 전력 소모를 더 낮출 수 있도록 하였다.

이하에서 기술되는 내용은 주로 eMTC와 관련된 특징들이나, 특별한 언급이 없는 한 MTC, eMTC, 5G(또는 NR)에 적용될 MTC에도 동일하게 적용될 수 있다. 이하에서는 설명의 편의를 위해 MTC로 통칭하여 설명하기로 한다.

따라서, 후술하는 MTC는 eMTC (enhanced MTC), LTE-M1/M2, BL (Bandwidth reduced low complexity) / CE(coverage enhanced), non-BL UE(in enhanced coverage), NR MTC, enhanced BL / CE 등과 같이 다른 용어로 지칭될 수 있다. 즉, MTC라는 용어는 향후 3GPP 표준에서 정의될 용어로 대체할 수 있다.

MTC 일반적 특징

(1) MTC는 특정 시스템 대역폭(또는 채널 대역폭) 내에서만 동작한다.

MTC는 도 26에 도시된 바와 같은 기존(legacy) LTE의 시스템 대역 내 6개 자원 블록(resource block, RB)를 사용할 수 있으며, 혹은 NR 시스템의 시스템 대역 내 특정 개수의 RB들을 사용할 수도 있다. MTC가 동작하는 주파수 대역폭은 NR의 주파수 범위(frequency range) 및 부반송파 간격(subcarrier spacing)을 고려하여 정의될 수 있다. 이하, MTC가 동작하는 특정 시스템 혹은 주파수 대역폭을 MTC 협대역(narrowband, NB)라고 칭한다. NR에서 MTC는 적어도 하나의 대역폭 파트(bandwidth part, BWP)에서 동작하거나 또는 BWP의 특정 대역에서 동작할 수도 있다.

MTC는 물리 채널 및 신호들을 전송 및 수신하기 위해 협대역 동작을 따르고, MTC UE가 동작할 수 있는 최대 채널 대역폭은 1.08MHz 또는 6개 (LTE) RB들로 감소된다.

협대역은 하향링크와 상향링크의 일부 채널의 자원 할당 단위에 참고 단위로 사용될 수 있으며, 주파수 도메인에서 각 협대역의 물리적인 위치는 시스템 대역폭에 따라서 다르게 정의될 수 있다.

MTC에서 정의된 1.08MHz의 대역폭은 MTC UE가 기존(legacy) UE와 동일한 셀 탐색(cell search) 및 임의 접속(random access) 과정을 따르도록 하기 위해서 정의된다.

MTC는 1.08MHz보다 훨씬 더 큰 대역폭(예: 10MHz)을 가진 셀에 의해 지원될 수 있으나, MTC에 의해 송/수신되는 물리 채널 및 신호는 항상 1.08MHz로 제한된다. 상기 훨씬 더 큰 대역폭을 가지는 시스템은 기존(legacy) LTE, NR 시스템, 5G 시스템 등일 수 있다.

협대역은 주파수 도메인에서 6개의 비-중첩하는(non-overlapping) 연속적인(consecutive) 물리 자원 블록으로 정의된다.

도 26(a)는 협대역 동작의 일례를 나타낸 도이며, 도 26(b)는 RF 리튜닝(retuning)을 가지는 반복의 일례를 나타낸 도이다.

도 26(b)를 참고하여, RF 리튜닝에 의한 주파수 다이버시티에 대해 살펴본다.

협대역 RF, 단일 안테나 및 제한된 이동성으로 인해, MTC는 제한된 주파수, 공간 및 시간 다이버시티를 지원한다. 페이딩(fading) 및 단절(outage)을 줄이기 위해, 주파수 호핑(frequency hopping)은 RF 리튜닝(retuning)에 의해 서로 다른 협대역들 사이에서 MTC가 지원된다.

MTC에서 주파수 호핑은 반복(repetition)이 가능할 때, 서로 다른 상향링크 및 하향링크 물리 채널들에 적용된다. 예를 들어, 32개의 서브프레임들이 PDSCH 전송을 위해 사용되는 경우, 첫 번째 16개의 서브프레임들은 첫 번째 협대역 상에서 전송될 수 있다. 이때, RF 전단부(front-end)는 다른 협대역으로 리튜닝되고, 나머지 16개의 서브프레임들은 두 번째 협대역 상에서 전송된다.

MTC의 협대역은 BS에 의해 전송되는 시스템 정보 또는 DCI(downlink control information)를 통해 UE에게 설정될 수 있다.

(2) MTC는 반-듀플렉스 모드(half duplex mode)로 동작하며, 제한된 (또는 감소된) 최대 전송 전력을 사용한다. 반-듀플렉스 모드란 통신 장치가 한 시점에 일 주파수 상에서 상향링크 아니면 상향링크로만 동작하고, 다른 시점에는 다른 주파수 상에서 하향링크 아니면 상향링크로 동작하는 것을 말한다. 예를 들어, 통신 장치가 반-듀플렉스 모드로 동작하는 경우, 상향링크 주파수와 하향링크 주파수를 사용하여 통신하되 상기 통신 장치는 상향링크 주파수와 하향링크 주파수를 동시에 사용하지 못하며, 시간을 나눠서 일정 시간 동안에는 상향링크 주파수를 통해 상향링크 전송을 수행하고 다른 일정 시간 동안에는 하향링크 주파수로 리튜닝하여 하향링크 수신을 수행한다.

(3) MTC는 기존 LTE 또는 NR의 전체 시스템 대역폭에 걸쳐서 분산되어야 하는 (기존 LTE 또는 NR에서 정의되는) 채널을 사용하지 않는다. 일례로, MTC에서는 기존 LTE의 PDCCH는 시스템 대역폭 전체에 분산되어 전송되므로 기존 PDCCH가 사용되지 않는다. 대신 MTC에서는 새로운 제어 채널인 MPDCCH(MTC PDCCH)가 정의된다. MPDCCH는 주파수 도메인에서 최대 6RB들 내에서 전송/수신된다.

(4) MTC는 새롭게 정의된 DCI 포맷을 사용한다. 예를 들어, DCI 포맷 6-0A, 6-0B, 6-1A, 6-1B, 6-2 등이 MTC용 DCI 포맷으로 사용될 수 있다(3GPP TS 36.212 참조).

(5) MTC의 경우, PBCH(physical broadcast channel), PRACH(physical random access channel), M-PDCCH(MTC physical downlink control channel), PDSCH(physical downlink shared channel), PUCCH(physical uplink control channel), PUSCH(physical uplink shared channel)가 반복적으로 전송될 수 있다. 이와 같은 MTC 반복 전송은 지하실과 같은 열악한 환경에서와 같이 신호 품질 또는 전력이 매우 열악한 경우에도 MTC 채널을 디코딩할 수 있어 셀 반경 증가 및 신호 침투 효과를 가져올 수 있다.

(6) MTC에서 PDSCH 스케줄링(DCI)과 상기 PDSCH 스케줄링에 따른 PDSCH 전송은 서로 다른 서브프레임에서 발생한다(크로스-서브프레임 스케줄링).

(7) LTE 시스템에서 일반적인 SIB1을 나르는 PDSCH는 PDCCH에 의해 스케줄링됨에 반해, SIB1 디코딩을 위한 모든 자원 할당 정보(예, 서브프레임, TBS(Transport Block Size), 협대역 인덱스)는 MIB의 파라미터에 의해 결정되며, MTC의 SIB1 디코딩을 위해 어떤 제어 채널도 사용되지 않는다.

(8) SIB2 디코딩을 위한 모든 자원 할당 정보 (서브 프레임, TBS, 서브 밴드 인덱스)는 여러(several) SIB1 파라미터들에 의해 결정되며, MTC의 SIB2 디코딩을 위한 어떤 제어 채널도 사용되지 않는다.

(9) MTC는 확장(extended) 페이징 (DRX) 주기(cycle)을 지원한다. 여기서 페이징 주기라 함은 UE가 전력 절약을 위해 하향링크 신호의 수신을 시도하지 않는 불연속 수신(discontinuous reception, DRX) 모드에 있는 동안에도, 상기 UE를 깨우고자 하는 네트워크로부터의 페이징이 있는지를 확인하기 위해 깨어나야 하는 주기를 말한다.

(10) MTC는 기존 LTE 또는 NR에서 사용되는 PSS(primary synchronization signal) / SSS(secondary synchronization signal) / CRS(common reference signal)를 동일하게 사용할 수 있다. NR의 경우, PSS/SSS는 SSB 단위로 전송되며, TRS(tracking RS)가 셀-특정적 RS로서, 주파수/시간 트랙킹을 위해 사용될 수 있다.

MTC 동작 모드 및 레벨

다음, MTC 동작 모드(operation mode)와 레벨(level)에 대해 살펴본다. MTC는 커버리지 향상을 위해 2개의 동작 모드(제 1 모드, 제 2 모드)와 4개의 서로 다른 레벨들로 분류되며, 아래 표 8과 같을 수 있다.

상기 MTC 동작 모드는 CE(Coverage Enhancement) 모드로 지칭되며, 이 경우 제 1 모드는 CE Mode A, 제 2 모드는 CE Mode B로 지칭될 수 있다.

Mode	Level	Description
Mode A	Level 1	No repetition for PRACH
Mode A	Level 2	Small Number of Repetition for PRACH
Mode B	Level 3	Medium Number of Repetition for PRACH
Mode B	Level 4	Large Number of Repetition for PRACH

제 1 모드는 완전한 이동성 및 CSI(channel state information) 피드백이 지원되는 작은 커버리지 향상을 위해 정의되어, 반복이 없거나 또는 반복 횟수가 적은 모드이다. 제 2 모드는 CSI 피드백 및 제한된 이동성을 지원하는 극히 열악한 커버리지 조건의 UE에 대해 정의되며, 많은 수의 반복 전송이 정의된다. 제 2 모드는 최대 15dB의 커버리지 향상을 제공한다. MTC의 각 레벨은 임의 접속 과정과 페이징 과정에서 다르게 정의된다. MTC 동작 모드는 BS에 의해 결정되며, 각 레벨은 MTC UE에 의해 결정된다. 구체적으로, BS는 MTC 동작 모드에 대한 정보를 포함하는 RRC 시그널링(signaling)을 UE로 전송한다. 여기서, RRC 시그널링은 RRC 연결 셋업(connection setup) 메시지, RRC 연결 재설정(connection reconfiguration) 메시지 또는 RRC 연결 수립(connection reestablishment) 메시지 등일 수 있다.

이후, MTC UE는 각 동작 모드 내 레벨을 결정하고, 결정된 레벨을 BS으로 전송한다. 구체적으로, MTC UE는 측정한 채널 품질(예, 참조 수신 신호 전력(reference signal received power, RSRP), 참조 신호 수신 품질(reference signal received quality, RSRQ) 또는 신호 대 간섭 및 잡음 비(signal to interference plus noise ratio, SINR))에 기초하여 동작 모드 내 레벨을 결정하고, 결정된 레벨에 대응하는 PRACH 자원(예, PRACH를 위한 주파수, 시간, 프리앰블 자원)을 이용하여 RACH 프리앰블을 전송함으로써 BS에게 상기 결정된 레벨을 알린다.

MTC 보호 구간 (guard period)

살핀 것처럼, MTC는 협대역에서 동작한다. MTC에 사용되는 협대역의 위치는 특정 시간 유닛(예, 서브프레임 또는 슬롯)마다 다를 수 있다. MTC UE는 시간 유닛들에 따라 다른 주파수로 튜닝할 수 있다. 주파수 리튜닝에는 일정 시간이 필요하며, 이 일정 시간을 MTC의 가드 기간(guard period)으로 정의한다. 즉, 하나의 시간 유닛에서 다음 시간 유닛으로 전환(transition)하면서 주파수 리튜닝을 수행할 때 가드 기간이 필요하고, 해당 가드 기간 동안에는 전송 및 수신이 발생하지 않는다.

MTC 신호 전송/수신 방법

전원이 꺼진 상태에서 다시 전원이 켜지거나, 새로이 셀에 진입한 MTC UE는 S1001 단계에서 BS와 동기를 맞추는 등의 초기 셀 탐색(initial cell search) 동작을 수행한다. 이를 위해 MTC UE는 BS로부터 PSS(Primary Synchronization Signal) 및 SSS(Secondary Synchronization Signal)을 수신하여 BS와 동기를 맞추고, 셀 ID(identifier) 등의 정보를 획득한다. 상기 MTC의 초기 셀 탐색 동작에 이용되는 PSS / SSS는 기존 LTE의 PSS / SSS, RSS(Resynchronization signal) 등일 수 있다.

그 후, MTC UE는 BS로부터 물리 브로드캐스트 채널(physical broadcast channel, PBCH) 신호를 수신하여 셀 내 브로드캐스트 정보를 획득할 수 있다.

한편, MTC UE는 초기 셀 탐색 단계에서 하향링크 참조 신호(downlink reference signal, DL RS)를 수신하여 하향링크 채널 상태를 확인할 수 있다. PBCH를 통해 전송되는 브로드캐스트 정보는 MIB(Master Information Block)이며, LTE에서 MIB는 10ms마다 반복된다.

기존 LTE의 MIB 내 비트들 중 유보 비트(reserved bit)들이 시간/주파수 위치 및 수송 블록 크기(transport block size)를 포함하는 새로운 SIB1-BR(system information block for bandwidth reduced device)에 대한 스케줄링 정보를 전송하기 위해 MTC에서 사용된다. SIB-BR은 상기 SIB-BR과 연관된 어떤 제어 채널(예, PDCCH, MPDDCH) 없이 직접 PDSCH 상에서 전송된다.

초기 셀 탐색을 마친 MTC UE는 S1002 단계에서 MPDCCH와 상기 MPDCCH 정보에 따른 PDSCH를 수신하여 조금 더 구체적인 시스템 정보를 획득할 수 있다. MPDCCH는 한 번만 전송되거나 반복하여 전송될 수 있다. MPDCCH의 최대 반복 횟수는 BS로부터의 RRC 시그널링에 의해 UE에게 설정된다.

이후, MTC UE는 BS에 접속을 완료하기 위해 단계 S1003 내지 단계 S1006과 같은 임의 접속 과정(random access procedure)을 수행할 수 있다. MTC UE의 RACH 과정과 관련된 기본적인 설정(configuration)은 SIB2에 의해 전송된다. 또한, SIB2는 페이징과 관련된 파라미터들을 포함한다. 3GPP 시스템에서 페이징 기회(Paging Occasion, PO)는 UE가 페이징의 수신을 시도할 수 있는 시간 유닛을 의미한다. MTC UE는 페이징용으로 설정된 협대역(PNB) 상에서 자신의 PO에 해당하는 시간 유닛 내 P-RNTI를 기반으로 MPDCCH의 수신을 시도한다. P-RNTI를 기반으로 MPDCCH의 디코딩에 성공한 UE는 상기 MPDCCH에 의해 스케줄링된 PDSCH를 수신하여, 자신에 대한 페이징 메시지를 확인할 수 있다. 자신에 대한 페이징 메시지가 있으면 임의 접속 과정을 수행하여 네트워크로의 접속을 수행한다.

임의 접속 과정을 위해, MTC UE는 물리 임의 접속 채널(PRACH: physical random access channel)을 통해 프리앰블을 전송하고(S1003), MPDCCH 및 이에 대응하는 PDSCH을 통해 프리앰블에 대한 응답 메시지(RAR)를 수신할 수 있다(S1004). 경쟁 기반 임의 접속의 경우, MTC UE는 추가적인 PRACH 신호의 전송(S1005) 및 MPDCCH 신호 및 이에 대응하는 PDSCH 신호의 수신(S1006)과 같은 충돌 해결 과정(contention resolution procedure)를 수행할 수 있다. MTC에서 RACH 과정에서 전송되는 신호 및/또는 메시지들(Msg 1, Msg 2, Msg 3, Msg 4)는 반복적으로 전송될 수 있으며, 이러한 반복 패턴은 CE 레벨에 따라 다르게 설정된다. Msg1은 PRACH 프리앰블을 의미하며, Msg2는 RAR(random access response)를 의미하며, Msg3은 RAR에 포함된 UL 그랜트를 기반으로 한 UL 전송을 의미하며, Msg4는 Msg3에 대한 BS의 DL 전송을 의미할 수 있다.

임의 접속을 위해 서로 다른 CE 레벨들에 대한 PRACH 자원들이 BS에 의해 시그널링된다. 이는 유사한 경로 감쇠(path loss)를 경험하는 UE들을 함께 그룹핑함으로써, PRACH에 대한 near-far 효과의 동일한 제어를 제공한다. 최대 4개까지의 서로 다른 PRACH 자원들이 MTC UE로 시그널링될 수 있다.

MTC UE는 하향링크 RS(예, CRS, CSI-RS, TRS 등)을 이용하여 RSRP를 추정하고, 측정 결과에 기초하여 임의 접속에 대한 서로 다른 PRACH 자원 예, PRACH를 위한 주파수, 시간, 프리앰블 자원)들 중 하나를 선택한다. PRACH에 대한 RAR 및 경쟁 해결 메시지(contention resolution message)들에 대한 탐색 공간들은 또한 시스템 정보를 통해 BS에서 시그널링된다.

상술한 바와 같은 과정을 수행한 MTC UE는 이후 일반적인 상향링크/하향링크 신호 전송 과정으로서 MPDCCH 신호 및/또는 PDSCH 신호의 수신(S1007) 및 물리 상향링크 공유 채널(PUSCH) 신호 및/또는 물리 상향링크 제어 채널(PUCCH) 신호의 전송(S1108)을 수행할 수 있다. MTC UE는 PUCCH 혹은 PUSCH를 통해 BS에게 상향링크 제어 정보(uplink control information, UCI)를 전송할 수 있다. UCI는 HARQ-ACK/NACK, 스케줄링 요청(scheduling request, SR), 및/또는 CSI 등을 포함할 수 있다.

MTC UE에 대한 RRC 연결이 수립(establish)되면, MTC UE는 상향링크 및 하향링크 데이터 할당을 획득하기 위해 설정된 탐색 공간(search space)에서 MPDCCH를 모니터링하여 MDCCH의 수신을 시도한다.

MTC의 경우, MPDCCH와 상기 MDCCH에 의해 스케줄링되는 PDSCH가 서로 다른 서브프레임에서 전송/수신된다. 예를 들어, 서브프레임 #n에서 마지막 반복을 가지는 MPDCCH는 서브프레임 #n+2에서 시작하는 PDSCH를 스케줄한다. MPDCCH에 의해 전송되는 DCI는 언제 PDSCH 전송이 시작되는지를 MTC UE가 알수 있도록 하기 위해 상기 MPDCCH가 얼마나 반복되는지에 대한 정보를 제공한다. 예를 들어, 서브프레임 #n부터 전송이 시작된 MPDCCH 내 DCI가 상기 MPDCCH가 10번 반복된다는 정보를 포함하는 경우, 상기 MPDCCH가 전송되는 마지막 서브프레임은 서브프레임 #n+9이고, PDSCH의 전송은 서브프레임 #n+11에서 시작할 수 있다.

PDSCH는 상기 PDSCH를 스케줄링하는 MPDCCH가 있는 협대역과는 같은 혹은 다른 협대역에 스케줄링될 수 있다. MPDCCH와 해당 PDSCH가 다른 협대역에 위치하는 경우, MTC UE는 PDSCH를 디코딩하기 전에 상기 PDSCH가 있는 협대역으로 주파수를 리튜닝할 필요가 있다.

상향링크 데이터 전송에 대해, 스케줄링은 레거시 LTE와 동일한 타이밍을 따를 수 있다. 예를 들어, 서브프레임 #n에서 마지막 전송이 있는 MPDCCH는 서브프레임 #n+4에서 시작하는 PUSCH 전송을 스케줄링할 수 있다.

기존(legacy) LTE에서 PDSCH는 PDCCH를 사용하여 스케줄링되며, 이는 각 서브프레임에서 처음 OFDM 심볼(들)을 사용하며, 상기 PDSCH는 상기 PDCCH가 수신되는 서브프레임과 동일한 서브프레임에서 스케줄된다.

이에 반해, MTC PDSCH는 크로스-서브프레임 스케줄링되며, MPDCCH와 PDSCH 사이에서 하나의 서브프레임이 MPDCCH 디코딩 및 RF 리튜닝을 위한 시간 기간으로서 사용된다. MTC 제어 채널 및 데이터 채널들은 극단적인 커버리지 조건에서도 디코딩될 수 있록 MPDCCH에 대해 최대 256개의 서브프레임들과 PDSCH에 대해 최대 2048개의 서브프레임들을 가지는 많은 수의 서브프레임들을 통해 반복될 수 있다.

NB-IoT (Narrowband-Internet of Things)

NB-IoT는 무선 통신 시스템(예, LTE 시스템, NR 시스템 등)의 1개 자원 블록(resource block, RB)에 해당하는 시스템 대역폭(system BW)을 통해 낮은 복잡도(complexity), 낮은 전력 소비(power consumption)을 지원하기 위한 시스템을 의미할 수 있다.

여기에서, NB-IoT는 NB-LTE, NB-IoT 개선(enhancement), 개선(enhanced) NB-IoT, 추가 개선(further enhanced) NB-IoT, NB-NR 등과 같이 다른 용어로 지칭될 수 있다. 즉, NB-IoT는 3GPP 표준에서 정의되거나 정의될 용어로 대체될 수 있으며, 이하에서는 설명의 편의를 위하여 'NB-IoT'로 통칭하여 표현하기로 한다.

NB-IoT는 주로 기계 타입 통신(machine-type communication, MTC) 등과 같은 장치(device)(또는 UE)를 셀룰러 시스템(cellular system)에서 지원하여 IoT(즉, 사물 인터넷)를 구현하기 위한 통신 방식으로 이용될 수도 있다. 이 때, 기존의 시스템 대역의 1개 RB이 NB-IoT 용으로 할당됨으로써, 주파수가 효율적으로 사용될 수 있는 장점이 있다. 또한, NB-IoT의 경우, 각 UE는 단일 RB(RB)를 각각의 반송파(carrier)로 인식하므로, 본 명세에서 NB-IoT와 관련되어 언급되는 RB 및 반송파는 서로 동일한 의미로 해석될 수도 있다.

이하, 본 명세서에서의 NB-IoT와 관련된 프레임 구조, 물리 채널, 다중 반송파 동작(multi carrier operation), 동작 모드(operation mode), 일반적인 신호 전송/수신 등은 기존의 LTE 시스템의 경우를 고려하여 설명되지만, 차세대 시스템(예, NR 시스템 등)의 경우에도 확장하여 적용될 수 있음은 물론이다. 또한, 본 명세서에서의 NB-IoT와 관련된 내용은 유사한 기술적 목적(예: 저-전력, 저-비용, 커버리지 향상 등)을 지향하는 MTC(Machine Type Communication)에 확장하여 적용될 수도 있다.

이하에서는 물리 채널의 전송 시간 인터벌(transmission time interval)이 서브프레임인 경우를 예로 하여 설명된다. 예를 들어, 일 물리 채널(예, NPDCCH, NPDSCH, NPUCCH, NPUSCH)의 전송 시작에서 다음 물리 채널의 전송 시작까지의 최소 시간 인터벌이 1개 서브프레임인 경우를 예로 하여 설명되나, 이하의 설명에서 서브프레임은 슬롯, 미니-슬롯, 혹은 다수(multiple) 슬롯들로 대체될 수 있다.

NB-IoT의 프레임 구조 및 물리 자원

먼저, NB-IoT 프레임 구조는 부반송파 간격(subcarrier spacing)에 따라 다르게 설정될 수 있다. 구체적으로, 도 29는 부반송파 간격이 15kHz인 경우의 프레임 구조의 일 예를 나타내며, 도 30은 부반송파 간격이 3.75kHz인 경우의 프레임 구조의 일 예를 나타낸다. 다만, NB-IoT 프레임 구조는 이에 한정되는 것은 아니며, 다른 부반송파 간격(예, 30kHz 등)에 대한 NB-IoT도 시간/주파수 단위를 달리하여 고려될 수 있음은 물론이다.

또한, 본 명세에서는 LTE 시스템 프레임 구조에 기반한 NB-IoT 프레임 구조를 예시로 설명하였지만, 이는 설명의 편의를 위한 것일 뿐 이에 한정되는 것은 아니며, 본 명세에서 설명하는 방식이 차세대 시스템(예, NR 시스템)의 프레임 구조에 기반한 NB-IoT에도 확장하여 적용될 수 있다.

도 29를 참조하면, 15kHz 부반송파 간격에 대한 NB-IoT 프레임 구조는 상술한 기존(legacy) 시스템(예, LTE 시스템)의 프레임 구조와 동일하게 설정될 수 있다. 예를 들어, 10ms NB-IoT 프레임은 1ms NB-IoT 서브프레임 10개를 포함하며, 1ms NB-IoT 서브프레임은 0.5ms NB-IoT 슬롯 2개를 포함할 수 있다. 또한, 각각의 0.5ms NB-IoT은 7개의 OFDM 심볼들을 포함할 수 있다.

이와 달리, 도 30을 참조하면, 10ms NB-IoT 프레임은 2ms NB-IoT 서브프레임 5개를 포함하며, 2ms NB-IoT 서브프레임은 7개의 OFDM 심볼들과 하나의 보호 기간(guard period, GP)을 포함할 수 있다. 또한, 상기 2ms NB-IoT 서브프레임은 NB-IoT 슬롯 또는 NB-IoT RU(resource unit) 등으로 표현될 수도 있다.

다음으로, 하향링크 및 상향링크 각각에 대한 NB-IoT의 물리 자원을 살펴본다.

먼저, NB-IoT 하향링크의 물리 자원은 시스템 대역폭이 특정 개수의 RB(예, 1개의 RB 즉, 180kHz)로 한정되는 것을 제외하고는, 다른 무선 통신 시스템(예, LTE 시스템, NR 시스템 등)의 물리 자원을 참고하여 설정될 수 있다. 일례로, 상술한 바와 같이 NB-IoT 하향링크가 15kHz 부반송파 간격만을 지원하는 경우, NB-IoT 하향링크의 물리 자원은 상술한 도 31에 나타난 LTE 시스템의 자원 그리드를 주파수 도메인 상의 1개 RB로 제한한 자원 영역으로 설정될 수 있다.

다음으로, NB-IoT 상향링크의 물리 자원의 경우에도 하향링크의 경우와 같이 시스템 대역폭은 1개의 RB로 제한되어 구성될 수 있다. 일례로, 상술한 바와 같이 NB-IoT 상향링크가 15kHz 및 3.75kHz 부반송파 간격을 지원하는 경우, NB-IoT 상향링크를 위한 자원 그리드는 도 31과 같이 표현될 수 있다. 이 때, 도 31에서 상향링크 대역의 부반송파 수 NULsc 및 슬롯 기간 Tslot은 아래의 표 9과 같이 주어질 수 있다.

Subcarrier spacing	NULsc	Tslot
△f=3.75kHz	48	6144Ts
△f=15kHz	12	15360Ts

NB-IoT에서는 NB-IoT용 PUSCH(이하, NPUSCH)의 자원 요소들로의 매핑을 위해 자원 유닛(resource unit, RU)들이 사용된다. RU는 시간 도메인 상에서 NULsymb*NULslot개의 SC-FDMA 심볼들로 구성되고, 주파수 도메인 상에서 NRUsc개의 연속적인(consecutive) 부반송파들로 구성될 수 있다. 일례로, NRUsc 및 NULsymb는 FDD용 프레임 구조인 프레임 구조 타입 1의 경우에는 아래의 표 10에 의해 주어지며, TDD용 프레임 구조인 프레임 구조 타입 2의 경우 표 11에 의해 주어질 수 있다.

NPUSCH format	△f	NRUsc	NULslots	NULsymb
1	3.75 kHz	1	16	7
	15 kHz	1	16
		3	8
		6	4
		12	2
2	3.75 kHz	1	4
2	15 kHz	1	4

NPUSCH format	△f	Supported uplink-downlink configurations	NRUsc	NULslots	NULsymb
1	3.75 kHz	1, 4	1	16	7
	15 kHz	1, 2, 3, 4, 5	1	16
			3	8
			6	4
			12	2
2	3.75 kHz	1, 4	1	4
2	15 kHz	1, 2, 3, 4, 5	1	4

NB-IoT의 물리 채널

NB-IoT를 지원하는 BS 및/또는 UE는 기존의 시스템과 별도로 설정된 물리 채널 및/또는 물리 신호를 전송/수신하도록 설정될 수 있다. 이하, NB-IoT에서 지원되는 물리 채널 및/또는 물리 신호와 관련된 구체적인 내용에 대해 살펴본다.

NB-IoT 하향링크에는 15kHz의 부반송파 간격에 기반하여 OFDMA(Orthogonal Frequency Division Multiple Access) 방식이 적용될 수 있다. 이를 통해, 부반송파 간 직교성(orthogonality)을 제공하여 다른 시스템(예, LTE 시스템, NR 시스템)과의 공존(co-existence)이 효율적으로 지원될 수 있다. NB-IoT 시스템의 하향링크 물리 채널/신호는 기존의 시스템과의 구분을 위하여 'N(Narrowband)'이 추가된 형태로 표현될 수 있다. 예를 들어, 하향링크 물리 채널은 NPBCH(Narrowband Physical Broadcast Channel), NPDCCH(Narrowband Physical Downlink Control Channel), NPDSCH(Narrowband Physical Downlink Shared Channel) 등으로 지칭되며, 하향링크 물리 신호는 NPSS(Narrowband Primary Synchronization Signal), NSSS(Narrowband Secondary Synchronization Signal), NRS(Narrowband Reference Signal), NPRS(Narrowband Positioning Reference Signal), NWUS(Narrowband Wake Up Signal) 등으로 지칭될 수 있다. 일반적으로, NB-IoT의 하향링크 물리 채널 및 물리 신호는 시간 도메인 다중화 방식 및/또는 주파수 도메인 다중화 방식에 기반하여 전송되도록 설정될 수 있다. NB-IoT 시스템의 하향링크 채널인 NPBCH, NPDCCH, NPDSCH 등의 경우, 커버리지 향상(coverage enhancement)을 위하여 반복 전송(repetition transmission)이 수행될 수 있다. 또한, NB-IoT는 새롭게 정의된 DCI 포맷을 사용하며, 일례로 NB-IoT를 위한 DCI 포맷은 DCI 포맷 N0, DCI 포맷 N1, DCI 포맷 N2 등으로 정의될 수 있다.

NB-IoT 상향링크에는 15kHz 또는 3.75kHz의 부반송파 간격에 기반하여 SC-FDMA(Single Carrier Frequency Divison Multiple Access) 방식이 적용될 수 있다. 하향링크 부분에서 언급한 것과 같이, NB-IoT 시스템의 물리 채널은 기존의 시스템과의 구분을 위하여 'N(Narrowband)'이 추가된 형태로 표현될 수 있다. 예를 들어, 상향링크 물리 채널은 NPRACH(Narrowband Physical Random Access Channel) 및 NPUSCH(Narrowband Physical Uplink Shared Channel) 등으로 표현되고, 상향링크 물리 신호는 NDMRS(Narrowband Demodulation Reference Signal) 등으로 표현될 수 있다. NPUSCH는 NPUSCH 포맷 1과 NPUSCH 포맷 2 등으로 구분될 수 있다. 일례로, NPUSCH 포맷 1은 상향링크 공유 채널(uplink shared channel, UL-SCH) 전송(또는 운반)을 위해 이용되며, NPUSCH 포맷 2는 HARQ ACK 시그널링 등과 같은 상향링크 제어 정보 전송을 위해 이용될 수 있다. NB-IoT 시스템의 상향링크 채널인 NPRACH 등의 경우, 커버리지 향상(coverage enhancement)을 위하여 반복 전송(repetition transmission)이 수행될 수 있다. 이 경우, 반복 전송은 주파수 호핑(frequency hopping)이 적용되어 수행될 수도 있다.

NB-IoT의 다중 반송파 동작

다음으로, NB-IoT의 다중 반송파 동작에 대해 살펴본다. 다중 반송파 동작은 NB-IoT에서 BS 및/또는 UE가 상호 간에 채널 및/또는 신호를 전송/수신함에 있어서 용도가 서로 다르게 설정된(즉, 타입이 다른) 다수의 반송파들이 이용되는 것을 의미할 수 있다.

NB-IoT는 다중 반송파 모드로 동작할 수 있다. 이 때, NB-IoT에서 반송파는 앵커 타입의 반송파(anchor type carrier)(즉, 앵커 반송파(anchor carrier), 앵커 PRB) 및 비-앵커 타입의 반송파(non-anchor type carrier)(즉, 비-앵커 반송파(non-anchor carrier), 비-앵커 PRB)로 구분될 수 있다.

앵커 반송파는 BS 관점에서 초기 접속(initial access)을 위해 NPSS, NSSS, NPBCH, 및 시스템 정보 블록(N-SIB)를 위한 NPDSCH 등을 전송하는 반송파를 의미할 수 있다. 즉, NB-IoT에서 초기 접속을 위한 반송파는 앵커 반송파로 지칭되고, 그 외의 것(들)은 비-앵커 반송파로 지칭될 수 있다. 이 때, 앵커 반송파는 시스템 상에서 하나만 존재하거나, 다수의 앵커 반송파들이 존재할 수도 있다.

NB-IoT의 동작 모드

다음으로, NB-IoT의 동작 모드에 대해 살펴본다. NB-IoT 시스템에서는 3개의 동작 모드들이 지원될 수 있다. 도 32는 NB-IoT 시스템에서 지원되는 동작 모드들의 일 예를 나타낸다. 본 명세서에서는 NB-IoT의 동작 모드가 LTE 대역에 기반하여 설명되지만, 이는 설명의 편의를 위한 것일 뿐, 다른 시스템의 대역(예, NR 시스템 대역)에 대해서도 확장되어 적용될 수 있다.

구체적으로, 도 32(a)는 인-밴드(in-band) 시스템의 일례를 나타내며, 도 32(b)는 가드-밴드(guard-band) 시스템의 일례를 나타내며, 도 32(c)는 독립형(stand-alone) 시스템의 일례를 나타낸다. 이 때, 인-밴드 시스템은 인-밴드 모드(in-band mode)로, 가드-밴드 시스템은 가드-밴드 모드(guard-band mode)로, 독립형 시스템은 독립형 모드(stand-alone mode)로 표현될 수 있다.

인-밴드 시스템은 (legacy) LTE 대역 내 특정 1개 RB를 NB-IoT를 위해 사용하는 시스템 또는 모드를 의미할 수 있다. 인-밴드 시스템은 LTE 시스템 반송파의 일부 자원 블록을 할당하여 운용될 수 있다.

가드-밴드 시스템은 (legacy) LTE 밴드의 가드-밴드를 위해 비워놓은(reserved) 공간에 NB-IoT를 사용하는 시스템 또는 모드를 의미할 수 있다. 가드-밴드 시스템은 LTE 시스템에서 자원 블록으로 사용되지 않는 LTE 반송파의 가드-밴드를 할당하여 운용될 수 있다. 일례로, (legacy) LTE 대역은 각 LTE 대역의 마지막에 최소 100kHz의 가드-밴드를 가지도록 설정될 수 있는데, NB-IoT를 위한 200kHz를 위해 2개의 비-연속적인(non-contiguous) 가드-밴드들이 이용될 수 있다.

상술한 것과 같이, 인-밴드 시스템 및 가드-밴드 시스템은 (legacy) LTE 대역 내에 NB-IoT가 공존하는 구조에서 운용될 수 있다.

이에 반해, 독립형 시스템은 (legacy) LTE 대역으로부터 독립적으로 구성된 시스템 또는 모드를 의미할 수 있다. 독립형 시스템은 GERAN(GSM EDGE Radio Access Network)에서 사용되는 주파수 대역(예, 향후 재할당된 GSM 반송파)을 별도로 할당하여 운용될 수 있다.

상술한 3개의 동작 모드들은 각각 독립적으로 운용되거나, 둘 이상의 동작 모드들이 조합되어 운용될 수도 있다.

NB-IoT 신호 전송/수신 과정

도 33은 NB-IoT에 이용될 수 있는 물리 채널들 및 이들을 이용한 일반적인 신호 전송 방법의 일 예를 나타낸 도이다. 무선 통신 시스템에서 NB-IoT UE는 BS로부터 하향링크(DL)를 통해 정보를 수신하고, NB-IoT UE는 BS으로 상향링크(UL)를 통해 정보를 전송할 수 있다. 다시 말해, 무선 통신 시스템에서 BS는 NB-IoT UE로 하향링크를 통해 정보를 전송하고, BS는 NB-IoT UE로부터 상향링크를 통해 정보를 수신할 수 있다.

BS와 NB-IoT UE가 전송/수신하는 정보는 데이터 및 다양한 제어 정보를 포함하고, 이들이 전송/수신하는 정보의 종류/용도에 따라 다양한 물리 채널이 존재할 수 있다. NB-IoT의 신호 전송/수신 방법은 상술한 무선 통신 장치(예, BS 및 UE)에 의해 수행될 수 있다.

전원이 꺼진 상태에서 다시 전원이 켜지거나, 새로이 셀에 진입한 NB-IoT UE는 BS와 동기를 맞추는 등의 초기 셀 탐색(Initial cell search) 작업을 수행할 수 있다(S11). 이를 위해 NB-IoT UE는 BS로부터 NPSS 및 NSSS를 수신하여 BS와의 동기화(synchronizatoin)를 수행하고, 셀 ID(cell identity) 등의 정보를 획득할 수 있다. 또한, NB-IoT UE는 BS로부터 NPBCH를 수신하여 셀 내 브로드캐스트 정보를 획득할 수 있다. 또한, NB-IoT UE는 초기 셀 탐색 단계에서 DL RS(Downlink Reference Signal)를 수신하여 하향링크 채널 상태를 확인할 수도 있다.

초기 셀 탐색을 마친 NB-IoT UE는 NPDCCH 및 이에 대응되는 NPDSCH를 수신하여 좀더 구체적인 시스템 정보를 획득할 수 있다(S12). 다시 말해, BS는 초기 셀 탐색을 마친 NB-IoT UE에게 NPDCCH 및 이에 대응되는 NPDSCH를 전송하여 좀더 구체적인 시스템 정보를 전달할 수 있다.

이후, NB-IoT UE는 BS에 접속을 완료하기 위해 임의 접속 과정(Random Access Procedure)을 수행할 수 있다(S13 내지 S16).

구체적으로, NB-IoT UE는 NPRACH를 통해 프리앰블(preamble)을 BS으로 전송할 수 있으며(S13), 상술한 바와 같이 NPRACH는 커버리지 향상 등을 위하여 주파수 호핑 등에 기반하여 반복 전송되도록 설정될 수 있다. 다시 말해, BS는 NB-IoT UE로부터 NPRACH를 통해 프리앰블을 (반복적으로) 수신할 수 있다.

이후, NB-IoT UE는 NPDCCH 및 이에 대응하는 NPDSCH를 통해 프리앰블에 대한 RAR(Random Access Response)을 BS로부터 수신할 수 있다(S14). 다시 말해, BS는 NPDCCH 및 이에 대응하는 NPDSCH를 통해 프리앰블에 대한 RAR(Random Access Response)를 NB-IoT UE로 전송할 수 있다.

이후, NB-IoT UE는 RAR 내의 스케줄링 정보를 이용하여 NPUSCH를 BS으로 전송하고(S15), NPDCCH 및 이에 대응하는 NPDSCH과 같은 충돌 해결 과정(Contention Resolution Procedure)를 수행할 수 있다(S16). 다시 말해, BS는 NB-IoT RAR 내의 스케줄링 정보를 이용하여 NPUSCH를 UE로부터 수신하고, 상기 충돌 해결 과정을 수행할 수 있다.

상술한 바와 같은 과정을 수행한 NB-IoT UE는 이후 일반적인 상향/하향링크 신호 전송 과정으로서 NPDCCH/NPDSCH 수신(S17) 및 NPUSCH 전송(S18)을 수행할 수 있다. 다시 말해, 상술한 과정들을 수행한 후, BS는 NB-IoT UE로 일반적인 신호 전송/수신 과정으로서 NPDCCH/NPDSCH 전송 및 NPUSCH 수신을 수행할 수 있다.

NB-IoT의 경우, 앞서 언급한 바와 같이 NPBCH, NPDCCH, NPDSCH 등은 커버리지 향상 등을 위하여 반복 전송될 수 있다. 또한, NB-IoT의 경우 NPUSCH를 통해 UL-SCH(즉, 일반적인 상향링크 데이터) 및 상향링크 제어 정보가 전달될 수 있다. 이 때, UL-SCH 및 상향링크 제어 정보(uplink control information, UCI)는 각각 다른 NPUSCH 포맷(예, NPUSCH 포맷 1, NPUSCH 포맷 2 등)을 통해 전송되도록 설정될 수도 있다.

또한, UCI는 HARQ ACK/NACK(Hybrid Automatic Repeat and reQuest Acknowledgement/Negative-ACK), SR(Scheduling Request), CSI(Channel State Information) 등을 포함할 수 있다. 상술한 바와 같이, NB-IoT에서 UCI는 일반적으로 NPUSCH를 통해 전송될 수 있다. 또한, 네트워크(예: BS)의 요청/지시에 따라 UE는 NPUSCH를 통해 UCI를 주기적(perdiodic), 비주기적(aperdiodic), 또는 반-지속적(semi-persistent)으로 전송할 수 있다.

이하, 전술한 도 1의 무선 통신 시스템 블록 구성도를 구체적으로 설명한다.

N. 무선 통신 장치

도 1을 참조하면, 무선 통신 시스템은 제 1 통신 장치(910) 및/또는 제 2 통신 장치(920)을 포함한다. 'A 및/또는 B'는 'A 또는 B 중 적어도 하나를 포함한다'와 동일한 의미로 해석될 수 있다. 제 1 통신 장치가 BS를 나타내고, 제 2 통신 장치가 UE를 나타낼 수 있다(또는 제 1 통신 장치가 UE를 나타내고, 제 2 통신 장치가 BS를 나타낼 수 있다).

제 1 통신 장치와 제 2 통신 장치는 프로세서(processor, 911,921), 메모리(memory, 914,924), 하나 이상의 Tx/Rx RF 모듈(radio frequency module, 915,925), Tx 프로세서(912,922), Rx 프로세서(913,923), 안테나(916,926)를 포함한다. Tx/Rx 모듈은 트랜시버라고도 한다. 프로세서는 앞서 살핀 기능, 과정 및/또는 방법을 구현한다. 보다 구체적으로, DL(제 1 통신 장치에서 제 2 통신 장치로의 통신)에서, 코어 네트워크로부터의 상위 계층 패킷은 프로세서(911)에 제공된다. 프로세서는 레이어 2(즉, L2) 계층의 기능을 구현한다. DL에서, 프로세서는 논리 채널과 전송 채널 간의 다중화(multiplexing), 무선 자원 할당을 제 2 통신 장치(920)에 제공하며, 제 2 통신 장치로의 시그널링을 담당한다. 전송(TX) 프로세서(912)는 L1 계층(즉, 물리 계층)에 대한 다양한 신호 처리 기능을 구현한다. 상기 신호 처리 기능은 제 2 통신 장치에서 FEC(forward error correction)을 용이하게 하고, 코딩 및 인터리빙(coding and interleaving)을 포함한다. 인코딩 및 인터리밍을 거친 신호는 스크램블링(scrambling) 및 변조(modulation)을 거쳐 복소 값(complex valued) 변조 심볼들로 변조된다. 변조에는 채널에 따라 BPSK(Binary Phase Shift Keying), QPSK(Quadrature Phase Shift Keying), 16QAM(quadrature amplitude modulation), 64QAM, 246QAM 등이 사용될 수 있다. 복소 값 변조 심볼들(이하, 변조 심볼들)은 병렬 스트림으로 분할되고, 각각의 스트림은 OFDM 부반송파에 매핑되고, 시간 및/또는 주파수 도메인에서 참조 신호(Reference Signal, RS)와 다중화(multiplexing)되며, IFFT (Inverse Fast Fourier Transform)를 사용하여 함께 결합되어 시간 도메인 OFDM 심볼 스트림을 운반하는 물리적 채널을 생성한다. OFDM 심볼 스트림은 다중 공간 스트림을 생성하기 위해 공간적으로 프리코딩된다. 각각의 공간 스트림은 개별 Tx/Rx 모듈(또는 트랜시버,915)를 통해 상이한 안테나(916)에 제공될 수 있다. 각각의 Tx/Rx 모듈은 전송을 위해 각각의 공간 스트림을 RF 반송파로 주파수 상향변환(upconvert)할 수 있다. 제 2 통신 장치에서, 각각의 Tx/Rx 모듈(또는 트랜시버,925)는 각 Tx/Rx 모듈의 각 안테나(926)을 통해 RF 반송파의 신호를 수신한다. 각각의 Tx/Rx 모듈은 상기 RF 반송파의 신호를 기저대역(baseband) 신호로 복원하여, 수신(RX) 프로세서(923)에 제공한다. RX 프로세서는 L1(즉, 물리 계층)의 다양한 신호 프로세싱 기능을 구현한다. RX 프로세서는 제 2 통신 장치로 향하는 임의의 공간 스트림을 복구하기 위해 정보에 공간 프로세싱을 수행할 수 있다. 만약 다수의 공간 스트림들이 제 2 통신 장치로 향하는 경우, 다수의 RX 프로세서들에 의해 단일 OFDMA 심볼 스트림으로 결합될 수 있다. RX 프로세서는 고속 푸리에 변환 (FFT)을 사용하여 시간 도메인 신호인 OFDM 심볼 스트림을 주파수 도메인 신호로 변환한다. 주파수 도메인 신호는 OFDM 신호의 각각의 부반송파에 대한 개별적인 OFDM 심볼 스트림을 포함한다. 각각의 부반송파 상의 변조 심볼들 및 참조 신호는 제 1 통신 장치에 의해 전송된 가장 가능성 있는 신호 성상(constellation) 포인트들을 결정함으로써 복원되고 복조된다. 이러한 연 판정(soft decision)들은 채널 추정 값들에 기초할 수 있다. 연판정들은 물리 채널 상에서 제 1 통신 장치에 의해 원래 전송된 데이터 및 제어 신호를 복원하기 위해 디코딩 및 디인터리빙된다. 해당 데이터 및 제어 신호는 프로세서(921)에 제공된다.

UL(제 2 통신 장치에서 제 1 통신 장치로의 통신)은 제 2 통신 장치(920)에서 수신기 기능과 관련하여 기술된 것과 유사한 방식으로 제 1 통신 장치(910)에서 처리된다. 각각의 Tx/Rx 모듈(925)는 각각의 안테나(926)을 통해 신호를 수신한다. 각각의 Tx/Rx 모듈은 RF 반송파 및 정보를 RX 프로세서(923)에 제공한다. 프로세서 (921)는 프로그램 코드 및 데이터를 저장하는 메모리 (924)와 관련될 수 있다. 메모리는 컴퓨터 판독 가능 매체로서 지칭될 수 있다.

앞서 살핀 5G 통신 기술은 후술할 본 명세서에서 제안하는 방법들과 결합되어 적용될 수 있으며, 또는 본 명세서에서 제안하는 방법들의 기술적 특징을 구체화하거나 명확하게 하는데 보충될 수 있다.

이하, 도 34 내지 도 53을 참조하여, 본 발명의 실시예에 따른 응답 기기 결정 방법 및 응답 기기 결정 장치에 대하여 상세히 설명한다.

도 34는 본 발명의 일 실시예에 따른 IoT 시스템을 도시한다.

도 34에 도시된 바와 같이, 본 발명의 일 실시예에 따르면, 사용자(1)가 기동어(“Hi LG”)을 발화하면, 복수의 IoT 기기(2A, 2B, 2C)는 기동어(“Hi LG”)을 각 IoT 기기에 포함된 통신부(미도시)를 통해 수신할 수 있다. 여기서, 스마트 TV(2A), 공기 청정기(2B) 및 스마트 냉장고(2C)는 각각 사용자(1)로부터 서로 다른 거리에 위치할 수 있다.

스마트 TV(2A), 공기 청정기(2B) 및 스마트 냉장고(2C)는 각각 사용자(1)로부터 수신한 기동어에 대하여, 각 기기로부터 사용자 사이의 거리를 인디케이팅 할 수 있는 복수의 형태의 거리 정보를 생성할 수 있다.

예를 들면, 스마트 TV(2A), 공기 청정기(2B) 및 스마트 냉장고(2C)는 각각 사용자(1)로부터 기동어를 음성 신호의 형태로 인식하고, 음성 신호를 분석하여 거리 정보를 획득할 수 있으며, 각 IoT 기기에서 생성한 거리 정보를 응답 기기 결정 장치(3)로 전송할 수 있다.

다른 예를 들면, 스마트 TV(2A), 공기 청정기(2B) 및 스마트 냉장고(2C)는 각각 사용자(1)로부터 기동어를 음성 신호의 형태로 인식하고, 음성 신호를 외부의 응답 기기 결정 장치(예: 서버(3))로 전송하고, 응답 기기 결정 장치는 전송된 음성 신호를 분석하여 거리 정보를 획득할 수 있다.

서버(3)는 각 IoT 기기로부터 수신된 서로 다른 값을 가지는 거리 정보에 기반하여 각 IoT 기기에 대한 서로 다른 제1 선택 확률 및 제2 선택 확률 중 적어도 하나에 기반하여 응답 기기를 결정할 수 있다.

도 35는 도 34의 IoT 기기의 세부 구성을 도시한 블록도이다.

도 35에 도시된 바와 같이, 본 발명의 일 실시예에 따르면, IoT 기기(2)는 무선 통신부(21), 입력부(22), 메모리(23), 전원 공급부(24), 출력부(26) 및 무선 통신부(21), 입력부(22), 메모리(23), 전원 공급부(24) 및 출력부(26)를 제어하는 프로세서(25)를 포함할 수 있다.

무선 통신부(21)는 입력부에 의해 수신된 음성 신호를 프로세서(25)로 전달할 수 있다. 또한, 무선 통신부(21)는 응답 기기로 결정되었다는 알림 또는 응답 기기로 결정되지 않았다는 알림을 외부의 응답 기기 결정 장치로부터 수신할 수 있다.

무선 통신부(21)는 IoT 기기(2)와 무선 통신 시스템 사이, IoT 기기(2)와 다른 IoT 기기 사이, 또는 IoT 기기(2)와 외부 서버 사이의 무선 통신을 가능하게 하는 하나 이상의 모듈을 포함할 수 있다. 또한, 무선 통신부(21)는, IoT 기기(2)를 하나 이상의 네트워크에 연결하는 하나 이상의 모듈을 포함할 수 있다.

무선 통신부(21)는 외부의 IoT 기기 또는 다른 외부 장치(예를 들면, 외부 서버 또는 클라우드)와 데이터를 송수신할 수 있는 이동 통신부(211) 및 근거리 통신부(212)를 포함할 수 있다.

이동 통신부(211)는 이동통신을 위한 기술표준들 또는 통신방식(예를 들어, GSM(Global System for Mobile communication), CDMA(Code Division Multi Access), CDMA2000(Code Division Multi Access 2000), EV-DO(Enhanced Voice-Data Optimized or Enhanced Voice-Data Only), WCDMA(Wideband CDMA), HSDPA(High Speed Downlink Packet Access), HSUPA(High Speed Uplink Packet Access), LTE(Long Term Evolution), LTE-A(Long Term Evolution-Advanced) 등)에 따라 구축된 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신한다. 상기 무선 신호는, 음성 호 신호, 화상 통화 호 신호 또는 문자/멀티미디어 메시지 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다.

근거리 통신부(212)는 근거리 통신(Short range communication)을 위한 것으로서, 블루투스(Bluetooth™), RFID(Radio Frequency Identification), 적외선 통신(Infrared Data Association; IrDA), UWB(Ultra Wideband), ZigBee, NFC(Near Field Communication), Wi-Fi(Wireless-Fidelity), Wi-Fi Direct, Wireless USB(Wireless Universal Serial Bus) 기술 중 적어도 하나를 이용하여, 근거리 통신을 지원할 수 있다. 이러한, 근거리 통신부(212)는, 근거리 무선 통신망(Wireless Area Networks)을 통해 IoT 기기(2)와 무선 통신 시스템 사이, IoT 기기(2)와 다른 IoT 기기 사이, 또는 IoT 기기(2)와 다른 IoT 기기가 위치한 네트워크 사이의 무선 통신을 지원할 수 있다. 근거리 무선 통신망은 근거리 무선 개인 통신망(Wireless Personal Area Networks)일 수 있다.

입력부(22)는 오디오 정보(또는 신호), 데이터, 또는 사용자로부터 입력되는 정보의 입력을 위한 인터페이스를 포함할 수 있다. 입력부(22)는 외부의 기동어를 인식하기 위한 마이크(221)를 포함할 수 있다.

마이크(221)는 외부의 음향 신호를 전기적인 음성 데이터로 처리한다. 처리된 음성 데이터는 IoT 기기(2)에서 수행 중인 기능(또는 실행 중인 응용 프로그램)에 따라 다양하게 활용될 수 있다. 한편, 마이크(221)에는 외부의 음향 신호를 입력 받는 과정에서 발생되는 잡음(noise)을 제거하기 위한 다양한 잡음 제거 알고리즘이 구현될 수 있다.

메모리(23)는 IoT 기기(2)의 다양한 기능을 지원하는 데이터를 저장한다. 메모리(170)는 IoT 기기(2)에서 구동되는 다수의 응용 프로그램(application program 또는 애플리케이션(application)), IoT 기기(2)의 동작을 위한 데이터들, 명령어들을 저장할 수 있다. 이러한 응용 프로그램 중 적어도 일부는, 무선 통신을 통해 외부 서버로부터 다운로드 될 수 있다. 또한 이러한 응용 프로그램 중 적어도 일부는, IoT 기기(2)의 기본적인 기능(예를 들어, 데이터 수신, 전송 기능)을 위하여 출고 당시부터 IoT 기기(2)상에 존재할 수 있다. 한편, 응용 프로그램은, 메모리(23)에 저장되고, IoT 기기(2) 상에 설치되어, 프로세서(25) 의하여 상기 IoT 기기(2)의 동작(또는 기능)을 수행하도록 구동될 수 있다.

전원 공급부(24)는 프로세서(25)의 제어 하에서, 외부의 전원, 내부의 전원을 인가받아 IoT 기기(2)에 포함된 각 구성요소들에 전원을 공급한다. 이러한 전원공급부(24)는 배터리를 포함하며, 상기 배터리는 내장형 배터리 또는 교체가능한 형태의 배터리가 될 수 있다.

출력부(26)는 프로세서(25)의 제어에 기반하여 오디오 신호를 출력하는 음향 출력부(261)를 포함할 수 있따. 출력부(26)는 프로세서(25)의 제어에 기반하여 촉각 신호를 출력하는 알람부(262)를 포함할 수 있다.

프로세서(25)는, 예를 들면, 전달된 기동어를 인식한 음성 신호를 분석할 수 있다. 프로세서(25)는 음성 신호를 분석하여 기동어를 발화한 위치(사용자의 위치)로부터 해당 IoT 기기(2)까지의 거리에 관한 특징을 포함하는 서로 다른 형태의 복수의 거리 정보를 생성할 수 있다. 다른 예를 들면, 프로세서(25)는 응답 기기 결정 장치(3)가 음성 신호를 분석하여 복수의 거리 정보를 생성할 수 있도록, 기동어를 인식한 음성 신호를 응답 기기 결정 장치(3)로 전송할 수 있다.

프로세서(25)는 상기와 같은 음성 신호에 대한 분석을 수행하기 위한 음성 처리 인터페이스를 포함할 수 있다.

이하, 도 36 및 도 37을 통해, IoT 기기 환경(IoT device environment) 및/또는 클라우드 환경(cloud environment or server environment)에서 수행되는 음성 처리 과정을 설명한다.

도 36는 음성을 입력받는 것은 IoT 기기(2)에서 이루어질 수 있으나, 입력된 음성을 처리하여 음성을 합성하는 과정 즉 음성 처리의 전반적인 동작이 클라우드 환경(26)에서 이루어지는 예를 도시한 것이다. 이에 반해, 도 37는 전술한 입력된 음성을 처리하여 음성을 합성하는 음성 처리의 전반적인 동작이 IoT 기기(12)에서 이루어지는 온 디바이스 프로세싱(On-device processing)의 예를 도시한 것이다.

도 36 및 도 37에서 IoT 기기 환경(2,12)는 IoT 기기로 호칭될 수 있으며, 클라우드 환경(26, 126)은 서버로 호칭될 수 있다.

도 36는 도 35의 프로세서의 세부 구성에 관한 하나의 예를 도시한 블록도이다.

엔드 투 엔드(end-to-end) 음성 UI 환경에서 음성 이벤트를 처리하기 위해서는 다양한 구성요소가 필요하다. 음성 이벤트를 처리하는 시퀀스는 음성 신호를 수집하여(Signal acquisition and playback), 음성 사전 처리(Speech Pre Processing), 음성 활성화(Voice Activation), 음성 인식(Speech Recognition), 자연어 이해(Natural Language Processing), 거리 정보 추출 및 최종적으로 IoT 기기가 응답 기기 결정 장치로 거리 정보를 전송하는 과정을 수행한다.

IoT 기기(2)는 입력 모듈을 포함할 수 있다. 상기 입력 모듈은 사용자로부터 사용자 입력을 수신할 있다. 예를 들어, 입력 모듈은 연결된 외부 장치(예를 들어, 키보드, 헤드셋)으로부터 사용자 입력을 수신할 수 있다. 또한 예를 들어, 입력 모듈은 터치 스크린을 포함할 수 있다. 또한 예를 들어, 입력 모듈은 사용자 단말에 위치한 하드웨어 키를 포함할 수 있다. 입력 모듈은 도 35의 입력부(22)가 될 수 있다.

일 실시예에 의하면, 상기 입력 모듈은 사용자의 발화를 음성 신호로 수신할 수 있는 적어도 하나의 마이크를 포함할 수 있다. 상기 입력 모듈은 발화 입력 시스템(speech input system)을 포함하고, 상기 발화 입력 시스템을 통해 사용자의 발화를 음성 신호로 수신할 수 있다. 상기 적어도 하나의 마이크는 오디오 입력을 위한 입력 신호를 생성함으로써, 유저의 발화에 대한 디지털 입력 신호를 결정할 수 있다. 일 실시예에 의하면, 복수의 마이크가 어레이로 구현될 수 있다. 어레이는 기하학적 패턴, 예를 들어, 선형 기하학적 형태, 원형 기하학적 형태 또는 임의의 다른 구성으로 배열될 수 있다. 예를 들어, 소정 지점에 대하여, 네 개의 센서들의 어레이는 네 개의 방향들로부터 사운드를 수신하기 위해 90도로 구분되어 원형의 패턴으로 배치될 수 있다. 일부 구현들에서, 상기 마이크는 데이터 통신 내 공간적으로 서로 다른 어레이의 센서들을 포함할 수 있는데, 센서들의 네트워크화된 어레이가 포함될 수 있다. 마이크는 무지향성(omnidirectional), 방향성(directional, 예를 들어, 샷건(shotgun) 마이크)등을 포함할 수 있다.

IoT 기기(2)는 상기 입력 모듈(예를 들어, 마이크)을 통해 수신된 사용자 입력(음성 신호)를 전처리할 수 있는 전처리 모듈(pre-processing module)(251)을 포함할 수 있다.

상기 전처리 모듈(251)은 적응 반향 제거(adaptive echo canceller, AEC) 기능을 포함함으로써, 상기 마이크를 통해 입력된 사용자 음성 신호에 포함된 에코(echo)를 제거할 수 있다. 상기 전처리 모듈(251)은 노이즈 억제(noise suppression, NS) 기능을 포함함으로써, 사용자 입력에 포함된 배경 잡음을 제거할 수 있다. 상기 전처리 모듈(251)은 종점 검출(end-point detect, EPD) 기능을 포함함으로써, 사용자 음성의 종점을 검출하여 사용자의 음성이 존재하는 부분을 찾을 수 있다. 또한, 상기 전처리 모듈(251)은 자동 이득 제어(automatic gain control, AGC) 기능을 포함함으로써, 상기 사용자 입력을 인식하여 처리하기 적합하도록 상기 사용자 입력의 음량을 조절할 수 있다.

IoT 기기(2)는 음성 인식 활성화(voice activation) 모듈(252)을 포함할 수 있다. 상기 음성인식 활성화 모듈(252)은 사용자의 호출을 인식하는 웨이크업(wake up) 명령을 인식할 수 있다. 상기 음성인식 활성화 모듈(252)은 전처리 과정을 거친 사용자 입력으로부터 소정의 키워드(ex, Hi LG)를 디텍트할 수 있다. 상기 음성인식 활성화 모듈(252)은 대기 상태로 존재하여 올 웨이즈 온 키워드 디텍트(Always-on keyword detection) 기능을 수행할 수 있다.

IoT 기기(2)는 사용자로부터 발화된 기동어를 전처리하여 획득한 오디오 신호를 분석하여, 오디오 신호로부터 거리 정보를 추출하는 거리 정보 추출 모듈(Distance Feature Extractor)(253)을 포함할 수 있으나, 반드시 이에 한정될 필요는 없고, IoT 기기(2)가 아닌 응답 기기 결정 장치가 직접 오디오 신호로부터 거리 정보를 추출할 수도 있다.

IoT 기기(2)는 사용자 음성 입력을 클라우드 서버로 전송할 수 있다. 사용자 음성을 처리하기 위한 핵심 구성인 자동 음성 인식(ASR), 자연어 이해(NLU) 동작은 컴퓨팅, 저장, 전원 제약 등으로 인해 전통적으로 클라우드에서 실행되고 있는 것이 일반적이다. 상기 클라우드는 클라이언트로부터 전송된 사용자 입력을 처리하는 클라우드 디바이스(26)를 포함할 수 있다. 상기 클라우드 디바이스(26)는 서버 형태로 존재할 수 있다.

클라우드 디바이스(26)는 자동 음성 인식(Auto Speech Recognition, ASR) 모듈(261), 지능형 에이전트(Artificial Intelligent Agent)(262), 자연어 이해(Natural Language Understanding, NLU) 모듈(263), 텍스트 음성 변환(Text-to-Speech, TTS) 모듈(264)과, 서비스 매니저(265)를 포함할 수 있다.

ASR 모듈(261)은 IoT 기기(2)로부터 수신된 사용자 음성 입력을 텍스트 데이터로 변환할 수 있다.

ASR 모듈(261)은 프론트-엔드 스피치 프리프로세서(front-end speech pre-processor)를 포함한다. 프론트-엔드 스피치 프리프로세서는 스피치 입력으로부터 대표적인 특징을 추출한다. 예를 들어, 프론트-엔드 스피치 프리프로세서는 스피치 입력을 푸리에 변환을 수행하여 대표적인 다차원 벡터의 시퀀스로서 스피치 입력을 특징짓는 스펙트럼 특징을 추출한다. 또한, ASR 모듈(261)은 하나 이상의 스피치 인식 모델(예컨대, 음향 모델 및/또는 언어 모델)을 포함하고, 하나 이상의 스피치 인식 엔진을 구현할 수 있다. 스피치 인식 모델의 예는 은닉 마르코프 모델(hidden Markov models), 가우시안 혼합 모델(Gaussian-Mixture Models), 딥 신경망 모델(Deep Neural Network Models), n-gram 언어 모델, 및 기타 통계 모델을 포함한다. 스피치 인식 엔진의 예는 동적 시간 왜곡 기반 엔진 및 가중치 유한 상태 변환기(WFST) 기반 엔진을 포함한다. 하나 이상의 스피치 인식 모델 및 하나 이상의 스피치 인식 엔진은 중간 인식 결과들(예를 들어, 음소, 음소 문자열, 및 하위 단어들), 및 궁극적으로 텍스트 인식 결과들(예컨대, 단어, 단어 문자열, 또는 토큰들의 시퀀스)을 생성하기 위해 프론트-엔드 스피치 프리프로세서의 추출된 대표 특징들을 처리하는 데 사용될 수 있다.

ASR 모듈(261)이 텍스트 문자열(예를 들어, 단어들, 또는 단어들의 시퀀스, 또는 토큰들의 시퀀스)을 포함하는 인식 결과를 생성하면, 인식 결과는 의도 추론을 위해 자연 언어 처리 모듈(12532)로 전달된다. 일부 예들에서, ASR 모듈(12530)은 스피치 입력의 다수의 후보 텍스트 표현들을 생성한다. 각각의 후보 텍스트 표현은 스피치 입력에 대응하는 단어들 또는 토큰들의 시퀀스이다.

NLU 모듈(263)은 문법적 분석(Syntactic analyze) 또는 의미적 분석(Semantic analyze)을 수행하여 사용자 의도를 파악할 수 있다. 상기 문법적 분석은 문법 단위(예를 들어, 단어, 구, 형태소 등)를 나누고, 나누어진 단위가 어떠한 문법적인 요소를 갖는지 파악할 수 있다. 상기 의미적 분석은 의미(semantic) 매칭, 룰(rule) 매칭, 포뮬러(formula) 매칭 등을 이용하여 수행할 수 있다. 이에 따라, NUL 모듈(263)은 사용자 입력이 어느 도메인(domain), 의도(intent) 또는 상기 의도를 표현하는데 필요한 파라미터(parameter)를 획득할 수 있다.

상기 NLU 모듈(263)은 도메인, 의도 및 상기 의도를 파악하는데 필요한 파라미터로 나누어진 매핑 규칙을 이용하여 사용자의 의도 및 파라미터를 결정할 수 있다. 예를 들어, 하나의 도메인(예를 들어, 알람)은 복수의 의도(예를 들어, 알람 설정, 알람 해제)를 포함할 수 있고, 하나의 의도는 복수의 파라미터(예를 들어, 시간, 반복 횟수, 알람음 등)을 포함할 수 있다. 복수의 룰은, 예를 들어, 하나 이상의 필수 요소 파라미터를 포함할 수 있다. 상기 매칭 규칙은 자연어 이해 데이터 베이스(Natural Language Understanding Database)에 저장될 수 있다.

상기 NLU 모듈(263)은 형태소, 구 등의 언어적 특징(예를 들어, 문법적 요소)을 이용하여 사용자 입력으로부터 추출된 단어의 의미를 파악하고, 상기 파악된 단어의 의미를 도메인 및 의도에 매칭시켜 사용자의 의도를 결정한다. 예를 들어, NLU 모듈(263)은 각각의 도메인 및 의도에 사용자 입력에서 추출된 단어가 얼마나 포함되어 있는지를 계산하여 사용자 의도를 결정할 수 있다. 일 실시예에 따르면, NLU 모듈(263)은 상기 의도를 파악하는데 기초가된 단어를 이용하여 사용자 입력의 파라미터를 결정할 수 있다. 일 실시예에 따르면, NLU 모듈(263)은 사용자 입력의 의도를 파악하기 위한 언어적 특징이 저장된 자연어 인식 데이터 베이스를 이용하여 사용자의 의도를 결정할 수 있다. 또한 일 실시예에 따르면, NLU 모듈(263)은 개인화 언어 모델(personal language model, PLM)을 이용하여 사용자의 의도를 결정할 수 있다. 예를 들어, NLU 모듈(263)은 개인화된 정보(예를 들어, 연락처 리스트, 음악 리스트, 스케줄 정보, 소셜 네트워크 정보 등)을 이용하여 사용자의 의도를 결정할 수 있다. 상기 개인화 언어 모델은, 예를 들어, 자연어 인식 데이터 베이스에 저장될 수 있다. 일 실시예에 따르면, NLU 모듈(263) 뿐 아니라 ASR 모듈(261)도 자연어 인식 데이터 베이스에 저장된 개인화 언어 모델을 참고하여 사용자 음성을 인식할 수 있다.

NLU 모듈(263)은 자연어 생성 모듈(미도시)을 더 포함할 수 있다. 상기 자연어 생성 모듈은 지정된 정보를 텍스트 형태로 변경할 수 있다. 상기 텍스트 형태로 변경된 정보는 자연어 발화의 형태일 수 있다. 상기 지정된 정보는 예를 들어, 추가 입력에 대한 정보, 사용자 입력에 대응되는 동작의 완료를 안내하는 정보 또는 사용자의 추가 입력을 안내하는 정보 등을 포함할 수 있다. 상기 텍스트 형태로 변경된 정보는 IoT 기기로 전송되어 디스플레이에 표시되거나, TTS 모듈로 전송되어 음성 형태로 변경될 수 있다.

음성 합성 모듈(TTS 모듈, 264)은 텍스트 형태의 정보를 음성 형태의 정보로 변경할 수 있다. TTS 모듈(264)은 NLU 모듈(263)의 자연어 생성 모듈로부터 텍스트 형태의 정보를 수신하고, 상기 텍스트 형태의 정보를 음성 형태의 정보로 변경하여 IoT 기기(2)로 전송할 수 있다. 상기 IoT 기기(2)는 상기 음성 형태의 정보를 스피커를 통해 출력할 수 있다.

음성 합성 모듈(264)은 제공된 텍스트에 기초하여 스피치 출력을 합성한다. 예를 들어, 음성 인식 모듈(ASR)(261)에서 생성된 결과는 텍스트 문자열의 형태이다. 음성 합성 모듈(264)은 텍스트 문자열을 가청 스피치 출력으로 변환한다. 음성 합성 모듈(264)은, 텍스트로부터의 스피치 출력을 생성하기 위하여 임의의 적절한 스피치 합성 기법을 사용하는데, 이는 편집 합성(concatenative synthesis), 단위 선택 합성(unit selection synthesis), 다이폰 합성, 도메인-특정 합성, 포먼트 합성(Formant synthesis), 조음 합성(Articulatory synthesis), HMM(hidden Markov model) 기반 합성, 및 정현파 합성(sinewave synthesis)을 포함하지만 이로 한정되지 않는다.

일부 예들에서, 음성 합성 모듈(264)은 단어들에 대응하는 음소 문자열에 기초하여 개별 단어들을 합성하도록 구성된다. 예를 들어, 음소 문자열은 생성된 텍스트 문자열의 단어와 연관된다. 음소 문자열은 단어와 연관된 메타데이터에 저장된다. 음성 합성 모듈(264)은 스피치 형태의 단어를 합성하기 위해 메타데이터 내의 음소 문자열을 직접 프로세싱하도록 구성된다.

클라우드 환경은 일반적으로 IoT 기기보다 많은 처리 능력 또는 리소스를 갖기 때문에, IoT 측 합성에서 실제보다 높은 품질의 스피치 출력을 획득하는 것이 가능하다. 그러나, 본 발명은 이에 한정되지 않으며, 실제로 음성 합성 과정이 클라이언트 측에서 이루어질 수 있음은 물론이다(도 37 참조)

한편, 본 발명의 일 실시예에 따라 클라우드 환경에는 지능형 에이전트(Artificial Intelligence Agent, AI 에이전트)(262)를 더 포함할 수 있다. 상기 지능형 에이전트(262)는 전술한 ASR 모듈(261), NLU 모듈(262) 및/또는 TTS 모듈(264)이 수행하는 기능 중 적어도 일부의 기능을 수행하도록 설계될 수 있다. 또한 상기 지능형 에이전트 모듈(262)은 ASR 모듈(261), NLU 모듈(262) 및/또는 TTS 모듈(264) 각각의 독립적인 기능을 수행하는데 기여할 수 있다.

상기 지능형 에이전트 모듈(262)은 심층학습(딥러닝)을 통해 전술한 기능들을 수행할 수 있다. 상기 심층학습은 어떠한 데이터가 있을 때 이를 컴퓨터가 알아 들을 수 있는 형태(예를 들어 이미지의 경우는 픽셀정보를 열벡터로 표현하는 등)로 표현(representation)하고 이를 학습에 적용하기 위해 많은 연구(어떻게 하면 더 좋은 표현기법을 만들고 또 어떻게 이것들을 학습할 모델을 만들지에 대한)가 진행되고 있으며, 이러한 노력의 결과로 심층 신경망(DNN, deep neural networks), 합성곱 신경망(CNN, convolutional deep neural networks), 순환 신경망(RNN, Recurrent Boltzmann Machine), 제한 볼츠만 머신(RBM, Restricted Boltzmann Machine), 심층 신뢰 신경망(DBN, deep belief networks), 심층 Q-네트워크(Deep Q-Network)와 같은 다양한 딥 러닝 기법들이 컴퓨터비젼, 음성인식, 자연어처리, 음성/신호처리 등의 분야에 적용될 수 있다.

현재 모든 주요 상업 음성인식 시스템(MS 코타나, 스카이프 번역기, 구글 나우, 애플 시리 등등)이 딥 러닝 기법에 기반하고 있다.

특히, 지능형 에이전트 모듈(262)은 자연어 처리 분야에서 심층 인공신경망 구조를 이용하여 자동 번역(machine translation), 감정 분석(emotion analysis), 정보 검색(information retrieval)을 비롯한 다양한 자연언어처리 과정을 수행할 수 있다.

한편, 상기 클라우드 환경은 다양한 개인화된 정보를 수집하여 상기 지능형 에이전트(262)의 기능을 지원할 수 있는 서비스 매니저(service manager)(265)를 포함할 수 있다. 상기 서비스 매니저를 통해 획득되는 개인화된 정보는, IoT 기기(2)가 클라우드 환경을 통해 이용하는 적어도 하나의 데이터(캘린더 애플리케이션, 메시징 서비스, 뮤직 애플리케이션 사용 등), 상기 IoT 기기(2) 및/또는 클라우드(26)가 수집하는 적어도 하나의 센싱 데이터들(카메라, 마이크로폰, 온도, 습도, 자이로 센서, C-V2X, 펄스(pulse), 조도(Ambient light), 홍채 인식(Iris scan) 등), 상기 IoT 기기(2)와 직접적으로 관련 없는 오프 디바이스 데이터들을 포함할 수 있다. 예를 들어, 상기 개인화된 정보는, 맵(maps), SMS, News, Music, Stock, Weather, wikipedia 정보를 포함할 수 있다.

상기 지능형 에이전트(262)은 설명의 편의를 위해 ASR 모듈(261), NLU 모듈(263) 및 TTS 모듈(264)과 구분되도록 별도의 블럭으로 표현하였으나, 상기 지능형 에이전트(262)는 상기 각 모듈(261,262,264)의 적어도 일부 또는 전부의 기능을 수행할 수도 있다.

이상, 도 36에서는 상기 지능형 에이전트(262)가 컴퓨팅 연산, 저장 및 전원 제약 등으로 인해 클라우드 환경에서 구현되는 예를 설명하였으나, 본 발명은 이에 한정되는 것은 아니다.

예를 들어, 도 37는 상기 지능형 에이전트(AI agent)가 IoT 기기에 포함되어 있는 경우를 제외하고는 도 36에 도시된 바와 동일하다.

도 37에 도시된 IoT 기기(12) 및 클라우드 환경(126)은 도 36에서 언급한 IoT 기기(2) 및 클라우드 환경(26)에 일부 구성 및 기능에 있어서 차이가 있을 뿐 대응될 수 있다. 이에 따라 대응되는 블럭의 구체적인 기능에 대해서는 도 36를 참조할 수 있다.

도 37를 참조하면, IoT 기기(12)는 전처리 모듈(1251), 음성 인식 활성화(voice activation) 모듈(1252), ASR 모듈(1253), 지능형 에이전트(1254), NLU 모듈(1255), TTS 모듈(1256), 거리 정보 추출 모듈(1257)을 포함할 수 있다. 또한, IoT 기기(2)는 입력 모듈(적어도 하나의 마이크로 폰)과, 적어도 하나의 출력 모듈을 포함할 수 있다.

또한, 클라우드 환경은 개인화된 정보를 지식(knowledge) 형태로 저장하는 클라우드 지식(Cloud Knowledge)(126)을 포함할 수 있다.

도 37에 도시된 각 모듈의 기능은 도 36를 참조할 수 있다. 다만, ASR 모듈(1253), NLU 모듈(1255) 및 TTS 모듈(1256)이 IoT 기기(12)에 포함되어 있어서 음성 인식 및 음성 합성 등의 음성 처리 과정을 위해 클라우드와의 통신이 필요하지 않을 수 있으며, 이에 따라 즉각적이고 실시간 음성 처리처리 동작이 가능하게 된다.

도 36 및 도 37에 도시된 각 모듈은 음성 처리 과정을 설명하기 위한 예시일 뿐이며, 도 36 및 도 37에 도시된 모듈보다 더 많거나 더 적은 모듈을 가질 수 있다. 또한, 둘 이상의 모듈을 조합할 수 있거나 또는 상이한 모듈 또는 상이한 배열의 모듈을 가질 수 있다는 것에 유의해야 한다. 도 36 및 도 37에 도시된 다양한 모듈들은 하나 이상의 신호 프로세싱 및/또는 주문형 직접 회로, 하드웨어, 하나 이상의 프로세서에 의한 실행을 위한 소프트웨어 명령어들, 펌웨어 또는 이들의 조합으로 구현될 수 있다.

도 38을 참조하면, 상기 지능형 에이전트(1254)는 도 36 및 도 37를 통해 설명한 음성 처리 과정에서 ASR 동작, NLU 동작, TTS 동작 및 거리 정보 추출 동작을 수행하는 것 외에, 사용자와 상호 작용(interactive operation)을 지원할 수 있다. 또는 상기 지능형 에이전트(1254)는 컨텍스트 정보를 이용하여, NLU 모듈(263)이 ASR 모듈(261)로부터 수신된 텍스트 표현들에 포함된 정보를 보다 명확하게 하고, 보완하거나 추가적으로 정의하는 동작을 수행하는데 기여할 수 있다.

여기서, 컨텍스트 정보는, IoT 기기 사용자의 선호도, IoT 기기의 하드웨어 및/또는 소프트웨어 상태들, 사용자 입력 전, 입력 중, 또는 입력 직후에 수집되는 다양한 센서 정보, 상기 지능형 에이전트와 사용자 사이의 이전 상호 작용들(예를 들어, 대화) 등을 포함할 수 있다. 본 문서에서 컨텍스트 정보는 동적이고, 시간, 위치, 대화의 내용 및 기타 요소들에 따라 가변되는 특징임을 물론이다.

지능형 에이전트(1254)는 컨텍스트 퓨전 및 학습 모듈(12541), 로컬 지식(12542), 다이얼로그 매니지먼트(12543)를 더 포함할 수 있다.

컨텍스트 퓨전 및 학습모듈(12541)은 적어도 하나의 데이터에 기초하여 사용자의 의도를 학습할 수 있다. 상기 적어도 하나의 데이터는 IoT 기기 또는 클라우드 환경에서 획득되는 적어도 하나의 센싱 데이터를 포함할 수 있다. 또한, 상기 적어도 하나의 데이터는 화자 식별(speaker identification), 음향 사건 인지(Acoustic event detection), 화자의 개인 정보(성별 및 나이)(Gender and age detection), 음성 활성도 검출(VAD, voice activity detection), 감정 정보(Emotion Classification) 을 포함할 수 있다.

상기 화자 식별은, 발화하는 사람을 음성에 의해 등록된 대화군 속에서 특정하는 것을 의미할 수 있다. 상기 화자 식별은 기 등록된 화자를 식별하거나, 새로운 화자로 등록하는 과정을 포함할 수 있다. 음향 사건 인지(Acoustic event detection)는 음성 인식 기술을 넘어서 음향 자체를 인식함으로써, 소리의 종류, 소리의 발생 장소를 인지할 수 있다. 음성 활성도 검출(VAD)은 음악, 잡음 또는 다른 사운드를 포함할 수 있는 오디오 신호에서 인간의 스피치(음성)의 존재 또는 부재가 검출되는 스피치 프로세싱 기술이다. 일 예에 따라 지능형 에이전트(1254)는 상기 입력된 오디오 신호로부터 스피치의 존재 여부를 확인할 수 있다. 일 예에 따라 지능형 에이전트(1254)는 심층 신경망(DNN, deep neural networks) 모델을 이용하여 스피치 데이터(speech data)와 비 스피치 데이터(non-speech data)를 구분할 수 있다. 또한, 지능형 에이전트(1254)는 심층 신경망(DNN, deep neural networks) 모델을 이용하여 스피치 데이터에 대하여 감정 분류(Emotion Classification) 동작을 수행할 수 있다. 상기 감정 분류 동작에 따라 스피치 데이터는 화남(Anger), 지루함(Boredom), 무서움(Fear), 행복(Happiness), 슬픔(Sadness)으로 분류될 수 있다.

상기 컨텍스트 퓨전 및 학습 모듈(12541)은 전술한 동작을 수행하기 위해 DNN 모델을 포함할 수 있으며, 상기 DNN 모델 및 IoT 기기 또는 클라우드 환경에서 수집되는 센싱 정보에 기초하여 사용자 입력의 의도를 확인할 수 있다.

상기 적어도 하나의 데이터는 예시적인 것에 불과하며 음성 처리 과정에서 사용자의 의도를 확인하는데 참조될 수 있는 어떠한 데이터도 포함될 수 있음은 물론이다. 상기 적어도 하나의 데이터는, 전술한 DNN 모델을 통해 획득할 수 있음은 물론이다.

지능형 에이전트(1254)는 로컬 지식(Local Knowledge)(12542)을 포함할 수 있다. 상기 로컬 지식(12542)은 사용자 데이터를 포함할 수 있다. 상기 사용자 데이터는 사용자의 선호도, 사용자 주소, 사용자의 초기 설정 언어, 사용자의 연락처 목록 등을 포함할 수 있다. 일 예에 따르면, 지능형 에이전트(1254)는 사용자의 특정 정보를 이용하여 사용자의 음성 입력에 포함된 정보를 보완하여 사용자 의도를 추가적으로 정의할 수 있다. 예를 들어, "내 생일 파티에 내 친구들을 초대해주세요" 라는 사용자의 요청에 응답하여, 지능형 에이전트(1254)는 "친구들"이 누구인지, "생일 파티"가 언제, 어디서 열리지를 결정하기 위해 사용자에게 보다 명확한 정보를 제공하도록 요구하지 않고, 상기 로컬 지식(12542)을 이용할 수 있다.

지능형 에이전트(1254)는 다이얼로그 관리(Dialog Management)(12543)를 더 포함할 수 있다. 상기 지능형 에이전트(1254)는 사용자와의 음성 대화가 가능하도록 다이얼로그 인터페이스를 제공할 수 있다. 상기 다이얼로그 인터페이스는 사용자의 음성 입력에 응답을 디스플레이 또는 스피커를 통해 출력하는 과정을 의미할 수 있다. 여기서 상기 다이얼로그 인터페이스를 통해 출력하는 최종 결과물은 전술한 ASR 동작, NLU 동작, TTS 동작, 거리 정보 추출 동작에 기초할 수 있다.

도 39에 도시된 바와 같이, 본 발명의 일 실시예에 따르면, 응답 기기 결정 장치(3)는 무선 통신부(31), 메모리(33), 전원 공급부(34) 및 각 인터페이스(31, 33, 34)를 제어하기 위한 프로세서(35)를 포함할 수 있다.

응답 기기 결정 장치의 무선 통신부(31), 무선 통신부의 이동 통신부(311), 근거리 통신부(312), 메모리(33), 전원 공급부(34), 프로세서(35)의 기본적인 특성은 도 35를 참조하여 설명한 무선 통신부(21), 이동 통신부(211), 근거리 통신부(212), 메모리(23), 전원 공급부(24), 프로세서(25)의 기본적인 특성과 동일하므로, 상세한 설명은 생략한다.

무선 통신부(31)는 무선 인터넷에 접속하기 위한 무선 인터넷부(313)를 더 포함할 수 있다. 무선 인터넷부(313)는 무선 인터넷 접속을 위한 모듈을 말하는 것으로, 응답 기기 결정 장치(3)에 내장되거나 외장될 수 있다. 무선 인터넷 모듈(313)은 무선 인터넷 기술들에 따른 통신망에서 무선 신호를 송수신하도록 이루어진다.

무선 인터넷 기술로는, 예를 들어 WLAN(Wireless LAN), Wi-Fi(Wireless-Fidelity), Wi-Fi(Wireless Fidelity) Direct, DLNA(Digital Living Network Alliance), WiBro(Wireless Broadband), WiMAX(World Interoperability for Microwave Access), HSDPA(High Speed Downlink Packet Access), HSUPA(High Speed Uplink Packet Access), LTE(Long Term Evolution), LTE-A(Long Term Evolution-Advanced) 등이 있으며, 상기 무선 인터넷 모듈(313)은 상기에서 나열되지 않은 인터넷 기술까지 포함한 범위에서 적어도 하나의 무선 인터넷 기술에 따라 데이터를 송수신하게 된다.

WiBro, HSDPA, HSUPA, GSM, CDMA, WCDMA, LTE, LTE-A 등에 의한 무선인터넷 접속은 이동통신망을 통해 이루어진다는 관점에서 본다면, 상기 이동통신망을 통해 무선인터넷 접속을 수행하는 상기 무선 인터넷 모듈(313)은 상기 이동통신 모듈(312)의 일종으로 이해될 수도 있다.

예를 들면, 무선 통신부(31)는 복수의 IoT 기기(2A, 2B, 2C)로부터 복수의 거리 정보를 수신할 수 있다. 다른 예를 들면, 무선 통신부(31)는 복수의 IoT 기기로부터 복수의 음성 신호(또는 오디오 신호)를 수신하여 프로세서(35)로 전달할 수 있고, 프로세서(35)는 수신된 음성 신호에 대한 음성 처리 및 음성 분석을 수행하여, 복수의 IoT 기기가 인식한 복수의 음성 신호에 대한 복수의 거리 정보를 생성할 수 있다. 또한, 무선 통신부(31)는 프로세서(35)의 제어에 따라 각 IoT 기기로 해당 IoT 기기의 응답 기기 결정 여부를 알릴 수 있다.

프로세서(35)는 동일 기동어를 인식한 복수의 IoT 기기로부터 거리 정보를 무선 통신부(31)를 통해 수신할 수 있다. 또한, 프로세서(35)는 동일 기동어를 인식하여 복수의 IoT 기기로부터 전송된 오디오 신호를 분석하여 거리 정보를 획득할 수 있다.

프로세서(35)는 거리 정보에 기초하여 특정 IoT 기기를 응답 기기로 선택할 정도의 임계 상황인지 여부를 판단할 수 있다.

프로세서(35)는 임계 상황인지 여부를 판단한 결과에 기반하여, 거리 정보에 기초하여 최다 득표 선택 방법(MV, Max Voting)을 이용하여 응답 기기를 결정하는 제1 단계와, 거리 정보를 심층 신경망(DNN, Deep Neural Network) 모델에 적용한 출력값을 이용하여 응답 기기를 결정하는 제2 단계 중에서 적어도 하나를 이용하여 응답 기기를 결정할 수 있다.

여기서, 메모리(33)는 프로세서(35)가 이용하기 위한 심층 신경망 모델을 저장할 수 있다.

도 40에 도시된 바와 같이, 본 발명의 일 실시예에 따르면, 프로세서(35)는 제1 선택 확률 획득부(351), 제2 선택 확률 획득부(352), 선택 확률 조합부(353), 응답 기기 선택부(354)를 포함할 수 있다.

여기서, 제1 선택 확률을 프로세서가 거리 정보에만 기초하여 획득한 각 기기마다 선택될 확률을 의미할 수 있다. 제2 선택 확률은 프로세서가 거리 정보를 DNN 모델에 적용하여 그 출력값으로서 얻는 각 기기마다의 선택될 확률을 의미할 수 있다.

제1 선택 확률 획득부(351)는 서로 다른 IoT 기기로부터 각각 수신된 서로 다른 거리 정보를 이용하여 각 IoT 기기에 대한 서로 다른 제1 선택 확률을 획득한다.

제1 선택 확률 획득부(351)는 서로 다른 IoT 기기로부터 수신된 서로 다른 거리 정보 값을 비교하는 거리 정보 비교부(3511)를 포함한다. 거리 정보 비교부(3511)는 각 기기로부터 전송된 복수의 거리 정보를 MV(Max Voting) 방식을 통해 비교한다.

제1 선택 확률 획득부(351)는 거리 정보 비교부(3511)에 의한 비교 결과에 기반하여, 서로 다른 IoT 기기 각각에 대한 서로 다른 제1 선택 확률을 계산하는 제1 선택 확률 계산부(3512)를 포함한다.

프로세서(35)는 서로 다른 IoT 기기에 대한 서로 다른 제2 선택 확률을 획득하는 제2 선택 확률 획득부(352)를 포함한다. 제2 선택 확률 획득부(352)는 서로 다른 IoT 기기로부터 각각 수신된 서로 다른 거리 정보를 심층 신경망 모델(3521)에 입력하여, 각 IoT 기기에 대한 서로 다른 제2 선택 확률을 가우시안 혼합 모델(GMM, Gaussian Mixture Model)(3522)을 이용하여 혼합된 가우시안 분포의 형태로 획득하는 제2 선택 확률 계산부(3523)를 포함한다.

프로세서(35)는 제1 선택 확률 및 제2 선택 확률 중 적어도 하나에 기반하여 응답 기기를 결정하는 응답 기기 선택부(354)를 포함한다. 서로 다른 IoT 기기에 대하여 획득된 서로 다른 제1 선택 확률 사이의 차이가 임계값 이상인 경우, 응답 기기 선택부(354)는 서로 다른 IoT 기기에 대하여 획득된 서로 다른 제1 선택 확률을 이용하여 응답 기기를 결정한다. 다만, 서로 다른 IoT 기기에 대하여 획득된 서로 다른 제1 선택 확률 사이의 차이가 임계값 이하인 경우, 응답 기기 선택부(354)는 제1 선택 확률 대신 제2 선택 확률을 이용하여 응답 기기를 결정한다. 여기서, 서로 다른 IoT 기기에 대하여 획득된 서로 다른 제2 선택 확률 사이의 차이가 임계값 이상인 경우, 응답 기기 선택부(354)는 제2 선택 확률을 이용하여 응답 기기를 결정한다.

프로세서(35)는 서로 다른 IoT 기기에 대한 서로 다른 제2 선택 확률 사이의 차이에 따라서, 제1 선택 확률과 제2 선택 확률을 조합하는 선택 확률 조합부(353)를 포함한다. 선택 확률 조합부(353)는 서로 다른 IoT 기기에 대하여 획득된 서로 다른 제2 선택 확률 사이의 차이가 임계값 이하인 경우, 각 IoT 기기에 대한 제1 선택 확률과 제2 선택 확률을 조합한다. 선택 확률 조합부(353)는 서로 다른 IoT 기기의 서로 다른 제1 선택 확률의 차이와 서로 다른 IoT 기기의 서로 다른 제2 선택 확률의 차이를 비교하고, 차이가 더 큰 선택 확률에 더 큰 가중치를 적용하면서 제1 선택 확률과 제2 선택 확률을 조합하고, 최종 선택 확률을 획득하여 응답 기기 선택부(354)로 전달한다. 응답 기기 선택부(354)는 전달된 최종 선택 확률을 이용하여 응답 기기를 결정한다. 응답 기기 선택부(354)는 최종 선택 확률이 가장 높은 IoT 기기를 응답 기기로 결정한다.

프로세서(35)는 통신부(31)를 통해 응답 기기로 결정된 IoT 기기로 응답 기기로 결정되었다는 신호를 알린다. 또한, 프로세서(35)는 통신부(31)를 통해 응답 기기로 결정된 IoT 기기 이외의 다른 IoT 기기로 응답 기기로 결정되지 않았다는 신호를 알린다.

도 41에 도시된 바와 같이, IoT 시스템은 사용자(11)에 의해 발화된 기동어(“Hi LG”)를 오디오 신호의 형태로 인식하는 복수의 IoT 기기(12A, 12B, 13)를 포함한다. 여기서, 스마트 TV(12A)와 스마트 냉장고(12B)는 도 34 내지 도 40을 참조하여 설명한 IoT 기기의 기능을 수행하는, 서브 IoT 기기가 될 수 있으므로, 중복되는 설명은 생략한다.

한편, 공기 청정기(13)는 도 34 내지 도 40을 참조하여 설명한 IoT 기기의 기능을 수행하면서, 동시에, 도 34 내지 도 40을 참조하여 설명한 응답 기기 결정 장치의 기능을 수행하는, 메인 IoT 기기가 될 수 있으므로, 중복되는 설명은 생략한다.

메인 IoT 기기(13)는 기동어를 인식한 오디오 신호를 분석하고, 오디오 신호로부터 거리 정보를 생성한다. 또한, 메인 IoT 기기(13)는 제1 서브 IoT 기기(12A) 및 제2 서브 IoT 기기(12B)로부터 각 기기에 의해 생성된 복수의 거리 정보를 수신한다.

메인 IoT 기기(13)는 수신된 복수의 거리 정보에 기초하여, 특정 기기를 선택할 정도의 임계 상황인지 판단한다. 메인 IoT 기기(13)는 거리 정보에 기초하여 MV를 통해 응답 기기를 선택하거나, 거리 정보를 미리 학습된 DNN에 적용하여 그 출력값을 이용하여 응답 기기를 선택하거나, MV를 통해 기기를 선택하는 제1 단계와 DNN을 통해 기기를 선택하는 제2 단계를 조합할 수도 있다.

도 42는 도 41의 메인 IoT 기기의 상세한 구성을 도시한다.

앞서 도 41을 참조하여 설명한 바와 같이, 메인 IoT 기기는 IoT 기기의 기능과 응답 기기 결정 장치의 기능을 결합한 디바이스로 정의할 수 있다.

도 42에 도시된 바와 같이, 메인 IoT 기기(13)는 무선 통신부(131), 입력부(132), 메모리(133), 전원 공급부(134), 출력부(136) 및 프로세서(135)를 포함할 수 있다.

도 42의 메인 IoT 기기(13)의 무선 통신부(131), 무선 통신부(131)의 이동 통신부(1311), 근거리 통신부(1312)는 각각 도 35를 참조하여 설명한 IoT 기기(2)의 무선 통신부(21), 무선 통신부(21)의 이동 통신부(211), 근거리 통신부(212)의 기능을 수행할 수 있다. 또한, 메인 IoT 기기(13)의 무선 통신부(131), 무선 통신부(131)의 이동 통신부(1311), 근거리 통신부(1312), 무선 인터넷부(1313)는 각각 도 39를 참조하여 설명한 응답 기기 결정 장치(3)의 무선 통신부(31), 무선 통신부(31)의 이동 통신부(311), 근거리 통신부(312), 무선 인터넷부(313)의 기능을 수행할 수 있다.

도 42의 메인 IoT 기기(13)의 입력부(132), 입력부(132)의 마이크(1321)는 도 35를 참조하여 설명한 IoT 기기(2)의 입력부(22) 및 입력부(22)의 마이크(221)의 기능을 수행할 수 있다.

도 42의 메인 IoT 기기(13)의 메모리(133)는 도 35를 참조하여 설명한 IoT 기기(2)의 메모리(23)의 기능과, 도 39를 참조하여 설명한 응답 기기 결정 장치(3)의 메모리(33)의 기능을 모두 수행할 수 있다.

도 42의 메인 IoT 기기(13)의 전원 공급부(34)는 도 35를 참조하여 설명한 IoT 기기(2)의 전원 공급부(24)의 기능과, 도 39를 참조하여 설명한 응답 기기 결정 장치(3)의 전원 공급부(34)의 기능을 수행할 수 있다.

도 42의 메인 IoT 기기(13)의 프로세서(35)는 도 35 내지 도 38을 참조하여 설명한 IoT 기기(2)의 프로세서(25)의 기능과, 도 39 및 도 40을 참조하여 설명한 응답 기기 결정 장치(3)의 프로세서(35)의 기능을 모두 수행할 수 있다.

도 43에 도시된 바와 같이, 본 발명의 실시예에 따르면, 응답 기기 결정 방법은 S10 단계 내지 S40 단계를 포함하며, 상세한 설명은 하기와 같다.

먼저, 응답 기기 결정 장치는 동일 기동어를 인식한 복수의 IoT 기기로부터 거리 정보를 수신한다(S10). 예를 들어, 응답 기기 결정 장치(예: 도 34의 응답 기기 결정 장치(3))의 무선 통신부(예: 도 35의 무선 통신부(31))는 동일 기동어를 인식한 복수의 IoT 기기로부터 각 IoT 기기에 의해 생성된 서로 다른 형태의 거리 정보를 수신할 수 있다.

다음, 응답 기기 결정 장치는 거리 정보에 기초하여 특정 기기를 응답 기기로 선택할 정도의 임계 상황인지 여부를 판단한다(S20). 예를 들면, 응답 기기 결정 장치(3)의 프로세서(예: 도 35의 프로세서(35))는 전달된 복수의 거리 정보를 Max Voting 방법을 통해 비교하고, 비교한 결과에 따라 각 IoT 기기가 선택될 확률인 제1 선택 확률을 획득하며, 각 기기의 제1 선택 확률 사이의 차이가 임계값 이상인지 여부를 판단한다.

판단 결과, 임계 상황인 것으로 판단된 경우(제1 선택 확률 사이의 차이가 임계값 이상인 경우), 응답 기기 결정 장치는 거리 정보에만 기초하여 응답 기기를 선택한다(S30). 예를 들면, 프로세서(35)는 각 기기 중 제1 선택 확률이 가장 높은 기기를 응답 기기로 결정할 수 있다.

판단 결과, 임계 상황이 아닌 것으로 판단된 경우(제1 선택 확률 사이의 차이가 임계값 미만인 경우), 응답 기기 결정 장치는 거리 정보를 미리 학습된 DNN 모델에 적용하여 응답 기기를 선택한다(S40). 예를 들면, 프로세서(35)는 각 기기의 제1 선택 확률을 미리 학습된 DNN 모델에 입력하고, 그 출력값으로서 각 기기가 선택될 확률인 제2 선택 확률을 획득하고, 제2 선택 확률에 기반하여 응답 기기를 선택할 수 있다.

도 44에 도시된 바와 같이, 본 발명의 실시예에 따르면, 제1 IoT 기기(2A) 및 제2 IoT 기기(2B)는 동일한 사용자로부터 동시에 발화된 동일한 기동어를 수신한다(S11).

기동어를 수신하면, 제1 IoT 기기(2A)는 기동어를 인식하여 제1 음성 신호를 획득하고(S12), 제2 IoT 기기(2B)는 기동어를 인식하여 제2 음성 신호를 획득한다(S13).

음성 신호를 획득하면, 제1 IoT 기기(2A)는 음성 신호를 분석하여 제1 IoT 기기(2A)와 사용자 사이의 거리를 인디케이팅 할 수 있는 서로 다른 형태의 제1 거리 정보를 추출하고(S14), 제2 IoT 기기(2B)는 음성 신호를 분석하여 제2 IoT 기기(2B)와 사용자 사이의 거리를 인디케이팅 할 수 있는 서로 다른 형태의 제2 거리 정보를 추출한다(S15).

응답 기기 결정 장치(3)는 제1 IoT 기기(2A)로부터 제1 거리 정보를 수신하고(S16), 제2 IoT 기기(2B)로부터 제2 거리 정보를 수신한다(S17).

도 45에 도시된 거리 정보 수신 단계(S110)는 도 44에 도시된 거리 정보 수신 단계(S10)와 다르며, 중복된 부분에 대한 설명은 생략한다.

도 45에 도시된 바와 같이, 본 발명의 다른 실시예에 따르면, 제1 IoT 기기(2A) 및 제2 IoT 기기(2B)는 동일한 기동어를 수신하고(S111), 제1 음성 신호 및 제2 음성 신호를 획득한다(S112, S113).

그 다음, 응답 기기 결정 장치(3)는 제1 IoT 기기(2A)로부터 제1 음성 신호를 수신하고(S114), 제1 음성 신호를 분석하여 제1 거리 정보를 추출한다(S115).

또한, 응답 기기 결정 장치(3)는 제2 IoT 기기(2B)로부터 제2 음성 신호를 수신하고(S116), 제2 음성 신호를 분석하여 제2 거리 정보를 추출한다(S117).

도 46에 도시된 바와 같이, 본 발명의 실시예에 따르면, 응답 기기 결정 장치(3)의 프로세서(35)는 각 기기의 거리 정보를 Max Voting 기법을 통해 비교한다(S21). 예를 들면, 프로세서(35)는 복수의 기기의 제1 거리 정보, 복수의 기기의 제2 거리 정보, 복수의 기기의 제3 거리 정보를 같은 거리 정보끼리 서로 비교하여, 각 거리 정보 별 각 기기의 득표수(또는 각 기기의 순위)를 판단한다.

이어서, 프로세서(35)는 각 기기의 득표수(또는 순위)에 기초하여 각 기기의 선택될 확률을 산출한다(S22). 예를 들면, 프로세서(35)는 각 거리 정보 별 순위를 취합하여 각 기기마다 종합 순위를 결정하고, 종합 순위에 기반하여 각 기기가 선택될 확률인 제1 선택 확률을 산출할 수 있다. 예를 들면, 비교한 결과 제1 KSANR 값이 제2 KSANR 값보다 크고, 제1 priori SNR 값이 제2 priori SNR 값보다 크면서, 제1 키워드 제곱평균 제곱근 세기 값이 제2 키워드 제곱평균 제곱근 세기 값보다 작은 경우, 응답 기기 결정 장치는 제1 IoT 기기에 대하여 제1 IoT 기기가 선택될 제1 선택 확률을 66.6%로 판단하고, 제2 IoT 기기에 대하여 제2 IoT 기기가 선택될 제1 선택 확률을 33.3%로 판단할 수 있다. 즉, 응답 기기 결정 장치는 제1 IoT 기기에 대한 제1 선택 확률값인 66.6%을 획득하고, 제2 IoT 기기에 대한 제1 선택 확률값인 33.3%을 획득할 수 있다.

이어서, 프로세서(35)는 선택될 확률이 가장 높은 기기와 다른 기기들 사이의 선택될 확률의 차이를 산출한다(S23).

그 다음, 프로세서(35)는 선택될 확률이 가장 높은 기기와 다른 기기들의 선택될 확률의 차이가 임계값 이상인지 여부를 판단한다(S24). 예를 들면, 프로세서(35)는 선택될 확률이 가장 높은 기기의 A 확률과, 다른 기기들 중 두번째로 확률이 가장 높은 기기의 B 확률 사이의 차이가 미리 설정된 임계값 이상인지 판단할 수 있다.

판단 결과, 선택될 확률이 가장 높은 기기와 다른 기기들의 선택될 확률의 차이가 임계값 이상이면, 프로세서(35)는 거리 정보만을 이용하여 응답 기기를 선택한다(도 43의 S30).

판단 결과, 선택될 확률이 가장 높은 기기와 다른 기기들의 선택될 확률의 차이가 임계값 미만이면, 프로세서(35)는 거리 정보를 DNN 모델에 적용하여 응답 기기를 선택한다(도 43의 S40). 예를 들면, 제1 IoT 기기가 선택될 제1 선택 확률이 66.6%이고, 제2 IoT 기기가 선택될 제1 선택 확률이 33.3%이며, 미리 설정된 임계값이 50%인 경우, 제1 IoT 기기의 제1 선택 확률과 제2 IoT 기기의 제1 선택 확률의 차이가 임계값 미만이므로, 응답 기기 결정 장치는 제1 선택 확률과 다른 제2 선택 확률을 심층 신경망 모델을 이용하여 각 IoT 기기마다 새로 판단할 것으로 결정할 수 있다.

도 47에 도시된 바와 같이, 본 발명의 실시예에 따르면, 프로세서(35)는 거리 정보를 미리 학습된 DNN에 입력한다(S41). 예를 들면, 미리 학습된 DNN은 모델은 각 IoT 기기에 의해 생성된 거리 정보가 입력되면, 이에 대응하여 각 IoT 기기가 선택될 제2 선택 확률을 출력하도록 미리 학습된 신경망이다. 심층 신경망 모델은 응답 기기 결정 장치 또는 다른 외부 인터페이스(예를 들면, 클라우드 서버(cloud server))에 의해 생성 또는 학습될 수 있다. 심층 신경망 모델은 각 IoT 기기의 거리 정보에 기반하여 복수의 IoT 기기 중에서도 사용자가 기동하고자 의도한 특정 IoT 기기를 분류할 수 있는 형태로 모델링(modeling)된다. 응답 기기 결정 장치는 심층 신경망 모델에 각 IoT 기기의 거리 정보를 입력하고, 출력값으로서 각 IoT 기기에 대한 제2 선택 확률을 획득할 수 있다.

이어서, 프로세서(35)는 거리 정보를 입력한 DNN 모델의 출력값으로 각 기기가 선택될 확률을 획득한다(S42). 예를 들면, 프로세서(35)는 각 기기의 복수의 거리 정보를 DNN 모델에 입력하여 그에 대응하는 출력값으로서 각 기기가 선택될 확률인 제2 선택 확률을 획득한다.

이어서, 프로세서(35)는 선택될 확률이 가장 높은 기기와 다른 기기들 사이의 선택될 확률의 차이를 산출한다(S43). 예를 들면, 프로세서(35)는 DNN에 거리 정보를 입력하여 획득한 각 기기의 제2 확률 중에서 가장 높은 제2 확률과 그 다음으로 높은 제2 확률 사이의 차이를 산출한다.

그 다음, 프로세서(35)는 산출된 가장 높은 제2 확률과 그 다음으로 높은 제2 확률 사이의 차이가 임계값 이상인지 여부를 판단한다(S44).

판단한 결과, 가장 높은 제2 확률과 그 다음으로 높은 제2 확률 사이의 차이가 임계값 이상이면, 프로세서(35)는 제2 선택 확률이 가장 높은 기기를 응답 기기로 선택한다(S45).

판단한 결과, 가장 높은 제2 확률과 그 다음으로 높은 제2 확률 사이의 차이가 임계값 미만이면, 프로세서(35)는 도 43의 거리 정보만을 이용하여 응답 기기를 결정하는 S30 단계와 도 43의 거리 정보를 DNN에 적용하여 응답 기기를 선택하는 S40 단계를 조합한다.

상기한 도 47의 흐름도를 참조하여 설명한 내용의 예를 하기의 도 48에서 상세히 설명한다.

도 48은 도 47의 응답 기기 선택 과정을 예시한다.

도 48에 도시된 바와 같이, 예를 들면, 사용자(2)가 기동어(“Hi LG, 오늘 날씨 알려줘”)을 발화한 경우, A 기기(21), B 기기(22) 및 C 기기(23)는 각각 기동어를 수신한다. A 기기(21), B 기기(22) 및 C 기기(23)는 수신한 기동어를 분석하여, 동일한 종류의 거리 정보에 대하여 서로 다른 값을 가지는 서로 다른 거리 정보를 생성하고, 서로 다른 거리 정보를 응답 기기 결정 장치(200)로 전송한다.

응답 기기 결정 장치(200)는 A 기기(21)로부터 전송된 A 거리 정보, B 기기(22)로부터 전송된 B 거리 정보, C 기기(23)로부터 전송된 C 거리 정보를 비교하고, 비교한 결과에 기반하여 A 기기(21)의 제1 선택 확률(45%), B 기기(22)의 제1 선택 확률(40%), C 기기(23)의 제1 선택 확률(15%)를 획득한다.

응답 기기 결정 장치(200)는 제1 선택 확률이 가장 높은 A 기기(21)의 제1 선택 확률(45%)과, 그 다음으로 제1 선택 확률이 높은 B 기기(22)의 제1 선택 확률(40%) 사이의 차이(5%)가 미리 설정된 임계값(예를 들면, 10%)보다 작은 것을 확인할 수 있다.

서로 다른 IoT 기기의 제1 선택 확률 사이의 차이가 임계값 미만인 것으로 판단한 후, 응답 기기 결정 장치(200)는 제1 선택 확률의 차이가 임계값 이하인 A 기기(21)의 A 거리 정보 및 B 기기(22)의 B 거리 정보를 심층 신경망 모델에 입력한다. 응답 기기 결정 장치(200)는 심층 신경망 모델에 A 거리 정보 및 B 거리 정보를 입력한 후 그 결과로 A 기기의 제2 선택 확률(35%), B 기기의 제2 선택 확률(65%)를 획득한다.

응답 기기 결정 장치(200)는 A 기기(21) 및 B 기기(22) 중 제2 선택 확률이 더 높은 B 기기를 선택하여, B 기기를 응답 기기로 결정할 수 있다.

도 49는 도 47의 S50 단계를 상세히 도시한 흐름도이다.

도 49에 도시된 바와 같이, 프로세서(35)는 각 기기마다 거리 정보만을 이용하여 획득한 제1 선택 확률과, 거리 정보를 DNN에 적용하여 획득한 제2 선택 확률을 비교한다(S51).

프로세서(35)는 각 기기의 제1 선택 확률과 제2 선택 확률 중 더 큰 확률이 어떤 확률인지 판단한다(S52).

판단한 결과, 해당 기기의 제1 선택 확률이 더 큰 경우, 프로세서(35)는 해당 기기의 제1 선택 확률에 해당 기기의 제2 확률보다 더 큰 가중치를 적용한다(S53). 예를 들면, A 기기의 선택 확률 중에서 제1 선택 확률이 제2 선택 확률보다 큰 경우, 프로세서(35)는 제1 선택 확률에 0.7의 가중치를 적용하면서 제2 선택 확률에 0.3의 가중치를 적용할 수 있다.

판단한 결과, 해당 기기의 제2 선택 확률이 더 큰 경우, 프로세서(35)는 해당 기기의 제2 선택 확률에 해당 기기의 제1 확률보다 더 큰 가중치를 적용한다(S54). 예를 들면, A 기기의 선택 확률 중에서 제2 선택 확률이 제1 선택 확률보다 큰 경우, 프로세서(35)는 제2 선택 확률에 0.6의 가중치를 적용하면서 제1 선택 확률에 0.4의 가중치를 적용할 수 있다.

가중치를 적용한 후, 프로세서(35)는 각각 서로 다른 가중치가 적용된 해당 기기의 제1 선택 확률과 제2 선택 확률을 합산한다(S55).

각 선택 확률을 합산한 후, 프로세서(35)는 합산된 최종 확률이 가장 큰 기기를 응답 기기로 선택한다(S56).

마지막으로, 프로세서(35)는 응답 기기로 선택된 IoT 기기 및 나머지 기기로 각 응답 기기가 선택되었는지 여부를 알린다(S57).

도 50에 도시된 바와 같이, 본 발명의 일 실시예에 따르면, 사용자(3)가 기동어(“Hi LG, 오늘 날씨 알려줘”)을 발화하면, A 기기(31) 및 B 기기(32)는 기동어를 이용하여 각각 A 거리 정보 및 B 거리 정보를 생성하고, 응답 기기 결정 장치(300)로 전송한다.

응답 기기 결정 장치(300)는 전송된 A 거리 정보 및 B 거리 정보를 이용하여 A 기기(31)의 제1 선택 확률(45%) 및 B 기기(32)의 제2 선택 확률(40%)를 획득한다.

예를 들면, 응답 기기 결정 장치(300)는 A 기기(31)의 제1 선택 확률(45%) 및 B 기기(32)의 제2 선택 확률(40%) 사이의 차이가 미리 설정된 임계값(예를 들면, 10%) 이하인 것으로 판단할 수 있다. 이 경우, 응답 기기 결정 장치(300)는 A 거리 정보 및 B 거리 정보를 미리 학습된 심층 신경망 모델에 입력한다. 응답 기기 결정 장치(300)는 심층 신경망 모델로부터 A 기기(31)의 제2 선택 확률(42%), B 기기(32)의 제2 선택 확률(58%)을 획득한다.

예를 들면, 응답 기기 결정 장치(300)는 A 기기(31)의 제2 선택 확률(42%), B 기기(32)의 제2 선택 확률(58%) 사이의 차이가 미리 설정된 임계값(예를 들면, 20%) 이하인 것으로 판단할 수 있다. 이 경우, 응답 기기 결정 장치(300)는 A 기기(31)의 제1 선택 확률, A 기기(31)의 제2 선택 확률에 각각 후술할 조건에 따른 가중치를 적용하여 조합하고, B 기기(32)의 제1 선택 확률, B 기기(32)의 제2 선택 확률에 각각 후술할 조건에 따른 가중치를 적용하여 조합한다.

예를 들면, 응답 기기 결정 장치(300)는 A 기기(31)의 제2 선택 확률(42%)과 B 기기(32)의 제2 선택 확률(58%) 사이의 차이(16%)가 A 기기(31)의 제1 선택 확률(45%)과 B 기기(32)의 제1 선택 확률(40%) 사이의 차이(5%)보다 크다고 판단할 수 있다. 이 경우, 응답 기기 결정 장치(300)는 A 기기(31)의 제2 선택 확률(42%) 및 B 기기(32)의 제2 선택 확률(58%)에 0.7의 가중치를 적용하고, A 기기(31)의 제1 선택 확률(45%) 및 B 기기(32)의 제1 선택 확률(40%)에 0.3의 가중치를 적용한다. 그 다음, 응답 기기 결정 장치(300)는 가중치가 적용된 A 기기(31)의 제1 선택 확률(45% * 0.3) 및 제2 선택 확률(42% * 0.7)을 조합하여 A 기기(31)의 최종 선택 확률(42.9%)을 획득한다. 또한, 응답 기기 결정 장치(300)는 가중치가 적용된 B 기기(32)의 제1 선택 확률(40% * 0.3) 및 제2 선택 확률(58% * 0.7)을 조합하여 B 기기(32)의 최종 선택 확률(52.6%)을 획득한다.

응답 기기 결정 장치(300)는 최종 선택 확률이 가장 높은 B 기기(32)를 응답 기기로 최종 선택할 수 있다. 응답 기기 결정 장치(300)는 응답 기기로 결정된 B 기기(32)로 응답 기기로 결정되었다는 신호를 알린다. 응답 기기 결정 장치(300)는 응답 기기로 결정된 B 기기(32) 이외의 다른 기기인 A 기기(31)로 응답 기기로 결정되지 않았다는 신호를 알린다.

응답 기기로 결정되었다는 신호를 받은 B 기기(32)는 기동어에 응답하여 기동되며, “오늘 서울의 날씨는..”이라는 음성 응답을 출력할 수 있다.

이하, 도 51 내지 도 53을 참조하여, 본 발명의 실시예에 따른 서로 다른 형태의 거리 정보에 대해 설명한다.

하나의 예를 들면, 거리 정보는 KSANR(Keyword Speech to Ambient Noise Ratio) 정보가 될 수 있다. KSANR 정보는 시간 영역(또는 시간 축)에서 분석할 때, 주변 잡음의 세기(power)와 대비할 때 기동어의 키워드 음성의 세기의 비율을 의미할 수 있다. 기동어의 발화 위치로부터 각 IoT 기기가 가까울수록, 시간 영역 상에서 주변 잡음의 세기에 비해 시간 영역 상에서 키워드 음성의 세기의 비율이 더 크다. 즉, 시간 영역 상에서, 동일한 발화 위치로부터 발화된 기동어에 대하여, 발화 위치에 더 가까운 IoT 기기일수록 더 큰 KSANR 값을 생성할 수 있다. 각 IoT 기기는 기동어를 하기의 수학식 1을 이용하여 분석하여 그 결과로 KSANR 정보를 생성할 수 있다.

여기서, n은 자연수, s _e는 잡음 신호, s _k는 기동어의 키워드 음성 신호를 의미할 수 있다.

다른 하나의 예를 들면, 거리 정보는 Priori SNR(Signal to Noise Ratio) 정보가 될 수 있다. Priori SNR 정보는 주파수 영역(또는 주파수 축)에서 분석할 때, 잡음의 세기 대비 기동어의 신호의 세기의 비율을 의미할 수 있다. 기동어의 발화 위치로부터 각 IoT 기기가 가까울수록, 주파수 영역 내의 특정 대역에서 잡음의 세기에 비하여 동일한 특정 대역에서 기동어의 신호의 세기가 더 크다. 즉, 주파수 영역 상에서, 동일한 발화 위치로부터 발화된 기동어에 대하여, 발화 위치에 더 가까운 IoT 기기일수록 더 큰 priori SNR 값을 생성할 수 있다. 각 IoT 기기는 기동어를 하기의 수학식 2를 이용하여 분석하고 그 결과로 priori SNR 정보를 생성할 수 있다.

여기서, n과 k는 각각 자연수, X _n,k는 기동어의 진폭, E(|X _n,k|)는 음성 신호 x의 에너지 양을 의미할 수 있다.

또 다른 하나의 예를 들면, 거리 정보는 키워드 제곱평균 제곱근 세기(Keyword RMS Power) 정보가 될 수 있다. 키워드 제곱평균 제곱근 세기 정보는 시간 영역 또는 주파수 영역 상에서 분석할 때, 기동어의 키워드 부분의 제곱평균 제곱근(Root-mean Square)의 세기를 의미할 수 있다. 기동어의 발화 위치로부터 각 IoT 기기가 가까울수록, 시간 영역 또는 주파수 영역 내의 특정 부분에서 키워드 부분의 제곱평균 제곱근의 세기 값은 더 커진다. 즉, 시간 영역 또는 주파수 영역 상에서, 동일한 발화 위치로부터 발화된 기동어에 대하여, 발화 위치에 더 가까운 IoT 기기일수록 더 큰 키워드 제곱평균 제곱근 값을 생성할 수 있다. 각 IoT 기기는 기동어를 하기의 수학식 3을 이용하여 분석하고 그 결과로 키워드 제곱평균 제곱근 세기 정보를 생성할 수 있다.

여기서, i(t)는 시간 영역 또는 주파수 영역 내의 키워드 신호의 진폭, T는 미리 설정된 시간 구간(예를 들면 i(t)의 주기)을 의미할 수 있다.

또 다른 하나의 예를 들면, 거리 정보는 선형 예측 잔여 첨도(Linear Prediction Residual Kurtosis) 정보가 될 수 있다. 선형 예측 잔여 첨도 정보는 기동어를 선형 예측 필터(Linear Prediction Filter)로 통과시킨 후, 출력되어 나온 잔여 신호(residual signal)의 첨도(kurtosis) 값을 의미할 수 있다. 기동어의 발화 위치로부터 각 IoT 기기가 가까울수록, 기동어의 파형을 정규 분포로 나타냈을 때, 더욱 뾰족한 형태를 나타낸다. 즉, 동일한 발화 위치로부터 발화된 기동어에 대하여, 발화 위치에 더 가까운 IoT 기기일수록 더 높은 선형 예측 잔여 첨도 값을 생성할 수 있다. 각 IoT 기기는 기동어를 하기의 수학식 3을 이용하여 기동어에 대한 선형 예측 잔여 첨도 정보를 생성할 수 있다.

여기서, i, m, n은 각각 자연수, e _i,m(n)은 기동어를 샘플링한 신호의 n번째 항의 선형 예측 잔여 신호 값,

은 n번째 항의 선형 예측 잔여 신호의 공액 성분(conjugation), τ는 전체 샘플링 크기를 나타낸다.

또 다른 하나의 예를 들면, 거리 정보는 기동어의 피크 에너지(Peak Energy) 정보가 될 수 있다. 피크 에너지 정보는 주파수 영역(또는 주파수 축) 상에서 특정 주파수 구간(예를 들면, 0kHz부터 3kHz의 대역)에서 피크(최대치)에 해당하는 부분에 대한 평균 에너지를 의미할 수 있다. 기동어의 발화 위치로부터 각 IoT 기기가 가까울수록, 주파수 영역에서 기동어의 파형의 피크에 해당하는 부분에 대한 평균 에너지는 더 높아진다. 즉, 동일한 발화 위치로부터 발화된 기동어에 대하여, 발화 위치에 더 가까운 IoT 기기일수록 더 높은 피크 에너지 값을 생성할 수 있다.

또 다른 하나의 예를 들면, 거리 정보는 기동어의 프레임 에너지(Frame Energy) 정보가 될 수 있다. 프레임 에너지 정보는 주파수 영역(또는 주파수 축) 상에서 특정 주파수 구간(예를 들면, 0kHz부터 3kHz의 대역)에서 평균 에너지를 의미할 수 있다. 기동어의 발화 위치로부터 각 IoT 기기가 가까울수록, 주파수 영역에서 기동어의 파형의 평균 에너지는 더 높아진다. 즉, 동일한 발화 위치로부터 발화된 기동어에 대하여, 발화 위치에 더 가까운 IoT 기기일수록 더 높은 프레임 에너지 값을 생성할 수 있다.

상기 KSANR에 대하여 설명한 내용과 같이, 여러 종류의 거리 정보 중 KSANR 정보는 도 51의 그래프의 시간 축 상에서 음성 잡음(191A, 191B)가 아닌 키워드 부분(191C)이 주변 잡음에 비하여 상대적으로 강한 정도를 의미한다.

상기 선형 예측 잔여 첨도 정보에 대하여 설명한 바와 같이, 예를 들면, 기동어를 발화한 사용자로부터 0.5m만큼 떨어진 제1 IoT 기기가 수신하는 기동어의 선형 예측 잔여 첨도는 동일한 사용자로부터 3m만큼 떨어진 제2 IoT 기기가 수신하는 기동어의 선형 예측 잔여 첨도보다 높다.

도 52(a)에 도시된 바와 같이, 예를 들면, 기동어를 발화한 사용자로부터 0.5m만큼 떨어진 제1 IoT 기기가 수신하는 기동어의 세기 밀도는 동일한 사용자로부터 3m만큼 떨어진 제2 IoT 기기가 수신하는 기동어의 세기 밀도보다 강하다.

도 52(b)에 도시된 바와 같이, 예를 들면, 기동어를 발화한 사용자로부터 0.5m만큼 떨어진 제1 IoT 기기가 수신하는 기동어에 대한 선형 예측 잔여 신호의 파형(192B-A)은, 동일한 사용자로부터 3m만큼 떨어진 제2 IoT 기기가 수신하는 기동어에 대한 선형 예측잔여 신호의 파형(192B-B)보다 첨도가 높다(뾰족하다).

상기 피크 에너지 및 프레임 에너지에 대하여 설명한 바와 같이, 예를 들면, 기동어를 발화한 사용자로부터 0.5m만큼 떨어진 제1 IoT 기기가 수신하는 기동어의 피크 에너지 및 프레임 에너지는 동일한 사용자로부터 3m만큼 떨어진 제2 IoT 기기가 수신하는 기동어의 피크 에너지 및 프레임 에너지보다 높다.

도 53에 도시된 바와 같이, 기동어를 발화한 사용자로부터 0.5m만큼 떨어진 제1 IoT 기기가 수신하는 기동어 신호(193A)의 피크 에너지는 동일한 사용자로부터 3m만큼 떨어진 제2 IoT 기기가 수신하는 기동어 신호(193B)의 피크 에너지보다 높다. 또한, 기동어를 발화한 사용자로부터 0.5m만큼 떨어진 제1 IoT 기기가 수신하는 기동어 신호(193A)의 프레임 에너지는 동일한 사용자로부터 3m만큼 떨어진 제2 IoT 기기가 수신하는 기동어 신호(193B)의 프레임 에너지보다 높다.

전술한 본 발명은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예로는, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있으며, 또한 캐리어 웨이브(예를 들어, 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.

Claims

복수의 디바이스로부터 오디오 신호를 각각 수신하는 단계;

상기 오디오 신호는 사용자로부터 발화된 동일한 기동어를 인식하여 생성된 신호이고,

상기 각각의 오디오 신호에서 상기 사용자와 상기 복수의 디바이스 간의 거리를 인디케이팅할 수 있는 복수의 거리 정보를 추출하는 단계; 및

상기 추출된 복수의 거리 정보를 이용하여 상기 기동어에 응답할 응답 디바이스를 결정하는 단계를 포함하되,

상기 디바이스를 결정하는 단계는,

미리 정해진 조건에 따라, 상기 추출된 복수의 거리 정보를 비교하여 상기 응답 디바이스를 결정하는 제1 단계와, 상기 추출된 복수의 거리 정보를 입력으로 하여 심층 신경망(DNN, Deep Neural Network) 모델에 적용한 결과에 기초하여 상기 응답 디바이스를 결정하는 제2 단계 중 적어도 하나에 기초하여 결정하는 것을 특징으로 하는,

응답 기기 결정 방법.
제1항에 있어서,

상기 추출된 복수의 거리 정보를 최다 득표 산출 방법(MV, Max Voting)을 통해 비교한 결과, 특정 디바이스를 선택할 정도의 임계 상황으로 판단된 경우, 상기 제1 단계를 통해 상기 응답 디바이스를 결정하는 것을 특징으로 하는,

응답 기기 결정 방법.
제1항에 있어서,

상기 비교 결과, 임계 상황이 아닌 경우, 상기 제2 단계를 통해 상기 응답 디바이스를 결정하는 것을 특징으로 하는,

응답 기기 결정 방법.
제1항에 있어서,

상기 제2 단계를 통해 상기 응답 디바이스를 결정하는 단계는,

상기 추출된 복수의 거리 정보를 상기 DNN 모델에 적용한 결과, 상기 복수의 디바이스 중 각 디바이스가 선택될 확률 사이의 차이가 임계값보다 큰 경우, 상기 DNN 모델을 적용한 결과를 통해 상기 응답 디바이스를 결정하는 것을 특징으로 하는,

응답 기기 결정 방법.
제4항에 있어서,

상기 확률 사이의 차이가 상기 임계값보다 작은 경우, 상기 제1 단계와 상기 제2 단계를 조합하여 상기 응답 디바이스를 결정하는 것을 특징으로 하는,

응답 기기 결정 방법.
제5항에 있어서,

상기 제1 단계와 상기 제2 단계를 조합하는 단계는,

상기 제1 단계를 적용한 결과 상기 MV를 통해 도출된 각 디바이스가 선택될 확률인 제1 확률 사이의 차이와, 상기 제2 단계를 적용한 결과 상기 DNN 모델을 통해 도출된 각 디바이스가 선택될 확률인 제2 확률 사이의 차이를 비교하여, 상기 응답 디바이스를 결정하는 것을 특징으로 하는,

응답 기기 결정 방법.
제6항에 있어서,

상기 각 디바이스의 제1 확률끼리 비교하고, 상기 각 디바이스의 제2 확률끼리 비교한 결과, 상기 제1 확률과 상기 제2 확률 중 확률 사이의 차이가 더 큰 확률에 더 큰 가중치를 부여하여, 상기 제1 단계와 상기 제2 단계를 조합하는 것을 특징으로 하는,

응답 기기 결정 방법.
제1항에 있어서,

상기 복수의 디바이스로 상기 결정한 결과를 전송하는 단계;를 더 포함하는,

응답 기기 결정 방법.
제1항에 있어서,

상기 복수의 거리 정보는 KSANR(Keyword Speech to Ambient Noise Ratio) 정보, Priori SNR(Signal to Noise Ratio) 정보, 키워드 제곱평균 제곱근 세기(Keyword RMS Power) 정보, 선형 예측 잔여 첨도(Linear Prediction Residual Kurtosis) 정보, 피크 에너지(Peak Energy) 정보 또는 프레임 에너지(Frame Energy) 정보를 포함하는

응답 기기 결정 방법.
복수의 디바이스로부터 오디오 신호를 각각 수신하는 통신부; 및

상기 오디오 신호는 사용자로부터 발화된 동일한 기동어를 인식하여 생성된 신호이고,

상기 각각의 오디오 신호에서 상기 사용자와 상기 복수의 디바이스 간의 거리를 인디케이팅할 수 있는 복수의 거리 정보를 추출하고,

상기 추출된 복수의 거리 정보를 이용하여 상기 기동어에 응답할 응답 디바이스를 결정하는 프로세서;를 포함하되,

상기 프로세서는,

미리 정해진 조건에 따라, 상기 추출된 복수의 거리 정보를 비교하여 상기 응답 디바이스를 결정하는 제1 단계와, 상기 추출된 복수의 거리 정보를 입력으로 하여 심층 신경망(DNN, Deep Neural Network) 모델에 적용한 결과에 기초하여 상기 응답 디바이스를 결정하는 제2 단계 중 적어도 하나에 기초하여 결정하는 것을 특징으로 하는,

응답 기기 결정 장치.
제10항에 있어서,

상기 프로세서는,

상기 추출된 복수의 거리 정보를 최다 득표 산출 방법(MV, Max Voting)을 통해 비교한 결과, 특정 디바이스를 선택할 정도의 임계 상황으로 판단된 경우, 상기 제1 단계를 통해 상기 응답 디바이스를 결정하는 것을 특징으로 하는,

응답 기기 결정 장치.
제10항에 있어서,

상기 프로세서는,

상기 비교 결과, 임계 상황이 아닌 경우, 상기 제2 단계를 통해 상기 응답 디바이스를 결정하는 것을 특징으로 하는,

응답 기기 결정 장치.
제10항에 있어서,

상기 프로세서는,

상기 추출된 복수의 거리 정보를 상기 DNN 모델에 적용한 결과, 상기 복수의 디바이스 중 각 디바이스가 선택될 확률 사이의 차이가 임계값보다 큰 경우, 상기 DNN 모델을 적용한 결과를 통해 상기 응답 디바이스를 결정하는 것을 특징으로 하는,

응답 기기 결정 장치.
제13항에 있어서,

상기 프로세서는,

상기 확률 사이의 차이가 상기 임계값보다 작은 경우, 상기 제1 단계와 상기 제2 단계를 조합하여 상기 응답 디바이스를 결정하는 것을 특징으로 하는,

응답 기기 결정 장치.
제14항에 있어서,

상기 프로세서는,

상기 제1 단계를 적용한 결과 상기 MV를 통해 도출된 각 디바이스가 선택될 확률인 제1 확률 사이의 차이와,

상기 제2 단계를 적용한 결과 상기 DNN 모델을 통해 도출된 각 디바이스가 선택될 확률인 제2 확률 사이의 차이를 비교하여 상기 응답 디바이스를 결정하는 것을 특징으로 하는,

응답 기기 결정 장치.
제15항에 있어서,

상기 프로세서는,

상기 각 디바이스의 제1 확률끼리 비교하고, 상기 각 디바이스의 제2 확률끼리 비교한 결과, 상기 제1 확률과 상기 제2 확률 중 확률 사이의 차이가 더 큰 확률에 더 큰 가중치를 부여하여, 상기 제1 단계와 상기 제2 단계를 조합하는 것을 특징으로 하는,

응답 기기 결정 장치.
제10항에 있어서,

상기 프로세서는, 상기 통신부를 통해,

상기 복수의 디바이스로 상기 결정한 결과를 전송하는 것을 특징으로 하는,

응답 기기 결정 장치.
제10항에 있어서,

상기 복수의 거리 정보는 KSANR(Keyword Speech to Ambient Noise Ratio) 정보, Priori SNR(Signal to Noise Ratio) 정보, 키워드 제곱평균 제곱근 세기(Keyword RMS Power) 정보, 선형 예측 잔여 첨도(Linear Prediction Residual Kurtosis) 정보, 피크 에너지(Peak Energy) 정보 또는 프레임 에너지(Frame Energy) 정보를 포함하는

응답 기기 결정 장치.