WO2020218634A1 - 응답 기기 결정 방법 및 장치 - Google Patents

응답 기기 결정 방법 및 장치 Download PDF

Info

Publication number
WO2020218634A1
WO2020218634A1 PCT/KR2019/004919 KR2019004919W WO2020218634A1 WO 2020218634 A1 WO2020218634 A1 WO 2020218634A1 KR 2019004919 W KR2019004919 W KR 2019004919W WO 2020218634 A1 WO2020218634 A1 WO 2020218634A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
iot
probability
response device
distance information
Prior art date
Application number
PCT/KR2019/004919
Other languages
English (en)
French (fr)
Inventor
박희완
이동훈
이봉기
전유용
정재웅
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to PCT/KR2019/004919 priority Critical patent/WO2020218634A1/ko
Priority to US16/492,015 priority patent/US11132991B2/en
Priority to KR1020190092760A priority patent/KR20190096861A/ko
Publication of WO2020218634A1 publication Critical patent/WO2020218634A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S11/00Systems for determining distance or velocity not using reflection or reradiation
    • G01S11/14Systems for determining distance or velocity not using reflection or reradiation using ultrasonic, sonic, or infrasonic waves
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Definitions

  • the present invention relates to a response device determination method and a response device determination device, and more particularly, to a response device determination method and apparatus capable of determining a response device corresponding to a user's activation word.
  • the voice recognition device is a device for performing a voice recognition function.
  • IoT Internet of Things
  • devices that can control IoT (Internet of Things) devices (or devices) using the result of recognizing the starting words spoken by users and Technology is being developed.
  • IoT devices around the user receive the activation word and analyze the activation word in the form of a voice signal. do.
  • the startup word is a startup signal for starting the IoT device itself
  • the IoT device prepares to receive another command from the user, that is, performs startup (or wake up).
  • a master IoT device or a separate server among IoT devices analyzes the startup word received by each IoT device, and based on the distance from each IoT device to the location where the startup word is uttered.
  • a technology is being developed to start only IoT devices that are determined to be IoT devices at the nearest location from the user.
  • such a technology uses a B IoT device that is closer to the A IoT device than the A IoT device when the user is looking at the A IoT device and the B IoT device that is at a similar distance from the user and fires a starting word toward the A IoT device. There is a problem of starting it up.
  • an object of the present invention is to select a specific device to provide a voice service in response to the starting word in an environment in which the same starting word is recognized by a plurality of devices.
  • a method of determining a response device includes receiving audio signals from a plurality of devices, respectively;
  • the audio signal is a signal generated by recognizing the same maneuvering word uttered by a user, and extracting a plurality of distance information for indicating a distance between the user and the plurality of devices from the respective audio signals;
  • determining a response device that will respond to the starting word using the extracted plurality of distance information wherein the determining of the device includes comparing the extracted plurality of distance information according to a predetermined condition.
  • At least one of the first step of determining the response device and the second step of determining the response device based on a result of applying the extracted plurality of distance information to a deep neural network (DNN) model. It may be characterized by determining based on one.
  • DNN deep neural network
  • the response device may be determined through the second step.
  • Determining the response device through the second step may be performed when, as a result of applying the extracted plurality of distance information to the DNN model, a difference between the probability of selecting each device among the plurality of devices is greater than a threshold value. , It may be characterized in that the response device is determined based on a result of applying the DNN model.
  • the response device may be determined by combining the first step and the second step.
  • the combining of the first step and the second step includes a difference between a first probability that is a probability that each device derived through the MV is selected as a result of applying the first step, and a result of applying the second step. It may be characterized in that the response device is determined by comparing a difference between a second probability that is a probability that each device will be selected, derived through the DNN model.
  • a greater weight is given to a probability having a greater difference between the first probability and the second probability, and the It may be characterized by combining the first step and the second step.
  • the method may further include transmitting the determined result to the plurality of devices.
  • the plurality of distance information includes Keyword Speech to Ambient Noise Ratio (KSANR) information, Priori Signal to Noise Ratio (SNR) information, keyword RMS Power information, and Linear Prediction Residual Kurtosis information.
  • KSANR Keyword Speech to Ambient Noise Ratio
  • SNR Priori Signal to Noise Ratio
  • SNR Priori Signal to Noise Ratio
  • LMS Power keyword RMS Power
  • Linear Prediction Residual Kurtosis information Linear Prediction Residual Kurtosis information.
  • Peak energy information or frame energy information may be included.
  • An apparatus for determining a response device includes: a communication unit for receiving audio signals from a plurality of devices, respectively; And the audio signal is a signal generated by recognizing the same activation word uttered by the user, and extracting a plurality of distance information capable of indicating a distance between the user and the plurality of devices from the respective audio signals, A processor for determining a response device to respond to the starting word using the extracted plurality of distance information, wherein the processor compares the extracted plurality of distance information according to a predetermined condition to the response device Based on at least one of a first step of determining a and a second step of determining the response device based on a result of applying the extracted plurality of distance information as an input to a deep neural network (DNN) model It can be characterized by determining.
  • DNN deep neural network
  • the processor as a result of comparing the extracted plurality of distance information through a maximum voting method (MV, Max Voting), when it is determined that a certain device is selected as a critical situation, the response device through the first step It may be characterized in that to determine.
  • MV maximum voting method
  • the processor may determine the response device through the second step when the comparison result is not a critical situation.
  • the processor when a difference between the probability of selecting each device among the plurality of devices as a result of applying the extracted plurality of distance information to the DNN model is greater than a threshold value, the response through the result of applying the DNN model It may be characterized by determining the device.
  • the processor may determine the response device by combining the first step and the second step.
  • the processor selects a difference between a first probability that is a probability that each device derived through the MV is selected as a result of applying the first step, and each device derived through the DNN model as a result of applying the second step It may be characterized in that the response device is determined by comparing a difference between the second probability, which is a probability of becoming.
  • the processor as a result of comparing the first probabilities of each device and the second probabilities of the respective devices, a greater weight to a probability having a greater difference between the probabilities among the first and second probabilities.
  • a greater weight to a probability having a greater difference between the probabilities among the first and second probabilities.
  • the processor may be characterized in that it transmits the determined result to the plurality of devices through the communication unit.
  • the plurality of distance information includes Keyword Speech to Ambient Noise Ratio (KSANR) information, Priori Signal to Noise Ratio (SNR) information, keyword RMS Power information, and Linear Prediction Residual Kurtosis information.
  • KSANR Keyword Speech to Ambient Noise Ratio
  • SNR Priori Signal to Noise Ratio
  • SNR Priori Signal to Noise Ratio
  • LMS Power keyword RMS Power
  • Linear Prediction Residual Kurtosis information Linear Prediction Residual Kurtosis information.
  • Peak energy information or frame energy information may be included.
  • a computing device includes a processor and a memory including instructions executable by the processor, the instructions comprising: causing the processor to receive audio signals from a plurality of devices, respectively;
  • the audio signal is a signal generated by recognizing the same maneuvering word uttered by a user, and extracting a plurality of distance information for indicating a distance between the user and the plurality of devices from the respective audio signals; And determining a response device that will respond to the maneuvering word by using the extracted plurality of distance information, wherein the determining of the device includes, according to a predetermined condition, the extracted plurality of distance information.
  • the first step of determining the response device by comparison and the second step of determining the response device based on a result of applying the extracted plurality of distance information as input to a deep neural network (DNN) model It is characterized in that it is determined based on at least one.
  • DNN deep neural network
  • the response device determination method and the response device determination apparatus reflect the user's intention and provide a voice service by the startup word spoken once by the user in a plurality of device environments that recognize the same startup word. It has the effect of being able to choose a device that can be used.
  • the response device determination method and the response device determination apparatus are learned by applying a DNN model even in an environment in which it is difficult to determine a specific device based on a feature value of an audio signal recognized by the device itself. By reflecting, the user can select an intended device.
  • the present invention it is possible to easily determine the IoT device that the user intends to start from among a plurality of IoT devices that have received a starting word spoken by the user.
  • the IoT device intended by the user can be accurately selected.
  • the present invention generates a model for determining a response device by learning various types of distance-related reference information for the user's activation word, and inputting the user's activation word into the model, thereby The device can be identified more accurately and quickly.
  • FIG. 1 illustrates a block diagram of a wireless communication system to which the methods proposed in the present specification can be applied.
  • FIG. 2 shows an example of a basic operation of a user terminal and a 5G network in a 5G communication system.
  • FIG 3 shows an example of an application operation of a user terminal and a 5G network in a 5G communication system.
  • 4 to 7 show an example of an operation of a user terminal using 5G communication.
  • FIG. 8 is a diagram showing an example of a 3GPP signal transmission/reception method.
  • FIG. 9 illustrates an SSB structure
  • FIG. 10 illustrates an SSB transmission.
  • 11 illustrates an example of a random access process.
  • FIG. 13 shows an example of a conceptual diagram of uplink physical channel processing.
  • 15 is a diagram showing an example of a block diagram of a transmitting end and a receiving end for hybrid beamforming.
  • 16 shows an example of beamforming using SSB and CSI-RS.
  • 17 is a flowchart showing an example of a DL BM process using SSB.
  • FIG. 18 shows another example of a DL BM process using CSI-RS.
  • 19 is a flowchart illustrating an example of a reception beam determination process of a UE.
  • 20 is a flowchart illustrating an example of a transmission beam determination process of a BS.
  • FIG. 21 shows an example of resource allocation in the time and frequency domains related to the operation of FIG. 18.
  • FIG. 22 shows an example of a UL BM process using SRS.
  • FIG. 23 is a flowchart showing an example of a UL BM process using SRS.
  • 24 is a diagram illustrating an example of a method for instructing a preemption.
  • 25 shows an example of a time/frequency set of preemption indication.
  • 26 shows an example of narrowband operation and frequency diversity.
  • FIG. 27 is a diagram illustrating physical channels that can be used for MTC and a general signal transmission method using them.
  • 28 is a diagram showing an example of scheduling for each of MTC and legacy LTE.
  • 29 shows an example of a frame structure when the subcarrier interval is 15 kHz.
  • FIG. 30 shows an example of a frame structure when the subcarrier spacing is 3.75 kHz.
  • 31 shows an example of a resource grid for NB-IoT uplink.
  • 33 is a diagram showing an example of physical channels that can be used for NB-IoT and a general signal transmission method using them.
  • 35 is a block diagram illustrating a detailed configuration of the IoT device of FIG. 34.
  • FIG. 36 is a block diagram illustrating an example of a detailed configuration of the processor of FIG. 35.
  • FIG. 37 is a block diagram illustrating another example of a detailed configuration of the processor of FIG. 35.
  • FIGS. 36 and 37 shows a schematic block diagram of the intelligent agent of FIGS. 36 and 37;
  • 39 is a block diagram showing a detailed configuration of the response device determining apparatus of FIG. 34;
  • FIG. 40 is a block diagram showing a detailed configuration of the processor of FIG. 39;
  • FIG. 42 shows a detailed configuration of the main IoT device of FIG. 41.
  • 43 is a flowchart illustrating a method of determining a response device according to an embodiment of the present invention.
  • FIG. 44 is a detailed flowchart illustrating a step of receiving distance information of FIG. 43 according to an embodiment of the present invention.
  • 45 is a detailed flowchart illustrating a step of receiving distance information according to another embodiment of the present invention.
  • 46 is a detailed flowchart illustrating an operation of determining a critical situation based on the distance information of FIG. 43.
  • 47 is a detailed flowchart illustrating a step of selecting a response device using the DNN model of FIG. 43.
  • FIG. 48 illustrates a process of selecting a response device of FIG. 47.
  • step S50 of FIG. 47 is a detailed flowchart illustrating step S50 of FIG. 47.
  • step S50 illustrates a process according to step S50 described with reference to FIG. 49.
  • 51 is a graph showing the strength of a voice signal received from a specific IoT device in a time domain.
  • FIG. 52 is a graph showing the intensity of a residual signal outputted after passing a voice signal transmitted from a different distance from a specific IoT device through a linear prediction filter in a time domain.
  • 53 is a graph showing voice signals transmitted from different distances from a specific IoT device in a frequency domain.
  • FIG. 1 illustrates a block diagram of a wireless communication system to which the methods proposed in the present specification can be applied.
  • a device including an AI module is defined as a first communication device (refer to 910 in FIG. 1, paragraph N for a detailed description), and the processor 911 can perform detailed AI operations. have.
  • a 5G network including another device (AI server) that communicates with the AI device may be set to a second communication device (refer to 920 in FIG. 1, paragraph N for details), and the processor 921 may perform detailed AI operations.
  • a wireless communication system defined as including a first communication device that is a UE and a second communication device that is a 5G network, see paragraph N.
  • FIG. 2 shows an example of a basic operation of a user terminal and a 5G network in a 5G communication system.
  • the UE transmits specific information transmission to the 5G network (S1).
  • the 5G network performs 5G processing on the specific information (S2).
  • 5G processing may include AI processing.
  • the 5G network transmits a response including the AI processing result to the UE (S3).
  • FIG 3 shows an example of an application operation of a user terminal and a 5G network in a 5G communication system.
  • the UE performs an initial access procedure with the 5G network (S20).
  • the initial connection procedure is described in more detail in paragraph F.
  • the UE performs a random access procedure with the 5G network (S21).
  • the random access process is described in more detail in paragraph G.
  • the 5G network transmits a UL grant for scheduling transmission of specific information to the UE (S22).
  • the process of receiving the UL grant by the UE will be described in more detail in the UL transmission/reception operation in paragraph H.
  • the UE transmits specific information to the 5G network based on the UL grant (S23).
  • the 5G network performs 5G processing on the specific information (S24).
  • 5G processing may include AI processing.
  • the 5G network transmits a DL grant for scheduling the transmission of the 5G processing result for the specific information to the UE (S25).
  • the 5G network transmits a response including the AI processing result to the UE based on the DL grant (S26).
  • 4 to 7 show an example of an operation of a user terminal using 5G communication.
  • the UE performs an initial access procedure with the 5G network based on the SSB in order to acquire DL synchronization and system information (S30).
  • the UE performs a random access procedure with the 5G network for UL synchronization acquisition and/or UL transmission (S31).
  • the UE receives a UL grant to the 5G network to transmit specific information (S32).
  • the UE transmits specific information to the 5G network based on the UL grant (S33).
  • the UE receives a DL grant for receiving a response to specific information from the 5G network (S34).
  • the UE receives a response including the AI processing result from the 5G network based on the DL grant (S35).
  • a beam management (BM) process may be added to S30, a beam failure recovery process may be added to S31, and a quasi-co location (QCL) relationship may be added to S32 to S35. And, a more detailed description thereof will be described in more detail in paragraph I.
  • BM beam management
  • QCL quasi-co location
  • the UE performs an initial access procedure with the 5G network based on the SSB in order to obtain DL synchronization and system information (S40).
  • the UE performs a random access procedure with the 5G network for UL synchronization acquisition and/or UL transmission (S41).
  • the UE transmits specific information to the 5G network based on a configured grant (S42).
  • a configured grant S42
  • the process of performing a configured grant will be described in more detail in paragraph H.
  • the UE receives a DL grant for receiving a response to specific information from the 5G network (S43).
  • the UE receives a response including the AI processing result from the 5G network based on the DL grant (S44).
  • the UE performs an initial access procedure with the 5G network based on the SSB in order to obtain DL synchronization and system information (S50).
  • the UE performs a random access procedure with a 5G network for UL synchronization acquisition and/or UL transmission (S51).
  • the UE receives a DownlinkPreemption IE from the 5G network (S52).
  • the UE receives a DCI format 2_1 including a preemption instruction from the 5G network based on the DownlinkPreemption IE (S53).
  • the UE does not perform (or expect or assume) the reception of eMBB data in the resource (PRB and/or OFDM symbol) indicated by the pre-emption indication (S54).
  • the UE receives a UL grant to the 5G network to transmit specific information (S55).
  • the UE transmits specific information to the 5G network based on the UL grant (S56).
  • the UE receives a DL grant for receiving a response to specific information from the 5G network (S57).
  • the UE receives a response including the AI processing result from the 5G network based on the DL grant (S58).
  • the UE performs an initial access procedure with the 5G network based on the SSB in order to obtain DL synchronization and system information (S60).
  • the UE performs a random access procedure with the 5G network for UL synchronization acquisition and/or UL transmission (S61).
  • the UE receives a UL grant to the 5G network to transmit specific information (S62).
  • the UL grant includes information on the number of repetitions for transmission of the specific information, and the specific information is repeatedly transmitted based on the information on the number of repetitions (S63).
  • the UE transmits specific information to the 5G network based on the UL grant.
  • repetitive transmission of specific information may be performed through frequency hopping, transmission of first specific information may be transmitted in a first frequency resource, and transmission of second specific information may be transmitted in a second frequency resource.
  • the specific information may be transmitted through a narrowband of 6RB (Resource Block) or 1RB (Resource Block).
  • the UE receives a DL grant for receiving a response to specific information from the 5G network (S64).
  • the UE receives a response including the AI processing result from the 5G network based on the DL grant (S65).
  • downlink refers to communication from a base station (BS) to a user equipment (UE)
  • uplink refers to communication from a UE to a BS.
  • a transmitter may be a part of a BS, and a receiver may be a part of a UE.
  • the transmitter may be part of the UE, and the receiver may be part of the BS.
  • the UE may be referred to as a first communication device and the BS may be referred to as a second communication device.
  • BS is a fixed station, Node B, evolved-NodeB (eNB), Next Generation NodeB (gNB), base transceiver system (BTS), access point (AP), network or 5th generation (5G) network node.
  • eNB evolved-NodeB
  • gNB Next Generation NodeB
  • BTS base transceiver system
  • AP access point
  • 5G 5th generation
  • AI Artificial Intelligence
  • RSU road side unit
  • the UE is a terminal, MS (Mobile Station), UT (User Terminal), MSS (Mobile Subscriber Station), SS (Subscriber Station), AMS (Advanced Mobile Station), WT (Wireless terminal), MTC (Machine -Type Communication) device, M2M (Machine-to-Machine) device, D2D (Device-to-Device) device, vehicle (vehicle), robot (robot), can be replaced by terms such as AI module.
  • MS Mobile Station
  • UT User Terminal
  • MSS Mobile Subscriber Station
  • SS Subscriber Station
  • AMS Advanced Mobile Station
  • WT Wireless terminal
  • MTC Machine -Type Communication
  • M2M Machine-to-Machine
  • D2D Device-to-Device
  • vehicle vehicle
  • robot robot
  • CDMA Code Division Multiple Access
  • FDMA Frequency Division Multiple Access
  • TDMA Time Division Multiple Access
  • OFDMA Orthogonal Frequency Division Multiple Access
  • SC-FDMA Single Carrier FDMA
  • CDMA may be implemented with a radio technology such as Universal Terrestrial Radio Access (UTRA) or CDMA2000.
  • TDMA may be implemented with radio technologies such as Global System for Mobile communications (GSM)/General Packet Radio Service (GPRS)/Enhanced Data Rates for GSM Evolution (EDGE).
  • GSM Global System for Mobile communications
  • GPRS General Packet Radio Service
  • EDGE Enhanced Data Rates for GSM Evolution
  • OFDMA may be implemented with a wireless technology such as IEEE 802.11 (Wi-Fi), IEEE 802.16 (WiMAX), IEEE 802-20, and E-UTRA (Evolved UTRA).
  • UTRA is a part of Universal Mobile Telecommunications System (UMTS).
  • 3rd Generation Partnership Project (3GPP) Long Term Evolution (LTE) is a part of Evolved UMTS (E-UMTS) using E-UTRA
  • LTE-A Advanced
  • LTE-A pro is an evolved version of 3GPP LTE.
  • 3GPP New Radio or New Radio Access Technology (NR) is an evolved version of 3GPP LTE/LTE-A/LTE-A pro.
  • LTE refers to technology after 3GPP TS 36.xxx Release 8.
  • LTE technology after 3GPP TS 36.xxx Release 10 is referred to as LTE-A
  • LTE technology after 3GPP TS 36.xxx Release 13 is referred to as LTE-A pro.
  • 3GPP 5G (5th generation) technology refers to technology after TS 36.xxx Release 15 and technology after TS 38.XXX Release 15, among which technology after TS 38.xxx Release 15 is referred to as 3GPP NR, and TS The technology after 36.xxx Release 15 may be referred to as enhanced LTE. "xxx" means standard document detail number. LTE/NR may be collectively referred to as a 3GPP system.
  • a node refers to a fixed point at which a radio signal can be transmitted/received by communicating with a UE.
  • Various types of BSs can be used as nodes regardless of their name.
  • BS, NB, eNB, pico-cell eNB (PeNB), home eNB (HeNB), relay, repeater, and the like may be nodes.
  • the node may not have to be a BS.
  • it may be a radio remote head (RRH) or a radio remote unit (RRU).
  • RRH, RRU, etc. generally have a lower power level than the power level of the BS.
  • At least one antenna is installed in one node.
  • the antenna may mean a physical antenna, or an antenna port, a virtual antenna, or an antenna group. Nodes are also called points.
  • a cell refers to a certain geographic area or radio resource in which one or more nodes provide communication services.
  • the "cell” in the geographic area may be understood as coverage in which a node can provide a service using a carrier, and the "cell" of a radio resource is a bandwidth (a frequency size configured) by the carrier ( bandwidth, BW). Since downlink coverage, which is a range in which a node can transmit a valid signal and uplink coverage, which is a range in which a valid signal can be received from a UE, depends on the carrier that carries the corresponding signal, the coverage of the node is the It is also related to the coverage of the "cell". Therefore, the term "cell" can sometimes be used to mean coverage of a service by a node, sometimes a radio resource, and sometimes a range within which a signal using the radio resource can reach a valid strength.
  • communication with a specific cell may mean communication with a BS or node that provides a communication service to the specific cell.
  • the downlink/uplink signal of a specific cell means a downlink/uplink signal from/to a BS or a node that provides a communication service to the specific cell.
  • a cell that provides an uplink/downlink communication service to a UE is specifically referred to as a serving cell.
  • the channel state/quality of a specific cell refers to a channel state/quality of a channel or communication link formed between a BS or a node and a UE providing a communication service to the specific cell.
  • a “cell” associated with a radio resource may be defined as a combination of downlink resources and UL resources, that is, a combination of a DL component carrier (CC) and a UL CC.
  • the cell may be configured with a DL resource alone or a combination of a DL resource and a UL resource.
  • the linkage between the carrier frequency of the DL resource (or, DL CC) and the carrier frequency of the UL resource (or UL CC) corresponds to It may be indicated by system information transmitted through the cell.
  • the carrier frequency may be the same as or different from the center frequency of each cell or CC.
  • Scell refers to a state in which an RRC connection is established between the UE and the BS by performing a radio resource control (RRC) connection establishment process with the UE, that is, it may be set after the UE enters the RRC_CONNECTED state.
  • RRC radio resource control
  • the RRC connection may mean a path through which the RRC of the UE and the RRC of the BS can exchange RRC messages with each other.
  • Scell may be configured to provide additional radio resources to the UE.
  • the Scell may form a set of serving cells for the UE together with the Pcell.
  • the Scell may form a set of serving cells for the UE together with the Pcell.
  • the cell supports its own radio access technology. For example, transmission/reception according to LTE radio access technology (RAT) is performed on an LTE cell, and transmission/reception according to 5G RAT is performed on a 5G cell.
  • LTE radio access technology RAT
  • 5G RAT 5th Generationан ⁇
  • Carrier aggregation technology refers to a technology that aggregates and uses a plurality of carriers having a system bandwidth smaller than a target bandwidth for broadband support.
  • Carrier aggregation is a base frequency band divided into a plurality of orthogonal subcarriers in that a plurality of carrier frequencies that each form a system bandwidth (also referred to as a channel bandwidth) are used to perform downlink or uplink communication. It is differentiated from OFDMA technology that performs downlink or uplink communication on a carrier frequency.
  • one frequency band having a predetermined system bandwidth is divided into a plurality of subcarriers having a predetermined subcarrier interval, and information/data is divided into the plurality of The frequency band to which the information/data is mapped is mapped within subcarriers of and is transmitted to the carrier frequency of the frequency band through frequency upconversion.
  • frequency bands each having their own system bandwidth and carrier frequency can be used for communication at the same time, and each frequency band used for carrier aggregation can be divided into a plurality of subcarriers having a predetermined subcarrier spacing. .
  • the 3GPP-based communication standard is an upper layer of a physical layer (e.g., medium access control (MAC) layer, radio link control (RLC) layer, packet data convergence protocol ( Origin from protocol data convergence protocol (PDCP) layer, radio resource control (RRC) layer, service data adaptation protocol (SDAP), non-access stratum (NAS) layer)
  • MAC medium access control
  • RLC radio link control
  • PDCP protocol data convergence protocol
  • RRC radio resource control
  • SDAP service data adaptation protocol
  • NAS non-access stratum
  • a physical downlink shared channel (PDSCH), a physical broadcast channel (PBCH), a physical multicast channel (PMCH), a physical control format indicator channel (physical control)
  • a format indicator channel (PCFICH)
  • a physical downlink control channel (PDCCH)
  • RS reference signal
  • a pilot refers to a signal of a predefined special waveform that the BS and the UE know each other.
  • a cell specific RS RS
  • UE-specific RS UE-specific RS
  • UE-RS positioning RS
  • channel state information RS channel state information RS
  • CSI-RS demodulation reference signal
  • 3GPP-based communication standards correspond to uplink physical channels corresponding to resource elements carrying information originating from an upper layer, and resource elements used by the physical layer but not carrying information originating from an upper layer. It defines uplink physical signals. For example, a physical uplink shared channel (PUSCH), a physical uplink control channel (PUCCH), and a physical random access channel (PRACH) are used as uplink physical channels.
  • a demodulation reference signal (DMRS) for an uplink control/data signal and a sounding reference signal (SRS) used for uplink channel measurement are defined.
  • a physical downlink control channel (PDCCH) and a physical downlink shared channel (PDSCH) include downlink control information (DCI) and downlink data of the physical layer. It may mean a set of time-frequency resources to be carried or a set of resource elements, respectively.
  • DCI downlink control information
  • a physical uplink control channel, a physical uplink shared channel (PUSCH), and a physical random access channel are uplink control information of the physical layer.
  • UCI a set of time-frequency resources or a set of resource elements carrying uplink data and random access signals, respectively.
  • the UE transmits an uplink physical channel means that it transmits UCI, uplink data, or random access signal on the corresponding uplink physical channel or through the uplink physical channel.
  • an uplink physical channel e.g., PUCCH, PUSCH, PRACH
  • the BS receives an uplink physical channel it may mean that it receives DCI, uplink data, or a random access signal on or through the corresponding uplink physical channel.
  • a BS transmits a downlink physical channel eg, PDCCH, PDSCH
  • the UE receives the downlink physical channel it may mean that it receives DCI or downlink data on or through the corresponding downlink physical channel.
  • a transport block is a payload for a physical layer.
  • data given to a physical layer from an upper layer or a medium access control (MAC) layer is basically referred to as a transport block.
  • MAC medium access control
  • HARQ Hybrid Automatic Repeat and ReQuest
  • HARQ-ACK Hybrid Automatic Repeat and ReQuest
  • the transmitting end performing the HARQ operation waits for an acknowledgment (ACK) after transmitting data (eg, transport block, codeword).
  • the receiving end performing the HARQ operation sends an acknowledgment (ACK) only when data is properly received, and sends a negative acknowledgment (negative ACK, NACK) when an error occurs in the received data.
  • ACK acknowledgment
  • NACK negative acknowledgment
  • the transmitting end receives ACK, it can transmit (new) data, and when NACK is received, it can retransmit data.
  • a time delay occurs until ACK/NACK is received from the UE and retransmission data is transmitted.
  • This time delay occurs due to the channel propagation delay and the time taken for data decoding/encoding. Therefore, when new data is transmitted after the HARQ process currently in progress is finished, a gap occurs in data transmission due to a time delay.
  • a plurality of independent HARQ processes are used to prevent a gap in data transmission during a time delay period. For example, if there are 7 transmission occasions between initial transmission and retransmission, the communication device can perform data transmission without space by operating 7 independent HARQ processes.
  • UL/DL transmission may be continuously performed while waiting for HARQ feedback for previous UL/DL transmission.
  • channel state information collectively refers to information capable of indicating the quality of a radio channel (or link) formed between the UE and the antenna port.
  • CSI is a channel quality indicator (CQI), precoding matrix indicator (PMI), CSI-RS resource indicator (CSI-RS resource indicator, CRI), SSB resource indicator (SSB resource indicator, SSBRI) , It may include at least one of a layer indicator (LI), a rank indicator (RI), or a reference signal received power (RSRP).
  • CQI channel quality indicator
  • PMI precoding matrix indicator
  • CSI-RS resource indicator CRI
  • SSB resource indicator SSB resource indicator
  • SSBRI SSBRI
  • LI layer indicator
  • RI rank indicator
  • RSRP reference signal received power
  • frequency division multiplexing may mean transmitting/receiving signals/channels/users in different frequency resources
  • time division multiplexing means It may mean transmitting/receiving signals/channels/users in different time resources.
  • frequency division duplex refers to a communication method in which uplink communication is performed on an uplink carrier and downlink communication is performed on a downlink carrier linked to the uplink carrier
  • time division Duplex time division duplex, TDD refers to a communication method in which uplink communication and downlink communication are performed by dividing time on the same carrier.
  • PDCP Packet Data Convergence Protocol
  • RRC Radio Resource Control
  • GPRS General Packet Radio Service
  • E-UTRAN Evolved Universal Terrestrial Radio Access Network
  • NAS Non-Access-Stratum
  • EPS Evolved Packet System
  • -3GPP TS 24.302 Access to the 3GPP Evolved Packet Core (EPC) via non-3GPP access networks; Stage 3
  • EPC Evolved Packet Core
  • -3GPP TS 24.386 User Equipment (UE) to V2X control function; protocol aspects; Stage 3
  • -3GPP TS 38.304 User Equipment (UE) procedures in idle mode and in RRC inactive state
  • SDAP Service Data Adaptation Protocol
  • -3GPP TS 24.501 Non-Access-Stratum (NAS) protocol for 5G System (5GS); Stage 3
  • NAS Non-Access-Stratum
  • -3GPP TS 24.502 Access to the 3GPP 5G Core Network (5GCN) via non-3GPP access networks
  • -3GPP TS 24.526 User Equipment (UE) policies for 5G System (5GS); Stage 3
  • UE User Equipment
  • FIG. 8 is a diagram showing an example of a 3GPP signal transmission/reception method.
  • the UE when the UE is powered on or newly enters a cell, the UE performs an initial cell search operation such as synchronizing with the BS (S201). To this end, the UE receives a primary synchronization channel (P-SCH) and a secondary synchronization channel (S-SCH) from the BS, synchronizes with the BS, and obtains information such as cell ID. can do.
  • P-SCH primary synchronization channel
  • S-SCH secondary synchronization channel
  • the P-SCH and the S-SCH are referred to as a primary synchronization signal (PSS) and a secondary synchronization signal (SSS), respectively.
  • PSS primary synchronization signal
  • SSS secondary synchronization signal
  • the UE may obtain intra-cell broadcast information by receiving a physical broadcast channel (PBCH) from the BS. Meanwhile, the UE may receive a downlink reference signal (DL RS) in the initial cell search step to check the downlink channel state.
  • PBCH physical broadcast channel
  • DL RS downlink reference signal
  • the UE Upon completion of initial cell search, the UE acquires more detailed system information by receiving a physical downlink control channel (PDCCH) and a physical downlink shared channel (PDSCH) according to the information carried on the PDCCH. It can be done (S202).
  • PDCCH physical downlink control channel
  • PDSCH physical downlink shared channel
  • the UE may perform a random access procedure (RACH) for the BS (steps S203 to S206).
  • RACH random access procedure
  • the UE transmits a specific sequence as a preamble through a physical random access channel (PRACH) (S203 and S205), and a random access response for the preamble through the PDCCH and the corresponding PDSCH (random access response, RAR) message can be received (S204 and S206).
  • PRACH physical random access channel
  • RAR random access response
  • a contention resolution procedure may be additionally performed.
  • the random access process is described in more detail in G. below.
  • the UE receives PDCCH/PDSCH (S207) and physical uplink shared channel (PUSCH)/physical uplink control channel as a general uplink/downlink signal transmission process.
  • Uplink control channel, PUCCH) transmission (S208) may be performed.
  • the UE receives downlink control information (DCI) through the PDCCH.
  • DCI downlink control information
  • the UE monitors the set of PDCCH candidates from monitoring opportunities set in one or more control element sets (CORESET) on the serving cell according to the corresponding search space configurations.
  • the set of PDCCH candidates to be monitored by the UE is defined in terms of search space sets, and the search space set may be a common search space set or a UE-specific search space set.
  • CORESET consists of a set of (physical) resource blocks with a time duration of 1 to 3 OFDM symbols.
  • the network can configure the UE to have multiple CORESETs.
  • the UE monitors PDCCH candidates in one or more search space sets. Here, monitoring means attempting to decode PDCCH candidate(s) in the search space.
  • the UE determines that the PDCCH is detected in the corresponding PDCCH candidate, and performs PDSCH reception or PUSCH transmission based on the detected DCI in the PDCCH.
  • the PDCCH can be used to schedule DL transmissions on the PDSCH and UL transmissions on the PUSCH.
  • the DCI on the PDCCH is a downlink assignment (i.e., downlink grant; DL grant) including at least information on modulation and coding format and resource allocation related to a downlink shared channel, or uplink It includes an uplink grant (UL grant) including modulation and coding format and resource allocation information related to the shared channel.
  • the UE may perform cell search, system information acquisition, beam alignment for initial access, and DL measurement based on the SSB.
  • SSB is used interchangeably with SS/PBCH (Synchronization Signal/Physical Broadcast Channel) block.
  • SS/PBCH Synchronization Signal/Physical Broadcast Channel
  • the SSB is composed of PSS, SSS and PBCH.
  • the SSB is composed of 4 consecutive OFDM symbols, and PSS, PBCH, SSS/PBCH or PBCH are transmitted for each OFDM symbol.
  • the PSS and SSS are each composed of 1 OFDM symbol and 127 subcarriers, and the PBCH is composed of 3 OFDM symbols and 576 subcarriers.
  • the PBCH is encoded/decoded based on a Polar code, and is modulated/demodulated according to Quadrature Phase Shift Keying (QPSK).
  • QPSK Quadrature Phase Shift Keying
  • the PBCH in the OFDM symbol is composed of data resource elements (REs) to which a complex modulation value of the PBCH is mapped and DMRS REs to which a demodulation reference signal (DMRS) for the PBCH is mapped.
  • REs data resource elements
  • DMRS REs demodulation reference signal
  • Cell discovery refers to a process in which the UE acquires time/frequency synchronization of a cell and detects a cell identifier (eg, Physical layer Cell ID, PCI) of the cell.
  • PSS is used to detect a cell ID within a cell ID group
  • SSS is used to detect a cell ID group.
  • PBCH is used for SSB (time) index detection and half-frame detection.
  • the cell search process of the UE may be summarized as shown in Table 1 below.
  • 336 cell ID groups There are 336 cell ID groups, and 3 cell IDs exist for each cell ID group. There are a total of 1008 cell IDs. Information on the cell ID group to which the cell ID of the cell belongs is provided/obtained through the SSS of the cell, and information on the cell ID among 336 cells in the cell ID is provided/obtained through the PSS. Illustrate transmission.
  • the SSB is transmitted periodically according to the SSB period.
  • the SSB basic period assumed by the UE during initial cell search is defined as 20 ms.
  • the SSB period may be set to one of ⁇ 5ms, 10ms, 20ms, 40ms, 80ms, 160ms ⁇ by the network (eg, BS).
  • a set of SSB bursts is constructed.
  • the SSB burst set consists of a 5 ms time window (ie, half-frame), and the SSB can be transmitted up to L times in the SS burst set.
  • the maximum number of transmissions L of the SSB may be given as follows according to the frequency band of the carrier. One slot contains at most two SSBs.
  • the time position of the SSB candidate in the SS burst set may be defined according to the subcarrier interval.
  • the temporal position of the SSB candidate is indexed from 0 to L-1 in the temporal order within the SSB burst set (ie, half-frame) (SSB index).
  • a number of SSBs may be transmitted within the frequency span of the carrier. Physical layer cell identifiers of these SSBs need not be unique, and different SSBs may have different physical layer cell identifiers.
  • the UE can acquire DL synchronization by detecting the SSB.
  • the UE may identify the structure of the SSB burst set based on the detected SSB (time) index, and thus detect the symbol/slot/half-frame boundary.
  • the frame/half-frame number to which the detected SSB belongs may be identified using system frame number (SFN) information and half-frame indication information.
  • SFN system frame number
  • the UE may obtain a 10-bit SFN for a frame to which the PBCH belongs from the PBCH.
  • the UE may obtain 1-bit half-frame indication information. For example, when the UE detects a PBCH in which the half-frame indication bit is set to 0, it may be determined that the SSB to which the PBCH belongs belongs to the first half-frame in the frame, and the half-frame indication bit is 1
  • the UE may obtain the SSB index of the SSB to which the PBCH belongs based on the DMRS sequence and the PBCH payload carried by the PBCH.
  • SI is divided into a master information block (MIB) and a plurality of system information blocks (SIB). SI other than MIB may be referred to as RMSI (Remaining Minimum System Information). For details, refer to the following.
  • the MIB includes information/parameters for monitoring the PDCCH that schedules the PDSCH carrying SIB1 (SystemInformationBlock1), and is transmitted by the BS through the PBCH of the SSB. For example, the UE may check whether there is a CORESET (Control Resource Set) for the Type0-PDCCH common search space based on the MIB.
  • the Type0-PDCCH common search space is a kind of PDCCH search space, and is used to transmit a PDCCH for scheduling SI messages.
  • the UE When there is a Type0-PDCCH common search space, the UE is based on information in the MIB (e.g., pdcch-ConfigSIB1), based on (i) a plurality of contiguous resource blocks constituting CORESET and one or more consecutive Symbols and (ii) a PDCCH opportunity (eg, a time domain location for PDCCH reception) may be determined.
  • pdcch-ConfigSIB1 provides information on a frequency location in which SSB/SIB1 exists and a frequency range in which SSB/SIB1 does not exist.
  • SIBx includes information related to availability and scheduling (eg, transmission period, SI-window size) of the remaining SIBs (hereinafter, SIBx, x is an integer greater than or equal to 2).
  • SIB1 may inform whether SIBx is periodically broadcast or provided by a request of a UE by an on-demand method.
  • SIB1 may include information necessary for the UE to perform an SI request.
  • SIB1 is transmitted through the PDSCH
  • the PDCCH scheduling SIB1 is transmitted through the Type0-PDCCH common search space
  • SIB1 is transmitted through the PDSCH indicated by the PDCCH.
  • -SIBx is included in the SI message and is transmitted through PDSCH.
  • Each SI message is transmitted within a periodic time window (ie, SI-window).
  • the random access procedure of the UE can be summarized as shown in Table 2 and FIG. 11.
  • Step 1 PRACH preamble in UL * Initial beam acquisition * Random access preamble ID selection Step 2 Random access response on PDSCH * Timing advance information * Random access preamble ID * Initial UL grant, temporary C-RNTI Step 3 UL transmission on PUSCH * RRC connection request * UE identifier Step 4 Contention resolution on DL * Temporary C-RNTI on PDCCH for initial access * C-RNTI on PDCCH for RRC_CONNECTED UE
  • the random access process is used for various purposes.
  • the random access procedure may be used for initial network access, handover, and UE-triggered UL data transmission.
  • the UE may acquire UL synchronization and UL transmission resources through a random access process.
  • the random access process is divided into a contention-based random access process and a contention free random access process.
  • 11 illustrates an example of a random access process. In particular, FIG. 11 illustrates a contention-based random access process.
  • the UE may transmit a random access preamble through the PRACH as Msg1 in the random access procedure in the UL.
  • Random access preamble sequences having two different lengths are supported.
  • Long sequence length 839 is applied for subcarrier spacing of 1.25 and 5 kHz
  • short sequence length 139 is applied for subcarrier spacing of 15, 30, 60 and 120 kHz.
  • RACH configuration for the cell is included in the system information of the cell and provided to the UE.
  • the RACH configuration includes information on the subcarrier spacing of the PRACH, available preambles, and preamble format.
  • the RACH configuration includes association information between SSBs and RACH (time-frequency) resources. The UE transmits a random access preamble in the RACH time-frequency resource associated with the detected or selected SSB.
  • the SSB threshold for RACH resource association can be set by the network, and the RACH preamble is transmitted based on the SSB in which the reference signal received power (RSRP) measured based on the SSB satisfies the threshold. Or, retransmission is performed. For example, the UE may select one of SSB(s) meeting the threshold value, and transmit or retransmit the RACH preamble based on the RACH resource associated with the selected SSB.
  • RSRP reference signal received power
  • the BS When the BS receives the random access preamble from the UE, the BS transmits a random access response (RAR) message (Msg2) to the UE.
  • RAR random access response
  • the PDCCH for scheduling the PDSCH carrying the RAR is transmitted after being CRC masked with a random access (RA) radio network temporary identifier (RNTI) (RA-RNTI).
  • RA-RNTI random access radio network temporary identifier
  • a UE that detects a PDCCH masked with RA-RNTI may receive an RAR from a PDSCH scheduled by a DCI carried by the PDCCH.
  • the UE checks whether the preamble transmitted by the UE, that is, random access response information for Msg1, is in the RAR.
  • Whether there is random access information for Msg1 transmitted by the UE may be determined based on whether a random access preamble ID for a preamble transmitted by the UE exists. If there is no response to Msg1, the UE may retransmit the RACH preamble within a predetermined number of times while performing power ramping. The UE calculates the PRACH transmission power for retransmission of the preamble based on the most recent path loss and power ramping counter.
  • Random access response information is timing advance information for UL synchronization, a UL grant, and when a UE temporary UE receives random access response information for itself on the PDSCH, the UE provides timing advance information for UL synchronization, initial UL Grant, UE temporary (temporary) cell RNTI (cell RNTI, C-RNTI) can be known.
  • the timing advance information is used to control the uplink signal transmission timing.
  • the network e.g., BS
  • the UE may transmit UL transmission as Msg3 in a random access procedure on an uplink shared channel based on random access response information.
  • Msg3 may include an RRC connection request and a UE identifier.
  • the network may send Msg4, which may be treated as a contention resolution message on the DL. By receiving Msg4, the UE can enter the RRC connected state.
  • the contention-free random access procedure may be used in the process of handing over to another cell or BS by the UE, or may be performed when requested by the command of the BS.
  • the basic process of the contention-free random access process is similar to the contention-based random access process. However, unlike a contention-based random access process in which the UE randomly selects a preamble to be used among a plurality of random access preambles, in the case of a contention-free random access process, the preamble to be used by the UE (hereinafter, a dedicated random access preamble) is determined by the BS. It is assigned to the UE.
  • Information on the dedicated random access preamble may be included in an RRC message (eg, a handover command) or may be provided to the UE through a PDCCH order.
  • the UE transmits a dedicated random access preamble to the BS.
  • the UE receives the random access process from the BS, the random access process is completed.
  • the UL grant in the RAR schedules PUSCH transmission to the UE.
  • the PUSCH carrying the initial UL transmission by the UL grant in the RAR is also referred to as Msg3 PUSCH.
  • the contents of the RAR UL grant start at the MSB and end at the LSB, and are given in Table 3.
  • RAR UL grant field Number of bits Frequency hopping flag One Msg3 PUSCH frequency resource allocation 12 Msg3 PUSCH time resource allocation 4 Modulation and coding scheme (MCS) 4 Transmit power control (TPC) for Msg3 PUSCH 3 CSI request One
  • the TPC command is used to determine the transmit power of the Msg3 PUSCH, and is interpreted according to Table 4, for example.
  • the CSI request field in the RAR UL grant indicates whether the UE will include an aperiodic CSI report in the corresponding PUSCH transmission.
  • the subcarrier spacing for Msg3 PUSCH transmission is provided by the RRC parameter.
  • the UE will transmit PRACH and Msg3 PUSCH on the same uplink carrier of the same serving cell.
  • the UL BWP for Msg3 PUSCH transmission is indicated by System Information Block1 (SIB1).
  • the downlink grant (also referred to as a downlink assignment) may be divided into (1) a dynamic grant and (2) a configured grant.
  • the dynamic grant is for maximizing the utilization of resources, and refers to a method of transmitting/receiving data based on dynamic scheduling by the BS.
  • the BS schedules downlink transmission through DCI.
  • the UE receives the DCI for downlink scheduling (ie, including scheduling information of the PDSCH) from the BS on the PDCCH.
  • DCI format 1_0 or 1_1 may be used for downlink scheduling.
  • DCI format 1_1 for downlink scheduling may include, for example, the following information: DCI format identifier (identifier for DCI format), bandwidth part indicator (bandwidth part indicator), frequency domain resource allocation (frequency domain resource) assignment), time domain resource assignment, MCS.
  • the UE may determine a modulation order, a target code rate, and a transport block size for the PDSCH based on the MCS field in the DCI.
  • the UE may receive the PDSCH in the time-frequency resource according to the frequency domain resource allocation information and the time domain resource allocation information.
  • the DL configured grant is also referred to as semi-persistent scheduling (SPS).
  • SPS semi-persistent scheduling
  • the UE may receive an RRC message including resource configuration for transmission of DL data from the BS.
  • an actual DL-configured grant is provided by the PDCCH, and is activated or deactivated by the PDCCH.
  • the DL SPS is configured, at least the following parameters are provided to the UE through RRC signaling from the BS: configured scheduling RNTI (CS-RNTI) for activation, deactivation and retransmission; And cycle.
  • CS-RNTI configured scheduling RNTI
  • the actual DL grant of the DL SPS is provided to the UE by the DCI in the PDCCH addressed to the CS-RNTI.
  • the UE activates the SPS associated with the CS-RNTI.
  • the UE may receive downlink data through the PDSCH based on the SPS.
  • the BS transmits a DCI including uplink scheduling information to the UE.
  • the UE receives the DCI for uplink scheduling (ie, including scheduling information of PUSCH) from the BS on the PDCCH.
  • DCI format 0_0 or 0_1 may be used for uplink scheduling.
  • DCI format 0_1 for uplink scheduling may include the following information: DCI format identifier (Identifier for DCI format), bandwidth part indicator (Bandwidth part indicator), frequency domain resource assignment (frequency domain resource assignment), time domain Resource assignment (time domain resource assignment), MCS.
  • the UE transmits uplink data on the PUSCH based on the DCI. For example, when the UE detects a PDCCH including DCI format 0_0 or 0_1, it transmits the corresponding PUSCH according to an indication by the corresponding DCI.
  • Two transmission schemes are supported for PUSCH transmission: codebook based transmission and non-codebook based transmission.
  • the UE When receiving an RRC message in which the RRC parameter'txConfig' is set to'codebook', the UE is configured for codebook-based transmission. On the other hand, when receiving the RRC message in which the RRC parameter'txConfig' is set to'nonCodebook', the UE is configured for non-codebook based transmission.
  • the PUSCH may be semi-statically scheduled by DCI format 0_0, DCI format 0_1, or by RRC signaling.
  • the uplink grant may be divided into (1) a dynamic grant and (2) a configured grant.
  • FIG. 12 shows an example of an uplink grant.
  • 12(a) illustrates a UL transmission process based on a dynamic grant
  • FIG. 12(b) illustrates a UL transmission process based on a configured grant.
  • the dynamic grant is for maximizing the utilization of resources, and refers to a method of transmitting/receiving data based on dynamic scheduling by the BS.
  • the BS needs to know what kind of data each UE transmits and how much uplink. Accordingly, the UE directly transmits information about the uplink data to be transmitted to the BS, and the BS can allocate uplink resources to the UE based on this.
  • information on uplink data transmitted from the UE to the BS is called a buffer status report (BSR), and the BSR is related to the amount of uplink data stored in the UE's own buffer.
  • BSR buffer status report
  • an uplink resource allocation process for actual data is illustrated. For example, since a UE without a UL grant available for UL data transmission cannot transmit a BSR through PUSCH, a resource for uplink data must be requested starting from transmission of a scheduling request through PUCCH. In this case, step 5 The uplink resource allocation process is used.
  • the UE when there is no PUSCH resource for transmitting the BSR, the UE first transmits a scheduling request (SR) to the BS in order to receive the PUSCH resource allocation.
  • SR is used to request a PUSCH resource for uplink transmission from the UE to the BS when a reporting event occurs but there is no PUSCH resource available to the UE.
  • the UE transmits the SR through the PUCCH or initiates a random access procedure.
  • the UE receives the UL grant from the BS, it transmits the BSR to the BS through the PUSCH resource allocated by the UL grant.
  • the BS checks the amount of data to be transmitted by the UE in the uplink based on the BSR and transmits the UL grant to the UE.
  • the UE Upon receiving the UL grant, the UE transmits actual uplink data to the BS through the PUSCH based on the UL grant.
  • the UE receives an RRC message including resource configuration for transmission of UL data from a BS.
  • UL-configured grants there are two types of UL-configured grants: Type 1 and Type 2.
  • an actual UL grant eg, time resource, frequency resource
  • a UL-configured grant is provided by a PDCCH, and is activated or deactivated by the PDCCH.
  • the configured grant type 2 When the configured grant type 2 is configured, at least the following parameters are provided to the UE through RRC signaling from the BS: CS-RNTI for activation, deactivation and retransmission; Set grant type 2 cycle.
  • the actual UL grant of the configured grant type 2 is provided to the UE by DCI in the PDCCH addressed to the CS-RNTI.
  • the specific fields of the DCI in the PDCCH addressed to the CS-RNTI are set to a specific value for scheduling activation, the UE activates the configured grant type 2 associated with the CS-RNTI.
  • the UE may perform uplink transmission through PUSCH based on a grant configured according to type 1 or type 2.
  • Resources for initial transmission by a configured grant may or may not be shared among one or more UEs.
  • FIG. 13 shows an example of a conceptual diagram of uplink physical channel processing.
  • Each of the blocks shown in FIG. 13 may be performed in each module in the physical layer block of the transmission device. More specifically, the uplink signal processing in FIG. 13 may be performed by the UE/BS processor described in this specification. 13, uplink physical channel processing includes scrambling, modulation mapping, layer mapping, transform precoding, precoding, resource element mapping ( resource element mapping) and SC-FDMA signal generation. Each of the above processes may be performed separately or together in each module of the transmission device.
  • the transform precoding is to spread the UL data in a special way to reduce the peak-to-average power ratio (PAPR) of a waveform, and a discrete Fourier transform. DFT).
  • PAPR peak-to-average power ratio
  • DFT discrete Fourier transform
  • DFT-s-OFDM OFDM using CP with transform precoding performing DFT spreading
  • CP-OFDM OFDM using CP without DFT spreading
  • transform precoding may be selectively applied. That is, the NR system supports two options for the UL waveform, one of which is CP-OFDM and the other is DFT-s-OFDM. Whether the UE should use CP-OFDM as the UL transmission waveform or DFT-s-OFDM as the UL transmission waveform is provided from the BS to the UE through RRC parameters.
  • 13 is a conceptual diagram of uplink physical channel processing for DFT-s-OFDM. In the case of CP-OFDM, transform precoding is omitted among the processes of FIG. 13.
  • the transmission device may scramble the coded bits within the codeword by the scrambling module for one codeword and then transmit them through a physical channel.
  • the codeword is obtained by encoding the transport block.
  • the scrambled bits are modulated into complex-valued modulation symbols by the modulation mapping module.
  • the modulation mapping module may modulate the scrambled bits according to a predetermined modulation method and arrange the scrambled bits as a complex value modulation symbol representing a position on a signal constellation.
  • Pi/2-Binary Phase Shift Keying pi/2-BPSK
  • m-PSK m-Phase Shift Keying
  • m-QAM m-Quadrature Amplitude Modulation
  • the complex value modulation symbol may be mapped to one or more transport layers by a layer mapping module.
  • the complex value modulation symbols on each layer may be precoded by the precoding module for transmission on the antenna port.
  • the precoding module may perform precoding after performing transform precoding on complex-valued modulation symbols as shown in FIG. 13.
  • the precoding module may output antenna-specific symbols by processing the complex-valued modulation symbols in a MIMO method according to multiple transmission antennas, and distribute the antenna-specific symbols to a corresponding resource element mapping module.
  • the output z of the precoding module can be obtained by multiplying the output y of the layer mapping module by the precoding matrix W of N ⁇ M.
  • N is the number of antenna ports
  • M is the number of layers.
  • the resource element mapping module maps the demodulation value modulation symbols for each antenna port to an appropriate resource element in a resource block allocated for transmission.
  • the resource element mapping module may map complex value modulation symbols to appropriate subcarriers and multiplex them according to users.
  • the SC-FDMA signal generation module (a CP-OFDM signal generation module when the transform precoding is disabled) modulates the complex-valued modulation symbol by a specific modulation method, e.g., OFDM method, and performs a complex-valued time domain. time domain) OFDM (Orthogonal Frequency Division Multiplexing) symbol signal can be generated.
  • the signal generation module may perform Inverse Fast Fourier Transform (IFFT) on an antenna specific symbol, and a CP may be inserted into a time domain symbol on which IFFT is performed.
  • IFFT Inverse Fast Fourier Transform
  • the OFDM symbol is transmitted to a receiving device through each transmission antenna through digital-to-analog conversion and frequency upconversion.
  • the signal generation module may include an IFFT module, a CP inserter, a digital-to-analog converter (DAC), a frequency uplink converter, and the like.
  • the signal processing process of the receiving device may be configured as the reverse of the signal processing process of the transmitting device. For details, refer to the above and FIG. 13.
  • PUCCH supports a number of formats, and PUCCH formats can be classified according to symbol duration, payload size, and multiplexing. Table 5 below illustrates PUCCH formats.
  • the PUCCH formats of Table 5 can be broadly classified into (1) short PUCCH and (2) long PUCCH.
  • PUCCH formats 0 and 2 may be included in a long PUCCH, and PUCCH formats 1, 3, and 4 may be included in a long PUCCH.
  • FIG. 14 shows an example of an NR slot in which a PUCCH is transmitted.
  • the UE transmits 1 or 2 PUCCHs through a serving cell in different symbols in one slot.
  • the UE transmits two PUCCHs in one slot, at least one of the two PUCCHs has a structure of a short PUCCH.
  • a massive multiple input multiple output (MIMO) environment in which transmission/reception antennas are greatly increased may be considered. That is, as a huge MIMO environment is considered, the number of transmit/receive antennas may increase to tens or hundreds or more.
  • the NR system supports communication in the above 6GHz band, that is, the millimeter frequency band.
  • the millimeter frequency band has a frequency characteristic in which signal attenuation according to distance appears very rapidly due to the use of a frequency band that is too high.
  • an NR system using a band of at least 6 GHz or higher uses a beamforming technique in which energy is collected and transmitted in a specific direction instead of omnidirectional in order to compensate for the rapid propagation attenuation characteristic.
  • a beamforming weight vector/precoding vector is used to reduce the complexity of hardware implementation, increase performance using multiple antennas, flexibility in resource allocation, and ease beam control for each frequency.
  • a hybrid beamforming technique in which an analog beamforming technique and a digital beamforming technique are combined is required.
  • 15 is a diagram showing an example of a block diagram of a transmitting end and a receiving end for hybrid beamforming.
  • a beamforming method in which energy is increased only in a specific direction by transmitting the same signal using a phase difference appropriate to a large number of antennas in a BS or UE is mainly considered.
  • Such beamforming methods include digital beamforming that creates a phase difference in a digital baseband signal, analog beamforming that creates a phase difference using a time delay (i.e., cyclic transition) on a modulated analog signal, and digital beamforming and analog beams. And hybrid beamforming using all of the foaming. Independent beamforming for each frequency resource is possible if an RF unit (or transceiver unit, TXRU) is provided to enable transmission power and phase adjustment for each antenna element.
  • TXRU transceiver unit
  • Hybrid BF is an intermediate form of digital BF and analog BF, and is a method of having B RF units, which is less than Q antenna elements. In the case of the hybrid BF, although there is a difference depending on the connection method of the B RF units and Q antenna elements, the directions of beams that can be transmitted simultaneously are limited to B or less.
  • the BM procedure is a set of BS (or transmission and reception point (TRP)) and/or UE beams that can be used for downlink (DL) and uplink (UL) transmission/reception. ), and may include the following processes and terms.
  • -Beam measurement An operation in which the BS or UE measures the characteristics of the received beamforming signal.
  • Tx beam transmission beam
  • Rx beam reception beam
  • -Beam report an operation in which the UE reports information on a beamformed signal based on beam measurement.
  • the BM process may be divided into (1) a DL BM process using SSB or CSI-RS and (2) a UL BM process using a sounding reference signal (SRS).
  • each BM process may include Tx beam sweeping to determine the Tx beam and Rx beam sweeping to determine the Rx beam.
  • the DL BM process may include (1) transmission of beamformed DL RSs (eg, CSI-RS or SSB) by the BS, and (2) beam reporting by the UE.
  • beamformed DL RSs eg, CSI-RS or SSB
  • the beam report may include preferred DL RS ID(s) and a reference signal received power (RSRP) corresponding thereto.
  • the DL RS ID may be an SSB Resource Indicator (SSBRI) or a CSI-RS Resource Indicator (CRI).
  • 16 shows an example of beamforming using SSB and CSI-RS.
  • an SSB beam and a CSI-RS beam may be used for beam measurement.
  • the measurement metric is RSRP per resource/block.
  • SSB is used for coarse beam measurement, and CSI-RS can be used for fine beam measurement.
  • SSB can be used for both Tx beam sweeping and Rx beam sweeping.
  • Rx beam sweeping using SSB may be performed by attempting to receive the SSB while the UE changes the Rx beam for the same SSBRI across multiple SSB bursts.
  • one SS burst includes one or more SSBs
  • one SS burst set includes one or more SSB bursts.
  • 17 is a flowchart showing an example of a DL BM process using SSB.
  • CSI channel state information
  • the UE receives a CSI-ResourceConfig IE including CSI-SSB-ResourceSetList for SSB resources used for BM from BS (S410).
  • the RRC parameter csi-SSB-ResourceSetList represents a list of SSB resources used for beam management and reporting in one resource set.
  • the SSB resource set may be set to ⁇ SSBx1, SSBx2, SSBx3, SSBx4, ⁇ .
  • the SSB index may be defined from 0 to 63.
  • the UE receives signals on SSB resources from the BS based on the CSI-SSB-ResourceSetList (S420).
  • the UE reports the best SSBRI and corresponding RSRP to the BS (S430). For example, when the reportQuantity of the CSI-RS reportConfig IE is set to'ssb-Index-RSRP', the UE reports the best SSBRI and corresponding RSRP to the BS.
  • the UE When the UE is configured with CSI-RS resources in the same OFDM symbol(s) as the SSB, and'QCL-TypeD' is applicable, the UE is similarly co-located in terms of'QCL-TypeD' where the CSI-RS and SSB are ( quasi co-located, QCL).
  • QCL-TypeD may mean that QCL is performed between antenna ports in terms of a spatial Rx parameter.
  • the UE receives signals from a plurality of DL antenna ports in a QCL-TypeD relationship, the same reception beam may be applied.
  • QCL For details on the QCL, refer to the 4. QCL section below.
  • CSI-RS when a repetition parameter is set for a specific CSI-RS resource set and TRS_info is not set, the CSI-RS is used for beam management. ii) When the repetition parameter is not set and TRS_info is set, the CSI-RS is used for a tracking reference signal (TRS). iii) If the repetition parameter is not set and TRS_info is not set, the CSI-RS is used for CSI acquisition (acquisition).
  • TRS tracking reference signal
  • RRC parameter When repetition is set to'ON', it is related to the Rx beam sweeping process of the UE.
  • repetition when the UE receives the NZP-CSI-RS-ResourceSet, the UE signals signals of at least one CSI-RS resource in the NZP-CSI-RS-ResourceSet to the same downlink spatial domain filter. Can be assumed to be transmitted. That is, at least one CSI-RS resource in the NZP-CSI-RS-ResourceSet is transmitted through the same Tx beam.
  • signals of at least one CSI-RS resource in the NZP-CSI-RS-ResourceSet may be transmitted in different OFDM symbols.
  • repetition when repetition is set to'OFF', it is related to the Tx beam sweeping process of the BS.
  • repetition is set to'OFF', the UE does not assume that signals of at least one CSI-RS resource in the NZP-CSI-RS-ResourceSet are transmitted through the same downlink spatial domain transmission filter. That is, signals of at least one CSI-RS resource in the NZP-CSI-RS-ResourceSet are transmitted through different Tx beams.
  • 18 shows another example of a DL BM process using CSI-RS.
  • FIG. 18(a) shows the Rx beam determination (or refinement) process of the UE
  • FIG. 18(b) shows the Tx beam sweeping process of the BS.
  • Fig. 18(a) shows a case where the repetition parameter is set to'ON'
  • Fig. 18(b) shows a case where the repetition parameter is set to'OFF'.
  • 19 is a flowchart illustrating an example of a reception beam determination process of a UE.
  • the UE receives the NZP CSI-RS resource set IE including the RRC parameter for'repetition' from the BS through RRC signaling (S610).
  • the RRC parameter'repetition' is set to'ON'.
  • the UE repeats signals on the resource(s) in the CSI-RS resource set in which the RRC parameter'repetition' is set to'ON' in different OFDM symbols through the same Tx beam (or DL spatial domain transmission filter) of the BS It receives (S620).
  • the UE determines its own Rx beam (S630).
  • the UE omits CSI reporting (S640). That is, the UE may omit CSI reporting when the shopping price RRC parameter'repetition' is set to'ON'.
  • 20 is a flowchart illustrating an example of a transmission beam determination process of a BS.
  • the UE receives the NZP CSI-RS resource set IE including the RRC parameter for'repetition' from the BS through RRC signaling (S710).
  • the RRC parameter'repetition' is set to'OFF', and is related to the Tx beam sweeping process of the BS.
  • the UE receives signals on resources in the CSI-RS resource set in which the RRC parameter'repetition' is set to'OFF' through different Tx beams (DL spatial domain transmission filters) of the BS (S720).
  • Tx beams DL spatial domain transmission filters
  • the UE selects (or determines) the best beam (S730)
  • the UE reports the ID (eg, CRI) and related quality information (eg, RSRP) for the selected beam to the BS (S740). That is, when the CSI-RS is transmitted for the BM, the UE reports the CRI and the RSRP for it to the BS.
  • ID eg, CRI
  • RSRP related quality information
  • FIG. 21 shows an example of resource allocation in the time and frequency domains related to the operation of FIG. 18.
  • repetition'ON' is set in the CSI-RS resource set
  • a plurality of CSI-RS resources are repeatedly used by applying the same transmission beam
  • repetition'OFF' is set in the CSI-RS resource set
  • different CSI-RSs Resources can be transmitted in different transmission beams.
  • the UE may receive a list of up to M candidate transmission configuration indication (TCI) states for at least QCL (Quasi Co-location) indication through RRC signaling.
  • TCI transmission configuration indication
  • QCL Quadrature Co-location
  • M depends on UE capability, and may be 64.
  • Each TCI state may be set with one reference signal (RS) set.
  • Table 6 shows an example of the TCI-State IE.
  • the TCI-State IE is associated with a quasi co-location (QCL) type corresponding to one or two DL reference signals (RS).
  • QCL quasi co-location
  • 'bwp-Id' indicates the DL BWP where the RS is located
  • 'cell' indicates the carrier where the RS is located
  • 'referencesignal' is a source of a similar co-location for the target antenna port(s) ( source), or a reference signal including the reference antenna port(s).
  • the target antenna port(s) may be CSI-RS, PDCCH DMRS, or PDSCH DMRS.
  • the UE may receive a list containing up to M TCI-state settings in order to decode the PDSCH according to the detected PDCCH with the intended (intended) DCI for the UE and a given given cell.
  • M depends on the UE capability.
  • each TCI-State includes a parameter for setting a QCL relationship between one or two DL RSs and a DM-RS port of a PDSCH.
  • the QCL relationship is established with the RRC parameter qcl-Type1 for the first DL RS and qcl-Type2 (if set) for the second DL RS.
  • the QCL type corresponding to each DL RS is given by the parameter'qcl-Type' in QCL-Info, and can take one of the following values:
  • the corresponding NZP CSI-RS antenna ports are indicated/configured as a specific TRS and a specific SSB and QCL from a QCL-Type A perspective and a QCL-Type D perspective. have.
  • the UE Upon receiving this indication/configuration, the UE receives the corresponding NZP CSI-RS using the Doppler and delay values measured in the QCL-TypeA TRS, and applies the reception beam used for QCL-TypeD SSB reception to the corresponding NZP CSI-RS reception. can do.
  • the UL BM may or may not establish a beam reciprocity (or beam correspondence) between Tx beams and Rx beams according to UE implementation. If the correlation between the Tx beam and the Rx beam is established in both the BS and the UE, a UL beam pair can be matched through a DL beam pair. However, when the correlation between the Tx beam and the Rx beam is not established in either of the BS and the UE, a UL beam pair determination process is required separately from the DL beam pair determination.
  • the BS may use the UL BM procedure for determining the DL Tx beam without requesting the UE to report a preferred beam.
  • the UL BM may be performed through beamformed UL SRS transmission, and whether the UL BM is applied to the SRS resource set is set by the RRC parameter in the (RRC parameter) usage.
  • RRC parameter in the (RRC parameter) usage.
  • BM Beam Management
  • the UE may receive one or more sounding reference signal (SRS) resource sets set by the (RRC parameter) SRS-ResourceSet (through RRC signaling, etc.).
  • SRS sounding reference signal
  • RRC parameter the number of bits in the SRS resource set.
  • K is a natural number, and the maximum value of K is indicated by SRS_capability.
  • the UL BM process can be divided into a Tx beam sweeping of the UE and an Rx beam sweeping of the BS.
  • FIG. 22 shows an example of a UL BM process using SRS.
  • FIG. 22(a) shows a process of determining Rx beamforming of a BS
  • FIG. 22(b) shows a process of sweeping a Tx beam of a UE.
  • FIG. 23 is a flowchart showing an example of a UL BM process using SRS.
  • the UE receives RRC signaling (eg, SRS-Config IE) including a usage parameter set as'beam management' (RRC parameter) from the BS (S1010).
  • SRS-Config IE is used for SRS transmission configuration.
  • SRS-Config IE includes a list of SRS-Resources and a list of SRS-ResourceSets. Each SRS resource set means a set of SRS-resources.
  • the UE determines Tx beamforming for the SRS resource to be transmitted based on the SRS-SpatialRelation Info included in the SRS-Config IE (S1020).
  • SRS-SpatialRelation Info is set for each SRS resource, and indicates whether to apply the same beamforming as the beamforming used in SSB, CSI-RS or SRS for each SRS resource.
  • SRS-SpatialRelationInfo is set in the SRS resource, the same beamforming as that used in SSB, CSI-RS or SRS is applied and transmitted. However, if SRS-SpatialRelationInfo is not set in the SRS resource, the UE randomly determines Tx beamforming and transmits the SRS through the determined Tx beamforming (S1030).
  • the UE applies the same (or generated) spatial domain transmission filter as the spatial domain Rx filter used for reception of the SSB/PBCH to perform the corresponding SRS. send; or
  • the UE transmits the SRS by applying the same spatial domain transmission filter used for transmission of the SRS.
  • the UE may or may not receive the feedback for the SRS from the BS as in the following three cases (S1040).
  • Spatial_Relation_Info When Spatial_Relation_Info is set for all SRS resources in the SRS resource set, the UE transmits the SRS through the beam indicated by the BS. For example, if Spatial_Relation_Info all indicate the same SSB, CRI, or SRI, the UE repeatedly transmits the SRS with the same beam.
  • Spatial_Relation_Info may not be set for all SRS resources in the SRS resource set.
  • the UE can freely transmit while changing SRS beamforming.
  • Spatial_Relation_Info may be set only for some SRS resources in the SRS resource set.
  • the SRS is transmitted through the indicated beam for the configured SRS resource, and for the SRS resource for which Spatial_Relation_Info is not configured, the UE may arbitrarily apply and transmit Tx beamforming.
  • BFR Beam failure recovery
  • Radio Link Failure may frequently occur due to rotation, movement, or beamforming blockage of the UE. Therefore, BFR is supported in NR to prevent frequent RLF from occurring. BFR is similar to the radio link failure recovery process, and may be supported when the UE knows the new candidate beam(s).
  • the BS sets beam failure detection reference signals to the UE, and the UE sets the number of beam failure indications from the physical layer of the UE within a period set by RRC signaling of the BS.
  • a threshold set by RRC signaling is reached (reach)
  • a beam failure is declared.
  • the UE triggers beam failure recovery by initiating a random access process on the PCell; Beam failure recovery is performed by selecting a suitable beam (if the BS has provided dedicated random access resources for certain beams, they are prioritized by the UE). Upon completion of the random access procedure, it is considered that beam failure recovery is complete.
  • URLLC transmission as defined by NR is (1) relatively low traffic size, (2) relatively low arrival rate, (3) extremely low latency requirement (e.g. 0.5, 1ms), (4) It may mean a relatively short transmission duration (eg, 2 OFDM symbols), and (5) transmission of an urgent service/message.
  • transmission for a specific type of traffic e.g., URLLC
  • eMBB previously scheduled transmission
  • information that a specific resource will be preempted is given to the previously scheduled UE, and the URLLC UE uses the corresponding resource for UL transmission.
  • eMBB and URLLC services can be scheduled on non-overlapping time/frequency resources, and URLLC transmission can occur on resources scheduled for ongoing eMBB traffic.
  • the eMBB UE may not be able to know whether the PDSCH transmission of the UE is partially punctured, and the UE may not be able to decode the PDSCH due to corrupted coded bits.
  • the NR provides a preemption indication.
  • the preemption indication may be referred to as an interrupted transmission indication.
  • the UE receives the DownlinkPreemption IE through RRC signaling from the BS.
  • Table 7 shows an example of DownlinkPreemption IE.
  • the UE When the UE is provided with the DownlinkPreemption IE, the UE is configured with the INT-RNTI provided by the parameter int-RNTI in the DownlinkPreemption IE for monitoring of the PDCCH carrying DCI format 2_1.
  • the UE is additionally configured with a set of serving cells by an INT-ConfigurationPerServing Cell including a set of serving cell indexes provided by servingCellID and a corresponding set of positions for fields in DCI format 2_1 by positionInDCI, and dci-PayloadSize It is set with the information payload size for DCI format 2_1 by, and is set with the indication granularity of time-frequency resources by timeFrequencySect.
  • the UE transmits DCI format 2_1 from the BS based on the DownlinkPreemption IE. Receive.
  • the UE When the UE detects the DCI format 2_1 for the serving cell in the set set of serving cells, the UE is the DCI format among the set of PRBs and symbols in the monitoring period last monitoring period to which the DCI format 2_1 belongs. It can be assumed that there is no transmission to the UE in the PRBs and symbols indicated by 2_1. For example, referring to FIG. 9A, the UE determines that the signal in the time-frequency resource indicated by the preemption is not a DL transmission scheduled to it, and decodes data based on the signals received in the remaining resource regions.
  • 24 is a diagram illustrating an example of a method for instructing a preemption.
  • 25 shows an example of a time/frequency set of preemption indication.
  • 14 parts in the time domain correspond to 14 bits of a 14-bit bitmap on a one-to-one basis as shown in FIG. 25(a), and the 14 bits Among them, a part corresponding to the bit set to 1 is a part including preempted resources.
  • the total of 14 time-frequency parts correspond to 14 bits of a 14-bit bitmap on a one-to-one basis, and a part corresponding to a bit set to 1 among the 14 bits is a part including preempted resources. .
  • Massive Machine Type Communication is one of the 5G scenarios to support hyper-connection services that simultaneously communicate with a large number of UEs.
  • the UE communicates intermittently with a very low transmission rate and mobility. Therefore, mMTC aims at how long the UE can be driven at a low cost. In this regard, we will look at MTC and NB-IoT handled in 3GPP.
  • a transmission time interval of a physical channel is a subframe
  • the minimum time interval from the start of transmission of one physical channel eg, MPDCCH, PDSCH, PUCCH, PUSCH
  • Subframes may be replaced with slots, mini-slots, or multiple slots.
  • MTC Machine Type Communication
  • M2M Machine-to-Machine
  • IoT Internet-of-Things
  • 3GPP 3rd Generation Partnership Project
  • the MTC can be implemented to satisfy the criteria of (1) low cost & low complexity, (2) enhanced coverage, and (3) low power consumption.
  • MTC has been applied from release 10 (3GPP standard document version 10.x.x.), and features of MTC added for each release of 3GPP are briefly described.
  • the MTC described in 3GPP Release 10 and Release 11 is related to a load control method.
  • the load control method is to prevent IoT (or M2M) devices from suddenly applying a load to the BS in advance.
  • the BS relates to a method of controlling the load by disconnecting the connection to the connected IoT devices when a load occurs, and in the case of Release 11, the BS transmits the system information of the cell.
  • the present invention relates to a method of blocking access to the UE in advance by notifying the UE of future access to the cell through the cell.
  • Release 12 a feature for low cost MTC was added, and for this, UE category 0 was newly defined.
  • the UE category is an indicator of how much data the UE can process in the communication modem.
  • a UE of UE category 0 is a UE with reduced peak data rate and relaxed radio frequency (RF) requirements, reducing baseband and RF complexity.
  • RF radio frequency
  • eMTC enhanced MTC
  • MTC Mobility Management Entities
  • the MTC to be described later is eMTC (enhanced MTC), LTE-M1/M2, BL (Bandwidth reduced low complexity) / CE (coverage enhanced), non-BL UE (in enhanced coverage), NR MTC, enhanced BL / CE, etc.
  • MTC can be replaced with a term to be defined in the future 3GPP standard.
  • MTC operates only within a specific system bandwidth (or channel bandwidth).
  • the MTC may use 6 resource blocks (RBs) in the system band of the legacy LTE as shown in FIG. 26, or may use a specific number of RBs in the system band of the NR system.
  • the frequency bandwidth in which the MTC operates may be defined in consideration of the frequency range of the NR and subcarrier spacing.
  • NB MTC narrowband
  • the MTC may operate in at least one bandwidth part (BWP) or may operate in a specific band of the BWP.
  • MTC follows narrowband operation to transmit and receive physical channels and signals, and the maximum channel bandwidth that the MTC UE can operate is reduced to 1.08 MHz or 6 (LTE) RBs.
  • the narrowband may be used as a reference unit for resource allocation units of some channels of downlink and uplink, and the physical location of each narrowband in the frequency domain may be defined differently according to the system bandwidth.
  • the bandwidth of 1.08 MHz defined in MTC is defined in order for the MTC UE to follow the same cell search and random access procedures as the legacy UE.
  • MTC can be supported by cells with a much larger bandwidth (eg 10 MHz) than 1.08 MHz, but physical channels and signals transmitted/received by MTC are always limited to 1.08 MHz.
  • the system having the much larger bandwidth may be a legacy LTE, NR system, 5G system, or the like.
  • the narrowband is defined as 6 non-overlapping consecutive physical resource blocks in the frequency domain.
  • Fig. 26(a) is a diagram showing an example of narrow-band operation
  • Fig. 26(b) is a diagram showing an example of repetition with RF retuning.
  • MTC Due to the narrowband RF, single antenna and limited mobility, MTC supports limited frequency, spatial and temporal diversity. To reduce fading and outage, MTC is supported between different narrowbands by RF retuning for frequency hopping.
  • frequency hopping is applied to different uplink and downlink physical channels when repetition is possible. For example, when 32 subframes are used for PDSCH transmission, the first 16 subframes may be transmitted on the first narrowband. At this time, the RF front-end is retuned to another narrowband, and the remaining 16 subframes are transmitted on the second narrowband.
  • the narrow band of MTC may be set to the UE through system information transmitted by the BS or downlink control information (DCI).
  • DCI downlink control information
  • the half-duplex mode refers to that a communication device operates in uplink or uplink only on one frequency at one point in time, and operates in downlink or uplink on another frequency at another point in time. For example, when a communication device operates in a half-duplex mode, communication is performed using an uplink frequency and a downlink frequency, but the communication device cannot use an uplink frequency and a downlink frequency at the same time. During the period, uplink transmission is performed through an uplink frequency, and during another predetermined time, downlink reception is performed by retuning to a downlink frequency.
  • MTC does not use a channel (defined in existing LTE or NR) that should be distributed over the entire system bandwidth of existing LTE or NR.
  • a channel defined in existing LTE or NR
  • the PDCCH of the existing LTE is distributed and transmitted over the entire system bandwidth, so the existing PDCCH is not used.
  • MPDCCH MPDCCH is transmitted/received within a maximum of 6RBs in the frequency domain.
  • MTC uses a newly defined DCI format.
  • DCI formats 6-0A, 6-0B, 6-1A, 6-1B, 6-2, etc. may be used as DCI formats for MTC (see 3GPP TS 36.212).
  • PBCH physical broadcast channel
  • PRACH physical random access channel
  • M-PDCCH MTC physical downlink control channel
  • PDSCH physical downlink shared channel
  • PUCCH physical uplink control channel
  • PUSCH physical uplink shared channel
  • PDSCH scheduling (DCI) and PDSCH transmission according to the PDSCH scheduling occur in different subframes (cross-subframe scheduling).
  • the PDSCH carrying SIB1 is scheduled by the PDCCH, whereas all resource allocation information for SIB1 decoding (e.g., subframe, transport block size (TBS), narrowband index) is determined by the parameters of the MIB. It is determined, and no control channel is used for SIB1 decoding of MTC.
  • SIB1 decoding e.g., subframe, transport block size (TBS), narrowband index
  • All resource allocation information (subframe, TBS, subband index) for SIB2 decoding is determined by several SIB1 parameters, and no control channel for SIB2 decoding of MTC is used.
  • MTC supports extended paging (DRX) cycle.
  • DRX extended paging
  • the paging period refers to whether there is paging from the network to wake up the UE even while in a discontinuous reception (DRX) mode in which the UE does not attempt to receive a downlink signal for power saving. It refers to the cycle you have to wake up for.
  • MTC may use the same primary synchronization signal (PSS) / secondary synchronization signal (SSS) / common reference signal (CRS) used in the existing LTE or NR.
  • PSS/SSS is transmitted in units of SSB
  • TRS tracking RS
  • RS cell-specific RS
  • the MTC is classified into two operation modes (first mode and second mode) and four different levels for coverage enhancement, and may be as shown in Table 8 below.
  • the MTC operation mode is referred to as a Coverage Enhancement (CE) mode.
  • CE Coverage Enhancement
  • the first mode may be referred to as CE Mode A and the second mode may be referred to as CE Mode B.
  • the first mode is defined for small coverage enhancement in which complete mobility and channel state information (CSI) feedback is supported, and thus there is no repetition or a mode with a small number of repetitions.
  • the second mode is defined for UEs with extremely poor coverage conditions supporting CSI feedback and limited mobility, and a large number of repetitive transmissions are defined. The second mode provides up to 15dB of coverage improvement.
  • Each level of MTC is defined differently in the random access process and the paging process.
  • the MTC operation mode is determined by the BS, and each level is determined by the MTC UE.
  • the BS transmits RRC signaling including information on the MTC operation mode to the UE.
  • the RRC signaling may be an RRC connection setup message, an RRC connection reconfiguration message, or an RRC connection establishment message.
  • the MTC UE determines a level within each operation mode and transmits the determined level to the BS.
  • the MTC UE is measured channel quality (e.g., reference signal received power (RSRP), reference signal received quality (RSRQ)) or signal-to-interference and noise ratio (signal to interference plus). noise ratio, SINR)), and transmits a RACH preamble using PRACH resources corresponding to the determined level (e.g., frequency, time, and preamble resources for PRACH) to the BS.
  • RSRP reference signal received power
  • RSRQ reference signal received quality
  • SINR signal-to-interference and noise ratio
  • MTC operates in narrowband.
  • the location of the narrow band used for MTC may be different for each specific time unit (eg, subframe or slot).
  • the MTC UE can tune to a different frequency according to time units.
  • a certain time is required for frequency retuning, and this certain time is defined as the guard period of the MTC. That is, when performing frequency retuning while switching from one time unit to the next, a guard period is required, and transmission and reception do not occur during the guard period.
  • FIG. 27 is a diagram illustrating physical channels that can be used for MTC and a general signal transmission method using them.
  • the MTC UE which is powered on again while the power is turned off, or newly entered the cell, performs an initial cell search operation such as synchronizing with the BS in step S1001.
  • the MTC UE receives a Primary Synchronization Signal (PSS) and a Secondary Synchronization Signal (SSS) from the BS, synchronizes with the BS, and obtains information such as a cell identifier (ID).
  • PSS Primary Synchronization Signal
  • SSS Secondary Synchronization Signal
  • ID cell identifier
  • the PSS / SSS used for the initial cell search operation of the MTC may be a PSS / SSS of the existing LTE, a Resynchronization Signal (RSS), or the like.
  • the MTC UE may obtain intra-cell broadcast information by receiving a physical broadcast channel (PBCH) signal from the BS.
  • PBCH physical broadcast channel
  • the MTC UE may receive a downlink reference signal (DL RS) in the initial cell search step to check the downlink channel state.
  • Broadcast information transmitted through the PBCH is a Master Information Block (MIB), and in LTE, the MIB is repeated every 10 ms.
  • MIB Master Information Block
  • SIB1-BR bandwidth reduced device
  • PDCCH Physical Downlink Control Channel
  • the MTC UE may receive the MPDCCH and the PDSCH according to the MPDCCH information in step S1002 to obtain more detailed system information.
  • the MPDCCH may be transmitted only once or may be transmitted repeatedly.
  • the maximum number of repetitions of the MPDCCH is set to the UE by RRC signaling from the BS.
  • the MTC UE may perform a random access procedure such as steps S1003 to S1006 to complete access to the BS.
  • the basic configuration related to the RACH process of the MTC UE is transmitted by SIB2.
  • SIB2 includes parameters related to paging.
  • a paging opportunity (PO) refers to a time unit in which the UE can attempt to receive paging.
  • the MTC UE attempts to receive an MPDCCH based on a P-RNTI in a time unit corresponding to its PO on a narrow band (PNB) set for paging.
  • PNB narrow band
  • a UE that has successfully decoded the MPDCCH based on the P-RNTI receives the PDSCH scheduled by the MPDCCH and can check a paging message for itself. If there is a paging message for itself, it performs a random access process to access the network.
  • the MTC UE transmits a preamble through a physical random access channel (PRACH) (S1003), and receives a response message (RAR) for the preamble through the MPDCCH and the corresponding PDSCH. Can be (S1004).
  • PRACH physical random access channel
  • RAR response message
  • Can be S1004
  • the MTC UE may perform a contention resolution procedure such as transmission of an additional PRACH signal (S1005) and reception of an MPDCCH signal and a PDSCH signal corresponding thereto (S1006).
  • Signals and/or messages (Msg 1, Msg 2, Msg 3, Msg 4) transmitted in the RACH process in MTC may be repeatedly transmitted, and this repetition pattern is set differently according to the CE level.
  • Msg1 means PRACH preamble
  • Msg2 means RAR (random access response)
  • Msg3 means UL transmission based on the UL grant included in RAR
  • Msg4 means DL transmission of BS for Msg3. I can.
  • PRACH resources for different CE levels are signaled by the BS for random access. This provides the same control of the near-far effect for the PRACH by grouping together UEs experiencing similar path loss. Up to four different PRACH resources may be signaled to the MTC UE.
  • the MTC UE estimates RSRP using downlink RS (e.g., CRS, CSI-RS, TRS, etc.), and based on the measurement result, different PRACH resources for random access, eg, frequency, time, and preamble resources for PRACH ).
  • RAR for PRACH and search spaces for contention resolution messages are also signaled in the BS via system information.
  • the MTC UE receives an MPDCCH signal and/or a PDSCH signal (S1007) and a physical uplink shared channel (PUSCH) signal and/or a physical uplink signal as a general uplink/downlink signal transmission process.
  • a control channel (PUCCH) signal may be transmitted (S1108).
  • the MTC UE may transmit uplink control information (UCI) to the BS through PUCCH or PUSCH.
  • UCI may include HARQ-ACK/NACK, scheduling request (SR), and/or CSI.
  • the MTC UE When the RRC connection to the MTC UE is established, the MTC UE attempts to receive the MDCCH by monitoring the MPDCCH in a search space configured to obtain uplink and downlink data allocation.
  • the MPDCCH and the PDSCH scheduled by the MDCCH are transmitted/received in different subframes.
  • the MPDCCH having the last repetition in subframe #n schedules the PDSCH starting in subframe #n+2.
  • the DCI transmitted by the MPDCCH provides information on how many times the MPDCCH is repeated so that the MTC UE knows when PDSCH transmission starts. For example, if the DCI in the MPDCCH, which has been transmitted from subframe #n, includes information that the MPDCCH is repeated 10 times, the last subframe in which the MPDCCH is transmitted is subframe #n+9, and the transmission of the PDSCH is It can start in subframe #n+11.
  • the PDSCH may be scheduled in the same or different narrowband as the narrowband in which the MPDCCH scheduling the PDSCH is located.
  • the MTC UE needs to retune the frequency to the narrowband with the PDSCH before decoding the PDSCH.
  • scheduling may follow the same timing as legacy LTE.
  • the MPDCCH with the last transmission in subframe #n may schedule PUSCH transmission starting in subframe #n+4.
  • 28 is a diagram showing an example of scheduling for each of MTC and legacy LTE.
  • the PDSCH is scheduled using the PDCCH, which uses the first OFDM symbol(s) in each subframe, and the PDSCH is scheduled in the same subframe as the subframe in which the PDCCH is received.
  • the MTC PDSCH is cross-subframe scheduled, and one subframe between the MPDCCH and the PDSCH is used as a time period for MPDCCH decoding and RF retuning.
  • the MTC control channel and data channels may be repeated through a large number of subframes having a maximum of 256 subframes for the MPDCCH and a maximum of 2048 subframes for the PDSCH so that they can be decoded even under extreme coverage conditions.
  • NB-IoT Nearband-Internet of Things
  • NB-IoT provides low complexity and low power consumption through system bandwidth (system BW) corresponding to one resource block (RB) of a wireless communication system (e.g., LTE system, NR system, etc.). consumption) can mean a system to support.
  • system BW system bandwidth
  • RB resource block
  • NB-IoT may be referred to by other terms such as NB-LTE, NB-IoT enhancement, enhanced NB-IoT, further enhanced NB-IoT, NB-NR, and the like. That is, NB-IoT may be defined or replaced by a term to be defined in the 3GPP standard, and hereinafter, it will be collectively expressed as'NB-IoT' for convenience of description.
  • NB-IoT is a communication method for implementing IoT (i.e., Internet of Things) by supporting devices (or UEs) such as machine-type communication (MTC) in a cellular system. It can also be used.
  • IoT i.e., Internet of Things
  • MTC machine-type communication
  • the frame structure, physical channel, multi-carrier operation, operation mode, general signal transmission/reception, etc. related to NB-IoT in this specification will be described in consideration of the case of the existing LTE system.
  • the next generation system eg, NR system, etc.
  • the content related to NB-IoT in the present specification may be extended and applied to Machine Type Communication (MTC) aiming for similar technical purposes (eg, low-power, low-cost, coverage enhancement, etc.).
  • MTC Machine Type Communication
  • a transmission time interval of a physical channel is a subframe
  • the minimum time interval from the start of transmission of one physical channel eg, NPDCCH, NPDSCH, NPUCCH, NPUSCH
  • Subframes may be replaced with slots, mini-slots, or multiple slots.
  • the NB-IoT frame structure may be set differently according to subcarrier spacing. Specifically, FIG. 29 shows an example of a frame structure when the subcarrier spacing is 15 kHz, and FIG. 30 shows an example of a frame structure when the subcarrier spacing is 3.75 kHz.
  • the NB-IoT frame structure is not limited thereto, and of course, NB-IoT for other subcarrier intervals (eg, 30 kHz, etc.) may be considered in different time/frequency units.
  • the NB-IoT frame structure based on the LTE system frame structure has been described as an example, but this is for convenience of description and is not limited thereto, and the method described in this specification is a next-generation system (e.g., NR system ) Can be extended and applied to NB-IoT based on the frame structure.
  • a next-generation system e.g., NR system
  • the NB-IoT frame structure for a 15 kHz subcarrier spacing may be set the same as the frame structure of the legacy system (eg, LTE system) described above.
  • a 10ms NB-IoT frame may include 10 1ms NB-IoT subframes, and a 1ms NB-IoT subframe may include 2 0.5ms NB-IoT slots.
  • each 0.5ms NB-IoT may include 7 OFDM symbols.
  • a 10ms NB-IoT frame includes 5 2ms NB-IoT subframes, and a 2ms NB-IoT subframe includes 7 OFDM symbols and one guard period (GP). It may include.
  • the 2ms NB-IoT subframe may be expressed as an NB-IoT slot or an NB-IoT resource unit (RU).
  • the physical resources of the NB-IoT downlink are other wireless communication systems (e.g., LTE system, NR system, etc.), except that the system bandwidth is limited to a specific number of RBs (e.g., one RB, that is, 180 kHz). It can be set by referring to the physical resource of. For example, as described above, when the NB-IoT downlink supports only a 15 kHz subcarrier spacing, the physical resources of the NB-IoT downlink limit the resource grid of the LTE system shown in FIG. 31 to one RB in the frequency domain. It can be set to one resource area.
  • the system bandwidth may be limited to one RB.
  • the resource grid for the NB-IoT uplink may be expressed as shown in FIG. 31.
  • the number of subcarriers NULsc of the uplink band and the slot period Tslot may be given as shown in Table 9 below.
  • resource units are used to map the PUSCH for NB-IoT (hereinafter, referred to as NPUSCH) to resource elements.
  • the RU may be composed of NULsymb*NULslot SC-FDMA symbols in the time domain, and may be composed of NRUsc consecutive subcarriers in the frequency domain.
  • NRUsc and NULsymb may be given by Table 10 below in the case of frame structure type 1, which is an FDD frame structure, and by Table 11, in the case of frame structure type 2, which is a frame structure for TDD.
  • NPUSCH format ⁇ f NRUsc NULslots NULsymb One 3.75 kHz One 16 7 15 kHz One 16 3 8 6 4 12 2 2 3.75 kHz One 4 15 kHz One 4
  • NPUSCH format ⁇ f Supported uplink-downlink configurations
  • NRUsc NULslots
  • NULsymb One 3.75 kHz 1, 4
  • One 16 3 8 6 4 12 2 2 3.75 kHz 1, 4
  • the BS and/or UE supporting NB-IoT may be configured to transmit/receive a physical channel and/or a physical signal set separately from the existing system.
  • a physical channel and/or a physical signal supported by NB-IoT will be described.
  • An Orthogonal Frequency Division Multiple Access (OFDMA) scheme may be applied to the NB-IoT downlink based on a subcarrier spacing of 15 kHz. Through this, orthogonality between subcarriers can be provided so that co-existence with other systems (eg, LTE system, NR system) can be efficiently supported.
  • the downlink physical channel/signal of the NB-IoT system may be expressed in a form in which'N (Narrowband)' is added to distinguish it from the existing system.
  • the downlink physical channel is referred to as Narrowband Physical Broadcast Channel (NPBCH), Narrowband Physical Downlink Control Channel (NPDCCH), Narrowband Physical Downlink Shared Channel (NPDSCH), and the like
  • the downlink physical signal is a Narrowband Primary Synchronization Signal (NPSS). ), Narrowband Secondary Synchronization Signal (NSSS), Narrowband Reference Signal (NRS), Narrowband Positioning Reference Signal (NPRS), Narrowband Wake Up Signal (NWUS), and the like.
  • the downlink physical channel and physical signal of the NB-IoT may be set to be transmitted based on a time domain multiplexing scheme and/or a frequency domain multiplexing scheme.
  • the NB-IoT uses a newly defined DCI format.
  • the DCI format for NB-IoT may be defined as DCI format N0, DCI format N1, DCI format N2, or the like.
  • a single carrier frequency division multiple access (SC-FDMA) scheme may be applied to the NB-IoT uplink based on a subcarrier spacing of 15 kHz or 3.75 kHz.
  • the physical channel of the NB-IoT system may be expressed in a form in which'N (Narrowband)' is added to distinguish it from the existing system.
  • the uplink physical channel may be expressed as a narrowband physical random access channel (NPRACH) and a narrowband physical uplink shared channel (NPUSCH), and the uplink physical signal may be expressed as a narrowband demodulation reference signal (NDMRS).
  • NPRACH narrowband physical random access channel
  • NPUSCH narrowband physical uplink shared channel
  • NMRS narrowband demodulation reference signal
  • the NPUSCH may be classified into an NPUSCH format 1 and an NPUSCH format 2, and the like.
  • NPUSCH format 1 is used for uplink shared channel (UL-SCH) transmission (or transport), and NPUSCH format 2 may be used for uplink control information transmission such as HARQ ACK signaling.
  • UL-SCH uplink shared channel
  • NPUSCH format 2 may be used for uplink control information transmission such as HARQ ACK signaling.
  • HARQ ACK uplink control information transmission
  • NPRACH which is an uplink channel of the NB-IoT system
  • repetition transmission may be performed for coverage enhancement. In this case, repetitive transmission may be performed by applying frequency hopping.
  • the multi-carrier operation may mean that a plurality of carriers having different uses (ie, different types) are used when the BS and/or the UE transmits/receives a channel and/or signal with each other in NB-IoT. .
  • NB-IoT can operate in a multi-carrier mode.
  • the carrier is an anchor type carrier (i.e., anchor carrier, anchor PRB) and a non-anchor type carrier (i.e., non- It can be classified into an anchor carrier (non-anchor carrier) and a non-anchor PRB.
  • An anchor carrier may mean a carrier that transmits NPSS, NSSS, NPBCH, and NPDSCH for system information block (N-SIB) for initial access from the BS point of view. That is, in NB-IoT, a carrier for initial access may be referred to as an anchor carrier, and other(s) may be referred to as a non-anchor carrier. In this case, only one anchor carrier may exist in the system, or a plurality of anchor carriers may exist.
  • NB-IoT In the NB-IoT system, three operation modes can be supported. 32 shows an example of operation modes supported in the NB-IoT system. In this specification, the operation mode of the NB-IoT is described based on the LTE band, but this is only for convenience of description, and may be extended and applied to a band of another system (eg, an NR system band).
  • a band of another system eg, an NR system band
  • FIG. 32(a) shows an example of an in-band system
  • FIG. 32(b) shows an example of a guard-band system
  • FIG. 32(c) shows an example of a standalone system. Shows an example of a (stand-alone) system.
  • the in-band system is expressed in in-band mode
  • the guard-band system is expressed in guard-band mode
  • the stand-alone system is expressed in stand-alone mode. Can be.
  • the in-band system may refer to a system or mode in which one specific RB in the LTE band is used for NB-IoT.
  • the in-band system can be operated by allocating some resource blocks of the LTE system carrier.
  • the guard-band system may refer to a system or mode that uses NB-IoT in a space reserved for the guard-band of the (legacy) LTE band.
  • the guard-band system can be operated by allocating a guard-band of an LTE carrier that is not used as a resource block in the LTE system.
  • the (legacy) LTE band may be set to have a guard-band of at least 100 kHz at the end of each LTE band, and two non-contiguous guards for 200 kHz for NB-IoT- Bands can be used.
  • the in-band system and the guard-band system can be operated in a structure in which NB-IoT coexists in the (legacy) LTE band.
  • the standalone system may mean a system or mode independently configured from the (legacy) LTE band.
  • the standalone system can be operated by separately allocating a frequency band (eg, a GSM carrier reassigned in the future) used in the GERAN (GSM EDGE Radio Access Network).
  • a frequency band eg, a GSM carrier reassigned in the future
  • GERAN GSM EDGE Radio Access Network
  • the three operation modes described above may be operated independently, or two or more operation modes may be combined and operated.
  • the NB-IoT UE may receive information from the BS through downlink (DL), and the NB-IoT UE may transmit information to the BS through uplink (UL).
  • the BS may transmit information to the NB-IoT UE through downlink, and the BS may receive information from the NB-IoT UE through uplink.
  • the information transmitted/received by the BS and the NB-IoT UE includes data and various control information, and various physical channels may exist according to the type/use of information they transmit/receive.
  • the signal transmission/reception method of NB-IoT may be performed by the above-described wireless communication devices (eg, BS and UE).
  • the NB-IoT UE which is powered on again while the power is turned off, or newly entered a cell, may perform an initial cell search operation such as synchronizing with the BS (S11). To this end, the NB-IoT UE may receive NPSS and NSSS from the BS, perform synchronization with the BS, and obtain information such as cell identity (cell identity). In addition, the NB-IoT UE may obtain intra-cell broadcast information by receiving the NPBCH from the BS. In addition, the NB-IoT UE may check a downlink channel state by receiving a DL RS (Downlink Reference Signal) in the initial cell search step.
  • DL RS Downlink Reference Signal
  • the NB-IoT UE having finished initial cell search may receive the NPDCCH and the corresponding NPDSCH to obtain more detailed system information (S12).
  • the BS may transmit the NPDCCH and the corresponding NPDSCH to the NB-IoT UE that has completed initial cell search to deliver more detailed system information.
  • the NB-IoT UE may perform a random access procedure to complete access to the BS (S13 to S16).
  • the NB-IoT UE may transmit a preamble to the BS through the NPRACH (S13), and as described above, the NPRACH may be configured to be repeatedly transmitted based on frequency hopping or the like for coverage enhancement.
  • the BS may (repeatedly) receive the preamble from the NB-IoT UE through the NPRACH.
  • the NB-IoT UE may receive a random access response (RAR) for the preamble from the BS through the NPDCCH and the corresponding NPDSCH (S14).
  • the BS may transmit a random access response (RAR) for the preamble to the NB-IoT UE through the NPDCCH and the corresponding NPDSCH.
  • the NB-IoT UE may transmit the NPUSCH to the BS using the scheduling information in the RAR (S15), and perform a contention resolution procedure such as NPDCCH and corresponding NPDSCH (S16).
  • the BS may receive the NPUSCH from the UE by using the scheduling information in the NB-IoT RAR and perform the collision resolution process.
  • the NB-IoT UE performing the above-described process may then perform NPDCCH/NPDSCH reception (S17) and NPUSCH transmission (S18) as a general uplink/downlink signal transmission process.
  • the BS may perform NPDCCH/NPDSCH transmission and NPUSCH reception as a general signal transmission/reception process to the NB-IoT UE.
  • NPBCH, NPDCCH, NPDSCH, etc. may be repeatedly transmitted for coverage enhancement.
  • UL-SCH ie, general uplink data
  • uplink control information may be transmitted through the NPUSCH.
  • UL-SCH and uplink control information may be configured to be transmitted through different NPUSCH formats (eg, NPUSCH format 1, NPUSCH format 2, etc.).
  • UCI may include HARQ ACK/NACK (Hybrid Automatic Repeat and ReQuest Acknowledgement/Negative-ACK), SR (Scheduling Request), CSI (Channel State Information), and the like.
  • HARQ ACK/NACK Hybrid Automatic Repeat and ReQuest Acknowledgement/Negative-ACK
  • SR Switchuling Request
  • CSI Channel State Information
  • UCI may be generally transmitted through NPUSCH.
  • the UE may transmit UCI through the NPUSCH in a perdiodic, aperdiodic, or semi-persistent manner.
  • a wireless communication system includes a first communication device 910 and/or a second communication device 920.
  • 'A and/or B' may be interpreted as having the same meaning as'including at least one of A or B'.
  • the first communication device may represent the BS and the second communication device may represent the UE (or the first communication device may represent the UE and the second communication device may represent the BS).
  • the first communication device and the second communication device include a processor (processor, 911,921), memory (memory, 914,924), one or more Tx/Rx radio frequency modules (915,925), Tx processors (912,922), and Rx processors (913,923). , Antennas 916 and 926.
  • the Tx/Rx module is also called a transceiver.
  • the processor implements the previously salpin functions, processes and/or methods. More specifically, in the DL (communication from the first communication device to the second communication device), higher layer packets from the core network are provided to the processor 911.
  • the processor implements the functionality of the Layer 2 (ie, L2) layer.
  • the processor provides multiplexing between logical channels and transport channels and radio resource allocation to the second communication device 920, and is responsible for signaling to the second communication device.
  • the transmit (TX) processor 912 implements various signal processing functions for the L1 layer (ie, the physical layer).
  • the signal processing function facilitates forward error correction (FEC) in the second communication device, and includes coding and interleaving.
  • FEC forward error correction
  • a signal that has been encoded and interleaved is modulated into complex valued modulation symbols through scrambling and modulation.
  • For modulation binary phase shift keying (BPSK), quadrature phase shift keying (QPSK), quadrature amplitude modulation (16QAM), 64QAM, 246QAM, and the like may be used depending on the channel.
  • modulation symbols are divided into parallel streams, each stream is mapped to an OFDM subcarrier, and multiplexed with a reference signal (RS) in the time and/or frequency domain. , Combined together using IFFT (Inverse Fast Fourier Transform) to create a physical channel carrying a time domain OFDM symbol stream.
  • IFFT Inverse Fast Fourier Transform
  • the OFDM symbol stream is spatially precoded to produce multiple spatial streams.
  • Each spatial stream may be provided to a different antenna 916 via a separate Tx/Rx module (or transceiver 915).
  • Each Tx/Rx module can frequency upconvert each spatial stream to an RF carrier for transmission.
  • each Tx/Rx module receives a signal of an RF carrier through each antenna 926 of each Tx/Rx module.
  • Each of the Tx/Rx modules restores the RF carrier signal to a baseband signal and provides it to the reception (RX) processor 923.
  • the RX processor implements various signal processing functions of L1 (ie, the physical layer).
  • the RX processor may perform spatial processing on the information to recover any spatial stream destined for the second communication device. If multiple spatial streams are directed to the second communication device, they can be combined into a single OFDMA symbol stream by multiple RX processors.
  • the RX processor converts the OFDM symbol stream, which is a time domain signal, into a frequency domain signal using Fast Fourier Transform (FFT).
  • the frequency domain signal includes a separate OFDM symbol stream for each subcarrier of the OFDM signal.
  • the modulation symbols and reference signal on each subcarrier are reconstructed and demodulated by determining the most probable signal constellation points transmitted by the first communication device. These soft decisions can be based on channel estimate values.
  • the soft decisions are decoded and deinterleaved to recover the data and control signal originally transmitted by the first communication device on the physical channel. Corresponding data and control signals are provided to the processor 921.
  • the UL (communication from the second communication device to the first communication device) is handled in the first communication device 910 in a manner similar to that described with respect to the receiver function in the second communication device 920.
  • Each Tx/Rx module 925 receives a signal through a respective antenna 926.
  • Each Tx/Rx module provides an RF carrier and information to the RX processor 923.
  • the processor 921 may be associated with a memory 924 that stores program code and data.
  • the memory may be referred to as a computer-readable medium.
  • Hi LG when the user 1 utters an activation word (“Hi LG”), a plurality of IoT devices 2A, 2B, 2C are converted into an activation word (“Hi LG”).
  • Hi LG can be received through a communication unit (not shown) included in each IoT device.
  • the smart TV 2A, the air purifier 2B, and the smart refrigerator 2C may be located at different distances from the user 1, respectively.
  • Smart TV (2A), air purifier (2B), and smart refrigerator (2C) are a plurality of types of distances capable of indicating the distance between the user from each device for starting words received from the user (1), respectively. Can generate information.
  • the smart TV 2A, the air cleaner 2B, and the smart refrigerator 2C can each recognize a starting word from the user 1 in the form of a voice signal, and obtain distance information by analyzing the voice signal.
  • distance information generated by each IoT device may be transmitted to the response device determining device 3.
  • the smart TV 2A, the air cleaner 2B, and the smart refrigerator 2C each recognize a starting word from the user 1 in the form of a voice signal, and the voice signal is an external response device determining device ( Example: It transmits to the server 3), and the apparatus for determining a response device may obtain distance information by analyzing the transmitted voice signal.
  • the server 3 may determine a response device based on at least one of a different first selection probability and a second selection probability for each IoT device based on distance information having different values received from each IoT device.
  • 35 is a block diagram illustrating a detailed configuration of the IoT device of FIG. 34.
  • the IoT device 2 includes a wireless communication unit 21, an input unit 22, a memory 23, a power supply unit 24, and an output unit 26. And a processor 25 that controls the wireless communication unit 21, the input unit 22, the memory 23, the power supply unit 24, and the output unit 26.
  • the wireless communication unit 21 may transmit the voice signal received by the input unit to the processor 25. In addition, the wireless communication unit 21 may receive a notification that the response device has been determined or a notification that the response device is not determined from an external response device determining device.
  • the wireless communication unit 21 includes one or more modules that enable wireless communication between the IoT device 2 and a wireless communication system, between the IoT device 2 and other IoT devices, or between the IoT device 2 and an external server. can do.
  • the wireless communication unit 21 may include one or more modules that connect the IoT device 2 to one or more networks.
  • the wireless communication unit 21 may include a mobile communication unit 211 and a short range communication unit 212 capable of transmitting and receiving data with an external IoT device or other external device (eg, an external server or cloud).
  • an external IoT device or other external device eg, an external server or cloud.
  • the mobile communication unit 211 includes technical standards or communication methods for mobile communication (eg, Global System for Mobile communication (GSM)), Code Division Multi Access (CDMA), Code Division Multi Access 2000 (CDMA2000), and EV-DO. (Enhanced Voice-Data Optimized or Enhanced Voice-Data Only), WCDMA (Wideband CDMA), HSDPA (High Speed Downlink Packet Access), HSUPA (High Speed Uplink Packet Access), LTE (Long Term Evolution), LTE-A (Long Term Evolution-Advanced), etc.), transmits and receives radio signals with at least one of a base station, an external terminal, and a server.
  • the wireless signal may include a voice call signal, a video call signal, or various types of data according to transmission/reception of text/multimedia messages.
  • the short range communication unit 212 is for short range communication, and includes BluetoothTM, Radio Frequency Identification (RFID), Infrared Data Association (IrDA), Ultra Wideband (UWB), ZigBee, and NFC. Near Field Communication), Wi-Fi (Wireless-Fidelity), Wi-Fi Direct, and Wireless Universal Serial Bus (USB) technologies may be used to support short-range communication.
  • the short-range communication unit 212 may be configured between the IoT device 2 and a wireless communication system, between the IoT device 2 and other IoT devices, or between the IoT device 2 and other IoT devices through wireless area networks. It can support wireless communication between networks in which devices are located.
  • the local area wireless communication networks may be wireless personal area networks (Wireless Personal Area Networks).
  • the input unit 22 may include an interface for inputting audio information (or signal), data, or information input from a user.
  • the input unit 22 may include a microphone 221 for recognizing an external starting word.
  • the microphone 221 processes an external sound signal into electrical voice data.
  • the processed voice data can be used in various ways according to a function (or an application program being executed) being executed by the IoT device 2.
  • the microphone 221 may be implemented with various noise removal algorithms for removing noise generated in the process of receiving an external sound signal.
  • the memory 23 stores data supporting various functions of the IoT device 2.
  • the memory 170 may store a plurality of application programs (application programs or applications) driven by the IoT device 2, data for operation of the IoT device 2, and instructions. At least some of these application programs may be downloaded from an external server through wireless communication. In addition, at least some of these application programs may exist on the IoT device 2 from the time of shipment for basic functions (eg, data reception and transmission functions) of the IoT device 2. Meanwhile, the application program may be stored in the memory 23, installed on the IoT device 2, and driven by the processor 25 to perform an operation (or function) of the IoT device 2.
  • the power supply unit 24 receives external power and internal power under the control of the processor 25 to supply power to each of the components included in the IoT device 2.
  • the power supply unit 24 includes a battery, and the battery may be a built-in battery or a replaceable battery.
  • the output unit 26 may include an audio output unit 261 that outputs an audio signal based on the control of the processor 25.
  • the output unit 26 may include an alarm unit 262 that outputs a tactile signal based on the control of the processor 25.
  • the processor 25 may analyze, for example, a voice signal recognizing the transmitted starting word.
  • the processor 25 may analyze the voice signal to generate a plurality of different types of distance information including characteristics regarding the distance from the location where the starting word was uttered (the user's location) to the IoT device 2.
  • the processor 25 transmits a voice signal recognizing the starting word to the response device determining device 3 so that the response device determining device 3 can analyze the voice signal and generate a plurality of distance information. I can.
  • the processor 25 may include a voice processing interface for performing analysis on the voice signal as described above.
  • FIG. 36 illustrates an example in which the voice is received in the IoT device 2, but the process of synthesizing the voice by processing the input voice, that is, the overall operation of voice processing is performed in the cloud environment 26.
  • FIG. 37 shows an example of on-device processing in the IoT device 12 in which the overall operation of voice processing for synthesizing voice by processing the input voice described above is performed in the IoT device 12.
  • the IoT device environments 2 and 12 may be referred to as IoT devices, and the cloud environments 26 and 126 may be referred to as servers.
  • FIG. 36 is a block diagram illustrating an example of a detailed configuration of the processor of FIG. 35.
  • the sequence of processing speech events is by collecting speech signals (Signal acquisition and playback), Speech Pre Processing, Voice Activation, Speech Recognition, Natural Language Processing, and The distance information is extracted and finally the IoT device transmits the distance information to the response device determining device.
  • the IoT device 2 may include an input module.
  • the input module may receive a user input from a user.
  • the input module may receive a user input from a connected external device (eg, a keyboard or a headset).
  • the input module may include a touch screen.
  • the input module may include a hardware key located in the user terminal.
  • the input module may be the input unit 22 of FIG. 35.
  • the input module may include at least one microphone capable of receiving a user's speech as a voice signal.
  • the input module may include a speech input system, and may receive a user's speech as a voice signal through the speech input system.
  • the at least one microphone may determine a digital input signal for a user's speech by generating an input signal for audio input.
  • a plurality of microphones may be implemented as an array.
  • the array can be arranged in a geometric pattern, for example a linear geometric shape, a circular geometric shape or any other configuration. For example, for a given point, an array of four sensors may be arranged in a circular pattern divided by 90 degrees to receive sound from four directions.
  • the microphone may include spatially different arrays of sensors within the data communication, which may include a networked array of sensors.
  • the microphone may include omnidirectional, directional, for example, a shotgun microphone.
  • the IoT device 2 may include a pre-processing module 251 capable of pre-processing a user input (voice signal) received through the input module (eg, a microphone).
  • a pre-processing module 251 capable of pre-processing a user input (voice signal) received through the input module (eg, a microphone).
  • the pre-processing module 251 includes an adaptive echo canceller (AEC) function to remove an echo included in a user voice signal input through the microphone.
  • the preprocessing module 251 includes a noise suppression (NS) function to remove background noise included in a user input.
  • the preprocessing module 251 includes an end-point detect (EPD) function, so that an end point of the user's voice can be detected to find a part where the user's voice is present.
  • the pre-processing module 251 includes an automatic gain control (AGC) function, so that the volume of the user input can be adjusted to be suitable for recognizing and processing the user input.
  • AEC adaptive echo canceller
  • the IoT device 2 may include a voice activation module 252.
  • the voice recognition activation module 252 may recognize a wake up command for recognizing a user's call.
  • the voice recognition activation module 252 may detect a predetermined keyword (ex, Hi LG) from a user input that has undergone a pre-processing process.
  • the voice recognition activation module 252 may exist in a standby state to perform an always-on keyword detection function.
  • the IoT device 2 may include a distance feature extractor 253 for extracting distance information from the audio signal by analyzing an audio signal obtained by preprocessing a starting word spoken by a user, but must be It is not necessary to be limited thereto, and a response device determining device other than the IoT device 2 may directly extract distance information from the audio signal.
  • the IoT device 2 may transmit a user's voice input to a cloud server.
  • Automatic speech recognition (ASR) and natural language understanding (NLU) operations which are key components for processing user speech, are traditionally executed in the cloud due to computing, storage, and power constraints.
  • the cloud may include a cloud device 26 that processes user input transmitted from a client.
  • the cloud device 26 may exist in the form of a server.
  • the cloud device 26 includes an Auto Speech Recognition (ASR) module 261, an Artificial Intelligent Agent 262, a Natural Language Understanding (NLU) module 263, and a text-to-speech ( A Text-to-Speech, TTS) module 264 and a service manager 265 may be included.
  • ASR Auto Speech Recognition
  • NLU Natural Language Understanding
  • TTS text-to-speech
  • the ASR module 261 may convert a user voice input received from the IoT device 2 into text data.
  • the ASR module 261 includes a front-end speech pre-processor.
  • the front-end speech preprocessor extracts representative features from speech input. For example, the front-end speech preprocessor performs a Fourier transform on the speech input to extract spectral features that characterize the speech input as a sequence of representative multidimensional vectors.
  • the ASR module 261 may include one or more speech recognition models (eg, acoustic models and/or language models), and may implement one or more speech recognition engines. Examples of speech recognition models include hidden Markov models, Gaussian-Mixture Models, Deep Neural Network Models, n-gram language models, and other statistical models. Examples of speech recognition engines include dynamic time distortion based engines and weighted finite state transformer (WFST) based engines.
  • WFST weighted finite state transformer
  • One or more speech recognition models and one or more speech recognition engines may be used for intermediate recognition results (e.g., phonemes, phoneme strings, and sub-words), and ultimately text recognition results (e.g., words, word strings, or tokens). Sequence) can be used to process the extracted representative features of the front-end speech preprocessor.
  • intermediate recognition results e.g., phonemes, phoneme strings, and sub-words
  • text recognition results e.g., words, word strings, or tokens.
  • Sequence can be used to process the extracted representative features of the front-end speech preprocessor.
  • the ASR module 261 When the ASR module 261 generates a recognition result comprising a text string (e.g., words, or a sequence of words, or a sequence of tokens), the recognition result is sent to the natural language processing module 12532 for intention inference. Delivered.
  • the ASR module 12530 generates multiple candidate textual representations of speech input. Each candidate textual representation is a sequence of words or tokens corresponding to a speech input.
  • the NLU module 263 may determine user intention by performing a grammatical analysis or a semantic analysis.
  • the grammatical analysis can divide grammatical units (eg, words, phrases, morphemes, etc.) and determine which grammatical elements the divided units have.
  • the semantic analysis may be performed using semantic matching, rule matching, formula matching, and the like. Accordingly, the NUL module 263 may obtain a domain, an intent, or a parameter necessary for expressing the intention in which the user input is.
  • the NLU module 263 may determine the user's intention and parameters by using a mapping rule divided into a domain, an intention, and a parameter necessary to determine the intention.
  • a mapping rule divided into a domain, an intention, and a parameter necessary to determine the intention.
  • one domain e.g., an alarm
  • can contain multiple intents e.g., set an alarm, clear an alarm
  • one intent can contain multiple parameters (e.g., time, repetition). Frequency, alarm sound, etc.).
  • the plurality of rules may include, for example, one or more essential element parameters.
  • the matching rule may be stored in a natural language understanding database.
  • the NLU module 263 grasps the meaning of the word extracted from the user input by using linguistic features (eg, grammatical elements) such as morphemes and phrases, and matches the meaning of the identified word to the domain and intention. To determine the user's intention. For example, the NLU module 263 may determine the user intention by calculating how many words extracted from the user input are included in each domain and intention. According to an embodiment, the NLU module 263 may determine a parameter of a user input using a word that is a basis for grasping the intention. According to an embodiment, the NLU module 263 may determine the user's intention by using a natural language recognition database in which linguistic features for identifying the intention of the user input are stored.
  • linguistic features eg, grammatical elements
  • morphemes and phrases e.g., morphemes and phrases
  • the NLU module 263 may determine a user's intention using a personal language model (PLM).
  • PLM personal language model
  • the NLU module 263 may determine a user's intention using personalized information (eg, contact list, music list, schedule information, social network information, etc.).
  • personalized information eg, contact list, music list, schedule information, social network information, etc.
  • the personalized language model may be stored, for example, in a natural language recognition database.
  • the ASR module 261 may recognize a user's voice by referring to the personalized language model stored in the natural language recognition database.
  • the NLU module 263 may further include a natural language generation module (not shown).
  • the natural language generation module may change designated information into a text format.
  • the information changed in the text form may be in the form of natural language speech.
  • the designated information may include, for example, information for an additional input, information for guiding completion of an operation corresponding to a user input, information for guiding an additional input by a user, and the like.
  • the information changed in the text form may be transmitted to an IoT device and displayed on a display, or may be transmitted to a TTS module and changed into an audio form.
  • the speech synthesis module may change information in text form into information in speech form.
  • the TTS module 264 may receive textual information from the natural language generating module of the NLU module 263, convert the textual information into voice information, and transmit the text to the IoT device 2.
  • the IoT device 2 may output the voice information through a speaker.
  • the speech synthesis module 264 synthesizes the speech output based on the provided text.
  • the result generated by the speech recognition module (ASR) 261 is in the form of a text string.
  • the speech synthesis module 264 converts the text string into audible speech output.
  • the speech synthesis module 264 uses any suitable speech synthesis technique to generate speech output from the text, which is concatenative synthesis, unit selection synthesis, diphone synthesis, domain- Specific synthesis, formant synthesis, articulatory synthesis, hidden Markov model (HMM) based synthesis, and sinewave synthesis, including, but not limited to.
  • the speech synthesis module 264 is configured to synthesize individual words based on a phonetic string corresponding to the words. For example, a phoneme string is associated with a word in the generated text string. Phoneme strings are stored in metadata associated with words. The speech synthesis module 264 is configured to directly process phoneme strings in the metadata to synthesize speech-type words.
  • the cloud environment may further include an intelligent agent (AI agent) 262.
  • the intelligent agent 262 may be designed to perform at least some of the functions performed by the ASR module 261, the NLU module 262 and/or the TTS module 264 described above.
  • the intelligent agent module 262 may contribute to performing independent functions of the ASR module 261, the NLU module 262, and/or the TTS module 264, respectively.
  • the intelligent agent module 262 may perform the above-described functions through deep learning (deep learning).
  • deep learning when there is any data, it is represented in a form that can be understood by a computer (for example, in the case of images, pixel information is expressed as a column vector), and many studies ( How to make a better representation technique and how to make a model to learn them), and as a result of these efforts, deep neural networks (DNN) and convolutional deep neural networks (CNN) ), Recurrent Boltzmann Machine (RNN), Restricted Boltzmann Machine (RBM), deep belief networks (DBN), and various deep learning techniques such as Deep Q-Network They can be applied to fields such as computer vision, speech recognition, natural language processing, and speech/signal processing.
  • DNN deep neural networks
  • CNN convolutional deep neural networks
  • RNN Recurrent Boltzmann Machine
  • RBM Restricted Boltzmann Machine
  • DBN deep belief networks
  • Deep Q-Network various deep learning techniques
  • the intelligent agent module 262 performs various natural language processing processes, including machine translation, emotion analysis, and information retrieval, using a deep artificial neural network structure in the field of natural language processing. I can.
  • the cloud environment may include a service manager 265 capable of collecting various personalized information and supporting functions of the intelligent agent 262.
  • the personalized information acquired through the service manager includes at least one data (calendar application, messaging service, music application use, etc.) used by the IoT device 2 through a cloud environment, the IoT device 2 and/or the cloud.
  • At least one sensing data collected by 26 (camera, microphone, temperature, humidity, gyro sensor, C-V2X, pulse, ambient light, iris scan, etc.), the IoT Off-device data that is not directly related to the device 2 may be included.
  • the personalized information may include maps, SMS, News, Music, Stock, Weather, and wikipedia information.
  • the intelligent agent 262 is expressed as a separate block to be distinguished from the ASR module 261, the NLU module 263, and the TTS module 264 for convenience of description. However, the intelligent agent 262 includes each module ( 261, 262, 264) may perform at least some or all of the functions.
  • FIG. 36 an example in which the intelligent agent 262 is implemented in a cloud environment due to computing operation, storage and power constraints has been described, but the present invention is not limited thereto.
  • FIG. 37 is the same as that shown in FIG. 36 except that the intelligent agent (AI agent) is included in the IoT device.
  • AI agent intelligent agent
  • FIG. 37 is a block diagram illustrating another example of a detailed configuration of the processor of FIG. 35.
  • the IoT device 12 and the cloud environment 126 shown in FIG. 37 may correspond to the IoT device 2 and the cloud environment 26 mentioned in FIG. 36 only with differences in some configurations and functions. Accordingly, referring to FIG. 36 for a specific function of the corresponding block.
  • the IoT device 12 includes a pre-processing module 1251, a voice activation module 1252, an ASR module 1253, an intelligent agent 1254, an NLU module 1255, and a TTS module. (1256), it may include a distance information extraction module 1257.
  • the IoT device 2 may include an input module (at least one microphone) and at least one output module.
  • the cloud environment may include a cloud knowledge 126 that stores personalized information in the form of knowledge.
  • each module shown in FIG. 37 For the functions of each module shown in FIG. 37, reference may be made to FIG. 36. However, since the ASR module 1253, the NLU module 1255, and the TTS module 1256 are included in the IoT device 12, communication with the cloud may not be required for speech processing processes such as speech recognition and speech synthesis. Accordingly, an immediate and real-time voice processing operation is possible.
  • Each of the modules shown in FIGS. 36 and 37 is only an example for explaining a voice processing process, and may have more or fewer modules than the modules shown in FIGS. 36 and 37. It should also be noted that it is possible to combine two or more modules or to have different modules or modules of different arrangements.
  • the various modules shown in FIGS. 36 and 37 may be implemented with one or more signal processing and/or custom integrated circuits, hardware, software instructions for execution by one or more processors, firmware, or a combination thereof.
  • FIGS. 36 and 37 shows a schematic block diagram of the intelligent agent of FIGS. 36 and 37;
  • the intelligent agent 1254 interacts with a user in addition to performing an ASR operation, an NLU operation, a TTS operation, and a distance information extraction operation in the voice processing process described with reference to FIGS. 36 and 37. operation).
  • the intelligent agent 1254 uses the context information to perform an operation for the NLU module 263 to more clarify, supplement, or additionally define information included in the text expressions received from the ASR module 261. You can contribute.
  • the context information is the preference of the user of the IoT device, hardware and/or software states of the IoT device, various sensor information collected before, during, or immediately after user input, and previous interactions between the intelligent agent and the user. May include things (eg, conversation), and the like.
  • context information in this document is dynamic and varies according to time, location, content of conversation, and other factors.
  • the intelligent agent 1254 may further include a context fusion and learning module 12541, a local knowledge 12542, and a dialog management 12543.
  • the context fusion and learning module 12541 may learn a user's intention based on at least one piece of data.
  • the at least one data may include at least one sensing data acquired in an IoT device or a cloud environment.
  • the at least one data includes speaker identification, acoustic event detection, speaker's personal information (gender and age detection), voice activity detection (VAD). , May include emotion information (Emotion Classification).
  • the speaker identification may mean specifying a person who speaks in a conversation group registered by voice.
  • the speaker identification may include a process of identifying a previously registered speaker or registering as a new speaker.
  • Acoustic event detection can recognize the type of sound and the location of the sound by recognizing the sound itself beyond speech recognition technology.
  • Voice activity detection is a speech processing technique in which the presence or absence of human speech (speech) is detected in an audio signal, which may include music, noise or other sound.
  • the intelligent agent 1254 may check whether speech is present from the input audio signal.
  • the intelligent agent 1254 may classify speech data and non-speech data using a deep neural network (DNN) model.
  • the intelligent agent 1254 may perform an emotion classification operation on speech data using a deep neural network (DNN) model. According to the emotion classification operation, speech data may be classified into anger, boredom, fear, happiness, and sadness.
  • DNN deep neural network
  • the context fusion and learning module 12541 may include a DNN model to perform the above-described operation, and may check the intention of a user input based on the DNN model and sensing information collected in an IoT device or a cloud environment. .
  • the at least one piece of data is merely exemplary, and any data that can be referenced to confirm the user's intention in the voice processing process may be included. It goes without saying that the at least one data can be obtained through the above-described DNN model.
  • the intelligent agent 1254 may include local knowledge 12542.
  • the local knowledge 12542 may include user data.
  • the user data may include a user's preference, a user address, a user's initial setting language, a user's contact list, and the like.
  • the intelligent agent 1254 may additionally define user intention by supplementing information included in the user's voice input using specific information of the user. For example, in response to a user's request to "Invite my friends to my birthday party", intelligent agent 1254 can determine who the "friends" are and when and where the "birthday party" will be held.
  • the local knowledge 12542 may be used without requiring the user to provide more clear information.
  • the intelligent agent 1254 may further include a dialog management 12543.
  • the intelligent agent 1254 may provide a dialog interface to enable voice conversation with a user.
  • the dialog interface may refer to a process of outputting a response to a user's voice input through a display or a speaker.
  • the final result output through the dialog interface may be based on the aforementioned ASR operation, NLU operation, TTS operation, and distance information extraction operation.
  • 39 is a block diagram showing a detailed configuration of the response device determining apparatus of FIG. 34;
  • the response device determination device 3 includes a wireless communication unit 31, a memory 33, a power supply unit 34, and interfaces 31, 33, and 34. ) May include a processor 35 for controlling.
  • the basic characteristics of the wireless communication unit 31 of the response device determination device, the mobile communication unit 311, the short range communication unit 312, the memory 33, the power supply unit 34, and the processor 35 of the wireless communication unit are described with reference to FIG. Since the basic characteristics of the wireless communication unit 21, the mobile communication unit 211, the short range communication unit 212, the memory 23, the power supply unit 24, and the processor 25 are the same, detailed descriptions are omitted.
  • the wireless communication unit 31 may further include a wireless Internet unit 313 for accessing the wireless Internet.
  • the wireless Internet unit 313 refers to a module for wireless Internet access, and may be built-in or external to the response device determining device 3.
  • the wireless Internet module 313 is configured to transmit and receive wireless signals in a communication network according to wireless Internet technologies.
  • wireless Internet technologies include WLAN (Wireless LAN), Wi-Fi (Wireless-Fidelity), Wi-Fi (Wireless Fidelity) Direct, DLNA (Digital Living Network Alliance), WiBro (Wireless Broadband), WiMAX (World Interoperability for Microwave Access), HSDPA (High Speed Downlink Packet Access), HSUPA (High Speed Uplink Packet Access), LTE (Long Term Evolution), LTE-A (Long Term Evolution-Advanced), etc., and the wireless Internet module ( 313) transmits and receives data according to at least one wireless Internet technology in a range including Internet technologies not listed above.
  • the wireless Internet module 313 performing wireless Internet access through the mobile communication network.
  • the wireless Internet module 313 May be understood as a kind of the mobile communication module 312.
  • the wireless communication unit 31 may receive a plurality of distance information from a plurality of IoT devices 2A, 2B, and 2C.
  • the wireless communication unit 31 may receive a plurality of voice signals (or audio signals) from a plurality of IoT devices and transmit them to the processor 35, and the processor 35 processes the received voice signals. And performing voice analysis to generate a plurality of distance information for a plurality of voice signals recognized by a plurality of IoT devices.
  • the wireless communication unit 31 may notify each IoT device of whether a corresponding IoT device is determined to be a response device under the control of the processor 35.
  • the processor 35 may receive distance information from a plurality of IoT devices that have recognized the same starting word through the wireless communication unit 31. Also, the processor 35 may recognize the same starting word and analyze audio signals transmitted from a plurality of IoT devices to obtain distance information.
  • the processor 35 may determine whether or not it is a critical situation to select a specific IoT device as a response device based on the distance information.
  • the processor 35 determines a response device using a method for selecting the most votes (MV, Max Voting) based on the distance information, based on the result of determining whether it is a critical situation, and the distance information into a deep neural network (
  • the response device may be determined using at least one of the second step of determining the response device using the output value applied to the DNN (Deep Neural Network) model.
  • the memory 33 may store a deep neural network model for use by the processor 35.
  • FIG. 40 is a block diagram showing a detailed configuration of the processor of FIG. 39;
  • the processor 35 includes a first selection probability acquisition unit 351, a second selection probability acquisition unit 352, a selection probability combination unit 353, It may include a response device selection unit 354.
  • the first selection probability may mean a probability that the processor will be selected for each device acquired based only on distance information.
  • the second selection probability may mean a probability of selection for each device obtained as an output value of the processor applying distance information to the DNN model.
  • the first selection probability obtaining unit 351 acquires different first selection probabilities for each IoT device by using different distance information respectively received from different IoT devices.
  • the first selection probability acquisition unit 351 includes a distance information comparison unit 3511 for comparing different distance information values received from different IoT devices.
  • the distance information comparison unit 3511 compares a plurality of distance information transmitted from each device through a Max Voting (MV) method.
  • the first selection probability obtaining unit 351 is a first selection probability calculation unit 3512 that calculates different first selection probabilities for each of different IoT devices based on the comparison result by the distance information comparison unit 3511 Includes.
  • the processor 35 includes a second selection probability obtaining unit 352 that obtains different second selection probabilities for different IoT devices.
  • the second selection probability acquisition unit 352 inputs different distance information received from different IoT devices into the deep neural network model 3251, and calculates a different second selection probability for each IoT device by a Gaussian mixed model (GMM). , Gaussian Mixture Model) 3522, and a second selection probability calculation unit 3523 obtained in the form of a mixed Gaussian distribution.
  • GMM Gaussian mixed model
  • Gaussian Mixture Model Gaussian Mixture Model
  • the processor 35 includes a response device selection unit 354 that determines a response device based on at least one of a first selection probability and a second selection probability.
  • the response device selection unit 354 uses different first selection probabilities obtained for different IoT devices to respond device. Decide. However, when the difference between the different first selection probabilities acquired for different IoT devices is less than or equal to the threshold value, the response device selection unit 354 determines the response device using the second selection probability instead of the first selection probability. .
  • the response device selection unit 354 determines the response device by using the second selection probability.
  • the processor 35 includes a selection probability combination unit 353 that combines the first selection probability and the second selection probability according to a difference between different second selection probabilities for different IoT devices.
  • the selection probability combination unit 353 combines the first selection probability and the second selection probability for each IoT device when the difference between the different second selection probabilities acquired for different IoT devices is less than or equal to the threshold value.
  • the selection probability combination unit 353 compares the difference between different first selection probabilities of different IoT devices and different second selection probabilities of different IoT devices, and applies a larger weight to the selection probabilities having a larger difference. While applying, the first selection probability and the second selection probability are combined, and the final selection probability is obtained and transmitted to the response device selection unit 354.
  • the response device selection unit 354 determines a response device using the transmitted final selection probability.
  • the response device selection unit 354 determines the IoT device having the highest final selection probability as the response device.
  • the processor 35 notifies an IoT device determined as a response device through the communication unit 31 of a signal indicating that the response device is determined. In addition, the processor 35 notifies a signal that the response device has not been determined to other IoT devices other than the IoT device determined as the response device through the communication unit 31.
  • the IoT system includes a plurality of IoT devices 12A, 12B, and 13 that recognize an activation word "Hi LG" spoken by the user 11 in the form of an audio signal.
  • the smart TV 12A and the smart refrigerator 12B may be sub-IoT devices that perform the functions of the IoT devices described with reference to FIGS. 34 to 40, overlapping descriptions will be omitted.
  • the air purifier 13 performs the function of the IoT device described with reference to FIGS. 34 to 40, and at the same time, the main IoT device, which performs the function of the response device determination device described with reference to FIGS. 34 to 40 Since it may be, duplicate description is omitted.
  • the main IoT device 13 analyzes the audio signal recognizing the starting word, and generates distance information from the audio signal. In addition, the main IoT device 13 receives a plurality of distance information generated by each device from the first sub IoT device 12A and the second sub IoT device 12B.
  • the main IoT device 13 determines whether it is a critical situation to select a specific device based on the received plurality of distance information.
  • the main IoT device 13 selects a response device through MV based on distance information, applies the distance information to a pre-learned DNN, and selects a response device using the output value, or selects a device through MV.
  • the first step and the second step of selecting a device through the DNN may be combined.
  • FIG. 42 shows a detailed configuration of the main IoT device of FIG. 41.
  • the main IoT device may be defined as a device that combines the function of the IoT device and the function of the response device determination device.
  • the main IoT device 13 includes a wireless communication unit 131, an input unit 132, a memory 133, a power supply unit 134, an output unit 136, and a processor 135. I can.
  • the wireless communication unit 131 of the main IoT device 13 of FIG. 42, the mobile communication unit 1311 of the wireless communication unit 131, and the short-range communication unit 1312 are respectively a wireless communication unit of the IoT device 2 described with reference to FIG. 21), a mobile communication unit 211 of the wireless communication unit 21, and a short range communication unit 212 may perform functions.
  • the wireless communication unit 131 of the main IoT device 13, the mobile communication unit 1311 of the wireless communication unit 131, the short-range communication unit 1312, and the wireless Internet unit 1313 are each determined by a response device described with reference to FIG.
  • the wireless communication unit 31 of the device 3, the mobile communication unit 311 of the wireless communication unit 31, the short-range communication unit 312, and the wireless Internet unit 313 may perform functions.
  • the input unit 132 of the main IoT device 13 and the microphone 1321 of the input unit 132 of FIG. 42 are the input unit 22 of the IoT device 2 and the microphone 221 of the input unit 22 described with reference to FIG. ) Can perform the function.
  • the memory 133 of the main IoT device 13 of FIG. 42 includes the functions of the memory 23 of the IoT device 2 described with reference to FIG. 35 and the memory of the response device determining device 3 described with reference to FIG. It can perform all of the functions of (33).
  • the power supply unit 34 of the main IoT device 13 of FIG. 42 includes the functions of the power supply unit 24 of the IoT device 2 described with reference to FIG. 35 and the response device determining device 3 described with reference to FIG. It can perform the function of the power supply unit 34 of.
  • the processor 35 of the main IoT device 13 of FIG. 42 determines the function of the processor 25 of the IoT device 2 described with reference to FIGS. 35 to 38 and the response device described with reference to FIGS. 39 and 40 It can perform all the functions of the processor 35 of the device 3.
  • 43 is a flowchart illustrating a method of determining a response device according to an embodiment of the present invention.
  • a method for determining a response device includes steps S10 to S40, and a detailed description is as follows.
  • the apparatus for determining a response device receives distance information from a plurality of IoT devices that have recognized the same activation word (S10).
  • the wireless communication unit for example, the wireless communication unit 31 in Fig. 35
  • the response device determination device eg, the response device determination device 3 in FIG. 34
  • the wireless communication unit 31 in Fig. 35 of the response device determination device is configured from a plurality of IoT devices that recognize the same activation word. Different types of distance information generated by IoT devices can be received.
  • the apparatus for determining a response device determines whether or not it is a critical situation to select a specific device as a response device based on the distance information (S20). For example, the processor of the response device determining device 3 (for example, the processor 35 in FIG. 35) compares the transmitted plurality of distance information through the Max Voting method, and selects each IoT device according to the comparison result. A first selection probability, which is a probability of becoming, is obtained, and it is determined whether a difference between the first selection probability of each device is equal to or greater than a threshold value.
  • the response device determination apparatus selects the response device based only on the distance information (S30). For example, the processor 35 may determine a device having the highest first selection probability among each device as the response device.
  • the response device determination apparatus selects a response device by applying the distance information to a pre-trained DNN model (S40) .
  • the processor 35 inputs a first selection probability of each device into a pre-trained DNN model, obtains a second selection probability, which is a probability that each device is selected, as an output value, and based on the second selection probability. You can select a response device.
  • FIG. 44 is a detailed flowchart illustrating a step of receiving distance information of FIG. 43 according to an embodiment of the present invention.
  • the first IoT device 2A and the second IoT device 2B receive the same activation words simultaneously uttered from the same user (S11).
  • the first IoT device 2A Upon receiving the start word, the first IoT device 2A recognizes the start word and obtains a first voice signal (S12), and the second IoT device 2B recognizes the start word and obtains a second voice signal. (S13).
  • the first IoT device 2A analyzes the voice signal to extract first distance information in different forms that can indicate the distance between the first IoT device 2A and the user ( S14), the second IoT device 2B analyzes the voice signal and extracts second distance information in different forms capable of indicating the distance between the second IoT device 2B and the user (S15).
  • the response device determining device 3 receives first distance information from the first IoT device 2A (S16) and receives second distance information from the second IoT device 2B (S17).
  • 45 is a detailed flowchart illustrating a step of receiving distance information according to another embodiment of the present invention.
  • the distance information receiving step (S110) illustrated in FIG. 45 is different from the distance information receiving step (S10) illustrated in FIG. 44, and a description of the duplicated portion is omitted.
  • the first IoT device 2A and the second IoT device 2B receive the same activation word (S111), and the first voice signal and the second Acquire a voice signal (S112, S113).
  • the response device determining device 3 receives the first voice signal from the first IoT device 2A (S114), analyzes the first voice signal, and extracts first distance information (S115).
  • the response device determining device 3 receives a second voice signal from the second IoT device 2B (S116), analyzes the second voice signal, and extracts second distance information (S117).
  • 46 is a detailed flowchart illustrating an operation of determining a critical situation based on the distance information of FIG. 43.
  • the processor 35 of the response device determining apparatus 3 compares distance information of each device through the Max Voting technique (S21). For example, the processor 35 compares the first distance information of the plurality of devices, the second distance information of the plurality of devices, and the third distance information of the plurality of devices with the same distance information, and The number of votes (or ranking of each device) is judged.
  • the processor 35 calculates a probability of selection of each device based on the number of votes (or ranking) of each device (S22). For example, the processor 35 may determine a comprehensive ranking for each device by collecting rankings for each distance information, and calculate a first selection probability that is a probability that each device will be selected based on the overall ranking.
  • the response device determining device determines a first selection probability of 66.6% for the first IoT device to be selected for the first IoT device, and a first selection for the second IoT device for the second IoT device to be selected. You can judge the probability as 33.3%. That is, the apparatus for determining a response device may obtain a first selection probability value of 66.6% for the first IoT device and a first selection probability value of 33.3% for the second IoT device.
  • the processor 35 calculates a difference in the selection probability between the device having the highest selection probability and other devices (S23).
  • the processor 35 determines whether the difference between the device with the highest probability of being selected and the probability of selection of other devices is greater than or equal to the threshold value (S24). For example, the processor 35 may determine whether a difference between a probability A of a device having the highest probability of being selected and a probability B of a device having the second highest probability among other devices is equal to or greater than a preset threshold.
  • the processor 35 selects a response device using only the distance information (S30 of FIG.
  • the processor 35 selects a response device by applying the distance information to the DNN model (S40 in FIG. 43). For example, if the first selection probability for selecting the first IoT device is 66.6%, the first selection probability for selecting the second IoT device is 33.3%, and the preset threshold is 50%, the first IoT device Since the difference between the first selection probability of and the first selection probability of the second IoT device is less than the threshold value, the response device determining device uses a deep neural network model to determine a second selection probability different from the first selection probability for each IoT device. You can decide to judge.
  • 47 is a detailed flowchart illustrating a step of selecting a response device using the DNN model of FIG. 43.
  • the processor 35 inputs distance information to the DNN that has been learned in advance (S41).
  • the pre-trained DNN is a neural network that has been trained in advance to output a second selection probability for each IoT device to be selected in response to the input of distance information generated by each IoT device.
  • the deep neural network model may be generated or learned by a response device determining device or another external interface (eg, a cloud server).
  • the deep neural network model is modeled in a form capable of classifying a specific IoT device intended to be started by a user among a plurality of IoT devices based on distance information of each IoT device.
  • the response device determining device may input distance information of each IoT device into the deep neural network model, and obtain a second selection probability for each IoT device as an output value.
  • the processor 35 obtains a probability of selecting each device as an output value of the DNN model to which the distance information is input (S42). For example, the processor 35 inputs a plurality of distance information of each device into the DNN model to obtain a second selection probability, which is a probability that each device is selected as an output value corresponding thereto.
  • the processor 35 calculates a difference in selection probability between the device having the highest selection probability and other devices (S43). For example, the processor 35 calculates a difference between a second highest probability and a second highest second probability among the second probability of each device obtained by inputting distance information into the DNN.
  • the processor 35 determines whether or not the difference between the calculated second highest probability and the second highest probability is equal to or greater than a threshold value (S44).
  • the processor 35 selects the device with the highest second selection probability as the response device (S45).
  • the processor 35 determines the response device using only the distance information of FIG. 43 and the distance of FIG. Step S40 of selecting a response device by applying the information to the DNN is combined.
  • FIG. 48 illustrates a process of selecting a response device of FIG. 47.
  • the device A 21, the device B 22, and the device C 23 Each receives an activation word.
  • the A device 21, B device 22, and C device 23 analyze the received starting words, generate different distance information having different values for the same type of distance information, and generate different distance information. Is transmitted to the response device determining device 200.
  • the response device determination device 200 compares the A distance information transmitted from the A device 21, the B distance information transmitted from the B device 22, and the C distance information transmitted from the C device 23, and the result of the comparison Based on the first selection probability (45%) of the device A 21, the first selection probability of the device B 22 (40%), and the first selection probability (15%) of the device C 23 are obtained. .
  • the response device determining device 200 includes a first selection probability (45%) of the device A 21 having the highest first selection probability, and the first selection probability of the device B 22 having the highest first selection probability. It can be seen that the difference (5%) between (40%) is smaller than a preset threshold (eg, 10%).
  • a preset threshold eg, 10%
  • the response device determination device 200 determines the distance information of the A device 21 and the B device in which the difference in the first selection probability is less than or equal to the threshold value. Input the B distance information in (22) into the deep neural network model. The response device determining device 200 inputs the A distance information and the B distance information to the deep neural network model, and as a result, calculates a second selection probability of device A (35%) and a second selection probability of device B (65%). Acquire.
  • the apparatus 200 for determining a response device may select a device B having a higher second selection probability from among the device A 21 and the device B 22 and may determine the device B as the response device.
  • step S50 of FIG. 47 is a detailed flowchart illustrating step S50 of FIG. 47.
  • the processor 35 compares the first selection probability obtained by using only the distance information for each device and the second selection probability obtained by applying the distance information to the DNN (S51).
  • the processor 35 determines which probability is the greater of the first selection probability and the second selection probability of each device (S52).
  • the processor 35 applies a weight greater than the second probability of the corresponding device to the first selection probability of the corresponding device (S53). For example, if the first selection probability among the selection probabilities of device A is greater than the second selection probability, the processor 35 applies a weight of 0.7 to the first selection probability and a weight of 0.3 to the second selection probability. I can.
  • the processor 35 applies a weight greater than the first probability of the corresponding device to the second selection probability of the corresponding device (S54). For example, if the second selection probability among the selection probabilities of device A is greater than the first selection probability, the processor 35 applies a weight of 0.6 to the second selection probability and applies a weight of 0.4 to the first selection probability. I can.
  • the processor 35 After applying the weight, the processor 35 adds up the first selection probability and the second selection probability of the corresponding device to which different weights are applied (S55).
  • the processor 35 selects a device having the highest summed final probabilities as the response device (S56).
  • the processor 35 notifies whether the IoT device selected as the response device and each response device are selected as the remaining devices (S57).
  • step S50 illustrates a process according to step S50 described with reference to FIG. 49.
  • the A device 31 and the B device 32 are Each of the A distance information and B distance information is generated using the starting word, and is transmitted to the response device determining device 300.
  • the response device determining device 300 uses the transmitted A distance information and B distance information to determine the first selection probability (45%) of the device A 31 and the second selection probability (40%) of the device B 32. Acquire.
  • the response device determining device 300 may have a preset threshold value in which the difference between the first selection probability (45%) of the device A 31 and the second selection probability (40%) of the device B 32 ( For example, it can be determined to be less than 10%).
  • the response device determining apparatus 300 inputs the A distance information and the B distance information into a pre-trained deep neural network model.
  • the response device determination apparatus 300 obtains a second selection probability (42%) of device A 31 and a second selection probability (58%) of device B 32 from the deep neural network model.
  • the response device determining device 300 may have a preset threshold value between the second selection probability (42%) of the device A 31 and the second selection probability (58%) of the device B 32 ( For example, it can be determined to be less than 20%). In this case, the response device determining device 300 applies and combines the first selection probability of the device A 31 and the second selection probability of the device A 31 by applying weights according to conditions to be described later, respectively, and the device B 32 ) To the first selection probability and the second selection probability of device B 32 by applying weights according to conditions to be described later.
  • the difference (16%) between the second selection probability (42%) of the device A 31 and the second selection probability (58%) of the device B 32 is A It may be determined that it is greater than a difference (5%) between the first selection probability of the device 31 (45%) and the first selection probability of the device B 32 (40%).
  • the response device determining device 300 applies a weight of 0.7 to the second selection probability (42%) of the device A 31 and the second selection probability (58%) of the device B 32, and A weight of 0.3 is applied to the first selection probability (45%) of (31) and the first selection probability (40%) of device B (32).
  • the response device determining device 300 combines the first selection probability (45% * 0.3) and the second selection probability (42% * 0.7) of the device A 31 to which the weight is applied to Obtain the final selection probability (42.9%). In addition, the response device determining device 300 combines the first selection probability (40% * 0.3) and the second selection probability (58% * 0.7) of the B device 32 to which the weight is applied to Acquire a selection probability (52.6%).
  • the response device determining apparatus 300 may finally select the device B 32 having the highest final selection probability as the response device.
  • the response device determining device 300 notifies the device B 32 determined as the response device of a signal indicating that the device is determined to be a response device.
  • the response device determination device 300 notifies a signal that the response device has not been determined to the device A 31, which is a device other than the device B 32 determined as the response device.
  • the device B 32 which has received a signal indicating that it has been determined as a response device, is started in response to the startup word, and may output a voice response saying "The weather in Seoul today is."
  • the distance information may be Keyword Speech to Ambient Noise Ratio (KSANR) information.
  • KSANR Keyword Speech to Ambient Noise Ratio
  • the KSANR information may mean a ratio of the strength of a keyword voice of a starting word when compared with the power of ambient noise. The closer each IoT device is from the spoken position of the starting word, the greater the ratio of the strength of the keyword voice in the time domain compared to the strength of the ambient noise in the time domain. That is, in the time domain, for an activation word uttered from the same utterance position, an IoT device closer to the utterance position may generate a larger KSANR value.
  • Each IoT device may analyze a startup word using Equation 1 below and generate KSANR information as a result.
  • n may be a natural number
  • s e may be a noise signal
  • s k may be a keyword speech signal of a starting word.
  • the distance information may be Priori Signal to Noise Ratio (SNR) information.
  • SNR Priori Signal to Noise Ratio
  • Priori SNR information may mean a ratio of a signal strength of a starting word to a noise strength when analyzed in a frequency domain (or a frequency axis). The closer each IoT device is from the firing position of the starting word, the greater the intensity of the signal of the starting word in the same specific band compared to the intensity of noise in a specific band within the frequency domain. That is, in the frequency domain, for a starting word uttered from the same utterance position, an IoT device closer to the utterance position may generate a larger priori SNR value.
  • Each IoT device may analyze a startup word using Equation 2 below and generate priori SNR information as a result.
  • n and k may be natural numbers
  • X n,k may be the amplitude of the starting word
  • ) may be the amount of energy of the voice signal x.
  • the distance information may be keyword RMS Power information.
  • the keyword root-mean-square strength information may mean the strength of a root-mean square of a keyword portion of a starting word when analyzed in a time domain or a frequency domain. The closer each IoT device is from the utterance position of the starting word, the greater the intensity value of the root mean square of the keyword part in a specific part within the time domain or frequency domain. That is, in the time domain or the frequency domain, with respect to the activation word spoken from the same speech location, the IoT device closer to the speech location may generate a larger keyword root mean square value.
  • Each IoT device may analyze a startup word using Equation 3 below and generate keyword root mean square strength information as a result.
  • i(t) may denote the amplitude of the keyword signal in the time domain or the frequency domain
  • T denote a preset time period (eg, a period of i(t)).
  • the distance information may be linear prediction residual kurtosis (Linear Prediction Residual Kurtosis) information.
  • the linear prediction residual kurtosis information may mean a kurtosis value of a residual signal output after passing a starting word through a linear prediction filter. The closer each IoT device is from the firing position of the starting word, the sharper the shape when the waveform of the starting word is expressed in a normal distribution. That is, for a starting word uttered from the same utterance position, an IoT device closer to the utterance position may generate a higher linear prediction residual kurtosis value. Each IoT device may generate linear prediction residual kurtosis information for the starting word by using Equation 3 below.
  • i, m, n are natural numbers, respectively, e i, m (n) is the linear prediction residual signal value of the nth term of the signal sampled from the starting word, Is the conjugation of the linear prediction residual signal of the nth term, and ⁇ represents the total sampling size.
  • the distance information may be peak energy information of a starting fish.
  • the peak energy information may mean average energy for a portion corresponding to a peak (maximum value) in a specific frequency section (eg, a band of 0 kHz to 3 kHz) on a frequency domain (or a frequency axis).
  • a specific frequency section eg, a band of 0 kHz to 3 kHz
  • the distance information may be frame energy information of a starting word.
  • the frame energy information may mean average energy in a specific frequency section (eg, a band of 0 kHz to 3 kHz) on a frequency domain (or a frequency axis). The closer each IoT device is from the starter's firing position, the higher the average energy of the starter's waveform in the frequency domain. That is, for an activation word uttered from the same utterance position, an IoT device closer to the utterance position may generate a higher frame energy value.
  • 51 is a graph showing the strength of a voice signal received from a specific IoT device in a time domain.
  • the KSANR information among various types of distance information is relatively strong in the keyword portion 191C rather than the voice noise 191A and 191B on the time axis of the graph of FIG. it means.
  • FIG. 52 is a graph showing the intensity of a residual signal outputted after passing a voice signal transmitted from a different distance from a specific IoT device through a linear prediction filter in a time domain.
  • the linear prediction residual kurtosis of the startup word received by the first IoT device 0.5m away from the user who uttered the startup word is a second 3m away from the same user. It is higher than the linear predicted residual kurtosis of the starting word received by the IoT device.
  • the intensity density of the activation word received by the first IoT device 0.5m away from the user who uttered the startup word is the second IoT device 3m away from the same user. It is stronger than the intensity density of the receiving maneuvering fish.
  • the waveform 192B-A of the linear prediction residual signal for the activation word received by the first IoT device 0.5m away from the user who uttered the activation word is,
  • the kurtosis is higher (sharp) than the waveform 192B-B of the linear prediction residual signal for the starting word received by the second IoT device 3m away from the same user.
  • 53 is a graph showing voice signals transmitted from different distances from a specific IoT device in a frequency domain.
  • the peak energy and frame energy of the startup word received by the first IoT device 0.5m away from the user who uttered the startup word is 3m away from the same user. 2 It is higher than the peak energy and frame energy of the starting fish that the IoT device receives.
  • the peak energy of the activation word signal 193A received by the first IoT device 0.5m away from the user who uttered the startup word is the activation received by the second IoT device 3m away from the same user. Is higher than the peak energy of signal 193B.
  • the frame energy of the startup word signal 193A received by the first IoT device 0.5m away from the user who uttered the startup word is the startup word signal 193B received by the second IoT device 3m away from the same user. Higher than the frame energy.
  • the above-described present invention can be implemented as a computer-readable code on a medium on which a program is recorded.
  • the computer-readable medium includes all types of recording devices storing data that can be read by a computer system. Examples of computer-readable media include HDD (Hard Disk Drive), SSD (Solid State Disk), SDD (Silicon Disk Drive), ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical data storage device, etc. There is also a carrier wave (e.g., transmission over the Internet). Therefore, the detailed description above should not be construed as restrictive in all respects and should be considered as illustrative. The scope of the present invention should be determined by reasonable interpretation of the appended claims, and all changes within the equivalent scope of the present invention are included in the scope of the present invention.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Signal Processing (AREA)
  • Computational Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

응답 기기 결정 방법 및 응답 기기 결정 장치를 개시한다. 본 발명의 일 실시예에 따른 응답 기기 결정 방법은, 디바이스로부터 오디오 신호를 수신하고, 오디오 신호에서 사용자와 복수의 디바이스 간의 거리를 인디케이팅할 수 있는 거리 정보를 추출하고, 기동어에 응답할 응답 디바이스를 결정하되, 미리 정해진 조건에 따라, 거리 정보를 비교하여 응답 디바이스를 결정하는 제1 단계와, 거리 정보를 입력으로 하여 심층 신경망(DNN, Deep Neural Network) 모델에 적용한 결과에 기초하여 응답 디바이스를 결정하는 제2 단계 중 적어도 하나에 기초하여 응답 기기를 결정함으로써, 동일한 기동어를 인식하는 복수의 디바이스 환경에서, 사용자의 의도를 반영하여 사용자가 한번 발화한 기동어에 의해 음성 서비스를 제공할 수 있는 기기를 선택할 수 있다.

Description

응답 기기 결정 방법 및 장치
본 발명은 응답 기기 결정 방법 및 응답 기기 결정 장치에 관한 것으로서, 보다 구체적으로는 사용자의 기동어에 대응하는 응답 기기를 결정할 수 있는 응답 기기 결정 방법 및 장치에 관한 것이다.
음성 인식 장치는 음성 인식 기능을 수행하기 위한 장치이다. 근자에 들어, 이동 통신 기술의 발달에 힘입어, 사용자에 의해 발화된 기동어를 인식하고, 기동어를 분석한 결과를 이용하여 IoT(Internet of Things) 기기(또는 디바이스)들을 제어할 수 있는 다양한 기술이 개발되고 있다.
예를 들면, 사용자가 IoT 기기를 기동시키기 위한 기동어(예를 들면, “하이 엘지”)을 발화하는 경우, 사용자 주변의 IoT 기기들은 기동어를 수신하고, 음성 신호의 형태인 기동어를 분석한다. 해당 기동어가 해당 IoT 기기 자신을 기동하기 위한 기동 신호라고 판단되면, 해당 IoT 기기는 사용자의 다른 명령을 수신할 준비, 즉 기동(또는 웨이크 업, wake up)을 수행한다.
종래의 경우, 사용자의 기동어를 수신할 수 있는 범위에 있는 복수의 IoT 기기들이 기동어를 수신하고 해당 기동어가 IoT 기기 자신을 기동시키기 위한 기동어라고 판단되면, 사용자가 기동하고자 의도한 특정 IoT 기기뿐만 아니라 그 외에 다른 IoT 기기들까지 기동된다는 문제가 있다. 이러한 경우, 사용자는 다른 IoT 기기들이 아닌 특정 IoT 기기에 가까이 접근한 후, 특정 IoT 기기만을 기동시키기 위하여 재차 기동어를 발화하여야 한다는 단점이 있다.
상기한 문제점을 해결하기 위하여, 종래의 경우, IoT 기기 중 마스터 IoT 기기 또는 별도의 서버가 각 IoT 기기로 수신된 기동어를 분석하고, 각 IoT 기기로부터 기동어가 발화된 위치까지의 거리에 기반하여, 사용자로부터 가장 가까운 위치의 IoT 기기로 판단된 IoT 기기만을 기동시키는 기술이 개발되고 있다. 다만, 이러한 기술은 사용자가 사용자로부터 비슷한 거리에 있는 A IoT 기기 및 B IoT 기기 중에서도 A IoT 기기를 바라보면서 A IoT 기기를 향해 기동어를 발화한 경우에, A IoT 기기보다 더 가까운 B IoT 기기를 기동시키게 된다는 문제가 있다.
본 발명은 전술한 필요성 및/또는 문제점을 해결하는 것을 목적으로 한다.
또한, 본 발명은, 복수의 기기에서 동일 기동어가 인식되는 환경에서, 상기 기동어에 응답하여 음성 서비스를 제공할 특정 기기를 선택하는 것을 목적으로 한다.
본 발명의 일 양상에 따른 응답 기기를 결정하는 방법은 복수의 디바이스로부터 오디오 신호를 각각 수신하는 단계; 상기 오디오 신호는 사용자로부터 발화된 동일한 기동어를 인식하여 생성된 신호이고, 상기 각각의 오디오 신호에서 상기 사용자와 상기 복수의 디바이스 간의 거리를 인디케이팅할 수 있는 복수의 거리 정보를 추출하는 단계; 및 상기 추출된 복수의 거리 정보를 이용하여 상기 기동어에 응답할 응답 디바이스를 결정하는 단계를 포함하되, 상기 디바이스를 결정하는 단계는, 미리 정해진 조건에 따라, 상기 추출된 복수의 거리 정보를 비교하여 상기 응답 디바이스를 결정하는 제1 단계와, 상기 추출된 복수의 거리 정보를 입력으로 하여 심층 신경망(DNN, Deep Neural Network) 모델에 적용한 결과에 기초하여 상기 응답 디바이스를 결정하는 제2 단계 중 적어도 하나에 기초하여 결정하는 것을 특징으로 할 수 있다.
상기 추출된 복수의 거리 정보를 최다 득표 산출 방법(MV, Max Voting)을 통해 비교한 결과, 특정 디바이스를 선택할 정도의 임계 상황으로 판단된 경우, 상기 제1 단계를 통해 상기 응답 디바이스를 결정하는 것을 특징으로 할 수 있다.
상기 비교 결과, 임계 상황이 아닌 경우, 상기 제2 단계를 통해 상기 응답 디바이스를 결정하는 것을 특징으로 할 수 있다.
상기 제2 단계를 통해 상기 응답 디바이스를 결정하는 단계는, 상기 추출된 복수의 거리 정보를 상기 DNN 모델에 적용한 결과, 상기 복수의 디바이스 중 각 디바이스가 선택될 확률 사이의 차이가 임계값보다 큰 경우, 상기 DNN 모델을 적용한 결과를 통해 상기 응답 디바이스를 결정하는 것을 특징으로 할 수 있다.
상기 확률 사이의 차이가 상기 임계값보다 작은 경우, 상기 제1 단계와 상기 제2 단계를 조합하여 상기 응답 디바이스를 결정하는 것을 특징으로 할 수 있다.
상기 제1 단계와 상기 제2 단계를 조합하는 단계는, 상기 제1 단계를 적용한 결과 상기 MV를 통해 도출된 각 디바이스가 선택될 확률인 제1 확률 사이의 차이와, 상기 제2 단계를 적용한 결과 상기 DNN 모델을 통해 도출된 각 디바이스가 선택될 확률인 제2 확률 사이의 차이를 비교하여, 상기 응답 디바이스를 결정하는 것을 특징으로 할 수 있다.
상기 각 디바이스의 제1 확률끼리 비교하고, 상기 각 디바이스의 제2 확률끼리 비교한 결과, 상기 제1 확률과 상기 제2 확률 중 확률 사이의 차이가 더 큰 확률에 더 큰 가중치를 부여하여, 상기 제1 단계와 상기 제2 단계를 조합하는 것을 특징으로 할 수 있다.
상기 복수의 디바이스로 상기 결정한 결과를 전송하는 단계;를 더 포함할 수 있다.
상기 복수의 거리 정보는 KSANR(Keyword Speech to Ambient Noise Ratio) 정보, Priori SNR(Signal to Noise Ratio) 정보, 키워드 제곱평균 제곱근 세기(Keyword RMS Power) 정보, 선형 예측 잔여 첨도(Linear Prediction Residual Kurtosis) 정보, 피크 에너지(Peak Energy) 정보 또는 프레임 에너지(Frame Energy) 정보를 포함할 수 있다.
본 발명의 일 양상에 따른 응답 기기를 결정하는 장치는 복수의 디바이스로부터 오디오 신호를 각각 수신하는 통신부; 및 상기 오디오 신호는 사용자로부터 발화된 동일한 기동어를 인식하여 생성된 신호이고, 상기 각각의 오디오 신호에서 상기 사용자와 상기 복수의 디바이스 간의 거리를 인디케이팅할 수 있는 복수의 거리 정보를 추출하고, 상기 추출된 복수의 거리 정보를 이용하여 상기 기동어에 응답할 응답 디바이스를 결정하는 프로세서;를 포함하되, 상기 프로세서는, 미리 정해진 조건에 따라, 상기 추출된 복수의 거리 정보를 비교하여 상기 응답 디바이스를 결정하는 제1 단계와, 상기 추출된 복수의 거리 정보를 입력으로 하여 심층 신경망(DNN, Deep Neural Network) 모델에 적용한 결과에 기초하여 상기 응답 디바이스를 결정하는 제2 단계 중 적어도 하나에 기초하여 결정하는 것을 특징으로 할 수 있다.
상기 프로세서는, 상기 추출된 복수의 거리 정보를 최다 득표 산출 방법(MV, Max Voting)을 통해 비교한 결과, 특정 디바이스를 선택할 정도의 임계 상황으로 판단된 경우, 상기 제1 단계를 통해 상기 응답 디바이스를 결정하는 것을 특징으로 할 수 있다.
상기 프로세서는, 상기 비교 결과, 임계 상황이 아닌 경우, 상기 제2 단계를 통해 상기 응답 디바이스를 결정하는 것을 특징으로 할 수 있다.
상기 프로세서는, 상기 추출된 복수의 거리 정보를 상기 DNN 모델에 적용한 결과, 상기 복수의 디바이스 중 각 디바이스가 선택될 확률 사이의 차이가 임계값보다 큰 경우, 상기 DNN 모델을 적용한 결과를 통해 상기 응답 디바이스를 결정하는 것을 특징으로 할 수 있다.
상기 프로세서는, 상기 확률 사이의 차이가 상기 임계값보다 작은 경우, 상기 제1 단계와 상기 제2 단계를 조합하여 상기 응답 디바이스를 결정하는 것을 특징으로 할 수 있다.
상기 프로세서는, 상기 제1 단계를 적용한 결과 상기 MV를 통해 도출된 각 디바이스가 선택될 확률인 제1 확률 사이의 차이와, 상기 제2 단계를 적용한 결과 상기 DNN 모델을 통해 도출된 각 디바이스가 선택될 확률인 제2 확률 사이의 차이를 비교하여 상기 응답 디바이스를 결정하는 것을 특징으로 할 수 있다.
상기 프로세서는, 상기 각 디바이스의 제1 확률끼리 비교하고, 상기 각 디바이스의 제2 확률끼리 비교한 결과, 상기 제1 확률과 상기 제2 확률 중 확률 사이의 차이가 더 큰 확률에 더 큰 가중치를 부여하여, 상기 제1 단계와 상기 제2 단계를 조합하는 것을 특징으로 할 수 있다.
상기 프로세서는, 상기 통신부를 통해, 상기 복수의 디바이스로 상기 결정한 결과를 전송하는 것을 특징으로 할 수 있다.
상기 복수의 거리 정보는 KSANR(Keyword Speech to Ambient Noise Ratio) 정보, Priori SNR(Signal to Noise Ratio) 정보, 키워드 제곱평균 제곱근 세기(Keyword RMS Power) 정보, 선형 예측 잔여 첨도(Linear Prediction Residual Kurtosis) 정보, 피크 에너지(Peak Energy) 정보 또는 프레임 에너지(Frame Energy) 정보를 포함할 수 있다.
본 발명의 또 다른 양상에 따른 컴퓨팅 디바이스는, 프로세서 및 상기 프로세서에 의해 실행 가능한 명령어를 포함하는 메모리를 포함하며, 상기 명령어는, 상기 프로세서로 하여금, 복수의 디바이스로부터 오디오 신호를 각각 수신하는 단계; 상기 오디오 신호는 사용자로부터 발화된 동일한 기동어를 인식하여 생성된 신호이고, 상기 각각의 오디오 신호에서 상기 사용자와 상기 복수의 디바이스 간의 거리를 인디케이팅할 수 있는 복수의 거리 정보를 추출하는 단계; 및 상기 추출된 복수의 거리 정보를 이용하여 상기 기동어에 응답할 응답 디바이스를 결정하는 단계를 수행하도록 하되,상기 디바이스를 결정하는 단계는, 미리 정해진 조건에 따라, 상기 추출된 복수의 거리 정보를 비교하여 상기 응답 디바이스를 결정하는 제1 단계와, 상기 추출된 복수의 거리 정보를 입력으로 하여 심층 신경망(DNN, Deep Neural Network) 모델에 적용한 결과에 기초하여 상기 응답 디바이스를 결정하는 제2 단계 중 적어도 하나에 기초하여 결정하는 것을 특징으로 한다.
본 발명에 따른 응답 기기 결정 방법 및 응답 기기 결정 장치의 효과에 대해 설명하면 다음과 같다.
본 발명의 일 실시예에 따른 응답 기기 결정 방법 및 응답 기기 결정 장치는 동일한 기동어를 인식하는 복수의 디바이스 환경에서, 사용자의 의도를 반영하여 사용자가 한번 발화한 기동어에 의해 음성 서비스를 제공할 수 있는 기기를 선택할 수 있다는 효과가 있다.
또한, 본 발명의 일 실시예에 따른 응답 기기 결정 방법 및 응답 기기 결정 장치는 실제로 기기 자체가 인식하는 오디오 신호의 특징값에 의해 특정 디바이스를 결정하기 어려운 환경에서도, DNN 모델을 적용하여 학습한 결과를 반영함으로써, 사용자가 의도하는 기기를 선택할 수 있다.
또한, 본 발명은, 사용자로부터 발화된 기동어를 수신한 다수의 IoT 기기들 중에서 사용자가 기동하고자 의도한 IoT 기기를 쉽게 결정할 수 있다.
또한, 본 발명은, 기동어를 수신한 다수의 IoT 기기들이 사용자로부터 모두 동일하거나 유사한 거리에 있는 경우에도, 사용자가 의도한 IoT 기기를 정확하게 선택할 수 있다.
또한, 본 발명은, 사용자의 기동어에 대하여 여러 종류의 거리 관련 참조 정보를 학습하여 응답 기기를 결정하기 위한 모델을 생성하고, 사용자의 기동어를 모델에 입력함으로써, 사용자가 기동하고자 의도한 IoT 기기를 보다 정확하고 신속하게 파악할 수 있다.
본 발명의 적용 가능성의 추가적인 범위는 이하의 상세한 설명으로부터 명백해질 것이다. 그러나 본 발명의 사상 및 범위 내에서 다양한 변경 및 수정은 당업자에게 명확하게 이해될 수 있으므로, 상세한 설명 및 본 발명의 바람직한 실시예와 같은 특정 실시예는 단지 예시로 주어진 것으로 이해되어야 한다.
도 1은 본 명세서에서 제안하는 방법들이 적용될 수 있는 무선 통신 시스템의 블록 구성도를 예시한다.
도 2는 5G 통신 시스템에서 사용자 단말과 5G 네트워크의 기본동작의 일 예를 나타낸다.
도 3은 5G 통신 시스템에서 사용자 단말과 5G 네트워크의 응용 동작의 일 예를 나타낸다.
도 4 내지 도 7은 5G 통신을 이용한 사용자 단말의 동작의 일 예를 나타낸다.
도 8은 3GPP 신호 전송/수신 방법의 일례를 나타낸 도이다.
도 9는 SSB 구조를 예시하고, 도 10은 SSB 전송을 예시한다.
도 11은 임의 접속 과정의 일례를 예시한다.
도 12는 상향링크 그랜트의 일례를 나타낸다.
도 13은 상향링크 물리 채널 프로세싱(uplink physical channel processing)의 개념도의 일례를 나타낸다.
도 14는 PUCCH가 전송되는 NR 슬롯의 일례를 나타낸다.
도 15는 하이브리드 빔포밍(hybrid beamforming)을 위한 전송단 및 수신단의 블록도의 일례를 나타낸 도이다.
도 16은 SSB와 CSI-RS를 이용한 빔포밍의 일례를 나타낸다.
도 17은 SSB를 이용한 DL BM 과정의 일례를 나타낸 흐름도이다.
도 18은 CSI-RS를 이용한 DL BM 과정의 또 다른 일례를 나타낸다.
도 19는 UE의 수신 빔 결정 과정의 일례를 나타낸 흐름도이다.
도 20은 BS의 전송 빔 결정 과정의 일례를 나타낸 흐름도이다.
도 21은 도 18의 동작과 관련된 시간 및 주파수 도메인에서의 자원 할당의 일례를 나타낸다.
도 22는 SRS를 이용한 UL BM 과정의 일례를 나타낸다.
도 23은 SRS를 이용한 UL BM 과정의 일례를 나타낸 흐름도이다.
도 24는 프리엠션 지시 방법의 일례를 나타낸 도이다.
도 25는 프리엠션 지시의 시간/주파수 세트(timefrequency set)의 일례를 나타낸다.
도 26은 협대역 동작 및 주파수 다이버시티의 일 예를 나타낸다.
도 27은 MTC에 이용될 수 있는 물리 채널들 및 이들을 이용한 일반적인 신호 전송 방법을 나타낸 도이다.
도 28은 MTC와 기존(legacy) LTE 각각에 대한 스케줄링의 일례를 나타낸 도이다.
도 29는 부반송파 간격이 15kHz인 경우의 프레임 구조의 일 예를 나타낸다.
도 30은 부반송파 간격이 3.75kHz인 경우의 프레임 구조의 일 예를 나타낸다.
도 31은 NB-IoT 상향링크에 대한 자원 그리드의 일 예를 나타낸다.
도 32는 NB-IoT 동작 모드의 일 예를 나타낸다.
도 33은 NB-IoT에 이용될 수 있는 물리 채널들 및 이들을 이용한 일반적인 신호 전송 방법의 일 예를 나타낸 도이다.
도 34는 본 발명의 일 실시예에 따른 IoT 시스템을 도시한다.
도 35는 도 34의 IoT 기기의 세부 구성을 도시한 블록도이다.
도 36은 도 35의 프로세서의 세부 구성에 관한 하나의 예를 도시한 블록도이다.
도 37은 도 35의 프로세서의 세부 구성에 관한 다른 하나의 예를 도시한 블록도이다.
도 38은 도 36 및 도 37의 지능형 에이전트의 개략적인 블럭도를 도시한다.
도 39는 도 34의 응답 기기 결정 장치의 상세한 구성을 도시한 블록도이다.
도 40은 도 39의 프로세서의 상세한 구성을 도시한 블록도이다.
도 41은 본 발명의 다른 일 실시예에 따른 IoT 시스템을 도시한다.
도 42는 도 41의 메인 IoT 기기의 상세한 구성을 도시한다.
도 43은 본 발명의 실시예에 따른 응답 기기 결정 방법을 나타낸 흐름도이다.
도 44는 본 발명의 일 실시예에 따른 도 43의 거리 정보 수신 단계를 상세히 도시한 흐름도이다.
도 45는 본 발명의 다른 실시예에 따른 거리 정보 수신 단계를 상세히 도시한 흐름도이다.
도 46은 도 43의 거리 정보에 기초하여 임계 상황을 판단하는 단계를 상세히 도시한 흐름도이다.
도 47은 도 43의 DNN 모델 이용한 응답 기기 선택 단계를 상세히 도시한 흐름도이다.
도 48은 도 47의 응답 기기 선택 과정을 예시한다.
도 49는 도 47의 S50 단계를 상세히 도시한 흐름도이다.
도 50은 도 49를 참조하여 설명한 S50 단계에 따른 과정을 예시한다.
도 51은 특정 IoT 기기에서 수신한 음성 신호의 세기를 시간 영역에서 나타낸 그래프이다.
도 52는 특정 IoT 기기에서 서로 다른 거리로부터 전달된 음성 신호를 선형 예측 필터(Linear Prediction Filter)에 통과시킨 후 출력된 잔여 신호(residual signal)의 세기를 시간 영역에서 나타낸 그래프이다.
도 53은 특정 IoT 기기에서 서로 다른 거리로부터 전달된 음성 신호를 주파수 영역에서 나타낸 그래프이다.
이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
본 출원에서, "포함한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
A. UE 및 5G 네트워크 블록도 예시
도 1은 본 명세서에서 제안하는 방법들이 적용될 수 있는 무선 통신 시스템의 블록 구성도를 예시한다.
도 1을 참조하면, AI 모듈을 포함하는 장치(AI 장치)를 제1 통신 장치로 정의(도 1의 910, 상세 설명은 단락 N 참조)하고, 프로세서(911)가 AI 상세 동작을 수행할 수 있다.
AI 장치와 통신하는 다른 장치(AI 서버)를 포함하는 5G 네트워크를 제2 통신 장치(도 1의 920, 상세는 단락 N 참조)하고, 프로세서(921)가 AI 상세 동작을 수행할 수 있다.
UE인 제1 통신장치 및 5G 네트워크인 제2 통신 장치를 포함하는 것으로 정의되는 무선 통신 시스템의 상세는 단락 N을 참조할 수 있다.
B. 5G 통신을 이용한 AI 동작
도 2는 5G 통신 시스템에서 사용자 단말과 5G 네트워크의 기본동작의 일 예를 나타낸다.
UE는 특정 정보 전송을 5G 네트워크로 전송한다(S1).
그리고, 상기 5G 네트워크는 상기 특정 정보에 대한 5G 프로세싱을 수행한다(S2).
여기서, 5G 프로세싱은 AI 프로세싱을 포함할 수 있다.
그리고, 상기 5G 네트워크는 AI 프로세싱 결과를 포함하는 응답을 상기 UE로 전송한다(S3).
도 3은 5G 통신 시스템에서 사용자 단말과 5G 네트워크의 응용 동작의 일 예를 나타낸다.
UE는 5G 네트워크와 초기 접속(initial access) 절차를 수행한다(S20). 상기 초기 접속 절차는 단락 F 에서 보다 구체적으로 설명한다.
그리고, 상기 UE는 상기 5G 네트워크와 임의 접속(random access) 절차를 수행한다(S21). 상기 임의 접속 과정은 단락 G에서 보다 구체적으로 설명한다.
그리고, 상기 5G 네트워크는 상기 UE로 특정 정보의 전송을 스케쥴링하기 위한 UL grant를 전송한다(S22). 상기 UE가 UL grant를 수신하는 과정은 단락 H에서 UL 전송/수신 동작에서 보다 구체적으로 설명한다.
그리고, 상기 UE는 상기 UL grant에 기초하여 상기 5G 네트워크로 특정 정보를 전송한다(S23).
그리고, 상기 5G 네트워크는 상기 특정 정보에 대한 5G 프로세싱을 수행한다(S24).
여기서, 5G 프로세싱은 AI 프로세싱을 포함할 수 있다.
그리고, 상기 5G 네트워크는 상기 UE로 상기 특정 정보에 대한 5G 프로세싱 결과의 전송을 스케쥴링하기 위한 DL grant를 전송한다(S25).
그리고, 상기 5G 네트워크는 상기 DL grant에 기초하여 상기 UE로 AI 프로세싱 결과를 포함하는 응답을 전송한다(S26).
C. 5G 통신을 이용한 UE 동작
도 4 내지 도 7은 5G 통신을 이용한 사용자 단말의 동작의 일 예를 나타낸다.
먼저 도 4를 참고하면, UE는 DL 동기 및 시스템 정보를 획득하기 위해 SSB에 기초하여 5G 네트워크와 초기 접속 절차를 수행한다(S30).
그리고, 상기 UE는 UL 동기 획득 및/또는 UL 전송을 위해 5G 네트워크와 임의 접속 절차를 수행한다(S31).
그리고, 상기 UE는 특정 정보를 전송하기 위해 5G 네트워크로 UL grant를 수신한다(S32).
그리고, 상기 UE는 상기 UL grant에 기초하여 특정 정보를 5G 네트워크로 전송한다(S33).
그리고, 상기 UE는 특정 정보에 대한 응답을 수신하기 위한 DL grant를 5G 네트워크로부터 수신한다(S34).
그리고, 상기 UE는 AI 프로세싱 결과를 포함하는 응답을 DL grant에 기초하여 5G 네트워크로부터 수신한다(S35).
S30에 빔 관리(beam management, BM) 과정이 추가될 수 있으며, S31에 빔 실패 복구(beam failure recovery) 과정이 추가될 수 있으며, S32 내지 S35에는 QCL(quasi-co location) 관계가 추가될 수 있으며, 이에 관한 보다 구체적인 설명은 단락 I에서 보다 구체적으로 설명한다.
다음, 도 5를 참고하면, UE는 DL 동기 및 시스템 정보를 획득하기 위해 SSB에 기초하여 5G 네트워크와 초기 접속 절차를 수행한다(S40).
그리고, 상기 UE는 UL 동기 획득 및/또는 UL 전송을 위해 5G 네트워크와 임의 접속 절차를 수행한다(S41).
그리고, 상기 UE는 설정된 그랜트(configured grant)에 기초하여 특정 정보를 5G 네트워크로 전송한다(S42). 상기 5G 네트워크로부터 UL grant를 수신하는 과정 대신, 설정된 그랜드(configured grant)를 과정은 단락 H에서 보다 구체적으로 설명한다.
그리고, 상기 UE는 특정 정보에 대한 응답을 수신하기 위한 DL grant를 5G 네트워크로부터 수신한다(S43).
그리고, 상기 UE는 AI 프로세싱 결과를 포함하는 응답을 DL grant에 기초하여 5G 네트워크로부터 수신한다(S44).
다음, 도 6을 참고하면, UE는 DL 동기 및 시스템 정보를 획득하기 위해 SSB에 기초하여 5G 네트워크와 초기 접속 절차를 수행한다(S50).
그리고, 상기 UE는 UL 동기 획득 및/또는 UL 전송을 위해 5G 네트워크와 임의 접속 절차를 수행한다(S51).
그리고, 상기 UE는 5G 네트워크로부터 DownlinkPreemption IE를 수신한다(S52).
그리고, 상기 UE는 상기 DownlinkPreemption IE에 기초하여 프리엠션 지시를 포함하는 DCI 포맷 2_1을 5G 네트워크로부터 수신한다(S53).
그리고, 상기 UE는 pre-emption indication에 의해 지시된 자원(PRB 및/또는 OFDM 심볼)에서 eMBB data의 수신을 수행(또는 기대 또는 가정)하지 않는다(S54).
프리엠션 지시(preemption indication) 관련 동작은 단락 J에서 보다 구체적으로 설명한다.
그리고, 상기 UE는 특정 정보를 전송하기 위해 5G 네트워크로 UL grant를 수신한다(S55).
그리고, 상기 UE는 상기 UL grant에 기초하여 특정 정보를 5G 네트워크로 전송한다(S56).
그리고, 상기 UE는 특정 정보에 대한 응답을 수신하기 위한 DL grant를 5G 네트워크로부터 수신한다(S57).
그리고, 상기 UE는 AI 프로세싱 결과를 포함하는 응답을 DL grant에 기초하여 5G 네트워크로부터 수신한다(S58).
다음, 도 7을 참고하면, UE는 DL 동기 및 시스템 정보를 획득하기 위해 SSB에 기초하여 5G 네트워크와 초기 접속 절차를 수행한다(S60).
그리고, 상기 UE는 UL 동기 획득 및/또는 UL 전송을 위해 5G 네트워크와 임의 접속 절차를 수행한다(S61).
그리고, 상기 UE는 특정 정보를 전송하기 위해 5G 네트워크로 UL grant를 수신한다(S62).
상기 UL grant는 상기 특정 정보의 전송에 대한 반복 횟수에 대한 정보를 포함하고, 상기 특정 정보는 상기 반복 횟수에 대한 정보에 기초하여 반복하여 전송된다(S63).
그리고, 상기 UE는 상기 UL grant에 기초하여 특정 정보를 5G 네트워크로 전송한다.
그리고, 특정 정보의 반복 전송은 주파수 호핑을 통해 수행되고, 첫 번째 특정 정보의 전송은 제 1 주파수 자원에서, 두 번째 특정 정보의 전송은 제 2 주파수 자원에서 전송될 수 있다.
상기 특정 정보는 6RB(Resource Block) 또는 1RB(Resource Block)의 협대역(narrowband)을 통해 전송될 수 있다.
그리고, 상기 UE는 특정 정보에 대한 응답을 수신하기 위한 DL grant를 5G 네트워크로부터 수신한다(S64).
그리고, 상기 UE는 AI 프로세싱 결과를 포함하는 응답을 DL grant에 기초하여 5G 네트워크로부터 수신한다(S65).
한편, 도 7에서 mMTC 관련하여 단락 K에서 보다 구체적으로 설명한다.
D. Introduction
이하에서, 하향링크(downlink, DL)는 기지국(base station, BS)에서 사용자 기기(user equipment, UE)로의 통신을 의미하며, 상향링크(uplink, UL)는 UE에서 BS로의 통신을 의미한다. 하향링크에서 전송기(transmitter)는 BS의 일부이고, 수신기(receiver)는 UE의 일부일 수 있다. 상향링크에서 전송기는 UE의 일부이고, 수신기는 BS의 일부일 수 있다. 본 명세에서 UE는 제 1 통신 장치, BS는 제 2 통신 장치로 표현될 수도 있다. BS는 고정국(fixed station), Node B, eNB(evolved-NodeB), gNB(Next Generation NodeB), BTS(base transceiver system), 접속 포인트(access point, AP), 네트워크 혹은 5G (5th generation) 네트워크 노드, AI (Artificial Intelligence) 시스템, RSU(road side unit), 로봇 등의 용어에 의해 대체될 수 있다. 또한, UE는 단말(terminal), MS(Mobile Station), UT(User Terminal), MSS(Mobile Subscriber Station), SS(Subscriber Station), AMS(Advanced Mobile Station), WT(Wireless terminal), MTC(Machine-Type Communication) 장치, M2M(Machine-to-Machine) 장치, D2D(Device-to-Device) 장치, 차량(vehicle), 로봇(robot), AI 모듈 등의 용어로 대체될 수 있다.
이하의 기술은 CDMA(Code Division Multiple Access), FDMA(Frequency Division Multiple Access), TDMA(Time Division Multiple Access), OFDMA(Orthogonal Frequency Division Multiple Access), SC-FDMA(Single Carrier FDMA) 등과 같은 다양한 무선 접속 시스템에 사용될 수 있다. CDMA는 UTRA(Universal Terrestrial Radio Access)나 CDMA2000과 같은 무선 기술로 구현될 수 있다. TDMA는 GSM(Global System for Mobile communications)/GPRS(General Packet Radio Service)/EDGE(Enhanced Data Rates for GSM Evolution)와 같은 무선 기술로 구현될 수 있다. OFDMA는 IEEE 802.11 (Wi-Fi), IEEE 802.16 (WiMAX), IEEE 802-20, E-UTRA(Evolved UTRA) 등과 같은 무선 기술로 구현될 수 있다. UTRA는 UMTS(Universal Mobile Telecommunications System)의 일부이다. 3GPP(3rd Generation Partnership Project) LTE(Long Term Evolution)은 E-UTRA를 사용하는 E-UMTS(Evolved UMTS)의 일부이고 LTE-A(Advanced)/LTE-A pro는 3GPP LTE의 진화된 버전이다. 3GPP NR(New Radio or New Radio Access Technology)는 3GPP LTE/LTE-A/LTE-A pro의 진화된 버전이다.
설명을 명확하게 하기 위해, 3GPP 통신 시스템(예, LTE-A, NR)을 기반으로 설명하지만 본 발명의 기술적 사상이 이에 제한되는 것은 아니다. LTE는 3GPP TS 36.xxx Release 8 이후의 기술을 의미한다. 세부적으로, 3GPP TS 36.xxx Release 10 이후의 LTE 기술은 LTE-A로 지칭되고, 3GPP TS 36.xxx Release 13 이후의 LTE 기술은 LTE-A pro로 지칭된다. 3GPP 5G (5th generation) 기술은 TS 36.xxx Release 15 이후의 기술 및 TS 38.XXX Release 15 이후의 기술을 의미하며, 이 중 TS 38.xxx Release 15 이후의 기술은 3GPP NR로 지칭되고, TS 36.xxx Release 15 이후의 기술은 enhanced LTE로 지칭될 수 있다. "xxx"는 표준 문서 세부 번호를 의미한다. LTE/NR은 3GPP 시스템으로 통칭될 수 있다.
본 명세(disclosure)에서, 노드(node)라 함은 UE와 통신하여 무선 신호를 전송/수신할 수 있는 고정된 포인트(point)을 말한다. 다양한 형태의 BS들이 그 명칭에 관계없이 노드로서 이용될 수 있다. 예를 들어, BS, NB, eNB, 피코-셀 eNB(PeNB), 홈 eNB(HeNB), 릴레이(relay), 리피터(repeater) 등이 노드가 될 수 있다. 또한, 노드는 BS가 아니어도 될 수 있다. 예를 들어, 무선 리모트 헤드(radio remote head, RRH), 무선 리모트 유닛(radio remote unit, RRU)가 될 수 있다. RRH, RRU 등은 일반적으로 BS의 전력 레벨(power level)에 비해 더욱 낮은 전력 레벨을 갖는다. 일 노드에는 최소 하나의 안테나가 설치된다. 상기 안테나는 물리 안테나를 의미할 수도 있으며, 안테나 포트, 가상 안테나, 또는 안테나 그룹을 의미할 수도 있다. 노드는 포인트(point)라고 불리기도 한다.
본 명세에서 셀(cell)이라 함은 하나 이상의 노드가 통신 서비스를 제공하는 일정 지리적 영역 혹은 무선 자원을 말한다. 지리적 영역의 "셀"은 노드가 반송파를 이용하여 서비스를 제공할 수 있는 커버리지(coverage)라고 이해될 수 있으며, 무선 자원의 "셀"은 상기 반송파에 의해 설정(configure)되는 주파수 크기인 대역폭(bandwidth, BW)와 연관된다. 노드가 유효한 신호를 전송할 수 있는 범위인 하향링크 커버리지와 UE로부터 유효한 신호를 수신할 수 있는 범위인 상향링크 커버리지는 해당 신호를 나르는 반송파에 의해 의존하므로 노드의 커버리지는 상기 노드가 사용하는 무선 자원의 "셀"의 커버리지와 연관되기도 한다. 따라서 "셀"이라는 용어는 때로는 노드에 의한 서비스의 커버리지를, 때로는 무선 자원을, 때로는 상기 무선 자원을 이용한 신호가 유효한 세기로 도달할 수 있는 범위를 의미하는 데 사용될 수 있다.
본 명세에서 특정 셀과 통신한다고 함은 상기 특정 셀에 통신 서비스를 제공하는 BS 혹은 노드와 통신하는 것을 의미할 수 있다. 또한, 특정 셀의 하향링크/상향링크 신호는 상기 특정 셀에 통신 서비스를 제공하는 BS 혹은 노드로부터의/로의 하향링크/상향링크 신호를 의미한다. UE에게 상향링크/하향링크 통신 서비스를 제공하는 셀을 특히 서빙 셀(serving cell)이라고 한다. 또한, 특정 셀의 채널 상태/품질은 상기 특정 셀에 통신 서비스를 제공하는 BS 혹은 노드와 UE 사이에 형성된 채널 혹은 통신 링크의 채널 상태/품질을 의미한다.
한편, 무선 자원과 연관된 "셀"은 하향링크 자원(DL resources)와 상향링크 자원(UL resources)의 조합, 즉, DL 컴포넌트 반송파(component carrier, CC) 와 UL CC의 조합으로 정의될 수 있다. 셀은 DL 자원 단독, 또는 DL 자원과 UL 자원의 조합으로 설정될(configured) 수도 있다. 반송파 집성(carrier aggregation)이 지원되는 경우, DL 자원(또는, DL CC)의 반송파 주파수(carrier frequency)와 UL 자원(또는, UL CC)의 반송파 주파수(carrier frequency) 사이의 링키지(linkage)는 해당 셀을 통해 전송되는 시스템 정보(system information)에 의해 지시될 수 있다. 여기서, 반송파 주파수는 각 셀 혹은 CC의 중심 주파수(center frequency)와 같을 수도 혹은 다를 수도 있다. 이하에서는 1차 주파수(primary frequency) 상에서 동작하는 셀을 1차 셀(primary cell, Pcell) 혹은 PCC로 지칭하고, 2차 주파수(Secondary frequency) 상에서 동작하는 셀을 2차 셀(secondary cell, Scell) 혹은 SCC로 칭한다. Scell이라 함은 UE가 BS와 RRC(Radio Resource Control) 연결 수립(connection establishment) 과정을 수행하여 상기 UE와 상기 BS 간에 RRC 연결이 수립된 상태, 즉, 상기 UE가 RRC_CONNECTED 상태가 된 후에 설정될 수 있다. 여기서 RRC 연결은 UE의 RRC와 BS의 RRC가 서로 RRC 메시지를 주고 받을 수 있는 통로를 의미할 수 있다. Scell은 UE에게 추가적인 무선 자원을 제공하기 위해 설정될 수 있다. UE의 성능(capabilities)에 따라, Scell이 Pcell과 함께, 상기 UE를 위한 서빙 셀의 모음(set)을 형성할 수 있다. RRC_CONNECTED 상태에 있지만 반송파 집성이 설정되지 않았거나 반송파 집성을 지원하지 않는 UE의 경우, Pcell로만 설정된 서빙 셀이 단 하나 존재한다.
셀은 고유의 무선 접속 기술을 지원한다. 예를 들어, LTE 셀 상에서는 LTE 무선 접속 기술(radio access technology, RAT)에 따른 전송/수신이 수행되며, 5G 셀 상에서는 5G RAT에 따른 전송/수신이 수행된다.
반송파 집성 기술은 광대역 지원을 위해 목표 대역폭(bandwidth)보다 작은 시스템 대역폭을 가지는 복수의 반송파들을 집성하여 사용하는 기술을 말한다. 반송파 집성은 각각이 시스템 대역폭(채널 대역폭이라고도 함)을 형성하는 복수의 반송파 주파수들을 사용하여 하향링크 혹은 상향링크 통신을 수행한다는 점에서, 복수의 직교하는 부반송파들로 분할된 기본 주파수 대역을 하나의 반송파 주파수에 실어 하향링크 혹은 상향링크 통신을 수행하는 OFDMA 기술과 구분된다. 예를 들어, OFDMA 혹은 직교 주파수 분할 다중화(orthogonal frequency division multiplexing, OFDM)의 경우에는 일정 시스템 대역폭을 갖는 하나의 주파수 대역이 일정 부반송파 간격을 갖는 복수의 부반송파들로 분할되고, 정보/데이터가 상기 복수의 부반송파들 내에서 매핑되며, 상기 정보/데이터가 맵핑된 상기 주파수 대역은 주파수 상향 변환(upconversion)을 거쳐 상기 주파수 대역의 반송파 주파수로 전송된다. 무선 반송파 집성의 경우에는 각각이 자신의 시스템 대역폭 및 반송파 주파수를 갖는 주파수 대역들이 동시에 통신에 사용될 수 있으며, 반송파 집성에 사용되는 각 주파수 대역은 일정 부반송파 간격을 갖는 복수의 부반송파들로 분할될 수 있다.
3GPP 기반 통신 표준은 물리 계층(physical layer)의 상위 계층(upper layer)(예, 매제 접속 제어(medium access control, MAC) 계층, 무선 링크 제어(radio link control, RLC) 계층, 패킷 데이터 수렴 프로토콜(protocol data convergence protocol, PDCP) 계층, 무선 자원 제어(radio resource control, RRC) 계층, 서비스 데이터 적응 프로토콜(service data adaptation protocol, SDAP), 비-접속 층(non-access stratum, NAS) 계층)로부터 기원한 정보를 나르는 자원 요소(resource element)들에 대응하는 하향링크 물리 채널들과, 물리 계층에 의해 사용되나 상위 계층으로부터 기원하는 정보를 나르지 않는 자원 요소들에 대응하는 하향링크 물리 신호들을 정의한다. 예를 들어, 물리 하향링크 공유 채널(physical downlink shared channel, PDSCH), 물리 브로드캐스트 채널(physical broadcast channel, PBCH), 물리 멀티캐스트 채널(physical multicast channel, PMCH), 물리 제어 포맷 지시자 채널(physical control format indicator channel, PCFICH), 물리 하향링크 제어 채널(physical downlink control channel, PDCCH)이 하향링크 물리 채널들로서 정의되어 있으며, 참조 신호와 동기 신호가 하향링크 물리 신호들로서 정의되어 있다. 파일럿(pilot)이라고도 지칭되는 참조 신호(reference signal, RS)는 BS와 UE가 서로 알고 있는 기정의된 특별한 파형의 신호를 의미하는데, 예를 들어, 셀 특정적 RS(cell specific RS), UE-특정적 RS(UE-specific RS, UE-RS), 포지셔닝 RS(positioning RS, PRS), 채널 상태 정보 RS(channel state information RS, CSI-RS), 복조 참조 신호(demodulation reference signal, DMRS)가 하향링크 참조 신호들로서 정의된다. 한편, 3GPP 기반 통신 표준은 상위 계층으로부터 기원한 정보를 나르는 자원 요소들에 대응하는 상향링크 물리 채널들과, 물리 계층에 의해 사용되나 상위 계층으로부터 기원하는 정보를 나르지 않는 자원 요소들에 대응하는 상향링크 물리 신호들을 정의하고 있다. 예를 들어, 물리 상향링크 공유 채널(physical uplink shared channel, PUSCH), 물리 상향링크 제어 채널(physical uplink control channel, PUCCH), 물리 임의 접속 채널(physical random access channel, PRACH)가 상향링크 물리 채널로서 정의되며, 상향링크 제어/데이터 신호를 위한 복조 참조 신호(demodulation reference signal, DMRS)와 상향링크 채널 측정에 사용되는 사운딩 참조 신호(sounding reference signal, SRS)가 정의된다.
본 명세에서 물리 하향링크 제어 채널(physical downlink control channel, PDCCH)와 물리 하향링크 공유 채널(physical downlink shared channel, PDSCH)는 물리 계층의 하향링크 제어 정보(downlink control information, DCI)와 하향링크 데이터를 나르는 시간-주파수 자원의 집합 혹은 자원요소의 집합을 각각 의미할 수 있다. 또한, 물리 상향링크 제어 채널(physical uplink control channel), 물리 상향링크 공유 채널(physical uplink shared channel, PUSCH) 및 물리 임의 접속 채널(physical random access channel)는 물리 계층의 상향링크 제어 정보(uplink control information, UCI), 상향링크 데이터 및 임의 접속 신호를 나르는 시간-주파수 자원의 집합 혹은 자원요소의 집합을 각각 의미한다. 이하에서 UE가 상향링크 물리 채널(예, PUCCH, PUSCH, PRACH)를 전송한다는 것은 해당 상향링크 물리 채널 상에서 혹은 상향링크 물리 채널을 통해서 UCI, 상향링크 데이터, 또는 임의 접속 신호를 전송한다는 것을 의미할 수 있다. BS가 상향링크 물리 채널을 수신한다는 것은 해당 상향링크 물리 채널 상에서 혹은 통해서 DCI, 상향링크 데이터, 또는 임의 접속 신호를 수신한다는 것을 의미할 수 있다. BS가 하향링크 물리 채널(예, PDCCH, PDSCH)를 전송한다는 것은 해당 하향링크 물리 채널 상에서 혹은 하향링크 물리 채널을 통해서 DCI 혹은 하향링크 데이터를 전송한다는 것과 동일한 의미로 사용된다. UE가 하향링크 물리 채널을 수신한다는 것은 해당 하향링크 물리 채널 상에서 혹은 통해서 DCI 혹은 하향링크 데이터를 수신한다는 것을 의미할 수 있다.
본 명세에서 수송 블록(transport block)은 물리 계층을 위한 페이로드(payload)이다. 예를 들어, 상위 계층 혹은 매체 접속 제어(medium access control, MAC) 계층으로부터 물리 계층에 주어진 데이터가 기본적으로 수송 블록으로 지칭된다.
본 명세에서 HARQ(Hybrid Automatic Repeat and reQuest)는 오류 제어 방법의 일종이다. 하향링크를 통해 전송되는 HARQ-ACK(HARQ acknowledgement)은 상향링크 데이터에 대한 오류 제어를 위해 사용되며, 상향링크를 통해 전송되는 HARQ-ACK은 하향링크 데이터에 대한 오류 제어를 위해 사용된다. HARQ 동작을 수행하는 전송단은 데이터(예, 수송 블록, 코드워드)를 전송한 후 긍정 확인(ACK; acknowledgement)를 기다린다. HARQ 동작을 수행하는 수신단은 데이터를 제대로 받은 경우만 긍정 확인(ACK)을 보내며, 수신 데이터에 오류가 생긴 경우 부정 확인(negative ACK, NACK)을 보낸다. 전송단이 ACK을 수신한 경우에는 (새로운) 데이터를 전송할 수 있고, NACK을 수신한 경우에는 데이터를 재전송할 수 있다. BS가 스케줄링 정보와 상기 스케줄링 정보에 따른 데이터를 전송한 뒤, UE로부터 ACK/NACK을 수신하고 재전송 데이터가 전송될 때까지 시간 딜레이(delay)가 발생한다. 이러한 시간 딜레이는 채널 전파 지연(channel propagation delay), 데이터 디코딩(decoding)/인코딩(encoding)에 걸리는 시간으로 인해 발생한다. 따라서, 현재 진행 중인 HARQ 프로세스가 끝난 후에 새로운 데이터를 보내는 경우, 시간 딜레이로 인해 데이터 전송에 공백이 발생한다. 따라서, 시간 딜레이 구간 동안에 데이터 전송에 공백이 생기는 것을 방지하기 위하여 복수의 독립적인 HARQ 프로세스가 사용된다. 예를 들어, 초기 전송과 재전송 사이에 7번의 전송 기회(occasion)가 있는 경우, 통신 장치는 7개의 독립적인 HARQ 프로세스를 운영하여 공백 없이 데이터 전송을 수행할 수 있다. 복수의 병렬 HARQ 프로세스들을 활용하면, 이전 UL/DL 전송에 대한 HARQ 피드백을 기다리는 동안 UL/DL 전송이 연속적으로 수행될 수 있다.
본 명세에서 채널 상태 정보(channel state information, CSI)는 UE와 안테나 포트 사이에 형성되는 무선 채널(혹은 링크라고도 함)의 품질을 나타낼 수 있는 정보를 통칭한다. CSI는 채널 품질 지시자(channel quality indicator, CQI), 프리코딩 행렬 지시자 (precoding matrix indicator, PMI), CSI-RS 자원 지시자(CSI-RS resource indicator, CRI), SSB 자원 지시자(SSB resource indicator, SSBRI), 레이어 지시자(layer indicator, LI), 랭크 지시자(rank indicator, RI) 또는 참조 신호 수신 품질(reference signal received power, RSRP) 중 적어도 하나를 포함할 수 있다.
본 명세에서 주파수 분할 다중화(frequency division multiplexing, FDM)라 함은 신호/채널/사용자들을 서로 다른 주파수 자원에서 전송/수신하는 것을 의미할 수 있으며, 시간 분할 다중화(time division multiplexing, TDM)이라 함은 신호/채널/사용자들을 서로 다른 시간 자원에서 전송/수신하는 것을 의미할 수 있다.
본 발명에서 주파수 분할 듀플렉스(frequency division duplex, FDD)는 상향링크 반송파에서 상향링크 통신이 수행되고 상기 상향링크용 반송파에 링크된 하향링크용 반송파에서 하향링크 통신이 수행되는 통신 방식을 말하며, 시간 분할 듀플렉스(time division duplex, TDD)라 함은 상향링크 통신과 하향링크 통신이 동일 반송파에서 시간을 나누어 수행되는 통신 방식을 말한다.
본 명세에서 사용된 배경기술, 용어, 약어 등에 관해서는 본 발명 이전에 공개된 표준 문서에 기재된 사항을 참조할 수 있다. 예를 들어, 다음 문서를 참조할 수 있다.
3GPP LTE
- 3GPP TS 36.211: Physical channels and modulation
- 3GPP TS 36.212: Multiplexing and channel coding
- 3GPP TS 36.213: Physical layer procedures
- 3GPP TS 36.214: Physical layer; Measurements
- 3GPP TS 36.300: Overall description
- 3GPP TS 36.304: User Equipment (UE) procedures in idle mode
- 3GPP TS 36.314: Layer 2 - Measurements
- 3GPP TS 36.321: Medium Access Control (MAC) protocol
- 3GPP TS 36.322: Radio Link Control (RLC) protocol
- 3GPP TS 36.323: Packet Data Convergence Protocol (PDCP)
- 3GPP TS 36.331: Radio Resource Control (RRC) protocol
- 3GPP TS 23.303: Proximity-based services (Prose); Stage 2
- 3GPP TS 23.285: Architecture enhancements for V2X services
- 3GPP TS 23.401: General Packet Radio Service (GPRS) enhancements for Evolved Universal Terrestrial Radio Access Network (E-UTRAN) access
- 3GPP TS 23.402: Architecture enhancements for non-3GPP accesses
- 3GPP TS 23.286: Application layer support for V2X services; Functional architecture and information flows
- 3GPP TS 24.301: Non-Access-Stratum (NAS) protocol for Evolved Packet System (EPS); Stage 3
- 3GPP TS 24.302: Access to the 3GPP Evolved Packet Core (EPC) via non-3GPP access networks; Stage 3
- 3GPP TS 24.334: Proximity-services (ProSe) User Equipment (UE) to ProSe function protocol aspects; Stage 3
- 3GPP TS 24.386: User Equipment (UE) to V2X control function; protocol aspects; Stage 3
3GPP NR
- 3GPP TS 38.211: Physical channels and modulation
- 3GPP TS 38.212: Multiplexing and channel coding
- 3GPP TS 38.213: Physical layer procedures for control
- 3GPP TS 38.214: Physical layer procedures for data
- 3GPP TS 38.215: Physical layer measurements
- 3GPP TS 38.300: NR and NG-RAN Overall Description
- 3GPP TS 38.304: User Equipment (UE) procedures in idle mode and in RRC inactive state
- 3GPP TS 38.321: Medium Access Control (MAC) protocol
- 3GPP TS 38.322: Radio Link Control (RLC) protocol
- 3GPP TS 38.323: Packet Data Convergence Protocol (PDCP)
- 3GPP TS 38.331: Radio Resource Control (RRC) protocol
- 3GPP TS 37.324: Service Data Adaptation Protocol (SDAP)
- 3GPP TS 37.340: Multi-connectivity; Overall description
- 3GPP TS 23.287: Application layer support for V2X services; Functional architecture and information flows
- 3GPP TS 23.501: System Architecture for the 5G System
- 3GPP TS 23.502: Procedures for the 5G System
- 3GPP TS 23.503: Policy and Charging Control Framework for the 5G System; Stage 2
- 3GPP TS 24.501: Non-Access-Stratum (NAS) protocol for 5G System (5GS); Stage 3
- 3GPP TS 24.502: Access to the 3GPP 5G Core Network (5GCN) via non-3GPP access networks
- 3GPP TS 24.526: User Equipment (UE) policies for 5G System (5GS); Stage 3
E. 3GPP 신호 전송/수신 방법
도 8은 3GPP 신호 전송/수신 방법의 일례를 나타낸 도이다.
도 8을 참고하면, UE는 전원이 켜지거나 새로이 셀에 진입한 경우 BS와 동기를 맞추는 등의 초기 셀 탐색(initial cell search) 작업을 수행한다(S201). 이를 위해, UE는 BS로부터 1차 동기 채널(primary synchronization channel, P-SCH) 및 2차 동기 채널(secondary synchronization channel, S-SCH)을 수신하여 BS와 동기를 맞추고, 셀 ID 등의 정보를 획득할 수 있다. LTE 시스템과 NR 시스템에서 P-SCH와 S-SCH는 각각 1차 동기 신호(primary synchronization signal, PSS)와 2차 동기 신호(secondary synchronization signal, SSS)로 불린다. 상기 초기 셀 탐색 절차는 하기 F.에서 더 상세히 설명된다.
초기 셀 탐색 후, UE는 BS로부터 물리 브로드캐스트 채널(physical broadcast channel, PBCH)를 수신하여 셀 내 브로드캐스트 정보를 획득할 수 있다. 한편, UE는 초기 셀 탐색 단계에서 하향링크 참조 신호(downlink reference Signal, DL RS)를 수신하여 하향링크 채널 상태를 확인할 수 있다.
초기 셀 탐색을 마친 UE는 물리 하향링크 제어 채널(physical downlink control channel, PDCCH) 및 상기 PDCCH에 실린 정보에 따라 물리 하향링크 공유 채널(physical downlink shared Channel, PDSCH)을 수신함으로써 좀더 구체적인 시스템 정보를 획득할 수 있다(S202).
한편, BS에 최초로 접속하거나 신호 전송을 위한 무선 자원이 없는 경우 UE는 BS에 대해 임의 접속 과정(random access procedure, RACH)을 수행할 수 있다(단계 S203 내지 단계 S206). 이를 위해, UE는 물리 임의 접속 채널(physical random access Channel, PRACH)을 통해 특정 시퀀스를 프리앰블로서 전송하고(S203 및 S205), PDCCH 및 대응하는 PDSCH를 통해 프리앰블에 대한 임의 접속 응답(random access response, RAR) 메시지를 수신할 수 있다(S204 및 S206). 경쟁 기반 RACH의 경우, 추가적으로 충돌 해결 과정(contention resolution procedure)를 수행할 수 있다. 상기 임의 접속 과정은 하기 G.에서 더 상세히 설명된다.
상술한 바와 같은 과정을 수행한 UE는 이후 일반적인 상향링크/하향링크 신호 전송 과정으로서 PDCCH/PDSCH 수신(S207) 및 물리 상향링크 공유 채널(physical uplink shared Channel, PUSCH)/물리 상향링크 제어 채널(physical uplink control channel, PUCCH) 전송(S208)을 수행할 수 있다. 특히 UE는 PDCCH를 통하여 하향링크 제어 정보(downlink control information, DCI)를 수신한다.
UE는 해당 탐색 공간 설정(configuration)들에 따라 서빙 셀 상의 하나 이상의 제어 요소 세트(control element set, CORESET)들에 설정된 모니터링 기회(occasion)들에서 PDCCH 후보(candidate)들의 세트를 모니터링한다. UE가 모니터할 PDCCH 후보들의 세트는 탐색 공간 세트들의 면에서 정의되며, 탐색 공간 세트는 공통 탐색 공간 세트 또는 UE-특정 탐색 공간 세트일 수 있다. CORESET은 1~3개 OFDM 심볼들의 시간 지속기간을 갖는 (물리) 자원 블록들의 세트로 구성된다. 네트워크는 UE가 복수의 CORESET들을 갖도록 설정할 수 있다. UE는 하나 이상의 탐색 공간 세트들 내 PDCCH 후보들을 모니터링한다. 여기서 모니터링이라 함은 탐색 공간 내 PDCCH 후보(들)에 대한 디코딩 시도하는 것을 의미한다. UE가 탐색 공간 내 PDCCH 후보들 중 하나에 대한 디코딩에 성공하면, 상기 UE는 해당 PDCCH 후보에서 PDCCH를 검출했다고 판단하고, 상기 검출된 PDCCH 내 DCI를 기반으로 PDSCH 수신 혹은 PUSCH 전송을 수행한다.
PDCCH는 PDSCH 상의 DL 전송들 및 PUSCH 상의 UL 전송들을 스케줄링하는 데 사용될 수 있다. 여기서 PDCCH 상의 DCI는 하향링크 공유 채널과 관련된, 변조(modulation) 및 코딩 포맷과 자원 할당(resource allocation) 정보를 적어도 포함하는 하향링크 배정(assignment)(즉, downlink grant; DL grant), 또는 상향링크 공유 채널과 관련된, 변조 및 코딩 포맷과 자원 할당 정보를 포함하는 상향링크 그랜트(uplink grant; UL grant)를 포함한다.
F. 초기 접속 (Initial Access, IA) 과정
SSB (Synchronization Signal Block) 전송 및 관련 동작
도 9는 SSB 구조를 예시한다. UE는 SSB에 기반하여 셀 탐색(search), 시스템 정보 획득, 초기 접속을 위한 빔 정렬, DL 측정 등을 수행할 수 있다. SSB는 SS/PBCH(Synchronization Signal/Physical Broadcast channel) 블록과 혼용된다.
도 9를 참조하면, SSB는 PSS, SSS와 PBCH로 구성된다. SSB는 4개의 연속된 OFDM 심볼들에 구성되며, OFDM 심볼별로 PSS, PBCH, SSS/PBCH 또는 PBCH가 전송된다. PSS와 SSS는 각각 1개의 OFDM 심볼과 127개의 부반송파들로 구성되고, PBCH는 3개의 OFDM 심볼과 576개의 부반송파들로 구성된다. PBCH에는 폴라(Polar) 코드를 기반으로 인코딩/디코딩되고, QPSK(Quadrature Phase Shift Keying)에 따라 변조(modulation)/복조(demodulation)된다. OFDM 심볼 내 PBCH는 PBCH의 복소 변조 값이 매핑되는 데이터 자원 요소(resource element, RE)들과 상기 PBCH를 위한 복조 참조 신호(demodulation reference signal, DMRS)가 매핑되는 DMRS RE들로 구성된다. OFDM 심볼의 자원 블록별로 3개의 DMRS RE가 존재하며, DMRS RE 사이에는 3개의 데이터 RE가 존재한다.
셀 탐색(search)
셀 탐색은 UE가 셀의 시간/주파수 동기를 획득하고, 상기 셀의 셀 ID(Identifier)(예, Physical layer Cell ID, PCI)를 검출하는 과정을 의미한다. PSS는 셀 ID 그룹 내에서 셀 ID를 검출하는데 사용되고, SSS는 셀 ID 그룹을 검출하는데 사용된다. PBCH는 SSB (시간) 인덱스 검출 및 하프-프레임 검출에 사용된다.
UE의 셀 탐색 과정은 하기 표 1과 같이 정리될 수 있다.
Type of Signals Operations
1st step PSS * SS/PBCH block (SSB) symbol timing acquisition* Cell ID detection within a cell ID group(3 hypothesis)
2nd Step SSS * Cell ID group detection (336 hypothesis)
3rd Step PBCH DMRS * SSB index and Half frame (HF) index(Slot and frame boundary detection)
4th Step PBCH * Time information (80 ms, System Frame Number (SFN), SSB index, HF)* Remaining Minimum System Information (RMSI) Control resource set (CORESET)/Search space configuration
5th Step PDCCH and PDSCH * Cell access information* RACH configuration
336개의 셀 ID 그룹이 존재하고, 셀 ID 그룹 별로 3개의 셀 ID가 존재한다. 총 1008개의 셀 ID가 존재한다. 셀의 셀 ID가 속한 셀 ID 그룹에 관한 정보는 상기 셀의 SSS를 통해 제공/획득되며, 상기 셀 ID 내 336개 셀들 중 상기 셀 ID에 관한 정보는 PSS를 통해 제공/획득된다도 10은 SSB 전송을 예시한다.
SSB는 SSB 주기(periodicity)에 맞춰 주기적으로 전송된다. 초기 셀 탐색 시에 UE가 가정하는 SSB 기본 주기는 20ms로 정의된다. 셀 접속 후, SSB 주기는 네트워크(예, BS)에 의해 {5ms, 10ms, 20ms, 40ms, 80ms, 160ms} 중 하나로 설정될 수 있다. SSB 주기의 시작 부분에 SSB 버스트(burst) 세트가 구성된다. SSB 버스트 세트는 5ms 시간 윈도우(즉, 하프-프레임)로 구성되며, SSB는 SS 버스트 세트 내에서 최대 L번 전송될 수 있다. SSB의 최대 전송 횟수 L은 반송파의 주파수 대역에 따라 다음과 같이 주어질 수 있다. 하나의 슬롯은 최대 2개의 SSB를 포함한다.
- For frequency range up to 3 GHz, L = 4
- For frequency range from 3GHz to 6 GHz, L = 8
- For frequency range from 6 GHz to 52.6 GHz, L = 64
SS 버스트 세트 내에서 SSB 후보의 시간 위치가 부반송파 간격에 따라 정의될 수 있다. SSB 후보의 시간 위치는 SSB 버스트 세트(즉, 하프-프레임) 내에서 시간 순서에 따라 0 ~ L-1로 인덱싱된다(SSB 인덱스).
반송파의 주파수 폭(span) 내에서 다수의 SSB들이 전송될 있다. 이러한 SSB들의 물리 계층 셀 식별자들은 고유(unique)할 필요는 없으며, 다른 SSB들은 다른 물리 계층 셀 식별자를 가질 수 있다.
UE는 SSB를 검출함으로써 DL 동기를 획득할 수 있다. UE는 검출된 SSB (시간) 인덱스에 기반하여 SSB 버스트 세트의 구조를 식별할 수 있고, 이에 따라 심볼/슬롯/하프-프레임 경계를 검출할 수 있다. 검출된 SSB가 속하는 프레임/하프-프레임의 번호는 시스템 프레임 번호(system frame number, SFN) 정보와 하프-프레임 지시 정보를 이용하여 식별될 수 있다.
구체적으로, UE는 PBCH로부터 상기 PBCH가 속한 프레임에 대한 10 비트 SFN을 획득할 수 있다. 다음으로, UE는 1 비트 하프-프레임 지시 정보를 획득할 수 있다. 예를 들어, UE가 하프-프레임 지시 비트가 0으로 세팅된 PBCH를 검출한 경우에는 상기 PBCH가 속한 SSB가 프레임 내 첫 번째 하프-프레임에 속한다고 판단할 수 있고, 하프-프레임 지시 비트가 1로 세팅된 PBCH를 검출한 경우에는 상기 PBCH가 속한 SSB가 프레임 내 두 번째 하프-프레임에 속한다고 판단할 수 있다. 마지막으로, UE는 DMRS 시퀀스와 PBCH가 나르는 PBCH 페이로드에 기반하여 상기 PBCH가 속한 SSB의 SSB 인덱스를 획득할 수 있다.
시스템 정보 (system information; SI ) 획득
SI는 마스터 정보 블록(master information block, MIB)와 복수의 시스템 정보 블록(system information block, SIB)들로 나눠진다. MIB 외의 SI는 RMSI(Remaining Minimum System Information)으로 지칭될 수 있다. 자세한 사항은 다음을 참조할 수 있다.
- MIB는 SIB1(SystemInformationBlock1)을 나르는 PDSCH를 스케줄링하는 PDCCH의 모니터링을 위한 정보/파라미터를 포함하며 SSB의 PBCH를 통해 BS에 의해 전송된다. 예를 들어, UE는 MIB에 기반하여 Type0-PDCCH 공통 탐색 공간(common search space)을 위한 CORESET(Control Resource Set)이 존재하는지 확인할 수 있다. Type0-PDCCH 공통 탐색 공간은 PDCCH 탐색 공간의 일종이며, SI 메시지를 스케줄링하는 PDCCH를 전송하는 데 사용된다. Type0-PDCCH 공통 탐색 공간이 존재하는 경우, UE는 MIB 내의 정보(예, pdcch-ConfigSIB1)에 기반하여 (i) CORESET을 구성하는 복수의 인접(contiguous) 자원 블록들 및 하나 이상의 연속된(consecutive) 심볼들과 (ii) PDCCH 기회(occasion)(예, PDCCH 수신을 위한 시간 도메인 위치)를 결정할 수 있다. Type0-PDCCH 공통 탐색 공간이 존재하지 않는 경우, pdcch-ConfigSIB1은 SSB/SIB1이 존재하는 주파수 위치와 SSB/SIB1이 존재하지 않는 주파수 범위에 관한 정보를 제공한다.
- SIB1은 나머지 SIB들(이하, SIBx, x는 2 이상의 정수)의 가용성(availability) 및 스케줄링(예, 전송 주기, SI-윈도우 크기)과 관련된 정보를 포함한다. 예를 들어, SIB1은 SIBx가 주기적으로 브로드캐스트되는지 on-demand 방식에 의해 UE의 요청에 의해 제공되는지 여부를 알려줄 수 있다. SIBx가 on-demand 방식에 의해 제공되는 경우, SIB1은 UE가 SI 요청을 수행하는 데 필요한 정보를 포함할 수 있다. SIB1은 PDSCH를 통해 전송되며, SIB1을 스케줄링 하는 PDCCH는 Type0-PDCCH 공통 탐색 공간을 통해 전송되며, SIB1은 상기 PDCCH에 의해 지시되는 PDSCH를 통해 전송된다.
- SIBx는 SI 메시지에 포함되며 PDSCH를 통해 전송된다. 각각의 SI 메시지는 주기적으로 발생하는 시간 윈도우(즉, SI-윈도우) 내에서 전송된다.
G. 임의 접속(Random Access) 과정
UE의 임의 접속 과정은 표 2 및 도 11과 같이 요약할 수 있다.
신호의 타입 획득되는 동작/정보
제 1단계 UL에서의 PRACH 프리앰블(preamble) * 초기 빔 획득* 임의 접속 프리앰블 ID의 임의 선택
제 2단계 PDSCH 상의 임의 접속 응답 * 타이밍 어드밴스 정보* 임의 접속 프리앰블 ID* 초기 UL 그랜트, 임시 C-RNTI
제 3단계 PUSCH 상의 UL 전송 * RRC 연결 요청* UE 식별자
제 4단계 DL 상의 경쟁 해결(contention resolution) * 초기 접속을 위한 PDCCH 상의 임시 C-RNTI* RRC_CONNECTED인 UE에 대한 PDCCH 상의 C-RNTI
임의 접속 과정은 다양한 용도로 사용된다. 예를 들어, 임의 접속 과정은 네트워크 초기 접속, 핸드오버, UE-트리거드(triggered) UL 데이터 전송에 사용될 수 있다. UE는 임의 접속 과정을 통해 UL 동기와 UL 전송 자원을 획득할 수 있다. 임의 접속 과정은 경쟁 기반(contention-based) 임의 접속 과정과 경쟁 프리(contention free) 임의 접속 과정으로 구분된다. 도 11은 임의 접속 과정의 일례를 예시한다. 특히 도 11은 경쟁 기반 임의 접속 과정을 예시한다.
먼저, UE가 UL에서 임의 접속 과정의 Msg1로서 임의 접속 프리앰블을 PRACH를 통해 전송할 수 있다.
서로 다른 두 길이를 가지는 임의 접속 프리앰블 시퀀스들이 지원된다. 긴 시퀀스 길이 839는 1.25 및 5 kHz의 부반송파 간격(subcarrier spacing)에 대해 적용되며, 짧은 시퀀스 길이 139는 15, 30, 60 및 120 kHz의 부반송파 간격에 대해 적용된다.
다수의 프리앰블 포맷들이 하나 또는 그 이상의 RACH OFDM 심볼들 및 서로 다른 순환 프리픽스(cyclic prefix) (및/또는 가드 시간(guard time))에 의해 정의된다. 셀을 위한 RACH 설정(configuration)이 상기 셀의 시스템 정보에 포함되어 UE에게 제공된다. 상기 RACH 설정은 PRACH의 부반송파 간격, 이용 가능한 프리앰블들, 프리앰블 포맷 등에 관한 정보를 포함한다. 상기 RACH 설정은 SSB들과 RACH (시간-주파수) 자원들 간의 연관 정보를 포함한다. UE는 검출한 혹은 선택한 SSB와 연관된 RACH 시간-주파수 자원에서 임의 접속 프리앰블을 전송한다.
RACH 자원 연관을 위한 SSB의 임계값이 네트워크에 의해 설정될 수 있으며, SSB 기반으로 측정된 참조 신호 수신 전력(reference signal received power, RSRP)가 상기 임계값을 충족하는 SSB를 기반으로 RACH 프리앰블의 전송 또는 재전송이 수행된다. 예를 들어, UE는 임계값을 충족하는 SSB(들) 중 하나를 선택하고, 선택된 SSB에 연관된 RACH 자원을 기반으로 RACH 프리앰블을 전송 또는 재전송할 수 있다.
BS가 UE로부터 임의 접속 프리앰블을 수신하면, BS는 임의 접속 응답(random access response, RAR) 메시지(Msg2)를 상기 UE에게 전송한다. RAR을 나르는 PDSCH를 스케줄링하는 PDCCH는 임의 접속(random access, RA) 무선 네트워크 임시 식별자(radio network temporary identifier, RNTI)(RA-RNTI)로 CRC 마스킹되어 전송된다. RA-RNTI로 마스킹된 PDCCH를 검출한 UE는 상기 PDCCH가 나르는 DCI가 스케줄링하는 PDSCH로부터 RAR을 수신할 수 있다. UE는 자신이 전송한 프리앰블, 즉, Msg1에 대한 임의 접속 응답 정보가 상기 RAR 내에 있는지 확인한다. 자신이 전송한 Msg1에 대한 임의 접속 정보가 존재하는지 여부는 상기 UE가 전송한 프리앰블에 대한 임의 접속 프리앰블 ID가 존재하는지 여부에 의해 판단될 수 있다. Msg1에 대한 응답이 없으면, UE는 전력 램핑(power ramping)을 수행하면서 RACH 프리앰블을 소정의 횟수 이내에서 재전송할 수 있다. UE는 가장 최근의 경로 손실 및 전력 램핑 카운터를 기반으로 프리앰블의 재전송에 대한 PRACH 전송 전력을 계산한다.
임의 접속 응답 정보는 UL 동기화를 위한 타이밍 어드밴스 정보, UL 그랜트 및 UE 임시UE가 PDSCH 상에서 자신에 대한 임의 접속 응답 정보를 수신하면, 상기 UE는 UL 동기화를 위한 타이밍 어드밴스(timing advance) 정보, 초기 UL 그랜트, UE 임시(temporary) 셀 RNTI(cell RNTI, C-RNTI)를 알 수 있다. 상기 타이밍 어드밴스 정보는 상향링크 신호 전송 타이밍을 제어하는 데 사용된다. UE에 의한 PUSCH/PUCCH 전송이 네트워크 단에서 서브프레임 타이밍과 더 잘 정렬(align)되도록 하기 위해, 네트워크(예, BS)는 PUSCH/PUCCH/SRS 수신 및 서브프레임 간 시간 차이를 측정하고 이를 기반으로 타이밍 어드밴스 정보를 보낼 수 있다. 상기 UE는 임의 접속 응답 정보를 기반으로 상향링크 공유 채널 상에서 UL 전송을 임의 접속 과정의 Msg3로서 전송할 수 있다. Msg3은 RRC 연결 요청 및 UE 식별자를 포함할 수 있다. Msg3에 대한 응답으로서, 네트워크는 Msg4를 전송할 수 있으며, 이는 DL 상에서의 경쟁 해결 메시지로 취급될 수 있다. Msg4를 수신함으로써, UE는 RRC 연결된 상태에 진입할 수 있다.
한편, 경쟁-프리 임의 접속 과정은 UE가 다른 셀 혹은 BS로 핸드오버 하는 과정에서 사용되거나, BS의 명령에 의해 요청되는 경우에 수행될 수 있다. 경쟁-프리 임의 접속 과정의 기본적인 과정은 경쟁 기반 임의 접속 과정과 유사하다. 다만, UE가 복수의 임의 접속 프리앰블들 중 사용할 프리앰블을 임의로 선택하는 경쟁 기반 임의 접속 과정과 달리, 경쟁-프리 임의 접속 과정의 경우에는 UE가 사용할 프리앰블(이하 전용 임의 접속 프리앰블)이 BS에 의해 상기 UE에게 할당된다. 전용 임의 접속 프리앰블에 대한 정보는 RRC 메시지(예, 핸드오버 명령)에 포함되거나 PDCCH 오더(order)를 통해 UE에게 제공될 수 있다. 임의 접속 과정이 개시되면 UE는 전용 임의 접속 프리앰블을 BS에게 전송한다. 상기 UE가 상기 BS로부터 임의 접속 과정을 수신하면 상기 임의 접속 과정은 완료(complete)된다.
앞서 언급한 바와 같이 RAR 내 UL 그랜트는 UE에게 PUSCH 전송을 스케줄링한다. RAR 내 UL 그랜트에 의한 초기 UL 전송을 나르는 PUSCH는 Msg3 PUSCH로 칭하기도 한다. RAR UL 그랜트의 컨텐츠는 MSB에서 시작하여 LSB에서 끝나며, 표 3에서 주어진다.
RAR UL grant field Number of bits
Frequency hopping flag 1
Msg3 PUSCH frequency resource allocation 12
Msg3 PUSCH time resource allocation 4
Modulation and coding scheme (MCS) 4
Transmit power control (TPC) for Msg3 PUSCH 3
CSI request 1
TPC 명령은 Msg3 PUSCH의 전송 전력을 결정하는 데 사용되며, 예를 들어, 표 4에 따라 해석된다.
TPC command value [dB]
0 -6
1 -4
2 -2
3 0
4 2
5 4
6 6
7 8
경쟁 프리 임의 접속 과정에서, RAR UL 그랜트 내 CSI 요청 필드는 UE가 비주기적 CSI 보고를 해당 PUSCH 전송에 포함시킬 것인지 여부를 지시한다. Msg3 PUSCH 전송을 위한 부반송파 간격은 RRC 파라미터에 의해 제공된다. UE는 동일한 서비스 제공 셀의 동일한 상향링크 반송파 상에서 PRACH 및 Msg3 PUSCH을 전송하게 될 것이다. Msg3 PUSCH 전송을 위한 UL BWP는 SIB1(SystemInformationBlock1)에 의해 지시된다.
H. DL 및 UL 전송/수신 동작
DL 전송/수신 동작
하향링크 그랜트(downlink grant)(하향링크 배정(assignment)이라고도 함)는 (1) 동적 그랜트(dynamic)와 (2) 설정된 그랜트(configured grant)로 구분될 수 있다. 동적 그랜트(dynamic grant)는 자원의 활용을 최대화하기 위한 것으로 BS에 의한 동적 스케줄링 기반의 데이터 전송/수신 방법을 의미한다.
BS는 DCI를 통해 하향링크 전송을 스케줄링한다. UE는 BS로부터 하향링크 스케줄링을 위한(즉, PDSCH의 스케줄링 정보를 포함하는) DCI를 PDCCH 상에서 수신한다. 하향링크 스케줄링을 위해 DCI 포맷 1_0 또는 1_1이 이용될 수 있다. 하향링크 스케줄링을 위한 DCI 포맷 1_1에는, 예를 들어, 다음과 같은 정보가 포함될 수 있다: DCI 포맷 식별자(identifier for DCI format), 대역폭 파트 지시자(bandwidth part indicator), 주파수 도메인 자원 배정(frequency domain resource assignment), 시간 도메인 자원 배정(time domain resource assignment), MCS.
UE는 DCI 내 MCS 필드를 기반으로 PDSCH에 대한 변조 차수(modulation order), 목표 코드 레이트(target code rate), 수송 블록 크기(transport block size)를 결정할 수 있다. UE는 주파수 도메인 자원 할당 정보 및 시간 도메인 자원 할당 정보에 따른 시간-주파수 자원에서 PDSCH를 수신할 수 있다.
DL 설정된 그랜트는 준-지속적 스케줄링(semi-persistent scheduling, SPS)라고도 한다. UE는 BS로부터 DL 데이터의 전송을 위한 자원 설정(resource configuration)을 포함하는 RRC 메시지를 수신할 수 있다. DL SPS의 경우에는 실제 DL 설정된 그랜트가 PDCCH에 의해 제공되며 상기 PDCCH에 의해 활성화 혹은 활성해제(deactivate)된다. DL SPS가 설정되는 경우, BS로부터의 RRC 시그널링을 통해 적어도 다음 파라미터들이 UE에게 제공된다: 활성화, 활성해제 및 재전송을 위한 설정된 스케줄링 RNTI(configured scheduling RNTI, CS-RNTI); 및 주기. DL SPS의 실제 DL 그랜트는 CS-RNTI에 어드레스된 PDCCH 내 DCI에 의해 UE에게 제공된다. UE는 CS-RNTI에 어드레스된 PDCCH 내 DCI의 특정 필드들이 스케줄링 활성화를 위한 특정 값으로 세팅되어 있으면, 상기 CS-RNTI와 연관된 SPS를 활성화한다. UE는 SPS를 기반으로 PDSCH를 통한 하향링크 데이터를 수신할 수 있다.
UL 전송/수신 동작
BS는 상향링크 스케줄링 정보를 포함하는 DCI를 UE에게 전송한다. 상기 UE는 BS로부터 상향링크 스케줄링을 위한(즉, PUSCH의 스케줄링 정보를 포함하는) DCI를 PDCCH 상에서 수신한다. 상향링크 스케줄링을 위해 DCI 포맷 0_0 또는 0_1이 이용될 수 있다. 상향링크 스케줄링을 위한 DCI 포맷 0_1에는 다음과 같은 정보가 포함될 수 있다: DCI 포맷 식별자(Identifier for DCI format), 대역폭 파트 지시자(Bandwidth part indicator), 주파수 도메인 자원 배정(frequency domain resource assignment), 시간 도메인 자원 배정(time domain resource assignment), MCS.
상기 UE는 상기 DCI를 기반으로 상향링크 데이터를 PUSCH 상에서 전송한다. 예를 들어, UE가 DCI 포맷 0_0 또는 0_1을 포함하는 PDCCH를 검출(detect)하면, 해당 DCI에 의한 지시에 따라 해당 PUSCH를 전송한다. PUSCH 전송을 위해 2가지의 전송 방식이 지원된다: 코드북(codebook) 기반 전송 및 비-코드북(non-codebook) 기반 전송.
RRC 파라미터 'txConfig'가 'codebook'으로 세팅된 RRC 메시지를 수신하면, UE는 코드북 기반 전송으로 설정된다. 반면, RRC 파라미터 'txConfig'가 'nonCodebook'으로 세팅된 RRC 메시지를 수신하면, UE는 비-코드북 기반 전송으로 설정된다. PUSCH는 DCI 포맷 0_0에 의해, DCI 포맷 0_1에 의해 또는 RRC 시그널링에 의해 준-정적으로(semi-statically) 스케줄링될 수 있다.
상향링크 그랜트(uplink grant)는 (1) 동적 그랜트(dynamic grant)와 (2) 설정된 그랜트(configured grant)로 구분될 수 있다.
도 12는 상향링크 그랜트의 일례를 나타낸다. 도 12(a)는 동적 그랜트를 기반으로 한 UL 전송 과정을 예시하고, 도 12(b)는 설정된 그랜트를 기반으로 한 UL 전송 과정을 예시한다.
동적 그랜트(dynamic grant)는 자원의 활용을 최대화하기 위한 것으로 BS에 의한 동적 스케줄링 기반의 데이터 전송/수신 방법을 의미한다. 이는 UE가 전송할 데이터가 있는 경우 우선적으로 BS에게 상향링크 자원 할당을 요청하고, BS로부터 할당된 상향링크 자원만을 이용하여 데이터를 전송할 수 있음을 의미한다. 상향링크의 무선 자원의 효율적인 사용을 위해서는, BS가 각 UE가 어떤 종류의 데이터를 얼마만큼 상향링크로 전송할 것인지를 알아야 한다. 따라서, UE가 직접 자신이 전송하고자 하는 상향링크 데이터에 관한 정보를 BS으로 전달하고, 상기 BS는 이에 기반하여 상기 UE에게 상향링크 자원을 할당할 수 있다. 이 경우, UE가 BS로 전달하는 상향링크 데이터에 관한 정보는 버퍼 상태 보고(buffer status report, BSR)라고 하며, BSR은 UE 자신의 버퍼에 저장되어 있는 상향링크 데이터의 양과 관련이 있다.
도 12(a)를 참고하면, UE가 BSR의 전송에 이용 가능한 상향링크 무선 자원을 가지고 있지 않을 때, 실제 데이터(actual data)를 위한 상향링크 자원 할당 과정을 예시한다. 예를 들어, UL 데이터 전송에 이용 가능한 UL 그랜트가 없는 UE는 PUSCH를 통해 BSR을 전송할 수도 없으므로, PUCCH를 통한 스케줄링 요청 전송을 시작으로 상향링크 데이터를 위한 자원을 요청해야 하며, 이 경우 5단계의 상향링크 자원 할당 과정이 사용된다.
도 12(a)를 참고하면, BSR를 전송하기 위한 PUSCH 자원이 없는 경우, UE는 PUSCH 자원을 할당받기 위해 먼저 스케줄링 요청(scheduling request, SR)을 BS에 전송한다. SR은 보고 이벤트(reporting event)가 발생되었으나 UE에게 이용 가능한 PUSCH 자원이 없는 경우, UE가 상향링크 전송을 위한 PUSCH 자원을 BS에게 요청하기 위해 이용된다. SR을 위한 유효한(valid) PUCCH 자원이 있는지 여부에 따라 UE는 PUCCH를 통해 SR을 전송하거나 또는 임의 접속 과정을 개시한다. UE가 BS로부터 UL 그랜트를 수신하면, 상기 UL 그랜트에 의해 할당된 PUSCH 자원을 통해 BSR을 BS로 전송한다. BS는 BSR을 기반으로 UE가 상향링크로 전송할 데이터의 양을 확인하고 UL 그랜트를 UE에 전송한다. 상기 UL 그랜트를 수신한 UE는 상기 UL 그랜트를 기반으로 PUSCH를 통해 실제 상향링크 데이터를 BS로 전송한다.
도 12(b)를 참고하면, UE는 BS로부터 UL 데이터의 전송을 위한 자원 설정(resource configuration)을 포함하는 RRC 메시지를 수신한다. NR 시스템에서는 2가지 타입의 UL 설정된 그랜트가 있다: 타입 1 및 타입 2. UL 설정된 그랜트 타입 1의 경우에는 실제 UL 그랜트(예, 시간 자원, 주파수 자원)가 RRC 시그널링에 의해 제공되며, UL 설정된 그랜트 타입 2의 경우에는 실제 UL 그랜트가 PDCCH에 의해 제공되며 상기 PDCCH에 의해 활성화 혹은 활성해제(deactivate)된다. 설정된 그랜트 타입 1이 설정되는 경우, BS로부터의 RRC 시그널링을 통해 적어도 다음 파라미터들이 UE에게 제공된다: 재전송을 위한 CS-RNTI; 설정된 그랜트 타입 1의 주기(periodicity); 슬롯 내 PUSCH를 위한 시작 심볼 인덱스 S 및 심볼 길이 L에 관한 정보; 시간 도메인에서 SFN=0에 대한 자원의 오프셋을 나타내는 시간 도메인 오프셋; 변조 차수, 타겟 코드 레이트 및 수송 블록 크기를 나타내는 MCS 인덱스. 설정된 그랜트 타입 2가 설정되는 경우, BS로부터의 RRC 시그널링을 통해 적어도 다음 파라미터들이 UE에게 제공된다: 활성화, 활성해제 및 재전송을 위한 CS-RNTI; 설정된 그랜트 타입 2의 주기. 설정된 그랜트 타입 2의 실제 UL 그랜트는 CS-RNTI에 어드레스된 PDCCH 내 DCI에 의해 UE에게 제공된다. UE는 CS-RNTI에 어드레스된 PDCCH 내 DCI의 특정 필드들이 스케줄링 활성화를 위한 특정 값으로 세팅되어 있으면, 상기 CS-RNTI와 연관된 설정된 그랜트 타입 2를 활성화한다.
UE는 타입 1 혹은 타입 2에 따른 설정된 그랜트을 기반으로 PUSCH를 통한 상향링크 전송을 수행할 수 있다.
설정된 그랜트(configured grant)에 의한 초기 전송을 위한 자원은 하나 이상의 UE들 사이에서 공유되거나 또는 공유되지 않을 수 있다.
도 13은 상향링크 물리 채널 프로세싱(uplink physical channel processing)의 개념도의 일례를 나타낸다.
도 13에 도시된 블록들 각각은 전송 장치의 물리 계층 블록 내 각 모듈에서 수행될 수 있다. 보다 구체적으로, 도 13에서의 상향링크 신호 처리는 본 명세에서 기재하는 UE/BS의 프로세서에서 수행될 수 있다. 도 13를 참조하면, 상향링크 물리 채널 프로세싱은 스크램블링(scrambling), 변조 매핑(modulation mapping), 레이어 매핑(layer mapping), 트랜스폼 프리코딩(transform precoding), 프리코딩(precoding), 자원 요소 매핑(resource element mapping), SC-FDMA 신호 생성 (SC-FDMA signal generation)의 과정을 거쳐 수행될 수 있다. 위의 각 과정은 전송 장치의 각 모듈에서 별도로 또는 함께 수행될 수 있다. 상기 트랜스폼 프리코딩은 파형(waveform)의 피크-to-평균 전력 비율(peak-to-average power ratio, PAPR)을 감소시키는 특별한 방식으로 UL 데이터를 스프레드하는 것이며, 이산 푸리에 변환(discrete Fourier transform, DFT)의 일종이다. DFT 스프레딩을 수행하는 트랜스폼 프리코딩과 함께 CP를 사용하는 OFDM을 DFT-s-OFDM이라 하고, DFT 스프레딩없이 CP를 사용하는 OFDM을 CP-OFDM이라 한다. NR 시스템에서 UL에 대해 가능화(enable)되면 트랜스폼 프리코딩이 선택적으로(optionally) 적용될 수 있다. 즉, NR 시스템은 UL 파형을 위해 2가지 옵션을 지원하며, 그 중 하나는 CP-OFDM이고, 다른 하나는 DFT-s-OFDM이다. UE가 CP-OFDM을 UL 전송 파형으로 사용해야 하는지 아니면 DFT-s-OFDM을 UL 전송 파형으로 사용해야 하는지는 RRC 파라미터들을 통해 BS로부터 UE에게 제공된다. 도 13은 DFT-s-OFDM을 위한 상향링크 물리 채널 프로세싱 개념도이며, CP-OFDM의 경우에는 도 13의 프로세스들 중 트랜스폼 프리코딩이 생략된다.
위의 각 과정에 대해 보다 구체적으로 살펴보면, 전송 장치는 하나의 코드워드에 대해, 코드워드 내 부호화된 비트(coded bits)를 스크램블링 모듈에 의해 스크램블링한 후 물리 채널을 통해 전송할 수 있다. 여기서 코드워드는 수송 블록을 인코딩하여 얻어진다. 스크램블된 비트는 변조 매핑 모듈에 의해 복소 값 변조 심볼로 변조된다. 상기 변조 매핑 모듈은 상기 스크램블된 비트들을 기결정된 변조 방식에 따라 변조하여 신호 성상(signal constellation) 상의 위치를 표현하는 복소 값 변조 심볼로 배치할 수 있다. pi/2-BPSK(pi/2-Binary Phase Shift Keying), m-PSK(m-Phase Shift Keying) 또는 m-QAM(m-Quadrature Amplitude Modulation) 등이 상기 부호화된 데이터의 변조에 이용될 수 있다. 상기 복소 값 변조 심볼은 레이어 매핑 모듈에 의해 하나 이상의 전송 레이어로 맵핑될 수 있다. 각 레이어 상의 복소 값 변조 심볼은 안테나 포트 상에서의 전송을 위해 프리코딩 모듈에 의해 프리코딩될 수 있다. 트랜스폼 프리코딩이 가능화된 경우, 프리코딩 모듈은 도 13에 도시된 바와 같이 복소 값 변조 심볼들에 대한 트랜스폼 프리코딩(transform precoding)을 수행한 이후에 프리코딩을 수행할 수 있다. 상기 프리코딩 모듈은 상기 복소 값 변조 심볼들을 다중 전송 안테나에 따른 MIMO 방식으로 처리하여 안테나 특정 심볼들을 출력하고, 상기 안테나 특정 심볼들을 해당 자원 요소 매핑 모듈로 분배할 수 있다. 프리코딩 모듈의 출력 z는 레이어 매핑 모듈의 출력 y를 NХM의 프리코딩 행렬 W와 곱해 얻을 수 있다. 여기서, N은 안테나 포트의 개수, M은 레이어의 개수이다. 자원 요소 매핑 모듈은 각 안테나 포트에 대한 복조 값 변조 심볼들을 전송을 위해 할당된 자원 블록 내에 있는 적절한 자원 요소에 맵핑한다. 자원 요소 매핑 모듈은 복소 값 변조 심볼들을 적절한 부반송파들에 매핑하고, 사용자에 따라 다중화할 수 있다. SC-FDMA 신호 생성 모듈(트랜스폼 프리코딩이 불능화(disable)된 경우에는 CP-OFDM 신호 생성 모듈)은 복소 값 변조 심볼을 특정 변조 방식 예컨대, OFDM 방식으로 변조하여 복소 값 시간 도메인(complex-valued time domain) OFDM(Orthogonal Frequency Division Multiplexing) 심볼 신호를 생성할 수 있다. 상기 신호 생성 모듈은 안테나 특정 심볼에 대해 IFFT(Inverse Fast Fourier Transform)를 수행할 수 있으며, IFFT가 수행된 시간 도메인 심볼에는 CP가 삽입될 수 있다. OFDM 심볼은 디지털-아날로그(digital-to-analog) 변환, 주파수 상향변환(upconversion) 등을 거쳐, 각 전송 안테나를 통해 수신 장치로 전송된다. 상기 신호 생성 모듈은 IFFT 모듈 및 CP 삽입기, DAC(Digital-to-Analog Converter), 주파수 상향 변환기(frequency uplink converter) 등을 포함할 수 있다.
수신 장치의 신호 처리 과정은 전송 장치의 신호 처리 과정의 역으로 구성될 수 있다. 구체적인 사항은 위의 내용과 도 13을 참고하기로 한다.
다음으로, PUCCH에 대해 살펴본다.
PUCCH는 다수의 포맷(format)들을 지원하며, PUCCH 포맷들은 심볼 지속기간(symbol duration), 페이로드 크기(payload size), 그리고 다중화(multiplexing) 여부 등에 의해 분류될 수 있다. 아래 표 5는 PUCCH 포맷들을 예시한 것이다.
Format PUCCH length in OFDM symbols Number of bits Usage Etc.
0 1-2 ≤2 1 Sequence selection
1 4-14 ≤2 2 Sequence modulation
2 1-2 >2 4 CP-OFDM
3 4-14 >2 8 DFT-s-OFDM(no UE multiplexing)
4 4-14 >2 16 DFT-s-OFDM(Pre DFT orthogonal cover code(OCC))
표 5의 PUCCH 포맷들은 크게 (1) 짧은(short) PUCCH와, (2) 긴(long) PUCCH로 구분될 수 있다. PUCCH 포맷 0 및 2는 긴 PUCCH에 포함되고, PUCCH 포맷 1, 3 및 4는 긴 PUCCH에 포함될 수 있다.도 14는 PUCCH가 전송되는 NR 슬롯의 일례를 나타낸다.
UE는 하나의 슬롯 내 서로 다른 심볼들에서 서빙 셀(serving cell)을 통해 1 또는 2개의 PUCCH들을 전송한다. UE가 하나의 슬롯에서 2개의 PUCCH들을 전송하는 경우, 상기 2개의 PUCCH들 중 적어도 하나는 짧은 PUCCH의 구조를 가진다.
I. eMBB (enhanced Mobile Broadband communication)
NR 시스템의 경우, 전송/수신 안테나가 크게 증가하는 거대(massive) 다중 입력 다중 출력(multiple input multiple output, MIMO) 환경이 고려될 수 있다. 즉, 거대 MIMO 환경이 고려됨에 따라, 전송/수신 안테나의 수는 수십 또는 수백 개 이상으로 증가할 수 있다. 한편, NR 시스템에서는 above 6GHz 대역, 즉, 밀리미터 주파수 대역에서의 통신을 지원한다. 하지만 밀리미터 주파수 대역은 너무 높은 주파수 대역을 이용하는 것으로 인해 거리에 따른 신호 감쇄가 매우 급격하게 나타나는 주파수 특성을 갖는다. 따라서, 적어도 6GHz 이상의 대역을 사용하는 NR 시스템은 급격한 전파 감쇄 특성을 보상하기 위해 신호 전송을 전방향이 아닌 특정 방향으로 에너지를 모아서 전송하는 빔포밍 기법을 사용한다. 거대 MIMO 환경에서는 하드웨어 구현의 복잡도를 줄이고, 다수의 안테나들을 이용한 성능 증가, 자원 할당의 유연성, 주파수별 빔 제어의 용이를 위해, 빔 형성 가중치 벡터(weight vector)/프리코딩 벡터(precoding vector)를 적용하는 위치에 따라 아날로그 빔포밍(analog beamforming) 기법과 디지털 빔포밍(digital beamforming) 기법이 결합된 하이브리드(hybrid) 형태의 빔포밍 기법이 요구된다.
하이브리드 빔포밍(Hybrid Beamforming)
도 15는 하이브리드 빔포밍(hybrid beamforming)을 위한 전송단 및 수신단의 블록도의 일례를 나타낸 도이다.
밀리미터 주파수 대역에서 좁은 빔을 형성하기 위한 방법으로, BS나 UE에서 많은 수의 안테나에 적절한 위상차를 이용하여 동일한 신호를 전송함으로써 특정한 방향에서만 에너지가 높아지게 하는 빔포밍 방식이 주로 고려되고 있다. 이와 같은 빔포밍 방식에는 디지털 기저대역(baseband) 신호에 위상차를 만드는 디지털 빔포밍, 변조된 아날로그 신호에 시간 지연(즉, 순환 천이)을 이용하여 위상차를 만드는 아날로그 빔포밍, 디지털 빔포밍과 아날로그 빔포밍을 모두 이용하는 하이브리드 빔포밍 등이 있다. 안테나 요소별로 전송 파워 및 위상 조절이 가능하도록 RF 유닛(혹은 트랜시버 유닛(transceiver unit, TXRU))을 가지면 주파수 자원별로 독립적인 빔포밍이 가능하다. 그러나 100여 개의 안테나 요소 모두에 RF 유닛를 설치하기에는 가격 측면에서 실효성이 떨어지는 문제를 있다. 즉, 밀리미터 주파수 대역은 급격한 전파 감쇄 특성을 보상하기 위해 많은 수의 안테나가 사용해야 하고, 디지털 빔포밍은 안테나 수에 해당하는 만큼 RF 컴포넌트(예, 디지털 아날로그 컨버터(DAC), 믹서(mixer), 전력 증폭기(power amplifier), 선형 증폭기(linear amplifier) 등)를 필요로 하므로, 밀리미터 주파수 대역에서 디지털 빔포밍을 구현하려면 통신 기기의 가격이 증가하는 문제점이 있다. 그러므로 밀리미터 주파수 대역과 같이 안테나의 수가 많이 필요한 경우에는 아날로그 빔포밍 혹은 하이브리드 빔포밍 방식의 사용이 고려된다. 아날로그 빔포밍 방식은 하나의 TXRU에 다수 개의 안테나 요소를 매핑하고 아날로그 위상 천이기(analog phase shifter)로 빔(beam)의 방향을 조절한다. 이러한 아날로그 빔포밍 방식은 전체 대역에 있어서 하나의 빔 방향만을 만들 수 있어 주파수 선택적 빔포밍(beamforming, BF)을 해줄 수 없는 단점이 있다. 하이브리드 BF는 디지털 BF와 아날로그 BF의 중간 형태로 Q개의 안테나 요소보다 적은 개수인 B개의 RF 유닛을 갖는 방식이다. 하이브리드 BF의 경우, B개의 RF 유닛과 Q개의 안테나 요소의 연결 방식에 따라서 차이는 있지만, 동시에 전송할 수 있는 빔의 방향은 B개 이하로 제한되게 된다.
빔 관리(Beam Management, BM)
BM 과정은 하향링크(downlink, DL) 및 상향링크(uplink, UL) 전송/수신에 사용될 수 있는 BS(혹은 전송 및 수신 포인트(transmission and reception point, TRP)) 및/또는 UE 빔들의 세트(set)를 획득하고 유지하기 위한 과정들로서, 아래와 같은 과정 및 용어를 포함할 수 있다.
- 빔 측정(beam measurement): BS 또는 UE가 수신된 빔포밍 신호의 특성을 측정하는 동작.
- 빔 결정(beam determination): BS 또는 UE가 자신의 전송 빔(Tx beam) / 수신 빔(Rx beam)을 선택하는 동작.
- 빔 스위핑(beam sweeping): 미리 결정된 방식으로 일정 시간 인터벌 동안 전송 및/또는 수신 빔을 이용하여 공간 도메인을 커버하는 동작.
- 빔 보고(beam report): UE가 빔 측정에 기반하여 빔포밍된 신호의 정보를 보고하는 동작.
BM 과정은 (1) SSB 또는 CSI-RS를 이용하는 DL BM 과정과, (2) SRS(sounding reference signal)을 이용하는 UL BM 과정으로 구분될 수 있다. 또한, 각 BM 과정은 Tx 빔을 결정하기 위한 Tx 빔 스위핑과 Rx 빔을 결정하기 위한 Rx 빔 스위핑을 포함할 수 있다.
DL BM 과정
DL BM 과정은 (1) BS에 의한 빔포밍된 DL RS들(예, CSI-RS 또는 SSB) 전송과, (2) UE에 의한 빔 보고(beam reporting)를 포함할 수 있다.
여기서, 빔 보고는 선호하는(preferred) DL RS ID(들) 및 이에 대응하는 참조 신호 수신 전력(reference signal received power, RSRP)를 포함할 수 있다. DL RS ID는 SSBRI(SSB Resource Indicator) 또는 CRI(CSI-RS Resource Indicator)일 수 있다.
도 16은 SSB와 CSI-RS를 이용한 빔포밍의 일례를 나타낸다.
도 16과 같이, SSB 빔과 CSI-RS 빔이 빔 측정(beam measurement)을 위해 사용될 수 있다. 측정 메트릭(measurement metric)은 자원(resource)/블록(block) 별 RSRP이다. SSB는 듬성한(coarse) 빔 측정을 위해 사용되며, CSI-RS는 미세한(fine) 빔 측정을 위해 사용될 수 있다. SSB는 Tx 빔 스위핑과 Rx 빔 스위핑 모두에 사용될 수 있다. SSB를 이용한 Rx 빔 스위핑은은 다수의 SSB 버스트들에 걸쳐서(across) 동일 SSBRI에 대해 UE가 Rx 빔을 변경하면서 SSB의 수신을 시도함으로써 수행될 수 있다. 여기서, 하나의 SS 버스트는 하나 또는 그 이상의 SSB들을 포함하고, 하나의 SS 버스트 세트는 하나 또는 그 이상의 SSB 버스트들을 포함한다.
1. SSB를 이용한 DL BM
도 17은 SSB를 이용한 DL BM 과정의 일례를 나타낸 흐름도이다.
SSB를 이용한 빔 보고(beam report)에 대한 설정은 RRC_CONNECTED에서 채널 상태 정보(channel state information, CSI)/빔 설정 시에 수행된다.
- UE는 BM을 위해 사용되는 SSB 자원들에 대한 CSI-SSB-ResourceSetList를 포함하는 CSI-ResourceConfig IE를 BS로부터 수신한다(S410). RRC 파라미터 csi-SSB-ResourceSetList는 하나의 자원 세트에서 빔 관리 및 보고을 위해 사용되는 SSB 자원들의 리스트를 나타낸다. 여기서, SSB 자원 세트는 {SSBx1, SSBx2, SSBx3, SSBx4, 쪋}으로 설정될 수 있다. SSB 인덱스는 0부터 63까지 정의될 수 있다.
- UE는 상기 CSI-SSB-ResourceSetList에 기초하여 SSB 자원들 상의 신호들을 상기 BS로부터 수신한다(S420).
- SSBRI 및 참조 신호 수신 전력(reference signal received power, RSRP)에 대한 보고와 관련된 CSI-RS reportConfig가 설정된 경우, 상기 UE는 최선(best) SSBRI 및 이에 대응하는 RSRP를 BS에게 보고한다(S430). 예를 들어, 상기 CSI-RS reportConfig IE의 reportQuantity가 'ssb-Index-RSRP'로 설정된 경우, UE는 BS으로 최선 SSBRI 및 이에 대응하는 RSRP를 보고한다.
UE는 SSB와 동일한 OFDM 심볼(들)에 CSI-RS 자원이 설정되고, 'QCL-TypeD'가 적용 가능한 경우, 상기 UE는 CSI-RS와 SSB가 'QCL-TypeD' 관점에서 유사 동일 위치된(quasi co-located, QCL) 것으로 가정할 수 있다. 여기서, QCL-TypeD는 공간(spatial) Rx 파라미터 관점에서 안테나 포트들 간에 QCL되어 있음을 의미할 수 있다. UE가 QCL-TypeD 관계에 있는 복수의 DL 안테나 포트들의 신호들을 수신 시에는 동일한 수신 빔을 적용해도 무방하다. QCL에 대한 상세는 하기 4. QCL 단락을 참고한다.
2. CSI-RS를 이용한 DL BM
CSI-RS 용도에 대해 살펴보면, i) 특정 CSI-RS 자원 세트에 대해 반복(repetition) 파라미터가 설정되고 TRS_info가 설정되지 않은 경우, CSI-RS는 빔 관리(beam management)를 위해 사용된다. ii) 반복 파라미터가 설정되지 않고 TRS_info가 설정된 경우, CSI-RS는 트랙킹 참조 신호(tracking reference signal, TRS)을 위해 사용된다. iii) 반복 파라미터가 설정되지 않고 TRS_info가 설정되지 않은 경우, CSI-RS는 CSI 획득(acquisition)을 위해 사용된다.
(RRC 파라미터) 반복이 'ON'으로 설정된 경우, UE의 Rx 빔 스위핑 과정과 관련된다. 반복이 'ON'으로 설정된 경우, UE가 NZP-CSI-RS-ResourceSet을 설정받으면, 상기 UE는 NZP-CSI-RS-ResourceSet 내 적어도 하나의 CSI-RS 자원의 신호들은 동일한 하향링크 공간 도메인 필터로 전송된다고 가정할 수 있다. 즉, NZP-CSI-RS-ResourceSet 내의 적어도 하나의 CSI-RS 자원은 동일한 Tx 빔을 통해 전송된다. 여기서, NZP-CSI-RS-ResourceSet 내 적어도 하나의 CSI-RS 자원의 신호들은 서로 다른 OFDM 심볼로 전송될 수 있다.
반면, 반복이 'OFF'로 설정된 경우는 BS의 Tx 빔 스위핑 과정과 관련된다. 반복이 'OFF'로 설정된 경우, UE는 NZP-CSI-RS-ResourceSet 내의 적어도 하나의 CSI-RS 자원의 신호들이 동일한 하향링크 공간 도메인 전송 필터로 전송된다고 가정하지 않는다. 즉, NZP-CSI-RS-ResourceSet 내의 적어도 하나의 CSI-RS 자원의 신호들은 서로 다른 Tx 빔을 통해 전송된다. 도 18은 CSI-RS를 이용한 DL BM 과정의 또 다른 일례를 나타낸다.
도 18(a)는 UE의 Rx 빔 결정(또는 정제(refinement)) 과정을 나타내며, 도 18(b)는 BS의 Tx 빔 스위핑 과정을 나타낸다. 또한, 도 18(a)는, 반복 파라미터가 'ON'으로 설정된 경우이고, 도 18(b)는, 반복 파라미터가 'OFF'로 설정된 경우이다.
도 18(a) 및 도 19를 참고하여, UE의 Rx 빔 결정 과정에 대해 살펴본다.
도 19는 UE의 수신 빔 결정 과정의 일례를 나타낸 흐름도이다.
- UE는 'repetition'에 관한 RRC 파라미터를 포함하는 NZP CSI-RS resource set IE를 RRC 시그널링을 통해 BS로부터 수신한다(S610). 여기서, 상기 RRC 파라미터 'repetition'이 'ON'으로 세팅되어 있다.
- UE는 상기 RRC 파라미터 'repetition'이 'ON'으로 설정된 CSI-RS 자원 세트 내의 자원(들) 상에서의 신호들을 BS의 동일 Tx 빔(또는 DL 공간 도메인 전송 필터)을 통해 서로 다른 OFDM 심볼에서 반복 수신한다(S620).
- UE는 자신의 Rx 빔을 결정한다(S630).
- UE는 CSI 보고를 생략한다(S640). 즉, UE는 상가 RRC 파라미터 'repetition'이 'ON'으로 설정된 경우, CSI 보고를 생략할 수 있다.
도 18(b) 및 도 20을 참고하여, BS의 Tx 빔 결정 과정에 대해 살펴본다.
도 20은 BS의 전송 빔 결정 과정의 일례를 나타낸 흐름도이다.
- UE는 'repetition'에 관한 RRC 파라미터를 포함하는 NZP CSI-RS resource set IE를 RRC 시그널링을 통해 BS로부터 수신한다(S710). 여기서, 상기 RRC 파라미터 'repetition'이 'OFF'로 세팅되어 있으며, BS의 Tx 빔 스위핑 과정과 관련된다.
- UE는 상기 RRC 파라미터 'repetition'이 'OFF'로 설정된 CSI-RS 자원 세트 내의 자원들 상에서의 신호들을 BS의 서로 다른 Tx 빔(DL 공간 도메인 전송 필터)을 통해 수신한다(S720).
- UE는 최상의(best) 빔을 선택(또는 결정)한다(S730)
- UE는 선택된 빔에 대한 ID(예, CRI) 및 관련 품질 정보(예, RSRP)를 BS으로 보고한다(S740). 즉, UE는 CSI-RS가 BM을 위해 전송되는 경우 CRI와 이에 대한 RSRP를 BS으로 보고한다.
도 21은 도 18의 동작과 관련된 시간 및 주파수 도메인에서의 자원 할당의 일례를 나타낸다.
CSI-RS 자원 세트에 repetition 'ON'이 설정된 경우, 복수의 CSI-RS resource들이 동일한 전송 빔을 적용하여 반복하여 사용되고, CSI-RS 자원 세트에 repetition 'OFF'가 설정된 경우, 서로 다른 CSI-RS resource들이 서로 다른 전송 빔으로 전송될 수 있다.
3. DL BM 관련 빔 지시(beam indication)
UE는 적어도 QCL(Quasi Co-location) 지시를 위한 최대 M 개의 후보(candidate) 전송 설정 지시 (Transmission Configuration Indication, TCI) 상태(state)들에 대한 리스트를 RRC 시그널링을 통해 수신할 수 있다. 여기서, M은 UE 능력(capability)에 의존하며, 64일 수 있다.
각 TCI 상태는 하나의 참조 신호(reference signal, RS) 세트를 가지고 설정될 수 있다. 표 6은 TCI-State IE의 일례를 나타낸다. TCI-State IE는 하나 또는 두 개의 DL 참조 신호(reference signal, RS) 대응하는 유사 공동-위치(quasi co-location, QCL) 타입과 연관된다.
-- ASN1START-- TAG-TCI-STATE-STARTTCI-State ::= SEQUENCE { tci-StateId TCI-StateId, qcl-Type1 QCL-Info, qcl-Type2 QCL-Info OPTIONAL, -- Need R ...}QCL-Info ::= SEQUENCE { cell ServCellIndex OPTIONAL, -- Need R bwp-Id BWP-Id OPTIONAL, -- Cond CSI-RS-Indicated referenceSignal CHOICE { csi-rs NZP-CSI-RS-ResourceId, ssb SSB-Index }, qcl-Type ENUMERATED {typeA, typeB, typeC, typeD}, ...}-- TAG-TCI-STATE-STOP-- ASN1STOP
표 6에서, 'bwp-Id'는 RS가 위치되는 DL BWP를 나타내며, 'cell'은 RS가 위치되는 반송파를 나타내며, 'referencesignal'은 타겟 안테나 포트(들)에 대해 유사 공동-위치의 소스(source)가 되는 참조 안테나 포트(들) 혹은 이를 포함하는 참조 신호를 나타낸다. 상기 타겟 안테나 포트(들)은 CSI-RS, PDCCH DMRS, 또는 PDSCH DMRS 일 수 있다.
4. QCL(Quasi-Co Location)
UE는 상기 UE 및 주어진 주어진 셀에 대해 의도된(intended) DCI를 가지는 검출된 PDCCH에 따라 PDSCH를 디코딩하기 위해, 최대 M개의 TCI-상태 설정들을 포함하는 리스트를 수신할 있다. 여기서, M은 UE 능력(capability)에 의존한다.
표 6에 예시된 바와 같이, 각각의 TCI-State는 하나 또는 두 개의 DL RS와 PDSCH의 DM-RS 포트 간에 QCL 관계를 설정하기 위한 파라미터를 포함한다. QCL 관계는 첫 번째 DL RS에 대한 RRC 파라미터 qcl-Type1과 두 번째 DL RS에 대한 qcl-Type2 (설정된 경우)를 가지고 설정된다.
각 DL RS에 대응하는 QCL 타입은 QCL-Info 내 파라미터 'qcl-Type'에 의해 주어지며, 다음 값 중 하나를 취할 수 있다:
- 'QCL-TypeA': {Doppler shift, Doppler spread, average delay, delay spread}
- 'QCL-TypeB': {Doppler shift, Doppler spread}
- 'QCL-TypeC': {Doppler shift, average delay}
- 'QCL-TypeD': {Spatial Rx parameter}
예를 들어, 타겟 안테나 포트가 특정 NZP CSI-RS 인 경우, 해당 NZP CSI-RS 안테나 포트들은 QCL-Type A관점에서는 특정 TRS와, QCL-Type D관점에서는 특정 SSB과 QCL되었다고 지시/설정될 수 있다. 이러한 지시/설정을 받은 UE는 QCL-TypeA TRS에서 측정된 도플러, 딜레이 값을 이용해서 해당 NZP CSI-RS를 수신하고, QCL-TypeD SSB 수신에 사용된 수신 빔을 해당 NZP CSI-RS 수신에 적용할 수 있다.
UL BM 과정
UL BM은 UE 구현에 따라 Tx 빔 - Rx 빔 간 빔 상호관계(reciprocity)(또는 빔 대응성)가 성립할 수 있거나 또는, 성립하지 않을 수 있다. 만약 BS와 UE 모두에서 Tx 빔 - Rx 빔 간 상호관계가 성립하는 경우, DL 빔 쌍(pair)를 통해 UL 빔 쌍을 맞출 수 있다. 하지만, BS와 UE 중 어느 하나라도 Tx 빔 - Rx 빔 간 상호관계가 성립하지 않는 경우, DL 빔 쌍 결정과 별개로 UL 빔 쌍 결정 과정이 필요하다.
또한, BS와 UE 모두 빔 대응성을 유지하고 있는 경우에도, UE가 선호(preferred) 빔의 보고를 요청하지 않고도 BS는 DL Tx 빔 결정을 위해 UL BM 과정을 사용할 수 있다.
UL BM은 빔포밍된 UL SRS 전송을 통해 수행될 수 있으며, SRS 자원 세트의 UL BM의 적용 여부는 (RRC 파라미터) 용도(usage)에 RRC 파라미터의해 설정된다. 용도가 'BeamManagement(BM)'로 설정되면, 주어진 시간 순간(time instant)에 복수의 SRS 자원 세트들 각각에 하나의 SRS 자원만 전송될 수 있다.
UE는 (RRC 파라미터) SRS-ResourceSet에 의해 설정되는 하나 또는 그 이상의 사운딩 참조 신호(sounding reference signal, SRS) 자원 세트들을 (RRC 시그널링 등을 통해) 설정받을 수 있다. 각각의 SRS 자원 세트에 대해, UE는 K≥1 SRS 자원들이 설정될 수 있다. 여기서, K는 자연수이며, K의 최대 값은 SRS_capability에 의해 지시된다.
DL BM과 마찬가지로, UL BM 과정도 UE의 Tx 빔 스위핑과 BS의 Rx 빔 스위핑으로 구분될 수 있다.
도 22는 SRS를 이용한 UL BM 과정의 일례를 나타낸다.
도 22(a)는 BS의 Rx 빔포밍 결정 과정을 나타내고, 도 22(b)는 UE의 Tx 빔 스위핑 과정을 나타낸다.
도 23은 SRS를 이용한 UL BM 과정의 일례를 나타낸 흐름도이다.
- UE는 'beam management'로 설정된 (RRC 파라미터) 용도 파라미터를 포함하는 RRC 시그널링(예, SRS-Config IE)를 BS로부터 수신한다(S1010). SRS-Config IE는 SRS 전송 설정을 위해 사용된다. SRS-Config IE는 SRS-Resources의 리스트와 SRS-ResourceSet들의 리스트를 포함한다. 각 SRS 자원 세트는 SRS-resource들의 세트를 의미한다.
- UE는 상기 SRS-Config IE에 포함된 SRS-SpatialRelation Info에 기초하여 전송할 SRS 자원에 대한 Tx 빔포밍을 결정한다(S1020). 여기서, SRS-SpatialRelation Info는 SRS 자원별로 설정되고, SRS 자원별로 SSB, CSI-RS 또는 SRS에서 사용되는 빔포밍과 동일한 빔포밍을 적용할지를 나타낸다.
- 만약 SRS 자원에 SRS-SpatialRelationInfo가 설정되면 SSB, CSI-RS 또는 SRS에서 사용되는 빔포밍과 동일한 빔포밍을 적용하여 전송한다. 하지만, SRS 자원에 SRS-SpatialRelationInfo가 설정되지 않으면, 상기 UE는 임의로 Tx 빔포밍을 결정하여 결정된 Tx 빔포밍을 통해 SRS를 전송한다(S1030).
보다 구체적으로, 'SRS-ResourceConfigType'가 'periodic'으로 설정된 P-SRS에 대해:
i) SRS-SpatialRelationInfo가 'SSB/PBCH'로 설정되는 경우, UE는 SSB/PBCH의 수신을 위해 사용한 공간 도메인 Rx 필터와 동일한 (혹은 해당 필터로부터 생성된) 공간 도메인 전송 필터를 적용하여 해당 SRS를 전송한다; 또는
ii) SRS-SpatialRelationInfo가 'CSI-RS'로 설정되는 경우, UE는 CSI-RS의 수신을 위해 사용되는 동일한 공간 도메인 전송 필터를 적용하여 SRS를 전송한다; 또는
iii) SRS-SpatialRelationInfo가 'SRS'로 설정되는 경우, UE는 SRS의 전송을 위해 사용된 동일한 공간 도메인 전송 필터를 적용하여 해당 SRS를 전송한다.
- 추가적으로, UE는 BS로부터 SRS에 대한 피드백을 다음 3가지 경우와 같이, 수신받거나 또는 수신받지 않을 수 있다(S1040).
i) SRS 자원 세트 내의 모든 SRS 자원들에 대해 Spatial_Relation_Info가 설정되는 경우, UE는 BS가 지시한 빔으로 SRS를 전송한다. 예를 들어, Spatial_Relation_Info가 모두 동일한 SSB, CRI 또는 SRI를 지시하는 경우, UE는 동일 빔으로 SRS를 반복 전송한다.
ii) SRS 자원 세트 내의 모든 SRS 자원들에 대해 Spatial_Relation_Info가 설정되지 않을 수 있다. 이 경우, UE는 자유롭게 SRS 빔포밍을 바꾸어가면서 전송할 수 있다.
iii) SRS 자원 세트 내의 일부 SRS 자원들에 대해서만 Spatial_Relation_Info가 설정될 수 있다. 이 경우, 설정된 SRS 자원에 대해서는 지시된 빔으로 SRS를 전송하고, Spatial_Relation_Info가 설정되지 않은 SRS 자원에 대해서는 UE가 임의로 Tx 빔포밍을 적용해서 전송할 수 있다.
빔 실패 복구(beam failure recovery, BFR) 과정
빔포밍된 시스템에서, RLF(Radio Link Failure)는 UE의 회전(rotation), 이동(movement) 또는 빔포밍 블로키지(blockage)로 인해 자주 발생할 수 있다. 따라서, 잦은 RLF가 발생하는 것을 방지하기 위해 BFR이 NR에서 지원된다. BFR은 무선 링크 실패 복구 과정과 유사하고, UE가 새로운 후보 빔(들)을 아는 경우에 지원될 수 있다.
빔 실패 검출을 위해, BS는 UE에게 빔 실패 검출 참조 신호들을 설정하고, 상기 UE는 상기 UE의 물리 계층으로부터의 빔 실패 지시(indication)들의 횟수가 BS의 RRC 시그널링에 의해 설정된 기간(period) 내에 RRC 시그널링에 의해 설정된 임계치(threshold)에 이르면(reach), 빔 실패를 선언(declare)한다.
빔 실패가 검출된 후, 상기 UE는 PCell 상의 임의 접속 과정을 개시(initiate)함으로써 빔 실패 복구를 트리거하고; 적절한(suitable) 빔을 선택하여 빔 실패 복구를 수행한다(BS가 어떤(certain) 빔들에 대해 전용 임의 접속 자원들을 제공한 경우, 이들이 상기 UE에 의해 우선화된다). 상기 임의 접속 절차의 완료(completion) 시, 빔 실패 복구가 완료된 것으로 간주된다.
J. URLLC (Ultra-Reliable and Low Latency Communication)
NR에서 정의하는 URLLC 전송은 (1) 상대적으로 낮은 트래픽 크기, (2) 상대적으로 낮은 도착 레이트(low arrival rate), (3) 극도의 낮은 레이턴시 요구사항(requirement)(예, 0.5, 1ms), (4) 상대적으로 짧은 전송 지속기간(duration)(예, 2 OFDM symbols), (5) 긴급한 서비스/메시지 등에 대한 전송을 의미할 수 있다.
UL의 경우, 보다 엄격(stringent)한 레이턴시 요구 사항(latency requirement)을 만족시키기 위해 특정 타입의 트래픽(예컨대, URLLC)에 대한 전송이 앞서서 스케줄링된 다른 전송(예컨대, eMBB)과 다중화(multiplexing)되어야 할 필요가 있다. 이와 관련하여 한 가지 방안으로, 앞서 스케줄링 받은 UE에게 특정 자원에 대해서 프리엠션(preemption)될 것이라는 정보를 주고, 해당 자원을 URLLC UE가 UL 전송에 사용하도록 한다.
프리엠션 지시(Pre-emption indication)
NR의 경우, eMBB와 URLLC 사이의 동적 자원 공유(sharing)이 지원된다. eMBB와 URLLC 서비스들은 비-중첩(non-overlapping) 시간/주파수 자원들 상에서 스케줄될 수 있으며, URLLC 전송은 진행 중인(ongoing) eMBB 트래픽에 대해 스케줄된 자원들에서 발생할 수 있다. eMBB UE는 해당 UE의 PDSCH 전송이 부분적으로 펑처링(puncturing)되었는지 여부를 알 수 없을 수 있고, 손상된 코딩된 비트(corrupted coded bit)들로 인해 UE는 PDSCH를 디코딩하지 못할 수 있다. 이 점을 고려하여, NR에서는 프리엠션 지시(preemption indication)을 제공한다. 상기 프리엠션 지시(preemption indication)는 중단된 전송 지시(interrupted transmission indication)으로 지칭될 수도 있다.
프리엠션 지시와 관련하여, UE는 BS로부터의 RRC 시그널링을 통해 DownlinkPreemption IE를 수신한다. 아래 표 7은 DownlinkPreemption IE의 일례를 나타낸다.
-- ASN1START-- TAG-DOWNLINKPREEMPTION-STARTDownlinkPreemption ::= SEQUENCE { int-RNTI RNTI-Value, timeFrequencySet ENUMERATED {set0, set1}, dci-PayloadSize INTEGER (0..maxINT-DCI-PayloadSize), int-ConfigurationPerServingCell SEQUENCE (SIZE (1..maxNrofServingCells)) OF INT-ConfigurationPerServingCell, ...}INT-ConfigurationPerServingCell ::= SEQUENCE { servingCellId ServCellIndex, positionInDCI INTEGER (0..maxINT-DCI-PayloadSize-1)}-- TAG-DOWNLINKPREEMPTION-STOP-- ASN1STOP
UE가 DownlinkPreemption IE를 제공받으면, DCI 포맷 2_1을 운반(convey)하는 PDCCH의 모니터링을 위해 상기 UE는 DownlinkPreemption IE 내 파라미터 int-RNTI에 의해 제공된 INT-RNTI를 가지고 설정된다. 상기 UE는 추가적으로 servingCellID에 의해 제공되는 서빙 셀 인덱스들의 세트를 포함하는 INT-ConfigurationPerServing Cell에 의해 서빙 셀들의 세트와 positionInDCI에 의해 DCI 포맷 2_1 내 필드들을 위한 위치들의 해당 세트를 가지고 설정되고, dci-PayloadSize에 의해 DCI 포맷 2_1을 위한 정보 페이로드 크기를 가지고 설정되며, timeFrequencySect에 의한 시간-주파수 자원들의 지시 입도(granularity)를 가지고 설정된다.상기 UE는 상기 DownlinkPreemption IE에 기초하여 DCI 포맷 2_1을 상기 BS로부터 수신한다.
UE가 서빙 셀들의 설정된 세트 내 서빙 셀에 대한 DCI 포맷 2_1을 검출하면, 상기 UE는 상기 DCI 포맷 2_1이 속한 모니터링 기간의 바로 앞(last) 모니터링 기간의 PRB들의 세트 및 심볼들의 세트 중 상기 DCI 포맷 2_1에 의해 지시되는 PRB들 및 심볼들 내에는 상기 UE로의 아무런 전송도 없다고 가정할 수 있다. 예를 들어, 도 9a를 참조하면, UE는 프리엠션에 의해 지시된 시간-주파수 자원 내 신호는 자신에게 스케줄링된 DL 전송이 아니라고 보고 나머지 자원 영역에서 수신된 신호들을 기반으로 데이터를 디코딩한다.
도 24는 프리엠션 지시 방법의 일례를 나타낸 도이다.
RRC 파라미터 timeFrequencySet에 의해 {M,N}의 조합이 설정된다. {M,N}={14,1}, {7,2}일 수 있다.
도 25는 프리엠션 지시의 시간/주파수 세트(timefrequency set)의 일례를 나타낸다.
프리엠션 지시를 위한 14-비트 비트맵(bitmap)은 하나 이상의 주파수 파트들(N>=1) 및/또는 하나 이상의 시간 도메인 파트들(M>=1)를 지시한다. {M,N}={14,1}인 경우, 도 25의(a)에서와 같이 시간 도메인에서 14개 파트들이 14-비트 비트맵의 14개 비트들에 일대일로 대응하고, 상기 14개 비트들 중 1로 세팅된 비트에 대응하는 파트가 프리엠트된 자원들을 포함하는 파트이다. {M,N}={7,2}인 경우, 도 25의 (b)에서와 같이, 모니터링 기간의 시간-주파수 자원이 시간 도메인에서 7개 파트들로, 그리고 주파수 도메인에서 2개 파트들로 나뉘어, 총 14개 시간-주파수 파트들로 나뉜다. 상기 총 14개 시간-주파수 파트들이 14-비트 비트맵의 14개 비트들에 일대일로 대응하고, 상기 14개 비트들 중 1로 세팅된 비트에 대응하는 파트가 프리엠트된 자원들을 포함하는 파트이다.
K. mMTC (massive MTC)
mMTC(massive Machine Type Communication)은 많은 수의 UE와 동시에 통신하는 초연결 서비스를 지원하기 위한 5G의 시나리오 중 하나이다. 이 환경에서, UE는 굉장히 낮은 전송 속도와 이동성을 가지고 간헐적으로 통신하게 된다. 따라서, mMTC는 UE를 얼마나 낮은 비용으로 오랫동안 구동할 수 있는지를 주요 목표로 하고 있다. 이와 관련하여, 3GPP에서 다루고 있는 MTC와 NB-IoT에 대해 살펴본다.
이하에서는 물리 채널의 전송 시간 인터벌(transmission time interval)이 서브프레임인 경우를 예로 하여 설명된다. 예를 들어, 일 물리 채널(예, MPDCCH, PDSCH, PUCCH, PUSCH)의 전송 시작에서 다음 물리 채널의 전송 시작까지의 최소 시간 인터벌이 1개 서브프레임인 경우를 예로 하여 설명되나, 이하의 설명에서 서브프레임은 슬롯, 미니-슬롯, 혹은 다수(multiple) 슬롯들로 대체될 수 있다.
MTC (Machine Type Communication)
MTC(Machine Type Communication)은 M2M (Machine-to-Machine) 또는 IoT (Internet-of-Things) 등에 적용될 수 있는 많은 처리량(throughput)을 요구하지 않는 어플리케이션으로서, 3GPP(3rd Generation Partnership Project)에서 IoT 서비스의 요구 사항을 충족시키기 위해 채택된 통신 기술을 말한다.
MTC는 (1) 낮은 비용 & 낮은 복잡도(low cost & low complexity), (2) 향상된 커버리지 (enhanced coverage), (3) 낮은 파워 소비 (low power consumption)의 기준을 만족하도록 구현될 수 있다.
3GPP에서 MTC는 릴리즈(release) 10(3GPP 표준 문서 버전 10.x.x.)부터 적용되었으며, 3GPP의 릴리즈별로 추가된 MTC의 특징에 대해 간략히 살펴본다.
먼저, 3GPP 릴리즈 10과 릴리즈 11에서 기술된 MTC는 부하 제어(load control) 방법에 관련이 있다. 부하 제어 방법은 IoT(또는 M2M) 기기들이 갑자기 BS에 부하를 주는 것을 미리 방지하기 위한 것이다. 보다 구체적으로, 3GPP 릴리즈 10의 경우, BS는 부하가 발생하는 경우 접속되어 있는 IoT 기기들에 대한 접속을 끊음으로써 부하를 제어하는 방법에 관한 것이며, 릴리즈 11의 경우, BS가 셀의 시스템 정보를 통해 상기 셀에는 추후 접속할 것을 미리 UE에게 알림으로써 UE에 대한 접속을 사전에 차단하는 방법에 관한 것이다. 릴리즈 12에서는 저 비용(low cost) MTC를 위한 특징이 추가되었으며, 이를 위해 UE 카테고리 0이 새롭게 정의되었다. UE 카테고리는 UE가 얼마나 많은 데이터를 통신 모뎀에서 처리할 수 있는지를 나타내는 지표이다. UE 카테고리 0의 UE는 감소된 피크 데이터 레이트(peak data rate), 완화된(relaxed) 무선 주파수(radio frequency, RF) 요구사항(requirements)을 가져, 기저대역(baseband) 및 RF 복잡도를 줄인 UE이다. 릴리즈 13에서 eMTC(enhanced MTC)라는 기술이 소개되었으며, 기존 LTE에서 지원하는 최소 주파수 대역폭인 1.08MHz에서만 UE가 동작하도록 하여 UE의 가격과 전력 소모를 더 낮출 수 있도록 하였다.
이하에서 기술되는 내용은 주로 eMTC와 관련된 특징들이나, 특별한 언급이 없는 한 MTC, eMTC, 5G(또는 NR)에 적용될 MTC에도 동일하게 적용될 수 있다. 이하에서는 설명의 편의를 위해 MTC로 통칭하여 설명하기로 한다.
따라서, 후술하는 MTC는 eMTC (enhanced MTC), LTE-M1/M2, BL (Bandwidth reduced low complexity) / CE(coverage enhanced), non-BL UE(in enhanced coverage), NR MTC, enhanced BL / CE 등과 같이 다른 용어로 지칭될 수 있다. 즉, MTC라는 용어는 향후 3GPP 표준에서 정의될 용어로 대체할 수 있다.
MTC 일반적 특징
(1) MTC는 특정 시스템 대역폭(또는 채널 대역폭) 내에서만 동작한다.
MTC는 도 26에 도시된 바와 같은 기존(legacy) LTE의 시스템 대역 내 6개 자원 블록(resource block, RB)를 사용할 수 있으며, 혹은 NR 시스템의 시스템 대역 내 특정 개수의 RB들을 사용할 수도 있다. MTC가 동작하는 주파수 대역폭은 NR의 주파수 범위(frequency range) 및 부반송파 간격(subcarrier spacing)을 고려하여 정의될 수 있다. 이하, MTC가 동작하는 특정 시스템 혹은 주파수 대역폭을 MTC 협대역(narrowband, NB)라고 칭한다. NR에서 MTC는 적어도 하나의 대역폭 파트(bandwidth part, BWP)에서 동작하거나 또는 BWP의 특정 대역에서 동작할 수도 있다.
MTC는 물리 채널 및 신호들을 전송 및 수신하기 위해 협대역 동작을 따르고, MTC UE가 동작할 수 있는 최대 채널 대역폭은 1.08MHz 또는 6개 (LTE) RB들로 감소된다.
협대역은 하향링크와 상향링크의 일부 채널의 자원 할당 단위에 참고 단위로 사용될 수 있으며, 주파수 도메인에서 각 협대역의 물리적인 위치는 시스템 대역폭에 따라서 다르게 정의될 수 있다.
MTC에서 정의된 1.08MHz의 대역폭은 MTC UE가 기존(legacy) UE와 동일한 셀 탐색(cell search) 및 임의 접속(random access) 과정을 따르도록 하기 위해서 정의된다.
MTC는 1.08MHz보다 훨씬 더 큰 대역폭(예: 10MHz)을 가진 셀에 의해 지원될 수 있으나, MTC에 의해 송/수신되는 물리 채널 및 신호는 항상 1.08MHz로 제한된다. 상기 훨씬 더 큰 대역폭을 가지는 시스템은 기존(legacy) LTE, NR 시스템, 5G 시스템 등일 수 있다.
협대역은 주파수 도메인에서 6개의 비-중첩하는(non-overlapping) 연속적인(consecutive) 물리 자원 블록으로 정의된다.
도 26(a)는 협대역 동작의 일례를 나타낸 도이며, 도 26(b)는 RF 리튜닝(retuning)을 가지는 반복의 일례를 나타낸 도이다.
도 26(b)를 참고하여, RF 리튜닝에 의한 주파수 다이버시티에 대해 살펴본다.
협대역 RF, 단일 안테나 및 제한된 이동성으로 인해, MTC는 제한된 주파수, 공간 및 시간 다이버시티를 지원한다. 페이딩(fading) 및 단절(outage)을 줄이기 위해, 주파수 호핑(frequency hopping)은 RF 리튜닝(retuning)에 의해 서로 다른 협대역들 사이에서 MTC가 지원된다.
MTC에서 주파수 호핑은 반복(repetition)이 가능할 때, 서로 다른 상향링크 및 하향링크 물리 채널들에 적용된다. 예를 들어, 32개의 서브프레임들이 PDSCH 전송을 위해 사용되는 경우, 첫 번째 16개의 서브프레임들은 첫 번째 협대역 상에서 전송될 수 있다. 이때, RF 전단부(front-end)는 다른 협대역으로 리튜닝되고, 나머지 16개의 서브프레임들은 두 번째 협대역 상에서 전송된다.
MTC의 협대역은 BS에 의해 전송되는 시스템 정보 또는 DCI(downlink control information)를 통해 UE에게 설정될 수 있다.
(2) MTC는 반-듀플렉스 모드(half duplex mode)로 동작하며, 제한된 (또는 감소된) 최대 전송 전력을 사용한다. 반-듀플렉스 모드란 통신 장치가 한 시점에 일 주파수 상에서 상향링크 아니면 상향링크로만 동작하고, 다른 시점에는 다른 주파수 상에서 하향링크 아니면 상향링크로 동작하는 것을 말한다. 예를 들어, 통신 장치가 반-듀플렉스 모드로 동작하는 경우, 상향링크 주파수와 하향링크 주파수를 사용하여 통신하되 상기 통신 장치는 상향링크 주파수와 하향링크 주파수를 동시에 사용하지 못하며, 시간을 나눠서 일정 시간 동안에는 상향링크 주파수를 통해 상향링크 전송을 수행하고 다른 일정 시간 동안에는 하향링크 주파수로 리튜닝하여 하향링크 수신을 수행한다.
(3) MTC는 기존 LTE 또는 NR의 전체 시스템 대역폭에 걸쳐서 분산되어야 하는 (기존 LTE 또는 NR에서 정의되는) 채널을 사용하지 않는다. 일례로, MTC에서는 기존 LTE의 PDCCH는 시스템 대역폭 전체에 분산되어 전송되므로 기존 PDCCH가 사용되지 않는다. 대신 MTC에서는 새로운 제어 채널인 MPDCCH(MTC PDCCH)가 정의된다. MPDCCH는 주파수 도메인에서 최대 6RB들 내에서 전송/수신된다.
(4) MTC는 새롭게 정의된 DCI 포맷을 사용한다. 예를 들어, DCI 포맷 6-0A, 6-0B, 6-1A, 6-1B, 6-2 등이 MTC용 DCI 포맷으로 사용될 수 있다(3GPP TS 36.212 참조).
(5) MTC의 경우, PBCH(physical broadcast channel), PRACH(physical random access channel), M-PDCCH(MTC physical downlink control channel), PDSCH(physical downlink shared channel), PUCCH(physical uplink control channel), PUSCH(physical uplink shared channel)가 반복적으로 전송될 수 있다. 이와 같은 MTC 반복 전송은 지하실과 같은 열악한 환경에서와 같이 신호 품질 또는 전력이 매우 열악한 경우에도 MTC 채널을 디코딩할 수 있어 셀 반경 증가 및 신호 침투 효과를 가져올 수 있다.
(6) MTC에서 PDSCH 스케줄링(DCI)과 상기 PDSCH 스케줄링에 따른 PDSCH 전송은 서로 다른 서브프레임에서 발생한다(크로스-서브프레임 스케줄링).
(7) LTE 시스템에서 일반적인 SIB1을 나르는 PDSCH는 PDCCH에 의해 스케줄링됨에 반해, SIB1 디코딩을 위한 모든 자원 할당 정보(예, 서브프레임, TBS(Transport Block Size), 협대역 인덱스)는 MIB의 파라미터에 의해 결정되며, MTC의 SIB1 디코딩을 위해 어떤 제어 채널도 사용되지 않는다.
(8) SIB2 디코딩을 위한 모든 자원 할당 정보 (서브 프레임, TBS, 서브 밴드 인덱스)는 여러(several) SIB1 파라미터들에 의해 결정되며, MTC의 SIB2 디코딩을 위한 어떤 제어 채널도 사용되지 않는다.
(9) MTC는 확장(extended) 페이징 (DRX) 주기(cycle)을 지원한다. 여기서 페이징 주기라 함은 UE가 전력 절약을 위해 하향링크 신호의 수신을 시도하지 않는 불연속 수신(discontinuous reception, DRX) 모드에 있는 동안에도, 상기 UE를 깨우고자 하는 네트워크로부터의 페이징이 있는지를 확인하기 위해 깨어나야 하는 주기를 말한다.
(10) MTC는 기존 LTE 또는 NR에서 사용되는 PSS(primary synchronization signal) / SSS(secondary synchronization signal) / CRS(common reference signal)를 동일하게 사용할 수 있다. NR의 경우, PSS/SSS는 SSB 단위로 전송되며, TRS(tracking RS)가 셀-특정적 RS로서, 주파수/시간 트랙킹을 위해 사용될 수 있다.
MTC 동작 모드 및 레벨
다음, MTC 동작 모드(operation mode)와 레벨(level)에 대해 살펴본다. MTC는 커버리지 향상을 위해 2개의 동작 모드(제 1 모드, 제 2 모드)와 4개의 서로 다른 레벨들로 분류되며, 아래 표 8과 같을 수 있다.
상기 MTC 동작 모드는 CE(Coverage Enhancement) 모드로 지칭되며, 이 경우 제 1 모드는 CE Mode A, 제 2 모드는 CE Mode B로 지칭될 수 있다.
Mode Level Description
Mode A Level 1 No repetition for PRACH
Level 2 Small Number of Repetition for PRACH
Mode B Level 3 Medium Number of Repetition for PRACH
Level 4 Large Number of Repetition for PRACH
제 1 모드는 완전한 이동성 및 CSI(channel state information) 피드백이 지원되는 작은 커버리지 향상을 위해 정의되어, 반복이 없거나 또는 반복 횟수가 적은 모드이다. 제 2 모드는 CSI 피드백 및 제한된 이동성을 지원하는 극히 열악한 커버리지 조건의 UE에 대해 정의되며, 많은 수의 반복 전송이 정의된다. 제 2 모드는 최대 15dB의 커버리지 향상을 제공한다. MTC의 각 레벨은 임의 접속 과정과 페이징 과정에서 다르게 정의된다. MTC 동작 모드는 BS에 의해 결정되며, 각 레벨은 MTC UE에 의해 결정된다. 구체적으로, BS는 MTC 동작 모드에 대한 정보를 포함하는 RRC 시그널링(signaling)을 UE로 전송한다. 여기서, RRC 시그널링은 RRC 연결 셋업(connection setup) 메시지, RRC 연결 재설정(connection reconfiguration) 메시지 또는 RRC 연결 수립(connection reestablishment) 메시지 등일 수 있다.
이후, MTC UE는 각 동작 모드 내 레벨을 결정하고, 결정된 레벨을 BS으로 전송한다. 구체적으로, MTC UE는 측정한 채널 품질(예, 참조 수신 신호 전력(reference signal received power, RSRP), 참조 신호 수신 품질(reference signal received quality, RSRQ) 또는 신호 대 간섭 및 잡음 비(signal to interference plus noise ratio, SINR))에 기초하여 동작 모드 내 레벨을 결정하고, 결정된 레벨에 대응하는 PRACH 자원(예, PRACH를 위한 주파수, 시간, 프리앰블 자원)을 이용하여 RACH 프리앰블을 전송함으로써 BS에게 상기 결정된 레벨을 알린다.
MTC 보호 구간 (guard period)
살핀 것처럼, MTC는 협대역에서 동작한다. MTC에 사용되는 협대역의 위치는 특정 시간 유닛(예, 서브프레임 또는 슬롯)마다 다를 수 있다. MTC UE는 시간 유닛들에 따라 다른 주파수로 튜닝할 수 있다. 주파수 리튜닝에는 일정 시간이 필요하며, 이 일정 시간을 MTC의 가드 기간(guard period)으로 정의한다. 즉, 하나의 시간 유닛에서 다음 시간 유닛으로 전환(transition)하면서 주파수 리튜닝을 수행할 때 가드 기간이 필요하고, 해당 가드 기간 동안에는 전송 및 수신이 발생하지 않는다.
MTC 신호 전송/수신 방법
도 27은 MTC에 이용될 수 있는 물리 채널들 및 이들을 이용한 일반적인 신호 전송 방법을 나타낸 도이다.
전원이 꺼진 상태에서 다시 전원이 켜지거나, 새로이 셀에 진입한 MTC UE는 S1001 단계에서 BS와 동기를 맞추는 등의 초기 셀 탐색(initial cell search) 동작을 수행한다. 이를 위해 MTC UE는 BS로부터 PSS(Primary Synchronization Signal) 및 SSS(Secondary Synchronization Signal)을 수신하여 BS와 동기를 맞추고, 셀 ID(identifier) 등의 정보를 획득한다. 상기 MTC의 초기 셀 탐색 동작에 이용되는 PSS / SSS는 기존 LTE의 PSS / SSS, RSS(Resynchronization signal) 등일 수 있다.
그 후, MTC UE는 BS로부터 물리 브로드캐스트 채널(physical broadcast channel, PBCH) 신호를 수신하여 셀 내 브로드캐스트 정보를 획득할 수 있다.
한편, MTC UE는 초기 셀 탐색 단계에서 하향링크 참조 신호(downlink reference signal, DL RS)를 수신하여 하향링크 채널 상태를 확인할 수 있다. PBCH를 통해 전송되는 브로드캐스트 정보는 MIB(Master Information Block)이며, LTE에서 MIB는 10ms마다 반복된다.
기존 LTE의 MIB 내 비트들 중 유보 비트(reserved bit)들이 시간/주파수 위치 및 수송 블록 크기(transport block size)를 포함하는 새로운 SIB1-BR(system information block for bandwidth reduced device)에 대한 스케줄링 정보를 전송하기 위해 MTC에서 사용된다. SIB-BR은 상기 SIB-BR과 연관된 어떤 제어 채널(예, PDCCH, MPDDCH) 없이 직접 PDSCH 상에서 전송된다.
초기 셀 탐색을 마친 MTC UE는 S1002 단계에서 MPDCCH와 상기 MPDCCH 정보에 따른 PDSCH를 수신하여 조금 더 구체적인 시스템 정보를 획득할 수 있다. MPDCCH는 한 번만 전송되거나 반복하여 전송될 수 있다. MPDCCH의 최대 반복 횟수는 BS로부터의 RRC 시그널링에 의해 UE에게 설정된다.
이후, MTC UE는 BS에 접속을 완료하기 위해 단계 S1003 내지 단계 S1006과 같은 임의 접속 과정(random access procedure)을 수행할 수 있다. MTC UE의 RACH 과정과 관련된 기본적인 설정(configuration)은 SIB2에 의해 전송된다. 또한, SIB2는 페이징과 관련된 파라미터들을 포함한다. 3GPP 시스템에서 페이징 기회(Paging Occasion, PO)는 UE가 페이징의 수신을 시도할 수 있는 시간 유닛을 의미한다. MTC UE는 페이징용으로 설정된 협대역(PNB) 상에서 자신의 PO에 해당하는 시간 유닛 내 P-RNTI를 기반으로 MPDCCH의 수신을 시도한다. P-RNTI를 기반으로 MPDCCH의 디코딩에 성공한 UE는 상기 MPDCCH에 의해 스케줄링된 PDSCH를 수신하여, 자신에 대한 페이징 메시지를 확인할 수 있다. 자신에 대한 페이징 메시지가 있으면 임의 접속 과정을 수행하여 네트워크로의 접속을 수행한다.
임의 접속 과정을 위해, MTC UE는 물리 임의 접속 채널(PRACH: physical random access channel)을 통해 프리앰블을 전송하고(S1003), MPDCCH 및 이에 대응하는 PDSCH을 통해 프리앰블에 대한 응답 메시지(RAR)를 수신할 수 있다(S1004). 경쟁 기반 임의 접속의 경우, MTC UE는 추가적인 PRACH 신호의 전송(S1005) 및 MPDCCH 신호 및 이에 대응하는 PDSCH 신호의 수신(S1006)과 같은 충돌 해결 과정(contention resolution procedure)를 수행할 수 있다. MTC에서 RACH 과정에서 전송되는 신호 및/또는 메시지들(Msg 1, Msg 2, Msg 3, Msg 4)는 반복적으로 전송될 수 있으며, 이러한 반복 패턴은 CE 레벨에 따라 다르게 설정된다. Msg1은 PRACH 프리앰블을 의미하며, Msg2는 RAR(random access response)를 의미하며, Msg3은 RAR에 포함된 UL 그랜트를 기반으로 한 UL 전송을 의미하며, Msg4는 Msg3에 대한 BS의 DL 전송을 의미할 수 있다.
임의 접속을 위해 서로 다른 CE 레벨들에 대한 PRACH 자원들이 BS에 의해 시그널링된다. 이는 유사한 경로 감쇠(path loss)를 경험하는 UE들을 함께 그룹핑함으로써, PRACH에 대한 near-far 효과의 동일한 제어를 제공한다. 최대 4개까지의 서로 다른 PRACH 자원들이 MTC UE로 시그널링될 수 있다.
MTC UE는 하향링크 RS(예, CRS, CSI-RS, TRS 등)을 이용하여 RSRP를 추정하고, 측정 결과에 기초하여 임의 접속에 대한 서로 다른 PRACH 자원 예, PRACH를 위한 주파수, 시간, 프리앰블 자원)들 중 하나를 선택한다. PRACH에 대한 RAR 및 경쟁 해결 메시지(contention resolution message)들에 대한 탐색 공간들은 또한 시스템 정보를 통해 BS에서 시그널링된다.
상술한 바와 같은 과정을 수행한 MTC UE는 이후 일반적인 상향링크/하향링크 신호 전송 과정으로서 MPDCCH 신호 및/또는 PDSCH 신호의 수신(S1007) 및 물리 상향링크 공유 채널(PUSCH) 신호 및/또는 물리 상향링크 제어 채널(PUCCH) 신호의 전송(S1108)을 수행할 수 있다. MTC UE는 PUCCH 혹은 PUSCH를 통해 BS에게 상향링크 제어 정보(uplink control information, UCI)를 전송할 수 있다. UCI는 HARQ-ACK/NACK, 스케줄링 요청(scheduling request, SR), 및/또는 CSI 등을 포함할 수 있다.
MTC UE에 대한 RRC 연결이 수립(establish)되면, MTC UE는 상향링크 및 하향링크 데이터 할당을 획득하기 위해 설정된 탐색 공간(search space)에서 MPDCCH를 모니터링하여 MDCCH의 수신을 시도한다.
MTC의 경우, MPDCCH와 상기 MDCCH에 의해 스케줄링되는 PDSCH가 서로 다른 서브프레임에서 전송/수신된다. 예를 들어, 서브프레임 #n에서 마지막 반복을 가지는 MPDCCH는 서브프레임 #n+2에서 시작하는 PDSCH를 스케줄한다. MPDCCH에 의해 전송되는 DCI는 언제 PDSCH 전송이 시작되는지를 MTC UE가 알수 있도록 하기 위해 상기 MPDCCH가 얼마나 반복되는지에 대한 정보를 제공한다. 예를 들어, 서브프레임 #n부터 전송이 시작된 MPDCCH 내 DCI가 상기 MPDCCH가 10번 반복된다는 정보를 포함하는 경우, 상기 MPDCCH가 전송되는 마지막 서브프레임은 서브프레임 #n+9이고, PDSCH의 전송은 서브프레임 #n+11에서 시작할 수 있다.
PDSCH는 상기 PDSCH를 스케줄링하는 MPDCCH가 있는 협대역과는 같은 혹은 다른 협대역에 스케줄링될 수 있다. MPDCCH와 해당 PDSCH가 다른 협대역에 위치하는 경우, MTC UE는 PDSCH를 디코딩하기 전에 상기 PDSCH가 있는 협대역으로 주파수를 리튜닝할 필요가 있다.
상향링크 데이터 전송에 대해, 스케줄링은 레거시 LTE와 동일한 타이밍을 따를 수 있다. 예를 들어, 서브프레임 #n에서 마지막 전송이 있는 MPDCCH는 서브프레임 #n+4에서 시작하는 PUSCH 전송을 스케줄링할 수 있다.
도 28은 MTC와 기존(legacy) LTE 각각에 대한 스케줄링의 일례를 나타낸 도이다.
기존(legacy) LTE에서 PDSCH는 PDCCH를 사용하여 스케줄링되며, 이는 각 서브프레임에서 처음 OFDM 심볼(들)을 사용하며, 상기 PDSCH는 상기 PDCCH가 수신되는 서브프레임과 동일한 서브프레임에서 스케줄된다.
이에 반해, MTC PDSCH는 크로스-서브프레임 스케줄링되며, MPDCCH와 PDSCH 사이에서 하나의 서브프레임이 MPDCCH 디코딩 및 RF 리튜닝을 위한 시간 기간으로서 사용된다. MTC 제어 채널 및 데이터 채널들은 극단적인 커버리지 조건에서도 디코딩될 수 있록 MPDCCH에 대해 최대 256개의 서브프레임들과 PDSCH에 대해 최대 2048개의 서브프레임들을 가지는 많은 수의 서브프레임들을 통해 반복될 수 있다.
NB-IoT (Narrowband-Internet of Things)
NB-IoT는 무선 통신 시스템(예, LTE 시스템, NR 시스템 등)의 1개 자원 블록(resource block, RB)에 해당하는 시스템 대역폭(system BW)을 통해 낮은 복잡도(complexity), 낮은 전력 소비(power consumption)을 지원하기 위한 시스템을 의미할 수 있다.
여기에서, NB-IoT는 NB-LTE, NB-IoT 개선(enhancement), 개선(enhanced) NB-IoT, 추가 개선(further enhanced) NB-IoT, NB-NR 등과 같이 다른 용어로 지칭될 수 있다. 즉, NB-IoT는 3GPP 표준에서 정의되거나 정의될 용어로 대체될 수 있으며, 이하에서는 설명의 편의를 위하여 'NB-IoT'로 통칭하여 표현하기로 한다.
NB-IoT는 주로 기계 타입 통신(machine-type communication, MTC) 등과 같은 장치(device)(또는 UE)를 셀룰러 시스템(cellular system)에서 지원하여 IoT(즉, 사물 인터넷)를 구현하기 위한 통신 방식으로 이용될 수도 있다. 이 때, 기존의 시스템 대역의 1개 RB이 NB-IoT 용으로 할당됨으로써, 주파수가 효율적으로 사용될 수 있는 장점이 있다. 또한, NB-IoT의 경우, 각 UE는 단일 RB(RB)를 각각의 반송파(carrier)로 인식하므로, 본 명세에서 NB-IoT와 관련되어 언급되는 RB 및 반송파는 서로 동일한 의미로 해석될 수도 있다.
이하, 본 명세서에서의 NB-IoT와 관련된 프레임 구조, 물리 채널, 다중 반송파 동작(multi carrier operation), 동작 모드(operation mode), 일반적인 신호 전송/수신 등은 기존의 LTE 시스템의 경우를 고려하여 설명되지만, 차세대 시스템(예, NR 시스템 등)의 경우에도 확장하여 적용될 수 있음은 물론이다. 또한, 본 명세서에서의 NB-IoT와 관련된 내용은 유사한 기술적 목적(예: 저-전력, 저-비용, 커버리지 향상 등)을 지향하는 MTC(Machine Type Communication)에 확장하여 적용될 수도 있다.
이하에서는 물리 채널의 전송 시간 인터벌(transmission time interval)이 서브프레임인 경우를 예로 하여 설명된다. 예를 들어, 일 물리 채널(예, NPDCCH, NPDSCH, NPUCCH, NPUSCH)의 전송 시작에서 다음 물리 채널의 전송 시작까지의 최소 시간 인터벌이 1개 서브프레임인 경우를 예로 하여 설명되나, 이하의 설명에서 서브프레임은 슬롯, 미니-슬롯, 혹은 다수(multiple) 슬롯들로 대체될 수 있다.
NB-IoT의 프레임 구조 및 물리 자원
먼저, NB-IoT 프레임 구조는 부반송파 간격(subcarrier spacing)에 따라 다르게 설정될 수 있다. 구체적으로, 도 29는 부반송파 간격이 15kHz인 경우의 프레임 구조의 일 예를 나타내며, 도 30은 부반송파 간격이 3.75kHz인 경우의 프레임 구조의 일 예를 나타낸다. 다만, NB-IoT 프레임 구조는 이에 한정되는 것은 아니며, 다른 부반송파 간격(예, 30kHz 등)에 대한 NB-IoT도 시간/주파수 단위를 달리하여 고려될 수 있음은 물론이다.
또한, 본 명세에서는 LTE 시스템 프레임 구조에 기반한 NB-IoT 프레임 구조를 예시로 설명하였지만, 이는 설명의 편의를 위한 것일 뿐 이에 한정되는 것은 아니며, 본 명세에서 설명하는 방식이 차세대 시스템(예, NR 시스템)의 프레임 구조에 기반한 NB-IoT에도 확장하여 적용될 수 있다.
도 29를 참조하면, 15kHz 부반송파 간격에 대한 NB-IoT 프레임 구조는 상술한 기존(legacy) 시스템(예, LTE 시스템)의 프레임 구조와 동일하게 설정될 수 있다. 예를 들어, 10ms NB-IoT 프레임은 1ms NB-IoT 서브프레임 10개를 포함하며, 1ms NB-IoT 서브프레임은 0.5ms NB-IoT 슬롯 2개를 포함할 수 있다. 또한, 각각의 0.5ms NB-IoT은 7개의 OFDM 심볼들을 포함할 수 있다.
이와 달리, 도 30을 참조하면, 10ms NB-IoT 프레임은 2ms NB-IoT 서브프레임 5개를 포함하며, 2ms NB-IoT 서브프레임은 7개의 OFDM 심볼들과 하나의 보호 기간(guard period, GP)을 포함할 수 있다. 또한, 상기 2ms NB-IoT 서브프레임은 NB-IoT 슬롯 또는 NB-IoT RU(resource unit) 등으로 표현될 수도 있다.
다음으로, 하향링크 및 상향링크 각각에 대한 NB-IoT의 물리 자원을 살펴본다.
먼저, NB-IoT 하향링크의 물리 자원은 시스템 대역폭이 특정 개수의 RB(예, 1개의 RB 즉, 180kHz)로 한정되는 것을 제외하고는, 다른 무선 통신 시스템(예, LTE 시스템, NR 시스템 등)의 물리 자원을 참고하여 설정될 수 있다. 일례로, 상술한 바와 같이 NB-IoT 하향링크가 15kHz 부반송파 간격만을 지원하는 경우, NB-IoT 하향링크의 물리 자원은 상술한 도 31에 나타난 LTE 시스템의 자원 그리드를 주파수 도메인 상의 1개 RB로 제한한 자원 영역으로 설정될 수 있다.
다음으로, NB-IoT 상향링크의 물리 자원의 경우에도 하향링크의 경우와 같이 시스템 대역폭은 1개의 RB로 제한되어 구성될 수 있다. 일례로, 상술한 바와 같이 NB-IoT 상향링크가 15kHz 및 3.75kHz 부반송파 간격을 지원하는 경우, NB-IoT 상향링크를 위한 자원 그리드는 도 31과 같이 표현될 수 있다. 이 때, 도 31에서 상향링크 대역의 부반송파 수 NULsc 및 슬롯 기간 Tslot은 아래의 표 9과 같이 주어질 수 있다.
Subcarrier spacing NULsc Tslot
△f=3.75kHz 48 6144Ts
△f=15kHz 12 15360Ts
NB-IoT에서는 NB-IoT용 PUSCH(이하, NPUSCH)의 자원 요소들로의 매핑을 위해 자원 유닛(resource unit, RU)들이 사용된다. RU는 시간 도메인 상에서 NULsymb*NULslot개의 SC-FDMA 심볼들로 구성되고, 주파수 도메인 상에서 NRUsc개의 연속적인(consecutive) 부반송파들로 구성될 수 있다. 일례로, NRUsc 및 NULsymb는 FDD용 프레임 구조인 프레임 구조 타입 1의 경우에는 아래의 표 10에 의해 주어지며, TDD용 프레임 구조인 프레임 구조 타입 2의 경우 표 11에 의해 주어질 수 있다.
NPUSCH format △f NRUsc NULslots NULsymb
1 3.75 kHz 1 16 7
15 kHz 1 16
3 8
6 4
12 2
2 3.75 kHz 1 4
15 kHz 1 4
NPUSCH format △f Supported uplink-downlink configurations NRUsc NULslots NULsymb
1 3.75 kHz 1, 4 1 16 7
15 kHz 1, 2, 3, 4, 5 1 16
3 8
6 4
12 2
2 3.75 kHz 1, 4 1 4
15 kHz 1, 2, 3, 4, 5 1 4
NB-IoT의 물리 채널
NB-IoT를 지원하는 BS 및/또는 UE는 기존의 시스템과 별도로 설정된 물리 채널 및/또는 물리 신호를 전송/수신하도록 설정될 수 있다. 이하, NB-IoT에서 지원되는 물리 채널 및/또는 물리 신호와 관련된 구체적인 내용에 대해 살펴본다.
NB-IoT 하향링크에는 15kHz의 부반송파 간격에 기반하여 OFDMA(Orthogonal Frequency Division Multiple Access) 방식이 적용될 수 있다. 이를 통해, 부반송파 간 직교성(orthogonality)을 제공하여 다른 시스템(예, LTE 시스템, NR 시스템)과의 공존(co-existence)이 효율적으로 지원될 수 있다. NB-IoT 시스템의 하향링크 물리 채널/신호는 기존의 시스템과의 구분을 위하여 'N(Narrowband)'이 추가된 형태로 표현될 수 있다. 예를 들어, 하향링크 물리 채널은 NPBCH(Narrowband Physical Broadcast Channel), NPDCCH(Narrowband Physical Downlink Control Channel), NPDSCH(Narrowband Physical Downlink Shared Channel) 등으로 지칭되며, 하향링크 물리 신호는 NPSS(Narrowband Primary Synchronization Signal), NSSS(Narrowband Secondary Synchronization Signal), NRS(Narrowband Reference Signal), NPRS(Narrowband Positioning Reference Signal), NWUS(Narrowband Wake Up Signal) 등으로 지칭될 수 있다. 일반적으로, NB-IoT의 하향링크 물리 채널 및 물리 신호는 시간 도메인 다중화 방식 및/또는 주파수 도메인 다중화 방식에 기반하여 전송되도록 설정될 수 있다. NB-IoT 시스템의 하향링크 채널인 NPBCH, NPDCCH, NPDSCH 등의 경우, 커버리지 향상(coverage enhancement)을 위하여 반복 전송(repetition transmission)이 수행될 수 있다. 또한, NB-IoT는 새롭게 정의된 DCI 포맷을 사용하며, 일례로 NB-IoT를 위한 DCI 포맷은 DCI 포맷 N0, DCI 포맷 N1, DCI 포맷 N2 등으로 정의될 수 있다.
NB-IoT 상향링크에는 15kHz 또는 3.75kHz의 부반송파 간격에 기반하여 SC-FDMA(Single Carrier Frequency Divison Multiple Access) 방식이 적용될 수 있다. 하향링크 부분에서 언급한 것과 같이, NB-IoT 시스템의 물리 채널은 기존의 시스템과의 구분을 위하여 'N(Narrowband)'이 추가된 형태로 표현될 수 있다. 예를 들어, 상향링크 물리 채널은 NPRACH(Narrowband Physical Random Access Channel) 및 NPUSCH(Narrowband Physical Uplink Shared Channel) 등으로 표현되고, 상향링크 물리 신호는 NDMRS(Narrowband Demodulation Reference Signal) 등으로 표현될 수 있다. NPUSCH는 NPUSCH 포맷 1과 NPUSCH 포맷 2 등으로 구분될 수 있다. 일례로, NPUSCH 포맷 1은 상향링크 공유 채널(uplink shared channel, UL-SCH) 전송(또는 운반)을 위해 이용되며, NPUSCH 포맷 2는 HARQ ACK 시그널링 등과 같은 상향링크 제어 정보 전송을 위해 이용될 수 있다. NB-IoT 시스템의 상향링크 채널인 NPRACH 등의 경우, 커버리지 향상(coverage enhancement)을 위하여 반복 전송(repetition transmission)이 수행될 수 있다. 이 경우, 반복 전송은 주파수 호핑(frequency hopping)이 적용되어 수행될 수도 있다.
NB-IoT의 다중 반송파 동작
다음으로, NB-IoT의 다중 반송파 동작에 대해 살펴본다. 다중 반송파 동작은 NB-IoT에서 BS 및/또는 UE가 상호 간에 채널 및/또는 신호를 전송/수신함에 있어서 용도가 서로 다르게 설정된(즉, 타입이 다른) 다수의 반송파들이 이용되는 것을 의미할 수 있다.
NB-IoT는 다중 반송파 모드로 동작할 수 있다. 이 때, NB-IoT에서 반송파는 앵커 타입의 반송파(anchor type carrier)(즉, 앵커 반송파(anchor carrier), 앵커 PRB) 및 비-앵커 타입의 반송파(non-anchor type carrier)(즉, 비-앵커 반송파(non-anchor carrier), 비-앵커 PRB)로 구분될 수 있다.
앵커 반송파는 BS 관점에서 초기 접속(initial access)을 위해 NPSS, NSSS, NPBCH, 및 시스템 정보 블록(N-SIB)를 위한 NPDSCH 등을 전송하는 반송파를 의미할 수 있다. 즉, NB-IoT에서 초기 접속을 위한 반송파는 앵커 반송파로 지칭되고, 그 외의 것(들)은 비-앵커 반송파로 지칭될 수 있다. 이 때, 앵커 반송파는 시스템 상에서 하나만 존재하거나, 다수의 앵커 반송파들이 존재할 수도 있다.
NB-IoT의 동작 모드
다음으로, NB-IoT의 동작 모드에 대해 살펴본다. NB-IoT 시스템에서는 3개의 동작 모드들이 지원될 수 있다. 도 32는 NB-IoT 시스템에서 지원되는 동작 모드들의 일 예를 나타낸다. 본 명세서에서는 NB-IoT의 동작 모드가 LTE 대역에 기반하여 설명되지만, 이는 설명의 편의를 위한 것일 뿐, 다른 시스템의 대역(예, NR 시스템 대역)에 대해서도 확장되어 적용될 수 있다.
구체적으로, 도 32(a)는 인-밴드(in-band) 시스템의 일례를 나타내며, 도 32(b)는 가드-밴드(guard-band) 시스템의 일례를 나타내며, 도 32(c)는 독립형(stand-alone) 시스템의 일례를 나타낸다. 이 때, 인-밴드 시스템은 인-밴드 모드(in-band mode)로, 가드-밴드 시스템은 가드-밴드 모드(guard-band mode)로, 독립형 시스템은 독립형 모드(stand-alone mode)로 표현될 수 있다.
인-밴드 시스템은 (legacy) LTE 대역 내 특정 1개 RB를 NB-IoT를 위해 사용하는 시스템 또는 모드를 의미할 수 있다. 인-밴드 시스템은 LTE 시스템 반송파의 일부 자원 블록을 할당하여 운용될 수 있다.
가드-밴드 시스템은 (legacy) LTE 밴드의 가드-밴드를 위해 비워놓은(reserved) 공간에 NB-IoT를 사용하는 시스템 또는 모드를 의미할 수 있다. 가드-밴드 시스템은 LTE 시스템에서 자원 블록으로 사용되지 않는 LTE 반송파의 가드-밴드를 할당하여 운용될 수 있다. 일례로, (legacy) LTE 대역은 각 LTE 대역의 마지막에 최소 100kHz의 가드-밴드를 가지도록 설정될 수 있는데, NB-IoT를 위한 200kHz를 위해 2개의 비-연속적인(non-contiguous) 가드-밴드들이 이용될 수 있다.
상술한 것과 같이, 인-밴드 시스템 및 가드-밴드 시스템은 (legacy) LTE 대역 내에 NB-IoT가 공존하는 구조에서 운용될 수 있다.
이에 반해, 독립형 시스템은 (legacy) LTE 대역으로부터 독립적으로 구성된 시스템 또는 모드를 의미할 수 있다. 독립형 시스템은 GERAN(GSM EDGE Radio Access Network)에서 사용되는 주파수 대역(예, 향후 재할당된 GSM 반송파)을 별도로 할당하여 운용될 수 있다.
상술한 3개의 동작 모드들은 각각 독립적으로 운용되거나, 둘 이상의 동작 모드들이 조합되어 운용될 수도 있다.
NB-IoT 신호 전송/수신 과정
도 33은 NB-IoT에 이용될 수 있는 물리 채널들 및 이들을 이용한 일반적인 신호 전송 방법의 일 예를 나타낸 도이다. 무선 통신 시스템에서 NB-IoT UE는 BS로부터 하향링크(DL)를 통해 정보를 수신하고, NB-IoT UE는 BS으로 상향링크(UL)를 통해 정보를 전송할 수 있다. 다시 말해, 무선 통신 시스템에서 BS는 NB-IoT UE로 하향링크를 통해 정보를 전송하고, BS는 NB-IoT UE로부터 상향링크를 통해 정보를 수신할 수 있다.
BS와 NB-IoT UE가 전송/수신하는 정보는 데이터 및 다양한 제어 정보를 포함하고, 이들이 전송/수신하는 정보의 종류/용도에 따라 다양한 물리 채널이 존재할 수 있다. NB-IoT의 신호 전송/수신 방법은 상술한 무선 통신 장치(예, BS 및 UE)에 의해 수행될 수 있다.
전원이 꺼진 상태에서 다시 전원이 켜지거나, 새로이 셀에 진입한 NB-IoT UE는 BS와 동기를 맞추는 등의 초기 셀 탐색(Initial cell search) 작업을 수행할 수 있다(S11). 이를 위해 NB-IoT UE는 BS로부터 NPSS 및 NSSS를 수신하여 BS와의 동기화(synchronizatoin)를 수행하고, 셀 ID(cell identity) 등의 정보를 획득할 수 있다. 또한, NB-IoT UE는 BS로부터 NPBCH를 수신하여 셀 내 브로드캐스트 정보를 획득할 수 있다. 또한, NB-IoT UE는 초기 셀 탐색 단계에서 DL RS(Downlink Reference Signal)를 수신하여 하향링크 채널 상태를 확인할 수도 있다.
초기 셀 탐색을 마친 NB-IoT UE는 NPDCCH 및 이에 대응되는 NPDSCH를 수신하여 좀더 구체적인 시스템 정보를 획득할 수 있다(S12). 다시 말해, BS는 초기 셀 탐색을 마친 NB-IoT UE에게 NPDCCH 및 이에 대응되는 NPDSCH를 전송하여 좀더 구체적인 시스템 정보를 전달할 수 있다.
이후, NB-IoT UE는 BS에 접속을 완료하기 위해 임의 접속 과정(Random Access Procedure)을 수행할 수 있다(S13 내지 S16).
구체적으로, NB-IoT UE는 NPRACH를 통해 프리앰블(preamble)을 BS으로 전송할 수 있으며(S13), 상술한 바와 같이 NPRACH는 커버리지 향상 등을 위하여 주파수 호핑 등에 기반하여 반복 전송되도록 설정될 수 있다. 다시 말해, BS는 NB-IoT UE로부터 NPRACH를 통해 프리앰블을 (반복적으로) 수신할 수 있다.
이후, NB-IoT UE는 NPDCCH 및 이에 대응하는 NPDSCH를 통해 프리앰블에 대한 RAR(Random Access Response)을 BS로부터 수신할 수 있다(S14). 다시 말해, BS는 NPDCCH 및 이에 대응하는 NPDSCH를 통해 프리앰블에 대한 RAR(Random Access Response)를 NB-IoT UE로 전송할 수 있다.
이후, NB-IoT UE는 RAR 내의 스케줄링 정보를 이용하여 NPUSCH를 BS으로 전송하고(S15), NPDCCH 및 이에 대응하는 NPDSCH과 같은 충돌 해결 과정(Contention Resolution Procedure)를 수행할 수 있다(S16). 다시 말해, BS는 NB-IoT RAR 내의 스케줄링 정보를 이용하여 NPUSCH를 UE로부터 수신하고, 상기 충돌 해결 과정을 수행할 수 있다.
상술한 바와 같은 과정을 수행한 NB-IoT UE는 이후 일반적인 상향/하향링크 신호 전송 과정으로서 NPDCCH/NPDSCH 수신(S17) 및 NPUSCH 전송(S18)을 수행할 수 있다. 다시 말해, 상술한 과정들을 수행한 후, BS는 NB-IoT UE로 일반적인 신호 전송/수신 과정으로서 NPDCCH/NPDSCH 전송 및 NPUSCH 수신을 수행할 수 있다.
NB-IoT의 경우, 앞서 언급한 바와 같이 NPBCH, NPDCCH, NPDSCH 등은 커버리지 향상 등을 위하여 반복 전송될 수 있다. 또한, NB-IoT의 경우 NPUSCH를 통해 UL-SCH(즉, 일반적인 상향링크 데이터) 및 상향링크 제어 정보가 전달될 수 있다. 이 때, UL-SCH 및 상향링크 제어 정보(uplink control information, UCI)는 각각 다른 NPUSCH 포맷(예, NPUSCH 포맷 1, NPUSCH 포맷 2 등)을 통해 전송되도록 설정될 수도 있다.
또한, UCI는 HARQ ACK/NACK(Hybrid Automatic Repeat and reQuest Acknowledgement/Negative-ACK), SR(Scheduling Request), CSI(Channel State Information) 등을 포함할 수 있다. 상술한 바와 같이, NB-IoT에서 UCI는 일반적으로 NPUSCH를 통해 전송될 수 있다. 또한, 네트워크(예: BS)의 요청/지시에 따라 UE는 NPUSCH를 통해 UCI를 주기적(perdiodic), 비주기적(aperdiodic), 또는 반-지속적(semi-persistent)으로 전송할 수 있다.
이하, 전술한 도 1의 무선 통신 시스템 블록 구성도를 구체적으로 설명한다.
N. 무선 통신 장치
도 1을 참조하면, 무선 통신 시스템은 제 1 통신 장치(910) 및/또는 제 2 통신 장치(920)을 포함한다. 'A 및/또는 B'는 'A 또는 B 중 적어도 하나를 포함한다'와 동일한 의미로 해석될 수 있다. 제 1 통신 장치가 BS를 나타내고, 제 2 통신 장치가 UE를 나타낼 수 있다(또는 제 1 통신 장치가 UE를 나타내고, 제 2 통신 장치가 BS를 나타낼 수 있다).
제 1 통신 장치와 제 2 통신 장치는 프로세서(processor, 911,921), 메모리(memory, 914,924), 하나 이상의 Tx/Rx RF 모듈(radio frequency module, 915,925), Tx 프로세서(912,922), Rx 프로세서(913,923), 안테나(916,926)를 포함한다. Tx/Rx 모듈은 트랜시버라고도 한다. 프로세서는 앞서 살핀 기능, 과정 및/또는 방법을 구현한다. 보다 구체적으로, DL(제 1 통신 장치에서 제 2 통신 장치로의 통신)에서, 코어 네트워크로부터의 상위 계층 패킷은 프로세서(911)에 제공된다. 프로세서는 레이어 2(즉, L2) 계층의 기능을 구현한다. DL에서, 프로세서는 논리 채널과 전송 채널 간의 다중화(multiplexing), 무선 자원 할당을 제 2 통신 장치(920)에 제공하며, 제 2 통신 장치로의 시그널링을 담당한다. 전송(TX) 프로세서(912)는 L1 계층(즉, 물리 계층)에 대한 다양한 신호 처리 기능을 구현한다. 상기 신호 처리 기능은 제 2 통신 장치에서 FEC(forward error correction)을 용이하게 하고, 코딩 및 인터리빙(coding and interleaving)을 포함한다. 인코딩 및 인터리밍을 거친 신호는 스크램블링(scrambling) 및 변조(modulation)을 거쳐 복소 값(complex valued) 변조 심볼들로 변조된다. 변조에는 채널에 따라 BPSK(Binary Phase Shift Keying), QPSK(Quadrature Phase Shift Keying), 16QAM(quadrature amplitude modulation), 64QAM, 246QAM 등이 사용될 수 있다. 복소 값 변조 심볼들(이하, 변조 심볼들)은 병렬 스트림으로 분할되고, 각각의 스트림은 OFDM 부반송파에 매핑되고, 시간 및/또는 주파수 도메인에서 참조 신호(Reference Signal, RS)와 다중화(multiplexing)되며, IFFT (Inverse Fast Fourier Transform)를 사용하여 함께 결합되어 시간 도메인 OFDM 심볼 스트림을 운반하는 물리적 채널을 생성한다. OFDM 심볼 스트림은 다중 공간 스트림을 생성하기 위해 공간적으로 프리코딩된다. 각각의 공간 스트림은 개별 Tx/Rx 모듈(또는 트랜시버,915)를 통해 상이한 안테나(916)에 제공될 수 있다. 각각의 Tx/Rx 모듈은 전송을 위해 각각의 공간 스트림을 RF 반송파로 주파수 상향변환(upconvert)할 수 있다. 제 2 통신 장치에서, 각각의 Tx/Rx 모듈(또는 트랜시버,925)는 각 Tx/Rx 모듈의 각 안테나(926)을 통해 RF 반송파의 신호를 수신한다. 각각의 Tx/Rx 모듈은 상기 RF 반송파의 신호를 기저대역(baseband) 신호로 복원하여, 수신(RX) 프로세서(923)에 제공한다. RX 프로세서는 L1(즉, 물리 계층)의 다양한 신호 프로세싱 기능을 구현한다. RX 프로세서는 제 2 통신 장치로 향하는 임의의 공간 스트림을 복구하기 위해 정보에 공간 프로세싱을 수행할 수 있다. 만약 다수의 공간 스트림들이 제 2 통신 장치로 향하는 경우, 다수의 RX 프로세서들에 의해 단일 OFDMA 심볼 스트림으로 결합될 수 있다. RX 프로세서는 고속 푸리에 변환 (FFT)을 사용하여 시간 도메인 신호인 OFDM 심볼 스트림을 주파수 도메인 신호로 변환한다. 주파수 도메인 신호는 OFDM 신호의 각각의 부반송파에 대한 개별적인 OFDM 심볼 스트림을 포함한다. 각각의 부반송파 상의 변조 심볼들 및 참조 신호는 제 1 통신 장치에 의해 전송된 가장 가능성 있는 신호 성상(constellation) 포인트들을 결정함으로써 복원되고 복조된다. 이러한 연 판정(soft decision)들은 채널 추정 값들에 기초할 수 있다. 연판정들은 물리 채널 상에서 제 1 통신 장치에 의해 원래 전송된 데이터 및 제어 신호를 복원하기 위해 디코딩 및 디인터리빙된다. 해당 데이터 및 제어 신호는 프로세서(921)에 제공된다.
UL(제 2 통신 장치에서 제 1 통신 장치로의 통신)은 제 2 통신 장치(920)에서 수신기 기능과 관련하여 기술된 것과 유사한 방식으로 제 1 통신 장치(910)에서 처리된다. 각각의 Tx/Rx 모듈(925)는 각각의 안테나(926)을 통해 신호를 수신한다. 각각의 Tx/Rx 모듈은 RF 반송파 및 정보를 RX 프로세서(923)에 제공한다. 프로세서 (921)는 프로그램 코드 및 데이터를 저장하는 메모리 (924)와 관련될 수 있다. 메모리는 컴퓨터 판독 가능 매체로서 지칭될 수 있다.
앞서 살핀 5G 통신 기술은 후술할 본 명세서에서 제안하는 방법들과 결합되어 적용될 수 있으며, 또는 본 명세서에서 제안하는 방법들의 기술적 특징을 구체화하거나 명확하게 하는데 보충될 수 있다.
이하, 도 34 내지 도 53을 참조하여, 본 발명의 실시예에 따른 응답 기기 결정 방법 및 응답 기기 결정 장치에 대하여 상세히 설명한다.
도 34는 본 발명의 일 실시예에 따른 IoT 시스템을 도시한다.
도 34에 도시된 바와 같이, 본 발명의 일 실시예에 따르면, 사용자(1)가 기동어(“Hi LG”)을 발화하면, 복수의 IoT 기기(2A, 2B, 2C)는 기동어(“Hi LG”)을 각 IoT 기기에 포함된 통신부(미도시)를 통해 수신할 수 있다. 여기서, 스마트 TV(2A), 공기 청정기(2B) 및 스마트 냉장고(2C)는 각각 사용자(1)로부터 서로 다른 거리에 위치할 수 있다.
스마트 TV(2A), 공기 청정기(2B) 및 스마트 냉장고(2C)는 각각 사용자(1)로부터 수신한 기동어에 대하여, 각 기기로부터 사용자 사이의 거리를 인디케이팅 할 수 있는 복수의 형태의 거리 정보를 생성할 수 있다.
예를 들면, 스마트 TV(2A), 공기 청정기(2B) 및 스마트 냉장고(2C)는 각각 사용자(1)로부터 기동어를 음성 신호의 형태로 인식하고, 음성 신호를 분석하여 거리 정보를 획득할 수 있으며, 각 IoT 기기에서 생성한 거리 정보를 응답 기기 결정 장치(3)로 전송할 수 있다.
다른 예를 들면, 스마트 TV(2A), 공기 청정기(2B) 및 스마트 냉장고(2C)는 각각 사용자(1)로부터 기동어를 음성 신호의 형태로 인식하고, 음성 신호를 외부의 응답 기기 결정 장치(예: 서버(3))로 전송하고, 응답 기기 결정 장치는 전송된 음성 신호를 분석하여 거리 정보를 획득할 수 있다.
서버(3)는 각 IoT 기기로부터 수신된 서로 다른 값을 가지는 거리 정보에 기반하여 각 IoT 기기에 대한 서로 다른 제1 선택 확률 및 제2 선택 확률 중 적어도 하나에 기반하여 응답 기기를 결정할 수 있다.
도 35는 도 34의 IoT 기기의 세부 구성을 도시한 블록도이다.
도 35에 도시된 바와 같이, 본 발명의 일 실시예에 따르면, IoT 기기(2)는 무선 통신부(21), 입력부(22), 메모리(23), 전원 공급부(24), 출력부(26) 및 무선 통신부(21), 입력부(22), 메모리(23), 전원 공급부(24) 및 출력부(26)를 제어하는 프로세서(25)를 포함할 수 있다.
무선 통신부(21)는 입력부에 의해 수신된 음성 신호를 프로세서(25)로 전달할 수 있다. 또한, 무선 통신부(21)는 응답 기기로 결정되었다는 알림 또는 응답 기기로 결정되지 않았다는 알림을 외부의 응답 기기 결정 장치로부터 수신할 수 있다.
무선 통신부(21)는 IoT 기기(2)와 무선 통신 시스템 사이, IoT 기기(2)와 다른 IoT 기기 사이, 또는 IoT 기기(2)와 외부 서버 사이의 무선 통신을 가능하게 하는 하나 이상의 모듈을 포함할 수 있다. 또한, 무선 통신부(21)는, IoT 기기(2)를 하나 이상의 네트워크에 연결하는 하나 이상의 모듈을 포함할 수 있다.
무선 통신부(21)는 외부의 IoT 기기 또는 다른 외부 장치(예를 들면, 외부 서버 또는 클라우드)와 데이터를 송수신할 수 있는 이동 통신부(211) 및 근거리 통신부(212)를 포함할 수 있다.
이동 통신부(211)는 이동통신을 위한 기술표준들 또는 통신방식(예를 들어, GSM(Global System for Mobile communication), CDMA(Code Division Multi Access), CDMA2000(Code Division Multi Access 2000), EV-DO(Enhanced Voice-Data Optimized or Enhanced Voice-Data Only), WCDMA(Wideband CDMA), HSDPA(High Speed Downlink Packet Access), HSUPA(High Speed Uplink Packet Access), LTE(Long Term Evolution), LTE-A(Long Term Evolution-Advanced) 등)에 따라 구축된 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신한다. 상기 무선 신호는, 음성 호 신호, 화상 통화 호 신호 또는 문자/멀티미디어 메시지 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다.
근거리 통신부(212)는 근거리 통신(Short range communication)을 위한 것으로서, 블루투스(Bluetooth™), RFID(Radio Frequency Identification), 적외선 통신(Infrared Data Association; IrDA), UWB(Ultra Wideband), ZigBee, NFC(Near Field Communication), Wi-Fi(Wireless-Fidelity), Wi-Fi Direct, Wireless USB(Wireless Universal Serial Bus) 기술 중 적어도 하나를 이용하여, 근거리 통신을 지원할 수 있다. 이러한, 근거리 통신부(212)는, 근거리 무선 통신망(Wireless Area Networks)을 통해 IoT 기기(2)와 무선 통신 시스템 사이, IoT 기기(2)와 다른 IoT 기기 사이, 또는 IoT 기기(2)와 다른 IoT 기기가 위치한 네트워크 사이의 무선 통신을 지원할 수 있다. 근거리 무선 통신망은 근거리 무선 개인 통신망(Wireless Personal Area Networks)일 수 있다.
입력부(22)는 오디오 정보(또는 신호), 데이터, 또는 사용자로부터 입력되는 정보의 입력을 위한 인터페이스를 포함할 수 있다. 입력부(22)는 외부의 기동어를 인식하기 위한 마이크(221)를 포함할 수 있다.
마이크(221)는 외부의 음향 신호를 전기적인 음성 데이터로 처리한다. 처리된 음성 데이터는 IoT 기기(2)에서 수행 중인 기능(또는 실행 중인 응용 프로그램)에 따라 다양하게 활용될 수 있다. 한편, 마이크(221)에는 외부의 음향 신호를 입력 받는 과정에서 발생되는 잡음(noise)을 제거하기 위한 다양한 잡음 제거 알고리즘이 구현될 수 있다.
메모리(23)는 IoT 기기(2)의 다양한 기능을 지원하는 데이터를 저장한다. 메모리(170)는 IoT 기기(2)에서 구동되는 다수의 응용 프로그램(application program 또는 애플리케이션(application)), IoT 기기(2)의 동작을 위한 데이터들, 명령어들을 저장할 수 있다. 이러한 응용 프로그램 중 적어도 일부는, 무선 통신을 통해 외부 서버로부터 다운로드 될 수 있다. 또한 이러한 응용 프로그램 중 적어도 일부는, IoT 기기(2)의 기본적인 기능(예를 들어, 데이터 수신, 전송 기능)을 위하여 출고 당시부터 IoT 기기(2)상에 존재할 수 있다. 한편, 응용 프로그램은, 메모리(23)에 저장되고, IoT 기기(2) 상에 설치되어, 프로세서(25) 의하여 상기 IoT 기기(2)의 동작(또는 기능)을 수행하도록 구동될 수 있다.
전원 공급부(24)는 프로세서(25)의 제어 하에서, 외부의 전원, 내부의 전원을 인가받아 IoT 기기(2)에 포함된 각 구성요소들에 전원을 공급한다. 이러한 전원공급부(24)는 배터리를 포함하며, 상기 배터리는 내장형 배터리 또는 교체가능한 형태의 배터리가 될 수 있다.
출력부(26)는 프로세서(25)의 제어에 기반하여 오디오 신호를 출력하는 음향 출력부(261)를 포함할 수 있따. 출력부(26)는 프로세서(25)의 제어에 기반하여 촉각 신호를 출력하는 알람부(262)를 포함할 수 있다.
프로세서(25)는, 예를 들면, 전달된 기동어를 인식한 음성 신호를 분석할 수 있다. 프로세서(25)는 음성 신호를 분석하여 기동어를 발화한 위치(사용자의 위치)로부터 해당 IoT 기기(2)까지의 거리에 관한 특징을 포함하는 서로 다른 형태의 복수의 거리 정보를 생성할 수 있다. 다른 예를 들면, 프로세서(25)는 응답 기기 결정 장치(3)가 음성 신호를 분석하여 복수의 거리 정보를 생성할 수 있도록, 기동어를 인식한 음성 신호를 응답 기기 결정 장치(3)로 전송할 수 있다.
프로세서(25)는 상기와 같은 음성 신호에 대한 분석을 수행하기 위한 음성 처리 인터페이스를 포함할 수 있다.
이하, 도 36 및 도 37을 통해, IoT 기기 환경(IoT device environment) 및/또는 클라우드 환경(cloud environment or server environment)에서 수행되는 음성 처리 과정을 설명한다.
도 36는 음성을 입력받는 것은 IoT 기기(2)에서 이루어질 수 있으나, 입력된 음성을 처리하여 음성을 합성하는 과정 즉 음성 처리의 전반적인 동작이 클라우드 환경(26)에서 이루어지는 예를 도시한 것이다. 이에 반해, 도 37는 전술한 입력된 음성을 처리하여 음성을 합성하는 음성 처리의 전반적인 동작이 IoT 기기(12)에서 이루어지는 온 디바이스 프로세싱(On-device processing)의 예를 도시한 것이다.
도 36 및 도 37에서 IoT 기기 환경(2,12)는 IoT 기기로 호칭될 수 있으며, 클라우드 환경(26, 126)은 서버로 호칭될 수 있다.
도 36는 도 35의 프로세서의 세부 구성에 관한 하나의 예를 도시한 블록도이다.
엔드 투 엔드(end-to-end) 음성 UI 환경에서 음성 이벤트를 처리하기 위해서는 다양한 구성요소가 필요하다. 음성 이벤트를 처리하는 시퀀스는 음성 신호를 수집하여(Signal acquisition and playback), 음성 사전 처리(Speech Pre Processing), 음성 활성화(Voice Activation), 음성 인식(Speech Recognition), 자연어 이해(Natural Language Processing), 거리 정보 추출 및 최종적으로 IoT 기기가 응답 기기 결정 장치로 거리 정보를 전송하는 과정을 수행한다.
IoT 기기(2)는 입력 모듈을 포함할 수 있다. 상기 입력 모듈은 사용자로부터 사용자 입력을 수신할 있다. 예를 들어, 입력 모듈은 연결된 외부 장치(예를 들어, 키보드, 헤드셋)으로부터 사용자 입력을 수신할 수 있다. 또한 예를 들어, 입력 모듈은 터치 스크린을 포함할 수 있다. 또한 예를 들어, 입력 모듈은 사용자 단말에 위치한 하드웨어 키를 포함할 수 있다. 입력 모듈은 도 35의 입력부(22)가 될 수 있다.
일 실시예에 의하면, 상기 입력 모듈은 사용자의 발화를 음성 신호로 수신할 수 있는 적어도 하나의 마이크를 포함할 수 있다. 상기 입력 모듈은 발화 입력 시스템(speech input system)을 포함하고, 상기 발화 입력 시스템을 통해 사용자의 발화를 음성 신호로 수신할 수 있다. 상기 적어도 하나의 마이크는 오디오 입력을 위한 입력 신호를 생성함으로써, 유저의 발화에 대한 디지털 입력 신호를 결정할 수 있다. 일 실시예에 의하면, 복수의 마이크가 어레이로 구현될 수 있다. 어레이는 기하학적 패턴, 예를 들어, 선형 기하학적 형태, 원형 기하학적 형태 또는 임의의 다른 구성으로 배열될 수 있다. 예를 들어, 소정 지점에 대하여, 네 개의 센서들의 어레이는 네 개의 방향들로부터 사운드를 수신하기 위해 90도로 구분되어 원형의 패턴으로 배치될 수 있다. 일부 구현들에서, 상기 마이크는 데이터 통신 내 공간적으로 서로 다른 어레이의 센서들을 포함할 수 있는데, 센서들의 네트워크화된 어레이가 포함될 수 있다. 마이크는 무지향성(omnidirectional), 방향성(directional, 예를 들어, 샷건(shotgun) 마이크)등을 포함할 수 있다.
IoT 기기(2)는 상기 입력 모듈(예를 들어, 마이크)을 통해 수신된 사용자 입력(음성 신호)를 전처리할 수 있는 전처리 모듈(pre-processing module)(251)을 포함할 수 있다.
상기 전처리 모듈(251)은 적응 반향 제거(adaptive echo canceller, AEC) 기능을 포함함으로써, 상기 마이크를 통해 입력된 사용자 음성 신호에 포함된 에코(echo)를 제거할 수 있다. 상기 전처리 모듈(251)은 노이즈 억제(noise suppression, NS) 기능을 포함함으로써, 사용자 입력에 포함된 배경 잡음을 제거할 수 있다. 상기 전처리 모듈(251)은 종점 검출(end-point detect, EPD) 기능을 포함함으로써, 사용자 음성의 종점을 검출하여 사용자의 음성이 존재하는 부분을 찾을 수 있다. 또한, 상기 전처리 모듈(251)은 자동 이득 제어(automatic gain control, AGC) 기능을 포함함으로써, 상기 사용자 입력을 인식하여 처리하기 적합하도록 상기 사용자 입력의 음량을 조절할 수 있다.
IoT 기기(2)는 음성 인식 활성화(voice activation) 모듈(252)을 포함할 수 있다. 상기 음성인식 활성화 모듈(252)은 사용자의 호출을 인식하는 웨이크업(wake up) 명령을 인식할 수 있다. 상기 음성인식 활성화 모듈(252)은 전처리 과정을 거친 사용자 입력으로부터 소정의 키워드(ex, Hi LG)를 디텍트할 수 있다. 상기 음성인식 활성화 모듈(252)은 대기 상태로 존재하여 올 웨이즈 온 키워드 디텍트(Always-on keyword detection) 기능을 수행할 수 있다.
IoT 기기(2)는 사용자로부터 발화된 기동어를 전처리하여 획득한 오디오 신호를 분석하여, 오디오 신호로부터 거리 정보를 추출하는 거리 정보 추출 모듈(Distance Feature Extractor)(253)을 포함할 수 있으나, 반드시 이에 한정될 필요는 없고, IoT 기기(2)가 아닌 응답 기기 결정 장치가 직접 오디오 신호로부터 거리 정보를 추출할 수도 있다.
IoT 기기(2)는 사용자 음성 입력을 클라우드 서버로 전송할 수 있다. 사용자 음성을 처리하기 위한 핵심 구성인 자동 음성 인식(ASR), 자연어 이해(NLU) 동작은 컴퓨팅, 저장, 전원 제약 등으로 인해 전통적으로 클라우드에서 실행되고 있는 것이 일반적이다. 상기 클라우드는 클라이언트로부터 전송된 사용자 입력을 처리하는 클라우드 디바이스(26)를 포함할 수 있다. 상기 클라우드 디바이스(26)는 서버 형태로 존재할 수 있다.
클라우드 디바이스(26)는 자동 음성 인식(Auto Speech Recognition, ASR) 모듈(261), 지능형 에이전트(Artificial Intelligent Agent)(262), 자연어 이해(Natural Language Understanding, NLU) 모듈(263), 텍스트 음성 변환(Text-to-Speech, TTS) 모듈(264)과, 서비스 매니저(265)를 포함할 수 있다.
ASR 모듈(261)은 IoT 기기(2)로부터 수신된 사용자 음성 입력을 텍스트 데이터로 변환할 수 있다.
ASR 모듈(261)은 프론트-엔드 스피치 프리프로세서(front-end speech pre-processor)를 포함한다. 프론트-엔드 스피치 프리프로세서는 스피치 입력으로부터 대표적인 특징을 추출한다. 예를 들어, 프론트-엔드 스피치 프리프로세서는 스피치 입력을 푸리에 변환을 수행하여 대표적인 다차원 벡터의 시퀀스로서 스피치 입력을 특징짓는 스펙트럼 특징을 추출한다. 또한, ASR 모듈(261)은 하나 이상의 스피치 인식 모델(예컨대, 음향 모델 및/또는 언어 모델)을 포함하고, 하나 이상의 스피치 인식 엔진을 구현할 수 있다. 스피치 인식 모델의 예는 은닉 마르코프 모델(hidden Markov models), 가우시안 혼합 모델(Gaussian-Mixture Models), 딥 신경망 모델(Deep Neural Network Models), n-gram 언어 모델, 및 기타 통계 모델을 포함한다. 스피치 인식 엔진의 예는 동적 시간 왜곡 기반 엔진 및 가중치 유한 상태 변환기(WFST) 기반 엔진을 포함한다. 하나 이상의 스피치 인식 모델 및 하나 이상의 스피치 인식 엔진은 중간 인식 결과들(예를 들어, 음소, 음소 문자열, 및 하위 단어들), 및 궁극적으로 텍스트 인식 결과들(예컨대, 단어, 단어 문자열, 또는 토큰들의 시퀀스)을 생성하기 위해 프론트-엔드 스피치 프리프로세서의 추출된 대표 특징들을 처리하는 데 사용될 수 있다.
ASR 모듈(261)이 텍스트 문자열(예를 들어, 단어들, 또는 단어들의 시퀀스, 또는 토큰들의 시퀀스)을 포함하는 인식 결과를 생성하면, 인식 결과는 의도 추론을 위해 자연 언어 처리 모듈(12532)로 전달된다. 일부 예들에서, ASR 모듈(12530)은 스피치 입력의 다수의 후보 텍스트 표현들을 생성한다. 각각의 후보 텍스트 표현은 스피치 입력에 대응하는 단어들 또는 토큰들의 시퀀스이다.
NLU 모듈(263)은 문법적 분석(Syntactic analyze) 또는 의미적 분석(Semantic analyze)을 수행하여 사용자 의도를 파악할 수 있다. 상기 문법적 분석은 문법 단위(예를 들어, 단어, 구, 형태소 등)를 나누고, 나누어진 단위가 어떠한 문법적인 요소를 갖는지 파악할 수 있다. 상기 의미적 분석은 의미(semantic) 매칭, 룰(rule) 매칭, 포뮬러(formula) 매칭 등을 이용하여 수행할 수 있다. 이에 따라, NUL 모듈(263)은 사용자 입력이 어느 도메인(domain), 의도(intent) 또는 상기 의도를 표현하는데 필요한 파라미터(parameter)를 획득할 수 있다.
상기 NLU 모듈(263)은 도메인, 의도 및 상기 의도를 파악하는데 필요한 파라미터로 나누어진 매핑 규칙을 이용하여 사용자의 의도 및 파라미터를 결정할 수 있다. 예를 들어, 하나의 도메인(예를 들어, 알람)은 복수의 의도(예를 들어, 알람 설정, 알람 해제)를 포함할 수 있고, 하나의 의도는 복수의 파라미터(예를 들어, 시간, 반복 횟수, 알람음 등)을 포함할 수 있다. 복수의 룰은, 예를 들어, 하나 이상의 필수 요소 파라미터를 포함할 수 있다. 상기 매칭 규칙은 자연어 이해 데이터 베이스(Natural Language Understanding Database)에 저장될 수 있다.
상기 NLU 모듈(263)은 형태소, 구 등의 언어적 특징(예를 들어, 문법적 요소)을 이용하여 사용자 입력으로부터 추출된 단어의 의미를 파악하고, 상기 파악된 단어의 의미를 도메인 및 의도에 매칭시켜 사용자의 의도를 결정한다. 예를 들어, NLU 모듈(263)은 각각의 도메인 및 의도에 사용자 입력에서 추출된 단어가 얼마나 포함되어 있는지를 계산하여 사용자 의도를 결정할 수 있다. 일 실시예에 따르면, NLU 모듈(263)은 상기 의도를 파악하는데 기초가된 단어를 이용하여 사용자 입력의 파라미터를 결정할 수 있다. 일 실시예에 따르면, NLU 모듈(263)은 사용자 입력의 의도를 파악하기 위한 언어적 특징이 저장된 자연어 인식 데이터 베이스를 이용하여 사용자의 의도를 결정할 수 있다. 또한 일 실시예에 따르면, NLU 모듈(263)은 개인화 언어 모델(personal language model, PLM)을 이용하여 사용자의 의도를 결정할 수 있다. 예를 들어, NLU 모듈(263)은 개인화된 정보(예를 들어, 연락처 리스트, 음악 리스트, 스케줄 정보, 소셜 네트워크 정보 등)을 이용하여 사용자의 의도를 결정할 수 있다. 상기 개인화 언어 모델은, 예를 들어, 자연어 인식 데이터 베이스에 저장될 수 있다. 일 실시예에 따르면, NLU 모듈(263) 뿐 아니라 ASR 모듈(261)도 자연어 인식 데이터 베이스에 저장된 개인화 언어 모델을 참고하여 사용자 음성을 인식할 수 있다.
NLU 모듈(263)은 자연어 생성 모듈(미도시)을 더 포함할 수 있다. 상기 자연어 생성 모듈은 지정된 정보를 텍스트 형태로 변경할 수 있다. 상기 텍스트 형태로 변경된 정보는 자연어 발화의 형태일 수 있다. 상기 지정된 정보는 예를 들어, 추가 입력에 대한 정보, 사용자 입력에 대응되는 동작의 완료를 안내하는 정보 또는 사용자의 추가 입력을 안내하는 정보 등을 포함할 수 있다. 상기 텍스트 형태로 변경된 정보는 IoT 기기로 전송되어 디스플레이에 표시되거나, TTS 모듈로 전송되어 음성 형태로 변경될 수 있다.
음성 합성 모듈(TTS 모듈, 264)은 텍스트 형태의 정보를 음성 형태의 정보로 변경할 수 있다. TTS 모듈(264)은 NLU 모듈(263)의 자연어 생성 모듈로부터 텍스트 형태의 정보를 수신하고, 상기 텍스트 형태의 정보를 음성 형태의 정보로 변경하여 IoT 기기(2)로 전송할 수 있다. 상기 IoT 기기(2)는 상기 음성 형태의 정보를 스피커를 통해 출력할 수 있다.
음성 합성 모듈(264)은 제공된 텍스트에 기초하여 스피치 출력을 합성한다. 예를 들어, 음성 인식 모듈(ASR)(261)에서 생성된 결과는 텍스트 문자열의 형태이다. 음성 합성 모듈(264)은 텍스트 문자열을 가청 스피치 출력으로 변환한다. 음성 합성 모듈(264)은, 텍스트로부터의 스피치 출력을 생성하기 위하여 임의의 적절한 스피치 합성 기법을 사용하는데, 이는 편집 합성(concatenative synthesis), 단위 선택 합성(unit selection synthesis), 다이폰 합성, 도메인-특정 합성, 포먼트 합성(Formant synthesis), 조음 합성(Articulatory synthesis), HMM(hidden Markov model) 기반 합성, 및 정현파 합성(sinewave synthesis)을 포함하지만 이로 한정되지 않는다.
일부 예들에서, 음성 합성 모듈(264)은 단어들에 대응하는 음소 문자열에 기초하여 개별 단어들을 합성하도록 구성된다. 예를 들어, 음소 문자열은 생성된 텍스트 문자열의 단어와 연관된다. 음소 문자열은 단어와 연관된 메타데이터에 저장된다. 음성 합성 모듈(264)은 스피치 형태의 단어를 합성하기 위해 메타데이터 내의 음소 문자열을 직접 프로세싱하도록 구성된다.
클라우드 환경은 일반적으로 IoT 기기보다 많은 처리 능력 또는 리소스를 갖기 때문에, IoT 측 합성에서 실제보다 높은 품질의 스피치 출력을 획득하는 것이 가능하다. 그러나, 본 발명은 이에 한정되지 않으며, 실제로 음성 합성 과정이 클라이언트 측에서 이루어질 수 있음은 물론이다(도 37 참조)
한편, 본 발명의 일 실시예에 따라 클라우드 환경에는 지능형 에이전트(Artificial Intelligence Agent, AI 에이전트)(262)를 더 포함할 수 있다. 상기 지능형 에이전트(262)는 전술한 ASR 모듈(261), NLU 모듈(262) 및/또는 TTS 모듈(264)이 수행하는 기능 중 적어도 일부의 기능을 수행하도록 설계될 수 있다. 또한 상기 지능형 에이전트 모듈(262)은 ASR 모듈(261), NLU 모듈(262) 및/또는 TTS 모듈(264) 각각의 독립적인 기능을 수행하는데 기여할 수 있다.
상기 지능형 에이전트 모듈(262)은 심층학습(딥러닝)을 통해 전술한 기능들을 수행할 수 있다. 상기 심층학습은 어떠한 데이터가 있을 때 이를 컴퓨터가 알아 들을 수 있는 형태(예를 들어 이미지의 경우는 픽셀정보를 열벡터로 표현하는 등)로 표현(representation)하고 이를 학습에 적용하기 위해 많은 연구(어떻게 하면 더 좋은 표현기법을 만들고 또 어떻게 이것들을 학습할 모델을 만들지에 대한)가 진행되고 있으며, 이러한 노력의 결과로 심층 신경망(DNN, deep neural networks), 합성곱 신경망(CNN, convolutional deep neural networks), 순환 신경망(RNN, Recurrent Boltzmann Machine), 제한 볼츠만 머신(RBM, Restricted Boltzmann Machine), 심층 신뢰 신경망(DBN, deep belief networks), 심층 Q-네트워크(Deep Q-Network)와 같은 다양한 딥 러닝 기법들이 컴퓨터비젼, 음성인식, 자연어처리, 음성/신호처리 등의 분야에 적용될 수 있다.
현재 모든 주요 상업 음성인식 시스템(MS 코타나, 스카이프 번역기, 구글 나우, 애플 시리 등등)이 딥 러닝 기법에 기반하고 있다.
특히, 지능형 에이전트 모듈(262)은 자연어 처리 분야에서 심층 인공신경망 구조를 이용하여 자동 번역(machine translation), 감정 분석(emotion analysis), 정보 검색(information retrieval)을 비롯한 다양한 자연언어처리 과정을 수행할 수 있다.
한편, 상기 클라우드 환경은 다양한 개인화된 정보를 수집하여 상기 지능형 에이전트(262)의 기능을 지원할 수 있는 서비스 매니저(service manager)(265)를 포함할 수 있다. 상기 서비스 매니저를 통해 획득되는 개인화된 정보는, IoT 기기(2)가 클라우드 환경을 통해 이용하는 적어도 하나의 데이터(캘린더 애플리케이션, 메시징 서비스, 뮤직 애플리케이션 사용 등), 상기 IoT 기기(2) 및/또는 클라우드(26)가 수집하는 적어도 하나의 센싱 데이터들(카메라, 마이크로폰, 온도, 습도, 자이로 센서, C-V2X, 펄스(pulse), 조도(Ambient light), 홍채 인식(Iris scan) 등), 상기 IoT 기기(2)와 직접적으로 관련 없는 오프 디바이스 데이터들을 포함할 수 있다. 예를 들어, 상기 개인화된 정보는, 맵(maps), SMS, News, Music, Stock, Weather, wikipedia 정보를 포함할 수 있다.
상기 지능형 에이전트(262)은 설명의 편의를 위해 ASR 모듈(261), NLU 모듈(263) 및 TTS 모듈(264)과 구분되도록 별도의 블럭으로 표현하였으나, 상기 지능형 에이전트(262)는 상기 각 모듈(261,262,264)의 적어도 일부 또는 전부의 기능을 수행할 수도 있다.
이상, 도 36에서는 상기 지능형 에이전트(262)가 컴퓨팅 연산, 저장 및 전원 제약 등으로 인해 클라우드 환경에서 구현되는 예를 설명하였으나, 본 발명은 이에 한정되는 것은 아니다.
예를 들어, 도 37는 상기 지능형 에이전트(AI agent)가 IoT 기기에 포함되어 있는 경우를 제외하고는 도 36에 도시된 바와 동일하다.
도 37은 도 35의 프로세서의 세부 구성에 관한 다른 하나의 예를 도시한 블록도이다.
도 37에 도시된 IoT 기기(12) 및 클라우드 환경(126)은 도 36에서 언급한 IoT 기기(2) 및 클라우드 환경(26)에 일부 구성 및 기능에 있어서 차이가 있을 뿐 대응될 수 있다. 이에 따라 대응되는 블럭의 구체적인 기능에 대해서는 도 36를 참조할 수 있다.
도 37를 참조하면, IoT 기기(12)는 전처리 모듈(1251), 음성 인식 활성화(voice activation) 모듈(1252), ASR 모듈(1253), 지능형 에이전트(1254), NLU 모듈(1255), TTS 모듈(1256), 거리 정보 추출 모듈(1257)을 포함할 수 있다. 또한, IoT 기기(2)는 입력 모듈(적어도 하나의 마이크로 폰)과, 적어도 하나의 출력 모듈을 포함할 수 있다.
또한, 클라우드 환경은 개인화된 정보를 지식(knowledge) 형태로 저장하는 클라우드 지식(Cloud Knowledge)(126)을 포함할 수 있다.
도 37에 도시된 각 모듈의 기능은 도 36를 참조할 수 있다. 다만, ASR 모듈(1253), NLU 모듈(1255) 및 TTS 모듈(1256)이 IoT 기기(12)에 포함되어 있어서 음성 인식 및 음성 합성 등의 음성 처리 과정을 위해 클라우드와의 통신이 필요하지 않을 수 있으며, 이에 따라 즉각적이고 실시간 음성 처리처리 동작이 가능하게 된다.
도 36 및 도 37에 도시된 각 모듈은 음성 처리 과정을 설명하기 위한 예시일 뿐이며, 도 36 및 도 37에 도시된 모듈보다 더 많거나 더 적은 모듈을 가질 수 있다. 또한, 둘 이상의 모듈을 조합할 수 있거나 또는 상이한 모듈 또는 상이한 배열의 모듈을 가질 수 있다는 것에 유의해야 한다. 도 36 및 도 37에 도시된 다양한 모듈들은 하나 이상의 신호 프로세싱 및/또는 주문형 직접 회로, 하드웨어, 하나 이상의 프로세서에 의한 실행을 위한 소프트웨어 명령어들, 펌웨어 또는 이들의 조합으로 구현될 수 있다.
도 38은 도 36 및 도 37의 지능형 에이전트의 개략적인 블럭도를 도시한다.
도 38을 참조하면, 상기 지능형 에이전트(1254)는 도 36 및 도 37를 통해 설명한 음성 처리 과정에서 ASR 동작, NLU 동작, TTS 동작 및 거리 정보 추출 동작을 수행하는 것 외에, 사용자와 상호 작용(interactive operation)을 지원할 수 있다. 또는 상기 지능형 에이전트(1254)는 컨텍스트 정보를 이용하여, NLU 모듈(263)이 ASR 모듈(261)로부터 수신된 텍스트 표현들에 포함된 정보를 보다 명확하게 하고, 보완하거나 추가적으로 정의하는 동작을 수행하는데 기여할 수 있다.
여기서, 컨텍스트 정보는, IoT 기기 사용자의 선호도, IoT 기기의 하드웨어 및/또는 소프트웨어 상태들, 사용자 입력 전, 입력 중, 또는 입력 직후에 수집되는 다양한 센서 정보, 상기 지능형 에이전트와 사용자 사이의 이전 상호 작용들(예를 들어, 대화) 등을 포함할 수 있다. 본 문서에서 컨텍스트 정보는 동적이고, 시간, 위치, 대화의 내용 및 기타 요소들에 따라 가변되는 특징임을 물론이다.
지능형 에이전트(1254)는 컨텍스트 퓨전 및 학습 모듈(12541), 로컬 지식(12542), 다이얼로그 매니지먼트(12543)를 더 포함할 수 있다.
컨텍스트 퓨전 및 학습모듈(12541)은 적어도 하나의 데이터에 기초하여 사용자의 의도를 학습할 수 있다. 상기 적어도 하나의 데이터는 IoT 기기 또는 클라우드 환경에서 획득되는 적어도 하나의 센싱 데이터를 포함할 수 있다. 또한, 상기 적어도 하나의 데이터는 화자 식별(speaker identification), 음향 사건 인지(Acoustic event detection), 화자의 개인 정보(성별 및 나이)(Gender and age detection), 음성 활성도 검출(VAD, voice activity detection), 감정 정보(Emotion Classification) 을 포함할 수 있다.
상기 화자 식별은, 발화하는 사람을 음성에 의해 등록된 대화군 속에서 특정하는 것을 의미할 수 있다. 상기 화자 식별은 기 등록된 화자를 식별하거나, 새로운 화자로 등록하는 과정을 포함할 수 있다. 음향 사건 인지(Acoustic event detection)는 음성 인식 기술을 넘어서 음향 자체를 인식함으로써, 소리의 종류, 소리의 발생 장소를 인지할 수 있다. 음성 활성도 검출(VAD)은 음악, 잡음 또는 다른 사운드를 포함할 수 있는 오디오 신호에서 인간의 스피치(음성)의 존재 또는 부재가 검출되는 스피치 프로세싱 기술이다. 일 예에 따라 지능형 에이전트(1254)는 상기 입력된 오디오 신호로부터 스피치의 존재 여부를 확인할 수 있다. 일 예에 따라 지능형 에이전트(1254)는 심층 신경망(DNN, deep neural networks) 모델을 이용하여 스피치 데이터(speech data)와 비 스피치 데이터(non-speech data)를 구분할 수 있다. 또한, 지능형 에이전트(1254)는 심층 신경망(DNN, deep neural networks) 모델을 이용하여 스피치 데이터에 대하여 감정 분류(Emotion Classification) 동작을 수행할 수 있다. 상기 감정 분류 동작에 따라 스피치 데이터는 화남(Anger), 지루함(Boredom), 무서움(Fear), 행복(Happiness), 슬픔(Sadness)으로 분류될 수 있다.
상기 컨텍스트 퓨전 및 학습 모듈(12541)은 전술한 동작을 수행하기 위해 DNN 모델을 포함할 수 있으며, 상기 DNN 모델 및 IoT 기기 또는 클라우드 환경에서 수집되는 센싱 정보에 기초하여 사용자 입력의 의도를 확인할 수 있다.
상기 적어도 하나의 데이터는 예시적인 것에 불과하며 음성 처리 과정에서 사용자의 의도를 확인하는데 참조될 수 있는 어떠한 데이터도 포함될 수 있음은 물론이다. 상기 적어도 하나의 데이터는, 전술한 DNN 모델을 통해 획득할 수 있음은 물론이다.
지능형 에이전트(1254)는 로컬 지식(Local Knowledge)(12542)을 포함할 수 있다. 상기 로컬 지식(12542)은 사용자 데이터를 포함할 수 있다. 상기 사용자 데이터는 사용자의 선호도, 사용자 주소, 사용자의 초기 설정 언어, 사용자의 연락처 목록 등을 포함할 수 있다. 일 예에 따르면, 지능형 에이전트(1254)는 사용자의 특정 정보를 이용하여 사용자의 음성 입력에 포함된 정보를 보완하여 사용자 의도를 추가적으로 정의할 수 있다. 예를 들어, "내 생일 파티에 내 친구들을 초대해주세요" 라는 사용자의 요청에 응답하여, 지능형 에이전트(1254)는 "친구들"이 누구인지, "생일 파티"가 언제, 어디서 열리지를 결정하기 위해 사용자에게 보다 명확한 정보를 제공하도록 요구하지 않고, 상기 로컬 지식(12542)을 이용할 수 있다.
지능형 에이전트(1254)는 다이얼로그 관리(Dialog Management)(12543)를 더 포함할 수 있다. 상기 지능형 에이전트(1254)는 사용자와의 음성 대화가 가능하도록 다이얼로그 인터페이스를 제공할 수 있다. 상기 다이얼로그 인터페이스는 사용자의 음성 입력에 응답을 디스플레이 또는 스피커를 통해 출력하는 과정을 의미할 수 있다. 여기서 상기 다이얼로그 인터페이스를 통해 출력하는 최종 결과물은 전술한 ASR 동작, NLU 동작, TTS 동작, 거리 정보 추출 동작에 기초할 수 있다.
도 39는 도 34의 응답 기기 결정 장치의 상세한 구성을 도시한 블록도이다.
도 39에 도시된 바와 같이, 본 발명의 일 실시예에 따르면, 응답 기기 결정 장치(3)는 무선 통신부(31), 메모리(33), 전원 공급부(34) 및 각 인터페이스(31, 33, 34)를 제어하기 위한 프로세서(35)를 포함할 수 있다.
응답 기기 결정 장치의 무선 통신부(31), 무선 통신부의 이동 통신부(311), 근거리 통신부(312), 메모리(33), 전원 공급부(34), 프로세서(35)의 기본적인 특성은 도 35를 참조하여 설명한 무선 통신부(21), 이동 통신부(211), 근거리 통신부(212), 메모리(23), 전원 공급부(24), 프로세서(25)의 기본적인 특성과 동일하므로, 상세한 설명은 생략한다.
무선 통신부(31)는 무선 인터넷에 접속하기 위한 무선 인터넷부(313)를 더 포함할 수 있다. 무선 인터넷부(313)는 무선 인터넷 접속을 위한 모듈을 말하는 것으로, 응답 기기 결정 장치(3)에 내장되거나 외장될 수 있다. 무선 인터넷 모듈(313)은 무선 인터넷 기술들에 따른 통신망에서 무선 신호를 송수신하도록 이루어진다.
무선 인터넷 기술로는, 예를 들어 WLAN(Wireless LAN), Wi-Fi(Wireless-Fidelity), Wi-Fi(Wireless Fidelity) Direct, DLNA(Digital Living Network Alliance), WiBro(Wireless Broadband), WiMAX(World Interoperability for Microwave Access), HSDPA(High Speed Downlink Packet Access), HSUPA(High Speed Uplink Packet Access), LTE(Long Term Evolution), LTE-A(Long Term Evolution-Advanced) 등이 있으며, 상기 무선 인터넷 모듈(313)은 상기에서 나열되지 않은 인터넷 기술까지 포함한 범위에서 적어도 하나의 무선 인터넷 기술에 따라 데이터를 송수신하게 된다.
WiBro, HSDPA, HSUPA, GSM, CDMA, WCDMA, LTE, LTE-A 등에 의한 무선인터넷 접속은 이동통신망을 통해 이루어진다는 관점에서 본다면, 상기 이동통신망을 통해 무선인터넷 접속을 수행하는 상기 무선 인터넷 모듈(313)은 상기 이동통신 모듈(312)의 일종으로 이해될 수도 있다.
예를 들면, 무선 통신부(31)는 복수의 IoT 기기(2A, 2B, 2C)로부터 복수의 거리 정보를 수신할 수 있다. 다른 예를 들면, 무선 통신부(31)는 복수의 IoT 기기로부터 복수의 음성 신호(또는 오디오 신호)를 수신하여 프로세서(35)로 전달할 수 있고, 프로세서(35)는 수신된 음성 신호에 대한 음성 처리 및 음성 분석을 수행하여, 복수의 IoT 기기가 인식한 복수의 음성 신호에 대한 복수의 거리 정보를 생성할 수 있다. 또한, 무선 통신부(31)는 프로세서(35)의 제어에 따라 각 IoT 기기로 해당 IoT 기기의 응답 기기 결정 여부를 알릴 수 있다.
프로세서(35)는 동일 기동어를 인식한 복수의 IoT 기기로부터 거리 정보를 무선 통신부(31)를 통해 수신할 수 있다. 또한, 프로세서(35)는 동일 기동어를 인식하여 복수의 IoT 기기로부터 전송된 오디오 신호를 분석하여 거리 정보를 획득할 수 있다.
프로세서(35)는 거리 정보에 기초하여 특정 IoT 기기를 응답 기기로 선택할 정도의 임계 상황인지 여부를 판단할 수 있다.
프로세서(35)는 임계 상황인지 여부를 판단한 결과에 기반하여, 거리 정보에 기초하여 최다 득표 선택 방법(MV, Max Voting)을 이용하여 응답 기기를 결정하는 제1 단계와, 거리 정보를 심층 신경망(DNN, Deep Neural Network) 모델에 적용한 출력값을 이용하여 응답 기기를 결정하는 제2 단계 중에서 적어도 하나를 이용하여 응답 기기를 결정할 수 있다.
여기서, 메모리(33)는 프로세서(35)가 이용하기 위한 심층 신경망 모델을 저장할 수 있다.
도 40은 도 39의 프로세서의 상세한 구성을 도시한 블록도이다.
도 40에 도시된 바와 같이, 본 발명의 일 실시예에 따르면, 프로세서(35)는 제1 선택 확률 획득부(351), 제2 선택 확률 획득부(352), 선택 확률 조합부(353), 응답 기기 선택부(354)를 포함할 수 있다.
여기서, 제1 선택 확률을 프로세서가 거리 정보에만 기초하여 획득한 각 기기마다 선택될 확률을 의미할 수 있다. 제2 선택 확률은 프로세서가 거리 정보를 DNN 모델에 적용하여 그 출력값으로서 얻는 각 기기마다의 선택될 확률을 의미할 수 있다.
제1 선택 확률 획득부(351)는 서로 다른 IoT 기기로부터 각각 수신된 서로 다른 거리 정보를 이용하여 각 IoT 기기에 대한 서로 다른 제1 선택 확률을 획득한다.
제1 선택 확률 획득부(351)는 서로 다른 IoT 기기로부터 수신된 서로 다른 거리 정보 값을 비교하는 거리 정보 비교부(3511)를 포함한다. 거리 정보 비교부(3511)는 각 기기로부터 전송된 복수의 거리 정보를 MV(Max Voting) 방식을 통해 비교한다.
제1 선택 확률 획득부(351)는 거리 정보 비교부(3511)에 의한 비교 결과에 기반하여, 서로 다른 IoT 기기 각각에 대한 서로 다른 제1 선택 확률을 계산하는 제1 선택 확률 계산부(3512)를 포함한다.
프로세서(35)는 서로 다른 IoT 기기에 대한 서로 다른 제2 선택 확률을 획득하는 제2 선택 확률 획득부(352)를 포함한다. 제2 선택 확률 획득부(352)는 서로 다른 IoT 기기로부터 각각 수신된 서로 다른 거리 정보를 심층 신경망 모델(3521)에 입력하여, 각 IoT 기기에 대한 서로 다른 제2 선택 확률을 가우시안 혼합 모델(GMM, Gaussian Mixture Model)(3522)을 이용하여 혼합된 가우시안 분포의 형태로 획득하는 제2 선택 확률 계산부(3523)를 포함한다.
프로세서(35)는 제1 선택 확률 및 제2 선택 확률 중 적어도 하나에 기반하여 응답 기기를 결정하는 응답 기기 선택부(354)를 포함한다. 서로 다른 IoT 기기에 대하여 획득된 서로 다른 제1 선택 확률 사이의 차이가 임계값 이상인 경우, 응답 기기 선택부(354)는 서로 다른 IoT 기기에 대하여 획득된 서로 다른 제1 선택 확률을 이용하여 응답 기기를 결정한다. 다만, 서로 다른 IoT 기기에 대하여 획득된 서로 다른 제1 선택 확률 사이의 차이가 임계값 이하인 경우, 응답 기기 선택부(354)는 제1 선택 확률 대신 제2 선택 확률을 이용하여 응답 기기를 결정한다. 여기서, 서로 다른 IoT 기기에 대하여 획득된 서로 다른 제2 선택 확률 사이의 차이가 임계값 이상인 경우, 응답 기기 선택부(354)는 제2 선택 확률을 이용하여 응답 기기를 결정한다.
프로세서(35)는 서로 다른 IoT 기기에 대한 서로 다른 제2 선택 확률 사이의 차이에 따라서, 제1 선택 확률과 제2 선택 확률을 조합하는 선택 확률 조합부(353)를 포함한다. 선택 확률 조합부(353)는 서로 다른 IoT 기기에 대하여 획득된 서로 다른 제2 선택 확률 사이의 차이가 임계값 이하인 경우, 각 IoT 기기에 대한 제1 선택 확률과 제2 선택 확률을 조합한다. 선택 확률 조합부(353)는 서로 다른 IoT 기기의 서로 다른 제1 선택 확률의 차이와 서로 다른 IoT 기기의 서로 다른 제2 선택 확률의 차이를 비교하고, 차이가 더 큰 선택 확률에 더 큰 가중치를 적용하면서 제1 선택 확률과 제2 선택 확률을 조합하고, 최종 선택 확률을 획득하여 응답 기기 선택부(354)로 전달한다. 응답 기기 선택부(354)는 전달된 최종 선택 확률을 이용하여 응답 기기를 결정한다. 응답 기기 선택부(354)는 최종 선택 확률이 가장 높은 IoT 기기를 응답 기기로 결정한다.
프로세서(35)는 통신부(31)를 통해 응답 기기로 결정된 IoT 기기로 응답 기기로 결정되었다는 신호를 알린다. 또한, 프로세서(35)는 통신부(31)를 통해 응답 기기로 결정된 IoT 기기 이외의 다른 IoT 기기로 응답 기기로 결정되지 않았다는 신호를 알린다.
도 41은 본 발명의 다른 일 실시예에 따른 IoT 시스템을 도시한다.
도 41에 도시된 바와 같이, IoT 시스템은 사용자(11)에 의해 발화된 기동어(“Hi LG”)를 오디오 신호의 형태로 인식하는 복수의 IoT 기기(12A, 12B, 13)를 포함한다. 여기서, 스마트 TV(12A)와 스마트 냉장고(12B)는 도 34 내지 도 40을 참조하여 설명한 IoT 기기의 기능을 수행하는, 서브 IoT 기기가 될 수 있으므로, 중복되는 설명은 생략한다.
한편, 공기 청정기(13)는 도 34 내지 도 40을 참조하여 설명한 IoT 기기의 기능을 수행하면서, 동시에, 도 34 내지 도 40을 참조하여 설명한 응답 기기 결정 장치의 기능을 수행하는, 메인 IoT 기기가 될 수 있으므로, 중복되는 설명은 생략한다.
메인 IoT 기기(13)는 기동어를 인식한 오디오 신호를 분석하고, 오디오 신호로부터 거리 정보를 생성한다. 또한, 메인 IoT 기기(13)는 제1 서브 IoT 기기(12A) 및 제2 서브 IoT 기기(12B)로부터 각 기기에 의해 생성된 복수의 거리 정보를 수신한다.
메인 IoT 기기(13)는 수신된 복수의 거리 정보에 기초하여, 특정 기기를 선택할 정도의 임계 상황인지 판단한다. 메인 IoT 기기(13)는 거리 정보에 기초하여 MV를 통해 응답 기기를 선택하거나, 거리 정보를 미리 학습된 DNN에 적용하여 그 출력값을 이용하여 응답 기기를 선택하거나, MV를 통해 기기를 선택하는 제1 단계와 DNN을 통해 기기를 선택하는 제2 단계를 조합할 수도 있다.
도 42는 도 41의 메인 IoT 기기의 상세한 구성을 도시한다.
앞서 도 41을 참조하여 설명한 바와 같이, 메인 IoT 기기는 IoT 기기의 기능과 응답 기기 결정 장치의 기능을 결합한 디바이스로 정의할 수 있다.
도 42에 도시된 바와 같이, 메인 IoT 기기(13)는 무선 통신부(131), 입력부(132), 메모리(133), 전원 공급부(134), 출력부(136) 및 프로세서(135)를 포함할 수 있다.
도 42의 메인 IoT 기기(13)의 무선 통신부(131), 무선 통신부(131)의 이동 통신부(1311), 근거리 통신부(1312)는 각각 도 35를 참조하여 설명한 IoT 기기(2)의 무선 통신부(21), 무선 통신부(21)의 이동 통신부(211), 근거리 통신부(212)의 기능을 수행할 수 있다. 또한, 메인 IoT 기기(13)의 무선 통신부(131), 무선 통신부(131)의 이동 통신부(1311), 근거리 통신부(1312), 무선 인터넷부(1313)는 각각 도 39를 참조하여 설명한 응답 기기 결정 장치(3)의 무선 통신부(31), 무선 통신부(31)의 이동 통신부(311), 근거리 통신부(312), 무선 인터넷부(313)의 기능을 수행할 수 있다.
도 42의 메인 IoT 기기(13)의 입력부(132), 입력부(132)의 마이크(1321)는 도 35를 참조하여 설명한 IoT 기기(2)의 입력부(22) 및 입력부(22)의 마이크(221)의 기능을 수행할 수 있다.
도 42의 메인 IoT 기기(13)의 메모리(133)는 도 35를 참조하여 설명한 IoT 기기(2)의 메모리(23)의 기능과, 도 39를 참조하여 설명한 응답 기기 결정 장치(3)의 메모리(33)의 기능을 모두 수행할 수 있다.
도 42의 메인 IoT 기기(13)의 전원 공급부(34)는 도 35를 참조하여 설명한 IoT 기기(2)의 전원 공급부(24)의 기능과, 도 39를 참조하여 설명한 응답 기기 결정 장치(3)의 전원 공급부(34)의 기능을 수행할 수 있다.
도 42의 메인 IoT 기기(13)의 프로세서(35)는 도 35 내지 도 38을 참조하여 설명한 IoT 기기(2)의 프로세서(25)의 기능과, 도 39 및 도 40을 참조하여 설명한 응답 기기 결정 장치(3)의 프로세서(35)의 기능을 모두 수행할 수 있다.
도 43은 본 발명의 실시예에 따른 응답 기기 결정 방법을 나타낸 흐름도이다.
도 43에 도시된 바와 같이, 본 발명의 실시예에 따르면, 응답 기기 결정 방법은 S10 단계 내지 S40 단계를 포함하며, 상세한 설명은 하기와 같다.
먼저, 응답 기기 결정 장치는 동일 기동어를 인식한 복수의 IoT 기기로부터 거리 정보를 수신한다(S10). 예를 들어, 응답 기기 결정 장치(예: 도 34의 응답 기기 결정 장치(3))의 무선 통신부(예: 도 35의 무선 통신부(31))는 동일 기동어를 인식한 복수의 IoT 기기로부터 각 IoT 기기에 의해 생성된 서로 다른 형태의 거리 정보를 수신할 수 있다.
다음, 응답 기기 결정 장치는 거리 정보에 기초하여 특정 기기를 응답 기기로 선택할 정도의 임계 상황인지 여부를 판단한다(S20). 예를 들면, 응답 기기 결정 장치(3)의 프로세서(예: 도 35의 프로세서(35))는 전달된 복수의 거리 정보를 Max Voting 방법을 통해 비교하고, 비교한 결과에 따라 각 IoT 기기가 선택될 확률인 제1 선택 확률을 획득하며, 각 기기의 제1 선택 확률 사이의 차이가 임계값 이상인지 여부를 판단한다.
판단 결과, 임계 상황인 것으로 판단된 경우(제1 선택 확률 사이의 차이가 임계값 이상인 경우), 응답 기기 결정 장치는 거리 정보에만 기초하여 응답 기기를 선택한다(S30). 예를 들면, 프로세서(35)는 각 기기 중 제1 선택 확률이 가장 높은 기기를 응답 기기로 결정할 수 있다.
판단 결과, 임계 상황이 아닌 것으로 판단된 경우(제1 선택 확률 사이의 차이가 임계값 미만인 경우), 응답 기기 결정 장치는 거리 정보를 미리 학습된 DNN 모델에 적용하여 응답 기기를 선택한다(S40). 예를 들면, 프로세서(35)는 각 기기의 제1 선택 확률을 미리 학습된 DNN 모델에 입력하고, 그 출력값으로서 각 기기가 선택될 확률인 제2 선택 확률을 획득하고, 제2 선택 확률에 기반하여 응답 기기를 선택할 수 있다.
도 44는 본 발명의 일 실시예에 따른 도 43의 거리 정보 수신 단계를 상세히 도시한 흐름도이다.
도 44에 도시된 바와 같이, 본 발명의 실시예에 따르면, 제1 IoT 기기(2A) 및 제2 IoT 기기(2B)는 동일한 사용자로부터 동시에 발화된 동일한 기동어를 수신한다(S11).
기동어를 수신하면, 제1 IoT 기기(2A)는 기동어를 인식하여 제1 음성 신호를 획득하고(S12), 제2 IoT 기기(2B)는 기동어를 인식하여 제2 음성 신호를 획득한다(S13).
음성 신호를 획득하면, 제1 IoT 기기(2A)는 음성 신호를 분석하여 제1 IoT 기기(2A)와 사용자 사이의 거리를 인디케이팅 할 수 있는 서로 다른 형태의 제1 거리 정보를 추출하고(S14), 제2 IoT 기기(2B)는 음성 신호를 분석하여 제2 IoT 기기(2B)와 사용자 사이의 거리를 인디케이팅 할 수 있는 서로 다른 형태의 제2 거리 정보를 추출한다(S15).
응답 기기 결정 장치(3)는 제1 IoT 기기(2A)로부터 제1 거리 정보를 수신하고(S16), 제2 IoT 기기(2B)로부터 제2 거리 정보를 수신한다(S17).
도 45는 본 발명의 다른 실시예에 따른 거리 정보 수신 단계를 상세히 도시한 흐름도이다.
도 45에 도시된 거리 정보 수신 단계(S110)는 도 44에 도시된 거리 정보 수신 단계(S10)와 다르며, 중복된 부분에 대한 설명은 생략한다.
도 45에 도시된 바와 같이, 본 발명의 다른 실시예에 따르면, 제1 IoT 기기(2A) 및 제2 IoT 기기(2B)는 동일한 기동어를 수신하고(S111), 제1 음성 신호 및 제2 음성 신호를 획득한다(S112, S113).
그 다음, 응답 기기 결정 장치(3)는 제1 IoT 기기(2A)로부터 제1 음성 신호를 수신하고(S114), 제1 음성 신호를 분석하여 제1 거리 정보를 추출한다(S115).
또한, 응답 기기 결정 장치(3)는 제2 IoT 기기(2B)로부터 제2 음성 신호를 수신하고(S116), 제2 음성 신호를 분석하여 제2 거리 정보를 추출한다(S117).
도 46은 도 43의 거리 정보에 기초하여 임계 상황을 판단하는 단계를 상세히 도시한 흐름도이다.
도 46에 도시된 바와 같이, 본 발명의 실시예에 따르면, 응답 기기 결정 장치(3)의 프로세서(35)는 각 기기의 거리 정보를 Max Voting 기법을 통해 비교한다(S21). 예를 들면, 프로세서(35)는 복수의 기기의 제1 거리 정보, 복수의 기기의 제2 거리 정보, 복수의 기기의 제3 거리 정보를 같은 거리 정보끼리 서로 비교하여, 각 거리 정보 별 각 기기의 득표수(또는 각 기기의 순위)를 판단한다.
이어서, 프로세서(35)는 각 기기의 득표수(또는 순위)에 기초하여 각 기기의 선택될 확률을 산출한다(S22). 예를 들면, 프로세서(35)는 각 거리 정보 별 순위를 취합하여 각 기기마다 종합 순위를 결정하고, 종합 순위에 기반하여 각 기기가 선택될 확률인 제1 선택 확률을 산출할 수 있다. 예를 들면, 비교한 결과 제1 KSANR 값이 제2 KSANR 값보다 크고, 제1 priori SNR 값이 제2 priori SNR 값보다 크면서, 제1 키워드 제곱평균 제곱근 세기 값이 제2 키워드 제곱평균 제곱근 세기 값보다 작은 경우, 응답 기기 결정 장치는 제1 IoT 기기에 대하여 제1 IoT 기기가 선택될 제1 선택 확률을 66.6%로 판단하고, 제2 IoT 기기에 대하여 제2 IoT 기기가 선택될 제1 선택 확률을 33.3%로 판단할 수 있다. 즉, 응답 기기 결정 장치는 제1 IoT 기기에 대한 제1 선택 확률값인 66.6%을 획득하고, 제2 IoT 기기에 대한 제1 선택 확률값인 33.3%을 획득할 수 있다.
이어서, 프로세서(35)는 선택될 확률이 가장 높은 기기와 다른 기기들 사이의 선택될 확률의 차이를 산출한다(S23).
그 다음, 프로세서(35)는 선택될 확률이 가장 높은 기기와 다른 기기들의 선택될 확률의 차이가 임계값 이상인지 여부를 판단한다(S24). 예를 들면, 프로세서(35)는 선택될 확률이 가장 높은 기기의 A 확률과, 다른 기기들 중 두번째로 확률이 가장 높은 기기의 B 확률 사이의 차이가 미리 설정된 임계값 이상인지 판단할 수 있다.
판단 결과, 선택될 확률이 가장 높은 기기와 다른 기기들의 선택될 확률의 차이가 임계값 이상이면, 프로세서(35)는 거리 정보만을 이용하여 응답 기기를 선택한다(도 43의 S30).
판단 결과, 선택될 확률이 가장 높은 기기와 다른 기기들의 선택될 확률의 차이가 임계값 미만이면, 프로세서(35)는 거리 정보를 DNN 모델에 적용하여 응답 기기를 선택한다(도 43의 S40). 예를 들면, 제1 IoT 기기가 선택될 제1 선택 확률이 66.6%이고, 제2 IoT 기기가 선택될 제1 선택 확률이 33.3%이며, 미리 설정된 임계값이 50%인 경우, 제1 IoT 기기의 제1 선택 확률과 제2 IoT 기기의 제1 선택 확률의 차이가 임계값 미만이므로, 응답 기기 결정 장치는 제1 선택 확률과 다른 제2 선택 확률을 심층 신경망 모델을 이용하여 각 IoT 기기마다 새로 판단할 것으로 결정할 수 있다.
도 47은 도 43의 DNN 모델 이용한 응답 기기 선택 단계를 상세히 도시한 흐름도이다.
도 47에 도시된 바와 같이, 본 발명의 실시예에 따르면, 프로세서(35)는 거리 정보를 미리 학습된 DNN에 입력한다(S41). 예를 들면, 미리 학습된 DNN은 모델은 각 IoT 기기에 의해 생성된 거리 정보가 입력되면, 이에 대응하여 각 IoT 기기가 선택될 제2 선택 확률을 출력하도록 미리 학습된 신경망이다. 심층 신경망 모델은 응답 기기 결정 장치 또는 다른 외부 인터페이스(예를 들면, 클라우드 서버(cloud server))에 의해 생성 또는 학습될 수 있다. 심층 신경망 모델은 각 IoT 기기의 거리 정보에 기반하여 복수의 IoT 기기 중에서도 사용자가 기동하고자 의도한 특정 IoT 기기를 분류할 수 있는 형태로 모델링(modeling)된다. 응답 기기 결정 장치는 심층 신경망 모델에 각 IoT 기기의 거리 정보를 입력하고, 출력값으로서 각 IoT 기기에 대한 제2 선택 확률을 획득할 수 있다.
이어서, 프로세서(35)는 거리 정보를 입력한 DNN 모델의 출력값으로 각 기기가 선택될 확률을 획득한다(S42). 예를 들면, 프로세서(35)는 각 기기의 복수의 거리 정보를 DNN 모델에 입력하여 그에 대응하는 출력값으로서 각 기기가 선택될 확률인 제2 선택 확률을 획득한다.
이어서, 프로세서(35)는 선택될 확률이 가장 높은 기기와 다른 기기들 사이의 선택될 확률의 차이를 산출한다(S43). 예를 들면, 프로세서(35)는 DNN에 거리 정보를 입력하여 획득한 각 기기의 제2 확률 중에서 가장 높은 제2 확률과 그 다음으로 높은 제2 확률 사이의 차이를 산출한다.
그 다음, 프로세서(35)는 산출된 가장 높은 제2 확률과 그 다음으로 높은 제2 확률 사이의 차이가 임계값 이상인지 여부를 판단한다(S44).
판단한 결과, 가장 높은 제2 확률과 그 다음으로 높은 제2 확률 사이의 차이가 임계값 이상이면, 프로세서(35)는 제2 선택 확률이 가장 높은 기기를 응답 기기로 선택한다(S45).
판단한 결과, 가장 높은 제2 확률과 그 다음으로 높은 제2 확률 사이의 차이가 임계값 미만이면, 프로세서(35)는 도 43의 거리 정보만을 이용하여 응답 기기를 결정하는 S30 단계와 도 43의 거리 정보를 DNN에 적용하여 응답 기기를 선택하는 S40 단계를 조합한다.
상기한 도 47의 흐름도를 참조하여 설명한 내용의 예를 하기의 도 48에서 상세히 설명한다.
도 48은 도 47의 응답 기기 선택 과정을 예시한다.
도 48에 도시된 바와 같이, 예를 들면, 사용자(2)가 기동어(“Hi LG, 오늘 날씨 알려줘”)을 발화한 경우, A 기기(21), B 기기(22) 및 C 기기(23)는 각각 기동어를 수신한다. A 기기(21), B 기기(22) 및 C 기기(23)는 수신한 기동어를 분석하여, 동일한 종류의 거리 정보에 대하여 서로 다른 값을 가지는 서로 다른 거리 정보를 생성하고, 서로 다른 거리 정보를 응답 기기 결정 장치(200)로 전송한다.
응답 기기 결정 장치(200)는 A 기기(21)로부터 전송된 A 거리 정보, B 기기(22)로부터 전송된 B 거리 정보, C 기기(23)로부터 전송된 C 거리 정보를 비교하고, 비교한 결과에 기반하여 A 기기(21)의 제1 선택 확률(45%), B 기기(22)의 제1 선택 확률(40%), C 기기(23)의 제1 선택 확률(15%)를 획득한다.
응답 기기 결정 장치(200)는 제1 선택 확률이 가장 높은 A 기기(21)의 제1 선택 확률(45%)과, 그 다음으로 제1 선택 확률이 높은 B 기기(22)의 제1 선택 확률(40%) 사이의 차이(5%)가 미리 설정된 임계값(예를 들면, 10%)보다 작은 것을 확인할 수 있다.
서로 다른 IoT 기기의 제1 선택 확률 사이의 차이가 임계값 미만인 것으로 판단한 후, 응답 기기 결정 장치(200)는 제1 선택 확률의 차이가 임계값 이하인 A 기기(21)의 A 거리 정보 및 B 기기(22)의 B 거리 정보를 심층 신경망 모델에 입력한다. 응답 기기 결정 장치(200)는 심층 신경망 모델에 A 거리 정보 및 B 거리 정보를 입력한 후 그 결과로 A 기기의 제2 선택 확률(35%), B 기기의 제2 선택 확률(65%)를 획득한다.
응답 기기 결정 장치(200)는 A 기기(21) 및 B 기기(22) 중 제2 선택 확률이 더 높은 B 기기를 선택하여, B 기기를 응답 기기로 결정할 수 있다.
도 49는 도 47의 S50 단계를 상세히 도시한 흐름도이다.
도 49에 도시된 바와 같이, 프로세서(35)는 각 기기마다 거리 정보만을 이용하여 획득한 제1 선택 확률과, 거리 정보를 DNN에 적용하여 획득한 제2 선택 확률을 비교한다(S51).
프로세서(35)는 각 기기의 제1 선택 확률과 제2 선택 확률 중 더 큰 확률이 어떤 확률인지 판단한다(S52).
판단한 결과, 해당 기기의 제1 선택 확률이 더 큰 경우, 프로세서(35)는 해당 기기의 제1 선택 확률에 해당 기기의 제2 확률보다 더 큰 가중치를 적용한다(S53). 예를 들면, A 기기의 선택 확률 중에서 제1 선택 확률이 제2 선택 확률보다 큰 경우, 프로세서(35)는 제1 선택 확률에 0.7의 가중치를 적용하면서 제2 선택 확률에 0.3의 가중치를 적용할 수 있다.
판단한 결과, 해당 기기의 제2 선택 확률이 더 큰 경우, 프로세서(35)는 해당 기기의 제2 선택 확률에 해당 기기의 제1 확률보다 더 큰 가중치를 적용한다(S54). 예를 들면, A 기기의 선택 확률 중에서 제2 선택 확률이 제1 선택 확률보다 큰 경우, 프로세서(35)는 제2 선택 확률에 0.6의 가중치를 적용하면서 제1 선택 확률에 0.4의 가중치를 적용할 수 있다.
가중치를 적용한 후, 프로세서(35)는 각각 서로 다른 가중치가 적용된 해당 기기의 제1 선택 확률과 제2 선택 확률을 합산한다(S55).
각 선택 확률을 합산한 후, 프로세서(35)는 합산된 최종 확률이 가장 큰 기기를 응답 기기로 선택한다(S56).
마지막으로, 프로세서(35)는 응답 기기로 선택된 IoT 기기 및 나머지 기기로 각 응답 기기가 선택되었는지 여부를 알린다(S57).
도 50은 도 49를 참조하여 설명한 S50 단계에 따른 과정을 예시한다.
도 50에 도시된 바와 같이, 본 발명의 일 실시예에 따르면, 사용자(3)가 기동어(“Hi LG, 오늘 날씨 알려줘”)을 발화하면, A 기기(31) 및 B 기기(32)는 기동어를 이용하여 각각 A 거리 정보 및 B 거리 정보를 생성하고, 응답 기기 결정 장치(300)로 전송한다.
응답 기기 결정 장치(300)는 전송된 A 거리 정보 및 B 거리 정보를 이용하여 A 기기(31)의 제1 선택 확률(45%) 및 B 기기(32)의 제2 선택 확률(40%)를 획득한다.
예를 들면, 응답 기기 결정 장치(300)는 A 기기(31)의 제1 선택 확률(45%) 및 B 기기(32)의 제2 선택 확률(40%) 사이의 차이가 미리 설정된 임계값(예를 들면, 10%) 이하인 것으로 판단할 수 있다. 이 경우, 응답 기기 결정 장치(300)는 A 거리 정보 및 B 거리 정보를 미리 학습된 심층 신경망 모델에 입력한다. 응답 기기 결정 장치(300)는 심층 신경망 모델로부터 A 기기(31)의 제2 선택 확률(42%), B 기기(32)의 제2 선택 확률(58%)을 획득한다.
예를 들면, 응답 기기 결정 장치(300)는 A 기기(31)의 제2 선택 확률(42%), B 기기(32)의 제2 선택 확률(58%) 사이의 차이가 미리 설정된 임계값(예를 들면, 20%) 이하인 것으로 판단할 수 있다. 이 경우, 응답 기기 결정 장치(300)는 A 기기(31)의 제1 선택 확률, A 기기(31)의 제2 선택 확률에 각각 후술할 조건에 따른 가중치를 적용하여 조합하고, B 기기(32)의 제1 선택 확률, B 기기(32)의 제2 선택 확률에 각각 후술할 조건에 따른 가중치를 적용하여 조합한다.
예를 들면, 응답 기기 결정 장치(300)는 A 기기(31)의 제2 선택 확률(42%)과 B 기기(32)의 제2 선택 확률(58%) 사이의 차이(16%)가 A 기기(31)의 제1 선택 확률(45%)과 B 기기(32)의 제1 선택 확률(40%) 사이의 차이(5%)보다 크다고 판단할 수 있다. 이 경우, 응답 기기 결정 장치(300)는 A 기기(31)의 제2 선택 확률(42%) 및 B 기기(32)의 제2 선택 확률(58%)에 0.7의 가중치를 적용하고, A 기기(31)의 제1 선택 확률(45%) 및 B 기기(32)의 제1 선택 확률(40%)에 0.3의 가중치를 적용한다. 그 다음, 응답 기기 결정 장치(300)는 가중치가 적용된 A 기기(31)의 제1 선택 확률(45% * 0.3) 및 제2 선택 확률(42% * 0.7)을 조합하여 A 기기(31)의 최종 선택 확률(42.9%)을 획득한다. 또한, 응답 기기 결정 장치(300)는 가중치가 적용된 B 기기(32)의 제1 선택 확률(40% * 0.3) 및 제2 선택 확률(58% * 0.7)을 조합하여 B 기기(32)의 최종 선택 확률(52.6%)을 획득한다.
응답 기기 결정 장치(300)는 최종 선택 확률이 가장 높은 B 기기(32)를 응답 기기로 최종 선택할 수 있다. 응답 기기 결정 장치(300)는 응답 기기로 결정된 B 기기(32)로 응답 기기로 결정되었다는 신호를 알린다. 응답 기기 결정 장치(300)는 응답 기기로 결정된 B 기기(32) 이외의 다른 기기인 A 기기(31)로 응답 기기로 결정되지 않았다는 신호를 알린다.
응답 기기로 결정되었다는 신호를 받은 B 기기(32)는 기동어에 응답하여 기동되며, “오늘 서울의 날씨는..”이라는 음성 응답을 출력할 수 있다.
이하, 도 51 내지 도 53을 참조하여, 본 발명의 실시예에 따른 서로 다른 형태의 거리 정보에 대해 설명한다.
하나의 예를 들면, 거리 정보는 KSANR(Keyword Speech to Ambient Noise Ratio) 정보가 될 수 있다. KSANR 정보는 시간 영역(또는 시간 축)에서 분석할 때, 주변 잡음의 세기(power)와 대비할 때 기동어의 키워드 음성의 세기의 비율을 의미할 수 있다. 기동어의 발화 위치로부터 각 IoT 기기가 가까울수록, 시간 영역 상에서 주변 잡음의 세기에 비해 시간 영역 상에서 키워드 음성의 세기의 비율이 더 크다. 즉, 시간 영역 상에서, 동일한 발화 위치로부터 발화된 기동어에 대하여, 발화 위치에 더 가까운 IoT 기기일수록 더 큰 KSANR 값을 생성할 수 있다. 각 IoT 기기는 기동어를 하기의 수학식 1을 이용하여 분석하여 그 결과로 KSANR 정보를 생성할 수 있다.
Figure PCTKR2019004919-appb-img-000001
여기서, n은 자연수, s e는 잡음 신호, s k는 기동어의 키워드 음성 신호를 의미할 수 있다.
다른 하나의 예를 들면, 거리 정보는 Priori SNR(Signal to Noise Ratio) 정보가 될 수 있다. Priori SNR 정보는 주파수 영역(또는 주파수 축)에서 분석할 때, 잡음의 세기 대비 기동어의 신호의 세기의 비율을 의미할 수 있다. 기동어의 발화 위치로부터 각 IoT 기기가 가까울수록, 주파수 영역 내의 특정 대역에서 잡음의 세기에 비하여 동일한 특정 대역에서 기동어의 신호의 세기가 더 크다. 즉, 주파수 영역 상에서, 동일한 발화 위치로부터 발화된 기동어에 대하여, 발화 위치에 더 가까운 IoT 기기일수록 더 큰 priori SNR 값을 생성할 수 있다. 각 IoT 기기는 기동어를 하기의 수학식 2를 이용하여 분석하고 그 결과로 priori SNR 정보를 생성할 수 있다.
Figure PCTKR2019004919-appb-img-000002
여기서, n과 k는 각각 자연수, X n,k는 기동어의 진폭, E(|X n,k|)는 음성 신호 x의 에너지 양을 의미할 수 있다.
또 다른 하나의 예를 들면, 거리 정보는 키워드 제곱평균 제곱근 세기(Keyword RMS Power) 정보가 될 수 있다. 키워드 제곱평균 제곱근 세기 정보는 시간 영역 또는 주파수 영역 상에서 분석할 때, 기동어의 키워드 부분의 제곱평균 제곱근(Root-mean Square)의 세기를 의미할 수 있다. 기동어의 발화 위치로부터 각 IoT 기기가 가까울수록, 시간 영역 또는 주파수 영역 내의 특정 부분에서 키워드 부분의 제곱평균 제곱근의 세기 값은 더 커진다. 즉, 시간 영역 또는 주파수 영역 상에서, 동일한 발화 위치로부터 발화된 기동어에 대하여, 발화 위치에 더 가까운 IoT 기기일수록 더 큰 키워드 제곱평균 제곱근 값을 생성할 수 있다. 각 IoT 기기는 기동어를 하기의 수학식 3을 이용하여 분석하고 그 결과로 키워드 제곱평균 제곱근 세기 정보를 생성할 수 있다.
Figure PCTKR2019004919-appb-img-000003
여기서, i(t)는 시간 영역 또는 주파수 영역 내의 키워드 신호의 진폭, T는 미리 설정된 시간 구간(예를 들면 i(t)의 주기)을 의미할 수 있다.
또 다른 하나의 예를 들면, 거리 정보는 선형 예측 잔여 첨도(Linear Prediction Residual Kurtosis) 정보가 될 수 있다. 선형 예측 잔여 첨도 정보는 기동어를 선형 예측 필터(Linear Prediction Filter)로 통과시킨 후, 출력되어 나온 잔여 신호(residual signal)의 첨도(kurtosis) 값을 의미할 수 있다. 기동어의 발화 위치로부터 각 IoT 기기가 가까울수록, 기동어의 파형을 정규 분포로 나타냈을 때, 더욱 뾰족한 형태를 나타낸다. 즉, 동일한 발화 위치로부터 발화된 기동어에 대하여, 발화 위치에 더 가까운 IoT 기기일수록 더 높은 선형 예측 잔여 첨도 값을 생성할 수 있다. 각 IoT 기기는 기동어를 하기의 수학식 3을 이용하여 기동어에 대한 선형 예측 잔여 첨도 정보를 생성할 수 있다.
Figure PCTKR2019004919-appb-img-000004
여기서, i, m, n은 각각 자연수, e i,m(n)은 기동어를 샘플링한 신호의 n번째 항의 선형 예측 잔여 신호 값,
Figure PCTKR2019004919-appb-img-000005
은 n번째 항의 선형 예측 잔여 신호의 공액 성분(conjugation), τ는 전체 샘플링 크기를 나타낸다.
또 다른 하나의 예를 들면, 거리 정보는 기동어의 피크 에너지(Peak Energy) 정보가 될 수 있다. 피크 에너지 정보는 주파수 영역(또는 주파수 축) 상에서 특정 주파수 구간(예를 들면, 0kHz부터 3kHz의 대역)에서 피크(최대치)에 해당하는 부분에 대한 평균 에너지를 의미할 수 있다. 기동어의 발화 위치로부터 각 IoT 기기가 가까울수록, 주파수 영역에서 기동어의 파형의 피크에 해당하는 부분에 대한 평균 에너지는 더 높아진다. 즉, 동일한 발화 위치로부터 발화된 기동어에 대하여, 발화 위치에 더 가까운 IoT 기기일수록 더 높은 피크 에너지 값을 생성할 수 있다.
또 다른 하나의 예를 들면, 거리 정보는 기동어의 프레임 에너지(Frame Energy) 정보가 될 수 있다. 프레임 에너지 정보는 주파수 영역(또는 주파수 축) 상에서 특정 주파수 구간(예를 들면, 0kHz부터 3kHz의 대역)에서 평균 에너지를 의미할 수 있다. 기동어의 발화 위치로부터 각 IoT 기기가 가까울수록, 주파수 영역에서 기동어의 파형의 평균 에너지는 더 높아진다. 즉, 동일한 발화 위치로부터 발화된 기동어에 대하여, 발화 위치에 더 가까운 IoT 기기일수록 더 높은 프레임 에너지 값을 생성할 수 있다.
도 51은 특정 IoT 기기에서 수신한 음성 신호의 세기를 시간 영역에서 나타낸 그래프이다.
상기 KSANR에 대하여 설명한 내용과 같이, 여러 종류의 거리 정보 중 KSANR 정보는 도 51의 그래프의 시간 축 상에서 음성 잡음(191A, 191B)가 아닌 키워드 부분(191C)이 주변 잡음에 비하여 상대적으로 강한 정도를 의미한다.
도 52는 특정 IoT 기기에서 서로 다른 거리로부터 전달된 음성 신호를 선형 예측 필터(Linear Prediction Filter)에 통과시킨 후 출력된 잔여 신호(residual signal)의 세기를 시간 영역에서 나타낸 그래프이다.
상기 선형 예측 잔여 첨도 정보에 대하여 설명한 바와 같이, 예를 들면, 기동어를 발화한 사용자로부터 0.5m만큼 떨어진 제1 IoT 기기가 수신하는 기동어의 선형 예측 잔여 첨도는 동일한 사용자로부터 3m만큼 떨어진 제2 IoT 기기가 수신하는 기동어의 선형 예측 잔여 첨도보다 높다.
도 52(a)에 도시된 바와 같이, 예를 들면, 기동어를 발화한 사용자로부터 0.5m만큼 떨어진 제1 IoT 기기가 수신하는 기동어의 세기 밀도는 동일한 사용자로부터 3m만큼 떨어진 제2 IoT 기기가 수신하는 기동어의 세기 밀도보다 강하다.
도 52(b)에 도시된 바와 같이, 예를 들면, 기동어를 발화한 사용자로부터 0.5m만큼 떨어진 제1 IoT 기기가 수신하는 기동어에 대한 선형 예측 잔여 신호의 파형(192B-A)은, 동일한 사용자로부터 3m만큼 떨어진 제2 IoT 기기가 수신하는 기동어에 대한 선형 예측잔여 신호의 파형(192B-B)보다 첨도가 높다(뾰족하다).
도 53은 특정 IoT 기기에서 서로 다른 거리로부터 전달된 음성 신호를 주파수 영역에서 나타낸 그래프이다.
상기 피크 에너지 및 프레임 에너지에 대하여 설명한 바와 같이, 예를 들면, 기동어를 발화한 사용자로부터 0.5m만큼 떨어진 제1 IoT 기기가 수신하는 기동어의 피크 에너지 및 프레임 에너지는 동일한 사용자로부터 3m만큼 떨어진 제2 IoT 기기가 수신하는 기동어의 피크 에너지 및 프레임 에너지보다 높다.
도 53에 도시된 바와 같이, 기동어를 발화한 사용자로부터 0.5m만큼 떨어진 제1 IoT 기기가 수신하는 기동어 신호(193A)의 피크 에너지는 동일한 사용자로부터 3m만큼 떨어진 제2 IoT 기기가 수신하는 기동어 신호(193B)의 피크 에너지보다 높다. 또한, 기동어를 발화한 사용자로부터 0.5m만큼 떨어진 제1 IoT 기기가 수신하는 기동어 신호(193A)의 프레임 에너지는 동일한 사용자로부터 3m만큼 떨어진 제2 IoT 기기가 수신하는 기동어 신호(193B)의 프레임 에너지보다 높다.
전술한 본 발명은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예로는, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있으며, 또한 캐리어 웨이브(예를 들어, 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.

Claims (18)

  1. 복수의 디바이스로부터 오디오 신호를 각각 수신하는 단계;
    상기 오디오 신호는 사용자로부터 발화된 동일한 기동어를 인식하여 생성된 신호이고,
    상기 각각의 오디오 신호에서 상기 사용자와 상기 복수의 디바이스 간의 거리를 인디케이팅할 수 있는 복수의 거리 정보를 추출하는 단계; 및
    상기 추출된 복수의 거리 정보를 이용하여 상기 기동어에 응답할 응답 디바이스를 결정하는 단계를 포함하되,
    상기 디바이스를 결정하는 단계는,
    미리 정해진 조건에 따라, 상기 추출된 복수의 거리 정보를 비교하여 상기 응답 디바이스를 결정하는 제1 단계와, 상기 추출된 복수의 거리 정보를 입력으로 하여 심층 신경망(DNN, Deep Neural Network) 모델에 적용한 결과에 기초하여 상기 응답 디바이스를 결정하는 제2 단계 중 적어도 하나에 기초하여 결정하는 것을 특징으로 하는,
    응답 기기 결정 방법.
  2. 제1항에 있어서,
    상기 추출된 복수의 거리 정보를 최다 득표 산출 방법(MV, Max Voting)을 통해 비교한 결과, 특정 디바이스를 선택할 정도의 임계 상황으로 판단된 경우, 상기 제1 단계를 통해 상기 응답 디바이스를 결정하는 것을 특징으로 하는,
    응답 기기 결정 방법.
  3. 제1항에 있어서,
    상기 비교 결과, 임계 상황이 아닌 경우, 상기 제2 단계를 통해 상기 응답 디바이스를 결정하는 것을 특징으로 하는,
    응답 기기 결정 방법.
  4. 제1항에 있어서,
    상기 제2 단계를 통해 상기 응답 디바이스를 결정하는 단계는,
    상기 추출된 복수의 거리 정보를 상기 DNN 모델에 적용한 결과, 상기 복수의 디바이스 중 각 디바이스가 선택될 확률 사이의 차이가 임계값보다 큰 경우, 상기 DNN 모델을 적용한 결과를 통해 상기 응답 디바이스를 결정하는 것을 특징으로 하는,
    응답 기기 결정 방법.
  5. 제4항에 있어서,
    상기 확률 사이의 차이가 상기 임계값보다 작은 경우, 상기 제1 단계와 상기 제2 단계를 조합하여 상기 응답 디바이스를 결정하는 것을 특징으로 하는,
    응답 기기 결정 방법.
  6. 제5항에 있어서,
    상기 제1 단계와 상기 제2 단계를 조합하는 단계는,
    상기 제1 단계를 적용한 결과 상기 MV를 통해 도출된 각 디바이스가 선택될 확률인 제1 확률 사이의 차이와, 상기 제2 단계를 적용한 결과 상기 DNN 모델을 통해 도출된 각 디바이스가 선택될 확률인 제2 확률 사이의 차이를 비교하여, 상기 응답 디바이스를 결정하는 것을 특징으로 하는,
    응답 기기 결정 방법.
  7. 제6항에 있어서,
    상기 각 디바이스의 제1 확률끼리 비교하고, 상기 각 디바이스의 제2 확률끼리 비교한 결과, 상기 제1 확률과 상기 제2 확률 중 확률 사이의 차이가 더 큰 확률에 더 큰 가중치를 부여하여, 상기 제1 단계와 상기 제2 단계를 조합하는 것을 특징으로 하는,
    응답 기기 결정 방법.
  8. 제1항에 있어서,
    상기 복수의 디바이스로 상기 결정한 결과를 전송하는 단계;를 더 포함하는,
    응답 기기 결정 방법.
  9. 제1항에 있어서,
    상기 복수의 거리 정보는 KSANR(Keyword Speech to Ambient Noise Ratio) 정보, Priori SNR(Signal to Noise Ratio) 정보, 키워드 제곱평균 제곱근 세기(Keyword RMS Power) 정보, 선형 예측 잔여 첨도(Linear Prediction Residual Kurtosis) 정보, 피크 에너지(Peak Energy) 정보 또는 프레임 에너지(Frame Energy) 정보를 포함하는
    응답 기기 결정 방법.
  10. 복수의 디바이스로부터 오디오 신호를 각각 수신하는 통신부; 및
    상기 오디오 신호는 사용자로부터 발화된 동일한 기동어를 인식하여 생성된 신호이고,
    상기 각각의 오디오 신호에서 상기 사용자와 상기 복수의 디바이스 간의 거리를 인디케이팅할 수 있는 복수의 거리 정보를 추출하고,
    상기 추출된 복수의 거리 정보를 이용하여 상기 기동어에 응답할 응답 디바이스를 결정하는 프로세서;를 포함하되,
    상기 프로세서는,
    미리 정해진 조건에 따라, 상기 추출된 복수의 거리 정보를 비교하여 상기 응답 디바이스를 결정하는 제1 단계와, 상기 추출된 복수의 거리 정보를 입력으로 하여 심층 신경망(DNN, Deep Neural Network) 모델에 적용한 결과에 기초하여 상기 응답 디바이스를 결정하는 제2 단계 중 적어도 하나에 기초하여 결정하는 것을 특징으로 하는,
    응답 기기 결정 장치.
  11. 제10항에 있어서,
    상기 프로세서는,
    상기 추출된 복수의 거리 정보를 최다 득표 산출 방법(MV, Max Voting)을 통해 비교한 결과, 특정 디바이스를 선택할 정도의 임계 상황으로 판단된 경우, 상기 제1 단계를 통해 상기 응답 디바이스를 결정하는 것을 특징으로 하는,
    응답 기기 결정 장치.
  12. 제10항에 있어서,
    상기 프로세서는,
    상기 비교 결과, 임계 상황이 아닌 경우, 상기 제2 단계를 통해 상기 응답 디바이스를 결정하는 것을 특징으로 하는,
    응답 기기 결정 장치.
  13. 제10항에 있어서,
    상기 프로세서는,
    상기 추출된 복수의 거리 정보를 상기 DNN 모델에 적용한 결과, 상기 복수의 디바이스 중 각 디바이스가 선택될 확률 사이의 차이가 임계값보다 큰 경우, 상기 DNN 모델을 적용한 결과를 통해 상기 응답 디바이스를 결정하는 것을 특징으로 하는,
    응답 기기 결정 장치.
  14. 제13항에 있어서,
    상기 프로세서는,
    상기 확률 사이의 차이가 상기 임계값보다 작은 경우, 상기 제1 단계와 상기 제2 단계를 조합하여 상기 응답 디바이스를 결정하는 것을 특징으로 하는,
    응답 기기 결정 장치.
  15. 제14항에 있어서,
    상기 프로세서는,
    상기 제1 단계를 적용한 결과 상기 MV를 통해 도출된 각 디바이스가 선택될 확률인 제1 확률 사이의 차이와,
    상기 제2 단계를 적용한 결과 상기 DNN 모델을 통해 도출된 각 디바이스가 선택될 확률인 제2 확률 사이의 차이를 비교하여 상기 응답 디바이스를 결정하는 것을 특징으로 하는,
    응답 기기 결정 장치.
  16. 제15항에 있어서,
    상기 프로세서는,
    상기 각 디바이스의 제1 확률끼리 비교하고, 상기 각 디바이스의 제2 확률끼리 비교한 결과, 상기 제1 확률과 상기 제2 확률 중 확률 사이의 차이가 더 큰 확률에 더 큰 가중치를 부여하여, 상기 제1 단계와 상기 제2 단계를 조합하는 것을 특징으로 하는,
    응답 기기 결정 장치.
  17. 제10항에 있어서,
    상기 프로세서는, 상기 통신부를 통해,
    상기 복수의 디바이스로 상기 결정한 결과를 전송하는 것을 특징으로 하는,
    응답 기기 결정 장치.
  18. 제10항에 있어서,
    상기 복수의 거리 정보는 KSANR(Keyword Speech to Ambient Noise Ratio) 정보, Priori SNR(Signal to Noise Ratio) 정보, 키워드 제곱평균 제곱근 세기(Keyword RMS Power) 정보, 선형 예측 잔여 첨도(Linear Prediction Residual Kurtosis) 정보, 피크 에너지(Peak Energy) 정보 또는 프레임 에너지(Frame Energy) 정보를 포함하는
    응답 기기 결정 장치.
PCT/KR2019/004919 2019-04-23 2019-04-23 응답 기기 결정 방법 및 장치 WO2020218634A1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/KR2019/004919 WO2020218634A1 (ko) 2019-04-23 2019-04-23 응답 기기 결정 방법 및 장치
US16/492,015 US11132991B2 (en) 2019-04-23 2019-04-23 Method and apparatus for determining voice enable device
KR1020190092760A KR20190096861A (ko) 2019-04-23 2019-07-30 응답 기기 결정 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2019/004919 WO2020218634A1 (ko) 2019-04-23 2019-04-23 응답 기기 결정 방법 및 장치

Publications (1)

Publication Number Publication Date
WO2020218634A1 true WO2020218634A1 (ko) 2020-10-29

Family

ID=67807763

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/004919 WO2020218634A1 (ko) 2019-04-23 2019-04-23 응답 기기 결정 방법 및 장치

Country Status (3)

Country Link
US (1) US11132991B2 (ko)
KR (1) KR20190096861A (ko)
WO (1) WO2020218634A1 (ko)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020109886A (ja) * 2017-04-28 2020-07-16 シャープ株式会社 端末装置および方法
CN111601371B (zh) * 2019-06-27 2022-03-01 维沃移动通信有限公司 链路管理方法、唤醒信号检测方法、终端设备和网络设备
KR102280690B1 (ko) * 2019-08-15 2021-07-22 엘지전자 주식회사 지능적 음성 출력 방법, 음성 출력 장치 및 지능형 컴퓨팅 디바이스
WO2021032009A1 (en) * 2019-08-16 2021-02-25 Mediatek Inc. Automatic gain control for serving cell activation based on two different reference signals
KR102321789B1 (ko) * 2019-08-28 2021-11-05 엘지전자 주식회사 감정 정보 기반의 음성 합성 방법 및 장치
CN110838894B (zh) * 2019-11-27 2023-09-26 腾讯科技(深圳)有限公司 语音处理方法、装置、计算机可读存储介质和计算机设备
CN111312239B (zh) * 2020-01-20 2023-09-26 北京小米松果电子有限公司 响应方法、装置、电子设备及存储介质
KR20210098250A (ko) * 2020-01-31 2021-08-10 삼성전자주식회사 전자 장치 및 이의 제어 방법
CN115516955A (zh) * 2020-03-13 2022-12-23 株式会社Ntt都科摩 终端、无线通信方法以及基站
KR20210136463A (ko) * 2020-05-07 2021-11-17 삼성전자주식회사 전자 장치 및 그 제어 방법
CN111917616A (zh) * 2020-06-30 2020-11-10 星络智能科技有限公司 语音唤醒控制方法、设备、系统、计算机设备及存储介质
CN116114285A (zh) * 2020-08-05 2023-05-12 苹果公司 用于蜂窝环境中的快速波束跟踪的系统和方法
US11817087B2 (en) * 2020-08-28 2023-11-14 Micron Technology, Inc. Systems and methods for reducing latency in cloud services
KR20220037819A (ko) * 2020-09-18 2022-03-25 엘지전자 주식회사 복수의 기동어를 인식하는 인공 지능 장치 및 그 방법
CN112164398B (zh) * 2020-11-05 2023-08-15 佛山市顺德区美的电子科技有限公司 语音设备及其唤醒方法、装置以及存储介质
US11915691B2 (en) 2021-01-19 2024-02-27 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
US11751133B2 (en) * 2021-02-18 2023-09-05 Qualcomm Incorporated Techniques for setting a quantity of bits for an adaptive low-resolution analog-to digital converter (ADC) in higher band operation
US11533688B2 (en) * 2021-03-17 2022-12-20 T-Mobile Usa, Inc. Dynamic switching of user equipment power class
US11915708B2 (en) 2021-03-18 2024-02-27 Samsung Electronics Co., Ltd. Methods and systems for invoking a user-intended internet of things (IoT) device from a plurality of IoT devices
US11715480B2 (en) * 2021-03-23 2023-08-01 Qualcomm Incorporated Context-based speech enhancement
CN113096658A (zh) * 2021-03-31 2021-07-09 歌尔股份有限公司 一种终端设备及其唤醒方法、装置和计算机可读存储介质
CN113242163B (zh) * 2021-06-09 2022-04-12 思必驰科技股份有限公司 语音唤醒方法和装置
KR20230027673A (ko) * 2021-08-19 2023-02-28 삼성전자주식회사 전자 장치 및 그 제어 방법
CN115731929A (zh) * 2021-08-30 2023-03-03 佛山市顺德区美的电子科技有限公司 响应设备的确定方法、设备和服务器
CN113965607B (zh) * 2021-08-30 2024-05-14 广东南方通信建设有限公司 基于nb-iot的设备智能控制方法、物联网控制平台、系统
US11902952B2 (en) * 2021-12-15 2024-02-13 T-Mobile Innovations Llc Carrier aggregation grouping based on user location in 5G NR massive MIMO beamforming network
TWI799249B (zh) * 2022-04-29 2023-04-11 瑞昱半導體股份有限公司 用於測試多週期路徑電路的測試電路系統
CN117014845B (zh) * 2023-09-22 2024-02-20 北京紫光青藤微系统有限公司 用于确定通信开始位置的方法、装置和近场通信设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013072904A (ja) * 2011-09-26 2013-04-22 Toshiba Corp 音声認識方法および音声認識装置
KR20150138109A (ko) * 2014-05-30 2015-12-09 애플 인크. 수동 시작/종료 포인팅 및 트리거 구문들에 대한 필요성의 저감
WO2018091501A1 (en) * 2016-11-17 2018-05-24 Robert Bosch Gmbh System and method for ranking of hybrid speech recognition results with neural networks
KR101893768B1 (ko) * 2017-02-27 2018-09-04 주식회사 브이터치 음성 인식 트리거를 제공하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체
WO2018195099A1 (en) * 2017-04-19 2018-10-25 Magic Leap, Inc. Multimodal task execution and text editing for a wearable system
KR20180130315A (ko) * 2017-05-29 2018-12-07 엘지전자 주식회사 홈 어플라이언스 및 그 동작 방법
KR20190016536A (ko) * 2016-06-06 2019-02-18 시러스 로직 인터내셔널 세미컨덕터 리미티드 보이스 사용자 인터페이스

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1414023B1 (en) * 2002-10-14 2006-02-01 Sony Deutschland GmbH Method for recognizing speech
ATE545130T1 (de) * 2002-12-23 2012-02-15 Loquendo Spa Verfahren zur optimierung der durchführung eines neuronalen netzwerkes in einem spracherkennungssystem durch bedingtes überspringen einer variablen anzahl von zeitfenstern
EP1471502A1 (en) * 2003-04-25 2004-10-27 Sony International (Europe) GmbH Method for correcting a text produced by speech recognition
JP4204541B2 (ja) * 2004-12-24 2009-01-07 株式会社東芝 対話型ロボット、対話型ロボットの音声認識方法および対話型ロボットの音声認識プログラム
JP4264841B2 (ja) * 2006-12-01 2009-05-20 ソニー株式会社 音声認識装置および音声認識方法、並びに、プログラム
JP6031761B2 (ja) * 2011-12-28 2016-11-24 富士ゼロックス株式会社 音声解析装置および音声解析システム
US9536528B2 (en) * 2012-07-03 2017-01-03 Google Inc. Determining hotword suitability
US9704486B2 (en) * 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management
US9271111B2 (en) * 2012-12-14 2016-02-23 Amazon Technologies, Inc. Response endpoint selection
US10147441B1 (en) * 2013-12-19 2018-12-04 Amazon Technologies, Inc. Voice controlled system
US9520127B2 (en) * 2014-04-29 2016-12-13 Microsoft Technology Licensing, Llc Shared hidden layer combination for speech recognition systems
US9520128B2 (en) * 2014-09-23 2016-12-13 Intel Corporation Frame skipping with extrapolation and outputs on demand neural network for automatic speech recognition
US9318107B1 (en) * 2014-10-09 2016-04-19 Google Inc. Hotword detection on multiple devices
US9947322B2 (en) * 2015-02-26 2018-04-17 Arizona Board Of Regents Acting For And On Behalf Of Northern Arizona University Systems and methods for automated evaluation of human speech
US10896671B1 (en) * 2015-08-21 2021-01-19 Soundhound, Inc. User-defined extensions of the command input recognized by a virtual assistant
US9996316B2 (en) * 2015-09-28 2018-06-12 Amazon Technologies, Inc. Mediation of wakeword response for multiple devices
US10026401B1 (en) * 2015-12-28 2018-07-17 Amazon Technologies, Inc. Naming devices via voice commands
US9858927B2 (en) * 2016-02-12 2018-01-02 Amazon Technologies, Inc Processing spoken commands to control distributed audio outputs
US9947316B2 (en) * 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US10063965B2 (en) * 2016-06-01 2018-08-28 Google Llc Sound source estimation using neural networks
US9743204B1 (en) * 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
US10878831B2 (en) * 2017-01-12 2020-12-29 Qualcomm Incorporated Characteristic-based speech codebook selection
US10264358B2 (en) * 2017-02-15 2019-04-16 Amazon Technologies, Inc. Selection of master device for synchronized audio
US11188808B2 (en) * 2017-04-11 2021-11-30 Lenovo (Singapore) Pte. Ltd. Indicating a responding virtual assistant from a plurality of virtual assistants
KR102371313B1 (ko) * 2017-05-29 2022-03-08 삼성전자주식회사 사용자 발화를 처리하는 전자 장치 및 그 전자 장치의 제어 방법
CN107146616B (zh) * 2017-06-13 2020-05-08 Oppo广东移动通信有限公司 设备控制方法及相关产品
US20190013019A1 (en) * 2017-07-10 2019-01-10 Intel Corporation Speaker command and key phrase management for muli -virtual assistant systems
US11062702B2 (en) * 2017-08-28 2021-07-13 Roku, Inc. Media system with multiple digital assistants
US10540990B2 (en) * 2017-11-01 2020-01-21 International Business Machines Corporation Processing of speech signals
US10880650B2 (en) * 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10051600B1 (en) * 2017-12-12 2018-08-14 Amazon Technologies, Inc. Selective notification delivery based on user presence detections
US20190043525A1 (en) * 2018-01-12 2019-02-07 Intel Corporation Audio events triggering video analytics
US10522143B2 (en) * 2018-02-27 2019-12-31 Microsoft Technology Licensing, Llc Empathetic personal virtual digital assistant
US11158334B2 (en) * 2018-03-29 2021-10-26 Sony Corporation Sound source direction estimation device, sound source direction estimation method, and program
US20190311710A1 (en) * 2018-04-06 2019-10-10 Flex Ltd. Device and system for accessing multiple virtual assistant services
US10959029B2 (en) * 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US10878811B2 (en) * 2018-09-14 2020-12-29 Sonos, Inc. Networked devices, systems, and methods for intelligently deactivating wake-word engines
US10811015B2 (en) * 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013072904A (ja) * 2011-09-26 2013-04-22 Toshiba Corp 音声認識方法および音声認識装置
KR20150138109A (ko) * 2014-05-30 2015-12-09 애플 인크. 수동 시작/종료 포인팅 및 트리거 구문들에 대한 필요성의 저감
KR20190016536A (ko) * 2016-06-06 2019-02-18 시러스 로직 인터내셔널 세미컨덕터 리미티드 보이스 사용자 인터페이스
WO2018091501A1 (en) * 2016-11-17 2018-05-24 Robert Bosch Gmbh System and method for ranking of hybrid speech recognition results with neural networks
KR101893768B1 (ko) * 2017-02-27 2018-09-04 주식회사 브이터치 음성 인식 트리거를 제공하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체
WO2018195099A1 (en) * 2017-04-19 2018-10-25 Magic Leap, Inc. Multimodal task execution and text editing for a wearable system
KR20180130315A (ko) * 2017-05-29 2018-12-07 엘지전자 주식회사 홈 어플라이언스 및 그 동작 방법

Also Published As

Publication number Publication date
KR20190096861A (ko) 2019-08-20
US20200074988A1 (en) 2020-03-05
US11132991B2 (en) 2021-09-28

Similar Documents

Publication Publication Date Title
WO2020218634A1 (ko) 응답 기기 결정 방법 및 장치
WO2020218645A1 (ko) 지능형 음성 인에이블 디바이스 검색 방법 및 장치
WO2020213767A1 (ko) 다중 디바이스 제어 시스템과 방법 및 이를 실행하기 위한 컴포넌트가 저장된 비 일시적 컴퓨터 판독 가능 매체
WO2020204449A1 (en) Method and apparatus for frame based equipment operation of nr unlicensed
WO2019182428A1 (en) Method and apparatus for power saving signal design in nr
WO2021029705A1 (en) Method and apparatus for reporting channel state information in wireless communication systems
WO2020027533A1 (en) Method and apparatus for frame based equipment operation of nr unlicensed
WO2020226257A1 (ko) 인공 지능형 뇌파 측정 밴드와 이를 이용한 학습 시스템 및 방법
WO2018174689A1 (en) Apparatus and method for enhanced synchronization signals for coverage enhancements of low cost user equipment
WO2021206410A1 (en) Method and apparatus for performing beam management based on uplink reference signal
EP3831153A1 (en) Method and apparatus for contention window size adaptation of nr unlicensed
WO2020256379A1 (en) Method and apparatus for ss/pbch block repetition
WO2020226188A1 (ko) 주변 상황 인지에 따라 통화연결 디바이스를 선택하는 방법
WO2020241945A1 (ko) 광 치료를 위한 지능형 사물 인터넷의 허브 및 사물 인터넷 기반의 광 치료 방법
WO2019203526A1 (ko) 참조 신호를 송수신하는 방법 및 이를 위한 장치
EP3695679A1 (en) Methods and apparatuses for determining and configuring a time-frequency resource, in the random access process
WO2020222326A1 (ko) 지능형 전자 기기의 제어 방법 및 그 방법을 수행하는 프로그램 코드를 포함하는 컴퓨터 판독 가능 매체
WO2020226214A1 (ko) 인증 레벨에 기반한 지능형 서비스 제공 방법 및 장치
WO2021210877A1 (en) Method and apparatus for dynamic downlink multi-beam operations in a wireless communication system
WO2019009619A1 (en) METHOD AND APPARATUS FOR COMMUNICATION BASED ON FRAME STRUCTURE
WO2020235716A1 (ko) 지능형 전자 기기 및 지능형 전자 기기에 전송되는 메시지를 이용한 인증 방법
WO2019139407A1 (en) Methods and apparatuses for determining and configuring a time-frequency resource, in the random access process
WO2021015564A1 (ko) 기계 타입 통신을 지원하는 무선 통신 시스템에서 긴급 정보를 송수신하는 방법 및 이를 위한 장치
WO2020241924A1 (ko) 영상 학습을 바탕으로 주행경로를 설정하는 지능형 로봇 청소기 및 이의 운용방법
WO2022191672A1 (en) Method and apparatus for determining priority regarding downlink control information reception in wireless communication system

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19926529

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19926529

Country of ref document: EP

Kind code of ref document: A1