WO2023074956A1 - Tv 및 리모컨을 포함하는 시스템 및 그 제어 방법 - Google Patents

Tv 및 리모컨을 포함하는 시스템 및 그 제어 방법 Download PDF

Info

Publication number
WO2023074956A1
WO2023074956A1 PCT/KR2021/015368 KR2021015368W WO2023074956A1 WO 2023074956 A1 WO2023074956 A1 WO 2023074956A1 KR 2021015368 W KR2021015368 W KR 2021015368W WO 2023074956 A1 WO2023074956 A1 WO 2023074956A1
Authority
WO
WIPO (PCT)
Prior art keywords
microphone
voice
user
received
recognition
Prior art date
Application number
PCT/KR2021/015368
Other languages
English (en)
French (fr)
Inventor
이기웅
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to KR1020247005729A priority Critical patent/KR20240041956A/ko
Priority to PCT/KR2021/015368 priority patent/WO2023074956A1/ko
Publication of WO2023074956A1 publication Critical patent/WO2023074956A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker

Definitions

  • the technical field of the present invention relates to a TV or a remote control. More specifically, for example, it is applicable to all devices having at least one microphone (eg, a TV remote control, etc.).
  • AI technology Due to the development of AI technology, various voice recognition services are becoming possible. For example, company A, which was the first to launch an AI speaker, added 7 microphones to the AI speaker to accurately capture the voice of a user speaking from a distance. It uses multiple microphones to accurately estimate the direction in which the user is located, and organizes and amplifies the beam pattern for the sound coming from them. A beamforming technology that amplifies signals using phase differences of multiple receivers is adopted. Furthermore, most AI speakers are designed to issue commands after uttering a call word. If you don't speak the call word, it's difficult for the speaker to know exactly where you are.
  • a microphone is mounted on a remote control.
  • a unidirectional microphone is usually installed on the remote control of the TV (used to have robust characteristics such as ambient noise), but the user does not know exactly where the microphone is located, so the voice is directed to the part where the microphone is not installed.
  • the microphone position of the mobile phone used and the microphone position of the TV remote control are the same, and around the button for voice recognition speech provided on the TV remote control. It has been investigated that there are various cases such as mistaking that a microphone exists).
  • a unidirectional microphone responds greatly only to sounds coming from a specific direction, and has a characteristic that the response decreases as it deviates from the direction axis. Using this characteristic, it is mainly used to detect only a specific sound in a place such as a place with a lot of noise around.
  • One embodiment of the present invention is to solve the problem of the case where the user does not utter a voice at the position of the microphone provided in the TV remote control.
  • a specific criterion for distinguishing between a case where the user does not speak at the location of the microphone provided in the TV remote control and a case where the user speaks properly at the corresponding location but the voice is simply low is presented.
  • peripheral microphones eg, omni-directional microphones, installed in the TV or using other AI speakers, etc.
  • the user's voice recognition rate want to improve
  • a method for controlling a system including a TV and a remote control includes receiving a user's voice through a first microphone attached to the remote control at a first point in time, and responding to the received user's voice through a first microphone. If the recognition is successful, the TV operates according to the voice recognition result, and if the recognition of the received user's voice fails, the TV displays an error guide message or uses a second microphone at the first time. and processing the user's voice received through the
  • the first microphone corresponds to a unidirectional microphone
  • the second microphone corresponds to an omnidirectional microphone installed in the TV or other device.
  • the control method according to another embodiment of the present invention is designed to further include converting user voice data into a frequency domain when recognition of the received user voice fails.
  • the first frequency range (eg, when there is no gain in the frequency range of 100 hz or less and the frequency range of 10 kHz or more) , determining whether the user's voice received through the second microphone is recognized.
  • a control method when the user's voice recognition received through the second microphone fails as a result of the determination, the graphic guides the position of the first microphone attached to the remote control in the TV. It is designed to further include the step of displaying an image.
  • the method further includes displaying a negative pressure error guidance message on the TV.
  • a remote controller for transmitting the received user's voice, and recognition of the received user's voice is successful, and a TV that operates according to the result of voice recognition.
  • the TV when the TV fails to recognize the received user voice, the TV displays an error guidance message or processes the user voice received through the second microphone at the first time point.
  • a specific criterion for distinguishing between a case where the user does not speak at the location of the microphone provided in the TV remote control and a case where the user speaks properly at the location but the voice is simply low is presented.
  • FIG. 1 illustrates components inside a TV according to an embodiment of the present invention.
  • FIG 2 shows components inside the TV and an external device together according to another embodiment of the present invention.
  • FIG. 3 illustrates various positions of a microphone provided in a remote controller according to an embodiment of the present invention and various positions of a button for a voice command.
  • Figure 4 shows a microphone of a TV, a remote control and an external device according to an embodiment of the present invention.
  • FIG. 5 is a flowchart illustrating a control method of a system including a TV and a remote control according to an embodiment of the present invention.
  • FIG. 6 shows experimental data for distinguishing between a case where a user's voice is input from a direction other than the microphone position of the remote control and a case where the user's voice is input in response to the position of the microphone but simply uttered in a low volume according to an embodiment of the present invention; there is.
  • FIG. 7 is an embodiment illustrating step S509 shown in FIG. 5 in more detail according to an embodiment of the present invention.
  • FIG. 8 is an embodiment showing step S507 shown in FIG. 5 in more detail according to an embodiment of the present invention.
  • FIG. 1 illustrates components inside a TV according to an embodiment of the present invention.
  • the present invention is applicable to various TV products, and is applicable, for example, to the European standard DVB (Digital Video Broadcasting) standard or the North American/Korean standard Advanced Television Systems Committee (ATSC) 3.0 standard.
  • European standard DVB Digital Video Broadcasting
  • ATSC North American/Korean standard Advanced Television Systems Committee
  • the tuner 110 determines whether a signal exists using a predefined frequency list. When a signal is detected at a given frequency, the baseband processor 120 extracts the L1 signaling of the preamble.
  • the baseband processor 120 transmits PLP (Physical Layer Pipe) data including link layer signaling and LLS (Low Level Signaling) to the middleware 130, and the middleware 130 transmits the PLP data from the PLP data.
  • PLP Physical Layer Pipe
  • LLS Low Level Signaling
  • the middleware 130 includes a signaling manager 140 and a channel manager 150.
  • the middleware 130 receives PLP data including link layer signaling and LLS from the baseband processor 120 and passes the data to an appropriate parser.
  • the middleware 130 extracts a link mapping table (LMT) from the link layer signaling and passes the LMT to the LMT parser 141. Furthermore, the middleware 130 extracts a Service List Table (SLT) from the LLS and passes the SLT to the SLT parser 142 .
  • LMT link mapping table
  • SLT Service List Table
  • the LMT parser 141 parses the LMT and extracts first information (eg, PLPID, session information (IP address and port number), etc.) required to generate a channel map.
  • first information eg, PLPID, session information (IP address and port number), etc.
  • the SLT parser 142 parses the SLT and extracts second information (eg, service id, service name, etc.) necessary for generating a channel map.
  • second information eg, service id, service name, etc.
  • the extracted first information and second information are stored in the channel map 151 .
  • FIG. 2 shows components inside the TV and an external device together according to another embodiment of the present invention.
  • a person skilled in the art may implement the present invention by combining some elements with reference to FIGS. 1 and 2 .
  • the baseband processor 120 and middleware 130 shown in FIG. 1 may be included in the controller 209 shown in FIG. 2 .
  • TV 200 shown in FIG. 2 includes various components, the scope of the present invention is not limited thereto, and the scope of rights should be determined according to the matters described in the claims.
  • components inside the TV 200 shown in FIG. 2 may be controlled through the controller 209, and each component may be directly or indirectly connected. That is, although not shown in FIG. 2, all components inside the TV 200 of FIG. 2 are designed to directly or indirectly transmit and receive control signals and/or data.
  • the tuner 201 receives a broadcast signal through an antenna, etc., and a demux or demultiplexer 202 demultiplexes audio data and video data included in the broadcast signal.
  • the audio decoder 203 decodes audio data (encoded state) included in the broadcast signal
  • the video decoder 204 decodes video data (encoded state) included in the broadcast signal.
  • the decoded audio data is output through the audio output unit 207.
  • the audio output unit 207 may be, for example, a speaker attached to the TV 200 or a separate speaker.
  • decoded video data is directly output through the video output unit 208 .
  • the mixer 205 mixes the menu data and the video data generated by the OSD generator 206 and transmits them to the video output unit 208 .
  • the memory 215 stores various control data and commands for controlling the TV 200, and the controller 209 can control all components in the TV by referring to the memory 215.
  • the TV 200 transmits and receives data through communication with various peripheral devices.
  • video/audio data is received from the STB 220 via the wired interface 212, and they are processed in the audio decoder 203 and the video decoder 204, respectively.
  • the received video/audio data may be directly output through the audio output unit 207 and the video output unit 208 without passing through the decoders 203 and 204 .
  • the mobile device 230 eg, mobile phone/wearable device, etc.
  • various data are transmitted and received, and the IR infrared signal of the remote controller 240 is received through the infrared sensor 214 do.
  • the remote controller 240 capable of Bluetooth communication such as BT transmits and receives various data to and from the TV via the wireless communication module 213 .
  • the TV 200 according to an embodiment of the present invention further includes a motor 210 inside or outside the TV 200 . Therefore, it is possible to freely control the area where the screen of the TV 200 is exposed using the motor 210). On the other hand, TVs according to the prior art have a problem in that a full screen of the same size is always exposed.
  • FIG. 3 illustrates various positions of a microphone provided in a remote controller according to an embodiment of the present invention and various positions of a button for a voice command.
  • the position 320 of the microphone provided in the remote controller 300 is various for each TV manufacturer, such as an upper end, a middle position, and a lower end. Furthermore, the location of the button 310 that triggers the voice recognition function also varies, such as the top, middle, and bottom. Of course, in addition to the position 320 of the microphone and the position 310 of the button shown in FIG. 3, different positions may be used for each manufacturer (this problem occurs because there is no special standard related to this).
  • the microphone 320 provided in the remote controller 300 is a unidirectional microphone
  • the voice recognition rate increases only when the user speaks in the direction of the corresponding microphone 320 .
  • the user does not accurately know the location of the microphone 320 in the remote controller 300 .
  • the user does not accurately know the location of the microphone 320 in the remote controller 300 .
  • Figure 4 shows a microphone of a TV, a remote control and an external device according to an embodiment of the present invention.
  • the system according to one embodiment of the present invention basically includes a TV 400 and a remote controller 430, but the present invention may be implemented with only one component if necessary, or an external device. 420 (eg, an AI speaker, etc.) is also included in another scope of the present invention.
  • the user's voice is received through the first microphone attached to the remote controller 430 .
  • the same user voice is received through a second microphone (eg, the microphone 410 installed in the TV 400 or the microphone attached to the AI speaker 420).
  • the first microphone attached to the remote controller 430 may be a unidirectional microphone, and the second microphone may correspond to an omnidirectional microphone.
  • the TV 400 performs an operation (volume up (volume up) according to the voice recognition result). up)).
  • the TV 400 displays an error guidance message or the first At this point, it is designed to process the user voice received through the second microphone (eg, the omnidirectional microphone 410 installed in the TV 400 or the omnidirectional microphone installed in the external AI speaker 420) again.
  • the second microphone eg, the omnidirectional microphone 410 installed in the TV 400 or the omnidirectional microphone installed in the external AI speaker 420
  • FIG. 5 is a flowchart illustrating a control method of a system including a TV and a remote control according to an embodiment of the present invention.
  • Those skilled in the art can design to implement some or all of the steps shown in FIG. 5 on a TV (number 400 shown in FIG. 4) or a remote control (number 430 shown in FIG. 4), as needed, according to the present invention. fall within the scope of other rights.
  • a user's voice is received in a unidirectional device at a first point in time (S501).
  • the unidirectional device means a microphone provided in the remote control 430 shown in FIG. 4 , for example.
  • ASR Automatic Speech Recognition
  • S502 the microphone of the remote controller
  • ASR may be performed using deep learning technology. Sound waves are digitized and subdivided to create an acoustic spectrum. Then, the context of letters and words is inferred from patterns in the sound spectrum through deep learning.
  • NLP natural language processing technology
  • the ASR task of step S502 may be performed by the TV 400 shown in FIG. 4 , the remote control 430 , the AI speaker 420 or an external server.
  • the TV, remote control or server determines whether recognition of the user's voice received in step S501 has succeeded (S503).
  • the TV converts the user's voice data into a frequency domain and measures a gain (S505).
  • the operation of FIG. 5 may be performed by a remote controller or a server, the operation performed by a TV will be described as an example. In this case, user voice data received through the microphone of the remote control is transmitted to the TV.
  • the second microphone (for example, an omnidirectional microphone installed on a TV or AI speaker, etc.) recognizes the same user's voice It is determined whether or not (S506).
  • the first case (first frequency range) means, for example, a case where there is no gain in a frequency range of 100 hz or less and a frequency range of 10 kHz or more. An embodiment related to this will be described later in detail with reference to FIG. 6 .
  • the TV displays a graphic image guiding the position of the first microphone attached to the remote controller (S507). An embodiment related to this will be described later in detail with reference to FIG. 8 .
  • the TV displays a sound pressure error guidance message (S509).
  • the second case means, for example, a case in which a gain exists in a frequency range of 60 hz or more and 15 kHz or less. Embodiments related to this will be described later in more detail with reference to FIGS. 6 and 7 below.
  • FIG. 6 shows experimental data for distinguishing between a case where a user's voice is input from a direction other than the microphone position of the remote control and a case where the user's voice is input in response to the position of the microphone but simply uttered in a low volume according to an embodiment of the present invention; there is.
  • FIG. 6(a) corresponds to the first case of FIG. 5 (the case where the user's voice is not normally directed toward the microphone of the remote controller), and FIG. 6(b) corresponds to the second case of FIG. 5 described above. Corresponds to a case (a case where the user's voice is simply uttered softly).
  • FIG. 7 is an embodiment illustrating step S509 shown in FIG. 5 in more detail according to an embodiment of the present invention.
  • the TV 700 according to an embodiment of the present invention says, “The voice is too small. Please speak louder again” is simply displayed. Since this is the case in which the user properly points the remote control at the position of the microphone and speaks, there is no need to process and output the graphic image of FIG. 8 to be described later (locations of the remote control and the microphone, etc.).
  • FIG. 8 is an embodiment showing step S507 shown in FIG. 5 in more detail according to an embodiment of the present invention.
  • the TV 800 emphasizes and displays the position of the microphone in the remote control graphic image data ( 810) along with, “Here is the microphone. Please tell me again” is displayed together with the guide message. Accordingly, it is possible to reduce the time for the user to separately find the position of the microphone, and there is an advantage in that the rate of voice recognition increases when re-speaking.
  • a system includes both the remote controllers 240 and 430 and the TVs 200 and 400.
  • the remote controller 240 or 430 receives a user's voice (eg, channel up) through a first microphone attached to the remote controller at a first time point.
  • the received user voice data is transmitted from the remote controllers 240 and 430 to the TVs 200 and 400 .
  • communication between the remote control and the TV is performed through the wireless communication module 213.
  • the TV (200, 400) operates according to the voice recognition result (eg, one channel is up in the current channel).
  • the controller 209 controls the tuner 201 to turn up a channel.
  • the TV displays an error guidance message (FIG. 7 or 8) or uses a second microphone (an omni-directional microphone installed in the TV or external device) at the first point in time. etc.) to process the received user's voice.
  • User voice recognition may be performed directly in the controller 209 or may be performed by receiving a result from an external server.
  • the operation of the above-described proposal or invention is implemented, implemented, or implemented by a “computer” (a comprehensive concept including a system on chip (SoC) or a microprocessor) It may also be provided as executable code or an application that stores or includes the code, a computer-readable storage medium, or a computer program product, which also falls within the scope of the present invention.
  • a “computer” a comprehensive concept including a system on chip (SoC) or a microprocessor

Abstract

본 발명의 일실시예에 의한 TV 및 리모컨을 포함하는 시스템의 제어 방법은, 제1 시점에, 상기 리모컨에 부착된 제1 마이크를 통해 사용자 음성을 수신하는 단계와, 상기 수신된 사용자 음성에 대한 인식에 성공한 경우, 상기 TV에서 음성 인식 결과에 따라 동작하는 단계와, 그리고 상기 수신된 사용자 음성에 대한 인식에 실패한 경우, 상기 TV에서 오류 안내 메시지를 디스플레이 하거나 또는 상기 제1 시점에 제2 마이크를 통해 수신된 사용자 음성을 처리하는 단계를 포함한다.

Description

TV 및 리모컨을 포함하는 시스템 및 그 제어 방법
본 발명의 기술 분야는 TV 또는 리모컨에 대한 것이다. 보다 구체적으로 예를 들면, 적어도 하나의 마이크를 구비하고 있는 디바이스(예를 들어, TV의 리모컨 등)에 모두 적용 가능하다.
AI 기술 개발 등으로 인하여, 다양한 음성 인식 서비스가 가능해 지고 있다. 예를 들어, AI 스피커를 가장 먼저 출시한 A사는 멀리서 말하는 사용자의 음성을 정확히 잡아 내기 위하여 AI 스피커에 7개의 마이크를 추가하였다. 여러 개의 마이크를 이용하여 사용자의 위치가 있는 방향을 정확히 추정하고 거기서 나오는 소리에 빔 패턴을 편성해 증폭한다. 여러 수신기의 위상차를 이용해 신호를 증폭시키는 빔포밍(beamforming) 기술을 채택하였다. 나아가, 대부분의 AI 스피커는, 호출어 발화 후 명령을 내리도록 설계되어 있다. 호출어를 말하지 않으면, 스피커는 사용자가 어디에 있는지 정확히 알기가 어렵다.
이론적으로 마이크 숫자가 많을수록 보다 정확한 음성정보를 컬렉트할 수 있으나, 하드웨어 설계상 가장 효율적인 마이크 숫자에 대해서는 논란이 있다(나아가, 마이크 개수를 계속 늘리는 것은 제조사 입장에서 비용 증대로 이어지는 문제도 있음). 예를 들어, B사는 AI 스피커에 마이크가 2개 포함되어 있고, C사는 6개, D사는 4개의 마이크가 AI 스피커에 장착되어 있다.
한편, 최근에는 TV 제어를 위한 음성 인식 기능을 구현하기 위하여, 리모컨에도 마이크가 장착되고 있다. 그러나, 통상적으로 TV의 리모컨에는 단일 지향성 마이크가 설치되는데(주변 소음 등에 로버스트(robust)한 특성을 가지기 위해 사용됨), 사용자가 마이크의 위치를 정확히 알지 못하여, 마이크가 설치되지 않은 부분에 대고 음성을 발화하는 경우가 증가하고 있다(예를 들어, 사용자가 사용하는 휴대폰의 마이크 위치와 TV 리모컨의 마이크 위치가 동일할 것으로 오인하는 경우도 있고, TV 리모컨에 구비된 음성 인식 발화를 위한 버튼 주변에 마이크가 존재할 것으로 오인하는 경우 등 다양한 사례가 있는 것으로 조사됨).
특히, 단일 지향성 마이크는 특정한 방향에서 나오는 소리에만 크게 반응을 하고, 그 방향축을 벗어날수록 반응이 작아지는 특성을 가진다. 이와 같은 특성을 이용하여 주위에 소음이 많은 곳과 같은 장소에서 특정한 소리만을 디텍트(detect)하는데 주로 사용된다.
따라서, TV 리모컨에 설치된 단일 지향성 마이크에 정확히 대고 발화하지 않으면, 음성 인식률이 매우 감소할 수 밖에 없는 문제점이 대두되고 있다.
본 발명의 일실시예는, TV 리모컨에 구비된 마이크의 위치에 사용자가 음성을 발화하지 않은 경우의 문제점을 해결하고자 한다.
본 발명의 다른 일실시예는, TV 리모컨에 구비된 마이크의 위치에 사용자가 음성을 발화하지 않은 경우와, 해당 위치에 제대로 발화하였으나 단순히 음성이 작은 경우를 구별하기 위한 구체적인 기준을 제시하고자 한다.
그리고, 본 발명의 또 다른 일실시예는, TV 리모컨 이외에 다른 주변 마이크(예를 들어, 전지향성 마이크로서, TV에 설치되어 있거나, 다른 AI 스피커 등을 이용)와의 통신을 통해, 사용자 음성 인식률을 제고하고자 한다.
본 발명의 일실시예에 의한 TV 및 리모컨을 포함하는 시스템의 제어 방법은, 제1 시점에, 상기 리모컨에 부착된 제1 마이크를 통해 사용자 음성을 수신하는 단계와, 상기 수신된 사용자 음성에 대한 인식에 성공한 경우, 상기 TV에서 음성 인식 결과에 따라 동작하는 단계와, 그리고 상기 수신된 사용자 음성에 대한 인식에 실패한 경우, 상기 TV에서 오류 안내 메시지를 디스플레이 하거나 또는 상기 제1 시점에 제2 마이크를 통해 수신된 사용자 음성을 처리하는 단계를 포함한다.
예를 들어, 상기 제1 마이크는 단일 지향성 마이크에 해당하고, 상기 제2 마이크는 상기 TV 또는 다른 디바이스에 설치된 전지향성 마이크에 해당한다.
본 발명의 다른 일실시예에 의한 제어 방법은, 상기 수신된 사용자 음성에 대한 인식에 실패한 경우, 사용자 음성 데이터를 주파수 도메인으로 변환하는 단계를 더 포함하도록 설계된다.
본 발명의 또 다른 일실시예에 의한 제어 방법은, 상기 변환된 주파수 도메인 분석 결과, 제1 주파수 범위(예를 들어, 100 hz 이하의 주파수 범위 및 10khz 이상의 주파수 범위에서 게인(gain)이 없는 경우, 상기 제2 마이크를 통해 수신된 사용자 음성의 인식 여부를 판단하는 단계를 더 포함한다.
본 발명의 또 다른 일실시예에 의한 제어 방법은, 상기 판단 결과 상기 제2 마이크를 통해 수신된 사용자 음성 인식에 실패한 경우, 상기 TV에서, 상기 리모컨에 부착된 제1 마이크의 위치를 가이드 하는 그래픽 이미지를 디스플레이 하는 단계를 더 포함하도록 설계된다.
본 발명의 또 다른 일실시예에 의한 방법은, 상기 변환된 주파수 도메인 분석 결과, 제2 주파수 범위(예를 들어, 60 hz 이상 및 15khz 이하의 주파수 범위)에서 게인(gain)이 존재하는 경우, 상기 TV에서 음압 오류 안내 메시지를 디스플레이 하는 단계를 더 포함한다.
본 발명의 일실시예에 의한 시스템은, 제1 시점에, 제1 마이크를 통해 사용자 음성을 수신하고, 수신된 사용자 음성을 전송하는 리모컨과, 그리고 상기 수신된 사용자 음성에 대한 인식에 성공한 경우, 음성 인식 결과에 따라 동작하는 TV를 포함한다.
특히, 예를 들어, 상기 TV는, 상기 수신된 사용자 음성에 대한 인식에 실패한 경우, 상기 TV에서 오류 안내 메시지를 디스플레이 하거나 또는 상기 제1 시점에 제2 마이크를 통해 수신된 사용자 음성을 처리하는 것을 특징으로 한다.
본 발명의 일실시예에 의하면, TV 리모컨에 구비된 마이크의 위치에 사용자가 음성을 발화하지 않은 경우의 문제점을 해결할 수 있다.
본 발명의 다른 일실시예에 의하면, TV 리모컨에 구비된 마이크의 위치에 사용자가 음성을 발화하지 않은 경우와, 해당 위치에 제대로 발화하였으나 단순히 음성이 작은 경우를 구별하기 위한 구체적인 기준을 제시한다.
그리고, 본 발명의 또 다른 일실시예에 의하면, TV 리모컨 이외에 다른 주변 마이크와의 통신을 통해, 사용자 음성 인식률을 제고하는 기술적 효과가 있다.
다만, 당업자는 여기에서 명시적으로 언급하지 않은 기술적 효과에 대해서도, 명세서 전체의 취지를 통해 이해할 수가 있다.
도 1은 본 발명의 일실시예에 의한 TV 내부의 구성요소들을 도시하고 있다.
도 2는 본 발명의 다른 일실시예에 의한 TV 내부의 구성요소들과 외부 장치를 함께 도시하고 있다.
도 3은 본 발명의 일실시예에 의한 리모트 컨트롤러에 구비된 마이크의 다양한 위치 및 음성 명령을 위한 버튼의 다양한 위치를 도시하고 있다.
도 4는 본 발명의 일실시예에 의한 TV, 리모컨 및 외부 디바이스의 마이크를 도시하고 있다.
도 5는 본 발명의 일실시예에 의한 TV 및 리모컨을 포함하는 시스템의 제어 방법을 도시한 플로우 차트이다.
도 6은 본 발명의 일실시예에 따라, 사용자 음성이 리모컨의 마이크 위치가 아닌 다른 방향에서 입력된 경우와, 마이크 위치에 대응하여 입력되었으나 단순히 작게 발화한 경우를 구별하기 위한 실험데이터를 도시하고 있다.
도 7은 본 발명의 일실시예에 따라, 도 5에 도시된 S509 단계를 보다 상세히 도시한 실시예이다.
그리고, 도 8은 본 발명의 일실시예에 따라, 도 5에 도시된 S507 단계를 보다 상세히 도시한 실시예이다.
도 1은 본 발명의 일실시예에 의한 TV 내부의 구성요소들을 도시하고 있다.
본 발명은 다양한 TV 제품들에 적용 가능하며, 예를 들어 유럽 표준인 DVB (Digital Video Broadcasting) 표준 또는 북미/한국 표준인 ATSC (Advanced Television Systems Committee) 3.0 표준 등에도 적용 가능하다.
다만, 도 1에서는 ATSC 3.0 표준에 따라, TV(100)가 최초 서비스 스캔 동작을 수행하는 과정을 예시적으로 설명하겠으나, 본 발명의 권리범위는 특허청구범위에 기재된 사항에 따라 결정되어야 한다.
튜너(110)는 기정의된 주파수 리스트를 이용하여 신호가 존재하는 지 여부를 판단한다. 주어진 주파수에서 신호가 디텍트 되면, 베이스밴드 프로세서(Baseband processor)(120)는 프리엠블의 L1 시그널링을 추출한다.
나아가, 상기 베이스밴드 프로세서(120)는 링크 레이어 시그널링 및 LLS (Low Level Signaling)를 포함하는 PLP (Physical Layer Pipe) 데이터를 미들웨어(130)에 전송하고, 상기 미들웨어(130)는 상기 PLP 데이터로부터 상기 링크 레이어 시그널링 및 LLS 를 추출할 수 있다.
한편, 상기 미들웨어(130)는, 시그널링 매니저(140) 및 채널 매니저(150) 등을 포함하고 있다.
상기 미들웨어(130)는, 링크 레이어 시그널링 및 LLS 를 포함하는 PLP 데이터를 상기 베이스밴드 프로세서(120)로부터 수신한 후, 적절한 파서로 데이터를 패스한다.
예를 들어, 상기 미들웨어(130)는, 상기 링크 레이어 시그널링으로부터 LMT (Link Mapping Table) 를 추출하고, 상기 LMT 를 LMT 파서(141)로 패스한다. 나아가, 상기 미들웨어(130)는, 상기 LLS 로부터 SLT (Service List Table)를 추출하고, 상기 SLT 를 SLT 파서(142)로 패스한다.
상기 LMT 파서(141)는 상기 LMT를 파스(parse)하고, 채널 맵을 생성하기 위해 필요한 제1정보(예를 들어, PLPID, 세션 정보(IP 어드레스 및 포트 넘버) 등등)를 추출한다.
상기 SLT 파서(142)는 상기 SLT 를 파스(parse)하고, 채널 맵을 생성하기 위해 필요한 제2정보(예를 들어, 서비스 id, 서비스 네임 등등)를 추출한다.
상기 추출된 제1정보 및 제2정보는, 채널맵(151)에 저장된다.
도 2는 본 발명의 다른 일실시예에 의한 TV 내부의 구성요소들과 외부 장치를 함께 도시하고 있다. 당업자는 도 1 및 도 2를 참조하여, 일부 구성요소들을 결합하여 본 발명을 구현하는 것도 가능하다. 예를 들어, 도 1에 도시된 베이스밴드 프로세서(120) 및 미들웨어(130)는 도 2에 도시된 컨트롤러(209)에 포함될 수 있다.
한편, 도 2에 도시된 TV(200)는 다양한 구성요소들을 포함하고 있으나, 본 발명의 권리범위가 이에 한정되는 것은 아니며, 특허청구범위에 기재된 사항에 따라 권리범위가 확정되어야 한다.
나아가, 도 2에 도시된 TV(200) 내부의 구성요소들은 컨트롤러(209)를 통해 제어될 수 있고, 각 구성요소들은 직접 또는 간접적으로 연결될 수도 있다. 즉, 도 2에 도시하지는 않았으나, 도 2의 TV(200) 내부의 모든 구성요소들은 컨트롤 신호 및/또는 데이터를 직접 또는 간접적으로 송수신 할 수 있도록 설계된다.
우선, 튜너(201)는 안테나 등을 통해 방송 신호를 수신하고, 디먹서(Demux 또는 Demultiplexer)(202)는 상기 방송 신호에 포함된 오디오 데이터 및 비디오 데이터를 역다중화 한다.
오디오 디코더(203)는, 방송 신호에 포함된 오디오 데이터(인코딩된 상태)를 디코딩 하고, 비디오 디코더(204)는, 방송 신호에 포함된 비디오 데이터(인코딩된 상태)를 디코딩 한다.
디코딩된 오디오 데이터는 오디오 출력부(207)를 통해 출력된다. 상기 오디오 출력부(207)는 예를 들어, TV(200)에 부착된 스피커 또는 이격한 스피커가 될 수 있다.
한편, 디코딩된 비디오 데이터는 비디오 출력부(208)를 통해 바로 출력된다. 또는, 믹서(205)가 OSD 생성부(206)에 의해 생성된 메뉴 데이터 및 비디오 데이터를 믹싱한 후 비디오 출력부(208)로 전달한다.
메모리(215)는 TV(200)를 제어하기 위한 다양한 컨트롤 데이터 및 커맨드 등을 저장하고 있으며, 컨트롤러(209)는 메모리(215)를 참조하여, TV내 모든 구성요소들을 제어하는 것이 가능하다.
나아가, TV(200)는 주변의 다양한 외부 디바이스들과 통신을 통해 데이터를 송수신 한다. 예를 들어, 유선 인터페이스(212)를 경유하여, STB(220)로부터 비디오/오디오 데이터를 수신하고, 이들은 오디오 디코더(203) 및 비디오 디코더(204)에서 각각 처리된다. 또는, 수신된 비디오/오디오 데이터가 디코더들(203, 204)를 경유하지 않고, 오디오 출력부(207) 및 비디오 출력부(208)를 통해 바로 출력되는 것도 가능하다.
무선 통신 모듈(213)을 경유하여, 모바일 디바이스(230)(예를 들어, 휴대폰/웨어러블 디바이스 등)와 다양한 데이터를 송수신하고, 리모컨(240)의 IR 적외선 신호는 적외선 센서(214)를 통해 수신한다. 또는, BT 등 블루투스 통신이 가능한 리모컨(240)은, 상기 무선 통신 모듈(213)을 경유하여, TV와 다양한 데이터를 송수신한다.
종래 기술에 의한 TV와 달리, 본 발명의 일실시예에 의한 TV(200)는 모터(210)를 TV(200) 내부 또는 외부에 더 포함하고 있다. 따라서, 모터(210)를 이용하여 TV(200)의 스크린이 노출되는 면적을 자유롭게 제어하는 것이 가능해 진다). 반면, 종래 기술에 의한 TV는 동일한 사이즈의 풀 스크린이 언제나 노출되어 있는 문제점이 있다.
다만, 본 발명의 일실시예는 종래 기술과 달리, 파워공급모듈(211)을 통해 모터(210)에 파워를 추가적으로 공급해야 하기 때문에, 모터의 제어를 최적화 함으로써 전력 소비를 최소화 하는 기술이 중요하고, TV 스크린이 노출되는 면적에 따라 어떤 정보를 표시하도록 구체적으로 정의하는 것이 매우 중요한 인터페이스 기술로 요구된다. 전술한 바와 같이, 종래 기술에 의한 TV는 동일한 사이즈의 풀 스크린이 언제나 노출되어 있기 때문에, 위와 같은 기술적 요구 사항에 대한 검토가 필요 없었다.
물론, 본 발명은 스크린의 사이즈가 고정되어 있거나 또는 가변되는 TV 모두에 적용 가능함을 명시적으로 밝힌다.
도 3은 본 발명의 일실시예에 의한 리모트 컨트롤러에 구비된 마이크의 다양한 위치 및 음성 명령을 위한 버튼의 다양한 위치를 도시하고 있다.
도 3에 도시된 바와 같이, TV 제조사별로 리모트 컨트롤러(300)에 구비된 마이크의 위치(320)가 상단, 중단, 하단 등 다양하다. 나아가, 음성 인식 기능을 트리거링 하는 버튼(310)의 위치 역시 상단, 중단, 하단 등 다양하다. 물론, 도 3에 도시된 마이크의 위치(320) 및 버튼의 위치(310) 이외에도 제조사별로 다른 위치를 사용할 수도 있다(이와 관련된 특별한 표준이 없기 때문에 발생하는 문제이다).
특히, 리모트 컨트롤러(300)에 구비된 마이크(320)가 단일 지향성 마이크인 경우, 사용자가 음성을 말할 때, 해당 마이크(320) 방향에서 발화해야 음성 인식률이 높아지게 된다.
그러나, 사용자는, 리모트 컨트롤러(300)에서 마이크(320)의 위치를 정확히 알지 못하는 경우가 많다. 그리고, 실험 및 조사 결과 다음과 같은 이유로, 리모트 컨트롤러(300)의 마이크(320) 위치가 아닌 다른 곳에 대해 사용자가 발화하는 경우가 많다.
첫째, 사용자가 사용하는 휴대폰의 마이크 위치와 TV 리모컨의 마이크 위치가 동일할 것이라고 추정하는 오류 가능성이 있다.
둘째, 사용자가 음성 인식 버튼(310) 주변에 마이크(320)가 위치할 것이라고 추정하는 오류 가능성이 있다.
이와 같은 문제점들을 모두 해결할 수 있는 본 발명의 다양한 실시예들을, 도 4 이하에서 보다 상세히 설명하도록 하겠다.
도 4는 본 발명의 일실시예에 의한 TV, 리모컨 및 외부 디바이스의 마이크를 도시하고 있다. 도 4에 도시된 바와 같이, 본 발명의 일실시예에 의한 시스템은 기본적으로 TV(400)와 리모컨(430)을 포함하지만, 필요에 따라 하나의 구성만으로 본 발명을 구현할 수도 있고, 또는 외부 디바이스(420)(예를 들어, AI 스피커 등)를 추가적으로 이용하는 것도 본 발명의 다른 권리범위에 속한다.
제1 시점에, 사용자가 예를 들어 “볼륨 올려줘” 라고 발화한 경우, 사용자 음성은 리모컨(430)에 부착된 제1 마이크를 통해 수신된다. 그리고, 동일한 제1 시점에, 제2 마이크 (예를 들어, TV(400)에 설치된 마이크(410) 또는 AI 스피커(420)에 부착된 마이크 등)를 통해서도 동일한 사용자 음성이 수신된다. 여기서, 리모컨(430)에 부착된 제1 마이크는, 단일 지향성 마이크가 사용되고, 제2 마이크는 전지향성 마이크에 해당할 수가 있다.
우선, 리모컨(430)에 부착된 제1 마이크를 통해 수신된 사용자 음성(예를 들어, “볼륨 올려줘”)에 대한 인식에 성공한 경우, TV(400)는 음성 인식 결과에 따른 동작(볼륨 업(up))을 수행한다.
반면, 리모컨(430)에 부착된 제1 마이크를 통해 수신된 사용자 음성(예를 들어, “볼륨 올려줘”)에 대한 인식에 실패한 경우, TV(400)는 오류 안내 메시지를 디스플레이 하거나 또는 상기 제1 시점에 제2 마이크(예를 들어, TV(400)에 설치된 전지향성 마이크(410) 또는 외부 AI 스피커(420)에 설치된 전지향성 마이크 등)를 통해 수신된 사용자 음성을 다시 처리하도록 설계한다.
특히, 본 발명의 일실시예에 의하면, 리모컨(430)에 부착된 제1 마이크를 통해 수신된 사용자 음성 인식 실패의 원인을 자동으로 분석하고, 사용자에게 피드백을 준다는 특유의 기술적 효과가 있는데, 도 5 이하에서 보다 상세히 관련된 실시예들을 설명하도록 하겠다.
도 5는 본 발명의 일실시예에 의한 TV 및 리모컨을 포함하는 시스템의 제어 방법을 도시한 플로우 차트이다. 당업자는 필요에 따라, 도 5에 도시된 단계들 일부 또는 전부를 TV(도 4에 도시된 400번)에서 구현하거나 또는 리모컨(도 4에 도시된 430번)에서 구현하도록 설계하는 것도 본 발명의 다른 권리범위에 속한다.
우선, 도 5에 도시된 바와 같이, 사용자 음성을 제1 시점에 단일 지향성 디바이스에서 수신한다(S501). 여기서, 단일 지향성 디바이스라 함은, 예를 들어, 도 4에 도시된 리모컨(430)에 구비된 마이크를 의미한다.
리모컨의 마이크를 통해 수신된 사용자 음성에 대한 ASR (Automatic Speech Recognition) 을 수행한다(S502). 예를 들어, 딥러닝(deep learning) 기술을 이용하여 ASR 을 수행할 수도 있다. 음파를 숫자화하고, 잘게 나눠서 음향 스펙트럼을 만든다. 그리고, 딥러닝 학습을 통해 음향 스펙트럼의 패턴에서 문자와 단어의 맥락을 추론한다.
사람의 언어를 기계적으로 분석하고 컴퓨터가 이해할 수 있는 형태로 가공하는 기술을 자연어 처리 기술(NLP) 라고도 한다. 딥러닝 도입 이전의 자연어 처리는 단어 단위로 의미 분석을 했다. 그러나, 딥러닝 알고리즘 도입 이후에는, 구문 단위의 분석을 통해 문장 전체의 의미를 추론한다. 물론, 본 발명에서는, 딥러닝을 이용한 음성 인식 시스템을 사용하지 않는 일반적인 경우에도 적용 가능하다.
나아가, 상기 S502 단계의 ASR 업무는, 도 4에 도시된 TV(400), 리모컨(430), AI 스피커(420) 또는 외부 서버에서 수행할 수도 있다.
상기 S502 단계의 ASR 업무 수행 후, 전술한 S501 단계에서 수신된 사용자 음성에 대한 인식에 성공하였는지 여부를 TV, 리모컨 또는 서버가 판단한다(S503).
상기 판단 결과(S503), 사용자 음성에 대한 인식에 성공한 경우, 해당 음성 인식 결과가 예컨대 TV를 통해 실행 및 출력 된다(S504).
반면, 상기 판단 결과(S503), 상기 사용자 음성에 대한 인식에 실패한 경우, TV 는 사용자 음성 데이터를 주파수 도메인으로 변환하고 게인을 측정한다(S505). 다만, 전술한 바와 같이, 도 5의 동작을 리모컨이나 서버에서 할 수도 있으나, TV에서 수행하는 것을 예시적으로 설명한다. 이 경우, 리모컨의 마이크를 통해 수신된 사용자 음성 데이터는, TV로 전송된다.
상기 S505 단계에서 변환된 주파수 도메인 분석 결과, 제1케이스(제1주파수 범위)에 해당하는 경우, 제2 마이크(예를 들어, TV 또는 AI 스피커 등에 설치된 전지향성 마이크 등)에서 동일한 사용자 음성의 인식 여부를 판단한다(S506). 여기서, 제1케이스(제1주파수 범위)라 함은, 예를 들어 100 hz 이하의 주파수 범위 및 10khz 이상의 주파수 범위에서 게인(gain)이 없는 경우 등을 의미한다. 이와 관련된 실시예는 이하 도 6에서 보다 상세히 후술하도록 하겠다.
상기 판단 결과(S506) 제2 마이크를 통해 수신된 사용자 음성 인식에 성공한 경우, 해당 음성 인식 결과가 TV를 통해 실행 및 출력된다(S508).
반면, 상기 판단 결과(S506) 제2 마이크를 통해 수신된 사용자 음성 인식에도 실패한 경우, TV는, 리모컨에 부착된 제1 마이크의 위치를 가이드 하는 그래픽 이미지를 디스플레이 한다(S507). 이와 관련된 실시예는 이하 도 8에서 보다 상세히 후술하도록 하겠다.
상기 S505 단계에서 변환된 주파수 도메인 분석 결과, 제2케이스(제2주파수 범위)에 해당하는 경우, TV는 음압 오류 안내 메시지를 디스플레이 한다(S509). 여기서, 제2케이스(제2주파수 범위)라 함은, 예를 들어 60 hz 이상 및 15khz 이하의 주파수 범위에서 게인(gain)이 존재하는 경우 등을 의미한다. 이와 관련된 실시예는 이하 도 6 및 도 7에서 보다 상세히 후술하도록 하겠다.
도 6은 본 발명의 일실시예에 따라, 사용자 음성이 리모컨의 마이크 위치가 아닌 다른 방향에서 입력된 경우와, 마이크 위치에 대응하여 입력되었으나 단순히 작게 발화한 경우를 구별하기 위한 실험데이터를 도시하고 있다.
특히, 도 6의 (a)는 전술한 도 5의 제1케이스(사용자 음성이 리모컨의 마이크 방향으로 정상적으로 지향되지 않은 경우)에 대응하고, 도 6의 (b)는 전술한 도 5의 제2케이스(사용자 음성이 단순히 작게 발화된 경우)에 대응한다.
우선, 사용자 음성이 작지는 않으나 리모컨의 마이크에 대한 지향성이 무시된 경우, 도 6의 (a)에 도시된 주파수 도메인 그래프가 실험적으로 구해졌다.
특히, 도 6의 (a)에 도시된 바와 같이, 100hz 주파수 이하 영역에서는 게인이 존재하지 않고, 또한 10khz 주파수 이상 영역에서도 게인이 존재하지 않았다(즉, low/high cut 현상 등). 나아가, 100hz 주파수 내지 10khz 주파수 범위내에서도 게인이 없는 영역들이 존재함을 실험적으로 확인하였다. 따라서, 이 경우에는 도 8에 도시된 그래픽 이미지가 TV 화면에 출력됨으로써 사용자가 다시 제대로 발화할 수 있도록 유도하는 것이 필요하다.
반면, 리모컨의 마이크에 대한 지향성에는 문제가 없으나, 단순히 작게 발화된 경우에는, 도 6의 (b)에 도시된 주파수 도메인 그래프가 실험적으로 구해졌다.
특히, 도 6의 (b)에 도시된 바와 같이, 60hz 주파수 내지 15khz 주파수 이하 영역(가청주파수대)에서 모두 게인이 존재하였고, 비교적 고르게 게인이 분포하고 있음을 실험적으로 확인하였다. 따라서, 이 경우에는 도 7에 도시된 간단한 텍스트 만으로도, 사용자가 다시 제대로 발화할 수 있도록 유도할 수가 있다. 종래 기술은 이와 같은 상황을 구별하고, 가이드 하는 서비스가 제공되지 못하였다.
도 7은 본 발명의 일실시예에 따라, 도 5에 도시된 S509 단계를 보다 상세히 도시한 실시예이다.
특히, 전술한 도 6의 (b)에 해당하는 경우, 도 7에 도시된 바와 같이, 본 발명의 일실시예에 의한 TV(700)는 “목소리가 너무 작아요. 다시 크게 말씀해 주세요” 라는 가이드 메시지만 간단히 디스플레이 한다. 사용자가 리모컨의 마이크 위치에 제대로 대고 발화한 경우이기 때문에, 후술할 도 8의 그래픽 이미지(리모컨 및 마이크의 위치 등)를 처리 및 출력할 필요가 없다.
또는, TV(700)에 부가된 스피커(710)를 통해 전술한 메시지가 음성으로 출력되도록 하는 것도 본 발명의 다른 권리범위에 속한다고 할 것이다. 이와 같이 변형 설계할 경우, TV 방송 화면을 최대한 가리지 않는 장점이 있다.
그리고, 도 8은 본 발명의 일실시예에 따라, 도 5에 도시된 S507 단계를 보다 상세히 도시한 실시예이다.
특히, 전술한 도 6의 (a)에 해당하는 경우, 도 8에 도시된 바와 같이, 본 발명의 일실시예에 의한 TV(800)는 리모컨내 마이크의 위치를 강조하여 표시하는 그래픽 이미지 데이터(810)와 함께, “여기 마이크가 있어요. 다시 말씀해 주세요” 라는 가이드 메시지를 함께 디스플레이 한다. 따라서, 사용자가 마이크 위치를 별도로 찾기 위한 시간을 줄일 수 있고, 재발화시 음성 인식률이 높아지는 장점이 있다.
한편, 도 2 및 도 4를 참조하여, 본 발명을 다시 설명하도록 하겠다(가급적 중복되는 설명은 생략하지만, 당업자는 다른 도면들을 참조하여 보충 해석 가능하다).
본 발명의 일실시예에 의한 시스템은 리모컨(240, 430) 및 TV(200, 400)를 모두 포함하고 있다. 리모컨(240, 430)은, 제1 시점에, 리모컨에 부착된 제1 마이크를 통해 사용자 음성(예를 들어, 채널 올려줘)을 수신한다. 수신된 사용자 음성 데이터는 리모컨(240, 430)에서 TV(200, 400)로 전송된다. 여기서, 리모컨과 TV와의 통신은 무선 통신 모듈(213)을 통해 이루어 진다.
TV(200, 400)는, 상기 사용자 음성에 대한 인식에 성공한 경우, 음성 인식 결과에 따라 동작한다(예를 들어, 현재 채널에서 1개 업 된다). 예를 들어, 컨트롤러(209)가 튜너(201)를 제어하여, 채널을 업 시킨다.
반면, 사용자 음성에 대한 인식에 실패한 경우, TV(200, 400)는 오류 안내 메시지(도 7 또는 도 8)를 디스플레이 하거나 또는 상기 제1 시점에 제2 마이크(TV 또는 외부 기기에 설치된 전지향성 마이크 등)를 통해 수신된 사용자 음성을 처리한다. 사용자 음성 인식은 컨트롤러(209)에서 직접 수행할 수도 있고, 또는 외부 서버의 결과를 수신하는 방식으로 진행될 수도 있다.
본 발명의 또 다른 양태(aspect)로서, 앞서 설명한 제안 또는 발명의 동작이 “컴퓨터”(시스템 온 칩(system on chip; SoC) 또는 마이크로 프로세서 등을 포함하는 포괄적인 개념)에 의해 구현, 실시 또는 실행될 수 있는 코드 또는 상기 코드를 저장 또는 포함한 어플리케이션, 컴퓨터-판독 가능한 저장 매체 또는 컴퓨터 프로그램 제품(product) 등으로도 제공될 수 있으며, 이 또한 본 발명의 권리범위에 속한다.
상술한 바와 같이 개시된 본 발명의 바람직한 실시예들에 대한 상세한 설명은 당업자가 본 발명을 구현하고 실시할 수 있도록 제공되었다. 상기에서는 본 발명의 바람직한 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 본 발명의 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다. 예를 들어, 당업자는 상술한 실시예들에 기재된 각 구성을 서로 조합하는 방식으로 이용할 수 있다.
따라서, 본 발명은 여기에 나타난 실시예들에 제한되려는 것이 아니라, 여기서 개시된 원리들 및 신규한 특징들과 일치하는 최광의 범위를 부여하려는 것이다.
이전 목차인 “발명의 실시를 위한 최선의 형태”에서 본 발명의 다양한 실시예들을 설명하였고, 당업자가 필요에 따라 둘 이상의 도면들에 기재된 실시예들을 결합하는 것도 본 발명의 권리범위에 속함은 당연하다.
본 발명은 다양한 형태의 리모컨 및 TV 시스템 등에 적용 가능하므로, 산업상 이용가능성이 있다.

Claims (12)

  1. TV 및 리모컨을 포함하는 시스템의 제어 방법에 있어서,
    제1 시점에, 상기 리모컨에 부착된 제1 마이크를 통해 사용자 음성을 수신하는 단계;
    상기 수신된 사용자 음성에 대한 인식에 성공한 경우, 상기 TV에서 음성 인식 결과에 따라 동작하는 단계; 그리고
    상기 수신된 사용자 음성에 대한 인식에 실패한 경우,
    상기 TV에서 오류 안내 메시지를 디스플레이 하거나 또는 상기 제1 시점에 제2 마이크를 통해 수신된 사용자 음성을 처리하는 단계
    를 포함하는 것을 특징으로 하는 시스템의 제어 방법.
  2. 제1항에 있어서,
    상기 제1 마이크는 단일 지향성 마이크에 해당하고,
    상기 제2 마이크는 상기 TV 또는 다른 디바이스에 설치된 전지향성 마이크에 해당하는 것을 특징으로 하는 시스템의 제어 방법.
  3. 제1항에 있어서,
    상기 수신된 사용자 음성에 대한 인식에 실패한 경우, 사용자 음성 데이터를 주파수 도메인으로 변환하는 단계
    를 더 포함하는 것을 특징으로 하는 시스템의 제어 방법.
  4. 제3항에 있어서,
    상기 변환된 주파수 도메인 분석 결과,
    100 hz 이하의 주파수 범위 및 10khz 이상의 주파수 범위에서 게인(gain)이 없는 경우, 상기 제2 마이크를 통해 수신된 사용자 음성의 인식 여부를 판단하는 단계
    를 더 포함하는 것을 특징으로 하는 시스템의 제어 방법.
  5. 제4항에 있어서,
    상기 판단 결과 상기 제2 마이크를 통해 수신된 사용자 음성 인식에 실패한 경우,
    상기 TV에서, 상기 리모컨에 부착된 제1 마이크의 위치를 가이드 하는 그래픽 이미지를 디스플레이 하는 단계
    를 더 포함하는 것을 특징으로 하는 시스템의 제어 방법.
  6. 제5항에 있어서,
    상기 변환된 주파수 도메인 분석 결과,
    60 hz 이상 및 15khz 이하의 주파수 범위에서 게인(gain)이 존재하는 경우, 상기 TV에서 음압 오류 안내 메시지를 디스플레이 하는 단계
    를 더 포함하는 것을 특징으로 하는 시스템의 제어 방법.
  7. 시스템에 있어서,
    제1 시점에, 제1 마이크를 통해 사용자 음성을 수신하고, 수신된 사용자 음성을 전송하는 리모컨; 그리고
    상기 수신된 사용자 음성에 대한 인식에 성공한 경우, 음성 인식 결과에 따라 동작하는 TV
    를 포함하되,
    상기 TV는,
    상기 수신된 사용자 음성에 대한 인식에 실패한 경우,
    상기 TV에서 오류 안내 메시지를 디스플레이 하거나 또는 상기 제1 시점에 제2 마이크를 통해 수신된 사용자 음성을 처리하는 것을 특징으로 하는 시스템.
  8. 제7항에 있어서,
    상기 제1 마이크는 단일 지향성 마이크에 해당하고,
    상기 제2 마이크는 상기 TV 또는 다른 디바이스에 설치된 전지향성 마이크에 해당하는 것을 특징으로 하는 시스템.
  9. 제7항에 있어서,
    상기 TV는,
    상기 수신된 사용자 음성에 대한 인식에 실패한 경우, 사용자 음성 데이터를 주파수 도메인으로 변환하는 것을 특징으로 하는 시스템.
  10. 제9항에 있어서,
    상기 TV는,
    상기 변환된 주파수 도메인 분석 결과,
    제1 주파수 범위에서 게인(gain)이 없는 경우, 상기 제2 마이크를 통해 수신된 사용자 음성의 인식 여부를 판단하는 것을 특징으로 하는 시스템.
  11. 제10항에 있어서,
    상기 TV는,
    상기 판단 결과 상기 제2 마이크를 통해 수신된 사용자 음성 인식에 실패한 경우,
    상기 리모컨에 부착된 제1 마이크의 위치를 가이드 하는 그래픽 이미지를 디스플레이 하는 것을 특징으로 하는 시스템.
  12. 제11항에 있어서,
    상기 TV는,
    상기 변환된 주파수 도메인 분석 결과,
    상기 제1 주파수 범위와 다른 제2 주파수 범위에서 게인(gain)이 존재하는 경우, 상기 TV에서 음압 오류 안내 메시지를 디스플레이 하는 것을 특징으로 하는 시스템.
PCT/KR2021/015368 2021-10-29 2021-10-29 Tv 및 리모컨을 포함하는 시스템 및 그 제어 방법 WO2023074956A1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020247005729A KR20240041956A (ko) 2021-10-29 2021-10-29 Tv 및 리모컨을 포함하는 시스템 및 그 제어 방법
PCT/KR2021/015368 WO2023074956A1 (ko) 2021-10-29 2021-10-29 Tv 및 리모컨을 포함하는 시스템 및 그 제어 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2021/015368 WO2023074956A1 (ko) 2021-10-29 2021-10-29 Tv 및 리모컨을 포함하는 시스템 및 그 제어 방법

Publications (1)

Publication Number Publication Date
WO2023074956A1 true WO2023074956A1 (ko) 2023-05-04

Family

ID=86158188

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/015368 WO2023074956A1 (ko) 2021-10-29 2021-10-29 Tv 및 리모컨을 포함하는 시스템 및 그 제어 방법

Country Status (2)

Country Link
KR (1) KR20240041956A (ko)
WO (1) WO2023074956A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150040445A (ko) * 2013-10-07 2015-04-15 삼성전자주식회사 사용자 음성을 입력받는 원격 제어 장치 및 그 방법
KR101521363B1 (ko) * 2010-08-27 2015-05-19 인텔 코포레이션 엔터테인먼트 디바이스들 및 시스템들의 음향 관리를 위한 기술들
KR20190017507A (ko) * 2017-08-11 2019-02-20 엘지전자 주식회사 영상표시장치
KR102224484B1 (ko) * 2014-08-05 2021-03-08 엘지전자 주식회사 멀티미디어 디바이스 및 이의 제어 방법
KR20210068353A (ko) * 2020-07-29 2021-06-09 삼성전자주식회사 디스플레이장치, 음성취득장치 및 그 음성인식방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101521363B1 (ko) * 2010-08-27 2015-05-19 인텔 코포레이션 엔터테인먼트 디바이스들 및 시스템들의 음향 관리를 위한 기술들
KR20150040445A (ko) * 2013-10-07 2015-04-15 삼성전자주식회사 사용자 음성을 입력받는 원격 제어 장치 및 그 방법
KR102224484B1 (ko) * 2014-08-05 2021-03-08 엘지전자 주식회사 멀티미디어 디바이스 및 이의 제어 방법
KR20190017507A (ko) * 2017-08-11 2019-02-20 엘지전자 주식회사 영상표시장치
KR20210068353A (ko) * 2020-07-29 2021-06-09 삼성전자주식회사 디스플레이장치, 음성취득장치 및 그 음성인식방법

Also Published As

Publication number Publication date
KR20240041956A (ko) 2024-04-01

Similar Documents

Publication Publication Date Title
US9280539B2 (en) System and method for translating speech, and non-transitory computer readable medium thereof
WO2016035933A1 (ko) 디스플레이 장치 및 그의 동작 방법
US10359991B2 (en) Apparatus, systems and methods for audio content diagnostics
US6868045B1 (en) Voice control system with a microphone array
EP1278183B1 (en) Voice operated electronic appliance
US20100063820A1 (en) Correlating video images of lip movements with audio signals to improve speech recognition
WO2019135623A1 (ko) 디스플레이장치 및 그 제어방법
JP2011022600A (ja) 音声認識システムの動作方法
KR20020032621A (ko) 음성 명령으로 장치를 제어하는 시스템
US9147396B2 (en) Voice recognition device and voice recognition method
US20220021980A1 (en) Terminal, audio cooperative reproduction system, and content display apparatus
JP7197992B2 (ja) 音声認識装置、音声認識方法
WO2023074956A1 (ko) Tv 및 리모컨을 포함하는 시스템 및 그 제어 방법
WO2021149898A1 (ko) 인공지능형 멀티미디어장치 제어 방법 및 시스템
WO2021020825A1 (ko) 전자장치와 그의 제어방법, 및 기록매체
JP2005192004A (ja) ヘッドセットおよびヘッドセットの音楽データの再生制御方法
KR20110065052A (ko) 이동통신 단말기
WO2021091063A1 (ko) 전자장치 및 그 제어방법
WO2021080362A1 (ko) 이어셋을 이용한 언어 처리 시스템
WO2020138943A1 (ko) 음성을 인식하는 장치 및 방법
WO2019160388A1 (ko) 사용자의 발화를 기반으로 컨텐츠를 제공하는 장치 및 시스템
CN108281145B (zh) 语音处理方法、语音处理装置和电子设备
WO2022250387A1 (ko) 음성을 처리하기 위한 음성 처리 장치, 음성 처리 시스템 및 음성 처리 방법
TWI601071B (zh) 將電話機的語音訊號輸入到智慧裝置的方法、電子裝置及具有非揮發性儲存裝置之電腦
WO2023163254A1 (ko) Tv와 리모컨을 포함하는 시스템 및 그 제어 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21962580

Country of ref document: EP

Kind code of ref document: A1