KR20200129315A - Remote control And Set-top Box Operating Method For Recognition Of Voice Recognition Call-word - Google Patents

Remote control And Set-top Box Operating Method For Recognition Of Voice Recognition Call-word Download PDF

Info

Publication number
KR20200129315A
KR20200129315A KR1020190053530A KR20190053530A KR20200129315A KR 20200129315 A KR20200129315 A KR 20200129315A KR 1020190053530 A KR1020190053530 A KR 1020190053530A KR 20190053530 A KR20190053530 A KR 20190053530A KR 20200129315 A KR20200129315 A KR 20200129315A
Authority
KR
South Korea
Prior art keywords
speech
recognition
top box
voice
speech recognition
Prior art date
Application number
KR1020190053530A
Other languages
Korean (ko)
Inventor
박세호
한정안
Original Assignee
주식회사 엘지유플러스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 엘지유플러스 filed Critical 주식회사 엘지유플러스
Priority to KR1020190053530A priority Critical patent/KR20200129315A/en
Publication of KR20200129315A publication Critical patent/KR20200129315A/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • H04N21/42206User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor characterized by hardware details
    • H04N21/42222Additional components integrated in the remote control device, e.g. timer, speaker, sensors for detecting position, direction or movement of the remote control, microphone or battery charging device
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Telephonic Communication Services (AREA)

Abstract

A following embodiment of the present invention relates to an operation method of a remote control and a set-top box for recognizing an uttered word for voice recognition. The operation method of the remote control according to an embodiment may comprise the steps of: recognizing and removing an ambient noise through a microphone of the remote control; detecting an uttered word for voice recognition inputted from a user through the microphone; and transferring voice data of the uttered word for voice recognition to a set-top box.

Description

음성인식 발화어의 인식을 위한 리모컨 및 셋톱박스의 동작 방법{Remote control And Set-top Box Operating Method For Recognition Of Voice Recognition Call-word}Remote control And Set-top Box Operating Method For Recognition Of Voice Recognition Call-word}

이하의 실시예는 리모컨 및 셋톱박스에서 음성인식 발화어의 인식 방법에 관한 것이다.The following embodiments relate to a method of recognizing speech recognition speech words in a remote control and a set-top box.

휴대폰, 인공지능 스피커, TV 등 다양한 전자기기에 음성인식 기술이 탑재되고 보편화되고 있으며, 전자기기에서는 특정 버튼을 눌러 음성인식 모드를 활성화하거나 음성인식을 호출하기 위한 발화어를 인식하여 음성인식 모드를 활성화할 수 있다.Various electronic devices such as mobile phones, artificial intelligence speakers, and TVs are equipped with voice recognition technology and are becoming more common.In electronic devices, the voice recognition mode is activated by pressing a specific button to activate the voice recognition mode or by recognizing the spoken word for calling voice recognition. Can be activated.

이 중, 음성인식 호출을 위한 발화어의 인식을 통해 음성인식 모드를 활성화하는 데에는 정확도가 높지 않다. 전혀 다른 음성에 반응하여 음성인식 모드를 활성화하거나 발화어에 반응하지 않는 등의 오류가 존재한다.Among them, the accuracy is not high in activating the voice recognition mode through the recognition of spoken words for voice recognition calls. There are errors such as activating the speech recognition mode in response to a completely different voice or not responding to spoken words.

음성인식 기술은 입력되는 음성을 통계 분석하되, 정확한 음성 인식을 위해 음성이 인지되는 상황에서 잡음을 최소화시키고 최적의 음량으로 음성 데이터를 생성하는 것이 중요하다.The speech recognition technology statistically analyzes the input voice, but for accurate voice recognition, it is important to minimize noise and generate voice data at an optimal volume in a situation where voice is recognized.

실시예에서, 음성인식 모드를 활성화하기 위한 음성인식 발화어의 인식 시 오인식률을 개선하기 위해 리모컨 및 셋톱박스에서의 동작 방법 및 이를 수행하는 리모컨과 셋톱박스를 제공하고자 한다.In an embodiment, an operation method in a remote control and a set-top box, and a remote control and a set-top box performing the same are provided in order to improve a false recognition rate when recognizing a voice recognition spoken word for activating a voice recognition mode.

리모컨의 마이크를 통해 수신되는 신호로부터 주변 잡음을 인식하여 제거하는 단계; 상기 주변 잡음이 제거된 신호로부터 사용자로부터 입력되는 음성인식 발화어를 감지하는 단계; 및 상기 음성인식 발화어의 음성 데이터를 셋톱박스로 전달하는 단계를 포함하고, 상기 음성 인식 발화어는 상기 셋톱박스로 전달된 음성 데이터로부터 상기 셋톱박스를 통해 출력 중인 음향의 음향 데이터를 제거함으로써 인식되는, 음성인식 발화어 인식을 위한 리모컨의 동작 방법이 제공될 수 있다.Recognizing and removing ambient noise from a signal received through a microphone of a remote control; Detecting a speech recognition speech input from a user from the signal from which the ambient noise has been removed; And transmitting the voice data of the voice recognition spoken word to a set-top box, wherein the voice recognition spoken word is recognized by removing sound data of the sound being output through the set-top box from the voice data transmitted to the set-top box. , A method of operating a remote control for speech recognition speech recognition may be provided.

상기 음성인식 발화어의 음성 데이터를 셋톱박스로 전달하는 단계는, 상기 음성인식 발화어에서 상기 주변 잡음이 제거된 음성 데이터를 전달하는 단계를 포함할 수 있다.The transmitting of the voice data of the voice recognition spoken word to the set-top box may include transmitting the voice data from which the ambient noise has been removed from the voice recognition spoken word.

상기 음성인식 발화어는 상기 셋톱박스를 통해, 상기 음성 데이터에서 상기 출력 중인 음향의 음향 데이터가 제거되는 단계; 및 상기 음향 데이터가 제거된 음성 데이터의 잡음이 제거되는 단계를 통해 최종 음성인식 발화어로 인식될 수 있다.Removing the sound data of the sound being output from the voice data through the set-top box in the speech recognition speech word; And a step of removing noise from the audio data from which the audio data has been removed, so that the final speech recognition speech may be recognized.

상기 음성인식 발화어가 인식되면, 상기 리모컨은 상기 셋톱박스로부터 음성 인식 모드의 활성화 명령을 수신하는 단계; 및 상기 활성화 명령에 대응하여 음성 인식 모드를 활성화하는 단계를 더 포함할 수 있다.When the voice recognition spoken word is recognized, the remote control receiving a voice recognition mode activation command from the set-top box; And activating the voice recognition mode in response to the activation command.

리모컨으로부터 음성인식 발화어의 음성 데이터를 수신하는 단계; 상기 음성 데이터에서 셋톱박스를 통해 출력 중인 음향의 음향 데이터를 제거하는 단계; 및 상기 음향 데이터가 제거된 최종 음성인식 발화어의 음성 데이터를 서버로 전송하는 단계를 포함하고, 상기 서버에서 상기 최종 음성인식 발화어가 인식되는, 음성인식 발화어 인식을 위한 셋톱박스의 동작 방법이 제공될 수 있다.Receiving voice data of voice recognition spoken words from a remote control; Removing sound data of sound being output through a set-top box from the sound data; And transmitting the voice data of the final voice recognition spoken word from which the sound data has been removed to a server, wherein the server recognizes the final voice recognition spoken word, and an operating method of a set-top box for voice recognition spoken word recognition Can be provided.

상기 리모컨으로부터 수신된 음성인식 발화어의 음성 데이터는, 상기 리모컨의 마이크를 통해 감지되는 주변 잡음이 제거된 음성인식 발화어의 음성 데이터일 수 있다.The voice data of the voice recognition spoken word received from the remote control may be voice data of the voice recognition spoken word from which ambient noise sensed through the microphone of the remote control has been removed.

상기 최종 음성인식 발화어의 음성 데이터는, 상기 서버에 미리 설정되어 있는 설정 음성인식 발화어의 음성 데이터와 비교되고, 상기 최종 음성인식 발화어 및 상기 설정 음성인식 발화어의 일치 여부에 따라 인식 여부가 결정될 수 있다.The voice data of the final voice recognition spoken word is compared with the voice data of the set voice recognition spoken word preset in the server, and whether the final voice recognition spoken word and the set voice recognized spoken word are recognized according to whether or not they match. Can be determined.

상기 서버로부터 상기 최종 음성인식 발화어의 인식 여부를 수신하는 단계; 및 상기 최종 음성인식 발화어가 인식된 경우, 상기 리모컨으로 상기 리모컨의 음성 인식 모드의 활성화 명령을 전송하는 단계를 더 포함할 수 있다.Receiving whether or not the final voice recognition spoken word is recognized from the server; And when the final voice recognition spoken word is recognized, transmitting a command to activate the voice recognition mode of the remote control to the remote control.

본 발명의 실시예를 통해 음성인식 모드를 활성화하기 위한 음성인식 발화어의 인식 시 오인식률을 개선하기 위해 리모컨 및 셋톱박스에서의 동작 방법 및 이를 수행하는 리모컨과 셋톱박스를 제공할 수 있다.According to an embodiment of the present invention, in order to improve a false recognition rate when recognizing a voice recognition spoken word for activating a voice recognition mode, an operation method in a remote control and a set-top box, and a remote control and a set-top box performing the same can be provided.

실시예에 따른 방법에 의하면, 1차 인식된 음성인식 발화어를 더 정교한 SoC(System on Chip) 베이스인 IPTV 셋톱박스에서 2차 인식을 하고 이 때 TV 소리 등의 컨텐츠 음향을 제거하고, 서버에서 3차 인식으로 고성능의 클라우드 컴퓨팅을 이용하여 재인식을 진행할 수 있다.According to the method according to the embodiment, the first recognized speech recognition spoken word is secondly recognized in an IPTV set-top box based on a more sophisticated SoC (System on Chip), and content sound such as TV sound is removed at this time, and the server Third-order recognition enables re-recognition using high-performance cloud computing.

이러한 캐스케이드(Cascade) 형식으로 컴퓨팅 전력과 환경이 다른 여러 단계에 걸쳐 음성인식 발화어를 인식함으로써 오인식 이슈를 개선할 수 있다.In such a cascade format, the issue of misrecognition can be improved by recognizing speech recognition speech over several stages with different computing power and environments.

더불어, 리모컨에서는 고성능의 전처리 과정(잡음 제거)을 위한 상시 대기(Always-on Listening) 기능을 제한적으로 사용하여 소모 전력을 절약할 수 있다.In addition, the remote control can save power consumption by using a limited always-on listening function for high-performance pre-processing (noise removal).

도 1은 일실시예에 있어서, 음성인식 발화어의 인식을 위한 서비스의 개요도이다.
도 2는 일실시예에 있어서, 음성인식 발화어의 인식 방법의 흐름도이다.
도 3은 일실시예에 있어서, 음성인식 모드의 활성화에 따른 흐름도이다.
도 4는 일실시예에 있어서, 리모컨 및 셋톱박스의 블록도이다.
1 is a schematic diagram of a service for recognizing speech recognition spoken words according to an embodiment.
2 is a flowchart of a method for recognizing a speech recognition spoken word according to an embodiment.
3 is a flowchart illustrating activation of a voice recognition mode according to an embodiment.
4 is a block diagram of a remote control and a set-top box according to an embodiment.

이하, 본 발명의 실시예에 대해서 첨부된 도면을 참조하여 자세히 설명하도록 한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.

본 명세서에 개시되어 있는 본 발명의 개념에 따른 실시예들에 대해서 특정한 구조적 또는 기능적 설명들은 단지 본 발명의 개념에 따른 실시예들을 설명하기 위한 목적으로 예시된 것으로서, 본 발명의 개념에 따른 실시예들은 다양한 형태로 실시될 수 있으며 본 명세서에 설명된 실시예들에 한정되지 않는다.Specific structural or functional descriptions of the embodiments according to the concept of the present invention disclosed in this specification are exemplified only for the purpose of describing the embodiments according to the concept of the present invention, and embodiments according to the concept of the present invention They may be implemented in various forms and are not limited to the embodiments described herein.

본 발명의 개념에 따른 실시예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시예들을 도면에 예시하고 본 명세서에 상세하게 설명하고자 한다. 그러나, 이는 본 발명의 개념에 따른 실시예들을 특정한 개시형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 변경, 균등물, 또는 대체물을 포함한다.Since the embodiments according to the concept of the present invention can apply various changes and have various forms, the embodiments will be illustrated in the drawings and described in detail herein. However, this is not intended to limit the embodiments according to the concept of the present invention to specific disclosed forms, and includes changes, equivalents, or substitutes included in the spirit and scope of the present invention.

제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만, 예를 들어 본 발명의 개념에 따른 권리 범위로부터 이탈되지 않은 채, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.Terms such as first or second may be used to describe various elements, but the elements should not be limited by the terms. The above terms are only for the purpose of distinguishing one component from other components, for example, without departing from the scope of rights according to the concept of the present invention, the first component may be named as the second component, Similarly, the second component may also be referred to as a first component.

어떤 구성요소가 다른 구성요소에 “연결되어” 있다거나 “접속되어” 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 “직접 연결되어” 있다거나 “직접 접속되어” 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 표현들, 예를 들어 “~사이에”와 “바로~사이에” 또는 “~에 직접 이웃하는” 등도 마찬가지로 해석되어야 한다.When a component is referred to as being “connected” or “connected” to another component, it is understood that it may be directly connected or connected to the other component, but other components may exist in the middle. Should be. On the other hand, when a component is referred to as being “directly connected” or “directly connected” to another component, it should be understood that there is no other component in the middle. Expressions that describe the relationship between components, for example, “between” and “just between” or “directly adjacent to” should be interpreted as well.

본 명세서에서 사용한 용어는 단지 특정한 실시예들을 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, “포함하다” 또는 “가지다” 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The terms used in the present specification are only used to describe specific embodiments and are not intended to limit the present invention. Singular expressions include plural expressions unless the context clearly indicates otherwise. In the present specification, terms such as "comprise" or "have" are intended to designate that the specified features, numbers, steps, actions, components, parts, or combinations thereof exist, but one or more other features or numbers, It is to be understood that the presence or addition of steps, actions, components, parts, or combinations thereof, does not preclude the possibility of preliminary exclusion.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Unless otherwise defined, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by a person of ordinary skill in the art to which the present invention belongs. Terms as defined in a commonly used dictionary should be interpreted as having a meaning consistent with the meaning in the context of the related technology, and should not be interpreted as an ideal or excessively formal meaning unless explicitly defined in this specification. Does not.

도 1은 일실시예에 있어서, 음성인식 발화어의 인식을 위한 서비스의 개요도이다.1 is a schematic diagram of a service for recognizing speech recognition spoken words according to an embodiment.

실시예에서, 서비스가 제공되기 위한 시스템 환경은 리모컨(110), 셋톱박스(120) 및 서버(130)를 포함할 수 있다.In an embodiment, a system environment for providing a service may include a remote control 110, a set-top box 120 and a server 130.

리모컨(110), 셋톱박스(120)는 댁 내 혹은 특정 공간에 설치되어 IPTV를 시청하기 위한 환경을 제공할 수 있으며, 스마트 TV 등과 유무선으로 연결될 수 있다. 셋톱박스(120)는 리모컨(110)으로부터 IR 신호를 전달받아 해당 신호에 포함되는 명령에 따라 제어될 수 있다.The remote control 110 and the set-top box 120 may be installed in a home or in a specific space to provide an environment for viewing IPTV, and may be connected to a smart TV or the like by wire or wireless. The set-top box 120 may receive an IR signal from the remote control 110 and may be controlled according to a command included in the signal.

셋톱박스(120)는 네트워크를 통해 서버(130)와 연결될 수 있다. 네트워크는 예를 들면, 인터넷, 인트라넷들, 익스트라넷들, 광역 네트워크들(WANs), 근거리 네트워크들(LANs), 유선 네트워크들, 무선 네트워크들, 혹은 그외 적합한 네트워크들, 등 혹은 상기 네트워크들의 둘 이상의 임의의 조합을 포함할 수 있다.The set-top box 120 may be connected to the server 130 through a network. A network may be, for example, the Internet, intranets, extranets, wide area networks (WANs), local area networks (LANs), wired networks, wireless networks, or other suitable networks, etc. or two or more of the above networks. Any combination can be included.

서버(130)는 예를 들어, 단일의 서버 컴퓨터 또는 이와 유사한 시스템이거나, 또는 하나 이상의 서버 뱅크들(server banks) 또는 그외 다른 배열들로 배열되는 복수의 서버들일 수 있다. 서버(130)는 단일 시설에 놓일 수도 있고, 혹은 많은 서로 다른 지리적 위치들 간에 분산된 서버 "클라우드(cloud)"일 수도 있다.The server 130 may be, for example, a single server computer or a similar system, or may be a plurality of servers arranged in one or more server banks or other arrangements. Server 130 may be placed in a single facility, or may be a server “cloud” distributed among many different geographic locations.

실시예에서, 리모컨(110)으로 입력되는 발화어의 음성 데이터를 셋톱박스(120)로 전달하고, 셋톱박스(120)에서 네트워크를 통해 서버(130)로 전달함으로써 음성인식 발화어를 인식할 수 있다. 이하, 아래의 도면들을 통해 실시예를 자세히 설명하도록 한다.In an embodiment, the voice data of the spoken word inputted through the remote control 110 is transmitted to the set-top box 120 and transmitted from the set-top box 120 to the server 130 through a network, thereby recognizing the speech recognition spoken word. have. Hereinafter, embodiments will be described in detail through the following drawings.

도 2는 일실시예에 있어서, 음성인식 발화어의 인식 방법의 흐름도이다.2 is a flowchart of a method for recognizing a speech recognition spoken word according to an embodiment.

단계(201)에서 리모컨은 주변의 잡음을 제거할 수 있다.In step 201, the remote control may remove ambient noise.

실시예에서, 리모컨에 포함되는 MCU(Micro Controller Unit)에서 감지되는 주변 잡음을 상시 제거할 수 있다. 주변 잡음은 리모컨의 마이크 등을 통해 입력될 수 있다.In an embodiment, ambient noise detected by a microcontroller unit (MCU) included in the remote control may be removed at all times. Ambient noise may be input through a microphone of a remote control.

실시예에서, 셋톱박스가 동작하여 하나 이상의 컨텐츠가 디스플레이 장치로 출력되는 중에 리모컨은 주변의 잡음을 제거할 수 있다. 또는 생활 소음으로 규정되는 잡음 등을 감지하여 제거할 수 있다.In an embodiment, the remote control may remove surrounding noise while the set-top box is operating and one or more contents are output to the display device. Or it can detect and remove noise that is defined as living noise.

단계(202)에서 리모컨은 음성인식 발화어를 감지할 수 있다.In step 202, the remote control can detect the speech recognition speech.

실시예에서, 사용자로부터 입력되는 음성인식 발화어를 감지할 수 있다. 리모컨의 주변 잡음이 제거된 신호로부터 사용자의 음성으로 입력되는 음성인식 발화어를 감지할 수 있다. 셋톱박스가 동작하여 적어도 하나 이상의 컨텐츠가 디스플레이 장치로 출력되는 중에 음성인식 발화어를 감지할 수 있다.In an embodiment, a voice recognition spoken word input from a user may be detected. The voice recognition spoken word input by the user's voice can be detected from the signal from which the ambient noise of the remote control has been removed. While the set-top box is operating and at least one content is output to the display device, a speech recognition speech word may be detected.

다른 실시예에서, 셋톱박스가 OFF 상태인 경우, 리모컨은 음성인식 발화어를 감지하지 않을 수도 있다.In another embodiment, when the set-top box is in the OFF state, the remote control may not detect the voice recognition spoken word.

리모컨은 내장된 MCU를 통해 인식될 수 있다. 리모컨은 인식된 음성인식 발화어에 대해 음성 데이터를 생성할 수 있다. 해당 음성 데이터는 리모컨에서 감지되는 잡음이 제거될 수 있다.The remote control can be recognized through the built-in MCU. The remote control may generate voice data for the recognized voice recognition spoken words. Noise detected by the remote control may be removed from the corresponding voice data.

실시예에서, 리모컨에 포함되는 마이크가 복수개인 경우, 그 중 최소의 마이크만을 활성화하고 나머지 마이크의 동작을 제한할 수 있고, 활성화된 최소의 마이크에서 특정 데시벨(dB) 이상의 음성이 발생하는지를 감지하고, 특정 데시벨 이상의 음성이 발생할 시 복수개의 마이크들이 동작하도록 상태를 전환하여 음성을 인식할 수 있다.In an embodiment, when there are a plurality of microphones included in the remote control, only the minimum microphone can be activated and the operation of the remaining microphones can be limited, and it is possible to detect whether or not a specific decibel (dB) or more voice is generated from the activated minimum microphone. , When a voice of more than a specific decibel is generated, the voice may be recognized by switching states such that a plurality of microphones operate.

단계(203)에서 리모컨은 음성인식 발화어의 음성데이터를 셋톱박스로 전달할 수 있다.In step 203, the remote control may transmit the voice data of the voice recognition spoken word to the set-top box.

실시예에서, 리모컨은 셋톱박스의 ON/OFF 상태와 상관없이 음성인식 발화어의 음성 데이터를 전송하고, 셋톱박스는 ON/OFF 상태에 기초하여 해당 음성데이터의 수신 여부가 결정될 수도 있다.In an embodiment, the remote control transmits voice data of a voice recognition spoken word irrespective of the ON/OFF state of the set-top box, and the set-top box may determine whether to receive the corresponding voice data based on the ON/OFF state.

단계(204)에서 셋톱박스는 음성인식 발화어를 감지할 수 있다.In step 204, the set-top box may detect speech recognition speech.

실시예에서, 셋톱박스는 TV 화면으로 출력되는 컨텐츠에 대한 정보를 쉽게 획득할 수 있다. 셋톱박스에 내장된 SoC(System on Chip)에서 리모컨으로부터 수신된 리모컨의 주변 잡음을 제거한 음향 데이터에 대해서 셋톱박스에서 제공되는 컨텐츠의 음향 데이터를 제거할 수 있다.In an embodiment, the set-top box can easily obtain information on content displayed on a TV screen. The sound data of the contents provided from the set-top box can be removed from the sound data from which the ambient noise received from the remote control is removed from the SoC (System on Chip) built into the set-top box.

예를 들어, 사용자는 현재 TV를 통해 컨텐츠를 시청 중이므로, TV를 통해 출력될 음향 데이터를 삭제하는 동작은 수신 받은 음성인식 발화어의 음향 데이터에 대한 인식률을 높이는 데에 효과적일 수 있다.For example, since the user is currently watching content through the TV, the operation of deleting sound data to be output through the TV may be effective in increasing the recognition rate of the sound data of the received speech recognition spoken word.

일실시예에서, 셋톱박스는 TV 음향이 제거된 음성인식 발화어의 음성 데이터에서 잡음을 제거할 수 있다. 리모컨 및 셋톱박스에 걸쳐 2회에 걸쳐 잡음을 제거함으로써 음성인식 발화어의 인식률을 높일 수 있다.In one embodiment, the set-top box may remove noise from voice data of voice recognition speech words from which TV sound has been removed. By removing the noise twice over the remote control and the set-top box, it is possible to increase the recognition rate of speech recognition spoken words.

실시예에서, 셋톱박스는 TV 음향이 제거된 음성인식 발화어의 음성 데이터를 감지할 수 있다. 셋톱박스에 기 저장된 음성인식 발화어와 음성인시 발화어의 음성 데이터를 비교하여 인식 여부를 결정할 수 있다.In an embodiment, the set-top box may detect voice data of a voice recognition spoken word from which TV sound has been removed. It is possible to determine whether to recognize or not by comparing the voice data of the voice recognition spoken word stored in the set-top box and the spoken word when the voice is recognized.

다른 실시예에서, 셋톱박스는 음향 데이터가 제거된 최종 음성인식 발화어를 생성할 수 있다. 또는 음향 데이터 및 잡음이 2차로 제거된 최종 음성인식 발화어를 생성할 수 있다.In another embodiment, the set-top box may generate a final speech recognition speech from which sound data has been removed. Alternatively, a final speech recognition speech word from which sound data and noise are secondarily removed may be generated.

단계(205)에서 셋톱박스는 최종 음성인식 발화어를 서버로 전송할 수 있다. 최종 음성인식 발화어의 전송 시, 셋톱박스로 연결되는 유무선을 통해 서버로 전송될 수 있다.In step 205, the set-top box may transmit the final speech recognition speech to the server. When the final voice recognition spoken word is transmitted, it may be transmitted to the server through wired or wireless connection to the set-top box.

단계(206)에서 서버는 최종 음성인식 발화어를 인식할 수 있다.In step 206, the server may recognize the final speech recognition spoken word.

실시예에서 사용자에 의해서 또는 셋톱박스에 미리 설정된 음성인식 발화어에 대한 정보가 서버에 기저장될 수 있다.In an embodiment, information on the voice recognition speech pre-set by the user or in the set-top box may be pre-stored in the server.

서버는 고성능의 클라우드 컴퓨팅을 이용하여 기 저장된 음성인식 발화어와 수신된 최종 음성인시 발화어의 음성 데이터를 비교하여 인식 여부를 결정할 수 있다. 예를 들어, 일치율이 일정 수준 이상인 경우에 대해서 음성인식 발화어의 인식이 성공한 것으로 결정할 수 있다.The server may determine whether to recognize the speech by comparing the previously stored speech recognition speech word with the speech data of the speech speech received at the time of the final speech recognition using high-performance cloud computing. For example, it may be determined that the recognition of the speech recognition spoken word is successful when the matching rate is higher than a certain level.

실시예에서, 서버에서 음성인식 발화어의 인식이 성공하는 경우, 즉 음성인식 발화어가 정상적으로 입력, 전송되어 처리되는 경우, 리모컨 및 셋톱박스는 음성인식을 위한 음성인식 모드로 동작할 수 있다.In an embodiment, when the server successfully recognizes the speech recognition speech, that is, when the speech recognition speech is normally input, transmitted and processed, the remote control and the set-top box may operate in a speech recognition mode for speech recognition.

다른 실시예에서, 셋톱박스에서 음성인식 발화어가 인식된 경우, 서버는 최종 음성인식 발화어 및 해당 음성인식 발화어의 인식이 성공함을 나타내기 위한 메시지를 수신할 수 있다.In another embodiment, when a speech recognition spoken word is recognized in the set-top box, the server may receive a message indicating that the final speech recognition spoken word and the corresponding speech recognition spoken word are successfully recognized.

단계(207)에서 서버는 최종 음성인식 발화어에 대한 인식 성공 여부를 전달할 수 있다. 또는 최종 음성인식 발화어가 인식되어 음성 인식 모드의 활성화를 위한 명령을 전달할 수 있다. 실시예에서는, 성공한 경우에 대해 설명하도록 한다.In step 207, the server may transmit whether or not the recognition of the final speech recognition spoken word is successful. Alternatively, the final speech recognition spoken word may be recognized and a command for activating the speech recognition mode may be transmitted. In the embodiment, a case of success will be described.

단계(208)에서 셋톱박스는 음성인식 발화어의 인식의 성공에 대한 메시지를 수신하면, 리모컨으로 음성인식 모드의 활성화 명령을 전송할 수 있다.In step 208, when the set-top box receives a message indicating success in recognizing the voice recognition spoken word, it may transmit a command to activate the voice recognition mode to the remote control.

단계(209)에서 리모컨은 음성인식 모드의 활성화 명령에 대응하여 리모컨의 마이크를 활성화할 수 있다.In step 209, the remote control may activate the microphone of the remote control in response to an activation command of the voice recognition mode.

실시예에서, 셋톱박스는 음성인식 모드를 활성화하여 TV 화면 내에 음성인식 모드가 활성화됨을 안내하는 알림이 출력될 수 있다. 예를 들어, "말씀하세요", "음성인식 모드 동작 중" 등의 문구가 TV 화면 내 일측에 출력되도록 제어할 수 있다.In an embodiment, by activating the voice recognition mode, the set-top box may output a notification informing that the voice recognition mode is activated on the TV screen. For example, it is possible to control such that phrases such as "Please tell me" and "Voice recognition mode in operation" are displayed on one side of the TV screen.

리모컨에서 마이크를 활성화하여 사용자로부터 음성 명령을 수신하고, 셋톱박스 및 서버는 음성 명령에 대응하여 동작 및 제어할 수 있다.By activating the microphone from the remote control, a voice command is received from the user, and the set-top box and the server can operate and control in response to the voice command.

실시예에 따른 방법은, 캐스케이드 형식으로 리모컨, 셋톱박스 및 서버에서 순차적으로 음성인식 발화어를 인식할 수 있다. 예를 들어, 리모컨을 통해 인식되는 음성인식 발화어는 셋톱박스로 전송되고, 셋톱박스에서는 SoC에 기초하여 해당 음성인식 발화어에 대해 컨텐츠 음향 및 잡음을 제거하여 인식을 시도할 수 있다. 음성인식 발화어가 셋톱박스에서 인식되는 경우, 컨텐츠 음향 및 잡음이 제거된 최종 음성인식 발화어가 서버로 전송될 수 있다. 서버는 고성능의 클라우드 컴퓨팅 방식으로 전송된 최종 음성인식 발화어에 대해 인식을 시도할 수 있다. 최종 음성인식 발화어가 인식되는 경우, 실시예에 따른 음성인식 모드가 활성화될 수 있다.The method according to the embodiment may sequentially recognize speech recognition speech words in a remote control, a set-top box, and a server in a cascade format. For example, a speech recognition speech word recognized through a remote control is transmitted to a set-top box, and the set-top box may attempt recognition by removing content sound and noise for the speech recognition speech word based on the SoC. When the speech recognition speech word is recognized by the set-top box, the final speech recognition speech word from which the content sound and noise are removed may be transmitted to the server. The server may attempt to recognize the final speech recognition speech transmitted by a high-performance cloud computing method. When the final speech recognition spoken word is recognized, the speech recognition mode according to the embodiment may be activated.

도 3은 일실시예에 있어서, 음성인식 모드의 활성화에 따른 흐름도이다. 실시예에 따른 방법은 도 2의 방법을 통해 또는 버튼의 입력 등을 통해 셋톱박스의 음성인식 모드가 활성화된 실시예에 관한 것이다.3 is a flowchart illustrating activation of a voice recognition mode according to an embodiment. The method according to the embodiment relates to an embodiment in which the voice recognition mode of the set-top box is activated through the method of FIG. 2 or through the input of a button.

단계(301)에서 리모컨은 리모컨의 마이크를 통해 주변 잡음을 감지하고, 해당 잡음을 백그라운드로 제거할 수 있다.In step 301, the remote control detects ambient noise through the microphone of the remote control and removes the noise in the background.

단계(302)에서 리모컨은 음성 명령을 인식할 수 있다.In step 302, the remote control can recognize the voice command.

실시예에서, 음성인식 모드의 활성화에 대응하여 활성화된 마이크를 통해 사용자로부터 입력되는 음성 명령을 인식할 수 있다.In an embodiment, a voice command input from a user through a microphone activated in response to activation of the voice recognition mode may be recognized.

단계(303)에서 리모컨은 획득한 음성 명령의 음성 데이터를 셋톱박스로 전달할 수 있다.In step 303, the remote control may transmit the voice data of the acquired voice command to the set-top box.

단계(304)에서 셋톱박스는 해당 음성 명령의 음성 데이터를 유무선 인터넷을 통해 서버로 전송할 수 있다. 실시예에서, 음성 명령의 음성 데이터에 대해서도 셋톱박스는 컨텐츠 등의 음향 데이터를 제거하여 서버로 전송할 수 있다.In step 304, the set-top box may transmit the voice data of the corresponding voice command to the server through the wired or wireless Internet. In an embodiment, the set-top box may remove sound data such as content and transmit it to the server for voice data of a voice command.

단계(305)에서 서버는 음성 명령을 인식하고 서비스를 검색할 수 있다.In step 305, the server may recognize the voice command and search for a service.

실시예에 따른 서버는 인공지능 서버 또는 인공지능에 연동 가능한 서버에 해당할 수 있다. 예를 들어, 셋톱박스에서 재생하기 위한 컨텐츠의 검색 명령에 대응하여 컨텐츠를 검색하여 제공할 수 있고, 채널 제어에 대한 명령에 대응하여 채널을 변경하는 프로토콜을 제공할 수 있으며, 여타 날씨, 교통, 뉴스 등에 대한 검색 기능을 제공할 수 있다.The server according to the embodiment may correspond to an artificial intelligence server or a server capable of interworking with artificial intelligence. For example, it is possible to search for and provide content in response to a search command for content to be played in a set-top box, provide a protocol for changing a channel in response to a command for channel control, and other weather, traffic, It can provide a search function for news, etc.

단계(306)에서 서버는 인식 결과 및 서비스를 셋톱박스로 전송할 수 있다.In step 306, the server may transmit the recognition result and service to the set-top box.

실시예에서, 서버에서 검색한 결과 또는 검색하여 획득한 음성 명령 등을 전송할 수 있다.In an embodiment, a search result from the server or a voice command obtained by searching may be transmitted.

단계(307)에서 셋톱박스는 수신한 인식 결과를 출력하고, 대응하는 서비스를 제공할 수 있다.In step 307, the set-top box may output the received recognition result and provide a corresponding service.

실시예에서, 음성 명령에 대응하여 검색된 컨텐츠 목록을 제공하거나, 채널 및/또는 음량을 변경할 수 있고, 또는 날씨 검색 결과, 실시간 교통 정보 등을 TV 화면으로 출력하도록 할 수 있다.In an embodiment, a searched content list may be provided in response to a voice command, a channel and/or a volume may be changed, or weather search results, real-time traffic information, and the like may be output on a TV screen.

단계(308)에서 셋톱박스는 음성 명령에 대한 결과의 수신에 대응하여 리모컨으로 음성인식 모드의 종료 명령을 전송할 수 있다.In step 308, the set-top box may transmit an end command of the voice recognition mode to the remote control in response to receiving a result of the voice command.

실시예에서, 셋톱박스는 음성인식 모드의 종료에 대한 안내를 TV 화면 내 일측에 표시하도록 할 수 있다.In an embodiment, the set-top box may display a guide on the end of the voice recognition mode on one side of the TV screen.

단계(309)에서 리모컨은 마이크를 비활성화할 수 있다.In step 309, the remote control may disable the microphone.

실시예에서, 마이크의 비활성화는 음성인식 모드를 위한 마이크의 활성화를 종료하는 것이고, 이후 입력될 음성인식 발화어의 인식을 위해 마이크의 음성인식을 위한 상시 대기(always-on listening) 기능이 실행될 수 있다. 해당 기능의 실행 시, 마이크로 입력되는 잡음을 제거할 수 있다.In an embodiment, the deactivation of the microphone ends the activation of the microphone for the voice recognition mode, and an always-on listening function for voice recognition of the microphone may be executed to recognize the voice recognition spoken word to be input thereafter. have. When this function is executed, noise input to the microphone can be removed.

도 4는 일실시예에 있어서, 리모컨 및 셋톱박스의 블록도이다.4 is a block diagram of a remote control and a set-top box according to an embodiment.

실시예에 따른 리모컨(410)은 메모리(411) 및 프로세서(412)를 포함하여 구성될 수 있으며, 메모리(411)에 음성인식 발화어의 인식을 위한 동작 방법이 프로그래밍되어 프로세서(412)를 통해 실행될 수 있다.The remote control 410 according to the embodiment may include a memory 411 and a processor 412, and an operation method for recognizing speech recognition speech words is programmed in the memory 411, and Can be implemented.

실시예에 따른 셋톱박스(420)는 메모리(411) 및 프로세서(412)를 포함하여 구성될 수 있으며, 메모리(421)에 음성인식 발화어의 인식을 위한 동작 방법이 프로그래밍되어 프로세서(422)를 통해 실행될 수 있다.The set-top box 420 according to the embodiment may be configured to include a memory 411 and a processor 412, and an operation method for recognizing speech recognition speech words is programmed in the memory 421 to provide the processor 422. It can be done through.

리모컨은 주변의 잡음을 제거할 수 있다.The remote control can remove ambient noise.

실시예에서, 리모컨에 포함되는 MCU(Micro Controller Unit)에서 감지되는 주변 잡음을 상시 제거할 수 있다. 주변 잡음은 리모컨의 마이크 등을 통해 입력될 수 있다.In an embodiment, ambient noise detected by a microcontroller unit (MCU) included in the remote control may be removed at all times. Ambient noise may be input through a microphone of a remote control.

실시예에서, 셋톱박스가 동작하여 하나 이상의 컨텐츠가 디스플레이 장치로 출력되는 중에 리모컨은 주변의 잡음을 제거할 수 있다.In an embodiment, the remote control may remove surrounding noise while the set-top box is operating and one or more contents are output to the display device.

리모컨은 음성인식 발화어를 감지할 수 있다.The remote control can detect speech recognition spoken words.

실시예에서, 사용자로부터 입력되는 음성인식 발화어를 감지할 수 있다. 예를 들어, 음성인식 발화어는 미리 설정되거나, 사용자에 의해 설정되어 서버에 기 저장될 수 있다.In an embodiment, a voice recognition spoken word input from a user may be detected. For example, the speech recognition spoken word may be preset or may be set by a user and stored in a server.

실시예에서, 셋톱박스가 동작하여 적어도 하나 이상의 컨텐츠가 디스플레이 장치로 출력되는 중에 음성인식 발화어를 감지할 수 있다. 예를 들어, 셋톱박스가 OFF 상태인 경우, 리모컨은 음성인식 발화어를 감지하지 않을 수도 있다.In an embodiment, while the set-top box is operating and at least one content is output to the display device, a speech recognition speech word may be detected. For example, when the set-top box is in the OFF state, the remote control may not detect speech recognition speech.

리모컨은 내장된 MCU를 통해 인식될 수 있다. 리모컨은 인식된 음성인식 발화어에 대해 음성 데이터를 생성할 수 있다. 해당 음성 데이터는 리모컨에서 감지되는 잡음이 제거된 음성 데이터에 해당할 수 있다.The remote control can be recognized through the built-in MCU. The remote control may generate voice data for the recognized voice recognition spoken words. The voice data may correspond to voice data from which noise detected by the remote control has been removed.

리모컨(410)은 음성인식 발화어의 음성데이터를 셋톱박스(420)로 전달할 수 있다.The remote control 410 may transmit voice data of a voice recognition spoken word to the set-top box 420.

실시예에서, 리모컨(410)은 셋톱박스(420)의 ON/OFF 상태와 상관없이 음성인식 발화어의 음성 데이터를 전송하고, 셋톱박스(420)는 ON/OFF 상태에 기초하여 해당 음성데이터의 수신 여부가 결정될 수도 있다.In an embodiment, the remote control 410 transmits the voice data of the voice recognition spoken word regardless of the ON/OFF state of the set-top box 420, and the set-top box 420 transmits the voice data of the corresponding voice data based on the ON/OFF state. Whether to receive or not may be determined.

셋톱박스(420)는 컨텐츠와 관련된 음향 데이터를 제거할 수 있다.The set-top box 420 may remove sound data related to content.

실시예에서, 셋톱박스(420)는 TV 화면으로 출력되는 컨텐츠에 대한 정보를 쉽게 획득할 수 있다. 셋톱박스(420)에 내장된 SoC(System on Chip)에서 리모컨(410)으로부터 수신된 리모컨(410)의 주변 잡음을 제거한 음성 데이터에 대해서 셋톱박스(420)에서 제공되는 컨텐츠의 음향 데이터를 제거할 수 있다.In an embodiment, the set-top box 420 may easily obtain information on content displayed on a TV screen. The sound data of the contents provided from the set-top box 420 can be removed for the voice data from which the ambient noise of the remote control 410 received from the remote control 410 has been removed from the SoC (System on Chip) built into the set-top box 420. I can.

예를 들어, 사용자는 현재 TV를 통해 컨텐츠를 시청 중이므로, TV를 통해 출력될 음향 데이터를 삭제하는 동작은 수신 받은 음성인식 발화어의 음향 데이터에 대한 인식률을 높이는 데에 효과적일 수 있다.For example, since the user is currently watching content through the TV, the operation of deleting sound data to be output through the TV may be effective in increasing the recognition rate of the sound data of the received speech recognition spoken word.

셋톱박스(420)는 음향 데이터가 제거된 음성인식 발화어의 음성 데이터에서 잡음을 제거한 최종 음성인식 발화어를 생성할 수 있다.The set-top box 420 may generate a final speech recognition speech word by removing noise from speech data of the speech recognition speech word from which the audio data has been removed.

상기와 같이 리모컨(410) 및 셋톱박스(420)에 걸쳐 2회에 걸쳐 잡음을 제거함으로써 음성인식 발화어의 인식률을 높일 수 있다.As described above, noise is removed twice over the remote control 410 and the set-top box 420, thereby increasing the recognition rate of speech recognition spoken words.

셋톱박스(420)는 최종 음성인식 발화어를 서버로 전송할 수 있다. 최종 음성인식 발화어의 전송 시, 셋톱박스(420)에 연결되는 유무선을 통해 서버로 전송될 수 있다.The set-top box 420 may transmit the final speech recognition spoken word to the server. When transmitting the final voice recognition spoken word, it may be transmitted to the server through wired or wireless connected to the set-top box 420.

서버는 최종 음성인식 발화어를 인식할 수 있다. 실시예에서 사용자에 의해서 또는 셋톱박스(420)에 미리 설정된 음성인식 발화어에 대한 정보가 서버에 기저장될 수 있다. 서버는 고성능의 클라우드 컴퓨팅을 이용하여 기 저장된 음성인식 발화어와 수신된 최종 음성인시 발화어의 음성 데이터를 비교하여 인식 여부를 결정할 수 있다. 예를 들어, 일치율이 일정 수준 이상인 경우에 대해서 음성인식 발화어의 인식이 성공한 것으로 결정할 수 있다.The server can recognize the final speech recognition spoken word. In an embodiment, information on the voice recognition spoken word preset by the user or in the set-top box 420 may be previously stored in the server. The server may determine whether to recognize the speech by comparing the previously stored speech recognition speech word with the speech data of the speech speech received at the time of the final speech recognition using high-performance cloud computing. For example, it may be determined that the recognition of the speech recognition spoken word is successful when the matching rate is higher than a certain level.

실시예에서, 서버에서 음성인식 발화어의 인식이 성공하는 경우, 즉 음성인식 발화어가 정상적으로 입력, 전송되어 처리되는 경우, 리모컨 및 셋톱박스는 음성인식을 위한 음성인식 모드로 동작할 수 있다. 서버는 최종 음성인식 발화어에 대한 인식 성공 여부를 셋톱박스(420)로 전달할 수 있다. 실시예에서는, 성공한 경우에 대해 설명하도록 한다.In an embodiment, when the server successfully recognizes the speech recognition speech, that is, when the speech recognition speech is normally input, transmitted and processed, the remote control and the set-top box may operate in a speech recognition mode for speech recognition. The server may transmit to the set-top box 420 whether or not the recognition of the final speech recognition spoken word is successful. In the embodiment, a case of success will be described.

셋톱박스(420)는 음성인식 발화어의 인식의 성공에 대한 메시지를 수신하면, 리모컨(410)으로 음성인식 모드의 활성화 명령을 전송할 수 있다.The set-top box 420 may transmit a command to activate the voice recognition mode to the remote control 410 upon receiving a message indicating success in recognizing the voice recognition spoken word.

리모컨(410)은 음성인식 모드의 활성화 명령에 대응하여 리모컨의 마이크를 활성화할 수 있다.The remote control 410 may activate the microphone of the remote control in response to an activation command of the voice recognition mode.

실시예에서, 셋톱박스(420)는 음성인식 모드를 활성화하여 TV 화면 내에 음성인식 모드가 활성화됨을 안내하는 알림이 출력될 수 있다. 예를 들어, "말씀하세요", "음성인식 모드 동작 중" 등의 문구가 TV 화면 내 일측에 출력되도록 제어할 수 있다.In an embodiment, the set-top box 420 may activate the voice recognition mode to output a notification informing that the voice recognition mode is activated on the TV screen. For example, it is possible to control such that phrases such as "Please tell me" and "Voice recognition mode in operation" are displayed on one side of the TV screen.

리모컨(410)에서 마이크를 활성화하여 사용자로부터 음성 명령을 수신하고, 셋톱박스 및 서버는 음성 명령에 대응하여 동작할 수 있다.The remote control 410 activates the microphone to receive a voice command from the user, and the set-top box and the server may operate in response to the voice command.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The apparatus described above may be implemented as a hardware component, a software component, and/or a combination of a hardware component and a software component. For example, the devices and components described in the embodiments are, for example, a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable gate array (FPGA). , A programmable logic unit (PLU), a microprocessor, or any other device capable of executing and responding to instructions, such as one or more general purpose computers or special purpose computers. The processing device may execute an operating system (OS) and one or more software applications executed on the operating system. In addition, the processing device may access, store, manipulate, process, and generate data in response to the execution of software. For the convenience of understanding, although it is sometimes described that one processing device is used, one of ordinary skill in the art, the processing device is a plurality of processing elements and/or a plurality of types of processing elements. It can be seen that it may include. For example, the processing device may include a plurality of processors or one processor and one controller. In addition, other processing configurations are possible, such as a parallel processor.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.The software may include a computer program, code, instructions, or a combination of one or more of these, configuring the processing unit to behave as desired or processed independently or collectively. You can command the device. Software and/or data may be interpreted by a processing device or to provide instructions or data to a processing device, of any type of machine, component, physical device, virtual equipment, computer storage medium or device. , Or may be permanently or temporarily embodyed in a transmitted signal wave. The software may be distributed over networked computer systems and stored or executed in a distributed manner. Software and data may be stored on one or more computer-readable recording media.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The method according to the embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded in a computer-readable medium. The computer-readable medium may include program instructions, data files, data structures, and the like alone or in combination. The program instructions recorded on the medium may be specially designed and configured for the embodiment, or may be known and usable to those skilled in computer software. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic media such as floptical disks. -A hardware device specially configured to store and execute program instructions such as magneto-optical media, and ROM, RAM, flash memory, and the like. Examples of the program instructions include not only machine language codes such as those produced by a compiler, but also high-level language codes that can be executed by a computer using an interpreter or the like. The hardware device described above may be configured to operate as one or more software modules to perform the operation of the embodiment, and vice versa.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.As described above, although the embodiments have been described by the limited embodiments and drawings, various modifications and variations are possible from the above description by those of ordinary skill in the art. For example, the described techniques are performed in a different order from the described method, and/or components such as a system, structure, device, circuit, etc. described are combined or combined in a form different from the described method, or other components Alternatively, even if substituted or substituted by an equivalent, an appropriate result can be achieved.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and claims and equivalents fall within the scope of the claims to be described later.

Claims (17)

리모컨의 마이크를 통해 수신되는 신호로부터 주변 잡음을 인식하여 제거하는 단계;
상기 주변 잡음이 제거된 신호로부터 사용자로부터 입력되는 음성인식 발화어를 감지하는 단계; 및
상기 음성인식 발화어의 음성 데이터를 셋톱박스로 전달하는 단계
를 포함하고,
상기 음성 인식 발화어는 상기 셋톱박스로 전달된 음성 데이터로부터 상기 셋톱박스를 통해 출력 중인 음향의 음향 데이터를 제거함으로써 인식되는,
음성인식 발화어 인식을 위한 리모컨의 동작 방법.
Recognizing and removing ambient noise from a signal received through a microphone of a remote control;
Detecting a speech recognition speech input from a user from the signal from which the ambient noise has been removed; And
Transferring the voice data of the voice recognition spoken word to a set-top box
Including,
The speech recognition spoken word is recognized by removing sound data of the sound being output through the set-top box from the speech data transmitted to the set-top box,
How to operate the remote control for speech recognition speech recognition.
제1항에 있어서,
상기 음성인식 발화어의 음성 데이터를 셋톱박스로 전달하는 단계는,
상기 음성인식 발화어에서 상기 주변 잡음이 제거된 음성 데이터를 전달하는 단계
를 포함하는,
음성인식 발화어 인식을 위한 리모컨의 동작 방법.
The method of claim 1,
The step of transferring the voice data of the voice recognition spoken word to a set-top box,
Delivering speech data from which the ambient noise has been removed from the speech recognition spoken word
Containing,
How to operate the remote control for speech recognition speech recognition.
제1항에 있어서,
상기 음성인식 발화어는 상기 셋톱박스를 통해,
상기 음성 데이터에서 상기 출력 중인 음향의 음향 데이터가 제거되는 단계; 및
상기 음향 데이터가 제거된 음성 데이터의 잡음이 제거되는 단계
를 통해 최종 음성인식 발화어로 인식되는,
음성인식 발화어 인식을 위한 리모컨의 동작 방법.
The method of claim 1,
The voice recognition spoken word through the set-top box,
Removing sound data of the sound being output from the sound data; And
Removing noise from the audio data from which the audio data has been removed
Is recognized as the final speech recognition spoken language through
How to operate the remote control for speech recognition speech recognition.
제1항에 있어서,
상기 음성인식 발화어가 인식되면, 상기 리모컨은 상기 셋톱박스로부터 음성 인식 모드의 활성화 명령을 수신하는 단계; 및
상기 활성화 명령에 대응하여 음성 인식 모드를 활성화하는 단계
를 더 포함하는,
음성인식 발화어 인식을 위한 리모컨의 동작 방법.
The method of claim 1,
When the voice recognition spoken word is recognized, the remote control receiving a voice recognition mode activation command from the set-top box; And
Activating a voice recognition mode in response to the activation command
Further comprising,
How to operate the remote control for speech recognition speech recognition.
리모컨으로부터 음성인식 발화어의 음성 데이터를 수신하는 단계;
상기 음성 데이터에서 셋톱박스를 통해 출력 중인 음향의 음향 데이터를 제거하는 단계; 및
상기 음향 데이터가 제거된 최종 음성인식 발화어의 음성 데이터를 서버로 전송하는 단계
를 포함하고,
상기 서버에서 상기 최종 음성인식 발화어가 인식되는,
음성인식 발화어 인식을 위한 셋톱박스의 동작 방법.
Receiving voice data of voice recognition spoken words from a remote control;
Removing sound data of sound being output through a set-top box from the sound data; And
Transmitting voice data of the final voice recognition spoken word from which the sound data has been removed to a server
Including,
The final speech recognition spoken word is recognized by the server,
How to operate a set-top box for speech recognition speech recognition.
제5항에 있어서,
상기 리모컨으로부터 수신된 음성인식 발화어의 음성 데이터는,
상기 리모컨의 마이크를 통해 감지되는 주변 잡음이 제거된 음성인식 발화어의 음성 데이터인,
음성인식 발화어 인식을 위한 셋톱박스의 동작 방법.
The method of claim 5,
The voice data of the voice recognition spoken word received from the remote control,
Voice data of speech recognition speech words from which ambient noise detected through the microphone of the remote control has been removed,
How to operate a set-top box for speech recognition speech recognition.
제5항에 있어서,
상기 최종 음성인식 발화어의 음성 데이터는, 상기 서버에 미리 설정되어 있는 설정 음성인식 발화어의 음성 데이터와 비교되고,
상기 최종 음성인식 발화어 및 상기 설정 음성인식 발화어의 일치 여부에 따라 인식 여부가 결정되는,
음성인식 발화어 인식을 위한 셋톱박스의 동작 방법.
The method of claim 5,
The voice data of the final voice recognition spoken word is compared with the voice data of the set voice recognition spoken word preset in the server,
Recognition is determined according to whether the final speech recognition spoken word and the set speech recognition spoken word match,
How to operate a set-top box for speech recognition speech recognition.
제5항에 있어서,
상기 서버로부터 상기 최종 음성인식 발화어의 인식 여부를 수신하는 단계; 및
상기 최종 음성인식 발화어가 인식된 경우, 상기 리모컨으로 상기 리모컨의 음성 인식 모드의 활성화 명령을 전송하는 단계
를 더 포함하는,
음성인식 발화어 인식을 위한 셋톱박스의 동작 방법.
The method of claim 5,
Receiving whether or not the final voice recognition spoken word is recognized from the server; And
When the final voice recognition spoken word is recognized, transmitting a command to activate the voice recognition mode of the remote control to the remote control
Further comprising,
How to operate a set-top box for speech recognition speech recognition.
하드웨어와 결합되어 제1항 내지 제8항 중 어느 하나의 항의 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램.
A computer program combined with hardware and stored in a medium to execute the method of any one of claims 1 to 8.
음성인식 발화어 인식을 위한 리모컨에 있어서,
하나 이상의 프로세서;
메모리; 및
상기 메모리에 저장되어 있으며 상기 하나 이상의 프로세서에 의하여 실행되도록 구성되는 하나 이상의 프로그램을 포함하고,
상기 프로그램은,
리모컨의 마이크를 통해 수신되는 신호로부터 주변 잡음을 인식하여 제거하는 단계;
상기 주변 잡음이 제거된 신호로부터 사용자로부터 입력되는 음성인식 발화어를 감지하는 단계; 및
상기 음성인식 발화어의 음성 데이터를 셋톱박스로 전달하는 단계
를 수행하고,
상기 음성 인식 발화어는 상기 셋톱박스로 전달된 음성 데이터로부터 상기 셋톱박스를 통해 출력 중인 음향의 음향 데이터를 제거함으로써 인식되는,
리모컨.
In the remote control for speech recognition spoken word recognition,
One or more processors;
Memory; And
At least one program stored in the memory and configured to be executed by the at least one processor,
The above program,
Recognizing and removing ambient noise from a signal received through a microphone of a remote control;
Detecting a speech recognition speech input from a user from the signal from which the ambient noise has been removed; And
Transferring the voice data of the voice recognition spoken word to a set-top box
To do,
The speech recognition spoken word is recognized by removing the sound data of the sound being output through the set-top box from the speech data transmitted to the set-top box,
remote.
제10에 있어서,
상기 음성인식 발화어의 음성 데이터를 셋톱박스로 전달하는 단계에서,
상기 음성인식 발화어에서 주변 잡음이 제거된 음성 데이터를 전달하는 단계
를 수행하는,
리모컨.
The method of claim 10,
In the step of transferring the voice data of the voice recognition spoken word to a set-top box,
Delivering speech data from which ambient noise has been removed from the speech recognition spoken word
To do,
remote.
제10항에 있어서,
상기 음성인식 발화어는 상기 셋톱박스를 통해, 상기 음성 데이터에서 상기 출력 중인 음향의 음향 데이터가 제거되고, 상기 음향 데이터가 제거된 음성 데이터의 잡음이 제거되어 최종 음성인식 발화어로 인식되는,
리모컨.
The method of claim 10,
The speech recognition speech word is recognized as a final speech recognition speech word by removing sound data of the sound being output from the speech data through the set-top box, and removing noise from the speech data from which the sound data has been removed,
remote.
제10항에 있어서,
상기 음성인식 발화어가 인식되면, 상기 리모컨은 상기 셋톱박스로부터 음성 인식 모드의 활성화 명령을 수신하는 단계; 및
상기 활성화 명령에 대응하여 음성 인식 모드를 활성화하는 단계
를 더 수행하는,
리모컨.
The method of claim 10,
When the voice recognition spoken word is recognized, the remote control receiving a voice recognition mode activation command from the set-top box; And
Activating a voice recognition mode in response to the activation command
To do more,
remote.
음성인식 발화어 인식을 위한 셋톱박스에 있어서,
하나 이상의 프로세서;
메모리; 및
상기 메모리에 저장되어 있으며 상기 하나 이상의 프로세서에 의하여 실행되도록 구성되는 하나 이상의 프로그램을 포함하고,
상기 프로그램은,
리모컨으로부터 음성인식 발화어의 음성 데이터를 수신하는 단계;
상기 음성 데이터에서 셋톱박스를 통해 출력 중인 음향의 음향 데이터를 제거하는 단계; 및
상기 음향 데이터가 제거된 최종 음성인식 발화어의 음성 데이터를 서버로 전송하는 단계
를 수행하고,
상기 서버에서 상기 최종 음성인식 발화어가 인식되는,
셋톱박스.
In a set-top box for speech recognition speech recognition,
One or more processors;
Memory; And
At least one program stored in the memory and configured to be executed by the at least one processor,
The above program,
Receiving voice data of voice recognition spoken words from a remote control;
Removing sound data of sound being output through a set-top box from the sound data; And
Transmitting voice data of the final voice recognition spoken word from which the sound data has been removed to a server
And
The final speech recognition spoken word is recognized by the server,
Set-top box.
제14항에 있어서,
상기 리모컨으로부터 수신된 음성인식 발화어의 음성 데이터는,
상기 리모컨의 마이크를 통해 감지되는 주변 잡음이 제거된 음성인식 발화어의 음성 데이터인,
셋톱박스.
The method of claim 14,
The voice data of the voice recognition spoken word received from the remote control,
Voice data of speech recognition speech words from which ambient noise detected through the microphone of the remote control has been removed,
Set-top box.
제14항에 있어서,
상기 최종 음성인식 발화어는, 상기 서버에 미리 설정되어 있는 설정 음성인식 발화어와 비교되고,
상기 최종 음성인식 발화어 및 상기 설정 음성인식 발화어의 일치 여부에 따라 인식 성공 여부가 결정되는,
셋톱박스.
The method of claim 14,
The final speech recognition speech word is compared with a set speech recognition speech language preset in the server,
Whether or not recognition is successful is determined according to whether the final speech recognition speech word and the set speech recognition speech word match,
Set-top box.
제14항에 있어서,
상기 서버로부터 상기 최종 음성인식 발화어의 인식 여부를 수신하는 단계; 및
상기 최종 음성인식 발화어가 인식된 경우, 상기 리모컨으로 상기 리모컨의 음성 인식 모드의 활성화 명령을 전송하는 단계
를 더 수행하는,
셋톱박스.
The method of claim 14,
Receiving whether or not the final voice recognition spoken word is recognized from the server; And
When the final voice recognition spoken word is recognized, transmitting a command to activate the voice recognition mode of the remote control to the remote control
To do more,
Set-top box.
KR1020190053530A 2019-05-08 2019-05-08 Remote control And Set-top Box Operating Method For Recognition Of Voice Recognition Call-word KR20200129315A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190053530A KR20200129315A (en) 2019-05-08 2019-05-08 Remote control And Set-top Box Operating Method For Recognition Of Voice Recognition Call-word

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190053530A KR20200129315A (en) 2019-05-08 2019-05-08 Remote control And Set-top Box Operating Method For Recognition Of Voice Recognition Call-word

Publications (1)

Publication Number Publication Date
KR20200129315A true KR20200129315A (en) 2020-11-18

Family

ID=73697918

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190053530A KR20200129315A (en) 2019-05-08 2019-05-08 Remote control And Set-top Box Operating Method For Recognition Of Voice Recognition Call-word

Country Status (1)

Country Link
KR (1) KR20200129315A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024053762A1 (en) * 2022-09-08 2024-03-14 엘지전자 주식회사 Speech recognition device and operating method thereof

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024053762A1 (en) * 2022-09-08 2024-03-14 엘지전자 주식회사 Speech recognition device and operating method thereof

Similar Documents

Publication Publication Date Title
US11626110B2 (en) Preventing unwanted activation of a device
US20230019649A1 (en) Post-speech recognition request surplus detection and prevention
EP3734596B1 (en) Determining target device based on speech input of user and controlling target device
US10937423B2 (en) Smart device function guiding method and system
KR102429436B1 (en) Server for seleting a target device according to a voice input, and controlling the selected target device, and method for operating the same
US9548053B1 (en) Audible command filtering
US9947333B1 (en) Voice interaction architecture with intelligent background noise cancellation
EP3721605A1 (en) Streaming radio with personalized content integration
WO2017084185A1 (en) Intelligent terminal control method and system based on semantic analysis, and intelligent terminal
CN111670471A (en) Learning offline voice commands based on use of online voice commands
US20180211668A1 (en) Reduced latency speech recognition system using multiple recognizers
KR20140089863A (en) Display apparatus, Method for controlling display apparatus and Method for controlling display apparatus in Voice recognition system thereof
TW202025139A (en) Voice interaction method, device and system
US11763819B1 (en) Audio encryption
CN112767916A (en) Voice interaction method, device, equipment, medium and product of intelligent voice equipment
KR20200129315A (en) Remote control And Set-top Box Operating Method For Recognition Of Voice Recognition Call-word
KR101775532B1 (en) Multimedia device for providing voice recognition service by using at least two of database and the method for controlling the same
US10923122B1 (en) Pausing automatic speech recognition
KR20210078682A (en) Electronic apparatus and method of controlling the same
US20190121610A1 (en) User Interface For Hands Free Interaction
CN112786031B (en) Man-machine conversation method and system
KR102089593B1 (en) Display apparatus, Method for controlling display apparatus and Method for controlling display apparatus in Voice recognition system thereof
US11335361B2 (en) Method and apparatus for providing noise suppression to an intelligent personal assistant
US20230080895A1 (en) Dynamic operation of a voice controlled device
CN113674759A (en) Fixed sound source identification method and device

Legal Events

Date Code Title Description
E601 Decision to refuse application