KR20160110085A - Speech recognition system and method thereof - Google Patents
Speech recognition system and method thereof Download PDFInfo
- Publication number
- KR20160110085A KR20160110085A KR1020160011838A KR20160011838A KR20160110085A KR 20160110085 A KR20160110085 A KR 20160110085A KR 1020160011838 A KR1020160011838 A KR 1020160011838A KR 20160011838 A KR20160011838 A KR 20160011838A KR 20160110085 A KR20160110085 A KR 20160110085A
- Authority
- KR
- South Korea
- Prior art keywords
- keyword
- wake
- user
- model
- speech recognition
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000004891 communication Methods 0.000 claims description 63
- 238000001514 detection method Methods 0.000 claims description 45
- 230000005236 sound signal Effects 0.000 claims description 19
- 230000007613 environmental effect Effects 0.000 claims description 17
- 230000008569 process Effects 0.000 abstract description 10
- 238000005516 engineering process Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 23
- 238000010586 diagram Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- 238000010295 mobile communication Methods 0.000 description 4
- 230000001012 protector Effects 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005057 refrigeration Methods 0.000 description 2
- 230000002618 waking effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000017531 blood circulation Effects 0.000 description 1
- 230000036772 blood pressure Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 206010012601 diabetes mellitus Diseases 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000003205 fragrance Substances 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
Abstract
Description
본 개시는 음성 인식 시스템 및 방법에 관한 것으로서, 보다 상세하게는, 웨이크 업(Wake up) 키워드에 기초한 음성 인식 시스템 및 방법에 관한 것이다.The present disclosure relates to a speech recognition system and method, and more particularly, to a speech recognition system and method based on a wake up keyword.
디바이스들이 스마트해지면서, 사용자의 음성 신호를 이용하여 디바이스의 기능을 실행시킬 수 있는 음성 인식 기능이 디바이스에 탑재되고 있다. As the devices become smart, the device is equipped with a voice recognition function capable of executing the function of the device by using the user's voice signal.
디바이스에 탑재된 음성 인식 기능을 사용하기 위하여, 디바이스의 음성 인식 기능을 웨이크업 시켜야 한다. 기존의 음성 인식 기능은 고정 웨이크업 키워드를 이용하여 웨이크업 되고 있다. 이로 인하여 동일한 장소에 동일한 음성 인식 기능을 탑재한 복수의 디바이스가 있을 때, 원하지 않는 디바이스의 음성 인식 기능이 웨이크업 될 수 있다. In order to use the voice recognition function mounted on the device, the voice recognition function of the device must be woken up. The existing speech recognition function is being woken up using the fixed wakeup keyword. Thus, when there are a plurality of devices equipped with the same voice recognition function in the same place, the voice recognition function of the unwanted device can be woken up.
또한, 기존의 음성 인식 기능은 웨이크업 키워드와 음성 명령을 나누어 처리하고 있다. 이에 따라 사용자는 웨이크업 키워드를 입력한 후, 디바이스의 음성 인식 기능이 웨이크업 되면, 음성 명령을 입력하여야 한다. 만약 사용자가 웨이크업 키워드와 음성 명령을 연속적으로 입력할 경우에, 기존의 음성 인식 기능은 웨이크업 되지 않거나 웨이크업 된다 하더라고 입력된 음성 명령에 대한 인식 오류가 발생될 수 있다. In addition, the existing speech recognition function is divided into a wakeup keyword and a voice command. Accordingly, after inputting the wake-up keyword, the user must input a voice command when the voice recognition function of the device wakes up. If the user continuously inputs the wakeup keyword and the voice command, the conventional voice recognition function may not be woken up or wake up, but a recognition error may occur for the inputted voice command.
따라서, 보다 편리하고, 정확하게 디바이스의 음성 인식 기능을 웨이크업 시키면서 보다 정확하게 음성 명령을 인식할 수 있는 기술이 요구되고 있다. Accordingly, there is a need for a technique that can more accurately and accurately recognize a voice command while waking up the voice recognition function of the device.
전술한 배경기술은 발명자가 본 개시의 도출을 위해 보유하고 있었거나, 본 개시의 도출 과정에서 습득한 정보로서, 반드시 본 개시의 출원 전에 일반 공중에게 공개된 공지기술이라 할 수는 없다.The above-described background information is information that the inventor holds for the purpose of deriving the present disclosure or obtained in the process of deriving the present disclosure and is not necessarily a known technology disclosed to the general public prior to the filing of the present disclosure.
본 개시의 실시 예들은, 개인화된 웨이크업 키워드와 음성 명령을 연속적으로 인식함으로써, 보다 편리하고 정확한 음성 인식 기능을 제공하기 위한 것이다.Embodiments of the present disclosure are intended to provide a more convenient and accurate speech recognition function by continuously recognizing personalized wakeup keywords and voice commands.
또한, 본 개시의 실시 예들은, 개인화된 웨이크업 키워드를 이용하여 보다 효과적으로 웨이크업 되는 음성 인식 기능을 제공하기 위한 것이다. Embodiments of the present disclosure are also intended to provide a speech recognition function that is more effectively woken up using personalized wakeup keywords.
또한, 본 개시의 실시 예들은, 디바이스 기반의 환경 정보에 따른 개인화 웨이크업 키워드를 이용하여 보다 효과적으로 웨이크업 되는 음성 인식 기능을 제공하기 위한 것이다. Embodiments of the present disclosure are also intended to provide a speech recognition function that is more effectively woken up using personalized wakeup keywords according to device-based environmental information.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 개시의 제 1 측면은, 디바이스에 있어서, 사용자의 음성 신호를 수신하는 오디오 입력부; 웨이크업 키워드 모델을 저장하는 메모리; 음성 인식 서버와 통신할 수 있는 통신부; 및 상기 오디오 입력부를 통해 상기 사용자의 음성 신호가 수신됨에 따라 상기 웨이크업 키워드 모델을 이용하여 상기 사용자의 음성 신호로부터 웨이크업 키워드를 검출하고, 상기 웨이크업 키워드에 대한 검출 여부 신호와 상기 사용자의 음성 신호를 상기 통신부를 통해 상기 음성 인식 서버로 전송하고, 상기 통신부를 통해 상기 음성 인식 서버로부터 음성 인식 결과를 수신하고, 및 상기 음성 인식 결과에 따라 상기 디바이스를 제어하는 프로세서를 포함하는 디바이스를 제공할 수 있다. As a technical means for achieving the above-mentioned technical object, a first aspect of the present disclosure relates to a device, comprising: an audio input for receiving a user's voice signal; A memory for storing a wake-up keyword model; A communication unit capable of communicating with a speech recognition server; And a controller for detecting a wake-up keyword from the user's voice signal using the wake-up keyword model as the voice signal of the user is received through the audio input unit, A processor for transmitting a signal to the speech recognition server via the communication unit, receiving a speech recognition result from the speech recognition server via the communication unit, and controlling the device in accordance with the speech recognition result .
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 개시의 제 2 측면은, 음성 인식 서버에 있어서, 적어도 하나의 디바이스와 통신할 수 있는 통신부; 웨이크업 키워드 모델과 음성 인식 모델을 저장하는 메모리; 및 상기 통신부를 통해 상기 적어도 하나의 디바이스 중 하나의 디바이스로부터 웨이크업 키워드에 대한 검출 여부 신호와 사용자의 음성 신호가 수신됨에 따라 상기 웨이크업 키워드 모델이 결합된 음성 인식 모델을 설정하고, 상기 설정된 음성 인식 모델을 이용하여 상기 사용자의 음성 신호를 인식하고, 상기 사용자의 음성 신호에 대한 인식 결과로부터 상기 웨이크업 키워드를 제거하고, 상기 웨이크업 키워드가 제거된 인식 결과를 상기 통신부를 통해 상기 디바이스로 전송하는 프로세서를 포함하는 음성 인식 서버를 제공할 수 있다. As a technical means for achieving the above technical object, a second aspect of the present disclosure is a speech recognition server comprising: a communication unit capable of communicating with at least one device; A memory for storing a wake-up keyword model and a speech recognition model; And a speech recognition model in which the wake-up keyword model is combined with a detection signal for a wake-up keyword and a voice signal of a user from a device of one of the at least one device through the communication unit, Recognizing the voice signal of the user using the recognition model, removing the wake-up keyword from the recognition result of the user's voice signal, transmitting the recognition result from which the wake-up keyword is removed to the device through the communication unit A voice recognition server, and a voice recognition server.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 개시의 제 3 측면은, 사용자의 음성 신호로부터 웨이크업 키워드를 검출하는 디바이스; 상기 디바이스로부터 상기 웨이크업 키워드에 대한 검출 여부 신호와 상기 사용자의 음성 신호가 수신됨에 따라 웨이크업 키워드 모델이 결합된 음성 인식 모델을 설정하고, 상기 설정된 음성 인식 모델을 이용하여 상기 사용자의 음성 신호를 인식하고, 인식 결과를 상기 디바이스로 전송하는 음성 인식 서버를 포함하는 음성 인식 시스템을 제공할 수 있다.As a technical means for achieving the above-mentioned technical object, a third aspect of the present disclosure relates to a device for detecting a wake-up keyword from a voice signal of a user; And a voice recognition model in which a wake-up keyword model is combined with a detection signal for the wake-up keyword and a voice signal of the user are received from the device, And a voice recognition server for recognizing the voice recognition result and transmitting the recognition result to the device.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 개시의 제 4 측면은, 사용자의 음성 신호가 수신됨에 따라 웨이크업 키워드 모델을 이용하여 상기 사용자의 음성 신호로부터 웨이크업 키워드를 검출하는 단계; 상기 웨이크업 키워드에 대한 검출 여부 신호와 상기 사용자의 음성 신호를 음성 인식 서버로 전송하는 단계; 상기 음성 인식 서버로부터 상기 사용자의 음성 신호에 대한 인식 결과를 수신하는 단계; 및 상기 인식 결과에 따라 상기 디바이스를 제어하는 단계를 포함하는 디바이스에서의 음성 인식 방법을 제공할 수 있다. As a technical means for achieving the above-mentioned technical problem, a fourth aspect of the present disclosure is a method for detecting a wake-up keyword from a voice signal of a user using a wake-up keyword model as a voice signal of a user is received, Transmitting a detection signal for the wake-up keyword and the voice signal of the user to a voice recognition server; Receiving a recognition result of the user's voice signal from the voice recognition server; And controlling the device in accordance with the recognition result.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 개시의 제 5 측면은, 디바이스로부터 웨이크업 키워드에 대한 검출 여부 신호와 사용자의 음성 신호를 수신하는 단계; 상기 웨이크업 키워드에 대한 검출 여부 신호에 따라 음성 인식 모델을 설정하는 단계; 상기 음성 인식 모델을 이용하여 상기 사용자의 음성 신호를 인식하는 단계; 상기 사용자의 음성 신호에 대한 인식 결과로부터 상기 웨이크업 키워드를 제거하는 단계; 및 상기 웨이크업 키워드가 제거된 상기 사용자의 음성 신호에 대한 인식 결과를 상기 디바이스로 전송하는 단계를 포함하는 음성 인식 서버에서의 음성 인식 방법을 제공할 수 있다. As a technical means for achieving the above-mentioned technical object, a fifth aspect of the present disclosure is a method comprising: receiving a detection signal and a voice signal of a user for a wake-up keyword from a device; Setting a speech recognition model according to a detection signal of the wakeup keyword; Recognizing the user's speech signal using the speech recognition model; Removing the wake-up keyword from recognition results of the user's voice signal; And transmitting the recognition result of the user's voice signal from which the wake-up keyword is removed to the device.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 개시의 제 6 측면은, 상기 디바이스를 통해 사용자의 음성 신호가 수신됨에 따라 상기 웨이크업 키워드 모델을 이용하여 상기 사용자의 음성 신호로부터 상기 웨이크업 키워드를 검출하는 단계; 상기 웨이크업 키워드에 대한 검출 여부 신호와 상기 사용자의 음성 신호를 상기 디바이스로부터 상기 음성 인식 서버로 전송하는 단계; 상기 음성 인식 서버에서, 상기 웨이크업 키워드에 대한 검출 여부 신호에 따라 음성 인식 모델을 설정하는 단계; 상기 음성 인식 서버에서, 상기 설정된 음성 인식 모델을 이용하여 상기 사용자의 음성 신호를 인식하는 단계; 상기 음성 인식 서버에서, 상기 사용자의 음성 신호에 대한 인식 결과로부터 상기 웨이크업 키워드를 제거하는 단계; 상기 웨이크업 키워드가 제거된 상기 사용자의 음성 신호에 대한 인식 결과를 상기 음성 인식 서버로부터 상기 디바이스로 전송하는 단계; 및 상기 디바이스에서, 상기 수신된 인식 결과에 따라 디바이스를 제어하는 단계를 포함하는 음성 인식 시스템에서 음성 인식 방법을 제공할 수 있다. As a technical means to achieve the above-mentioned technical problem, a sixth aspect of the present disclosure is a method for detecting a wake-up keyword from a user's voice signal using the wake-up keyword model as a user's voice signal is received via the device, ; Transmitting a detection signal for the wake-up keyword and the user's voice signal from the device to the voice recognition server; Setting a speech recognition model in the speech recognition server in accordance with a detection signal of the wakeup keyword; Recognizing the speech signal of the user using the speech recognition model in the speech recognition server; Removing, at the speech recognition server, the wakeup keyword from recognition results of the user's speech signal; Transmitting a recognition result of the user's voice signal from which the wake-up keyword is removed to the device from the voice recognition server; And controlling, in the device, a device according to the received recognition result.
본 개시의 제 7 측면은, 제 5 측면의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공할 수 있다.A seventh aspect of the present disclosure can provide a computer-readable recording medium having recorded thereon a program for causing a computer to execute the method of the fifth aspect.
본 개시의 제 8 측면은, 제 6 측면의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공할 수 있다.The eighth aspect of the present disclosure can provide a computer-readable recording medium on which a program for causing a computer to execute the method of the sixth aspect is recorded.
도 1은 일부 실시 예에 따른 음성 인식 시스템을 설명하는 도면이다.
도 2는 일부 실시 예에 따른 음성 인식 시스템에 포함되는 디바이스와 음성 인식 서버 기반으로 수행되는 음성 인식 방법의 동작 흐름도이다.
도 3은 일부 실시 예에 따른 음성 인식 방법에 있어서 웨이크업 키워드 모델을 등록하는 프로세스의 동작 흐름도이다.
도 4는 일부 실시 예에 따른 음성 인식 방법에 있어서 웨이크업 키워드를 등록하는 다른 프로세스의 동작 흐름도이다.
도 5a 및 도 5b는 일부 실시 예에 따른 음성 인식 시스템에 포함된 디바이스의 디스플레이상에 후보 웨이크업 키워드 모델이 디스플레이 되는 예이다.
도 6 및 도 7은 일부 실시 예에 따른 음성 인식 시스템에 포함되는 디바이스와 음성 인식 서버를 기반으로 수행되는 음성 인식 방법의 동작 흐름도들이다.
도 8은 일부 실시 예에 따른 디바이스에 의한 음성 인식 방법의 동작 흐름도이다.
도 9 및 도 10은 일부 실시 예에 따른 음성 인식 시스템에 포함되는 디바이스의 구성도이다.
도 11은 일부 실시 예에 따른 음성 인식 시스템에 포함되는 음성 인식 서버의 구성도이다.
도 12는 일부 다른 실시 예에 따른 음성 인식 시스템의 구성도이다.1 is a diagram for explaining a speech recognition system according to some embodiments.
2 is a flowchart illustrating an operation of a device included in the speech recognition system and a speech recognition method based on the speech recognition server according to some embodiments.
3 is a flowchart of an operation of a process of registering a wake-up keyword model in a speech recognition method according to some embodiments.
Fig. 4 is an operational flowchart of another process for registering a wake-up keyword in the speech recognition method according to some embodiments.
5A and 5B are examples in which a candidate wake-up keyword model is displayed on a display of a device included in the speech recognition system according to some embodiments.
6 and 7 are operational flowcharts of a device included in the speech recognition system and a speech recognition method based on the speech recognition server according to some embodiments.
8 is a flowchart illustrating an operation of a speech recognition method by a device according to some embodiments.
9 and 10 are block diagrams of a device included in a speech recognition system according to some embodiments.
11 is a configuration diagram of a speech recognition server included in a speech recognition system according to some embodiments.
12 is a configuration diagram of a speech recognition system according to some other embodiments.
아래에서는 첨부한 도면을 참조하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 개시의 실시 예를 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다. DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those skilled in the art can easily carry out the present invention. However, the present disclosure may be embodied in many different forms and is not limited to the embodiments described herein. In order that the present disclosure may be more fully understood, the same reference numbers are used throughout the specification to refer to the same or like parts.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.Throughout the specification, when a part is referred to as being "connected" to another part, it includes not only "directly connected" but also "electrically connected" with another part in between . Also, when an element is referred to as "comprising ", it means that it can include other elements as well, without departing from the other elements unless specifically stated otherwise.
본 개시에서 웨이크업 키워드는 음성 인식 기능을 웨이크업 할 수 있는 정보를 말한다. 본 개시에서 웨이크업 키워드는 웨이크업 워드라고 말할 수 있다. 본 개시에서 웨이크업 키워드는 사용자의 음성 신호 기반일 수 있으나 본 개시에서 웨이크업 키워드는 이로 제한되지 않는다. 예를 들어, 본 개시에서 웨이크업 키워드는 사용자의 제스처 기반의 소리(또는 오디오 신호)를 포함할 수 있다. In the present disclosure, the wakeup keyword refers to information capable of waking up the speech recognition function. In this disclosure, the wakeup keyword can be said to be a wakeup word. In this disclosure, the wake-up keyword may be based on the user's voice signal, but in this disclosure the wake-up keyword is not limited thereto. For example, in the present disclosure, the wakeup keyword may include a gesture-based sound (or audio signal) of the user.
사용자의 제스처 기반의 소리는, 예를 들어, 사용자가 손가락을 부딪히는 소리를 포함할 수 있다. 사용자의 제스처 기반의 소리는, 예를 들어, 사용자가 혀를 차는 소리를 포함할 수 있다. 사용자의 제스처 기반의 소리는, 예를 들어, 사용자의 웃음 소리를 포함할 수 있다. 사용자의 제스처 기반의 소리는, 예를 들어, 사용자가 입술을 떠는 소리를 포함할 수 있다. 사용자의 제스처 기반의 소리는, 예를 들어, 사용자의 휘파람 소리를 포함할 수 있다. 본 개시에서 사용자의 제스처 기반의 소리는 상술한 바로 제한되지 않는다. A gesture-based sound of a user may include, for example, a sound that a user hits a finger. A gesture-based sound of a user may include, for example, a user's tongue-tearing sound. The user's gesture-based sound may include, for example, the user's laughing sound. The gesture-based sound of the user may include, for example, the sound of the user's lips being pounded. The user's gesture-based sound may, for example, include the user's whistling sound. In this disclosure, the gesture-based sound of the user is not limited to the above-mentioned one.
본 개시에서 웨이크업 키워드는 상술한 사용자의 제스처 기반의 소리를 포함할 경우에, 웨이크업 신호라고 말할 수 있다. In the present disclosure, the wake-up keyword may be referred to as a wake-up signal if it includes the gesture-based sound of the user described above.
본 개시에서 웨이크업 키워드 모델은 웨이크업 키워드를 검출하거나 인식하기 위해 디바이스 또는/및 음성 인식 서버에 미리 등록된 웨이크업 키워드를 말한다. 웨이크업 키워드 모델은 개인화 음향 모델(Acoustic model) 및/또는 언어 모델(Language model)을 포함할 수 있으나 본 개시에서 웨이크업 키워드 모델은 이로 제한되지 않는다. 음향 모델은 사용자의 음성(또는 사용자의 제스처 기반이 소리)의 신호적인 특성을 모델링한 것이다. 언어 모델은 인식 어휘에 해당하는 단어나 음절 등의 언어적인 순서를 모델링 한 것이다. In this disclosure, the wake-up keyword model refers to a wake-up keyword pre-registered with a device or / and a speech recognition server to detect or recognize a wake-up keyword. The wakeup keyword model may include a personalized acoustic model and / or a language model, but in the present disclosure, the wakeup keyword model is not limited thereto. The acoustic model is a model of the signal characteristics of the user's voice (or the sound of the user's gesture). The language model is a model of the linguistic order of words or syllables corresponding to the recognized vocabulary.
본 개시의 디바이스에 등록되는 웨이크업 키워드 모델은 웨이크업 키워드를 검출하기 위해 사용되므로, 웨이크업 키워드 검출용 모델이라고 말할 수 있다. 본 개시의 음성 인식 서버에 등록되는 웨이크업 키워드 모델은 웨이크업 키워드를 인식하기 위해 사용되므로, 웨이크업 키워드 인식용 모델이라고 말할 수 있다. Since the wake-up keyword model registered in the device of the present disclosure is used for detecting the wake-up keyword, it can be said that it is a model for detecting the wake-up keyword. Since the wake-up keyword model registered in the voice recognition server of the present disclosure is used to recognize the wake-up keyword, it can be said that it is a model for recognizing the wake-up keyword.
웨이크업 키워드 검출용 모델과 웨이크업 키워드 인식용 모델은 서로 동일할 수 있으나 차이가 있을 수 있다. 예를 들어, 웨이크업 키워드 검출용 모델이 개인화 웨이크업 키워드 Hi에 대응되는 음향 모델을 포함할 때, 웨이크업 키워드 인식용 모델은, 예를 들어, 개인화 웨이크업 키워드 Hi에 대응되는 음향 모델과 웨이크업 키워드임을 나타내는 태그(예를 들어, !)를 포함할 수 있다. 본 개시에서 웨이크업 키워드 검출용 모델과 웨이크업 키워드 인식용 모델은 상술한 바로 제한되지 않는다. The model for detecting the wake-up keyword and the model for recognizing the wake-up keyword may be the same, but there may be a difference. For example, when the model for detecting the wake-up keyword includes the acoustic model corresponding to the personalized wakeup keyword Hi, the model for recognizing the wakeup keyword includes, for example, an acoustic model corresponding to the personalized wakeup keyword Hi, (E.g., < RTI ID = 0.0 >!) ≪ / RTI > In the present disclosure, the model for wake-up keyword detection and the model for wakeup keyword recognition are not limited to the above-described ones.
이하 설명에서 웨이크업 키워드 검출용 모델과 웨이크업 키워드 인식용 모델을 구분하지 않고, 웨이크업 키워드 모델로 언급할 것이다. 그러나, 디바이스에 등록된 웨이크업 키워드 모델은 웨이크업 키워드 검출용 모델로서 이해되고, 음성 인식 서버에 등록된 웨이크업 키워드 모델은 웨이크업 키워드 인식용 모델로서 이해될 수 있다. In the following description, a model for detecting a wake-up keyword and a model for recognizing a wake-up keyword are not distinguished from each other, and will be referred to as a wake-up keyword model. However, the wake-up keyword model registered in the device is understood as a model for wake-up keyword detection, and the wake-up keyword model registered in the speech recognition server can be understood as a model for wake-up keyword recognition.
웨이크업 키워드 모델은 디바이스 또는 음성 인식 서버에 의해 생성될 수 있다. 디바이스 또는 음성 인식 서버는 생성된 웨이크업 키워드 모델을 서로 공유하기 위하여, 데이터를 송수신할 수 있다. The wakeup keyword model may be generated by the device or the speech recognition server. The device or the speech recognition server can send and receive data to share the generated wakeup keyword model with each other.
본 개시에서 음성 인식 기능은 사용자의 음성 신호를 문자열(또는 텍스트)로 변환하는 것을 말한다. 사용자의 음성 신호는 음성 명령을 포함할 수 있다. 음성 명령은 디바이스의 특정 기능을 실행할 수 있다. In the present disclosure, the speech recognition function refers to converting a user's voice signal into a character string (or text). The user's voice signal may include voice commands. The voice command can execute a specific function of the device.
본 개시에서 디바이스의 특정 기능은, 예를 들어, 디바이스에 설정된 애플리케이션을 실행하는 것을 포함할 수 있으나 이로 제한되지 않는다. The specific functionality of the device in this disclosure may include, but is not limited to, for example, executing an application configured in the device.
예를 들어, 디바이스가 스마트 폰인 경우에, 애플리케이션을 실행하는 것은 전화 걸기, 길 찾기, 인터넷 검색하기, 또는 알람 설정하기 등을 포함할 수 있다. 예를 들어, 디바이스가 스마트 티브인 경우에, 애플리케이션을 실행하는 것은 프로그램 검색하기, 또는 채널 검색하기 등을 포함할 수 있다. 디바이스가 스마트 오븐인 경우에, 애플리케이션을 실행하는 것은 요리 방법 검색하기 등을 포함할 수 있다. 디바이스가 스마트 냉장고인 경우에, 애플리케이션을 실행하는 것은 냉장 상태 점검하기, 또는 냉동 상태 점검하기 등을 포함할 수 있다. 디바이스가 스마트 자동차인 경우에, 애플리케이션을 실행하는 것은 자동 시동 걸기, 자율 주행하기, 자동 주차하기 등을 포함할 수 있다. 본 개시에서 애플리케이션을 실행하는 것은 상술한 바로 제한되지 않는다. For example, when the device is a smart phone, running the application may include dialing, navigating, searching the internet, or setting an alarm. For example, in the case where the device is a smart device, executing an application may include searching for a program, searching for a channel, and the like. If the device is a smart oven, running the application may include searching for cooking methods, and the like. If the device is a smart refrigerator, running the application may include checking the refrigeration condition, or checking the refrigeration condition, and the like. When the device is a smart car, running the application may include autostarting, autonomous driving, automatic parking, and the like. Implementation of an application in this disclosure is not limited to the one just described.
본 개시에서 음성 명령은 워드 형태를 가질 수 있다. 본 개시에서 음성 명령은 문장 형태를 가질 수 있다. 본 개시에서 음성 명령은 구 형태를 가질 수 있다. 본 개시에서 음성 인식 모델은 개인화 음향 모델 또는/및 언어 모델을 포함할 수 있다. Voice instructions in this disclosure may have a word form. In the present disclosure, voice commands may have the form of a sentence. Voice instructions in this disclosure may have a sphere shape. In this disclosure, the speech recognition model may include a personalized acoustic model and / or a language model.
이하 첨부된 도면을 참고하여 본 개시를 상세하게 설명하기로 한다. The present disclosure will be described in detail below with reference to the accompanying drawings.
도 1은 일부 실시 예에 따른 음성 인식 시스템(10)을 설명하는 도면이다. 음성 인식 시스템(10)은 디바이스(100)와 음성 인식 서버(110)를 포함한다. 1 is a diagram for explaining a
디바이스(100)는 사용자(101)로부터 음성 신호를 수신할 수 있다. 디바이스(100)는 웨이크업 키워드 모델을 사용하여 수신되는 사용자(101)의 음성 신호로부터 웨이크업 키워드를 검출할 수 있다. 디바이스(100)는 웨이크업 키워드 모델을 생성하여 디바이스(100)에 등록할 수 있다. 디바이스(100)는 생성된 웨이크업 키워드 모델을 음성 인식 서버(110)로 전송할 수 있다. 디바이스(100)는 음성 인식 서버(110)로부터 웨이크업 키워드 모델을 수신하여 사용할 수 있다. The
디바이스(100)는 웨이크업 키워드에 대한 검출 여부 신호와 수신되는 사용자(101)의 음성 신호를 음성 인식 서버(110)로 전송할 수 있다. The
웨이크업 키워드에 대한 검출 여부 신호는 수신되는 사용자(101)의 음성 신호로부터 웨이크업 키워드가 검출되었는지 여부를 나타내는 신호이다. 디바이스(100)는 웨이크업 키워드에 대한 검출 여부 신호를 2진 데이터로 표현할 수 있다. 수신되는 사용자(101)의 음성 신호로부터 웨이크업 키워드가 검출되면, 디바이스(100)는 웨이크업 키워드에 대한 검출 신호를, 예를 들어, ‘0’으로 표현할 수 있다. 수신되는 사용자(101)의 음성 신호로부터 웨이크업 키워드가 검출되지 않으면, 디바이스(100)는 웨이크업 키워드에 대한 검출 신호를, 예를 들어, ‘1’로 표현할 수 있다.The detection / non-detection signal for the wake-up keyword is a signal indicating whether or not the wake-up keyword has been detected from the voice signal of the
디바이스(100)에 의해 수신되는 사용자(101)의 음성 신호는 웨이크업 키워드와 음성 명령을 포함할 수 있다. 디바이스(100)에 의해 수신되는 사용자(101)의 음성 신호는 웨이크업 키워드를 포함하지 않을 수 있다. The voice signal of the
음성 인식 서버(110)는 디바이스(100)로부터 웨이크업 키워드에 대한 검출 여부 신호와 사용자(101)의 음성 신호를 수신할 수 있다. 디바이스(100)로부터 수신되는 사용자(101)의 음성 신호는 디바이스(100)에 의해 수신되는 사용자(101)의 음성 신호와 동일하다. The
음성 인식 서버(110)는 수신되는 웨이크업 키워드에 대한 검출 여부 신호에 따라 음성 인식 모델을 설정할 수 있다. 웨이크업 키워드에 대한 검출 여부 신호가 사용자(101)의 음성 신호에 웨이크업 키워드가 포함된 것을 나타내면, 음성 인식 서버(110)는 웨이크업 키워드 모델을 결합한 음성 인식 모델을 이용하여 사용자(101)의 음성 신호를 인식하도록 음성 인식 모델을 설정할 수 있다. The
음성 인식 서버(110)에서 음성 인식 모델에 결합되는 웨이크업 키워드 모델은 디바이스(100)에서 검출된 웨이크업 키워드에 따를 수 있다. 예를 들어, 디바이스(100)에서 검출된 웨이크업 키워드가“하이(Hi)”인 경우에, 음성 인식 서버(110)는 “하이(Hi) + 음성 인식 모델(예를 들어, play the music)”을 이용하여 사용자(101)의 음성 신호를 인식하도록 음성 인식 모델을 설정할 수 있다. 음성 인식 서버(110)는 웨이크업 키워드 모델과 음성 인식 모델을 결합할 때, 웨이크업 키워드 모델과 음성 인식 모델 사이에 침묵 구간(silence duration)을 고려할 수 있다. A wakeup keyword model coupled to the speech recognition model at the
상술한 바와 같이 음성 인식 서버(110)는 사용자의 음성 신호에 포함되어 있는 웨이크업 키워드 모델과 음성 명령에 대한 인식 처리를 연속적으로 수행함으로써, 사용자의 음성 신호를 안정적으로 확보하여 음성 인식 성능을 향상 시킬 수 있다. As described above, the
웨이크업 키워드에 대한 검출 여부 신호가 사용자(101)의 음성 신호에 웨이크업 키워드가 포함되지 않은 것을 나타내면, 음성 인식 서버(110)는 웨이크업 키워드 모델을 결합하지 않은 음성 인식 모델을 이용하여 사용자(101)의 음성 신호를 인식하도록 음성 인식 모델을 설정할 수 있다. If the detection signal for the wake-up keyword indicates that the voice signal of the
이와 같이 음성 인식 서버(110)는 웨이크업 키워드에 대한 검출 여부 신호에 따라 음성을 인식하기 위해 사용되는 음성 인식 모델을 동적으로 재구성(또는 스위칭)할 수 있다. 이에 따라 음성 인식 서버(110)에서 수행되는 웨이크업 키워드에 대한 검출 여부 신호에 따라 음성 인식 모델을 설정하는 것은 웨이크업 키워드에 대한 검출 여부에 따라 음성 인식 모델의 구성을 결정하는 것이라 말할 수 있다. In this manner, the
음성 인식 서버(110)에서 음성 인식 모델을 설정하는 것은 음성 인식 모델을 로딩하는 것을 포함할 수 있다. 이에 따라 웨이크업 키워드에 대한 검출 여부 신호는 음성 인식 모델 로딩 요청 신호, 음성 인식 모델 설정 요청 신호, 또는 음성 인식 모델 로딩 트리거 신호를 포함하는 것으로 해석될 수 있다. 본 개시에서 웨이크업 키워드에 대한 검출 여부 신호에 대한 표현은 상술한 바들로 제한되지 않는다. Setting the speech recognition model in the
음성 인식 서버(110)는 음성 명령을 인식하기 위한 음성 인식 모델을 생성할 수 있다. 음성 인식 모델은 음향 모델(Acoustic Model)과 언어 모델(Language Model)을 포함할 수 있다. 음향 모델은 음성의 신호적인 특성을 모델링 한 것을 말한다. 언어 모델은 인식 어휘에 해당하는 단어나 음절 등의 언어적인 순서 관계를 모델링 한 것을 말한다. The
음성 인식 서버(110)는 수신되는 사용자(101)의 음성 신호로부터 음성 부분만을 검출할 수 있다. 음성 인식 서버(110)는 검출된 음성 부분에서 음성 특징을 추출할 수 있다. 음성 인식 서버(110)는 추출된 음성 특징과 기 등록된 음향 모델의 특징 및 언어 모델을 이용하여 수신되는 사용자(101)의 음성 신호에 대한 음성 인식 처리를 수행할 수 있다. 음성 인식 서버(110)는 추출된 음성 특징과 기 등록된 음향 모델의 특징간을 비교하여 음성 인식 처리를 수행할 수 있다. 음성 인식 서버(110)에 의해 수행되는 수신되는 사용자(101)의 음성 신호에 대한 음성 인식 처리는 상술한 바로 제한되지 않는다. The
음성 인식 서버(110)는 음성인식 처리를 수행한 음성인식 결과로부터 웨이크업 키워드를 제거할 수 있다. 음성 인식 서버(110)는 웨이크업 키워드가 제거된 음성인식 결과를 디바이스(100)로 전송할 수 있다. The
음성 인식 서버(110)는 웨이크업 키워드 모델을 생성할 수 있다. 음성 인식 서버(110)는 생성한 웨이크업 키워드 모델을 음성 인식 서버(110)에 등록(또는 저장)하면서 디바이스(100)로 전송할 수 있다. 이에 따라 디바이스(100)와 음성 인식 서버(110)는 웨이크업 키워드 모델을 공유할 수 있다. The
디바이스(100)는 음성 인식 서버(110)로부터 수신되는 음성인식 결과에 따라 디바이스(100)의 기능을 제어할 수 있다. The
디바이스(100) 또는 음성 인식 서버(110)에 의해 생성된 웨이크업 키워드 모델이 복수개인 경우에, 디바이스(100) 또는 음성 인식 서버(110)는 각 웨이크업 키워드 모델에 대한 식별 정보를 할당할 수 있다. 각 웨이크업 키워드 모델에 식별 정보가 할당된 경우에, 디바이스(100)로부터 음성 인식 서버(110)로 전송되는 웨이크업 키워드에 대한 검출 여부 신호는 검출된 웨이크업 키워드에 대한 식별 정보를 포함할 수 있다. The
디바이스(100)가 휴대 가능한 디바이스인 경우에, 디바이스(100)는 스마트 폰(Smart Phone), 노트북(Notebook), 스마트 보드(Smart Board), 태블릿(Tablet) PC(Personal Computer), 핸드헬드(handheld) 디바이스, 핸드헬드 컴퓨터, 미디어 플레이어, 전자북 디바이스, 및 PDA(Personal Digital Assistant) 등과 같은 디바이스 중 적어도 하나를 포함할 수 있으나 본 개시에서 디바이스(100)는 상술한 바로 제한되지 않는다. In the case where the
디바이스(100)가 웨어러블 디바이스인 경우에, 디바이스(100)는 스마트 안경, 스마트 시계, 스마트 밴드(예를 들어, 스마트 허리 밴드, 및 스마트 헤어 밴드 등), 각종 스마트 장신구(예를 들어, 스마트 반지, 스마트 팔지, 스마트 발지. 스마트 헤어 핀, 스마트 클립, 및 스마트 목거리 등), 각종 스마트 신체 보호대(예를 들어, 스마트 무릎 보호대, 및 스마트 팔꿈치 보호대). 스마트 신발, 스마트 장갑, 스마트 의류, 스마트 모자, 스마트 의족, 또는 스마트 의수 등과 같은 디바이스 중 적어도 하나를 포함할 수 있으나 본 개시에서 디바이스(100)는 상술한 바로 제한되지 않는다. In the case where the
디바이스(100)는 M2M(Machine to Machine) 또는 IoT(Internet of Things) 네트워크 기반의 디바이스(예를 들어, 스마트 가전 제품, 스마트 센서), 자동차, 및 자동차용 내비게이션 디바이스 등과 같은 디바이스를 포함할 수 있으나 본 개시에서 디바이스(100)는 상술한 바로 제한되지 않는다.The
디바이스(100)와 음성 인식 서버(110)는 유선 또는/및 무선 네트워크 기반으로 연결될 수 있다. 디바이스(100)와 음성 인식 서버(110)는 근거리 무선 네트워크 또는/및 원거리 무선 네트워크로 연결될 수 있다. The
도 2는 일부 실시 예에 따른 음성 인식 시스템(10)에 포함되는 디바이스(100)와 음성 인식 서버(110) 기반으로 수행되는 음성 인식 방법의 동작 흐름도이다. 도 2는 사용자(101)의 음성 신호에 기초하여 음성 인식을 수행하는 경우이다. 2 is a flowchart illustrating an operation of a speech recognition method performed on the basis of the
도 2를 참조하면, 단계 S201에서, 디바이스(100)는 웨이크업 키워드 모델을 등록한다. 도 3은 일부 실시 예에 따른 음성 인식 방법에 있어서 웨이크업 키워드 모델을 등록하는 프로세스의 동작 흐름도이다. Referring to FIG. 2, in step S201, the
도 3을 참조하면, 단계 S301에서, 디바이스(100)는 사용자(101)의 음성 신호를 수신한다. 단계 S301에서 수신되는 사용자의 음성 신호는 웨이크업 키워드 모델을 등록하기 위한 것이다. 단계 S301에서, 디바이스(100)는 사용자(101)의 음성 신호를 대신하여 전술한 사용자(101)의 특정 제스처에 기초한 소리(또는 오디오 신호)를 수신할 수 있다. Referring to FIG. 3, in step S301, the
단계 S302에서, 디바이스(100)는 음성 인식 모델을 이용하여 사용자의 음성 신호를 인식할 수 있다. 음성 인식 모델은 ASR(Automatic Speech Recognition)에 기초한 음향 모델 및/또는 언어 모델을 포함할 수 있으나 본 개시에서 음성 인식 모델은 이로 제한되지 않는다. In step S302, the
단계 S303에서, 수신된 사용자(101)의 음성 신호가 웨이크업 키워드 모델로서 유효한 것으로 판단되면, 디바이스(100)는 단계 S304에서, 웨이크업 키워드 모델을 생성하고, 등록한다. 디바이스(100)에 웨이크업 키워드 모델을 등록하는 것은 디바이스(100)에 웨이크업 키워드 모델을 저장하는 것을 의미할 수 있다. If it is determined in step S303 that the voice signal of the received
단계 S303에서, 디바이스(100)는 사용자(101)의 음성 신호에 대한 음성 매칭률에 기초하여 수신된 사용자(101)의 음성 신호가 웨이크업 키워드 모델로서 유효한지를 판단할 수 있다. In step S303, the
예를 들어, 디바이스(100)에 의해 사용자(101)의 음성 신호를 복수 회 인식하고, 인식된 결과를 비교하고, 비교 결과에 따라 일관된 결과가 사전에 설정된 횟수 이상 나오면, 수신된 사용자(101)의 음성 신호가 웨이크업 키워드 모델로서 유효한 것으로 판단할 수 있다. For example, when the
단계 S303에서, 수신된 사용자(101)의 음성 신호가 유효한 것으로 판단되면, 단계 S304에서, 디바이스(100)는 유효한 것으로 판단된 웨이크업 키워드 모델을 디바이스(100)에 등록한다. If it is determined in step S303 that the voice signal of the received
단계 S303에서, 디바이스(100)는 사용자(101)의 음성 신호를 복수 회 인식하고, 인식된 결과를 비교한 결과, 일관된 결과가 사전에 설정된 횟수 미만이면, 수신된 사용자(101)의 음성 신호를 웨이크업 키워드 모델로서 유효하지 않은 것으로 판단할 수 있다. In step S303, the
단계 S303에서, 수신된 사용자(101)의 음성 신호가 유효하지 않은 것으로 판단되면, 디바이스(100)는 수신된 사용자(101)의 음성 신호를 웨이크업 키워드 모델로서 등록하지 않는다. If it is determined in step S303 that the voice signal of the received
수신된 사용자(101)의 음성 신호가 웨이크업 키워드 모델로서 유효하지 않은 것으로 판단될 경우에, 디바이스(100)는 알림 메시지를 출력할 수 있다. 알림 메시지는 다양한 형태 및 내용을 가질 수 있다. 예를 들어, 알림 메시지는 ‘현재 입력된 사용자(101)의 음성 신호는 웨이크업 키워드 모델로서 등록되지 않았다’는 메시지를 포함할 수 있다. 알림 메시지는 사용자(101)가 웨이크업 키워드 모델로서 등록 가능한 음성 신호를 입력할 수 있도록 안내하는 메시지를 포함할 수 있다. If the voice signal of the received
도 4는 일부 실시 예에 따른 음성 인식 방법에 있어서 웨이크업 키워드를 등록하는 다른 프로세스의 동작 흐름도이다. Fig. 4 is an operational flowchart of another process for registering a wake-up keyword in the speech recognition method according to some embodiments.
단계 S401에서, 디바이스(100)는 디바이스(100)에 저장된 후보 웨이크업 키워드 모델을 요청한다. 후보 웨이크업 키워드 모델 요청은 사용자(101)의 음성 신호에 기초할 수 있으나 본 개시는 이로 제한되지 않는다. 예를 들어, 디바이스(100)는 디바이스(100)의 특정 버튼 제어(또는 전용 버튼) 또는 터치 기반 입력에 따라 후보 웨이크업 키워드 모델을 요청하는 사용자 입력을 수신할 수 있다. In step S401, the
단계 S402에서, 디바이스(100)는 후보 웨이크업 키워드 모델을 출력한다. 디바이스(100)는 디바이스(100)의 디스플레이를 통해 후보 웨이크업 키워드 모델을 출력할 수 있다. In step S402, the
도 5(a) 및 도 5(b)는 일부 실시 예에 따른 음성 인식 시스템(10)에 포함된 디바이스(100)의 디스플레이상에 후보 웨이크업 키워드 모델을 디스플레이 하는 예들이다. Figs. 5 (a) and 5 (b) are examples of displaying a candidate wake-up keyword model on the display of the
도 5(a)는 디바이스(100)의 디스플레이에 디스플레이 되고 있는 후보 웨이크업 키워드 모델 리스트의 예이다. 도 5(a)를 참조하면, 후보 웨이크업 키워드 모델이 텍스트 형태로 제공된다. 5 (a) is an example of a candidate wake-up keyword model list being displayed on the display of the
도 5(a)에 도시된 후보 웨이크업 키워드 모델 리스트에 기초하여 첫번째 후보 웨이크업 키워드 모델에 대한 터치 기반 입력이 수신되면, 디바이스(100)는 선택된 후보 웨이크업 키워드 모델에 대한 음성 파형을 도 5(b)에 도시된 바와 같이 디스플레이 하면서, 후보 웨이크업 키워드 모델에 대응되는 오디오 신호를 출력할 수 있다. 이에 따라 사용자는 웨이크업 키워드 모델을 선택하기 전에 선택할 웨이크업 키워드 모델을 확인할 수 있다. If a touch-based input to the first candidate wake-up keyword model is received based on the candidate wake-up keyword model list shown in Fig. 5 (a), the
단계 S402에서, 디바이스(100)는 디바이스(100)의 오디오 출력부(예를 들어, 스피커)를 통해 후보 웨이크업 키워드 모델을 출력할 수 있다. In step S402, the
단계 S403에서, 후보 웨이크업 키워드 모델에 기초하여 하나의 후보 웨이크업 키워드 모델에 대한 선택 신호가 수신되면, 단계 S404에서 디바이스(100)는 선택된 후보 웨이크업 키워드 모델을 등록한다. 단계 S404에서, 디바이스(100)는 선택된 후보 웨이크업 키워드 모델에 대응되는 사용자(101)의 음성 신호 입력을 요청하고, 이에 따라 수신되는 사용자(101)의 음성 신호를 웨이크업 키워드 모델로서 생성하고, 등록할 수 있다. When a selection signal for one candidate wakeup keyword model is received based on the candidate wakeup keyword model in step S403, the
단계 S201에서, 디바이스(100)는 음성 인식 서버(110)로부터 웨이크업 키워드 모델을 수신하여 등록할 수 있다. 단계 S201에서, 디바이스(100)는 음성 인식 서버(110)와 통신 채널을 설정하고, 설정된 통신 채널을 통해 수신되는 사용자(101)의 음성 신호를 음성 인식 서버(110)로 전송하면서 웨이크업 키워드 모델 등록을 요청할 수 있다. 이에 따라 디바이스(100)는 음성 인식 서버(110)에서 생성된 웨이크업 키워드 모델을 수신할 수 있다.In step S201, the
한편, 도 2의 단계 S202에서, 음성 인식 서버(110)는 웨이크업 키워드 모델을 등록한다. 단계 S202에서, 음성 인식 서버(110)는 디바이스(100)로부터 수신되는 웨이크업 키워드 모델을 등록할 수 있으나 본 개시에서 음성 인식 서버(110)에 웨이크업 키워드 모델을 등록하는 방식은 상술한 바로 제한되지 않는다. On the other hand, in step S202 of FIG. 2, the
예를 들어, 음성 인식 서버(110)는 디바이스(100)로 웨이크업 키워드 모델을 요청하여 수신할 수 있다. 이를 위하여, 음성 인식 서버(110)는 디바이스(100)를 모니터링 할 수 있다. 음성 인식 서버(110)는 디바이스(100)를 주기적으로 모니터링 할 수 있다. 음성 인식 서버(110)는 디바이스(100) 접근이 인식되면, 디바이스(100)를 모니터링 할 수 있다. 음성 인식 서버(110)는 디바이스(100)가 음성 인식 서버(110)에 연결된 것이 인식되면, 디바이스(100)로 웨이크업 키워드 모델을 요청할 수 있다. For example, the
단계 S202에서, 음성 인식 서버(110)는 웨이크업 키워드 모델을 등록할 때, 웨이크업 키워드를 나타내는 태그를 웨이크업 키워드에 부가할 수 있다. 태그는, 예를 들어, 특수 기호(예를 들어, 느낌표(!))로 표현될 수 있으나, 본 개시에서 태그에 대한 표현은 상술한 바로 제한되지 않는다. In step S202, when the
단계 S202에서, 음성 인식 서버(110)에 등록되는 웨이크업 키워드 모델은 디바이스(100)에 등록되는 웨이크업 키워드 모델과 동기화될 수 있다. 디바이스(100)에 등록된 웨이크업 키워드 모델이 업데이트될 때, 음성 인식 서버(110)에 등록된 웨이크업 키워드 모델은 업데이트 될 수 있다. In step S202, the wake-up keyword model registered in the
단계 S202에서, 음성 인식 서버(110)는 디바이스(100)로부터 사용자(101)의 음성 신호를 수신하여 웨이크업 키워드 모델을 생성하고 등록할 수 있다. 음성 인식 서버(110)는 상술한 도 3 또는 도 4에서 설명한 바와 같이 웨이크업 키워드 모델을 생성할 수 있다. 음성 인식 서버(110)는 단계 S201 이전에 디바이스(100)로부터 웨이크업 키워드 모델을 생성하기 위한 사용자(101)의 음성 신호를 수신할 수 있다. In step S202, the
단계 S203에서, 디바이스(100)는 사용자(101)의 음성 신호를 수신할 수 있다. 단계 S204에서, 디바이스(100)는 등록된 웨이크업 키워드 모델을 이용하여 수신된 사용자(101)의 음성 신호로부터 웨이크업 키워드를 검출할 수 있다. 디바이스(100)는 등록된 웨이크업 키워드 모델과 수신되는 사용자(101)의 음성 신호간의 신호 특성을 비교하여 웨이크업 키워드를 검출할 수 있다. In step S203, the
단계 S205에서, 디바이스(100)는 웨이크업 키워드에 대한 검출 여부 신호와 수신되는 사용자(101)의 음성 신호를 음성 인식 서버(110)로 전송할 수 있다. In step S205, the
단계 S206에서, 음성 인식 서버(110)는 수신된 웨이크업 키워드에 대한 검출 여부 신호에 따라 음성 인식 모델을 설정할 수 있다. 음성 인식 모델 설정은 도 1에서 설명한 바와 같을 수 있다. 즉, 웨이크업 키워드에 대한 검출 여부 신호가 웨이크업 키워드가 검출된 것을 나타낼 경우에, 음성 인식 서버(110)는 웨이크업 키워드 모델이 결합된 음성 인식 모델을 설정할 수 있다. 웨이크업 키워드에 대한 검출 여부 신호가 웨이크업 키워드가 검출되지 않은 것을 나타낼 경우에, 음성 인식 서버(110)는 웨이크업 키워드 모델이 결합되지 않은 음성 인식 모델을 설정할 수 있다. In step S206, the
단계 S207에서, 음성 인식 서버(110)는 설정된 음성 인식 모델을 이용하여 수신되는 사용자(101)의 음성 신호를 인식할 수 있다. 단계 S208에서, 음성 인식 서버(110)는 음성인식 결과로부터 웨이크업 키워드를 제거할 수 있다. 음성 인식 서버(110)는 웨이크업 키워드 모델을 등록할 때 웨이크업 키워드에 부가한 태그를 이용하여 음성인식 결과로부터 웨이크업 키워드를 제거할 수 있다. In step S207, the
단계 S209에서, 음성 인식 서버(110)는 웨이크업 키워드가 제거된 음성인식 결과를 디바이스(100)로 전송할 수 있다. 단계 S210에서, 디바이스(100)는 수신된 음성인식 결과에 따라 디바이스를 제어할 수 있다. In step S209, the
도 6은 일부 실시 예에 따른 음성 인식 시스템(10)에 포함되는 디바이스(100)와 음성 인식 서버(110)를 기반으로 수행되는 음성 인식 방법의 동작 흐름도이다. 도 6은 디바이스(100)에 기초한 환경 정보에 따른 웨이크업 키워드 모델을 이용하여 음성 인식을 수행하는 예이다. 6 is a flowchart illustrating an operation of a voice recognition method performed on the basis of the
단계 S601에서, 디바이스(100)는 환경 정보에 기초하여 복수의 웨이크업 키워드 모델을 등록할 수 있다. 환경 정보는 위치 정보를 포함할 수 있다. 위치 정보는 물리적인 위치 정보와 논리적인 위치 정보를 포함할 수 있다. 물리적인 위치 정보는 위도 및 경도로 표현되는 정보를 말한다. 논리적인 위치 정보는 홈, 오피스, 카페와 같이 의미 정보로 표현되는 정보를 말한다. 환경 정보는 날씨 정보를 포함할 수 있다. 환경 정보는 시간 정보를 포함할 수 있다. 환경 정보는 일정 정보를 포함할 수 있다. 환경 정보는 위치, 시간, 날씨, 및/또는 일정 정보를 포함할 수 있다. 본 개시에서 환경 정보는 상술한 바로 제한되지 않고, 사용자(101)에게 직접적 또는 간접적으로 영향을 주는 조건 정보나 상황 정보를 포함할 수 있다. In step S601, the
예를 들어, 디바이스(100)는 디바이스(100)의 위치가 홈인 경우에 웨이크업 키워드 모델과 디바이스(100)의 위치가 오피스인 경우에 웨이크업 키워드 모델을 다르게 등록할 수 있다. 디바이스(100)는 디바이스(100)에 의해 검출된 시간이 오전 6시일 때 웨이크업 키워드 모델과 디바이스(100)에 의해 검출된 시간이 오후 6일 때 웨이크업 키워드 모델을 다르게 등록할 수 있다. 디바이스(100)는 디바이스(100)에 의해 검출된 날씨가 쾌청한 경우에 웨이크업 키워드 모델과 디바이스(100)에 의해 검출된 날씨가 비오는 경우에 웨이크업 키워드 모델을 다르게 등록할 수 있다. 디바이스(100)는 디바이스(100)에 의해 검출된 사용자(101)의 일정에 따라 다른 웨이크업 키워드 모델을 등록할 수 있다. For example, the
단계 S601에서, 디바이스(100)는 상술한 단계 S201에서와 같이 환경 정보에 기초한 복수의 웨이크업 키워드 모델을 음성 인식 서버(110)로부터 수신하여 등록할 수 있다. In step S601, the
단계 S602에서, 음성 인식 서버(110)는 환경 정보에 기초하여 복수의 웨이크업 키워드 모델을 등록할 수 있다. In step S602, the
음성 인식 서버(110)에 등록되는 복수의 웨이크업 키워드 모델은 디바이스(100)에 등록된 복수의 웨이크업 키워드 모델과 실시간으로 동기화될 수 있다. 따라서, 디바이스(100)에 등록된 복수의 웨이크업 키워드 모델이 업데이트될 때마다 음성 인식 서버(110)에 등록된 복수의 웨이크업 키워드 모델은 업데이트될 수 있다. A plurality of wakeup keyword models registered in the
단계 S602에서, 음성 인식 서버(110)는 디바이스(100)로부터 수신되는 복수의 웨이크업 키워드 모델을 등록할 수 있다. 단계 S602에서, 음성 인식 서버(110)는 디바이스(100)로 복수의 웨이크업 키워드 모델을 요청하여 디바이스(100)로부터 복수의 웨이크업 키워드 모델을 수신할 수 있다. In step S602, the
단계 S602에서, 음성 인식 서버(110)는, 상술한 단계 S202에서와 같이, 디바이스(100)와 음성 인식 서버(110)간에 통신 채널을 설정하고, 설정된 통신 채널을 통해 디바이스(100)로부터 수신되는 사용자(101)의 음성 신호에 기초하여 상술한 환경 정보에 기초한 복수의 웨이크업 키워드 모델을 생성하고 등록할 수 있다. 음성 인식 서버(110)는 이와 같이 등록된 복수의 웨이크업 키워드 모델을 디바이스(100)로 제공할 수 있다.In step S602, the
단계 603에서, 디바이스(100)는 사용자(101)의 음성 신호를 수신할 수 있다. 단계 S604에서, 디바이스(100)는 디바이스(100)에 기초한 환경 정보를 검출할 수 있다. 디바이스(100)는 디바이스(100)에 포함된 센서들 또는 디바이스(100)에 설정된 애플리케이션을 이용하여 디바이스(100)에 기초한 환경 정보를 검출할 수 있다. In step 603, the
예를 들어, 디바이스(100)는 디바이스(100)에 포함된 위치 센서(예를 들어, GPS(Global Positioning System) 센서)를 이용하여 위치 정보를 검출할 수 있다. 디바이스(100)는 디바이스(100)에 설정된 타이머 애플리케이션을 이용하여 시간 정보를 검출할 수 있다. 디바이스(100)는 디바이스(100)에 설정된 날씨 애플리케이션을 이용하여 날씨 정보를 검출할 수 있다. 디바이스(100)는 디바이스(100)에 설정된 일정 애플리케이션을 이용하여 사용자(101)의 일정을 검출할 수 있다. For example, the
단계 S605에서, 디바이스(100)는 등록된 복수의 웨이크업 키워드 모델중에서 검출된 환경 정보에 대응되는 웨이크업 키워드 모델을 이용하여 수신된 사용자(101)의 음성 신호로부터 웨이크업 키워드를 검출할 수 있다. In step S605, the
예를 들어, 홈에서의 웨이크업 키워드 모델이 “하이(Hi)”이고, 오피스에서의 웨이크업 키워드 모델이 “굿(Good)”일 때, 디바이스(100)에 의해 검출된 디바이스(100)의 위치가 오피스이면, 디바이스(100)는 “굿(Good)”을 이용하여 수신된 사용자(101)의 음성 신호로부터 웨이크업 키워드를 검출할 수 있다. For example, when the wake-up keyword model at the home is " Hi " and the wake-up keyword model at the office is " Good ", the
단계 S606에서, 디바이스(100)는 검출된 환경 정보, 웨이크업 키워드에 대한 검출 여부 신호, 및 수신되는 사용자(101)의 음성 신호를 음성 인식 서버(110)로 전송할 수 있다. In step S606, the
단계 S607에서, 음성 인식 서버(110)는 웨이크업 키워드에 대한 검출 여부 신호와 수신된 디바이스(100)에 기초한 환경 정보에 따라 웨이크업 키워드 모델을 결정하고, 결정된 웨이크업 키워드 모델이 결합된 음성 인식 모델을 설정할 수 있다. In step S607, the
단계 S608에서, 음성 인식 서버(110)는 설정된 음성 인식 모델을 이용하여 수신되는 음성 신호를 인식할 수 있다. 단계 S609에서, 음성 인식 서버(110)는 음성인식 결과로부터 웨이크업 키워드를 제거할 수 있다. 음성 인식 서버(110)는 웨이크업 키워드 모델 등록 시 웨이크업 키워드에 부가한 태그를 이용하여 음성인식 결과에 포함되어 있는 웨이크업 키워드를 제거할 수 있다.In step S608, the
단계 S610에서, 음성 인식 서버(110)는 웨이크업 키워드가 제거된 음성인식 결과를 디바이스(100)로 전송할 수 있다. 단계 S611에서, 디바이스(100)는 수신된 음성인식 결과에 따라 디바이스(100)를 제어할 수 있다. In step S610, the
도 7은 일부 실시 예에 따른 음성 인식 시스템(10)에 포함되는 디바이스(100)와 음성 인식 서버(110)를 기반으로 수행되는 음성 인식 방법의 동작 흐름도이다. 도 7은 사용자(101)의 식별 정보, 디바이스(100)에 기초한 환경 정보, 및 웨이크업 키워드 검출 여부 신호에 따라 음성 인식 모델을 설정하여 음성 인식을 수행하는 예이다. 7 is a flowchart illustrating an operation of a voice recognition method performed on the basis of the
단계 S701에서, 디바이스(100)는 환경 정보에 기초하여 복수의 웨이크업 키워드 모델을 등록할 수 있다. 환경 정보는 도 6의 단계 S601에서 설명한 바와 같을 수 있으나 이로 제한되지 않는다. 단계 S701에서, 디바이스(100)는 음성 인식 서버(110)로부터 수신되는 복수의 웨이크업 키워드 모델을 등록할 수 있다.In step S701, the
단계 S702에서, 음성 인식 서버(110)는 환경 정보와 사용자(101)의 식별 정보에 기초하여 복수의 웨이크업 키워드 모델을 등록할 수 있다. 예를 들어, 음성 인식 서버(110)는 사용자(101)의 식별 정보 A에 대해 환경 정보에 기초한 복수의 웨이크업 키워드 모델을 등록할 수 있다. 음성 인식 서버(110)는 사용자(101)의 식별 정보 B에 대해 환경 정보에 기초한 복수의 웨이크업 키워드 모델을 등록할 수 있다. In step S702, the
음성 인식 서버(110)에 등록된 복수의 웨이크업 키워드 모델은 사용자 단위로 동기화 처리가 수행될 수 있다. 예를 들어, 사용자 A의 복수의 웨이크업 키워드 모델이 업데이트되면, 음성 인식 서버(110)에 등록된 복수의 웨이크업 키워드 모델 중에서 사용자 A의 복수의 웨이크업 키워드 모델을 업데이트할 수 있다. The plurality of wake-up keyword models registered in the
단계 S702에서, 음성 인식 서버(110)는 디바이스(100)로부터 수신되는 사용자(101)의 음성 신호에 기초하여 상술한 웨이크업 키워드 모델을 등록할 수 있다. 이와 같은 경우에, 음성 인식 서버(110)는 디바이스(100)로 등록된 웨이크업 키워드 모델을 제공할 수 있다. In step S702, the
단계 703에서, 디바이스(100)는 사용자(101)의 음성 신호를 수신할 수 있다. 단계 S704에서, 디바이스(100)는 디바이스(100)에 기초한 환경 정보를 검출할 수 있다. 단계 S705에서, 디바이스(100)는 수신되는 사용자(101)의 음성 신호에 기초하여 사용자(101)의 식별 정보를 획득할 수 있다. 사용자(101)의 식별 정보는 사용자(101)의 닉 네임, 성별, 이름 등을 포함할 수 있으나 본 개시에서 사용자(101)의 식별 정보는 상술한 바로 제한되지 않는다. In step 703, the
또한, 단계 S705는 사용자(101)의 지문 인식 또는 사용자(101)의 홍체 인식 기술을 이용하여 사용자(101)의 식별 정보를 획득하도록 구성될 수 있다. Step S705 may be configured to acquire the identification information of the
단계 S706에서, 디바이스(100)는 등록된 복수의 웨이크업 키워드 모델 중에서 검출된 환경 정보에 대응되는 웨이크업 키워드 모델을 이용하여 수신된 사용자(101)의 음성신호로부터 웨이크업 키워드를 검출할 수 있다. In step S706, the
단계 S707에서, 디바이스(100)는 검출된 환경 정보, 사용자(101)의 식별 정보, 웨이크업 키워드에 대한 검출 여부 신호, 및 수신되는 사용자(101)의 음성 신호를 음성 인식 서버(110)로 전송할 수 있다. In step S707, the
단계 S708에서, 음성 인식 서버(110)는 웨이크업 키워드에 대한 검출 여부 신호, 수신된 디바이스(100)에 기초한 환경 정보, 및 사용자(101)의 식별 정보에 따라 웨이크업 키워드 모델을 결정하고, 결정된 웨이크업 키워드 모델이 결합된 음성 인식 모델을 설정할 수 있다. In step S708, the
단계 S709에서, 음성 인식 서버(110)는 설정된 음성 인식 모델을 이용하여 수신되는 음성 신호를 인식할 수 있다. 단계 S710에서, 음성 인식 서버(110)는 음성인식 결과로부터 웨이크업 키워드를 제거할 수 있다. 음성 인식 서버(110)는 웨이크업 키워드 모델 등록 시 웨이크업 키워드에 부가한 태그를 이용하여 음성인식 결과에 포함되어 있는 웨이크업 키워드를 제거할 수 있다.In step S709, the
단계 S711에서, 음성 인식 서버(110)는 웨이크업 키워드가 제거된 음성인식 결과를 디바이스(100)로 전송할 수 있다. 단계 S712에서, 디바이스(100)는 수신된 음성인식 결과에 따라 디바이스(100)를 제어할 수 있다. In step S711, the
도 8은 일부 실시 예에 따른 디바이스(100)에 의한 음성 인식 방법의 동작 흐름도이다. 도 8은 음성 인식 서버(110)와 관계없이 디바이스(100)에 의해 음성 인식을 수행하는 경우이다. FIG. 8 is a flow chart of the operation of the speech recognition method by the
단계 S801에서, 디바이스(100)는 웨이크업 키워드 모델을 등록할 수 있다. 등록할 때, 디바이스(100)는 웨이크업 키워드를 식별할 수 있는 태그를 웨이크업 키워드에 부가할 수 있다. 단계 S801에서, 디바이스(100)는 음성 인식 서버(110)로부터 웨이크업 키워드 모델을 수신하여 등록할 수 있다. In step S801, the
단계 S802에서, 디바이스(100)는 사용자(101)의 음성 신호를 수신할 수 있다. 단계 S803에서, 디바이스(100)는 웨이크업 키워드 모델을 이용하여 사용자(101)의 음성 신호로부터 웨이크업 키워드를 검출할 수 있다. In step S802, the
단계 S804에서, 웨이크업 키워드가 검출된 것으로 판단되면, 단계 S805로 진행되어, 디바이스(100)는 웨이크업 키워드 모델이 결합된 음성 인식 모델을 설정할 수 있다. 단계 S806에서, 디바이스(100)는 음성 인식 모델을 이용하여 수신된 사용자(101)의 음성 신호에 대한 음성 인식 처리를 수행할 수 있다. If it is determined in step S804 that the wakeup keyword has been detected, the process proceeds to step S805 where the
단계 S807에서, 디바이스(100)는 음성인식 결과로부터 웨이크업 키워드를 제거할 수 있다. 디바이스(100)는 웨이크업 키워드를 식별하는 태그를 이용하여 음성인식 결과로부터 웨이크업 키워드를 제거할 수 있다. 단계 S808에서, 디바이스(100)는 웨이크업 키워드가 제거된 음성인식 결과를 이용하여 디바이스(100)를 제어할 수 있다. In step S807, the
단계 S804에서, 웨이크업 키워드가 검출되지 않은 것으로 판단되면, 단계 S809로 진행되어 디바이스(100)는 웨이크업 키워드 모델이 결합되지 않은 음성 인식 모델을 설정할 수 있다. 단계 S810에서, 디바이스(100)는 음성 인식 모델을 이용하여 사용자(101)의 음성 신호에 대한 인식 처리를 수행할 수 있다. 단계 S811에서, 디바이스(100)는 음성인식 결과를 이용하여 디바이스(100)를 제어할 수 있다. If it is determined in step S804 that the wakeup keyword is not detected, the process advances to step S809, and the
도 8은 상술한 도 6과 같이 환경 정보에 기초하여 복수의 웨이크업 키워드 모델을 등록하여 음성 신호를 인식하도록 변형될 수 있다.Fig. 8 can be modified to recognize a voice signal by registering a plurality of wake-up keyword models based on environmental information as in Fig. 6 described above.
상술한 도 2, 6, 7, 또는 8은 환경 정보에 관계없이 복수의 웨이크업 키워드 모델을 등록하여 음성 신호를 인식하도록 변형될 수 있다. 복수의 웨이크업 키워드 모델은 사용자 별로 설정될 수 있다. 복수의 웨이크업 키워드 모델이 등록될 경우에, 각 웨이크업 키워드 모델은 웨이크업 키워드를 식별할 수 있는 식별 정보를 포함할 수 있다. 2, 6, 7, or 8 described above can be modified to recognize a voice signal by registering a plurality of wake-up keyword models regardless of environmental information. A plurality of wake-up keyword models may be set for each user. When a plurality of wakeup keyword models are registered, each wakeup keyword model may include identification information capable of identifying wakeup keywords.
도 9 은 일부 실시 예에 따른 디바이스(100)의 기능 블록도이다. 9 is a functional block diagram of a
도 9를 참조하면, 디바이스(100)는 오디오 입력부(910), 통신부(920), 프로세서(930), 디스플레이(940), 사용자 입력부(950), 및 메모리(960)를 포함한다. 9, the
오디오 입력부(910)는 사용자(101)의 음성 신호를 수신할 수 있다. 오디오 입력부(910)는 상술한 사용자(101)의 특정 제스처에 기초한 소리(오디오 신호)를 수신할 수 있다. The
오디오 입력부(910)는 디바이스(100)의 외부로부터 입력되는 오디오 신호를 수신할 수 있다. 오디오 입력부(910)는 수신된 오디오 신호를 전기적인 오디오 신호로 변환하여 프로세서(930)로 전송할 수 있다. 오디오 입력부(910)는 외부의 음향 신호를 입력 받는 과정에서 발생 되는 잡음(noise)을 제거하기 위한 다양한 잡음 제거 알고리즘에 기초한 동작을 수행하도록 구성될 수 있다. 오디오 입력부(910)는 마이크로 폰으로 구성될 수 있다.The
통신부(920)는 음성 인식 서버(110)와 디바이스(100)간에 유선 또는/및 무선으로 연결되도록 구성될 수 있다. 통신부(920)는 도 10에서 후술할 통신부(1040)와 같이 구성될 수 있다.The
프로세서(930)는 디바이스(100)의 동작을 제어하는 제어부라고 말할 수 있다. 프로세서(930)는 오디오 입력부(910), 통신부(920), 디스플레이(940), 사용자 입력부(950), 및 메모리(960)를 제어할 수 있다. 오디오 입력부(910)를 통해 사용자(101)의 음성 신호가 수신되면, 프로세서(930)는 실시간으로 웨이크업 키워드 모델을 이용한 음성 인식 처리를 수행할 수 있다. The
프로세서(930)는 메모리(960)에 웨이크업 키워드 모델을 등록할 수 있다. 프로세서(930)는 통신부(920)를 통해 음성 인식 서버(110)로부터 수신된 웨이크업 키워드 모델을 메모리(960)에 등록할 수 있다. 프로세서(930)는 오디오 입력부(910)를 통해 수신되는 사용자(101)의 음성 신호를 음성 인식 서버(110)로 전송하면서, 사용자(101)의 음성 신호에 기초한 웨이크업 키워드 모델을 요청할 수 있다.
프로세서(930)는 메모리(960)에 등록된 웨이크업 키워드 모델을 통신부(920)를 통해 음성 인식 서버(110)로 전송할 수 있다. 프로세서(930)는 통신부(920)를 통해 음성 인식 서버(110)로부터 웨이크업 키워드 모델 요청 신호가 수신되면, 등록된 웨이크업 키워드 모델을 음성 인식 서버(110)로 전송할 수 있다. 프로세서(930)는 메모리(960)에 웨이크업 키워드 모델이 등록됨과 동시에 음성 인식 서버(110)로 등록된 웨이크업 키워드 모델을 전송할 수 있다. The
프로세서(930)는 오디오 입력부(910)를 통해 사용자(101)의 음성 신호가 수신됨에 따라 메모리(960)에 등록된 웨이크업 키워드 모델을 이용하여 수신되는 사용자(101)의 음성 신호로부터 웨이크업 키워드를 검출할 수 있다. 프로세서(930)는 웨이크업 키워드에 대한 검출 여부 신호와 수신되는 사용자(101)의 음성 신호를 통신부(920)를 통해 음성 인식 서버(110)로 전송할 수 있다. The
프로세서(930)는 통신부(920)를 통해 음성 인식 서버(110)로부터 음성 인식 결과를 수신할 수 있다. 프로세서(930)는 수신되는 음성 인식 결과에 따라 디바이스(100)를 제어할 수 있다. The
오디오 입력부(910)를 통해 웨이크업 키워드 모델을 등록하기 위한 오디오 신호가 수신되면, 프로세서(930)는 상술한 도 3의 단계 S303에서와 같이, 오디오 신호에 대한 매칭률에 기초하여 오디오 신호가 상기 웨이크업 키워드 모델로서 사용 가능한지를 판단할 수 있다. When an audio signal for registering the wake-up keyword model is received through the
프로세서(930)는 사용자 입력부(950)를 통해 수신되는 사용자 입력에 따라 메모리(960)에 저장된 후보 웨이크업 키워드 모델중에서 선택된 후보 웨이크업 키워드 모델을 메모리(960)에 등록할 수 있다. The
프로세서(930)는 디바이스(100)의 구성 형태에 따라 메인 프로세서와 서브 프로세서로 나뉠 수 있다. 서브 프로세서는 저전력 프로세서로 설정될 수 있다.The
디스플레이(940)는 프로세서(930)에 의해 제어되어 사용자(101)가 요청한 후보 웨이크업 키워드를 디스플레이 할 수 있다. 디스플레이(940)는 액정 디스플레이(liquid crystal display), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display), 유기 발광 다이오드(organic light-emitting diode), 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display), 또는 전기영동 디스플레이(electrophoretic display, EPD)를 포함할 수 있다. 디스플레이(940)는, 예를 들어, 터치 스크린을 포함할 수 있으나, 본 개시는 디스플레이(940)의 구성을 상술한 바로 제한하지 않는다.
사용자 입력부(950)는 디바이스(100)에 대한 사용자 입력을 수신할 수 있다. 사용자 입력부(950)는 웨이크업 키워드 등록 요청을 나타내는 사용자 입력, 후보 웨이크업 키워드중 하나의 웨이크업 키워드를 선택하는 사용자 입력, 및/또는 선택된 후보 웨이크업 키워드에 대한 등록을 나타내는 사용자 입력을 수신할 수 있다. 본 개시에서 사용자 입력부(950)를 통해 수신되는 사용자 입력은 상술한 바로 제한되지 않는다. 사용자 입력부(950)는 수신된 사용자 입력을 프로세서(930)로 전송한다. The
메모리(960)는, 웨이크업 키워드 모델을 저장할 수 있다. 메모리(960)는 프로세서(930)의 처리 및 제어를 위한 프로그램을 저장할 수 있다. 메모리(960)에 저장되는 프로그램은 OS(Operating System) 프로그램 및 각종 애플리케이션 프로그램을 포함할 수 있다. 각종 애플리케이션 프로그램은 본 개시의 실시 예들에 따른 음성 인식 애플리케이션, 카메라 애플리케이션 등을 포함할 수 있다. 메모리(960)는 애플리케이션 프로그램에 의해 관리되는 정보(예를 들어, 사용자(101)의 웨이크업 키워드 사용 히스토리 정보, 사용자(101)의 일정 정보, 또는 사용자(101) 프로파일 정보)를 저장할 수 있다.The
메모리(960)에 저장된 프로그램들은 그 기능에 따라 복수 개의 모듈들로 분류될 수 있다. 복수개의 모듈들은, 예를 들어, 이동 통신 모듈, Wi-Fi 모듈, 블루투스 모듈, DMB 모듈, 카메라 모듈, 센서 모듈, GPS 모듈, 동영상 재생 모듈, 오디오 재생 모듈, 전원 모듈, 터치 스크린 모듈, UI 모듈, 또는/및 어플리케이션 모듈을 포함할 수 있다. Programs stored in the
메모리(960)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory), SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 또는 광디스크 타입의 저장매체를 포함할 수 있다. The
도 10은 본 발명의 다른 일 실시 예에 따른 디바이스(100)의 블록도이다. 10 is a block diagram of a
도 10을 참조하면, 디바이스(100)는 센서부(1010), 사용자 인터페이스부(1020), 메모리(1030), 통신부(1040), 영상 처리부(1050), 오디오 출력부(1060), 카메라(1070), 및 프로세서(1090)를 포함한다. 10, the
디바이스(100)는 배터리를 포함할 수 있다. 배터리는 내장형으로 디바이스(100)에 포함되거나 착탈이 가능한 형태로 디바이스(100)에 포함될 수 있다. 배터리는 디바이스(100)에 포함된 모든 구성 요소로 전원을 공급할 수 있다. 디바이스(100)는 통신부(1040)를 통해 외부 전원장치(미 도시됨)로부터 전원을 공급 받을 수 있다. 디바이스(100)는 외부 전원 장치와 연결될 수 있는 커넥터를 더 포함할 수 있다. The
도 10에 도시된 프로세서(1090), 사용자 인터페이스부(1020)에 포함된 디스플레이(1021) 및 사용자 입력부(1022), 메모리(1030), 오디오 입력부(1070), 및 통신부(1040)는 도 9에 도시된 프로세서(930), 오디오 입력부(910), 통신부(920), 디스플레이(940), 사용자 입력부(950), 메모리(960)와 유사하거나 동일한 구성요소로 언급될 수 있다. The
메모리(1030)에 저장된 프로그램들은 그 기능에 따라 복수 개의 모듈들로 분류될 수 있다. 예를 들어, 메모리(1030)에 저장되는 프로그램들은 UI 모듈(1031), 알림 모듈(1032), 및 애플리케이션 모듈(1033) 등으로 분류될 수 있으나 본 개시는 이로 한정되지 않는다. 예를 들어, 메모리(1030)에 저장되는 프로그램들은 도 9의 메모리(960)에서 언급된 바와 같이 복수개의 모듈들로 분류될 수 있다. Programs stored in the
UI 모듈(1031)은 바람직한 실시 예에서 언급되는 음성 인식을 위한 웨이크업 키워드를 등록하기 위한 GUI 정보, 음성 인식 결과(예를 들어, 텍스트 정보)를 나타내는 GUI 정보, 음성 인식 파형을 나타내는 GUI 정보 등을 프로세서(1090)로 제공할 수 있다. 프로세서(1090)는 UI 모듈(1032)로부터 수신되는 GUI 정보에 기초한 스크린을 디스플레이(10210)에 디스플레이 할 수 있다. UI 모듈(1031)은, 디바이스(100)에 설치된 각 애플리케이션에 대해 특화된 UI, 또는/및 GUI 등을 프로세서(1090)로 제공할 수 있다. The
알림 모듈(1032)은 디바이스(100)의 음성 인식에 따른 알림, 웨이크업 키워드 등록에 따른 알림, 잘못된 웨이크업 키워드 입력에 따른 알림, 또는 웨이크업 키워드 인식에 따른 알림 등을 발생할 수 있으나 알림 모듈(1032)에 의해 발생되는 알림은 상술한 바로 제한되지 않는다. The
알림 모듈(1032)은 디스플레이(1021)를 통해 비디오 신호 형태로 알림 신호를 출력할 수 있고, 오디오 출력부(1060)를 통해 오디오 신호 형태로 알림 신호를 출력할 수 있으나 이로 한정되지 않는다. The
애플리케이션 모듈(1033)은 본 개시의 실시 예들에서 언급되고 있는 음성인식 애플리케이션을 비롯한 다양한 애플리케이션을 포함할 수 있다. The
통신부(1040)는 디바이스(100)와 적어도 하나의 외부 디바이스(예를 들어, 음성 인식 서버(110), 스마트 티브이, 스마트 시계, 스마트 거울, 또는/및 IoT 네트워크 기반 디바이스 등)간의 통신을 위한 하나 이상의 구성요소를 포함할 수 있다. 예를 들어, 통신부(1040)는, 근거리 통신기(1041), 이동 통신기(1042), 및 방송 수신기(1043)중 적어도 하나를 포함할 수 있으나 통신부(1040)에 포함되는 구성 요소는 이로 제한되지 않는다. The
근거리 통신기(short-range wireless communicator)(1041)는, 블루투스 통신 모듈, BLE(Bluetooth Low Energy) 통신 모듈, 근거리 무선 통신(Near Field Communication unit, RFID) 모듈, WLAN(와이파이) 통신 모듈, 지그비(Zigbee) 통신 모듈, Ant+ 통신 모듈, WFD(Wi-Fi Direct) 통신 모듈, 비콘 통신 모듈, 또는 UWB(ultra wideband) 통신 모듈을 포함할 수 있으나 이로 제한되지 않는다. 예를 들어, 근거리 통신기(7451)는 적외선(IrDA, infrared Data Association) 통신 모듈을 포함할 수 있다. A short-range wireless communicator 1041 may be a Bluetooth communication module, a Bluetooth low energy (BLE) communication module, a near field communication unit (RFID) module, a WLAN communication module, a Zigbee ) Communication module, an Ant + communication module, a WFD (Wi-Fi Direct) communication module, a beacon communication module, or an UWB (ultra wideband) communication module. For example, the local communicator 7451 may include an infrared (IRDA) communication module.
이동 통신기(1042)는 이동 통신망 상에서 기지국, 외부 디바이스, 서버 중 적어도 하나와 무선 신호를 송수신할 수 있다. 여기에서, 무선 신호는, 음성 호 신호, 화상 통화 호 신호 또는 문자/멀티미디어 메시지 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다. The
방송 수신기(1043)는, 방송 채널을 통하여 외부로부터 방송 신호 및/또는 방송 관련된 정보를 수신할 수 있다. 방송 채널은 위성 채널, 지상파 채널, 및 라디오 채널 중 적어도 하나를 포함할 수 있으나 이로 제한되지 않는다. The
통신부(1040)는 바람직한 일 실시 예에 따라 디바이스(100)에 의해 생성된 적어도 하나의 정보를 적어도 하나의 외부 디바이스로 전송하거나 적어도 하나의 외부 디바이스로부터 전송되는 정보를 수신할 수 있다. The
센서부(1010)는 디바이스(100)에 사용자(101)의 접근 여부를 감지하는 근접 센서(1011), 디바이스(100)의 사용자(101)의 건강 정보를 감지하는 바이오 센서(또는 헬스 센서(예를 들어, 심박동 센서, 혈류량 센서, 당뇨 센서, 혈압 센서, 또는/및 스트레스 센서 등)) (1012), 디바이스(100) 주변의 조명을 감지하는 조도 센서(1013)(또는 광 센서, LED 센서), 디바이스(100)의 사용자(101)의 무드(mood)를 감지하는 무드스코프 센서(1014), 활동성(activity)을 감지하는 동작 감지 센서(1015), 디바이스(100)의 위치를 검출하기 위한 위치 센서(Position Sensor, 예를 들어, GPS(Global Positioning System) 수신기)(1016), 디바이스(100)의 방위각을 측정하는 자이로스코프 센서(1017), 지표면을 중심으로 디바이스(100)의 기울기 및 가속도 등을 측정하는 가속도(Accelerometer) 센서(1018), 또는/및 디바이스(100)를 기준으로 동서남북 방위를 감지하는 지자기 센서(1019) 등을 포함할 수 있으나 본 개시에서 센서부(1010)에 포함되는 센서는 상술한 바로 제한되지 않는다. The
예를 들어, 센서부(1010)는 온/습도 센서, 중력 센서, 고도(Altitude) 센서, 화학적 센서(예를 들어, 냄새 센서(Odorant sensor)), 기압 센서, 미세 먼지 측정 센서, 자외선 센서, 오존도 센서, 이산화 탄소(CO2) 센서, 또는/및 네트워크 센서(예를 들어 WiFi, Bluetooth, 3G, LTE(Long Term Evolution), 또는/및 NFC(Near Field Communication) 등에 기초한 네트워크 센서) 등을 포함할 수 있으나 이로 제한되지 않는다. For example, the
센서부(1010)는 압력 센서(예를 들어, 터치 센서, 압전 센서, 물리적인 버튼 등), 상태 센서(예를 들어, 이어폰 단자, DMB(Digital Multimedia Broadcasting) 안테나, 표준 단자(예를 들어, 충전 진행 여부를 인식할 수 있는 단자, PC(Personal Computer) 연결 여부를 인식할 수 있는 단자, 독(dock) 연결 여부를 인식할 수 있는 단자), 또는/및 타임 센서 등을 포함할 수 있으나 이로 제한되지 않는다. The
센서부(1010)에 포함되는 센서들은 도 10에 도시된 것보다 적은 수의 센서들을 포함할 수 있다. 예를 들어, 센서부(1010)는 위치 센서(1016)만을 포함할 수 있다. 센서부(1010)에 위치 센서(1016)만 포함되는 경우에, 센서부(1010)는 GPS 수신기로 표현될 수 있다. The sensors included in the
센서부(1010)에 의해 감지된 결과(또는 센싱 값)는 프로세서(1090)로 전송된다. 센서부(1010)로부터 수신되는 센싱 값이 위치를 나타내는 값일 때, 프로세서(1090)는 수신되는 센싱 값에 기초하여 디바이스(100)의 현재 위치가 홈인지 오피스인지를 판단할 수 있다. The result (or sensing value) sensed by the
프로세서(1090)는 디바이스(100)의 전반적인 동작을 제어하는 제어부로 동작할 수 있다. 예를 들어, 프로세서(1090)는 메모리(1030)에 저장된 프로그램들을 실행함으로써, 센서부(1010), 메모리(1030), 사용자 인터페이스부(1020), 영상 처리부(1050), 오디오 출력부(1060), 오디오 입력부(1070), 카메라(1080), 또는/및 통신부(1040) 등을 전반적으로 제어할 수 있다. The
프로세서(1090)는 도 9의 프로세서(930)와 같이 동작할 수 있다. 프로세서(1090)에서 메모리(1030)로부터 데이터를 리드하는 동작에 대해, 프로세서(1090)는 통신부(1040)를 통해 외부 디바이스로부터 데이터를 수신하는 동작을 수행할 수 있다. 프로세서(1090)에서 메모리(1030)에 데이터를 쓰는 동작에 대해, 프로세서(1090)는 통신부(1040)를 통해 외부 디바이스로 전송하는 동작을 수행할 수 있다.
프로세서(1090)는 상술한 도 2, 3, 4, 6, 7, 또는 8에서 언급되고 있는 적어도 하나의 동작을 수행할 수 있다. 프로세서(1090)는 상술한 동작을 제어하는 제어기라고 말할 수 있다. The
영상 처리부(1050)는 통신부(1040)로부터 수신되거나 메모리(1030)에 저장된 영상 데이터를 디스플레이(1021)에 표시할 수 있도록 처리할 수 있다. The
오디오 출력부(1060)는 통신부(1040)로부터 수신되거나 메모리(1030)에 저장된 오디오 데이터를 출력할 수 있다. 오디오 출력부(1060)는 디바이스(100)에 의해 수행되는 기능과 관련된 음향 신호(예를 들어, 알림 음)를 출력할 수 있다. The
오디오 출력부(1060)에는 스피커(speaker), 또는 버저(Buzzer) 등이 포함될 수 있으나 이로 제한되지 않는다.The
도 11은 일부 실시 예에 따른 음성 인식 서버(110)의 기능 블록도이다. 11 is a functional block diagram of
도 11을 참조하면, 음성 인식 서버(110)는 통신부(1110), 프로세서(1120), 및 메모리(1130)를 포함하나 음성 인식 서버(110)의 구성은 도 11에 도시된 바로 제한되지 않는다. 즉, 음성 인식 서버(110)에 포함되는 구성 요소는 도 11에 도시된 구성 요소보다 더 많거나 더 적을 수 있다. 11, the
통신부(1110)는 도 10에 도시된 통신부(1040)와 같이 구성될 수 있다. 통신부(1110)는 디바이스(100)와 음성 인식 관련 신호를 송수신할 수 있다. The
프로세서(1120)는 상술한 도 2, 도 6, 또는 도 7에서 언급된 음성 인식 서버(110)의 동작을 수행할 수 있다. The
메모리(1130)는 웨이크업 키워드 모델(1131), 및 음성 인식 모델(1132)을 저장하고, 프로세서(1120)에 의해 제어되어 웨이크업 키워드 모델(1131) 및 음성 인식 모델(1132)을 프로세서(1120)로 제공할 수 있다. 음성 인식 모델(1132)은 음성 명령을 인식하기 위한 모델이라 말할 수 있다.The
메모리(1130)에 저장되는 웨이크업 키워드 모델(1131) 및 음성 인식 모델(1132)은 통신부(1110)를 통해 수신되는 정보에 따라 업데이트 될 수 있다. 메모리(1130)에 저장되는 웨이크업 키워드 모델(1131) 및 음성 인식 모델(1132)은 운영자의 정보 입력에 의해 업데이트될 수 있다. 이를 위하여 음성 인식 서버(110)는 운영자가 정보를 입력할 수 있는 구성 요소를 더 포함할 수 있다. The
도 12는 일부 다른 실시 예에 따른 음성 인식 시스템(1200)의 구성도이다. 도 12는 복수의 디바이스(100, 1210, 1220, 1230, 1240, 1250)로부터 수신되는 사용자(101)의 음성 신호를 음성 인식 서버(110)에서 인식하는 경우이다. 12 is a block diagram of a
복수의 디바이스는 웨어러블 글래스(1210), 스마트 워치(1220), IoT 디바이스(1230), IoT 센서(1240), 및/또는 스마트 TV(1250)를 포함할 수 있다. The plurality of devices may include a
상술한 복수의 디바이스(100, 1210, 1220, 1230, 1240, 1250)는 사용자가 동일할 수 있으나 사용자가 서로 다를 수 있다. 복수의 디바이스(100, 1210, 1220, 1230, 1240, 1250)의 사용자가 동일한 경우에, 음성 인식 서버(110)는 디바이스 별로 웨이크업 키워드 모델을 등록하여 음성 인식 기능을 수행할 수 있다. 복수의 디바이스(100, 1210, 1220, 1230, 1240, 1250)의 사용자가 서로 다른 경우에, 음성 인식 서버(110)는 디바이스의 식별 정보와 디바이스 별 사용자의 식별 정보를 이용하여 웨이크업 키워드 모델을 등록하여 음성 인식 기능을 수행할 수 있다. 이에 따라 본 개시의 음성 인식 시스템(1200)은 보다 다양하고, 정확한 음성 인식 서비스를 제공할 수 있다. 음성 인식 서버(110)는 등록된 웨이크업 키워드 모델을 복수의 디바이스(100, 1210, 1220, 1230, 1240, 1250)로 제공할 수 있다.The plurality of
또한, 음성 인식 서버(110)는 웨이크업 키워드와 음성 명령을 연속적으로 인식 처리함에 따라 웨이크업 키워드 이외의 음성 신호를 이용하여 복수의 디바이스(100, 1210, 1220, 1230, 1240, 1250) 주변의 잡음 레벨을 추정하거나 환경 정보를 인식할 수 있다. 음성 인식 서버(110)는 상술한 추정된 잡음 레벨이나 인식된 환경 정보를 음성 인식 결과와 함께 복수의 디바이스(100, 1210, 1220, 1230, 1240, 1250)로 제공함으로써, 복수의 디바이스(100, 1210, 1220, 1230, 1240, 1250)를 제어하는데 사용하거나 추정 또는 인식된 정보를 사용자에게 제공할 수 있다. In addition, the
네트워크(1260)는 유선 또는/및 무선 네트워크로 구성될 수 있다. 네트워크(1260)는 도 10에 도시된 통신부(1040)에서 언급된 통신 중 적어도 하나의 통신에 기초하여 복수의 디바이스(100, 1210, 1220, 1230, 1240, 1250)와 서버(110)간에 데이터를 송수신할 수 있다.The
상술한 도 2, 도 3, 도 4, 도 6, 도 7, 또는 도 8에 도시된 방법은 컴퓨터 프로그램에 의해 구현될 수 있다. 예를 들어, 상술한 도 2에서 디바이스(100)의 동작은 디바이스(100)에 인스톨된 음성 인식 애플리케이션에 의해 수행될 수 있다. 도 2에 도시된 음성 인식 서버(110)의 동작은 음성 인식 서버(110)에 인스톨된 음성 인식 애플리케이션에 의해 수행될 수 있다. 상술한 컴퓨터 프로그램은 디바이스(100)에 설치된 운영 시스템(Operation System) 환경에서 동작될 수 있다. 상술한 컴퓨터 프로그램은 음성 인식 서버(110)에 설치된 운영 시스템 환경에서 동작될 수 있다. 디바이스(100)는 상술한 컴퓨터 프로그램을 저장 매체에 라이트 하고, 저장 매체로부터 리드하여 사용할 수 있다. 음성 인식 서버(110)는 상술한 컴퓨터 프로그램을 저장 매체에 라이트 하고, 저장 매체로부터 리드하여 사용할 수 있다. The above-described methods shown in Figs. 2, 3, 4, 6, 7, or 8 can be implemented by a computer program. For example, the operation of the
본 개시의 일 실시 예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다. An embodiment of the present disclosure may also be embodied in the form of a recording medium including instructions executable by a computer, such as program modules, being executed by a computer. Computer readable media can be any available media that can be accessed by a computer and includes both volatile and nonvolatile media, removable and non-removable media. In addition, the computer-readable medium can include both computer storage media and communication media. Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data. Communication media typically includes any information delivery media, including computer readable instructions, data structures, program modules, or other data in a modulated data signal such as a carrier wave, or other transport mechanism.
전술한 본 개시의 설명은 예시를 위한 것이며, 본 개시가 속하는 기술분야의 통상의 지식을 가진 자는 본 개시의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.It is to be understood that the foregoing description of the disclosure is for the purpose of illustration only and that those skilled in the art will readily understand that various changes in form and details may be made therein without departing from the spirit and scope of the disclosure will be. It is therefore to be understood that the above-described embodiments are illustrative in all aspects and not restrictive. For example, each component described as a single entity may be distributed and implemented, and components described as being distributed may also be implemented in a combined form.
본 개시의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.The scope of the present disclosure is defined by the appended claims rather than the detailed description, and all changes or modifications derived from the meaning and scope of the claims and their equivalents are to be construed as being included within the scope of the present invention do.
Claims (21)
사용자의 음성 신호를 수신하는 오디오 입력부;
웨이크업 키워드 모델을 저장하는 메모리;
음성 인식 서버와 통신할 수 있는 통신부; 및
상기 오디오 입력부를 통해 상기 사용자의 음성 신호가 수신됨에 따라 상기 웨이크업 키워드 모델을 이용하여 상기 사용자의 음성 신호로부터 웨이크업 키워드를 검출하고,
상기 웨이크업 키워드에 대한 검출 여부 신호와 상기 사용자의 음성 신호를 상기 통신부를 통해 상기 음성 인식 서버로 전송하고,
상기 통신부를 통해 상기 음성 인식 서버로부터 음성 인식 결과를 수신하고, 및
상기 음성 인식 결과에 따라 상기 디바이스를 제어하는 프로세서를 포함하는, 디바이스.In a device,
An audio input unit for receiving a user's voice signal;
A memory for storing a wake-up keyword model;
A communication unit capable of communicating with a speech recognition server; And
Detecting a wake-up keyword from the voice signal of the user using the wake-up keyword model as the voice signal of the user is received through the audio input unit,
A detection signal for the wake-up keyword and a voice signal of the user are transmitted to the voice recognition server through the communication unit,
Receives a speech recognition result from the speech recognition server through the communication unit, and
And a processor for controlling the device in accordance with the speech recognition result.
상기 디바이스에 기초한 환경 정보를 감지하는 환경 정보 감지부를 더 포함하고,
상기 웨이크업 키워드 모델은 환경 정보에 기초한 복수의 웨이크업 키워드 모델을 포함하고,
상기 프로세서는,
상기 복수의 웨이크업 키워드 모델 중에서 상기 환경 정보 감지부를 통해 감지된 상기 디바이스에 기초한 환경 정보에 대응되는 웨이크업 키워드 모델을 이용하여 상기 사용자의 음성 신호로부터 웨이크업 키워드를 검출하는 디바이스.2. The apparatus of claim 1, wherein the device
Further comprising an environmental information sensing unit for sensing environmental information based on the device,
Wherein the wake-up keyword model includes a plurality of wake-up keyword models based on environment information,
The processor comprising:
A device for detecting a wake-up keyword from a voice signal of a user using a wake-up keyword model corresponding to environment information based on the device detected through the environment information sensing unit among the plurality of wake-up keyword models.
상기 오디오 입력부를 통해 수신되는 사용자의 음성 신호에 기초하여 상기 사용자의 식별 정보를 획득하고,
상기 획득된 사용자의 식별 정보를 상기 통신부를 통해 상기 음성 인식 서버로 전송하는 디바이스. 3. The apparatus of claim 2,
Acquiring identification information of the user based on a user's voice signal received through the audio input unit,
And transmits the obtained identification information of the user to the voice recognition server through the communication unit.
상기 프로세서는,
상기 오디오 신호에 대한 매칭률에 기초하여 상기 오디오 신호가 상기 웨이크업 키워드 모델로서 유효한지를 판단하는, 디바이스. The method of claim 1, further comprising: when an audio signal for registering the wake-up keyword model is received through the audio input unit,
The processor comprising:
And determines whether the audio signal is valid as the wake-up keyword model based on a matching rate for the audio signal.
사용자 입력을 수신하는 사용자 입력부를 더 포함하고,
상기 프로세서는,
상기 사용자 입력부를 통해 수신되는 사용자 입력에 따라 상기 메모리에 저장된 후보 웨이크업 키워드 모델중에서 선택된 후보 웨이크업 키워드 모델을 상기 메모리에 등록하는 디바이스.2. The apparatus of claim 1, wherein the device
Further comprising a user input for receiving user input,
The processor comprising:
And registers the candidate wake-up keyword model selected from the candidate wake-up keyword models stored in the memory in accordance with a user input received through the user input unit.
상기 통신부를 통해 상기 음성 인식 서버로부터 상기 웨이크업 키워드 모델을 수신하고,
상기 수신된 웨이크업 키워드 모델을 상기 메모리에 등록하는 디바이스.2. The apparatus of claim 1,
Up keyword model from the speech recognition server via the communication unit,
And registers the received wake-up keyword model in the memory.
상기 오디오 입력부를 통해 수신되는 사용자의 음성 신호에 기초하여 상기 웨이크업 키워드 모델을 생성하고,
상기 생성된 웨이크업 키워드 모델을 상기 메모리에 등록하는 디바이스.2. The apparatus of claim 1,
Up keyword model based on a voice signal of a user received through the audio input unit,
And registers the generated wake-up keyword model in the memory.
적어도 하나의 디바이스와 통신할 수 있는 통신부;
웨이크업 키워드 모델과 음성 인식 모델을 저장하는 메모리; 및
상기 통신부를 통해 상기 적어도 하나의 디바이스 중 하나의 디바이스로부터 웨이크업 키워드에 대한 검출 여부 신호와 사용자의 음성 신호가 수신됨에 따라 상기 웨이크업 키워드 모델이 결합된 음성 인식 모델을 설정하고,
상기 설정된 음성 인식 모델을 이용하여 상기 사용자의 음성 신호를 인식하고,
상기 사용자의 음성 신호에 대한 음성 인식 결과로부터 상기 웨이크업 키워드를 제거하고,
상기 웨이크업 키워드가 제거된 음성 인식 결과를 상기 통신부를 통해 상기 디바이스로 전송하는 프로세서를 포함하는 음성 인식 서버.A voice recognition server comprising:
A communication unit capable of communicating with at least one device;
A memory for storing a wake-up keyword model and a speech recognition model; And
A speech recognition model in which the wake-up keyword model is combined with a detection signal for a wake-up keyword and a voice signal of a user are received from one of the at least one device through the communication unit,
Recognizes the user's voice signal using the set speech recognition model,
Removing the wake-up keyword from a voice recognition result of the voice signal of the user,
And a processor for transmitting the voice recognition result from which the wake-up keyword is removed to the device via the communication unit.
상기 프로세서는,
상기 통신부를 통해 상기 디바이스에 기초한 환경 정보가 수신됨에 따라 상기 복수의 웨이크업 키워드 모델 중에서 상기 디바이스에 기초한 환경 정보에 대응되는 웨이크업 키워드 모델이 결합된 음성 인식 모델을 설정하는, 음성 인식 서버. The method of claim 9, wherein the wake-up keyword model includes a plurality of wake-up keyword models based on environmental information,
The processor comprising:
And a voice recognition model in which a wake-up keyword model corresponding to environment information based on the device is combined among the plurality of wake-up keyword models as the environment information based on the device is received through the communication unit.
상기 통신부를 통해 상기 사용자의 식별 정보가 수신됨에 따라, 상기 사용자의 식별 정보 및 상기 디바이스에 기초한 환경 정보에 관련되는 웨이크업 키워드 모델이 결합된 음성 인식 모델을 설정하는, 음성 인식 서버. 10. The apparatus of claim 9,
And a voice recognition model in which a wake-up keyword model associated with the identification information of the user and the environment information based on the device is combined is received as the identification information of the user is received through the communication unit.
사용자의 음성 신호로부터 웨이크업 키워드를 검출하는 디바이스;
상기 디바이스로부터 상기 웨이크업 키워드에 대한 검출 여부 신호와 상기 사용자의 음성 신호를 수신됨에 따라 웨이크업 키워드 모델이 결합된 음성 인식 모델을 설정하고,
상기 설정된 음성 인식 모델을 이용하여 상기 사용자의 음성 신호를 인식하고, 음성 인식 결과를 상기 디바이스로 전송하는 음성 인식 서버를 포함하는 음성 인식 시스템. In a speech recognition system,
A device for detecting a wakeup keyword from a voice signal of a user;
Setting a voice recognition model in which a wake-up keyword model is combined with a detection signal for the wake-up keyword and a voice signal of the user from the device,
And a speech recognition server for recognizing the user's speech signal using the set speech recognition model and transmitting the speech recognition result to the device.
상기 웨이크업 키워드에 대한 검출 여부 신호와 상기 사용자의 음성 신호를 음성 인식 서버로 전송하는 단계;
상기 음성 인식 서버로부터 상기 사용자의 음성 신호에 대한 인식 결과를 수신하는 단계; 및
상기 사용자의 음성 신호에 대한 인식 결과에 따라 디바이스를 제어하는 단계를 포함하는, 디바이스에서의 음성 인식 방법. Detecting a wake-up keyword from the user's voice signal using a wake-up keyword model as the user's voice signal is received;
Transmitting a detection signal for the wake-up keyword and the voice signal of the user to a voice recognition server;
Receiving a recognition result of the user's voice signal from the voice recognition server; And
And controlling the device in accordance with recognition results of the user's voice signal.
상기 방법은,
상기 디바이스에 기초한 환경 정보를 검출하는 단계; 및
상기 검출된 상기 디바이스에 기초한 환경 정보를 상기 음성 인식 서버로 전송하는 단계를 더 포함하고,
상기 웨이크업 키워드를 검출하는 단계는,
상기 복수의 웨이크업 키워드 모델 중에서 상기 검출된 디바이스에 기초한 환경 정보에 대응되는 웨이크업 키워드 모델을 이용하여 상기 사용자의 음성 신호로부터 웨이크업 키워드를 검출하는 단계를 포함하는, 디바이스에서의 음성 인식 방법. 14. The method of claim 13, wherein the wake-up keyword model includes a plurality of wake-up keyword models based on environmental information,
The method comprises:
Detecting environmental information based on the device; And
And transmitting environment information based on the detected device to the voice recognition server,
Wherein detecting the wakeup keyword comprises:
Detecting a wake-up keyword from the user's voice signal using a wake-up keyword model corresponding to environment information based on the detected device among the plurality of wake-up keyword models.
상기 사용자의 음성 신호에 기초하여 상기 사용자의 식별정보를 획득하는 단계; 및
상기 획득된 사용자의 식별 정보를 상기 음성 인식 서버로 전송하는 단계를 더 포함하는, 디바이스에서의 음성 인식 방법. 15. The method of claim 14,
Obtaining identification information of the user based on the voice signal of the user; And
And transmitting the obtained identification information of the user to the voice recognition server.
상기 웨이크업 키워드에 대한 검출 여부 신호에 따라 음성 인식 모델을 설정하는 단계;
상기 음성 인식 모델을 이용하여 상기 사용자의 음성 신호를 인식하는 단계;
상기 사용자의 음성 신호에 대한 인식 결과로부터 상기 웨이크업 키워드를 제거하는 단계; 및
상기 웨이크업 키워드가 제거된 상기 사용자의 음성 신호에 대한 인식 결과를 상기 디바이스로 전송하는 단계를 포함하는, 음성 인식 서버에서의 음성 인식 방법. Receiving a detection signal and a voice signal of a user for a wakeup keyword from the device;
Setting a speech recognition model according to a detection signal of the wakeup keyword;
Recognizing the user's speech signal using the speech recognition model;
Removing the wake-up keyword from recognition results of the user's voice signal; And
And transmitting to the device a recognition result of the user's voice signal from which the wake-up keyword has been removed.
상기 방법은, 상기 디바이스로부터 디바이스에 기초한 환경 정보를 수신하는 단계를 더 포함하고,
상기 음성 인식 모델을 설정하는 단계는,
환경 정보에 기초한 복수의 웨이크업 키워드 모델 중에서 상기 디바이스에 기초한 환경 정보에 대응되는 웨이크업 키워드 모델이 결합된 음성 인식 모델을 설정하는 단계를 포함하는, 음성 인식 서버에서의 음성 인식 방법. 17. The method of claim 16,
The method may further comprise receiving device-based environment information from the device,
Wherein the step of setting the speech recognition model comprises:
Setting a voice recognition model in which a wake-up keyword model corresponding to environment information based on the device is combined among a plurality of wake-up keyword models based on environment information.
상기 디바이스로부터 사용자의 식별 정보를 수신하는 단계를 더 포함하고,
상기 음성 인식 모델을 설정하는 단계는,
상기 디바이스에 기초한 환경 정보와 상기 사용자의 식별 정보에 관련되는 웨이크업 키워드 모델이 결합된 음성 인식 모델을 설정하는 단계를 포함하는, 음성 인식 서버에서의 음성 인식 방법. 17. The method of claim 16,
Further comprising receiving user identification information from the device,
Wherein the step of setting the speech recognition model comprises:
And setting a speech recognition model in which environmental information based on the device and a wake-up keyword model related to the identification information of the user are combined.
상기 디바이스를 통해 사용자의 음성 신호가 수신됨에 따라 상기 웨이크업 키워드 모델을 이용하여 상기 사용자의 음성 신호로부터 상기 웨이크업 키워드를 검출하는 단계;
상기 웨이크업 키워드에 대한 검출 여부 신호와 상기 사용자의 음성 신호를 상기 디바이스로부터 상기 음성 인식 서버로 전송하는 단계;
상기 음성 인식 서버에서, 상기 웨이크업 키워드에 대한 검출 여부 신호에 따라 음성 인식 모델을 설정하는 단계;
상기 음성 인식 서버에서, 상기 설정된 음성 인식 모델을 이용하여 상기 사용자의 음성 신호를 인식하는 단계;
상기 음성 인식 서버에서, 상기 사용자의 음성 신호에 대한 인식 결과로부터 상기 웨이크업 키워드를 제거하는 단계;
상기 웨이크업 키워드가 제거된 상기 사용자의 음성 신호에 대한 인식 결과를 상기 음성 인식 서버로부터 상기 디바이스로 전송하는 단계; 및
상기 디바이스에서, 상기 수신된 음성 인식 결과에 따라 디바이스를 제어하는 단계를 포함하는, 음성 인식 시스템에서 음성 인식 방법. Registering a wake-up keyword model in a device and a voice recognition server;
Detecting the wake-up keyword from the user's voice signal using the wake-up keyword model as the user's voice signal is received through the device;
Transmitting a detection signal for the wake-up keyword and the user's voice signal from the device to the voice recognition server;
Setting a speech recognition model in the speech recognition server in accordance with a detection signal of the wakeup keyword;
Recognizing the speech signal of the user using the speech recognition model in the speech recognition server;
Removing, at the speech recognition server, the wakeup keyword from recognition results of the user's speech signal;
Transmitting a recognition result of the user's voice signal from which the wake-up keyword is removed to the device from the voice recognition server; And
And in the device, controlling the device in accordance with the received speech recognition result.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP16157937.0A EP3067884B1 (en) | 2015-03-13 | 2016-02-29 | Speech recognition system and speech recognition method thereof |
US15/067,341 US10699718B2 (en) | 2015-03-13 | 2016-03-11 | Speech recognition system and speech recognition method thereof |
CN201610144748.8A CN105976813B (en) | 2015-03-13 | 2016-03-14 | Speech recognition system and speech recognition method thereof |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201562132909P | 2015-03-13 | 2015-03-13 | |
US62/132,909 | 2015-03-13 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20160110085A true KR20160110085A (en) | 2016-09-21 |
KR102585228B1 KR102585228B1 (en) | 2023-10-05 |
Family
ID=57080058
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020160011838A KR102585228B1 (en) | 2015-03-13 | 2016-01-29 | Speech recognition system and method thereof |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102585228B1 (en) |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180040426A (en) * | 2016-10-12 | 2018-04-20 | 삼성전자주식회사 | Electronic apparatus and Method for controlling electronic apparatus thereof |
KR20180069660A (en) * | 2016-12-15 | 2018-06-25 | 삼성전자주식회사 | Method and Apparatus for Voice Recognition |
CN108694943A (en) * | 2017-03-30 | 2018-10-23 | Lg电子株式会社 | Voice server, speech recognition server system and its method of operating |
KR20180127101A (en) * | 2017-05-19 | 2018-11-28 | 엘지전자 주식회사 | Method for operating home appliance and voice recognition server system |
KR20180127102A (en) * | 2017-05-19 | 2018-11-28 | 엘지전자 주식회사 | Home appliance and method for operating the same |
KR20190001067A (en) | 2017-06-26 | 2019-01-04 | 에스케이텔레콤 주식회사 | Method and apparatus for speech recognition |
CN109410916A (en) * | 2017-08-14 | 2019-03-01 | 三星电子株式会社 | Personalized speech recognition methods and the user terminal and server for executing this method |
KR20190021012A (en) * | 2017-08-22 | 2019-03-05 | 네이버 주식회사 | Continuous coversation function in artificial intelligence device |
KR20190034964A (en) * | 2017-09-25 | 2019-04-03 | 현대자동차주식회사 | Apparatus for controlling voice recognition, system having the same and method thereof |
KR20190042918A (en) * | 2017-10-17 | 2019-04-25 | 삼성전자주식회사 | Electronic device and operating method thereof |
KR20190050224A (en) * | 2017-11-02 | 2019-05-10 | 현대자동차주식회사 | Apparatus and method for recoginizing voice in vehicle |
KR20190084202A (en) * | 2017-12-18 | 2019-07-16 | 네이버 주식회사 | Method and system for controlling artificial intelligence device using plurality wake up word |
WO2019160396A3 (en) * | 2019-04-11 | 2020-02-20 | 엘지전자 주식회사 | Guide robot and operation method for guide robot |
KR20200038904A (en) * | 2020-04-02 | 2020-04-14 | 네이버 주식회사 | Continuous coversation function in artificial intelligence device |
US10692499B2 (en) | 2017-04-21 | 2020-06-23 | Lg Electronics Inc. | Artificial intelligence voice recognition apparatus and voice recognition method |
CN111418008A (en) * | 2017-11-30 | 2020-07-14 | 三星电子株式会社 | Method for providing service based on location of sound source and voice recognition apparatus therefor |
JP2020173441A (en) * | 2019-04-05 | 2020-10-22 | 三星電子株式会社Samsung Electronics Co.,Ltd. | Voice recognition method and device |
CN112185382A (en) * | 2020-09-30 | 2021-01-05 | 北京猎户星空科技有限公司 | Method, device, equipment and medium for generating and updating wake-up model |
WO2021025343A1 (en) * | 2019-08-08 | 2021-02-11 | 삼성전자주식회사 | Electronic device and method for recognizing voice by same |
CN112673422A (en) * | 2018-09-11 | 2021-04-16 | 日本电信电话株式会社 | Continuous speech estimation device, continuous speech estimation method, and program |
KR20210130494A (en) * | 2020-04-22 | 2021-11-01 | 한국외국어대학교 연구산학협력단 | Multi-channel voice trigger system and control method for voice recognition control of multiple devices |
US11437030B2 (en) | 2017-10-17 | 2022-09-06 | Samsung Electronics Co., Ltd. | Electronic apparatus and method for voice recognition |
US11514890B2 (en) | 2018-07-13 | 2022-11-29 | Samsung Electronics Co., Ltd. | Method for user voice input processing and electronic device supporting same |
WO2023085699A1 (en) * | 2021-11-10 | 2023-05-19 | 삼성전자주식회사 | Electronic device and control method thereof |
US11687319B2 (en) | 2016-12-15 | 2023-06-27 | Samsung Electronics Co., Ltd. | Speech recognition method and apparatus with activation word based on operating environment of the apparatus |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1020883A (en) * | 1996-07-02 | 1998-01-23 | Fujitsu Ltd | User authentication device |
US20110093265A1 (en) * | 2009-10-16 | 2011-04-21 | Amanda Stent | Systems and Methods for Creating and Using Geo-Centric Language Models |
KR20130133629A (en) * | 2012-05-29 | 2013-12-09 | 삼성전자주식회사 | Method and apparatus for executing voice command in electronic device |
JP2022545557A (en) * | 2019-08-29 | 2022-10-27 | 株式会社ソニー・インタラクティブエンタテインメント | Customizable keyword spotting system with keyword matching |
-
2016
- 2016-01-29 KR KR1020160011838A patent/KR102585228B1/en active IP Right Grant
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1020883A (en) * | 1996-07-02 | 1998-01-23 | Fujitsu Ltd | User authentication device |
US20110093265A1 (en) * | 2009-10-16 | 2011-04-21 | Amanda Stent | Systems and Methods for Creating and Using Geo-Centric Language Models |
KR20130133629A (en) * | 2012-05-29 | 2013-12-09 | 삼성전자주식회사 | Method and apparatus for executing voice command in electronic device |
JP2022545557A (en) * | 2019-08-29 | 2022-10-27 | 株式会社ソニー・インタラクティブエンタテインメント | Customizable keyword spotting system with keyword matching |
Cited By (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180040426A (en) * | 2016-10-12 | 2018-04-20 | 삼성전자주식회사 | Electronic apparatus and Method for controlling electronic apparatus thereof |
KR20180069660A (en) * | 2016-12-15 | 2018-06-25 | 삼성전자주식회사 | Method and Apparatus for Voice Recognition |
US11687319B2 (en) | 2016-12-15 | 2023-06-27 | Samsung Electronics Co., Ltd. | Speech recognition method and apparatus with activation word based on operating environment of the apparatus |
CN108694943A (en) * | 2017-03-30 | 2018-10-23 | Lg电子株式会社 | Voice server, speech recognition server system and its method of operating |
US10692499B2 (en) | 2017-04-21 | 2020-06-23 | Lg Electronics Inc. | Artificial intelligence voice recognition apparatus and voice recognition method |
KR20180127101A (en) * | 2017-05-19 | 2018-11-28 | 엘지전자 주식회사 | Method for operating home appliance and voice recognition server system |
KR20180127102A (en) * | 2017-05-19 | 2018-11-28 | 엘지전자 주식회사 | Home appliance and method for operating the same |
KR20190001067A (en) | 2017-06-26 | 2019-01-04 | 에스케이텔레콤 주식회사 | Method and apparatus for speech recognition |
CN109410916B (en) * | 2017-08-14 | 2023-12-19 | 三星电子株式会社 | Personalized speech recognition method, user terminal and server for executing the method |
CN109410916A (en) * | 2017-08-14 | 2019-03-01 | 三星电子株式会社 | Personalized speech recognition methods and the user terminal and server for executing this method |
KR20190021012A (en) * | 2017-08-22 | 2019-03-05 | 네이버 주식회사 | Continuous coversation function in artificial intelligence device |
KR20190034964A (en) * | 2017-09-25 | 2019-04-03 | 현대자동차주식회사 | Apparatus for controlling voice recognition, system having the same and method thereof |
KR20190042918A (en) * | 2017-10-17 | 2019-04-25 | 삼성전자주식회사 | Electronic device and operating method thereof |
US11437030B2 (en) | 2017-10-17 | 2022-09-06 | Samsung Electronics Co., Ltd. | Electronic apparatus and method for voice recognition |
US11551683B2 (en) | 2017-10-17 | 2023-01-10 | Samsung Electronics Co., Ltd. | Electronic device and operation method therefor |
KR20190050224A (en) * | 2017-11-02 | 2019-05-10 | 현대자동차주식회사 | Apparatus and method for recoginizing voice in vehicle |
CN111418008B (en) * | 2017-11-30 | 2023-10-13 | 三星电子株式会社 | Method for providing service based on position of sound source and voice recognition device therefor |
CN111418008A (en) * | 2017-11-30 | 2020-07-14 | 三星电子株式会社 | Method for providing service based on location of sound source and voice recognition apparatus therefor |
KR20190084202A (en) * | 2017-12-18 | 2019-07-16 | 네이버 주식회사 | Method and system for controlling artificial intelligence device using plurality wake up word |
US11514890B2 (en) | 2018-07-13 | 2022-11-29 | Samsung Electronics Co., Ltd. | Method for user voice input processing and electronic device supporting same |
CN112673422A (en) * | 2018-09-11 | 2021-04-16 | 日本电信电话株式会社 | Continuous speech estimation device, continuous speech estimation method, and program |
JP2020173441A (en) * | 2019-04-05 | 2020-10-22 | 三星電子株式会社Samsung Electronics Co.,Ltd. | Voice recognition method and device |
US11501761B2 (en) | 2019-04-05 | 2022-11-15 | Samsung Electronics Co., Ltd. | Method and apparatus for speech recognition |
US12073825B2 (en) | 2019-04-05 | 2024-08-27 | Samsung Electronics Co., Ltd. | Method and apparatus for speech recognition |
US11276399B2 (en) | 2019-04-11 | 2022-03-15 | Lg Electronics Inc. | Guide robot and method for operating the same |
WO2019160396A3 (en) * | 2019-04-11 | 2020-02-20 | 엘지전자 주식회사 | Guide robot and operation method for guide robot |
US11551687B2 (en) | 2019-08-08 | 2023-01-10 | Samsung Electronics Co., Ltd. | Electronic device and method for speech recognition of the same |
WO2021025343A1 (en) * | 2019-08-08 | 2021-02-11 | 삼성전자주식회사 | Electronic device and method for recognizing voice by same |
KR20200038904A (en) * | 2020-04-02 | 2020-04-14 | 네이버 주식회사 | Continuous coversation function in artificial intelligence device |
KR20210130494A (en) * | 2020-04-22 | 2021-11-01 | 한국외국어대학교 연구산학협력단 | Multi-channel voice trigger system and control method for voice recognition control of multiple devices |
CN112185382A (en) * | 2020-09-30 | 2021-01-05 | 北京猎户星空科技有限公司 | Method, device, equipment and medium for generating and updating wake-up model |
CN112185382B (en) * | 2020-09-30 | 2024-03-08 | 北京猎户星空科技有限公司 | Method, device, equipment and medium for generating and updating wake-up model |
WO2023085699A1 (en) * | 2021-11-10 | 2023-05-19 | 삼성전자주식회사 | Electronic device and control method thereof |
Also Published As
Publication number | Publication date |
---|---|
KR102585228B1 (en) | 2023-10-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102585228B1 (en) | Speech recognition system and method thereof | |
EP3067884B1 (en) | Speech recognition system and speech recognition method thereof | |
CN108369808B (en) | Electronic device and method for controlling the same | |
CN109427333B (en) | Method for activating speech recognition service and electronic device for implementing said method | |
CN108806669B (en) | Electronic device for providing voice recognition service and method thereof | |
CN108023934B (en) | Electronic device and control method thereof | |
US11636861B2 (en) | Electronic device and method of operation thereof | |
US10909982B2 (en) | Electronic apparatus for processing user utterance and controlling method thereof | |
CN108735209B (en) | Wake-up word binding method, intelligent device and storage medium | |
CN108027952B (en) | Method and electronic device for providing content | |
CN107710724B (en) | Method of controlling display, electronic device, and computer-readable recording medium | |
CN107923980B (en) | Method and apparatus for providing location information | |
US11042703B2 (en) | Method and device for generating natural language expression by using framework | |
KR102561572B1 (en) | Method for utilizing sensor and electronic device for the same | |
KR20170019127A (en) | Method for controlling according to state and electronic device thereof | |
KR102389996B1 (en) | Electronic device and method for screen controlling for processing user input using the same | |
KR20160123892A (en) | Electronic apparatus and method for identifying at least one external electronic apparatus | |
KR20180081922A (en) | Method for response to input voice of electronic device and electronic device thereof | |
US11059438B2 (en) | Vehicle on-boarding recognition method and electronic device implementing same | |
US20200034112A1 (en) | Electronic device for performing operation according to user input after partial landing | |
US20170238143A1 (en) | Electronic device and method for providing route information | |
CN115691498A (en) | Voice interaction method, electronic device and medium | |
CN115166633A (en) | Sound source direction determining method, device, terminal and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |