KR102071865B1 - Device and method for recognizing wake-up word using server recognition result - Google Patents
Device and method for recognizing wake-up word using server recognition result Download PDFInfo
- Publication number
- KR102071865B1 KR102071865B1 KR1020180055968A KR20180055968A KR102071865B1 KR 102071865 B1 KR102071865 B1 KR 102071865B1 KR 1020180055968 A KR1020180055968 A KR 1020180055968A KR 20180055968 A KR20180055968 A KR 20180055968A KR 102071865 B1 KR102071865 B1 KR 102071865B1
- Authority
- KR
- South Korea
- Prior art keywords
- caller
- voice
- voice signal
- server
- call
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
Abstract
호출어 인식을 통해 서비스를 제공하는 음성 인식 장치가 개시된다. 음성 인식 장치는 음성 신호를 획득하는 음성 수신부, 상기 음성 신호에 대한 상기 호출어 검출 결과를 나타내는 제1 인식 결과를 생성하고, 상기 음성 신호를 획득한 수신환경에 대응하는 호출이력 및 상기 제1 인식 결과를 기초로 상기 음성 신호의 적어도 일부를 서버로 전송하고, 상기 음성 신호의 적어도 일부에 대한 상기 서버의 인식 결과를 나타내는 제2 인식 결과, 및 상기 제1 인식 결과 중 적어도 하나를 기초로 상기 출력 정보를 생성하는 프로세서 및 상기 출력 정보를 출력하는 출력부를 포함한다.Disclosed is a speech recognition apparatus providing a service through call word recognition. The apparatus for recognizing a voice generates a voice receiver for acquiring a voice signal, a first recognition result indicating the caller detection result for the voice signal, and a call history and the first recognition corresponding to a reception environment in which the voice signal is acquired. Transmitting at least a portion of the speech signal to a server based on a result, and outputting the speech based on at least one of a second recognition result indicating a recognition result of the server for at least a portion of the speech signal, and the first recognition result It includes a processor for generating information and an output unit for outputting the output information.
Description
본 개시는 음성 인식 장치 및 음성 인식 방법에 관한 것으로, 더욱 상세하게는 서버인식 결과를 이용하여 호출어 인식의 오인식률을 향상시키는 장치 및 방법에 관한 것이다.The present disclosure relates to a speech recognition apparatus and a speech recognition method, and more particularly, to an apparatus and a method for improving a false recognition rate of call word recognition by using a server recognition result.
음성 인식 기술은 사용자와 전자 장치 사이의 상호작용을 보다 원활하게 만드는 핵심기술 중 하나이다. 음성 인식 기술을 통해, 전자 장치는 사용자의 음성을 듣고 이해할 수 있으며, 이해한 내용을 바탕으로 사용자에게 적절한 서비스를 제공할 수도 있다. 이에 따라, 사용자는 별도의 조작 없이도 전자 장치에 대하여 사용자가 원하는 서비스를 요청할 수 있다.Speech recognition technology is one of the key technologies to make the interaction between the user and the electronic device more smooth. Through voice recognition technology, the electronic device may listen to and understand the voice of the user, and may provide an appropriate service to the user based on the understood contents. Accordingly, the user may request a service desired by the user from the electronic device without any separate operation.
음성 인식 분야의 여러 기술들 중, 사용자로부터 취득한 음성에 포함된 호출어(wake-up word) 또는 키워드(keyword)를 검출하는 키워드 스팟팅(keyword spotting) 기술이 최근 여러 분야에서 각광받고 있다. 키워드 스팟팅이 제대로 수행되기 위해서는 음성에 포함된 키워드를 인식하고 상기 키워드를 검출하는 비율인 검출률이 높아야 한다. 하지만 이러한 검출률과 함께 키워드 스팟팅에서 중요하게 다루어지는 문제가 키워드 오인식 문제이다. 즉, 음성으로부터 검출된 키워드를 다른 키워드인 것으로 잘못 인식하는 경우, 키워드 스팟팅이 적용된 단말기는 사용자에게 원하지 않는 서비스를 제거하거나 사용자가 의도하지 않았던 처리를 수행할 수도 있다. 따라서, 기존의 키워드 스팟팅 기술에서의 낮은 검출률 또는 높은 오인식률 문제를 해결할 수 있는 방안이 요구되고 있다.Among various technologies in the speech recognition field, a keyword spotting technique for detecting wake-up words or keywords included in a voice acquired from a user has been in the spotlight in recent years. In order to properly perform keyword spotting, a detection rate, which is a ratio of recognizing a keyword included in a voice and detecting the keyword, must be high. However, the problem that is important in keyword spotting along with the detection rate is the keyword misrecognition problem. That is, when a keyword detected from voice is erroneously recognized as another keyword, the terminal to which keyword spotting is applied may remove a service that is not desired by the user or perform a process not intended by the user. Therefore, there is a need for a method that can solve the problem of low detection rate or high recognition rate in the existing keyword spotting technique.
한편, 음성인식을 이용해 호출어를 인식하고 호출어 인식이 성공한 경우, 특정 서비스를 제공하는 기기에 대한 연구 및 출시가 이루어지고 있다. 이때, 호출어 인식의 경우, 임베디드 음성 인식을 통해 실시간으로 검출이 수행되기 때문에 오인식률이 상대적으로 높아지는 문제가 있다. 이에 따라, 호출어를 인식하는 방법과 관련된 기술이 요구되고 있다. On the other hand, when the recognition of the caller using the voice recognition and the caller recognition is successful, research and release on the device that provides a specific service has been made. At this time, in the case of call word recognition, since the detection is performed in real time through the embedded speech recognition, there is a problem in that the false recognition rate is relatively high. Accordingly, there is a need for a technique related to a method of recognizing call words.
본 개시는 상기와 같은 문제점을 해결하기 위해 안출된 것으로서, 호출어 인식의 정확도를 높일 수 있는 음성 인식 장치 또는 음성 인식 방법을 제공하고자 하는 목적을 가지고 있다. 구체적으로, 본 개시는 호출어 인식의 오인식률을 감소시키는 음성 인식 장치 또는 음성 인식 방법을 제공한다.The present disclosure has been made to solve the above problems, and an object of the present invention is to provide a speech recognition apparatus or a speech recognition method capable of increasing the accuracy of call word recognition. In particular, the present disclosure provides a speech recognition apparatus or a speech recognition method for reducing a false recognition rate of call word recognition.
상기와 같은 과제를 해결하기 위한 본 발명의 실시예에 따르면, 일 실시예에 따른 장치는, 음성 신호를 획득하는 음성 수신부, 상기 음성 신호에 대한 상기 호출어 검출 결과를 나타내는 제1 인식 결과를 생성하고, 상기 음성 신호를 획득한 수신환경에 대응하는 호출이력 및 상기 제1 인식 결과를 기초로 상기 음성 신호의 적어도 일부를 서버로 전송하고, 상기 서버로 상기 음성 신호의 적어도 일부를 전송한 경우, 상기 음성 신호의 적어도 일부에 대한 상기 서버의 인식 결과를 나타내는 제2 인식 결과, 및 상기 제1 인식 결과를 기초로 출력 정보를 생성하고, 상기 서버로 상기 음성 신호를 전송하지 않은 경우, 상기 제1 인식 결과를 기초로 출력 정보를 생성하는, 프로세서 및 생성된 출력 정보를 출력하는 출력부를 포함할 수 있다.According to an embodiment of the present invention for solving the above problems, the apparatus according to an embodiment, the voice receiving unit for obtaining a voice signal, and generates a first recognition result indicating the call word detection result for the voice signal And transmitting at least a part of the voice signal to a server based on a call history corresponding to a reception environment for acquiring the voice signal and the first recognition result, and transmitting at least a part of the voice signal to the server. A second recognition result indicating a recognition result of the server of at least a portion of the voice signal, and output information based on the first recognition result, and when the voice signal is not transmitted to the server, the first It may include a processor for generating output information based on the recognition result, and an output unit for outputting the generated output information.
일 실시예에 따른 음성 인식 방법은, 음성 신호를 획득하는 단계, 상기 음성 신호에 대한 상기 호출어 검출 결과를 나타내는 제1 인식 결과를 생성하는 단계, 상기 음성 신호를 획득한 수신환경에 대응하는 호출이력 및 상기 제1 인식 결과를 기초로 상기 음성 신호의 적어도 일부를 서버로 전송하는 단계, 상기 서버로 상기 음성 신호의 적어도 일부를 전송한 경우, 상기 음성 신호의 적어도 일부에 대한 상기 서버의 인식 결과를 나타내는 제2 인식 결과, 및 상기 제1 인식 결과를 기초로 출력 정보를 생성하고, 상기 서버로 상기 음성 신호를 전송하지 않은 경우, 상기 제1 인식 결과를 기초로 출력 정보를 생성하는 단계 및 생성된 출력 정보를 출력하는 단계를 포함할 수 있다.The voice recognition method according to an embodiment of the present disclosure may include obtaining a voice signal, generating a first recognition result indicating the call word detection result of the voice signal, and calling a call corresponding to a reception environment in which the voice signal is obtained. Transmitting at least a portion of the voice signal to a server based on a history and the first recognition result, and when the at least part of the voice signal is transmitted to the server, a result of the server's recognition of at least a portion of the voice signal Generating output information based on a second recognition result indicating a and a first recognition result, and generating and outputting information based on the first recognition result when the voice signal is not transmitted to the server. Outputting the output information.
또 다른 측면에 따른 컴퓨터로 읽을 수 있는 기록매체는 상술한 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 기록매체를 포함할 수 있다.The computer-readable recording medium according to another aspect may include a recording medium recording a program for executing the above-described method on a computer.
본 개시의 일 실시예에 따르면, 호출어 인식의 정확도를 높여 호출어 인식의 오인식률을 감소시킬 수 있다. 또한, 본 개시의 일 실시예에 따르면, 음성을 발화한 사용자에게 효과적으로 출력 정보를 제공할 수 있다. According to an embodiment of the present disclosure, the accuracy of call word recognition may be increased to reduce the false recognition rate of call word recognition. In addition, according to an embodiment of the present disclosure, the output information may be effectively provided to the user who spoke the voice.
또한, 본 개시는 사용자의 음성을 취득한 환경의 특성에 기초하여 호출어를 인식할 수 있다. 이를 통해, 본 개시는 호출어 오인식으로 인한 기기의 오작동을 줄이고 음성 인식을 이용하여 서비스를 제공하는 음성 인식 장치의 에너지 효율을 증가시킬 수 있다.In addition, the present disclosure can recognize the caller based on the characteristics of the environment in which the user's voice is acquired. Through this, the present disclosure can reduce the malfunction of the device due to caller misrecognition and increase the energy efficiency of the speech recognition device that provides a service using speech recognition.
도 1은 본 개시의 일 실시예에 따라 음성 인식 장치 및 서버를 포함하는 서비스 제공 시스템을 나타내는 개략도이다.
도 2는 본 발명의 실시예에 따른 음성 인식 장치의 구성을 나타내는 도면이다.
도 3은 본 개시의 일 실시예에 따른 음성 신호를 나타내는 도면이다.
도 4는 본 개시의 일 실시예에 따라 호출어 파트 및 비호출어 파트를 포함하는 음성 신호를 나타내는 도면이다.
도 5는 본 개시의 일 실시예에 따른 음성 인식 장치의 동작을 나타내는 흐름도이다.
도 6은 본 개시의 일 실시예에 따라 음성 인식 장치와 관련된 호출이력의 예시를 나타내는 도면이다.
도 7은 본 개시의 일 실시예에 따른 음성 인식 장치의 동작 방법을 나타내는 흐름도이다.1 is a schematic diagram illustrating a service providing system including a voice recognition device and a server according to an embodiment of the present disclosure.
2 is a diagram illustrating a configuration of a speech recognition apparatus according to an embodiment of the present invention.
3 is a diagram illustrating a voice signal according to an embodiment of the present disclosure.
4 is a diagram illustrating a voice signal including a caller part and a non-caller part according to an embodiment of the present disclosure.
5 is a flowchart illustrating an operation of a speech recognition apparatus according to an embodiment of the present disclosure.
6 is a diagram illustrating an example of a call history associated with a voice recognition device according to an embodiment of the present disclosure.
7 is a flowchart illustrating a method of operating a speech recognition apparatus according to an embodiment of the present disclosure.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명할 수 있다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다. 명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"할 수 있다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미할 수 있다.DETAILED DESCRIPTION Hereinafter, exemplary embodiments of the present invention may be described in detail with reference to the accompanying drawings so that those skilled in the art may easily implement the present invention. As those skilled in the art would realize, the described embodiments may be modified in various different ways, all without departing from the spirit or scope of the present invention. In the drawings, parts irrelevant to the description are omitted in order to clearly describe the present invention, and like reference numerals designate like parts throughout the specification. Throughout the specification, when a part is said to "include" any component, this may mean that it may further include other components, without excluding other components unless specifically stated otherwise. .
본 개시는, 음성 신호로부터 기 설정된 호출어를 검출하여 출력 정보를 제공하는 음성 인식 장치 및 방법에 관한 것이다. 구체적으로, 본 개시의 일 실시예에 따른 음성 인식 장치 및 방법은, 서버에서 수행된 인식 결과를 이용하여, 호출어에 대응하지 않는 음성 신호가 호출어에 대응하는 것으로 잘못 인식되는 비율을 나타내는 오인식률을 감소시킬 수 있다. 본 개시에서, 호출어(wake-up word)는 음성 인식 장치의 서비스 제공 기능을 트리거(trigger)하기 위해 설정된 키워드(keyword)를 나타낼 수 있다. 이하, 첨부된 도면을 참고하여 본 발명을 상세히 설명한다. 이하 첨부된 도면을 참고하여 본 발명을 상세히 설명한다. The present disclosure relates to a speech recognition apparatus and method for detecting output call words from a speech signal and providing output information. Specifically, the apparatus and method for recognizing speech according to an embodiment of the present disclosure uses a recognition result performed at a server to indicate a rate at which a speech signal that does not correspond to a call word is erroneously recognized as corresponding to the call word. The recognition rate can be reduced. In the present disclosure, a wake-up word may indicate a keyword set for triggering a service providing function of the speech recognition apparatus. Hereinafter, with reference to the accompanying drawings will be described in detail the present invention. Hereinafter, the present invention will be described in detail with reference to the accompanying drawings.
도 1은 본 개시의 일 실시예에 따라 음성 인식 장치(100) 및 서버(200)를 포함하는 서비스 제공 시스템을 나타내는 개략도이다. 도 1에 도시된 바와 같이, 서비스 제공 시스템은 적어도 하나의 음성 인식 장치(100) 및 서버(200)를 포함할 수 있다. 본 개시의 일 실시예에 따른 서비스 제공 시스템은 기 설정된 호출어(이하, '호출어')를 기반으로 서비스를 제공할 수 있다. 예를 들어, 서비스 제공 시스템은 획득된 음성 신호를 인식하여 인식된 결과에 대응하는 서비스를 제공할 수 있다. 이때, 서비스 제공 시스템은 획득된 음성 신호로부터 호출어가 검출되는지 판단할 수 있다. 또한, 서비스 제공 시스템은 획득된 음성 신호로부터 호출어가 검출되는 경우, 인식 결과에 대응하는 서비스를 제공할 수 있다. 반대로 서비스 제공 시스템은 획득된 음성 신호로부터 호출어가 검출되지 않는 경우, 음성 인식을 수행하지 않거나 인식 결과에 대응하는 서비스를 제공하지 않을 수 있다. 서비스 제공 시스템은 음성 인식 장치(100)를 통해 인식 결과에 대응하는 출력 정보를 제공할 수 있다.1 is a schematic diagram illustrating a service providing system including a
본 개시의 일 실시예에 따른 음성 인식 장치(100)는 벽면에 부착된 IoT 단말일 수 있으나 이에 한정되지 않는다. 예를 들어, 음성 인식 장치(100)는 현관에 설치된 조명(light) 형태의 IoT 단말일 수 있다. 또는 음성 인식 장치(100)는 음성 인식 기능이 탑재된 냉/난방 기기, 셋톱 박스(set-top box), 냉장고, TV와 같은 가전기기일 수 있다.The
일 실시예에 따라, 음성 인식 장치(100)는 호출어를 인식하여 음성 인식 장치(100)의 서비스 제공 기능을 웨이크-업(wake-up)할 수 있다. 예를 들어, 음성 인식 장치(100)는 획득된 음성 신호로부터 호출어가 검출되는 경우, 서비스 제공을 위한 음성 인식 동작을 웨이크-업할 수 있다. 음성 인식 장치(100)는 음성 인식 장치(100) 내의 임베디드(embedded) 인식 모듈을 통해 호출어를 인식할 수 있다. 이때, 호출어 인식은 음성 신호로부터 호출어가 검출되는지를 판별하는 동작을 나타낼 수 있다. 음성 인식 장치(100)가 음성인식을 수행하는 방법에 대해서는 도 3을 통해 후술한다.According to an embodiment of the present disclosure, the
한편, 음성 인식 장치(100)는 사용자가 음성 신호에 대응하는 음성을 발화한 의도가 음성 인식 장치(100)를 호출하는 것이 아닌 경우에도 음성 신호로부터 호출어가 검출된 것으로 잘못 인식하여 오동작할 수 있다. 특히, 사용자가 호출어와 유사한 단어를 발화한 경우, 음성 인식 장치(100)는 해당 음성 신호로부터 호출어가 검출된 것으로 잘못 인식하여 오동작할 수 있다. 음성 인식 장치(100)가 음성 인식 기능이 탑재된 가전기기인 경우, 호출어의 오인식으로 인해 불필요한 전력 소비가 발생할 수 있다.On the other hand, the
일 실시예에 따라, 호출어 인식은 서버(200)에 의해 수행될 수도 있다. 이때, 음성 인식 장치(100)는 음성 신호를 서버(200)로 전송하고 인식 결과를 요청할 수 있다. 또한, 음성 인식 장치(100)는 서버(200)로부터 수신된 인식 결과를 기초로 출력 정보를 생성할 수 있다. 이를 통해, 음성 인식 장치(100)는 호출어 인식 오인식률을 감소시킬 수 있다. 음성 인식 장치(100)는 음성 인식 장치(100)에 비해 더 높은 연산 처리 능력을 가지는 서버(200)에 의한 호출어 인식 결과를 획득할 수 있기 때문이다. 또한, 음성 인식 장치(100)는 호출어의 오인식으로 인한 불필요한 전력 소비를 감소시킬 수 있다. 여기에서, 음성 인식 장치(100)의 오인식률은 획득된 음성 신호가 호출어에 대응하지 않는 경우, 음성 인식 장치(100)가 호출어가 검출된 것으로 오인식하는 비율을 나타낸다. 오인식률은 아래 수학식 1과 같이 나타낼 수 있다.According to one embodiment, call word recognition may be performed by the
[수학식 1][Equation 1]
오인식률 = 100 * (인식 단어 수) / (비호출어 입력 단어 수) [%]False recognition rate = 100 * (number of recognized words) / (number of non-calling words) [%]
수학식 1에서, “비호출어 입력 단어 수”는 호출어가 아닌 음성 입력 단어의 개수를 나타낼 수 있다. 또한, “인식 단어 수”는 입력된 비호출어 입력 단어 중에서 호출어로 인식된 단어의 개수를 나타낼 수 있다. 그러나, 음성 인식 장치(100)가 획득한 음성 신호를 서버(200)로 전송하는 경우, 네트워크의 데이터 트래픽이 증가할 수 있다. 이 경우, 음성 인식 장치(100)는 네트워크 환경에 따라 서버(200)로부터 원활한 인식 결과를 수신하지 못할 수도 있다. 본 개시의 일 실시예에 따른 음성 인식 장치(100)는 음성 신호를 획득한 수신환경에 대응하는 호출이력을 기초로 음성 신호를 서버(200)에게 전송할 수 있다. 예를 들어, 음성 인식 장치(100)는 호출이력을 기초로 음성 신호 중에서 서버(200)에게 전송할 적어도 일부분을 결정할 수 있다. 또한, 음성 인식 장치(100)는 결정된 음성 신호의 적어도 일부를 서버(200)로 전송할 수 있다. 여기에서, 호출이력은 특정 수신환경에서 음성 인식 장치가 호출된 이력을 나타내는 정보일 수 있다. 이와 관련하여서는 도 5 내지 도 6을 통해 구체적으로 설명하도록 한다.In
본 개시의 일 실시예에 따른 서버(200)는, 음성 인식 장치(100)가 호출어 또는 서비스 제공을 위한 음성 인식을 수행하는 방법과 동일 또는 유사한 방법으로 음성 인식을 수행할 수 있다. 예를 들어, 서버(200)는 음성 인식 장치(100)로부터 획득된 음성 신호에 대해 음성 인식을 수행할 수 있다. 음성 인식 장치(100)로부터 음성 신호의 적어도 일부를 수신한 서버(200)는 음성 인식을 수행하여 생성된 인식 결과를 음성 인식 장치(100)로 전송할 수 있다. 또한, 서버(200)는 음성 인식을 위한 데이터베이스를 포함할 수 있다. 이때, 데이터베이스는 적어도 하나의 음향 모델 또는 음성 인식 모델을 포함할 수 있다. 그러나 서버(200)가 데이터베이스를 반드시 포함하는 것은 아니며, 서비스 제공 시스템은 서버(200)와 연결된 별도의 저장소(미도시)를 포함할 수도 있다. 이때, 서버(200)는 데이터베이스를 포함하는 저장소로부터 적어도 하나의 음향 모델 또는 음성 인식 모델을 획득할 수 있다.The
도 2는 본 발명의 실시예에 따른 음성 인식 장치(100)의 구성을 나타내는 도면이다. 일 실시예에 따라, 음성 인식 장치(100)는 음성 수신부(110), 프로세서(120) 및 출력부(130)를 포함할 수 있다. 그러나 도 2에 도시된 구성 요소의 일부는 생략될 수 있으며, 도 2에 도시되지 않은 구성 요소를 추가적으로 포함할 수 있다. 또한, 음성 인식 장치(100)는 적어도 둘 이상의 서로 다른 구성요소를 일체로서 구비할 수도 있다. 일 실시예에 따라, 음성 인식 장치(100)는 하나의 반도체 칩(chip)으로 구현될 수도 있다.2 is a diagram illustrating a configuration of a
음성 수신부(110)는 음성 신호를 획득할 수 있다. 음성 수신부(110)는 음성 수신부(110)로 입사되는 음성 신호를 수집할 수 있다. 일 실시예에 따라, 음성 수신부(110)는 적어도 하나의 마이크를 포함할 수 있다. 예를 들어, 음성 수신부(110)는 복수의 마이크를 포함하는 마이크 어레이를 포함할 수 있다. 이때, 마이크 어레이는 원 또는 구 형태 이외의 정육면체 또는 정삼각형과 같은 다양한 형태로 배열된 복수의 마이크를 포함할 수 있다. 다른 일 실시예에 따라, 음성 수신부(110)는 외부의 음향 수집 장치로부터 수집된 음성에 대응하는 음성 신호를 수신할 수도 있다. 예를 들어, 음성 수신부(110)는 음성 신호가 입력되는 음성 신호 입력 단자를 포함할 수 있다. 구체적으로, 음성 수신부(110)는 유선으로 전송되는 음성 신호를 수신하는 음성 신호 입력 단자를 포함할 수 있다. 또는, 음성 수신부(110)는 블루투스(bluetooth) 또는 와이파이(Wi-Fi) 통신 방법을 이용하여 무선으로 전송되는 음성 신호를 수신할 수도 있다.The
프로세서(120)는 명세서 전반에 걸쳐 설명되는 음성 인식 장치(100)의 전반적인 동작을 제어할 수 있다. 프로세서(120)는 음성 인식 장치(100)의 각 구성 요소를 제어할 수 있다. 프로세서(120)는 각종 데이터와 신호의 연산 및 처리를 수행할 수 있다. 프로세서(120)는 반도체 칩 또는 전자 회로 형태의 하드웨어로 구현되거나 하드웨어를 제어하는 소프트웨어로 구현될 수 있다. 프로세서(120)는 하드웨어와 상기 소프트웨어가 결합된 형태로 구현될 수도 있다. 프로세서(120)는 소프트웨어가 포함하는 적어도 하나의 프로그램을 실행하여 음성 인식 장치(100)의 동작을 제어할 수 있다.The
일 실시예에 따라, 프로세서(120)는 전술한 음성 수신부(110)를 통해 획득된 음성 신호로부터 음성을 인식할 수 있다. 프로세서(120)는 전술한 임베디드 음성 인식 모듈을 포함할 수 있다. 일 실시예에 따라, 프로세서(120)는 임베디드 음성 인식 모듈을 이용하여 음성 신호로부터 호출어를 인식할 수 있다. 또한, 프로세서(120)는 송수신부(미도시)를 통해 음성 신호에 대한 인식 결과를 서버(200)에게 요청할 수도 있다. 예를 들어, 송수신부는 프로세서(120)의 제어에 의해 외부 통신 장치와 정보를 송수신할 수 있다. 이때, 송수신부는 외부와 통신을 수행하기 위한 물리적인 하드웨어 및 무형의 소프트웨어를 포함할 수 있다. 또한, 프로세서(120)는 송수신부를 통해 외부의 장치와 유/무선 네트워크를 통해 데이터를 송수신할 수 있다. 이때, 외부의 장치는 음성 인식 장치(100)를 제외한 외부의 모든 통신 네트워크, 개별 유무선 통신 단말기, 서버 및 AP(access point)를 포함할 수 있다. 외부의 장치는 다른 음성 인식 장치 및 서버(200)를 포함할 수 있으나 이에 한정되지 않는다. 또한, 프로세서(120)는 송수신부(미도시)를 통해 음성 신호를 서버(200)로 전송할 수 있다. 프로세서(120)는 서버(200)로부터 획득된 음성 인식 결과를 기초로 출력 정보를 생성할 수도 있다.According to an embodiment, the
프로세서(120)는 출력 정보를 생성할 수 있다. 예를 들어, 호출어가 검출된 경우, 프로세서(120)는 서비스 제공 기능을 웨이크-업할 수 있다. 이 경우, 프로세서(120)는 서비스 제공 기능이 웨이크-업 되었음을 알리는 정보를 포함하는 출력 정보를 생성할 수 있다. 또한, 프로세서(120)는 음성 인식을 수행하여 획득된 인식 결과에 대응하는 출력 정보를 생성할 수 있다. 반대로, 호출어가 검출되지 않은 경우, 프로세서(120)는 호출어가 검출되지 않았음을 알리는 정보를 포함하는 출력 정보를 생성할 수 있다. 또는, 이 경우, 프로세서(120)는 사용자에게 출력 정보를 제공하지 않을 수도 있다. 프로세서(120)는 생성된 출력 정보를 이하 설명되는 출력부(130)를 통해 출력할 수 있다.The
출력부(130)는 사용자에게 제공되는 정보를 출력할 수 있다. 출력부(130)는 프로세서(120)에 의해 생성된 출력 정보를 출력할 수 있다. 또한, 출력부(130)는 빛, 소리, 진동과 같은 형태로 변환된 출력 정보를 출력할 수도 있다. 일 실시예에 따라, 출력부(130)는 스피커, 디스플레이, LED를 포함하는 각종 광원 및 모니터 중 적어도 하나일 수 있으나 이에 한정되지 않는다. 예를 들어, 출력부(130)는 호출어 검출 결과를 기초로 생성된 출력 정보를 출력할 수 있다. 이때, 출력 정보는 호출어 검출 결과를 포함할 수 있다. 출력부(130)는 호출어가 검출된 경우와 호출어가 검출되지 않은 경우에 따라 구별되는 검출 신호를 출력할 수 있다. 예를 들어, 출력부(130)는 광원을 통해, 호출어가 검출된 경우 '파란색' 빛을 출력하고, 호출어가 검출되지 않은 경우 '붉은색' 빛을 출력할 수 있다. 출력부(130)는 스피커를 통해 호출어가 검출된 경우에만 기 설정된 오디오 신호를 출력할 수도 있다. The
또한, 출력부(130)는 음성 인식 장치(100) 고유의 기능을 수행할 수 있다. 구체적으로, 음성 인식 장치(100)가 음성 인식 기능을 포함하는 정보 제공 장치인 경우, 출력부(130)는 사용자의 질의에 대응하는 정보를 오디오 신호 또는 비디오 신호의 형태로 제공할 수도 있다. 예를 들어, 출력부(130)는 사용자의 질의에 대응하는 정보를 텍스트 포맷 또는 음성 포맷으로 출력할 수 있다. 또한, 출력부(130)는 음성 인식 장치(100)와 유무선으로 연결된 다른 장치의 동작을 제어하는 제어 신호를 다른 장치로 전송할 수도 있다. 예를 들어, 음성 인식 장치(100)가 벽면에 부착된 IoT 단말인 경우, 음성 인식 장치(100)는 난방 장치의 온도를 제어하는 제어 신호를 난방 장치로 전송할 수 있다.In addition, the
본 개시의 일 실시예에 따라, 프로세서(120)는 음성 수신부(110)를 통해 음성 신호를 획득할 수 있다. 프로세서(120)는 음성 신호를 획득한 수신환경에 대응하는 호출이력 및 제1 인식 결과를 기초로 음성 신호의 적어도 일부를 서버(200)로 전송할 수 있다. 여기에서, 제1 인식 결과는 음성 신호에 대한 음성 인식 장치(100)의 인식 결과를 나타낼 수 있다. 이때, 제1 인식 결과는 음성 신호의 호출어 포함 여부를 나타내는 음성 인식 장치(100)에 의한 인식 결과를 포함할 수 있다. 또한, 제 1 인식 결과는 음성 인식 장치(100)에 의해 산출된 음성 신호와 호출어 사이의 유사도를 포함할 수 있다. 프로세서(120)가 서버(200)로 음성 신호의 적어도 일부를 전송한 경우, 프로세서(120)는 제1 인식 결과 및 제2 인식 결과를 기초로 출력 정보를 생성할 수 있다. 여기에서, 제 2 인식 결과는 음성 신호 중 서버(200)로 전송된 적어도 일부분에 대한 서버(200)의 인식 결과를 나타낼 수 있다. 이때, 제2 인식 결과는 음성 신호의 호출어 포함 여부를 포함할 수 있다. 제2 인식 결과는 서비스 제공을 위한 음성 인식 결과를 포함할 수 있다. 또한, 프로세서(120)는 최종 호출어 검출 결과를 기초로 출력 정보를 생성할 수 있다. 이때, 최종 호출어 검출 결과는 제1 인식 결과 및 제2 인식 결과를 기초로 획득한 호출어 검출 결과를 나타낼 수 있다. 반면, 프로세서(120)가 서버(200)로 음성 신호를 전송하지 않은 경우, 프로세서(120)는 제1 인식 결과를 기초로 출력 정보를 생성할 수 있다. 이하, 도 3 내지 도 6을 통해 음성 인식 장치(100)의 상세한 동작 방식에 대해서 서술하도록 한다.According to an embodiment of the present disclosure, the
도 3은 본 개시의 일 실시예에 따른 음성 신호를 나타내는 도면이다. 도 3을 참조하면, 음성 신호는 적어도 하나의 프레임(frame)으로 구성될 수 있다. 여기에서, 프레임은 특정 길이로 구분된 신호의 일부 구간을 의미할 수 있다. 도 3에서 f1 내지 f9는 음성 신호에 포함된 각 프레임을 나타낸다. 일 실시예에 따라, 음성 인식 장치(100)는 음성 신호를 기 설정된 프레임으로 분할할 수 있다. 또한, 음성 인식 장치(100)는 분할된 각각의 음성 신호로부터 음향학적 특징(acoustic feature)을 추출할 수 있다. 음성 인식 장치(100)는 추출된 음향학적 특징과 호출어에 대응하는 음향 모델 사이의 유사도를 산출할 수 있다. 또한, 음성 인식 장치(100)는 추출된 음향학적 특징과 호출어에 대응하는 음향 모델 또는 음성인식을 위한 모델 사이의 유사도에 기초하여 호출어의 존재 여부를 판별할 수 있다. 이때, 음향학적 특징은 음성 인식에 필요한 정보를 나타낼 수 있다. 3 is a diagram illustrating a voice signal according to an embodiment of the present disclosure. Referring to FIG. 3, the voice signal may be composed of at least one frame. Here, the frame may mean a part of a signal divided into a specific length. In FIG. 3, f1 to f9 represent each frame included in the voice signal. According to an embodiment, the
예를 들어, 음향학적 특징은 포먼트(formant) 정보 및 피치(pitch) 정보를 포함할 수 있다. 포먼트는 음성 스펙트럼의 스펙트럴 피크(spectral peaks)로 정의되며 스펙트로그램(spectrogram)에서 진폭의 피크(amplitude peak) 값으로 정량화될 수 있다. 피치는 음성의 기본 주파수(Fundamental Frequency)를 의미하며 음성의 주기적 특성을 나타낸다. 음성 인식 장치(100)는 LPC(Linear Predictive Coding) Cepstrum, PLP(Perceptual Linear Prediction) Cepstrum, MFCC(Mel Frequency Cepstral Coefficient) 및 필터뱅크 에너지 분석(Filter Bank Energy Analysis) 중 적어도 하나를 사용하여 음성 신호의 음향학적 특징을 추출할 수 있다. 또한, 음성 인식 장치(100)는 음성 신호로부터 추출된 음향학적 특징과 적어도 하나의 상기 음향 모델 간의 유사도를 판별할 수 있다. 음성 인식 장치(100)는 추출된 음향학적 특징과 가장 유사도가 높은 음향 모델을 해당 음성 신호에 대응하는 음향 모델인 것으로 판별할 수 있다. 또한, 음성 인식 장치(100)는 음성 신호에 대응하는 음향 모델의 텍스트 데이터가 호출어에 대응하는 텍스트를 포함하는지 판별할 수 있다. 호출어에 대응하는 텍스트를 포함하는 경우, 음성 인식 장치(100)는 해당 음성 신호로부터 호출어가 검출된 것으로 결정할 수 있다. 예를 들어, 호출어가 '소리야'인 경우, 음성 인식 장치(100)는 획득된 음성 신호에 대응하는 음향 모델의 텍스트 데이터가 '소리야'를 포함하는 지 판별할 수 있다. For example, the acoustic feature may include formant information and pitch information. Formants are defined as spectral peaks of the speech spectrum and can be quantified as amplitude peak values in the spectrogram. Pitch means the fundamental frequency of the voice and indicates the periodic characteristics of the voice. The
도 4는 본 개시의 일 실시예에 따라 호출어 파트(401) 및 비호출어 파트(402)를 포함하는 음성 신호를 나타내는 도면이다. 도 4를 참조하면, 음성 신호(400)는 호출어 파트(401)와 비호출어 파트(402)를 포함할 수 있다. 여기에서, 호출어 파트(401)는 음성 신호 중에서 호출어에 대응하는 음성을 포함하는 음성 신호의 일 부분을 나타낼 수 있다. 또한, 비호출어 파트(402)는 음성 신호 중에서 호출어가 아닌 비호출어에 대응하는 음성을 포함하는 음성 신호의 일부분을 나타낼 수 있다. 음성 신호 중에서 호출어 파트(401)를 제외한 부분이 비호출어 파트(402)일 수 있다. 음성 인식 장치(100)가 음성 신호로부터 호출어를 검출한 경우, 음성 인식 장치(100)는 음성 신호를 호출어 파트(401)와 비호출어 파트(402)로 분리할 수 있다. 전술한 바와 같이, 음성 인식 장치(100) 또는 서버(200)는 적어도 하나의 프레임 단위로, 음성 신호로부터 음성을 인식할 수 있다. 일 실시예에 따라, 음성 인식 장치(100)는 음성 신호가 포함하는 적어도 하나의 프레임 중 일부 프레임을 서버(200)로 전송할 수 있다. 예를 들어, 음성 인식 장치(100)는 적어도 하나의 프레임을 포함하는 호출어 파트(401)를 서버(200)로 전송할 수 있다. 이때, 호출어 파트(401)는 음성 신호가 포함하는 적어도 하나의 프레임 중에서 호출어에 대응하는 음성 신호를 포함하는 적어도 하나의 프레임을 나타낼 수 있다. 또한, 음성 인식 장치(100)는 적어도 하나의 프레임을 포함하는 비호출어 파트(402)를 서버(200)로 전송할 수 있다. 이때, 비호출어 파트(402)는 음성 신호가 포함하는 적어도 하나의 프레임 중에서 호출어 파트(401)를 제외한 적어도 하나의 프레임을 나타낼 수 있다.4 is a diagram illustrating a voice signal including a
이하에서는, 본 개시의 일 실시예에 따른 음성 인식 장치(100)가 제1 인식 결과 및 제2 인식 결과 중 적어도 하나를 이용하여 출력 정보를 제공하는 방법에 관하여 도 5를 참조하여 설명한다. 도 5는 본 개시의 일 실시예에 따른 음성 인식 장치(100)의 동작을 나타내는 흐름도이다. 단계 S502에서, 음성 인식 장치(100)는 음성 신호를 획득할 수 있다. 예를 들어, 음성 인식 장치(100)는 사용자(300)로부터 발화된 음성에 대응하는 음성 신호를 획득할 수 있다. 사용자(300)는 음성 신호를 통해 음성 인식 장치(100)에게 호출어 및 다양한 유형의 요청(request)을 입력할 수 있다. 서비스 제공을 위한 음성 인식 동작이 활성화된 경우, 음성 인식 장치(100)는 음성 신호로부터 음성을 인식하여 사용자(300)가 요청한 서비스를 제공할 수 있다. 이때, 음성 신호는 호출어에 대응하는 음성 신호를 획득한 때부터 소정의 시간 이내에 획득된 음성 신호일 수 있다.Hereinafter, a method in which the
단계 S504에서, 음성 인식 장치(100)는 음성 신호에 대한 호출어 검출 여부를 나타내는 제1 인식 결과를 생성할 수 있다. 단계 S504에서, 제1 인식 결과가 획득된 음성 신호로부터 호출어가 검출된 것을 나타내는 경우, 음성 인식 장치(100)는 음성 신호의 적어도 일부를 서버(200)로 전송할 수 있다. 예를 들어, 음성 인식 장치(100)는 도 4에서와 같이, 획득된 음성 신호를 호출어 파트(401)와 비호출어 파트(402)로 분리할 수 있다. 이 경우, 음성 인식 장치(100)는 음성 신호의 호출어 파트(401) 및 비호출어 파트(402) 중 적어도 하나를 서버(200)로 전송할 수 있다(단계 S506). 반면, 단계 S504에서, 제1 인식 결과가 획득된 음성 신호로부터 호출어가 검출되지 않음을 나타내는 경우, 음성 신호는 비호출어 파트(402)를 포함할 있다. 이 경우, 음성 인식 장치(100)는 음성 신호를 서버(200)로 전송하지 않을 수 있다. 음성 인식 장치(100)가 음성 신호로부터 호출어가 검출되지 않은 것으로 판단한 경우, 음성 인식 장치(100)는 전술한 서비스 제공 기능을 웨이크-업하지 않을 수 있기 때문이다. 또한, 음성 인식 장치(100)는 후술할 제2 출력 정보를 제공할 수 있다(단계 S518).In operation S504, the
단계 S506에서, 음성 인식 장치(100)는 호출어 파트(401)에 대한 서버(200)로의 전송 여부를 결정할 수 있다. 예를 들어, 음성 인식 장치(100)는 전술한 제1 인식 결과 및 호출이력을 기초로 음성 신호의 호출어 파트(401)에 대한 전송(또는 재인식) 여부를 결정할 수 있다. 또한, 음성 인식 장치(100)가 호출어 파트(401)에 대한 재인식을 수행하지 않을 것으로 결정한 경우, 음성 인식 장치(100)는 음성 신호의 호출어 파트(401)를 서버(200)로 전송하지 않을 수 있다. 이때, 음성 인식 장치(100)는 비호출어 파트(402)를 서버(200)로 전송할 수 있다(단계 S508). 이 경우, 음성 인식 장치(100)는 단계S510에서, 서버(200)로부터 제2 인식 결과를 획득할 수 있다. 이때, 제2 인식 결과는 호출어 인식 결과를 포함하지 않을 수 있다. 제2 인식 결과는 비호출어 파트(402)에 대한 음성 인식 결과를 포함할 수 있다. 음성 인식 장치(100)는 비호출어 파트(402)에 대한 음성 인식 결과를 기초로 제1 출력 정보를 생성할 수 있다.In operation S506, the
반면, 음성 인식 장치(100)가 호출어 파트(401)에 대한 재인식을 수행하는 것으로 결정한 경우, 음성 인식 장치(100)는 서버(200)로 호출어 파트(401) 및 비호출어 파트(402)를 함께 전송할 수 있다(단계 S512). 단계 S512에서, 음성 인식 장치(100)가 호출어 파트(401)를 포함하는 음성 신호를 서버(200)로 전송한 경우, 전술한 제2 인식 결과는 서버(200)의 호출어 인식 결과를 포함할 수 있다. 이때, 서버(200)의 호출어 인식 결과는 음성 신호로부터 호출어가 검출 되었는지 여부를 나타내는 서버(200)에 의한 인식 결과를 나타낼 수 있다. 단계 S514에서, 음성 인식 장치(100)는 제2 인식 결과를 기초로 음성 신호에 대한 호출어 검출 여부를 판별할 수 있다. 제2 인식 결과가 음성 신호로부터 호출어가 검출된 것을 나타내는 경우, 음성 인식 장치(100)는 제1 출력 정보를 제공할 수 있다(단계 S516). 여기에서, 제1 출력 정보는 서비스 제공을 위한 음성 인식 결과를 기초로 생성된 출력 정보일 수 있다. 음성 인식 장치(100)는 제2 인식 결과를 기초로 출력 정보를 생성할 수 있다. 이때, 제2 인식 결과는 음성 신호의 비호출어 파트(402)에 대한 음성 인식 결과를 포함할 수 있다. 음성 인식 장치(100)는 비호출어 파트(402)에 대한 음성 인식 결과를 기초로 제1 출력 정보를 생성할 수 있다. 비호출어 파트(402)에 대한 음성 인식 결과는 서버(200) 또는 서버(200)와 연결된 외부의 장치에 의해 수행된 결과일 수 있다. 또한, 비호출어 파트(402)에 대한 음성 인식 결과는 전술한 서비스 제공을 위한 음성 인식 결과를 나타낼 수 있다.On the other hand, when the
반대로, 단계 S514에서, 제2 인식 결과가 음성 신호로부터 호출어가 검출되지 않음을 나타내는 경우, 음성 인식 장치(100)는 제2 출력 정보를 제공할 수 있다(단계 S518). 여기에서, 제2 출력 정보는 음성 신호로부터 호출어가 검출되지 않음을 나타내는 정보일 수 있다. 예를 들어, 제2 출력 정보는 도 2를 통해 전술한 검출 신호일 수 있다. 또는 도 5와 달리, 음성 인식 장치(100)는 출력 정보를 제공하지 않을 수도 있다. Conversely, in step S514, when the second recognition result indicates that a call word is not detected from the voice signal, the
도 5에서, 음성 인식 장치(100)는 제1 인식 결과와 제2 인식 결과가 서로 다른 경우, 제2 인식 결과를 최종 호출어 검출 결과로 선택할 수 있다. 예를 들어, 음성 신호에 대해 제1 인식 결과가 호출어 검출을 나타내고 제2 인식 결과가 호출어 검출되지 않음을 나타내는 경우, 음성 인식 장치(100)는 음성 신호로부터 호출어가 검출되지 않은 것으로 판단할 수 있다. 이 경우, 음성 인식 장치(100)는 서비스 제공을 위한 출력 정보를 생성하지 않을 수 있다. 제2 인식 결과는 제1 인식 결과에 비해 보다 정밀한 음향 모델의 유사도 판별 결과일 수 있다. 이에 따라, 제2 인식 결과는 제1 인식 결과에 비해 정확도가 높을 수 있다. 제2 인식 결과는 제1 인식 결과에 비해 서버(200)에 의해 더 많은 자원(resource)을 이용할 수 있기 때문이다. 여기에서, 자원은 음성 인식에 이용되는 메모리, 버퍼와 같은 저장 공간을 의미할 수 있다. 또한, 자원은 프로세서에 의해 데이터 연산이 처리되는 시간 또는 빈도 수를 의미할 수 있다. 예를 들어, 음성 인식에 보다 많은 자원이 할당되면 음성 신호에 대한 필터링(filtering)을 수행할 때 보다 고차의 필터를 이용할 수 있다. 또 다른 예로써, 음성 인식에 보다 많은 자원이 할당되면 실수 또는 복소수 연산을 통해 보다 세밀한 처리 결과 값을 가질 수 있다. 본 개시의 일 실시예에 따른 서버(200)는 음성 인식 장치(100)에 비해 높은 데이터 연산 처리 성능을 가지는 적어도 하나의 프로세서를 포함할 수 있다. 또한, 서버(200)는 음성 인식 장치(100)에 비해 큰 저장 공간을 가질 수 있다. 예를 들어, 제2 인식 결과는 제1 인식 결과에 비해 더 많은 개수의 가우시안 분포를 포함하는 음향 모델을 기초로 수행된 인식 결과일 수 있다. 여기에서, 가우시안 분포는 호출어 검출에 이용되는 음향 모델이 포함하는 음향학적 특징을 나타낼 수 있다. 이를 통해, 음성 인식 장치(100)는 서버(200)로부터, 제1 인식 결과에 비해 추가적인 정보를 더 이용하여 수행된 인식 결과를 획득할 수 있다. In FIG. 5, when the first recognition result and the second recognition result are different from each other, the
한편, 본 개시의 일 실시예에 따른 음성 인식 장치(100)는 제1 인식 결과 및 제2 인식 결과를 도 5와 다른 방식으로 조합하여 호출어에 대한 최종 인식 결과를 획득할 수도 있다. 예를 들어, 제1 인식 결과 및 제2 인식 결과는 음성 신호와 호출어에 대응하는 음향 모델 사이의 유사도를 포함할 수 있다. 제1 인식 결과가 유사도를 포함하는 경우, 음성 인식 장치(100)는 제1 인식 결과 및 제2 인식 결과를 조합하여 음성 신호에 대한 최종 호출어 검출여부를 생성할 수 있다. 구체적으로, 제1 인식 결과가 '0.8'이고 제2 인식 결과가 '0.5'인 경우, 음성 인식 장치(100)는 결과값 '(0.8+0.5)/2=0.65'를 획득할 수 있다. 이때, 음성 인식 장치(100)는 결과값을 기준 유사도와 비교하여 최종 호출어 인식 결과를 획득할 수 있다. 기준 유사도가 '0.6'인 경우, 음성 인식 장치(100)는 음성 신호로부터 호출어가 검출된 것으로 판단할 수 있다. 일 실시예에 따라, 음성 인식 장치(100)는 제1 인식 결과 및 제2 인식 결과를 가중합하여 최종 호출어 인식 결과를 생성할 수 있다. 예를 들어, 음성 인식 장치(100)는 제1 인식 결과 및 제2 인식 결과 각각에 적용되는 가중 파라미터를 결정할 수 있다. 음성 인식 장치(100)는 제1 인식 결과 및 제2 인식 결과에 각각 '3' 및 '7'에 대응하는 가중 파라미터를 적용하여 가중합할 수 있다. 음성 인식 장치(100)는 결과값 '(2.4+3.5)/(3+7)=0.59'을 획득할 수 있다. 기준 유사도가 '0.6'인 경우, 음성 인식 장치(100)는 음성 신호로부터 호출어가 검출되지 않은 것으로 판단할 수 있다.Meanwhile, the
한편, 전술한 단계 S506에서, 음성 인식 장치(100)는 음성 신호를 획득한 수신환경에 대응하는 호출이력을 기초로 호출어 파트 전송 여부를 결정할 수 있다. 이하에서는, 일 실시예에 따라 음성 신호에 대한 제1 인식 결과가 호출어 검출을 나타내는 경우, 음성 인식 장치(100)가 호출이력을 기초로 음성 신호의 적어도 일부를 서버(200)로 전송하는 방법에 대해 설명한다. 예를 들어, 수신환경은 음성 인식 장치가 호출된 시간, 음성 인식 장치를 호출한 특정 사용자, 음성 인식 장치가 호출된 때 음성 인식 장치가 위치된 공간의 조도(luminance) 중 적어도 하나를 포함할 수 있다. 또한, 음성 인식 장치(100)는 호출이력을 기초로 음성 신호가 획득된 시간, 음성 신호에 대응하는 음성을 발화한 사용자(300) 및 음성 인식 장치(100) 주변 환경 정보 중 적어도 하나에 대응하는 호출 빈도수를 산출할 수 있다. 이때, 호출 빈도수는 해당 상황에서 음성 인식 장치(100)가 호출된 누적 횟수를 나타낼 수 있다.Meanwhile, in the above-described step S506, the
예를 들어, 음성 인식 장치(100)는 음성 신호를 획득한 시간 정보에 대응하는 호출이력을 기초로 음성 신호의 적어도 일부를 서버로 전송할 수 있다. 구체적으로, 호출이력은 음성 인식 장치(100)가 호출된 시간에 따른 시간 별 호출 빈도수를 포함할 수 있다. 음성 인식 장치(100)는 음성 신호를 획득한 시간에 대응하는 호출 빈도수를 산출할 수 있다. 구체적으로, 도 6은 본 개시의 일 실시예에 따라, 음성 인식 장치와 관련된 호출 이력의 예시를 나타내는 도면이다. 도 6은 음성 인식 장치와 관련된 시간 별 호출 빈도수를 나타낸다. 도 6은 음성 인식 장치(100)가 '오후 6시 30분'에 제1 음성 신호(61)를 획득하고 '오전 2시 50분'에 제2 음성 신호(62)를 획득한 경우를 나타낸다. 음성 인식 장치(100)는 시간 별 호출 빈도수(예를 들어, '호출 빈도수(장치)')를 기초로 호출어 파트를 서버(200)로 전송할 수 있다. 음성 인식 장치(100)는 음성 신호를 획득한 시간을 기초로 제1 시간(601)에 대응하는 제1 호출 빈도수를 산출할 수 있다. 또한, 음성 인식 장치(100)는 제1 호출 빈도수를 기준치와 비교할 수 있다. 이때, 기준치는 호출어 파트에 대한 서버(200)로의 전송 여부를 결정하는 기준이 되는 문턱값일 수 있다. 예를 들어, 제1 호출 빈도수가 기준치 보다 큰 경우, 음성 인식 장치(100)는 제1 호출어 파트를 제외한 음성 신호를 서버(200)로 전송할 수 있다. 여기에서, 제1 호출어 파트는 제1 음성 신호(61)가 포함하는 호출어 파트이다. 반면, 기준치가 '30'인 경우, 음성 인식 장치(100)는 제2 음성 신호(62)가 포함하는 제2 호출어 파트를 서버(200)로 전송할 수 있다. 여기에서, 제2 호출어 파트는 제2 음성 신호(62)가 포함하는 호출어 파트이다. 음성 신호를 획득한 시간에 대응하는 제2 호출 빈도수가 기준치 보다 작은 경우이기 때문이다. 음성 인식 장치(100)는 제2 음성 신호(62)를 획득한 시간을 기초로 제2 시간(602)에 대응하는 제2 호출 빈도수를 산출할 수 있다.For example, the
또한, 음성 인식 장치(100)는 도 6의 '호출 빈도수(서버)'(603)를 이용하여 호출어 파트의 전송여부를 결정할 수도 있다. '호출 빈도수(서버)'(603)는 다른 음성 인식 기기가 호출된 호출이력을 포함할 수 있다. 음성 인식 장치(100)는 음성 인식 장치(100)가 아닌 다른 음성 인식 기기가 호출된 호출이력을 이용할 수 있다. 이때, 다른 음성 인식 기기는 음성 인식 장치(100)와 연결된 서버(200)를 이용하여 음성 인식 서비스를 제공하는 음성 인식 기기일 수 있다. 또한, 다른 음성 인식 기기는 음성 인식 장치(100) 설치된 장소와 유사한 장소에 설치된 음성 인식 기기를 나타낼 수 있다. 예를 들어, 다른 음성 인식 기기는 음성 인식 장치(100)가 설치된 위치를 기준으로 기 설정된 영역 내에 설치된 기기일 수 있다. 다른 음성 인식 기기는 음성 인식 장치(100)와 지리적으로 공통된 지역에 설치된 기기일 수도 있다. 구체적으로, 음성 인식 장치(100)가 다른 음성 인식 기기의 호출 빈도수가 높은 시간에 음성 신호를 획득하는 경우, 음성 인식 장치(100)는 서버(200)로 호출어 파트(401)를 전송하지 않을 수 있다. 음성 신호로부터 호출어가 검출된 것을 나타내는 제1 인식 결과의 신뢰도가 높은 경우이기 때문이다. 음성 인식 장치(100)는 음성 인식 장치(100) 또는 서버(200)와 연결된 각각의 음성 인식 장치가 설치된 장소에 관한 정보를 획득할 수 있다. 이때, 설치된 장소에 관한 정보는 음성 인식 장치가 설치된 지역, 장소의 용도 특성(예를 들어, 가정 또는 사무실)을 포함할 수 있다.In addition, the
일 실시예에 따라, 음성 인식 장치(100)는 신뢰도를 기초로 호출어 파트에 대한 전송 여부를 결정할 수 있다. 여기에서, 신뢰도는 제1 인식 결과에 대한 오류 발생 가능성을 나타낼 수 있다. 신뢰도는 획득된 음성 신호로부터 호출어가 검출된 것을 나타내는 제1 인식 결과의 오류 발생 가능성을 나타낼 수 있다. 예를 들어, 신뢰도가 클 수록 신뢰도가 작은 경우에 비해, 제1 인식 결과가 오류일 가능성이 더 작은 것을 나타낼 수 있다. 음성 인식 장치(100)는 호출이력을 기초로 신뢰도를 결정할 수 있다. 예를 들어, 음성 인식 장치(100)는 신뢰도를 호출 빈도수에 비례하도록 설정할 수 있다. 또한, 음성 인식 장치(100)는 결정된 신뢰도를 기초로 호출어 파트에 대한 서버로의 전송 여부를 결정할 수 있다. 구체적으로, 음성 인식 장치(100)는 제1 시간 정보에 대응하는 제1 호출 빈도수가 제2 시간 정보에 대응하는 제2 호출 빈도수보다 많은 경우, 제1 시간 정보에 대응하는 제1 신뢰도를 제2 시간 정보에 대응하는 제2 신뢰도에 비해 높은 값으로 설정할 수 있다. 또한, 신뢰도가 기 설정된 값 보다 높은 경우, 음성 인식 장치(100)는 획득한 음성 신호 중에서 호출어 파트를 제외한 음성 신호의 일부를 서버(200)로 전송할 수 있다. 반대로, 신뢰도가 기 설정된 값 보다 낮은 경우, 음성 인식 장치(100)는 호출어 파트를 포함하는 음성 신호 전체를 서버(200)로 전송할 수 있다.According to an embodiment, the
여기에서, 기 설정된 값은 서비스 제공 시스템에 기 저장된 값일 수 있다. 기 설정된 값은 음성 인식 장치(100) 또는 음성 인식 서비스를 제공하는 제공자에 의해 설정된 값일 수 있다. 기 설정된 값을 음성 인식 장치(100)를 통해 서비스를 제공받는 특정 사용자에 의해 설정된 값일 수도 있다. 예를 들어, 음성 인식 장치(100)는 서버(200)로부터 기 설정된 값을 획득할 수 있다. 또는 음성 인식 장치(100)는 음성 인식 장치(100) 내부에 기 저장된 값을 이용할 수도 있다. 또한, 기 설정된 값은 네트워크 환경에 따라 결정된 값일 수 있다. 예를 들어, 네트워크 환경에서 수용 가능한 데이터 트래픽 양이 충분한 경우, 데이터 트래픽 양이 적은 경우에 비해 높은 값으로 설정될 수 있다. 데이터 트래픽이 충분한 경우, 음성 인식 장치(100)가 서버(200)로 음성 신호를 전송하기에 용이할 수 있기 때문이다.Here, the preset value may be a value previously stored in the service providing system. The preset value may be a value set by the
일 실시예에 따라, 제1 인식 결과가 음성 신호와 호출어 사이의 유사도를 포함하는 경우, 음성 인식 장치(100)는 제1 인식 결과 및 신뢰도를 기초로 결과값을 산정할 수 있다. 결과값이 기 설정된 값 이상인 경우, 음성 인식 장치(100)는 호출어 파트를 제외한 음성 신호를 서버(200)로 전송할 수 있다. 음성 인식 장치(100)는 음성 신호 중에서, 음성 신호의 호출어 파트를 제외한 비호출어 파트를 서버로 전송할 수 있다. 반대로, 결과값이 기 설정된 값 이하인 경우, 음성 인식 장치(100)는 호출어 파트를 포함하는 음성 신호 전체를 서버(200)로 전송할 수 있다.According to an embodiment, when the first recognition result includes a similarity between the voice signal and the call word, the
한편, 본 개시의 일 실시예에 따라, 호출 이력은 상기 음성 인식 장치를 호출한 사용자 별 호출 이력을 포함할 수 있다. 여기에서, 사용자 별 호출이력은 특정 음성 인식 장치에 대한 특정 사용자의 호출이력을 의미할 수 있다. 이 경우, 음성 인식 장치(100)는 사용자 별 호출이력을 기초로 음성 신호의 적어도 일부를 서버(200)로 전송할 수 있다. 음성 신호에 대응하는 음성을 발화한 사용자에 대응하는 호출이력이 존재하는 경우, 음성 신호로부터 호출어가 검출된 것을 나타내는 제1 인식 결과에 대한 신뢰도가 높을 수 있기 때문이다. 예를 들어, 음성 인식 장치(100)는 기 인식된 음성과 동일한 사용자로부터 발화된 음성을 최초로 수집된 음성에 비해 더 정확하게 인식할 수 있다. 이때, 음성 인식 장치(100)는 뉴럴 네트워크(neural network)를 통한 딥 러닝(deep learning) 기술을 이용할 수 있다. 또한, 사용자에 대응하는 호출이력이 존재하는 경우, 호출이력이 존재하지 않는 경우에 비해, 사용자가 음성 인식 장치(100)를 호출하였을 가능성이 더 높기 때문이다.Meanwhile, according to an embodiment of the present disclosure, the call history may include a call history for each user who calls the voice recognition apparatus. Here, the call history for each user may mean a call history of a specific user for a specific speech recognition device. In this case, the
예를 들어, 음성 인식 장치(100)는 획득된 음성 신호에 대응하는 음성을 발화한 사용자(300)에 대응하는 호출이력이 존재하는지 판별할 수 있다. 구체적으로, 음성 인식 장치(100)는 음성 신호를 기초로 음성 신호에 대응하는 음성을 발화한 사용자(300)를 식별할 수 있다. 음성 인식 장치(100)는 음성 신호로부터 음성 패턴을 추출하여 사용자(300)의 사용자 식별정보를 획득할 수 있다. 음성 인식 장치(100)는 획득된 사용자 식별정보를 기초로 사용자에 대응하는 사용자 별 호출이력을 획득할 수 있다. 그리고, 음성 인식 장치(100)는 판별 결과 및 제1 인식 결과를 기초로 음성 신호의 적어도 일부를 서버(200)로 전송할 수 있다. 구체적으로, 사용자에 대응하는 호출이력이 존재하는 경우, 음성 인식 장치(100)는 호출어 파트 및 비호출어 파트를 서버로 전송할 수 있다. 사용자에 대응하는 호출이력이 존재하지 않는 경우, 음성 인식 장치(100)는 비호출어 파트를 서버로 전송할 수 있다.For example, the
예를 들어, 음성 인식 장치(100)는 사용자(300)로부터 발화된 음성에 대응하는 음성 신호의 호출어 파트를 서버(200)로 전송하지 않을 수 있다. 이때, 음성 인식 장치(100)는 사용자(300)와 관련된 공간에 설치된 경우일 수 있다. 구체적으로, 사용자(300)와 관련된 공간은 사용자(300)가 거주하는 가정 및 상주하는 사무실 중 적어도 하나를 포함할 수 있다. 또한, 특정 사용자에 대응하는 호출 빈도수가 기 설정된 빈도수 보다 많은 경우, 음성 인식 장치(100)는 음성 인식 장치(100)가 설치된 공간을 특정 사용자와 관련된 공간으로 판단할 수 있다. 특정 사용자에 대응하는 호출 빈도수는 특정 사용자의 음성 인식 장치(100)에 대한 호출 빈도수를 포함할 수 있다. 또한, 특정 사용자에 대응하는 호출 빈도수는 음성 인식 장치(100)가 설치된 위치를 기준으로 기 설정된 영역 내에 설치된 다른 음성 인식 기기에 대한 특정 사용자의 호출 빈도수를 포함할 수 있다.For example, the
본 개시의 일 실시예에 따라, 호출이력은 조도 별 호출 빈도수를 포함할 수 있다. 조도 별 호출 빈도수는 음성 인식 장치가 호출된 조도 각각에 대응하는 호출 빈도수를 나타낼 수 있다. 음성 인식 장치(100)는 조도 별 호출 빈도수를 기초로 음성 신호의 적어도 일부를 서버(200)로 전송할 수 있다. 음성 인식 장치(100)는 음성 인식 장치(100)가 호출된 시점에 음성 인식 장치(100)가 설치된 공간의 조도에 따라 제공하는 서비스가 달라지는 기기일 수 있기 때문이다. 예를 들어, 음성 인식 장치(100)가 조명 기능을 탑재한 경우, 기 설정된 조도 미만에서의 호출 빈도수는 기 설정된 조도 이상에서의 호출 빈도수 보다 더 클 수 있다. 음성 인식 장치(100)는 음성 신호를 획득한 시점에 음성 인식 장치(100)가 설치된 공간의 조도를 나타내는 조도 정보를 획득할 수 있다. 음성 인식 장치(100)는 호출이력을 기초로 조도 정보에 대응하는 조도 별 호출 빈도수를 산출할 수 있다. 또한, 음성 인식 장치(100)는 산출된 호출 빈도수를 기초로 호출어 파트를 서버(200)로 전송할 수 있다. 구체적으로, 특정 조도에 대응하는 호출 빈도수가 기 설정된 빈도수 보다 큰 경우, 음성 인식 장치(100)는 호출어 파트를 제외한 음성 신호의 적어도 일부를 서버(200)로 전송할 수 있다. 특정 조도에 대응하는 호출 빈도수가 기 설정된 빈도수 보다 작은 경우, 음성 인식 장치(100)는 호출어 파트 및 비호출어 파트를 서버(200)로 전송할 수 있다. According to an embodiment of the present disclosure, the call log may include a call frequency for each illumination. The call frequency for each illuminance may indicate a call frequency corresponding to each of the illuminance to which the voice recognition apparatus is called. The
도 7은 본 개시의 일 실시예에 따른 음성 인식 장치(100)의 동작 방법을 나타내는 흐름도이다. 도 7을 참조하면, 단계 S702에서, 음성 인식 장치(100)는 음성 신호를 획득할 수 있다. 단계 S704에서, 음성 인식 장치(100)는 음성 신호로부터 호출어를 검출하는 제 1 인식 결과를 생성할 수 있다. 단계 S706에서, 음성 인식 장치(100)는 호출이력 및 제1 인식 결과를 기초로 음성 신호의 적어도 일부를 서버(200)로 전송할 수 있다. 구체적으로, 음성 인식 장치(100)는 호출이력 및 제1 인식 결과를 기초로 호출어 파트에 대한 서버(200)로의 전송 여부를 결정할 수 있다. 또한, 음성 인식 장치(100)는 전송 여부 결정을 기초로 음성 신호의 적어도 일부를 서버(200)로 전송할 수 있다. 단계 S708에서, 음성 인식 장치(100)는 서버로부터 획득한 제2 인식 결과 및 제1 인식 결과 중 적어도 하나를 기초로 출력 정보를 생성할 수 있다. 단계 S710에서, 음성 인식 장치(100)는 생성된 출력 정보를 출력할 수 있다. 예를 들어, 최종 호출어 인식 결과가 음성 신호로부터 호출어가 검출되지 않은 것을 나타내는 경우, 음성 인식 장치(100)는 호출어 검출 결과를 나타내는 출력 정보를 제공할 수 있다. 최종 호출어 인식 결과가 음성 신호로부터 호출어가 검출된 것을 나타내는 경우, 음성 인식 장치(100)는 서비스 제공을 위한 출력 정보를 제공할 수 있다. 전술한 방법을 통해, 음성 인식 장치(100)는 호출어 인식 오인식률을 감소시킬 수 있다. 또한, 음성 인식 장치(100)는 호출이력을 기초로 음성 신호의 호출어 파트를 서버(200)로 선별적으로 전송할 수 있다. 음성 인식 장치(100)는 통신 자원 측면에 있어서 효율적으로 호출어 인식 오인식률을 감소시킬 수 있다.7 is a flowchart illustrating a method of operating the
일부 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함할 수 있다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함할 수 있다. 또한, 본 명세서에서, “부”는 프로세서 또는 회로와 같은 하드웨어 구성(hardware component), 및/또는 프로세서와 같은 하드웨어 구성에 의해 실행되는 소프트웨어 구성(software component)일 수 있다.Some embodiments may also be embodied in the form of a recording medium containing instructions executable by a computer, such as program modules executed by the computer. Computer readable media can be any available media that can be accessed by a computer and can include both volatile and nonvolatile media, removable and non-removable media. In addition, the computer readable medium may include a computer storage medium. Computer storage media may include both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data. In addition, in this specification, “unit” may be a hardware component such as a processor or a circuit, and / or a software component executed by a hardware component such as a processor.
전술한 본 개시의 설명은 예시를 위한 것이며, 본 개시가 속하는 기술분야의 통상의 지식을 가진 자는 본 개시의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.The foregoing description of the disclosure is provided by way of example, and it will be understood by those skilled in the art that the present disclosure may be easily modified into other specific forms without changing the technical spirit or essential features of the present disclosure. will be. Therefore, it should be understood that the embodiments described above are exemplary in all respects and not restrictive. For example, each component described as a single type may be implemented in a distributed manner, and similarly, components described as distributed may be implemented in a combined form.
Claims (14)
음성 신호를 획득하는 음성 수신부, 상기 음성 신호는 호출어에 대응하는 호출어 파트와 상기 호출어가 아닌 비호출어에 대응하는 비호출어 파트로 구분됨;
상기 호출어 파트에 대한 호출어 검출 결과를 나타내는 제1 인식 결과를 생성하고,
상기 제1 인식 결과가 상기 음성 신호로부터 호출어가 검출된 것을 나타내는 경우, 상기 음성 신호를 획득한 수신환경에 대응하는 호출이력 및 상기 제1 인식 결과를 기초로 상기 음성 신호 중에서 상기 음성 신호의 호출어 파트를 상기 비호출어 파트와 함께 외부의 서버로 전송할지 결정하고,
상기 결정에 따라, 상기 음성 신호의 적어도 일부를 상기 서버로 전송하고,
상기 서버로 상기 음성 신호의 호출어 파트를 상기 비호출어 파트와 함께 전송한 경우, 상기 호출어 파트에 대한 상기 서버에서의 호출어 검출 결과를 포함하는 제2 인식 결과 및 상기 비호출어 파트에 대한 인식 결과를 기초로 출력 정보를 생성하고,
상기 서버로 상기 음성 신호의 호출어 파트를 전송하지 않은 경우, 상기 제1 인식 결과 및 상기 비호출어 파트에 대한 인식 결과를 기초로 출력 정보를 생성하는, 프로세서; 및
생성된 출력 정보를 출력하는 출력부를 포함하는, 음성 인식 장치.In the speech recognition device that provides a service through the recognition of the call word,
A voice receiver for acquiring a voice signal, wherein the voice signal is divided into a caller part corresponding to a caller and a non-caller part corresponding to a non-caller;
Generate a first recognition result indicating a caller detection result for the caller part,
If the first recognition result indicates that a caller is detected from the voice signal, the caller of the voice signal among the voice signals based on a call history corresponding to a reception environment for acquiring the voice signal and the first recognition result. Decide whether to send the part along with the non-call part to an external server,
According to the determination, transmitting at least a portion of the voice signal to the server,
When the caller part of the voice signal is transmitted together with the non-caller part to the server, a second recognition result including a caller-detection result of the caller part for the caller part and recognition of the non-caller part Generate output information based on the results,
If the caller part of the voice signal is not transmitted to the server, generating output information based on the first recognition result and the recognition result of the non-calling part; And
And an output unit for outputting the generated output information.
상기 호출이력은 상기 음성 인식 장치를 호출한 사용자 별 호출이력을 포함하고,
상기 프로세서는,
상기 음성 신호에 대응하는 음성을 발화한 사용자에 대응하는 사용자 별 호출이력을 기초로 상기 음성 신호 중에서 상기 음성 신호의 호출어 파트를 상기 비호출어 파트와 함께 서버로 전송할지 결정하는, 음성 인식 장치.The method of claim 1,
The call history includes a call history for each user calling the voice recognition device,
The processor,
And determining whether to transmit a caller part of the voice signal together with the non-caller part of the voice signal to a server based on a call history for each user corresponding to the user who has spoken the voice corresponding to the voice signal.
상기 프로세서는,
상기 음성 신호로부터 음성 패턴을 추출하여 상기 사용자를 식별하는 사용자 식별정보를 획득하고,
상기 사용자 식별정보를 기초로 상기 사용자에 대응하는 사용자 별 호출이력을 획득하는, 음성 인식 장치.The method of claim 3, wherein
The processor,
Extracting a voice pattern from the voice signal to obtain user identification information for identifying the user;
And a call history for each user corresponding to the user based on the user identification information.
상기 프로세서는,
상기 사용자에 대응하는 사용자 별 호출이력이 존재하는지 판별하고,
상기 판별 결과에 따라, 상기 사용자에 대응하는 호출이력이 존재하는 경우, 상기 비호출어 파트를 서버로 전송하고,
상기 사용자에 대응하는 호출이력이 존재하지 않는 경우, 상기 호출어 파트 및 상기 비호출어 파트를 서버로 전송하는, 음성 인식 장치.The method of claim 4, wherein
The processor,
It is determined whether a call history for each user corresponding to the user exists,
If there is a call history corresponding to the user according to the determination result, the non-calling part is transmitted to the server,
And if the call history corresponding to the user does not exist, transmitting the caller part and the non-caller part to a server.
상기 프로세서는,
상기 음성 신호를 획득한 시간을 나타내는 시간 정보 및 상기 호출이력을 기초로, 상기 음성 신호의 호출어 파트를 상기 비호출어 파트와 함께 서버로 전송할지 결정하는, 음성 인식 장치.The method of claim 1,
The processor,
And determining whether to transmit a caller part of the voice signal together with the non-caller part to a server based on time information indicating a time at which the voice signal is obtained and the call history.
상기 호출이력은 음성 인식 장치가 호출된 시간에 따른 시간 별 호출 빈도수를 포함하고,
상기 프로세서는,
상기 호출이력을 기초로 상기 시간 정보에 대응하는 호출 빈도수를 산출하고,
상기 산출된 호출 빈도수를 기초로, 상기 음성 신호의 호출어 파트를 상기 비호출어 파트와 함께 서버로 전송할지 결정하는, 음성 인식 장치.The method of claim 6,
The call history includes a frequency of call by time according to the time the speech recognition device is called,
The processor,
Calculating a call frequency corresponding to the time information based on the call history;
And determining whether to transmit the caller part of the voice signal together with the non-caller part to the server based on the calculated call frequency.
상기 프로세서는,
상기 호출이력을 기초로 상기 제1 인식 결과에 대한 오류 발생 가능성을 나타내는 신뢰도를 획득하고,
상기 신뢰도를 기 설정된 값과 비교한 결과를 기초로, 상기 음성 신호의 호출어 파트를 상기 비호출어 파트와 함께 서버로 전송할지 결정하고,
제1 시간 정보에 대응하는 제1 호출 빈도수가 제2 시간 정보에 대응하는 제2 호출 빈도수보다 많은 경우, 상기 제1 시간 정보에 대응하는 제1 신뢰도는 상기 제2 시간 정보에 대응하는 제2 신뢰도에 비해 높은 값으로 설정되는, 음성 인식 장치.The method of claim 6,
The processor,
Obtaining a reliability indicating a possibility of an error with respect to the first recognition result based on the call history,
Based on a result of comparing the reliability with a preset value, determining whether to transmit a caller part of the voice signal together with the non-caller part to a server,
If the first call frequency corresponding to the first time information is greater than the second call frequency corresponding to the second time information, the first reliability corresponding to the first time information is the second reliability corresponding to the second time information. Speech recognition device, which is set to a high value.
상기 프로세서는,
상기 신뢰도가 기 설정된 값 이상인 경우, 상기 음성 신호 중에서 상기 음성 신호의 호출어 파트를 제외한 상기 비호출어 파트를 상기 서버로 전송하는, 음성 인식 장치.The method of claim 8,
The processor,
And transmitting the non-calling part except the caller part of the voice signal to the server when the reliability is equal to or greater than a preset value.
상기 프로세서는,
상기 신뢰도가 기 설정된 값 이하인 경우, 상기 음성 신호의 호출어 파트 및 상기 비호출어 파트를 서버로 전송하는, 음성 인식 장치.The method of claim 8,
The processor,
And transmitting the caller part and the non-caller part of the voice signal to a server when the reliability is equal to or less than a preset value.
상기 프로세서는,
상기 서버로부터 상기 음성 인식 장치가 아닌 다른 음성 인식 장치에 대응하는 호출이력을 획득하고,
상기 다른 음성 인식 장치에 대응하는 호출이력을 기초로 상기 음성 신호의 적어도 일부를 상기 서버로 전송하고,
상기 다른 음성 인식 장치는, 상기 음성 인식 장치와 연결된 상기 서버와 동일한 서버를 통해 음성 인식 서비스를 제공하는 장치인, 음성 인식 장치.The method of claim 1,
The processor,
Obtaining a call log corresponding to a voice recognition device other than the voice recognition device from the server,
Transmitting at least a portion of the voice signal to the server based on a call history corresponding to the other voice recognition device,
The other voice recognition device is a device for providing a voice recognition service through the same server as the server connected to the voice recognition device.
상기 호출이력은 음성 인식 장치가 호출된 조도에 대응하는 호출 빈도수를 포함하고,
상기 프로세서는,
상기 조도에 대응하는 호출 빈도수를 기초로, 상기 음성 신호를 획득한 시점에 상기 음성 인식 장치가 설치된 공간의 조도를 나타내는 조도 정보에 대응하는 호출 빈도수를 산출하고,
상기 호출 빈도수를 기초로, 상기 음성 신호의 호출어 파트를 상기 비호출어 파트와 함께 서버로 전송할지 결정하는, 음성 인식 장치.The method of claim 1,
The call history includes a call frequency corresponding to the illumination intensity at which the speech recognition apparatus is called,
The processor,
Calculating the call frequency corresponding to the illuminance information indicating the illuminance of the space in which the speech recognition apparatus is installed at the time when the voice signal is obtained, based on the call frequency corresponding to the illuminance,
And determining whether to transmit the caller part of the speech signal together with the non-caller part to the server based on the call frequency.
음성 신호를 획득하는 단계, 상기 음성 신호는 호출어에 대응하는 호출어 파트와 상기 호출어가 아닌 비호출어에 대응하는 비호출어 파트로 구분됨;
상기 호출어 파트에 대한 호출어 검출 결과를 나타내는 제1 인식 결과를 생성하는 단계;
상기 제1 인식 결과가 상기 음성 신호로부터 호출어가 검출된 것을 나타내는 경우, 상기 음성 신호를 획득한 수신환경에 대응하는 호출이력 및 상기 제1 인식 결과를 기초로 상기 음성 신호 중에서 상기 음성 신호의 호출어 파트를 상기 비호출어 파트와 함께 외부의 서버로 전송할지 결정하고,
상기 결정에 따라, 상기 음성 신호의 적어도 일부를 상기 서버로 전송하는 단계;
상기 서버로 상기 음성 신호의 호출어 파트를 상기 비호출어 파트와 함께 전송한 경우, 상기 호출어 파트에 대한 상기 서버에서의 호출어 검출 결과를 포함하는 제2 인식 결과 및 상기 비호출어 파트에 대한 인식 결과를 기초로 출력 정보를 생성하고,
상기 서버로 상기 음성 신호의 호출어 파트를 전송하지 않은 경우, 상기 제1 인식 결과 및 상기 비호출어 파트에 대한 인식 결과를 기초로 출력 정보를 생성하는 단계; 및
생성된 출력 정보를 출력하는 단계를 포함하는, 음성 인식 방법.In the method of operation of a speech recognition device that provides a service through call word recognition,
Obtaining a voice signal, wherein the voice signal is divided into a caller part corresponding to a caller and a non-caller part corresponding to the non-caller;
Generating a first recognition result indicating a caller detection result for the caller part;
If the first recognition result indicates that a caller is detected from the voice signal, the caller of the voice signal among the voice signals based on a call history corresponding to a reception environment for acquiring the voice signal and the first recognition result. Decide whether to send the part along with the non-call part to an external server,
In accordance with the determination, transmitting at least a portion of the voice signal to the server;
When the caller part of the voice signal is transmitted together with the non-caller part to the server, a second recognition result including a caller-detection result of the caller part for the caller part and recognition of the non-caller part Generate output information based on the results,
If the caller part of the voice signal is not transmitted to the server, generating output information based on the first recognition result and the recognition result of the non-caller part; And
Outputting the generated output information.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170163618 | 2017-11-30 | ||
KR20170163618 | 2017-11-30 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20190064384A KR20190064384A (en) | 2019-06-10 |
KR102071865B1 true KR102071865B1 (en) | 2020-01-31 |
Family
ID=66848344
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180055968A KR102071865B1 (en) | 2017-11-30 | 2018-05-16 | Device and method for recognizing wake-up word using server recognition result |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102071865B1 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102378895B1 (en) * | 2021-09-29 | 2022-03-28 | 주식회사 인피닉 | Method for learning wake-word for speech recognition, and computer program recorded on record-medium for executing method therefor |
CN116758684A (en) * | 2023-06-15 | 2023-09-15 | 西安航空学院 | Optical wake-up system and method |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8694313B2 (en) * | 2010-05-19 | 2014-04-08 | Google Inc. | Disambiguation of contact information using historical data |
CN105493180B (en) * | 2013-08-26 | 2019-08-30 | 三星电子株式会社 | Electronic device and method for speech recognition |
KR102443087B1 (en) * | 2015-09-23 | 2022-09-14 | 삼성전자주식회사 | Electronic device and voice recognition method thereof |
-
2018
- 2018-05-16 KR KR1020180055968A patent/KR102071865B1/en active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
KR20190064384A (en) | 2019-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11875820B1 (en) | Context driven device arbitration | |
US20220215837A1 (en) | Context-based device arbitration | |
US11710478B2 (en) | Pre-wakeword speech processing | |
US11094323B2 (en) | Electronic device and method for processing audio signal by electronic device | |
US11138977B1 (en) | Determining device groups | |
US11423904B2 (en) | Method and system of audio false keyphrase rejection using speaker recognition | |
KR102450993B1 (en) | Responding to Remote Media Classification Queries Using Classifier Models and Context Parameters | |
CN108351872B (en) | Method and system for responding to user speech | |
US20200312315A1 (en) | Acoustic environment aware stream selection for multi-stream speech recognition | |
KR101610151B1 (en) | Speech recognition device and method using individual sound model | |
CN108346425B (en) | Voice activity detection method and device and voice recognition method and device | |
WO2015103836A1 (en) | Voice control method and device | |
KR20180056281A (en) | Apparatus and method for keyword recognition | |
US11361764B1 (en) | Device naming-indicator generation | |
US20180158462A1 (en) | Speaker identification | |
KR102071865B1 (en) | Device and method for recognizing wake-up word using server recognition result | |
WO2022199405A1 (en) | Voice control method and apparatus | |
WO2012121856A1 (en) | Sound recognition method and system | |
US11302334B2 (en) | Method for associating a device with a speaker in a gateway, corresponding computer program, computer and apparatus | |
KR102495019B1 (en) | Sound Device for Recognizing Animal Sound | |
KR102071867B1 (en) | Device and method for recognizing wake-up word using information related to speech signal | |
KR102573242B1 (en) | Sound Device for Recognition of Scream Sound | |
JP2017116876A (en) | Speaker recognition device, discrimination value generation method, and program | |
KR102495028B1 (en) | Sound Device with Function of Whistle Sound Recognition | |
CN110197663B (en) | Control method and device and electronic equipment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right |