KR20190064384A - Device and method for recognizing wake-up word using server recognition result - Google Patents
Device and method for recognizing wake-up word using server recognition result Download PDFInfo
- Publication number
- KR20190064384A KR20190064384A KR1020180055968A KR20180055968A KR20190064384A KR 20190064384 A KR20190064384 A KR 20190064384A KR 1020180055968 A KR1020180055968 A KR 1020180055968A KR 20180055968 A KR20180055968 A KR 20180055968A KR 20190064384 A KR20190064384 A KR 20190064384A
- Authority
- KR
- South Korea
- Prior art keywords
- voice
- server
- speech
- voice signal
- call
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
본 개시는 음성 인식 장치 및 음성 인식 방법에 관한 것으로, 더욱 상세하게는 서버인식 결과를 이용하여 호출어 인식의 오인식률을 향상시키는 장치 및 방법에 관한 것이다.BACKGROUND OF THE
음성 인식 기술은 사용자와 전자 장치 사이의 상호작용을 보다 원활하게 만드는 핵심기술 중 하나이다. 음성 인식 기술을 통해, 전자 장치는 사용자의 음성을 듣고 이해할 수 있으며, 이해한 내용을 바탕으로 사용자에게 적절한 서비스를 제공할 수도 있다. 이에 따라, 사용자는 별도의 조작 없이도 전자 장치에 대하여 사용자가 원하는 서비스를 요청할 수 있다.Speech recognition technology is one of the key technologies to make the interaction between users and electronic devices more smooth. Through the speech recognition technology, the electronic device can listen to and understand the user's voice and provide appropriate services to the user based on the understanding. Accordingly, the user can request the service desired by the user to the electronic device without any special operation.
음성 인식 분야의 여러 기술들 중, 사용자로부터 취득한 음성에 포함된 호출어(wake-up word) 또는 키워드(keyword)를 검출하는 키워드 스팟팅(keyword spotting) 기술이 최근 여러 분야에서 각광받고 있다. 키워드 스팟팅이 제대로 수행되기 위해서는 음성에 포함된 키워드를 인식하고 상기 키워드를 검출하는 비율인 검출률이 높아야 한다. 하지만 이러한 검출률과 함께 키워드 스팟팅에서 중요하게 다루어지는 문제가 키워드 오인식 문제이다. 즉, 음성으로부터 검출된 키워드를 다른 키워드인 것으로 잘못 인식하는 경우, 키워드 스팟팅이 적용된 단말기는 사용자에게 원하지 않는 서비스를 제거하거나 사용자가 의도하지 않았던 처리를 수행할 수도 있다. 따라서, 기존의 키워드 스팟팅 기술에서의 낮은 검출률 또는 높은 오인식률 문제를 해결할 수 있는 방안이 요구되고 있다.Among various techniques in the field of speech recognition, a keyword spotting technique for detecting a wake-up word or a keyword included in a voice acquired from a user has recently been spotlighted in various fields. In order for the keyword spotting to be performed properly, the detection rate, which is the rate of detecting the keyword included in the voice, must be high. However, with this detection rate, the key issue in keyword spotting is keyword recognition. That is, when the keyword detected from the voice is mistakenly recognized as another keyword, the terminal to which the keyword spotting is applied may remove the unwanted service to the user or perform the processing that the user did not intend. Accordingly, there is a demand for a solution that can solve the low detection rate or the high recognition rate problem in the existing keyword spotting technology.
한편, 음성인식을 이용해 호출어를 인식하고 호출어 인식이 성공한 경우, 특정 서비스를 제공하는 기기에 대한 연구 및 출시가 이루어지고 있다. 이때, 호출어 인식의 경우, 임베디드 음성 인식을 통해 실시간으로 검출이 수행되기 때문에 오인식률이 상대적으로 높아지는 문제가 있다. 이에 따라, 호출어를 인식하는 방법과 관련된 기술이 요구되고 있다. On the other hand, when a caller is recognized using speech recognition and the recognition of the caller is successful, research and release of a device providing a specific service are being conducted. At this time, in the case of caller recognition, since the detection is performed in real time through the embedded speech recognition, there is a problem that the recognition rate is relatively increased. Accordingly, a technique related to a method of recognizing a call word is required.
본 개시는 상기와 같은 문제점을 해결하기 위해 안출된 것으로서, 호출어 인식의 정확도를 높일 수 있는 음성 인식 장치 또는 음성 인식 방법을 제공하고자 하는 목적을 가지고 있다. 구체적으로, 본 개시는 호출어 인식의 오인식률을 감소시키는 음성 인식 장치 또는 음성 인식 방법을 제공한다.SUMMARY OF THE INVENTION The present invention has been made to solve the above-mentioned problems, and it is an object of the present invention to provide a speech recognition apparatus or a speech recognition method capable of improving the accuracy of speech recognition. Specifically, the present disclosure provides a speech recognition apparatus or speech recognition method that reduces the false recognition rate of speech recognition.
상기와 같은 과제를 해결하기 위한 본 발명의 실시예에 따르면, 일 실시예에 따른 장치는, 음성 신호를 획득하는 음성 수신부, 상기 음성 신호에 대한 상기 호출어 검출 결과를 나타내는 제1 인식 결과를 생성하고, 상기 음성 신호를 획득한 수신환경에 대응하는 호출이력 및 상기 제1 인식 결과를 기초로 상기 음성 신호의 적어도 일부를 서버로 전송하고, 상기 서버로 상기 음성 신호의 적어도 일부를 전송한 경우, 상기 음성 신호의 적어도 일부에 대한 상기 서버의 인식 결과를 나타내는 제2 인식 결과, 및 상기 제1 인식 결과를 기초로 출력 정보를 생성하고, 상기 서버로 상기 음성 신호를 전송하지 않은 경우, 상기 제1 인식 결과를 기초로 출력 정보를 생성하는, 프로세서 및 생성된 출력 정보를 출력하는 출력부를 포함할 수 있다.According to another aspect of the present invention, there is provided an apparatus for generating a voice recognition result, the apparatus comprising: a voice recognition unit for acquiring a voice signal; And transmitting at least a part of the voice signal to a server based on a call history corresponding to a reception environment in which the voice signal is acquired and the first recognition result, and transmitting at least a part of the voice signal to the server, A second recognition result indicating a recognition result of the server with respect to at least a part of the voice signal and output information based on the first recognition result and when the voice signal is not transmitted to the server, A processor for generating output information based on the recognition result, and an output unit for outputting the generated output information.
일 실시예에 따른 음성 인식 방법은, 음성 신호를 획득하는 단계, 상기 음성 신호에 대한 상기 호출어 검출 결과를 나타내는 제1 인식 결과를 생성하는 단계, 상기 음성 신호를 획득한 수신환경에 대응하는 호출이력 및 상기 제1 인식 결과를 기초로 상기 음성 신호의 적어도 일부를 서버로 전송하는 단계, 상기 서버로 상기 음성 신호의 적어도 일부를 전송한 경우, 상기 음성 신호의 적어도 일부에 대한 상기 서버의 인식 결과를 나타내는 제2 인식 결과, 및 상기 제1 인식 결과를 기초로 출력 정보를 생성하고, 상기 서버로 상기 음성 신호를 전송하지 않은 경우, 상기 제1 인식 결과를 기초로 출력 정보를 생성하는 단계 및 생성된 출력 정보를 출력하는 단계를 포함할 수 있다.A speech recognition method according to an embodiment includes the steps of acquiring a speech signal, generating a first recognition result indicating the result of the speech recognition for the speech signal, Transmitting at least a portion of the voice signal to the server based on the history and the first recognition result; and transmitting the recognition result of at least a part of the voice signal to the server when transmitting at least a part of the voice signal to the server Generating output information based on the first recognition result and generating output information based on the first recognition result when the voice signal is not transmitted to the server; And outputting the output information.
또 다른 측면에 따른 컴퓨터로 읽을 수 있는 기록매체는 상술한 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 기록매체를 포함할 수 있다.According to another aspect, a computer-readable recording medium may include a recording medium on which a program for causing a computer to execute the above-described method is recorded.
본 개시의 일 실시예에 따르면, 호출어 인식의 정확도를 높여 호출어 인식의 오인식률을 감소시킬 수 있다. 또한, 본 개시의 일 실시예에 따르면, 음성을 발화한 사용자에게 효과적으로 출력 정보를 제공할 수 있다. According to an embodiment of the present disclosure, it is possible to improve the accuracy of the caller recognition and reduce the misrecognition rate of the caller recognition. Further, according to the embodiment of the present disclosure, it is possible to effectively provide the output information to the user who uttered the voice.
또한, 본 개시는 사용자의 음성을 취득한 환경의 특성에 기초하여 호출어를 인식할 수 있다. 이를 통해, 본 개시는 호출어 오인식으로 인한 기기의 오작동을 줄이고 음성 인식을 이용하여 서비스를 제공하는 음성 인식 장치의 에너지 효율을 증가시킬 수 있다.The present disclosure is also capable of recognizing the caller based on the characteristics of the environment from which the user's voice was acquired. In this way, the present disclosure can increase the energy efficiency of a speech recognition device that reduces malfunction of the device due to caller misidentification and provides services using speech recognition.
도 1은 본 개시의 일 실시예에 따라 음성 인식 장치 및 서버를 포함하는 서비스 제공 시스템을 나타내는 개략도이다.
도 2는 본 발명의 실시예에 따른 음성 인식 장치의 구성을 나타내는 도면이다.
도 3은 본 개시의 일 실시예에 따른 음성 신호를 나타내는 도면이다.
도 4는 본 개시의 일 실시예에 따라 호출어 파트 및 비호출어 파트를 포함하는 음성 신호를 나타내는 도면이다.
도 5는 본 개시의 일 실시예에 따른 음성 인식 장치의 동작을 나타내는 흐름도이다.
도 6은 본 개시의 일 실시예에 따라 음성 인식 장치와 관련된 호출이력의 예시를 나타내는 도면이다.
도 7은 본 개시의 일 실시예에 따른 음성 인식 장치의 동작 방법을 나타내는 흐름도이다.1 is a schematic diagram illustrating a service providing system including a speech recognition device and a server according to one embodiment of the present disclosure;
2 is a block diagram of a speech recognition apparatus according to an embodiment of the present invention.
3 is a diagram illustrating a speech signal according to one embodiment of the present disclosure.
4 is a diagram illustrating a speech signal including a speech part and a non-preferred part according to one embodiment of the present disclosure;
5 is a flowchart showing the operation of the speech recognition apparatus according to an embodiment of the present disclosure.
6 is a diagram illustrating an example of call history associated with a speech recognition device in accordance with one embodiment of the present disclosure.
7 is a flowchart illustrating a method of operating a speech recognition apparatus according to an embodiment of the present disclosure.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명할 수 있다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다. 명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"할 수 있다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미할 수 있다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings. The present invention may, however, be embodied in many different forms and should not be construed as limited to the embodiments set forth herein. In order to clearly illustrate the present invention, parts not related to the description are omitted, and similar parts are denoted by like reference characters throughout the specification. Throughout the specification, when a section is referred to as "including" an element, it may mean that it may further comprise other elements, .
본 개시는, 음성 신호로부터 기 설정된 호출어를 검출하여 출력 정보를 제공하는 음성 인식 장치 및 방법에 관한 것이다. 구체적으로, 본 개시의 일 실시예에 따른 음성 인식 장치 및 방법은, 서버에서 수행된 인식 결과를 이용하여, 호출어에 대응하지 않는 음성 신호가 호출어에 대응하는 것으로 잘못 인식되는 비율을 나타내는 오인식률을 감소시킬 수 있다. 본 개시에서, 호출어(wake-up word)는 음성 인식 장치의 서비스 제공 기능을 트리거(trigger)하기 위해 설정된 키워드(keyword)를 나타낼 수 있다. 이하, 첨부된 도면을 참고하여 본 발명을 상세히 설명한다. 이하 첨부된 도면을 참고하여 본 발명을 상세히 설명한다. The present disclosure relates to a speech recognition apparatus and method for detecting preset speech from speech signals and providing output information. Specifically, a speech recognition apparatus and method according to an embodiment of the present disclosure, using a recognition result performed by a server, determines whether a speech signal not corresponding to the speech term is misrecognized as corresponding to the speech term, The recognition rate can be reduced. In this disclosure, a wake-up word may represent a keyword set to trigger the service providing function of the speech recognition device. Hereinafter, the present invention will be described in detail with reference to the accompanying drawings. DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENT
도 1은 본 개시의 일 실시예에 따라 음성 인식 장치(100) 및 서버(200)를 포함하는 서비스 제공 시스템을 나타내는 개략도이다. 도 1에 도시된 바와 같이, 서비스 제공 시스템은 적어도 하나의 음성 인식 장치(100) 및 서버(200)를 포함할 수 있다. 본 개시의 일 실시예에 따른 서비스 제공 시스템은 기 설정된 호출어(이하, '호출어')를 기반으로 서비스를 제공할 수 있다. 예를 들어, 서비스 제공 시스템은 획득된 음성 신호를 인식하여 인식된 결과에 대응하는 서비스를 제공할 수 있다. 이때, 서비스 제공 시스템은 획득된 음성 신호로부터 호출어가 검출되는지 판단할 수 있다. 또한, 서비스 제공 시스템은 획득된 음성 신호로부터 호출어가 검출되는 경우, 인식 결과에 대응하는 서비스를 제공할 수 있다. 반대로 서비스 제공 시스템은 획득된 음성 신호로부터 호출어가 검출되지 않는 경우, 음성 인식을 수행하지 않거나 인식 결과에 대응하는 서비스를 제공하지 않을 수 있다. 서비스 제공 시스템은 음성 인식 장치(100)를 통해 인식 결과에 대응하는 출력 정보를 제공할 수 있다.1 is a schematic diagram illustrating a service providing system including a
본 개시의 일 실시예에 따른 음성 인식 장치(100)는 벽면에 부착된 IoT 단말일 수 있으나 이에 한정되지 않는다. 예를 들어, 음성 인식 장치(100)는 현관에 설치된 조명(light) 형태의 IoT 단말일 수 있다. 또는 음성 인식 장치(100)는 음성 인식 기능이 탑재된 냉/난방 기기, 셋톱 박스(set-top box), 냉장고, TV와 같은 가전기기일 수 있다.The
일 실시예에 따라, 음성 인식 장치(100)는 호출어를 인식하여 음성 인식 장치(100)의 서비스 제공 기능을 웨이크-업(wake-up)할 수 있다. 예를 들어, 음성 인식 장치(100)는 획득된 음성 신호로부터 호출어가 검출되는 경우, 서비스 제공을 위한 음성 인식 동작을 웨이크-업할 수 있다. 음성 인식 장치(100)는 음성 인식 장치(100) 내의 임베디드(embedded) 인식 모듈을 통해 호출어를 인식할 수 있다. 이때, 호출어 인식은 음성 신호로부터 호출어가 검출되는지를 판별하는 동작을 나타낼 수 있다. 음성 인식 장치(100)가 음성인식을 수행하는 방법에 대해서는 도 3을 통해 후술한다.According to one embodiment, the
한편, 음성 인식 장치(100)는 사용자가 음성 신호에 대응하는 음성을 발화한 의도가 음성 인식 장치(100)를 호출하는 것이 아닌 경우에도 음성 신호로부터 호출어가 검출된 것으로 잘못 인식하여 오동작할 수 있다. 특히, 사용자가 호출어와 유사한 단어를 발화한 경우, 음성 인식 장치(100)는 해당 음성 신호로부터 호출어가 검출된 것으로 잘못 인식하여 오동작할 수 있다. 음성 인식 장치(100)가 음성 인식 기능이 탑재된 가전기기인 경우, 호출어의 오인식으로 인해 불필요한 전력 소비가 발생할 수 있다.On the other hand, even if the user does not call the
일 실시예에 따라, 호출어 인식은 서버(200)에 의해 수행될 수도 있다. 이때, 음성 인식 장치(100)는 음성 신호를 서버(200)로 전송하고 인식 결과를 요청할 수 있다. 또한, 음성 인식 장치(100)는 서버(200)로부터 수신된 인식 결과를 기초로 출력 정보를 생성할 수 있다. 이를 통해, 음성 인식 장치(100)는 호출어 인식 오인식률을 감소시킬 수 있다. 음성 인식 장치(100)는 음성 인식 장치(100)에 비해 더 높은 연산 처리 능력을 가지는 서버(200)에 의한 호출어 인식 결과를 획득할 수 있기 때문이다. 또한, 음성 인식 장치(100)는 호출어의 오인식으로 인한 불필요한 전력 소비를 감소시킬 수 있다. 여기에서, 음성 인식 장치(100)의 오인식률은 획득된 음성 신호가 호출어에 대응하지 않는 경우, 음성 인식 장치(100)가 호출어가 검출된 것으로 오인식하는 비율을 나타낸다. 오인식률은 아래 수학식 1과 같이 나타낼 수 있다.In accordance with one embodiment, caller recognition may be performed by the
[수학식 1][Equation 1]
오인식률 = 100 * (인식 단어 수) / (비호출어 입력 단어 수) [%]Recognition rate = 100 * (number of recognized words) / (number of unsent guided words) [%]
수학식 1에서, “비호출어 입력 단어 수”는 호출어가 아닌 음성 입력 단어의 개수를 나타낼 수 있다. 또한, “인식 단어 수”는 입력된 비호출어 입력 단어 중에서 호출어로 인식된 단어의 개수를 나타낼 수 있다. 그러나, 음성 인식 장치(100)가 획득한 음성 신호를 서버(200)로 전송하는 경우, 네트워크의 데이터 트래픽이 증가할 수 있다. 이 경우, 음성 인식 장치(100)는 네트워크 환경에 따라 서버(200)로부터 원활한 인식 결과를 수신하지 못할 수도 있다. 본 개시의 일 실시예에 따른 음성 인식 장치(100)는 음성 신호를 획득한 수신환경에 대응하는 호출이력을 기초로 음성 신호를 서버(200)에게 전송할 수 있다. 예를 들어, 음성 인식 장치(100)는 호출이력을 기초로 음성 신호 중에서 서버(200)에게 전송할 적어도 일부분을 결정할 수 있다. 또한, 음성 인식 장치(100)는 결정된 음성 신호의 적어도 일부를 서버(200)로 전송할 수 있다. 여기에서, 호출이력은 특정 수신환경에서 음성 인식 장치가 호출된 이력을 나타내는 정보일 수 있다. 이와 관련하여서는 도 5 내지 도 6을 통해 구체적으로 설명하도록 한다.In Equation (1), " number of non-standard word input words " may represent the number of voice input words other than the call word. Also, the " recognized word count " can represent the number of words recognized as an invocation word among the input non-reference word input words. However, when the
본 개시의 일 실시예에 따른 서버(200)는, 음성 인식 장치(100)가 호출어 또는 서비스 제공을 위한 음성 인식을 수행하는 방법과 동일 또는 유사한 방법으로 음성 인식을 수행할 수 있다. 예를 들어, 서버(200)는 음성 인식 장치(100)로부터 획득된 음성 신호에 대해 음성 인식을 수행할 수 있다. 음성 인식 장치(100)로부터 음성 신호의 적어도 일부를 수신한 서버(200)는 음성 인식을 수행하여 생성된 인식 결과를 음성 인식 장치(100)로 전송할 수 있다. 또한, 서버(200)는 음성 인식을 위한 데이터베이스를 포함할 수 있다. 이때, 데이터베이스는 적어도 하나의 음향 모델 또는 음성 인식 모델을 포함할 수 있다. 그러나 서버(200)가 데이터베이스를 반드시 포함하는 것은 아니며, 서비스 제공 시스템은 서버(200)와 연결된 별도의 저장소(미도시)를 포함할 수도 있다. 이때, 서버(200)는 데이터베이스를 포함하는 저장소로부터 적어도 하나의 음향 모델 또는 음성 인식 모델을 획득할 수 있다.The
도 2는 본 발명의 실시예에 따른 음성 인식 장치(100)의 구성을 나타내는 도면이다. 일 실시예에 따라, 음성 인식 장치(100)는 음성 수신부(110), 프로세서(120) 및 출력부(130)를 포함할 수 있다. 그러나 도 2에 도시된 구성 요소의 일부는 생략될 수 있으며, 도 2에 도시되지 않은 구성 요소를 추가적으로 포함할 수 있다. 또한, 음성 인식 장치(100)는 적어도 둘 이상의 서로 다른 구성요소를 일체로서 구비할 수도 있다. 일 실시예에 따라, 음성 인식 장치(100)는 하나의 반도체 칩(chip)으로 구현될 수도 있다.2 is a diagram showing a configuration of a
음성 수신부(110)는 음성 신호를 획득할 수 있다. 음성 수신부(110)는 음성 수신부(110)로 입사되는 음성 신호를 수집할 수 있다. 일 실시예에 따라, 음성 수신부(110)는 적어도 하나의 마이크를 포함할 수 있다. 예를 들어, 음성 수신부(110)는 복수의 마이크를 포함하는 마이크 어레이를 포함할 수 있다. 이때, 마이크 어레이는 원 또는 구 형태 이외의 정육면체 또는 정삼각형과 같은 다양한 형태로 배열된 복수의 마이크를 포함할 수 있다. 다른 일 실시예에 따라, 음성 수신부(110)는 외부의 음향 수집 장치로부터 수집된 음성에 대응하는 음성 신호를 수신할 수도 있다. 예를 들어, 음성 수신부(110)는 음성 신호가 입력되는 음성 신호 입력 단자를 포함할 수 있다. 구체적으로, 음성 수신부(110)는 유선으로 전송되는 음성 신호를 수신하는 음성 신호 입력 단자를 포함할 수 있다. 또는, 음성 수신부(110)는 블루투스(bluetooth) 또는 와이파이(Wi-Fi) 통신 방법을 이용하여 무선으로 전송되는 음성 신호를 수신할 수도 있다.The
프로세서(120)는 명세서 전반에 걸쳐 설명되는 음성 인식 장치(100)의 전반적인 동작을 제어할 수 있다. 프로세서(120)는 음성 인식 장치(100)의 각 구성 요소를 제어할 수 있다. 프로세서(120)는 각종 데이터와 신호의 연산 및 처리를 수행할 수 있다. 프로세서(120)는 반도체 칩 또는 전자 회로 형태의 하드웨어로 구현되거나 하드웨어를 제어하는 소프트웨어로 구현될 수 있다. 프로세서(120)는 하드웨어와 상기 소프트웨어가 결합된 형태로 구현될 수도 있다. 프로세서(120)는 소프트웨어가 포함하는 적어도 하나의 프로그램을 실행하여 음성 인식 장치(100)의 동작을 제어할 수 있다.The
일 실시예에 따라, 프로세서(120)는 전술한 음성 수신부(110)를 통해 획득된 음성 신호로부터 음성을 인식할 수 있다. 프로세서(120)는 전술한 임베디드 음성 인식 모듈을 포함할 수 있다. 일 실시예에 따라, 프로세서(120)는 임베디드 음성 인식 모듈을 이용하여 음성 신호로부터 호출어를 인식할 수 있다. 또한, 프로세서(120)는 송수신부(미도시)를 통해 음성 신호에 대한 인식 결과를 서버(200)에게 요청할 수도 있다. 예를 들어, 송수신부는 프로세서(120)의 제어에 의해 외부 통신 장치와 정보를 송수신할 수 있다. 이때, 송수신부는 외부와 통신을 수행하기 위한 물리적인 하드웨어 및 무형의 소프트웨어를 포함할 수 있다. 또한, 프로세서(120)는 송수신부를 통해 외부의 장치와 유/무선 네트워크를 통해 데이터를 송수신할 수 있다. 이때, 외부의 장치는 음성 인식 장치(100)를 제외한 외부의 모든 통신 네트워크, 개별 유무선 통신 단말기, 서버 및 AP(access point)를 포함할 수 있다. 외부의 장치는 다른 음성 인식 장치 및 서버(200)를 포함할 수 있으나 이에 한정되지 않는다. 또한, 프로세서(120)는 송수신부(미도시)를 통해 음성 신호를 서버(200)로 전송할 수 있다. 프로세서(120)는 서버(200)로부터 획득된 음성 인식 결과를 기초로 출력 정보를 생성할 수도 있다.According to one embodiment, the
프로세서(120)는 출력 정보를 생성할 수 있다. 예를 들어, 호출어가 검출된 경우, 프로세서(120)는 서비스 제공 기능을 웨이크-업할 수 있다. 이 경우, 프로세서(120)는 서비스 제공 기능이 웨이크-업 되었음을 알리는 정보를 포함하는 출력 정보를 생성할 수 있다. 또한, 프로세서(120)는 음성 인식을 수행하여 획득된 인식 결과에 대응하는 출력 정보를 생성할 수 있다. 반대로, 호출어가 검출되지 않은 경우, 프로세서(120)는 호출어가 검출되지 않았음을 알리는 정보를 포함하는 출력 정보를 생성할 수 있다. 또는, 이 경우, 프로세서(120)는 사용자에게 출력 정보를 제공하지 않을 수도 있다. 프로세서(120)는 생성된 출력 정보를 이하 설명되는 출력부(130)를 통해 출력할 수 있다.The
출력부(130)는 사용자에게 제공되는 정보를 출력할 수 있다. 출력부(130)는 프로세서(120)에 의해 생성된 출력 정보를 출력할 수 있다. 또한, 출력부(130)는 빛, 소리, 진동과 같은 형태로 변환된 출력 정보를 출력할 수도 있다. 일 실시예에 따라, 출력부(130)는 스피커, 디스플레이, LED를 포함하는 각종 광원 및 모니터 중 적어도 하나일 수 있으나 이에 한정되지 않는다. 예를 들어, 출력부(130)는 호출어 검출 결과를 기초로 생성된 출력 정보를 출력할 수 있다. 이때, 출력 정보는 호출어 검출 결과를 포함할 수 있다. 출력부(130)는 호출어가 검출된 경우와 호출어가 검출되지 않은 경우에 따라 구별되는 검출 신호를 출력할 수 있다. 예를 들어, 출력부(130)는 광원을 통해, 호출어가 검출된 경우 '파란색' 빛을 출력하고, 호출어가 검출되지 않은 경우 '붉은색' 빛을 출력할 수 있다. 출력부(130)는 스피커를 통해 호출어가 검출된 경우에만 기 설정된 오디오 신호를 출력할 수도 있다. The
또한, 출력부(130)는 음성 인식 장치(100) 고유의 기능을 수행할 수 있다. 구체적으로, 음성 인식 장치(100)가 음성 인식 기능을 포함하는 정보 제공 장치인 경우, 출력부(130)는 사용자의 질의에 대응하는 정보를 오디오 신호 또는 비디오 신호의 형태로 제공할 수도 있다. 예를 들어, 출력부(130)는 사용자의 질의에 대응하는 정보를 텍스트 포맷 또는 음성 포맷으로 출력할 수 있다. 또한, 출력부(130)는 음성 인식 장치(100)와 유무선으로 연결된 다른 장치의 동작을 제어하는 제어 신호를 다른 장치로 전송할 수도 있다. 예를 들어, 음성 인식 장치(100)가 벽면에 부착된 IoT 단말인 경우, 음성 인식 장치(100)는 난방 장치의 온도를 제어하는 제어 신호를 난방 장치로 전송할 수 있다.In addition, the
본 개시의 일 실시예에 따라, 프로세서(120)는 음성 수신부(110)를 통해 음성 신호를 획득할 수 있다. 프로세서(120)는 음성 신호를 획득한 수신환경에 대응하는 호출이력 및 제1 인식 결과를 기초로 음성 신호의 적어도 일부를 서버(200)로 전송할 수 있다. 여기에서, 제1 인식 결과는 음성 신호에 대한 음성 인식 장치(100)의 인식 결과를 나타낼 수 있다. 이때, 제1 인식 결과는 음성 신호의 호출어 포함 여부를 나타내는 음성 인식 장치(100)에 의한 인식 결과를 포함할 수 있다. 또한, 제 1 인식 결과는 음성 인식 장치(100)에 의해 산출된 음성 신호와 호출어 사이의 유사도를 포함할 수 있다. 프로세서(120)가 서버(200)로 음성 신호의 적어도 일부를 전송한 경우, 프로세서(120)는 제1 인식 결과 및 제2 인식 결과를 기초로 출력 정보를 생성할 수 있다. 여기에서, 제 2 인식 결과는 음성 신호 중 서버(200)로 전송된 적어도 일부분에 대한 서버(200)의 인식 결과를 나타낼 수 있다. 이때, 제2 인식 결과는 음성 신호의 호출어 포함 여부를 포함할 수 있다. 제2 인식 결과는 서비스 제공을 위한 음성 인식 결과를 포함할 수 있다. 또한, 프로세서(120)는 최종 호출어 검출 결과를 기초로 출력 정보를 생성할 수 있다. 이때, 최종 호출어 검출 결과는 제1 인식 결과 및 제2 인식 결과를 기초로 획득한 호출어 검출 결과를 나타낼 수 있다. 반면, 프로세서(120)가 서버(200)로 음성 신호를 전송하지 않은 경우, 프로세서(120)는 제1 인식 결과를 기초로 출력 정보를 생성할 수 있다. 이하, 도 3 내지 도 6을 통해 음성 인식 장치(100)의 상세한 동작 방식에 대해서 서술하도록 한다.According to one embodiment of the present disclosure, the
도 3은 본 개시의 일 실시예에 따른 음성 신호를 나타내는 도면이다. 도 3을 참조하면, 음성 신호는 적어도 하나의 프레임(frame)으로 구성될 수 있다. 여기에서, 프레임은 특정 길이로 구분된 신호의 일부 구간을 의미할 수 있다. 도 3에서 f1 내지 f9는 음성 신호에 포함된 각 프레임을 나타낸다. 일 실시예에 따라, 음성 인식 장치(100)는 음성 신호를 기 설정된 프레임으로 분할할 수 있다. 또한, 음성 인식 장치(100)는 분할된 각각의 음성 신호로부터 음향학적 특징(acoustic feature)을 추출할 수 있다. 음성 인식 장치(100)는 추출된 음향학적 특징과 호출어에 대응하는 음향 모델 사이의 유사도를 산출할 수 있다. 또한, 음성 인식 장치(100)는 추출된 음향학적 특징과 호출어에 대응하는 음향 모델 또는 음성인식을 위한 모델 사이의 유사도에 기초하여 호출어의 존재 여부를 판별할 수 있다. 이때, 음향학적 특징은 음성 인식에 필요한 정보를 나타낼 수 있다. 3 is a diagram illustrating a speech signal according to one embodiment of the present disclosure. Referring to FIG. 3, the speech signal may be composed of at least one frame. Here, a frame may mean a part of a signal divided into specific lengths. In Fig. 3, f1 to f9 denote the respective frames included in the voice signal. According to one embodiment, the
예를 들어, 음향학적 특징은 포먼트(formant) 정보 및 피치(pitch) 정보를 포함할 수 있다. 포먼트는 음성 스펙트럼의 스펙트럴 피크(spectral peaks)로 정의되며 스펙트로그램(spectrogram)에서 진폭의 피크(amplitude peak) 값으로 정량화될 수 있다. 피치는 음성의 기본 주파수(Fundamental Frequency)를 의미하며 음성의 주기적 특성을 나타낸다. 음성 인식 장치(100)는 LPC(Linear Predictive Coding) Cepstrum, PLP(Perceptual Linear Prediction) Cepstrum, MFCC(Mel Frequency Cepstral Coefficient) 및 필터뱅크 에너지 분석(Filter Bank Energy Analysis) 중 적어도 하나를 사용하여 음성 신호의 음향학적 특징을 추출할 수 있다. 또한, 음성 인식 장치(100)는 음성 신호로부터 추출된 음향학적 특징과 적어도 하나의 상기 음향 모델 간의 유사도를 판별할 수 있다. 음성 인식 장치(100)는 추출된 음향학적 특징과 가장 유사도가 높은 음향 모델을 해당 음성 신호에 대응하는 음향 모델인 것으로 판별할 수 있다. 또한, 음성 인식 장치(100)는 음성 신호에 대응하는 음향 모델의 텍스트 데이터가 호출어에 대응하는 텍스트를 포함하는지 판별할 수 있다. 호출어에 대응하는 텍스트를 포함하는 경우, 음성 인식 장치(100)는 해당 음성 신호로부터 호출어가 검출된 것으로 결정할 수 있다. 예를 들어, 호출어가 '소리야'인 경우, 음성 인식 장치(100)는 획득된 음성 신호에 대응하는 음향 모델의 텍스트 데이터가 '소리야'를 포함하는 지 판별할 수 있다. For example, the acoustic features may include formant information and pitch information. Formants are defined as spectral peaks of the sound spectrum and can be quantified as amplitude peak values in the spectrogram. Pitch refers to the fundamental frequency of speech and represents the periodic nature of speech. The
도 4는 본 개시의 일 실시예에 따라 호출어 파트(401) 및 비호출어 파트(402)를 포함하는 음성 신호를 나타내는 도면이다. 도 4를 참조하면, 음성 신호(400)는 호출어 파트(401)와 비호출어 파트(402)를 포함할 수 있다. 여기에서, 호출어 파트(401)는 음성 신호 중에서 호출어에 대응하는 음성을 포함하는 음성 신호의 일 부분을 나타낼 수 있다. 또한, 비호출어 파트(402)는 음성 신호 중에서 호출어가 아닌 비호출어에 대응하는 음성을 포함하는 음성 신호의 일부분을 나타낼 수 있다. 음성 신호 중에서 호출어 파트(401)를 제외한 부분이 비호출어 파트(402)일 수 있다. 음성 인식 장치(100)가 음성 신호로부터 호출어를 검출한 경우, 음성 인식 장치(100)는 음성 신호를 호출어 파트(401)와 비호출어 파트(402)로 분리할 수 있다. 전술한 바와 같이, 음성 인식 장치(100) 또는 서버(200)는 적어도 하나의 프레임 단위로, 음성 신호로부터 음성을 인식할 수 있다. 일 실시예에 따라, 음성 인식 장치(100)는 음성 신호가 포함하는 적어도 하나의 프레임 중 일부 프레임을 서버(200)로 전송할 수 있다. 예를 들어, 음성 인식 장치(100)는 적어도 하나의 프레임을 포함하는 호출어 파트(401)를 서버(200)로 전송할 수 있다. 이때, 호출어 파트(401)는 음성 신호가 포함하는 적어도 하나의 프레임 중에서 호출어에 대응하는 음성 신호를 포함하는 적어도 하나의 프레임을 나타낼 수 있다. 또한, 음성 인식 장치(100)는 적어도 하나의 프레임을 포함하는 비호출어 파트(402)를 서버(200)로 전송할 수 있다. 이때, 비호출어 파트(402)는 음성 신호가 포함하는 적어도 하나의 프레임 중에서 호출어 파트(401)를 제외한 적어도 하나의 프레임을 나타낼 수 있다.FIG. 4 is a diagram illustrating a speech signal including a
이하에서는, 본 개시의 일 실시예에 따른 음성 인식 장치(100)가 제1 인식 결과 및 제2 인식 결과 중 적어도 하나를 이용하여 출력 정보를 제공하는 방법에 관하여 도 5를 참조하여 설명한다. 도 5는 본 개시의 일 실시예에 따른 음성 인식 장치(100)의 동작을 나타내는 흐름도이다. 단계 S502에서, 음성 인식 장치(100)는 음성 신호를 획득할 수 있다. 예를 들어, 음성 인식 장치(100)는 사용자(300)로부터 발화된 음성에 대응하는 음성 신호를 획득할 수 있다. 사용자(300)는 음성 신호를 통해 음성 인식 장치(100)에게 호출어 및 다양한 유형의 요청(request)을 입력할 수 있다. 서비스 제공을 위한 음성 인식 동작이 활성화된 경우, 음성 인식 장치(100)는 음성 신호로부터 음성을 인식하여 사용자(300)가 요청한 서비스를 제공할 수 있다. 이때, 음성 신호는 호출어에 대응하는 음성 신호를 획득한 때부터 소정의 시간 이내에 획득된 음성 신호일 수 있다.Hereinafter, a method by which the
단계 S504에서, 음성 인식 장치(100)는 음성 신호에 대한 호출어 검출 여부를 나타내는 제1 인식 결과를 생성할 수 있다. 단계 S504에서, 제1 인식 결과가 획득된 음성 신호로부터 호출어가 검출된 것을 나타내는 경우, 음성 인식 장치(100)는 음성 신호의 적어도 일부를 서버(200)로 전송할 수 있다. 예를 들어, 음성 인식 장치(100)는 도 4에서와 같이, 획득된 음성 신호를 호출어 파트(401)와 비호출어 파트(402)로 분리할 수 있다. 이 경우, 음성 인식 장치(100)는 음성 신호의 호출어 파트(401) 및 비호출어 파트(402) 중 적어도 하나를 서버(200)로 전송할 수 있다(단계 S506). 반면, 단계 S504에서, 제1 인식 결과가 획득된 음성 신호로부터 호출어가 검출되지 않음을 나타내는 경우, 음성 신호는 비호출어 파트(402)를 포함할 있다. 이 경우, 음성 인식 장치(100)는 음성 신호를 서버(200)로 전송하지 않을 수 있다. 음성 인식 장치(100)가 음성 신호로부터 호출어가 검출되지 않은 것으로 판단한 경우, 음성 인식 장치(100)는 전술한 서비스 제공 기능을 웨이크-업하지 않을 수 있기 때문이다. 또한, 음성 인식 장치(100)는 후술할 제2 출력 정보를 제공할 수 있다(단계 S518).In step S504, the
단계 S506에서, 음성 인식 장치(100)는 호출어 파트(401)에 대한 서버(200)로의 전송 여부를 결정할 수 있다. 예를 들어, 음성 인식 장치(100)는 전술한 제1 인식 결과 및 호출이력을 기초로 음성 신호의 호출어 파트(401)에 대한 전송(또는 재인식) 여부를 결정할 수 있다. 또한, 음성 인식 장치(100)가 호출어 파트(401)에 대한 재인식을 수행하지 않을 것으로 결정한 경우, 음성 인식 장치(100)는 음성 신호의 호출어 파트(401)를 서버(200)로 전송하지 않을 수 있다. 이때, 음성 인식 장치(100)는 비호출어 파트(402)를 서버(200)로 전송할 수 있다(단계 S508). 이 경우, 음성 인식 장치(100)는 단계S510에서, 서버(200)로부터 제2 인식 결과를 획득할 수 있다. 이때, 제2 인식 결과는 호출어 인식 결과를 포함하지 않을 수 있다. 제2 인식 결과는 비호출어 파트(402)에 대한 음성 인식 결과를 포함할 수 있다. 음성 인식 장치(100)는 비호출어 파트(402)에 대한 음성 인식 결과를 기초로 제1 출력 정보를 생성할 수 있다.In step S506, the
반면, 음성 인식 장치(100)가 호출어 파트(401)에 대한 재인식을 수행하는 것으로 결정한 경우, 음성 인식 장치(100)는 서버(200)로 호출어 파트(401) 및 비호출어 파트(402)를 함께 전송할 수 있다(단계 S512). 단계 S512에서, 음성 인식 장치(100)가 호출어 파트(401)를 포함하는 음성 신호를 서버(200)로 전송한 경우, 전술한 제2 인식 결과는 서버(200)의 호출어 인식 결과를 포함할 수 있다. 이때, 서버(200)의 호출어 인식 결과는 음성 신호로부터 호출어가 검출 되었는지 여부를 나타내는 서버(200)에 의한 인식 결과를 나타낼 수 있다. 단계 S514에서, 음성 인식 장치(100)는 제2 인식 결과를 기초로 음성 신호에 대한 호출어 검출 여부를 판별할 수 있다. 제2 인식 결과가 음성 신호로부터 호출어가 검출된 것을 나타내는 경우, 음성 인식 장치(100)는 제1 출력 정보를 제공할 수 있다(단계 S516). 여기에서, 제1 출력 정보는 서비스 제공을 위한 음성 인식 결과를 기초로 생성된 출력 정보일 수 있다. 음성 인식 장치(100)는 제2 인식 결과를 기초로 출력 정보를 생성할 수 있다. 이때, 제2 인식 결과는 음성 신호의 비호출어 파트(402)에 대한 음성 인식 결과를 포함할 수 있다. 음성 인식 장치(100)는 비호출어 파트(402)에 대한 음성 인식 결과를 기초로 제1 출력 정보를 생성할 수 있다. 비호출어 파트(402)에 대한 음성 인식 결과는 서버(200) 또는 서버(200)와 연결된 외부의 장치에 의해 수행된 결과일 수 있다. 또한, 비호출어 파트(402)에 대한 음성 인식 결과는 전술한 서비스 제공을 위한 음성 인식 결과를 나타낼 수 있다.On the other hand, when the
반대로, 단계 S514에서, 제2 인식 결과가 음성 신호로부터 호출어가 검출되지 않음을 나타내는 경우, 음성 인식 장치(100)는 제2 출력 정보를 제공할 수 있다(단계 S518). 여기에서, 제2 출력 정보는 음성 신호로부터 호출어가 검출되지 않음을 나타내는 정보일 수 있다. 예를 들어, 제2 출력 정보는 도 2를 통해 전술한 검출 신호일 수 있다. 또는 도 5와 달리, 음성 인식 장치(100)는 출력 정보를 제공하지 않을 수도 있다. Conversely, in step S514, if the second recognition result indicates that no caller is detected from the speech signal, the
도 5에서, 음성 인식 장치(100)는 제1 인식 결과와 제2 인식 결과가 서로 다른 경우, 제2 인식 결과를 최종 호출어 검출 결과로 선택할 수 있다. 예를 들어, 음성 신호에 대해 제1 인식 결과가 호출어 검출을 나타내고 제2 인식 결과가 호출어 검출되지 않음을 나타내는 경우, 음성 인식 장치(100)는 음성 신호로부터 호출어가 검출되지 않은 것으로 판단할 수 있다. 이 경우, 음성 인식 장치(100)는 서비스 제공을 위한 출력 정보를 생성하지 않을 수 있다. 제2 인식 결과는 제1 인식 결과에 비해 보다 정밀한 음향 모델의 유사도 판별 결과일 수 있다. 이에 따라, 제2 인식 결과는 제1 인식 결과에 비해 정확도가 높을 수 있다. 제2 인식 결과는 제1 인식 결과에 비해 서버(200)에 의해 더 많은 자원(resource)을 이용할 수 있기 때문이다. 여기에서, 자원은 음성 인식에 이용되는 메모리, 버퍼와 같은 저장 공간을 의미할 수 있다. 또한, 자원은 프로세서에 의해 데이터 연산이 처리되는 시간 또는 빈도 수를 의미할 수 있다. 예를 들어, 음성 인식에 보다 많은 자원이 할당되면 음성 신호에 대한 필터링(filtering)을 수행할 때 보다 고차의 필터를 이용할 수 있다. 또 다른 예로써, 음성 인식에 보다 많은 자원이 할당되면 실수 또는 복소수 연산을 통해 보다 세밀한 처리 결과 값을 가질 수 있다. 본 개시의 일 실시예에 따른 서버(200)는 음성 인식 장치(100)에 비해 높은 데이터 연산 처리 성능을 가지는 적어도 하나의 프로세서를 포함할 수 있다. 또한, 서버(200)는 음성 인식 장치(100)에 비해 큰 저장 공간을 가질 수 있다. 예를 들어, 제2 인식 결과는 제1 인식 결과에 비해 더 많은 개수의 가우시안 분포를 포함하는 음향 모델을 기초로 수행된 인식 결과일 수 있다. 여기에서, 가우시안 분포는 호출어 검출에 이용되는 음향 모델이 포함하는 음향학적 특징을 나타낼 수 있다. 이를 통해, 음성 인식 장치(100)는 서버(200)로부터, 제1 인식 결과에 비해 추가적인 정보를 더 이용하여 수행된 인식 결과를 획득할 수 있다. In Fig. 5, the
한편, 본 개시의 일 실시예에 따른 음성 인식 장치(100)는 제1 인식 결과 및 제2 인식 결과를 도 5와 다른 방식으로 조합하여 호출어에 대한 최종 인식 결과를 획득할 수도 있다. 예를 들어, 제1 인식 결과 및 제2 인식 결과는 음성 신호와 호출어에 대응하는 음향 모델 사이의 유사도를 포함할 수 있다. 제1 인식 결과가 유사도를 포함하는 경우, 음성 인식 장치(100)는 제1 인식 결과 및 제2 인식 결과를 조합하여 음성 신호에 대한 최종 호출어 검출여부를 생성할 수 있다. 구체적으로, 제1 인식 결과가 '0.8'이고 제2 인식 결과가 '0.5'인 경우, 음성 인식 장치(100)는 결과값 '(0.8+0.5)/2=0.65'를 획득할 수 있다. 이때, 음성 인식 장치(100)는 결과값을 기준 유사도와 비교하여 최종 호출어 인식 결과를 획득할 수 있다. 기준 유사도가 '0.6'인 경우, 음성 인식 장치(100)는 음성 신호로부터 호출어가 검출된 것으로 판단할 수 있다. 일 실시예에 따라, 음성 인식 장치(100)는 제1 인식 결과 및 제2 인식 결과를 가중합하여 최종 호출어 인식 결과를 생성할 수 있다. 예를 들어, 음성 인식 장치(100)는 제1 인식 결과 및 제2 인식 결과 각각에 적용되는 가중 파라미터를 결정할 수 있다. 음성 인식 장치(100)는 제1 인식 결과 및 제2 인식 결과에 각각 '3' 및 '7'에 대응하는 가중 파라미터를 적용하여 가중합할 수 있다. 음성 인식 장치(100)는 결과값 '(2.4+3.5)/(3+7)=0.59'을 획득할 수 있다. 기준 유사도가 '0.6'인 경우, 음성 인식 장치(100)는 음성 신호로부터 호출어가 검출되지 않은 것으로 판단할 수 있다.Meanwhile, the
한편, 전술한 단계 S506에서, 음성 인식 장치(100)는 음성 신호를 획득한 수신환경에 대응하는 호출이력을 기초로 호출어 파트 전송 여부를 결정할 수 있다. 이하에서는, 일 실시예에 따라 음성 신호에 대한 제1 인식 결과가 호출어 검출을 나타내는 경우, 음성 인식 장치(100)가 호출이력을 기초로 음성 신호의 적어도 일부를 서버(200)로 전송하는 방법에 대해 설명한다. 예를 들어, 수신환경은 음성 인식 장치가 호출된 시간, 음성 인식 장치를 호출한 특정 사용자, 음성 인식 장치가 호출된 때 음성 인식 장치가 위치된 공간의 조도(luminance) 중 적어도 하나를 포함할 수 있다. 또한, 음성 인식 장치(100)는 호출이력을 기초로 음성 신호가 획득된 시간, 음성 신호에 대응하는 음성을 발화한 사용자(300) 및 음성 인식 장치(100) 주변 환경 정보 중 적어도 하나에 대응하는 호출 빈도수를 산출할 수 있다. 이때, 호출 빈도수는 해당 상황에서 음성 인식 장치(100)가 호출된 누적 횟수를 나타낼 수 있다.On the other hand, in the above-described step S506, the
예를 들어, 음성 인식 장치(100)는 음성 신호를 획득한 시간 정보에 대응하는 호출이력을 기초로 음성 신호의 적어도 일부를 서버로 전송할 수 있다. 구체적으로, 호출이력은 음성 인식 장치(100)가 호출된 시간에 따른 시간 별 호출 빈도수를 포함할 수 있다. 음성 인식 장치(100)는 음성 신호를 획득한 시간에 대응하는 호출 빈도수를 산출할 수 있다. 구체적으로, 도 6은 본 개시의 일 실시예에 따라, 음성 인식 장치와 관련된 호출 이력의 예시를 나타내는 도면이다. 도 6은 음성 인식 장치와 관련된 시간 별 호출 빈도수를 나타낸다. 도 6은 음성 인식 장치(100)가 '오후 6시 30분'에 제1 음성 신호(61)를 획득하고 '오전 2시 50분'에 제2 음성 신호(62)를 획득한 경우를 나타낸다. 음성 인식 장치(100)는 시간 별 호출 빈도수(예를 들어, '호출 빈도수(장치)')를 기초로 호출어 파트를 서버(200)로 전송할 수 있다. 음성 인식 장치(100)는 음성 신호를 획득한 시간을 기초로 제1 시간(601)에 대응하는 제1 호출 빈도수를 산출할 수 있다. 또한, 음성 인식 장치(100)는 제1 호출 빈도수를 기준치와 비교할 수 있다. 이때, 기준치는 호출어 파트에 대한 서버(200)로의 전송 여부를 결정하는 기준이 되는 문턱값일 수 있다. 예를 들어, 제1 호출 빈도수가 기준치 보다 큰 경우, 음성 인식 장치(100)는 제1 호출어 파트를 제외한 음성 신호를 서버(200)로 전송할 수 있다. 여기에서, 제1 호출어 파트는 제1 음성 신호(61)가 포함하는 호출어 파트이다. 반면, 기준치가 '30'인 경우, 음성 인식 장치(100)는 제2 음성 신호(62)가 포함하는 제2 호출어 파트를 서버(200)로 전송할 수 있다. 여기에서, 제2 호출어 파트는 제2 음성 신호(62)가 포함하는 호출어 파트이다. 음성 신호를 획득한 시간에 대응하는 제2 호출 빈도수가 기준치 보다 작은 경우이기 때문이다. 음성 인식 장치(100)는 제2 음성 신호(62)를 획득한 시간을 기초로 제2 시간(602)에 대응하는 제2 호출 빈도수를 산출할 수 있다.For example, the
또한, 음성 인식 장치(100)는 도 6의 '호출 빈도수(서버)'(603)를 이용하여 호출어 파트의 전송여부를 결정할 수도 있다. '호출 빈도수(서버)'(603)는 다른 음성 인식 기기가 호출된 호출이력을 포함할 수 있다. 음성 인식 장치(100)는 음성 인식 장치(100)가 아닌 다른 음성 인식 기기가 호출된 호출이력을 이용할 수 있다. 이때, 다른 음성 인식 기기는 음성 인식 장치(100)와 연결된 서버(200)를 이용하여 음성 인식 서비스를 제공하는 음성 인식 기기일 수 있다. 또한, 다른 음성 인식 기기는 음성 인식 장치(100) 설치된 장소와 유사한 장소에 설치된 음성 인식 기기를 나타낼 수 있다. 예를 들어, 다른 음성 인식 기기는 음성 인식 장치(100)가 설치된 위치를 기준으로 기 설정된 영역 내에 설치된 기기일 수 있다. 다른 음성 인식 기기는 음성 인식 장치(100)와 지리적으로 공통된 지역에 설치된 기기일 수도 있다. 구체적으로, 음성 인식 장치(100)가 다른 음성 인식 기기의 호출 빈도수가 높은 시간에 음성 신호를 획득하는 경우, 음성 인식 장치(100)는 서버(200)로 호출어 파트(401)를 전송하지 않을 수 있다. 음성 신호로부터 호출어가 검출된 것을 나타내는 제1 인식 결과의 신뢰도가 높은 경우이기 때문이다. 음성 인식 장치(100)는 음성 인식 장치(100) 또는 서버(200)와 연결된 각각의 음성 인식 장치가 설치된 장소에 관한 정보를 획득할 수 있다. 이때, 설치된 장소에 관한 정보는 음성 인식 장치가 설치된 지역, 장소의 용도 특성(예를 들어, 가정 또는 사무실)을 포함할 수 있다.In addition, the
일 실시예에 따라, 음성 인식 장치(100)는 신뢰도를 기초로 호출어 파트에 대한 전송 여부를 결정할 수 있다. 여기에서, 신뢰도는 제1 인식 결과에 대한 오류 발생 가능성을 나타낼 수 있다. 신뢰도는 획득된 음성 신호로부터 호출어가 검출된 것을 나타내는 제1 인식 결과의 오류 발생 가능성을 나타낼 수 있다. 예를 들어, 신뢰도가 클 수록 신뢰도가 작은 경우에 비해, 제1 인식 결과가 오류일 가능성이 더 작은 것을 나타낼 수 있다. 음성 인식 장치(100)는 호출이력을 기초로 신뢰도를 결정할 수 있다. 예를 들어, 음성 인식 장치(100)는 신뢰도를 호출 빈도수에 비례하도록 설정할 수 있다. 또한, 음성 인식 장치(100)는 결정된 신뢰도를 기초로 호출어 파트에 대한 서버로의 전송 여부를 결정할 수 있다. 구체적으로, 음성 인식 장치(100)는 제1 시간 정보에 대응하는 제1 호출 빈도수가 제2 시간 정보에 대응하는 제2 호출 빈도수보다 많은 경우, 제1 시간 정보에 대응하는 제1 신뢰도를 제2 시간 정보에 대응하는 제2 신뢰도에 비해 높은 값으로 설정할 수 있다. 또한, 신뢰도가 기 설정된 값 보다 높은 경우, 음성 인식 장치(100)는 획득한 음성 신호 중에서 호출어 파트를 제외한 음성 신호의 일부를 서버(200)로 전송할 수 있다. 반대로, 신뢰도가 기 설정된 값 보다 낮은 경우, 음성 인식 장치(100)는 호출어 파트를 포함하는 음성 신호 전체를 서버(200)로 전송할 수 있다.According to one embodiment, the
여기에서, 기 설정된 값은 서비스 제공 시스템에 기 저장된 값일 수 있다. 기 설정된 값은 음성 인식 장치(100) 또는 음성 인식 서비스를 제공하는 제공자에 의해 설정된 값일 수 있다. 기 설정된 값을 음성 인식 장치(100)를 통해 서비스를 제공받는 특정 사용자에 의해 설정된 값일 수도 있다. 예를 들어, 음성 인식 장치(100)는 서버(200)로부터 기 설정된 값을 획득할 수 있다. 또는 음성 인식 장치(100)는 음성 인식 장치(100) 내부에 기 저장된 값을 이용할 수도 있다. 또한, 기 설정된 값은 네트워크 환경에 따라 결정된 값일 수 있다. 예를 들어, 네트워크 환경에서 수용 가능한 데이터 트래픽 양이 충분한 경우, 데이터 트래픽 양이 적은 경우에 비해 높은 값으로 설정될 수 있다. 데이터 트래픽이 충분한 경우, 음성 인식 장치(100)가 서버(200)로 음성 신호를 전송하기에 용이할 수 있기 때문이다.Here, the predetermined value may be a value pre-stored in the service providing system. The predetermined value may be a value set by the
일 실시예에 따라, 제1 인식 결과가 음성 신호와 호출어 사이의 유사도를 포함하는 경우, 음성 인식 장치(100)는 제1 인식 결과 및 신뢰도를 기초로 결과값을 산정할 수 있다. 결과값이 기 설정된 값 이상인 경우, 음성 인식 장치(100)는 호출어 파트를 제외한 음성 신호를 서버(200)로 전송할 수 있다. 음성 인식 장치(100)는 음성 신호 중에서, 음성 신호의 호출어 파트를 제외한 비호출어 파트를 서버로 전송할 수 있다. 반대로, 결과값이 기 설정된 값 이하인 경우, 음성 인식 장치(100)는 호출어 파트를 포함하는 음성 신호 전체를 서버(200)로 전송할 수 있다.According to one embodiment, when the first recognition result includes the similarity between the speech signal and the caller, the
한편, 본 개시의 일 실시예에 따라, 호출 이력은 상기 음성 인식 장치를 호출한 사용자 별 호출 이력을 포함할 수 있다. 여기에서, 사용자 별 호출이력은 특정 음성 인식 장치에 대한 특정 사용자의 호출이력을 의미할 수 있다. 이 경우, 음성 인식 장치(100)는 사용자 별 호출이력을 기초로 음성 신호의 적어도 일부를 서버(200)로 전송할 수 있다. 음성 신호에 대응하는 음성을 발화한 사용자에 대응하는 호출이력이 존재하는 경우, 음성 신호로부터 호출어가 검출된 것을 나타내는 제1 인식 결과에 대한 신뢰도가 높을 수 있기 때문이다. 예를 들어, 음성 인식 장치(100)는 기 인식된 음성과 동일한 사용자로부터 발화된 음성을 최초로 수집된 음성에 비해 더 정확하게 인식할 수 있다. 이때, 음성 인식 장치(100)는 뉴럴 네트워크(neural network)를 통한 딥 러닝(deep learning) 기술을 이용할 수 있다. 또한, 사용자에 대응하는 호출이력이 존재하는 경우, 호출이력이 존재하지 않는 경우에 비해, 사용자가 음성 인식 장치(100)를 호출하였을 가능성이 더 높기 때문이다.On the other hand, according to one embodiment of the present disclosure, the call history may include a call history per user calling the voice recognition apparatus. Here, the call history per user may mean a call history of a specific user to a specific speech recognition apparatus. In this case, the
예를 들어, 음성 인식 장치(100)는 획득된 음성 신호에 대응하는 음성을 발화한 사용자(300)에 대응하는 호출이력이 존재하는지 판별할 수 있다. 구체적으로, 음성 인식 장치(100)는 음성 신호를 기초로 음성 신호에 대응하는 음성을 발화한 사용자(300)를 식별할 수 있다. 음성 인식 장치(100)는 음성 신호로부터 음성 패턴을 추출하여 사용자(300)의 사용자 식별정보를 획득할 수 있다. 음성 인식 장치(100)는 획득된 사용자 식별정보를 기초로 사용자에 대응하는 사용자 별 호출이력을 획득할 수 있다. 그리고, 음성 인식 장치(100)는 판별 결과 및 제1 인식 결과를 기초로 음성 신호의 적어도 일부를 서버(200)로 전송할 수 있다. 구체적으로, 사용자에 대응하는 호출이력이 존재하는 경우, 음성 인식 장치(100)는 호출어 파트 및 비호출어 파트를 서버로 전송할 수 있다. 사용자에 대응하는 호출이력이 존재하지 않는 경우, 음성 인식 장치(100)는 비호출어 파트를 서버로 전송할 수 있다.For example, the
예를 들어, 음성 인식 장치(100)는 사용자(300)로부터 발화된 음성에 대응하는 음성 신호의 호출어 파트를 서버(200)로 전송하지 않을 수 있다. 이때, 음성 인식 장치(100)는 사용자(300)와 관련된 공간에 설치된 경우일 수 있다. 구체적으로, 사용자(300)와 관련된 공간은 사용자(300)가 거주하는 가정 및 상주하는 사무실 중 적어도 하나를 포함할 수 있다. 또한, 특정 사용자에 대응하는 호출 빈도수가 기 설정된 빈도수 보다 많은 경우, 음성 인식 장치(100)는 음성 인식 장치(100)가 설치된 공간을 특정 사용자와 관련된 공간으로 판단할 수 있다. 특정 사용자에 대응하는 호출 빈도수는 특정 사용자의 음성 인식 장치(100)에 대한 호출 빈도수를 포함할 수 있다. 또한, 특정 사용자에 대응하는 호출 빈도수는 음성 인식 장치(100)가 설치된 위치를 기준으로 기 설정된 영역 내에 설치된 다른 음성 인식 기기에 대한 특정 사용자의 호출 빈도수를 포함할 수 있다.For example, the
본 개시의 일 실시예에 따라, 호출이력은 조도 별 호출 빈도수를 포함할 수 있다. 조도 별 호출 빈도수는 음성 인식 장치가 호출된 조도 각각에 대응하는 호출 빈도수를 나타낼 수 있다. 음성 인식 장치(100)는 조도 별 호출 빈도수를 기초로 음성 신호의 적어도 일부를 서버(200)로 전송할 수 있다. 음성 인식 장치(100)는 음성 인식 장치(100)가 호출된 시점에 음성 인식 장치(100)가 설치된 공간의 조도에 따라 제공하는 서비스가 달라지는 기기일 수 있기 때문이다. 예를 들어, 음성 인식 장치(100)가 조명 기능을 탑재한 경우, 기 설정된 조도 미만에서의 호출 빈도수는 기 설정된 조도 이상에서의 호출 빈도수 보다 더 클 수 있다. 음성 인식 장치(100)는 음성 신호를 획득한 시점에 음성 인식 장치(100)가 설치된 공간의 조도를 나타내는 조도 정보를 획득할 수 있다. 음성 인식 장치(100)는 호출이력을 기초로 조도 정보에 대응하는 조도 별 호출 빈도수를 산출할 수 있다. 또한, 음성 인식 장치(100)는 산출된 호출 빈도수를 기초로 호출어 파트를 서버(200)로 전송할 수 있다. 구체적으로, 특정 조도에 대응하는 호출 빈도수가 기 설정된 빈도수 보다 큰 경우, 음성 인식 장치(100)는 호출어 파트를 제외한 음성 신호의 적어도 일부를 서버(200)로 전송할 수 있다. 특정 조도에 대응하는 호출 빈도수가 기 설정된 빈도수 보다 작은 경우, 음성 인식 장치(100)는 호출어 파트 및 비호출어 파트를 서버(200)로 전송할 수 있다. According to one embodiment of the present disclosure, the call history may include an illuminated call frequency. The illuminated call frequency can indicate the frequency of calls corresponding to each illuminance for which the speech recognition device is called. The
도 7은 본 개시의 일 실시예에 따른 음성 인식 장치(100)의 동작 방법을 나타내는 흐름도이다. 도 7을 참조하면, 단계 S702에서, 음성 인식 장치(100)는 음성 신호를 획득할 수 있다. 단계 S704에서, 음성 인식 장치(100)는 음성 신호로부터 호출어를 검출하는 제 1 인식 결과를 생성할 수 있다. 단계 S706에서, 음성 인식 장치(100)는 호출이력 및 제1 인식 결과를 기초로 음성 신호의 적어도 일부를 서버(200)로 전송할 수 있다. 구체적으로, 음성 인식 장치(100)는 호출이력 및 제1 인식 결과를 기초로 호출어 파트에 대한 서버(200)로의 전송 여부를 결정할 수 있다. 또한, 음성 인식 장치(100)는 전송 여부 결정을 기초로 음성 신호의 적어도 일부를 서버(200)로 전송할 수 있다. 단계 S708에서, 음성 인식 장치(100)는 서버로부터 획득한 제2 인식 결과 및 제1 인식 결과 중 적어도 하나를 기초로 출력 정보를 생성할 수 있다. 단계 S710에서, 음성 인식 장치(100)는 생성된 출력 정보를 출력할 수 있다. 예를 들어, 최종 호출어 인식 결과가 음성 신호로부터 호출어가 검출되지 않은 것을 나타내는 경우, 음성 인식 장치(100)는 호출어 검출 결과를 나타내는 출력 정보를 제공할 수 있다. 최종 호출어 인식 결과가 음성 신호로부터 호출어가 검출된 것을 나타내는 경우, 음성 인식 장치(100)는 서비스 제공을 위한 출력 정보를 제공할 수 있다. 전술한 방법을 통해, 음성 인식 장치(100)는 호출어 인식 오인식률을 감소시킬 수 있다. 또한, 음성 인식 장치(100)는 호출이력을 기초로 음성 신호의 호출어 파트를 서버(200)로 선별적으로 전송할 수 있다. 음성 인식 장치(100)는 통신 자원 측면에 있어서 효율적으로 호출어 인식 오인식률을 감소시킬 수 있다.7 is a flowchart showing a method of operating the
일부 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함할 수 있다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함할 수 있다. 또한, 본 명세서에서, “부”는 프로세서 또는 회로와 같은 하드웨어 구성(hardware component), 및/또는 프로세서와 같은 하드웨어 구성에 의해 실행되는 소프트웨어 구성(software component)일 수 있다.Some embodiments may also be implemented in the form of a recording medium including instructions executable by a computer, such as program modules, being executed by a computer. Computer readable media can be any available media that can be accessed by a computer, and can include both volatile and nonvolatile media, removable and non-removable media. The computer-readable medium may also include computer storage media. Computer storage media may include both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data. Also, in this specification, the term " part " may be a hardware component such as a processor or a circuit, and / or a software component executed by a hardware component such as a processor.
전술한 본 개시의 설명은 예시를 위한 것이며, 본 개시가 속하는 기술분야의 통상의 지식을 가진 자는 본 개시의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.It is to be understood that the foregoing description of the disclosure is for the purpose of illustration and that those skilled in the art will readily appreciate that other embodiments may be readily devised without departing from the spirit or essential characteristics of the disclosure will be. It is therefore to be understood that the above-described embodiments are illustrative in all aspects and not restrictive. For example, each component described as a single entity may be distributed and implemented, and components described as being distributed may also be implemented in a combined form.
Claims (14)
음성 신호를 획득하는 음성 수신부;
상기 음성 신호에 대한 호출어 검출 결과를 나타내는 제1 인식 결과를 생성하고,
상기 음성 신호를 획득한 수신환경에 대응하는 호출이력 및 상기 제1 인식 결과를 기초로 상기 음성 신호의 적어도 일부를 서버로 전송하고,
상기 서버로 상기 음성 신호의 적어도 일부를 전송한 경우, 상기 음성 신호의 적어도 일부에 대한 상기 서버의 인식 결과를 나타내는 제2 인식 결과, 및 상기 제1 인식 결과를 기초로 출력 정보를 생성하고,
상기 서버로 상기 음성 신호를 전송하지 않은 경우, 상기 제1 인식 결과를 기초로 출력 정보를 생성하는, 프로세서; 및
생성된 출력 정보를 출력하는 출력부를 포함하는, 음성 인식 장치.A speech recognition apparatus for providing a service through speech recognition,
A voice receiving unit for acquiring a voice signal;
Generates a first recognition result indicating a result of the voice call detection for the voice signal,
Transmitting at least a part of the speech signal to a server based on a call history corresponding to a reception environment in which the speech signal is acquired and the first recognition result,
Generating a second recognition result indicating a recognition result of the server with respect to at least a part of the voice signal when the at least a part of the voice signal is transmitted to the server and output information based on the first recognition result,
And generate output information based on the first recognition result when the voice signal is not transmitted to the server; And
And an output unit for outputting the generated output information.
상기 음성 신호는 상기 호출어에 대응하는 호출어 파트와 상기 호출어가 아닌 비호출어에 대응하는 비호출어 파트로 구분되고,
상기 프로세서는,
상기 호출이력 및 상기 제1 인식 결과를 기초로, 상기 음성 신호 중에서 상기 음성 신호의 호출어 파트를 제외한 상기 비호출어 파트만을 상기 서버로 전송할 지, 상기 음성 신호의 호출어 파트 및 상기 비호출어 파트를 상기 서버로 전송할 지 결정하고,
상기 결정에 따라 상기 음성 신호의 적어도 일부를 상기 서버로 전송하는, 음성 인식 장치.The method according to claim 1,
Wherein the voice signal is divided into a call word part corresponding to the call word and a non-call word part corresponding to a non-call word other than the call word,
The processor comprising:
Wherein the speech signal part and the non-referred word part of the speech signal are transmitted to the server only based on the call history and the first recognition result, Determines whether to transmit to the server,
And transmits at least a portion of the voice signal to the server in accordance with the determination.
상기 호출이력은 상기 음성 인식 장치를 호출한 사용자 별 호출이력을 포함하고,
상기 프로세서는,
상기 음성 신호에 대응하는 음성을 발화한 사용자에 대응하는 사용자 별 호출이력을 기초로 상기 음성 신호의 적어도 일부를 상기 서버로 전송하는, 음성 인식 장치.3. The method of claim 2,
Wherein the call history includes a call history per user calling the voice recognition apparatus,
The processor comprising:
And transmits at least a part of the voice signal to the server based on a call history per user corresponding to a user who uttered the voice corresponding to the voice signal.
상기 프로세서는,
상기 음성 신호로부터 음성 패턴을 추출하여 상기 사용자를 식별하는 사용자 식별정보를 획득하고,
상기 사용자 식별정보를 기초로 상기 사용자에 대응하는 사용자 별 호출이력을 획득하는, 음성 인식 장치.The method of claim 3,
The processor comprising:
Extracting a voice pattern from the voice signal to obtain user identification information for identifying the user,
And obtain call history per user corresponding to the user based on the user identification information.
상기 프로세서는,
상기 사용자에 대응하는 사용자 별 호출이력이 존재하는지 판별하고,
상기 판별 결과에 따라, 상기 사용자에 대응하는 호출이력이 존재하는 경우, 상기 비호출어 파트를 서버로 전송하고,
상기 사용자에 대응하는 호출이력이 존재하지 않는 경우, 상기 호출어 파트 및 상기 비호출어 파트를 서버로 전송하는, 음성 인식 장치.5. The method of claim 4,
The processor comprising:
Determining whether there is a call history per user corresponding to the user,
When the call history corresponding to the user is present according to the determination result, transmitting the unsent headword part to the server,
And if the call history corresponding to the user does not exist, transmits the call word part and the non-referred word part to the server.
상기 프로세서는,
상기 음성 신호를 획득한 시간을 나타내는 시간 정보 및 상기 호출이력을 기초로, 상기 음성 신호 중에서 상기 음성 신호의 호출어 파트를 제외한 상기 비호출어 파트만을 상기 서버로 전송할 지, 상기 음성 신호의 호출어 파트 및 상기 비호출어 파트를 상기 서버로 전송할 지 결정하는, 음성 인식 장치.3. The method of claim 2,
The processor comprising:
And the call history information indicating whether to transmit only the unsent portion of the voice signal excluding the caller part of the voice signal to the server based on the time information indicating the time at which the voice signal was acquired and the call history, And determining whether to transmit the unsubscription part to the server.
상기 호출이력은 음성 인식 장치가 호출된 시간에 따른 시간 별 호출 빈도수를 포함하고,
상기 프로세서는,
상기 호출이력을 기초로 상기 시간 정보에 대응하는 호출 빈도수를 산출하고,
상기 산출된 호출 빈도수를 기초로, 상기 음성 신호 중에서 상기 음성 신호의 호출어 파트를 제외한 상기 비호출어 파트만을 상기 서버로 전송할 지, 상기 음성 신호의 호출어 파트 및 상기 비호출어 파트를 상기 서버로 전송할 지 결정하는, 음성 인식 장치.The method according to claim 6,
Wherein the call history includes a call frequency by time according to a time when the speech recognition apparatus is called,
The processor comprising:
Calculates a call frequency corresponding to the time information based on the call history,
And wherein, based on the calculated call frequency, only the unsent portion of the voice signal excluding the caller part of the voice signal is transmitted to the server, the caller part of the voice signal and the unsent portion are transmitted to the server Wherein the voice recognition device determines the voice recognition device.
상기 프로세서는,
상기 호출이력을 기초로 상기 제1 인식 결과에 대한 오류 발생 가능성을 나타내는 신뢰도를 획득하고,
상기 신뢰도를 기 설정된 값과 비교한 결과를 기초로, 상기 음성 신호 중에서 상기 음성 신호의 호출어 파트를 제외한 상기 비호출어 파트만을 상기 서버로 전송할 지, 상기 음성 신호의 호출어 파트 및 상기 비호출어 파트를 상기 서버로 전송할 지 결정하고,
제1 시간 정보에 대응하는 제1 호출 빈도수가 제2 시간 정보에 대응하는 제2 호출 빈도수보다 많은 경우, 상기 제1 시간 정보에 대응하는 제1 신뢰도는 상기 제2 시간 정보에 대응하는 제2 신뢰도에 비해 높은 값으로 설정되는, 음성 인식 장치.The method according to claim 6,
The processor comprising:
Acquiring a reliability indicating a possibility of occurrence of an error with respect to the first recognition result based on the call history,
Wherein the speech signal part of the speech signal and the non-referred speech part of the speech signal are transmitted to the server only based on a result of comparing the reliability with a predetermined value, To the server,
When the first call frequency corresponding to the first time information is larger than the second call frequency corresponding to the second time information, the first reliability corresponding to the first time information is the second reliability corresponding to the second time information Is set to a higher value than that of the speech recognition apparatus.
상기 프로세서는,
상기 신뢰도가 기 설정된 값 이상인 경우, 상기 음성 신호 중에서 상기 음성 신호의 호출어 파트를 제외한 상기 비호출어 파트를 서버로 전송하고,
상기 제2 인식 결과는 상기 비호출어 파트에 대한 음성 인식 결과를 포함하는, 음성 인식 장치.9. The method of claim 8,
The processor comprising:
When the reliability is equal to or greater than a preset value, transmitting the unsubscription part excluding the caller part of the voice signal from the voice signal to the server,
And the second recognition result includes a speech recognition result for the unsubscriber part.
상기 프로세서는,
상기 신뢰도가 기 설정된 값 이하인 경우, 상기 음성 신호의 호출어 파트 및 상기 비호출어 파트를 서버로 전송하고,
상기 제2 인식 결과는 상기 음성 신호에 대한 호출어 검출 여부를 나타내는 정보를 포함하는, 음성 인식 장치.9. The method of claim 8,
The processor comprising:
Transmitting the speech part of the speech signal and the non-referred word part to a server when the reliability is equal to or less than a predetermined value,
And the second recognition result includes information indicating whether or not to detect a call word for the voice signal.
상기 프로세서는,
상기 서버로부터 상기 음성 인식 장치가 아닌 다른 음성 인식 장치에 대응하는 호출이력을 획득하고,
상기 다른 음성 인식 장치에 대응하는 호출이력을 기초로 상기 음성 신호의 적어도 일부를 상기 서버로 전송하고,
상기 다른 음성 인식 장치는, 상기 음성 인식 장치와 연결된 상기 서버와 동일한 서버를 통해 음성 인식 서비스를 제공하는 장치인, 음성 인식 장치.The method according to claim 1,
The processor comprising:
Acquiring a call history corresponding to a voice recognition device other than the voice recognition device from the server,
Transmitting at least a part of the voice signal to the server based on a call history corresponding to the other voice recognition apparatus,
Wherein the another voice recognition device is a device for providing a voice recognition service through the same server as the server connected to the voice recognition device.
상기 호출이력은 음성 인식 장치가 호출된 조도에 대응하는 호출 빈도수를 포함하고,
상기 프로세서는,
상기 조도에 대응하는 호출 빈도수를 기초로, 상기 음성 신호를 획득한 시점에 상기 음성 인식 장치가 설치된 공간의 조도를 나타내는 조도 정보에 대응하는 호출 빈도수를 산출하고,
상기 호출 빈도수를 기초로, 상기 음성 신호 중에서 상기 음성 신호의 호출어 파트를 제외한 상기 비호출어 파트만을 상기 서버로 전송할 지, 상기 음성 신호의 호출어 파트 및 상기 비호출어 파트를 상기 서버로 전송할 지 결정하는, 음성 인식 장치.3. The method of claim 2,
Wherein the call history includes a call frequency corresponding to the illuminance for which the speech recognition apparatus is called,
The processor comprising:
Calculating a calling frequency number corresponding to the illumination information indicating the illumination of the space in which the speech recognition device is installed at the time of acquiring the voice signal based on the calling frequency number corresponding to the illumination;
Determining whether to transmit to the server only the unsent portion of the voice signal excluding the caller part of the voice signal from among the voice signals based on the call frequency, to determine whether to transmit the caller part of the voice signal and the non- A voice recognition device.
음성 신호를 획득하는 단계;
상기 음성 신호에 대한 호출어 검출 결과를 나타내는 제1 인식 결과를 생성하는 단계;
상기 음성 신호를 획득한 수신환경에 대응하는 호출이력 및 상기 제1 인식 결과를 기초로 상기 음성 신호의 적어도 일부를 서버로 전송하는 단계;
상기 서버로 상기 음성 신호의 적어도 일부를 전송한 경우, 상기 음성 신호의 적어도 일부에 대한 상기 서버의 인식 결과를 나타내는 제2 인식 결과, 및 상기 제1 인식 결과를 기초로 출력 정보를 생성하고,
상기 서버로 상기 음성 신호를 전송하지 않은 경우, 상기 제1 인식 결과를 기초로 출력 정보를 생성하는 단계; 및
생성된 출력 정보를 출력하는 단계를 포함하는, 음성 인식 방법.A method of operating a speech recognition apparatus for providing a service through call word recognition,
Obtaining a voice signal;
Generating a first recognition result indicating a result of the voice call detection for the voice signal;
Transmitting at least a part of the speech signal to a server based on a call history corresponding to a reception environment in which the speech signal is acquired and the first recognition result;
Generating a second recognition result indicating a recognition result of the server with respect to at least a part of the voice signal when the at least a part of the voice signal is transmitted to the server and output information based on the first recognition result,
Generating output information based on the first recognition result when the voice signal is not transmitted to the server; And
And outputting the generated output information.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170163618 | 2017-11-30 | ||
KR20170163618 | 2017-11-30 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20190064384A true KR20190064384A (en) | 2019-06-10 |
KR102071865B1 KR102071865B1 (en) | 2020-01-31 |
Family
ID=66848344
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180055968A KR102071865B1 (en) | 2017-11-30 | 2018-05-16 | Device and method for recognizing wake-up word using server recognition result |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102071865B1 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102378895B1 (en) * | 2021-09-29 | 2022-03-28 | 주식회사 인피닉 | Method for learning wake-word for speech recognition, and computer program recorded on record-medium for executing method therefor |
CN116758684A (en) * | 2023-06-15 | 2023-09-15 | 西安航空学院 | Optical wake-up system and method |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160055162A (en) * | 2013-08-26 | 2016-05-17 | 삼성전자주식회사 | Electronic device and method for voice recognition |
KR20160077223A (en) * | 2010-05-19 | 2016-07-01 | 구글 인코포레이티드 | Disambiguation of contact information using historical data |
KR20170035529A (en) * | 2015-09-23 | 2017-03-31 | 삼성전자주식회사 | Electronic device and voice recognition method thereof |
-
2018
- 2018-05-16 KR KR1020180055968A patent/KR102071865B1/en active IP Right Grant
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160077223A (en) * | 2010-05-19 | 2016-07-01 | 구글 인코포레이티드 | Disambiguation of contact information using historical data |
KR20160055162A (en) * | 2013-08-26 | 2016-05-17 | 삼성전자주식회사 | Electronic device and method for voice recognition |
KR20170035529A (en) * | 2015-09-23 | 2017-03-31 | 삼성전자주식회사 | Electronic device and voice recognition method thereof |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102378895B1 (en) * | 2021-09-29 | 2022-03-28 | 주식회사 인피닉 | Method for learning wake-word for speech recognition, and computer program recorded on record-medium for executing method therefor |
CN116758684A (en) * | 2023-06-15 | 2023-09-15 | 西安航空学院 | Optical wake-up system and method |
Also Published As
Publication number | Publication date |
---|---|
KR102071865B1 (en) | 2020-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11875820B1 (en) | Context driven device arbitration | |
US20210149939A1 (en) | Responding to remote media classification queries using classifier models and context parameters | |
US11289087B2 (en) | Context-based device arbitration | |
US11138977B1 (en) | Determining device groups | |
US11094323B2 (en) | Electronic device and method for processing audio signal by electronic device | |
CN108351872B (en) | Method and system for responding to user speech | |
US9443511B2 (en) | System and method for recognizing environmental sound | |
KR100636317B1 (en) | Distributed Speech Recognition System and method | |
KR101610151B1 (en) | Speech recognition device and method using individual sound model | |
KR101863097B1 (en) | Apparatus and method for keyword recognition | |
CN108346425B (en) | Voice activity detection method and device and voice recognition method and device | |
EP2681896B1 (en) | Method and apparatus for identifying mobile devices in similar sound environment | |
KR20200012963A (en) | Object recognition method, computer device and computer readable storage medium | |
US10685664B1 (en) | Analyzing noise levels to determine usability of microphones | |
WO2015103836A1 (en) | Voice control method and device | |
US11361764B1 (en) | Device naming-indicator generation | |
US20180158462A1 (en) | Speaker identification | |
KR102071865B1 (en) | Device and method for recognizing wake-up word using server recognition result | |
US9224388B2 (en) | Sound recognition method and system | |
KR102071867B1 (en) | Device and method for recognizing wake-up word using information related to speech signal | |
KR102495028B1 (en) | Sound Device with Function of Whistle Sound Recognition | |
KR101863098B1 (en) | Apparatus and method for speech recognition | |
KR20230106335A (en) | Apparatus and method for speech recognition | |
KR20150045967A (en) | Algorithm that converts the voice data into emotion data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right |