KR20190064384A - Device and method for recognizing wake-up word using server recognition result - Google Patents

Device and method for recognizing wake-up word using server recognition result Download PDF

Info

Publication number
KR20190064384A
KR20190064384A KR1020180055968A KR20180055968A KR20190064384A KR 20190064384 A KR20190064384 A KR 20190064384A KR 1020180055968 A KR1020180055968 A KR 1020180055968A KR 20180055968 A KR20180055968 A KR 20180055968A KR 20190064384 A KR20190064384 A KR 20190064384A
Authority
KR
South Korea
Prior art keywords
voice
server
speech
voice signal
call
Prior art date
Application number
KR1020180055968A
Other languages
Korean (ko)
Other versions
KR102071865B1 (en
Inventor
양태영
Original Assignee
주식회사 인텔로이드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 인텔로이드 filed Critical 주식회사 인텔로이드
Publication of KR20190064384A publication Critical patent/KR20190064384A/en
Application granted granted Critical
Publication of KR102071865B1 publication Critical patent/KR102071865B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Telephonic Communication Services (AREA)

Abstract

Disclosed is a voice recognition device for providing a service through wake-up word recognition. The voice recognition device comprises: a voice reception unit obtaining a voice signal; a processor generating a first recognition result representing a wake-up word detection result for the voice signal, transmitting at least part of the voice signal to a server based on a call history corresponding to reception environment obtaining the voice signal and the first recognition result, and generating output information based on at least one of a second recognition result representing a recognition result of the server for at least part of the voice signal and the first recognition result; and an output unit outputting the output information.

Description

서버인식 결과를 이용하여 호출어를 인식하는 장치 및 방법 {DEVICE AND METHOD FOR RECOGNIZING WAKE-UP WORD USING SERVER RECOGNITION RESULT}BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a device and a method for recognizing a call word using a server recognition result,

본 개시는 음성 인식 장치 및 음성 인식 방법에 관한 것으로, 더욱 상세하게는 서버인식 결과를 이용하여 호출어 인식의 오인식률을 향상시키는 장치 및 방법에 관한 것이다.BACKGROUND OF THE INVENTION 1. Field of the Invention [0001] The present invention relates to a voice recognition apparatus and a voice recognition method, and more particularly, to an apparatus and method for improving a misrecognition rate of a call recognition using a server recognition result.

음성 인식 기술은 사용자와 전자 장치 사이의 상호작용을 보다 원활하게 만드는 핵심기술 중 하나이다. 음성 인식 기술을 통해, 전자 장치는 사용자의 음성을 듣고 이해할 수 있으며, 이해한 내용을 바탕으로 사용자에게 적절한 서비스를 제공할 수도 있다. 이에 따라, 사용자는 별도의 조작 없이도 전자 장치에 대하여 사용자가 원하는 서비스를 요청할 수 있다.Speech recognition technology is one of the key technologies to make the interaction between users and electronic devices more smooth. Through the speech recognition technology, the electronic device can listen to and understand the user's voice and provide appropriate services to the user based on the understanding. Accordingly, the user can request the service desired by the user to the electronic device without any special operation.

음성 인식 분야의 여러 기술들 중, 사용자로부터 취득한 음성에 포함된 호출어(wake-up word) 또는 키워드(keyword)를 검출하는 키워드 스팟팅(keyword spotting) 기술이 최근 여러 분야에서 각광받고 있다. 키워드 스팟팅이 제대로 수행되기 위해서는 음성에 포함된 키워드를 인식하고 상기 키워드를 검출하는 비율인 검출률이 높아야 한다. 하지만 이러한 검출률과 함께 키워드 스팟팅에서 중요하게 다루어지는 문제가 키워드 오인식 문제이다. 즉, 음성으로부터 검출된 키워드를 다른 키워드인 것으로 잘못 인식하는 경우, 키워드 스팟팅이 적용된 단말기는 사용자에게 원하지 않는 서비스를 제거하거나 사용자가 의도하지 않았던 처리를 수행할 수도 있다. 따라서, 기존의 키워드 스팟팅 기술에서의 낮은 검출률 또는 높은 오인식률 문제를 해결할 수 있는 방안이 요구되고 있다.Among various techniques in the field of speech recognition, a keyword spotting technique for detecting a wake-up word or a keyword included in a voice acquired from a user has recently been spotlighted in various fields. In order for the keyword spotting to be performed properly, the detection rate, which is the rate of detecting the keyword included in the voice, must be high. However, with this detection rate, the key issue in keyword spotting is keyword recognition. That is, when the keyword detected from the voice is mistakenly recognized as another keyword, the terminal to which the keyword spotting is applied may remove the unwanted service to the user or perform the processing that the user did not intend. Accordingly, there is a demand for a solution that can solve the low detection rate or the high recognition rate problem in the existing keyword spotting technology.

한편, 음성인식을 이용해 호출어를 인식하고 호출어 인식이 성공한 경우, 특정 서비스를 제공하는 기기에 대한 연구 및 출시가 이루어지고 있다. 이때, 호출어 인식의 경우, 임베디드 음성 인식을 통해 실시간으로 검출이 수행되기 때문에 오인식률이 상대적으로 높아지는 문제가 있다. 이에 따라, 호출어를 인식하는 방법과 관련된 기술이 요구되고 있다. On the other hand, when a caller is recognized using speech recognition and the recognition of the caller is successful, research and release of a device providing a specific service are being conducted. At this time, in the case of caller recognition, since the detection is performed in real time through the embedded speech recognition, there is a problem that the recognition rate is relatively increased. Accordingly, a technique related to a method of recognizing a call word is required.

본 개시는 상기와 같은 문제점을 해결하기 위해 안출된 것으로서, 호출어 인식의 정확도를 높일 수 있는 음성 인식 장치 또는 음성 인식 방법을 제공하고자 하는 목적을 가지고 있다. 구체적으로, 본 개시는 호출어 인식의 오인식률을 감소시키는 음성 인식 장치 또는 음성 인식 방법을 제공한다.SUMMARY OF THE INVENTION The present invention has been made to solve the above-mentioned problems, and it is an object of the present invention to provide a speech recognition apparatus or a speech recognition method capable of improving the accuracy of speech recognition. Specifically, the present disclosure provides a speech recognition apparatus or speech recognition method that reduces the false recognition rate of speech recognition.

상기와 같은 과제를 해결하기 위한 본 발명의 실시예에 따르면, 일 실시예에 따른 장치는, 음성 신호를 획득하는 음성 수신부, 상기 음성 신호에 대한 상기 호출어 검출 결과를 나타내는 제1 인식 결과를 생성하고, 상기 음성 신호를 획득한 수신환경에 대응하는 호출이력 및 상기 제1 인식 결과를 기초로 상기 음성 신호의 적어도 일부를 서버로 전송하고, 상기 서버로 상기 음성 신호의 적어도 일부를 전송한 경우, 상기 음성 신호의 적어도 일부에 대한 상기 서버의 인식 결과를 나타내는 제2 인식 결과, 및 상기 제1 인식 결과를 기초로 출력 정보를 생성하고, 상기 서버로 상기 음성 신호를 전송하지 않은 경우, 상기 제1 인식 결과를 기초로 출력 정보를 생성하는, 프로세서 및 생성된 출력 정보를 출력하는 출력부를 포함할 수 있다.According to another aspect of the present invention, there is provided an apparatus for generating a voice recognition result, the apparatus comprising: a voice recognition unit for acquiring a voice signal; And transmitting at least a part of the voice signal to a server based on a call history corresponding to a reception environment in which the voice signal is acquired and the first recognition result, and transmitting at least a part of the voice signal to the server, A second recognition result indicating a recognition result of the server with respect to at least a part of the voice signal and output information based on the first recognition result and when the voice signal is not transmitted to the server, A processor for generating output information based on the recognition result, and an output unit for outputting the generated output information.

일 실시예에 따른 음성 인식 방법은, 음성 신호를 획득하는 단계, 상기 음성 신호에 대한 상기 호출어 검출 결과를 나타내는 제1 인식 결과를 생성하는 단계, 상기 음성 신호를 획득한 수신환경에 대응하는 호출이력 및 상기 제1 인식 결과를 기초로 상기 음성 신호의 적어도 일부를 서버로 전송하는 단계, 상기 서버로 상기 음성 신호의 적어도 일부를 전송한 경우, 상기 음성 신호의 적어도 일부에 대한 상기 서버의 인식 결과를 나타내는 제2 인식 결과, 및 상기 제1 인식 결과를 기초로 출력 정보를 생성하고, 상기 서버로 상기 음성 신호를 전송하지 않은 경우, 상기 제1 인식 결과를 기초로 출력 정보를 생성하는 단계 및 생성된 출력 정보를 출력하는 단계를 포함할 수 있다.A speech recognition method according to an embodiment includes the steps of acquiring a speech signal, generating a first recognition result indicating the result of the speech recognition for the speech signal, Transmitting at least a portion of the voice signal to the server based on the history and the first recognition result; and transmitting the recognition result of at least a part of the voice signal to the server when transmitting at least a part of the voice signal to the server Generating output information based on the first recognition result and generating output information based on the first recognition result when the voice signal is not transmitted to the server; And outputting the output information.

또 다른 측면에 따른 컴퓨터로 읽을 수 있는 기록매체는 상술한 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 기록매체를 포함할 수 있다.According to another aspect, a computer-readable recording medium may include a recording medium on which a program for causing a computer to execute the above-described method is recorded.

본 개시의 일 실시예에 따르면, 호출어 인식의 정확도를 높여 호출어 인식의 오인식률을 감소시킬 수 있다. 또한, 본 개시의 일 실시예에 따르면, 음성을 발화한 사용자에게 효과적으로 출력 정보를 제공할 수 있다. According to an embodiment of the present disclosure, it is possible to improve the accuracy of the caller recognition and reduce the misrecognition rate of the caller recognition. Further, according to the embodiment of the present disclosure, it is possible to effectively provide the output information to the user who uttered the voice.

또한, 본 개시는 사용자의 음성을 취득한 환경의 특성에 기초하여 호출어를 인식할 수 있다. 이를 통해, 본 개시는 호출어 오인식으로 인한 기기의 오작동을 줄이고 음성 인식을 이용하여 서비스를 제공하는 음성 인식 장치의 에너지 효율을 증가시킬 수 있다.The present disclosure is also capable of recognizing the caller based on the characteristics of the environment from which the user's voice was acquired. In this way, the present disclosure can increase the energy efficiency of a speech recognition device that reduces malfunction of the device due to caller misidentification and provides services using speech recognition.

도 1은 본 개시의 일 실시예에 따라 음성 인식 장치 및 서버를 포함하는 서비스 제공 시스템을 나타내는 개략도이다.
도 2는 본 발명의 실시예에 따른 음성 인식 장치의 구성을 나타내는 도면이다.
도 3은 본 개시의 일 실시예에 따른 음성 신호를 나타내는 도면이다.
도 4는 본 개시의 일 실시예에 따라 호출어 파트 및 비호출어 파트를 포함하는 음성 신호를 나타내는 도면이다.
도 5는 본 개시의 일 실시예에 따른 음성 인식 장치의 동작을 나타내는 흐름도이다.
도 6은 본 개시의 일 실시예에 따라 음성 인식 장치와 관련된 호출이력의 예시를 나타내는 도면이다.
도 7은 본 개시의 일 실시예에 따른 음성 인식 장치의 동작 방법을 나타내는 흐름도이다.
1 is a schematic diagram illustrating a service providing system including a speech recognition device and a server according to one embodiment of the present disclosure;
2 is a block diagram of a speech recognition apparatus according to an embodiment of the present invention.
3 is a diagram illustrating a speech signal according to one embodiment of the present disclosure.
4 is a diagram illustrating a speech signal including a speech part and a non-preferred part according to one embodiment of the present disclosure;
5 is a flowchart showing the operation of the speech recognition apparatus according to an embodiment of the present disclosure.
6 is a diagram illustrating an example of call history associated with a speech recognition device in accordance with one embodiment of the present disclosure.
7 is a flowchart illustrating a method of operating a speech recognition apparatus according to an embodiment of the present disclosure.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명할 수 있다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다. 명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"할 수 있다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미할 수 있다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings. The present invention may, however, be embodied in many different forms and should not be construed as limited to the embodiments set forth herein. In order to clearly illustrate the present invention, parts not related to the description are omitted, and similar parts are denoted by like reference characters throughout the specification. Throughout the specification, when a section is referred to as "including" an element, it may mean that it may further comprise other elements, .

본 개시는, 음성 신호로부터 기 설정된 호출어를 검출하여 출력 정보를 제공하는 음성 인식 장치 및 방법에 관한 것이다. 구체적으로, 본 개시의 일 실시예에 따른 음성 인식 장치 및 방법은, 서버에서 수행된 인식 결과를 이용하여, 호출어에 대응하지 않는 음성 신호가 호출어에 대응하는 것으로 잘못 인식되는 비율을 나타내는 오인식률을 감소시킬 수 있다. 본 개시에서, 호출어(wake-up word)는 음성 인식 장치의 서비스 제공 기능을 트리거(trigger)하기 위해 설정된 키워드(keyword)를 나타낼 수 있다. 이하, 첨부된 도면을 참고하여 본 발명을 상세히 설명한다. 이하 첨부된 도면을 참고하여 본 발명을 상세히 설명한다. The present disclosure relates to a speech recognition apparatus and method for detecting preset speech from speech signals and providing output information. Specifically, a speech recognition apparatus and method according to an embodiment of the present disclosure, using a recognition result performed by a server, determines whether a speech signal not corresponding to the speech term is misrecognized as corresponding to the speech term, The recognition rate can be reduced. In this disclosure, a wake-up word may represent a keyword set to trigger the service providing function of the speech recognition device. Hereinafter, the present invention will be described in detail with reference to the accompanying drawings. DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENT

도 1은 본 개시의 일 실시예에 따라 음성 인식 장치(100) 및 서버(200)를 포함하는 서비스 제공 시스템을 나타내는 개략도이다. 도 1에 도시된 바와 같이, 서비스 제공 시스템은 적어도 하나의 음성 인식 장치(100) 및 서버(200)를 포함할 수 있다. 본 개시의 일 실시예에 따른 서비스 제공 시스템은 기 설정된 호출어(이하, '호출어')를 기반으로 서비스를 제공할 수 있다. 예를 들어, 서비스 제공 시스템은 획득된 음성 신호를 인식하여 인식된 결과에 대응하는 서비스를 제공할 수 있다. 이때, 서비스 제공 시스템은 획득된 음성 신호로부터 호출어가 검출되는지 판단할 수 있다. 또한, 서비스 제공 시스템은 획득된 음성 신호로부터 호출어가 검출되는 경우, 인식 결과에 대응하는 서비스를 제공할 수 있다. 반대로 서비스 제공 시스템은 획득된 음성 신호로부터 호출어가 검출되지 않는 경우, 음성 인식을 수행하지 않거나 인식 결과에 대응하는 서비스를 제공하지 않을 수 있다. 서비스 제공 시스템은 음성 인식 장치(100)를 통해 인식 결과에 대응하는 출력 정보를 제공할 수 있다.1 is a schematic diagram illustrating a service providing system including a speech recognition apparatus 100 and a server 200 according to an embodiment of the present disclosure. As shown in FIG. 1, the service providing system may include at least one voice recognition apparatus 100 and a server 200. A service providing system according to an embodiment of the present disclosure can provide a service based on a predetermined caller (hereinafter, referred to as a 'caller'). For example, the service providing system may recognize the acquired voice signal and provide a service corresponding to the recognized result. At this time, the service providing system can determine whether a caller is detected from the acquired voice signal. In addition, the service providing system can provide a service corresponding to the recognition result when a caller is detected from the acquired voice signal. Conversely, the service providing system may not perform speech recognition or provide a service corresponding to the recognition result if no caller is detected from the acquired speech signal. The service providing system can provide the output information corresponding to the recognition result through the speech recognition apparatus 100. [

본 개시의 일 실시예에 따른 음성 인식 장치(100)는 벽면에 부착된 IoT 단말일 수 있으나 이에 한정되지 않는다. 예를 들어, 음성 인식 장치(100)는 현관에 설치된 조명(light) 형태의 IoT 단말일 수 있다. 또는 음성 인식 장치(100)는 음성 인식 기능이 탑재된 냉/난방 기기, 셋톱 박스(set-top box), 냉장고, TV와 같은 가전기기일 수 있다.The speech recognition apparatus 100 according to an embodiment of the present disclosure may be an IoT terminal attached to a wall surface, but is not limited thereto. For example, the speech recognition apparatus 100 may be a light-type IoT terminal installed in a front porch. Alternatively, the speech recognition apparatus 100 may be a home appliance such as a refrigerator / airconditioner, a set-top box, a refrigerator, and a television equipped with a speech recognition function.

일 실시예에 따라, 음성 인식 장치(100)는 호출어를 인식하여 음성 인식 장치(100)의 서비스 제공 기능을 웨이크-업(wake-up)할 수 있다. 예를 들어, 음성 인식 장치(100)는 획득된 음성 신호로부터 호출어가 검출되는 경우, 서비스 제공을 위한 음성 인식 동작을 웨이크-업할 수 있다. 음성 인식 장치(100)는 음성 인식 장치(100) 내의 임베디드(embedded) 인식 모듈을 통해 호출어를 인식할 수 있다. 이때, 호출어 인식은 음성 신호로부터 호출어가 검출되는지를 판별하는 동작을 나타낼 수 있다. 음성 인식 장치(100)가 음성인식을 수행하는 방법에 대해서는 도 3을 통해 후술한다.According to one embodiment, the speech recognition apparatus 100 may recognize a call word and wake-up the service providing function of the speech recognition apparatus 100. [ For example, the speech recognition apparatus 100 may wake up a speech recognition operation for providing a service when a caller is detected from the acquired speech signal. The speech recognition apparatus 100 can recognize a call word through an embedded recognition module in the speech recognition apparatus 100. [ At this time, the caller recognition can indicate an operation of determining whether a caller is detected from the voice signal. A method by which the speech recognition apparatus 100 performs speech recognition will be described later with reference to FIG.

한편, 음성 인식 장치(100)는 사용자가 음성 신호에 대응하는 음성을 발화한 의도가 음성 인식 장치(100)를 호출하는 것이 아닌 경우에도 음성 신호로부터 호출어가 검출된 것으로 잘못 인식하여 오동작할 수 있다. 특히, 사용자가 호출어와 유사한 단어를 발화한 경우, 음성 인식 장치(100)는 해당 음성 신호로부터 호출어가 검출된 것으로 잘못 인식하여 오동작할 수 있다. 음성 인식 장치(100)가 음성 인식 기능이 탑재된 가전기기인 경우, 호출어의 오인식으로 인해 불필요한 전력 소비가 발생할 수 있다.On the other hand, even if the user does not call the speech recognition apparatus 100 with the intention of the user to utter the voice corresponding to the voice signal, the voice recognition apparatus 100 may erroneously recognize that the caller is detected from the voice signal and malfunction . Particularly, when the user utteres a word similar to the calling word, the voice recognition apparatus 100 erroneously recognizes that the calling word is detected from the voice signal and can malfunction. In the case where the speech recognition apparatus 100 is a home appliance equipped with a speech recognition function, unnecessary power consumption may occur due to the erroneous recognition of the caller.

일 실시예에 따라, 호출어 인식은 서버(200)에 의해 수행될 수도 있다. 이때, 음성 인식 장치(100)는 음성 신호를 서버(200)로 전송하고 인식 결과를 요청할 수 있다. 또한, 음성 인식 장치(100)는 서버(200)로부터 수신된 인식 결과를 기초로 출력 정보를 생성할 수 있다. 이를 통해, 음성 인식 장치(100)는 호출어 인식 오인식률을 감소시킬 수 있다. 음성 인식 장치(100)는 음성 인식 장치(100)에 비해 더 높은 연산 처리 능력을 가지는 서버(200)에 의한 호출어 인식 결과를 획득할 수 있기 때문이다. 또한, 음성 인식 장치(100)는 호출어의 오인식으로 인한 불필요한 전력 소비를 감소시킬 수 있다. 여기에서, 음성 인식 장치(100)의 오인식률은 획득된 음성 신호가 호출어에 대응하지 않는 경우, 음성 인식 장치(100)가 호출어가 검출된 것으로 오인식하는 비율을 나타낸다. 오인식률은 아래 수학식 1과 같이 나타낼 수 있다.In accordance with one embodiment, caller recognition may be performed by the server 200. At this time, the voice recognition apparatus 100 may transmit a voice signal to the server 200 and request a recognition result. In addition, the speech recognition apparatus 100 can generate output information based on the recognition result received from the server 200. [ Accordingly, the speech recognition apparatus 100 can reduce the recognition rate of the caller recognition error. This is because the speech recognition apparatus 100 can obtain the result of recognition of the call word by the server 200 having a higher calculation processing capability than the speech recognition apparatus 100. [ In addition, the speech recognition apparatus 100 can reduce unnecessary power consumption due to erroneous recognition of the caller. Here, the erroneous recognition rate of the speech recognition apparatus 100 indicates a rate at which the speech recognition apparatus 100 misrecognizes that the caller is detected when the acquired speech signal does not correspond to the caller. The erroneous recognition rate can be expressed by the following equation (1).

[수학식 1][Equation 1]

오인식률 = 100 * (인식 단어 수) / (비호출어 입력 단어 수) [%]Recognition rate = 100 * (number of recognized words) / (number of unsent guided words) [%]

수학식 1에서, “비호출어 입력 단어 수”는 호출어가 아닌 음성 입력 단어의 개수를 나타낼 수 있다. 또한, “인식 단어 수”는 입력된 비호출어 입력 단어 중에서 호출어로 인식된 단어의 개수를 나타낼 수 있다. 그러나, 음성 인식 장치(100)가 획득한 음성 신호를 서버(200)로 전송하는 경우, 네트워크의 데이터 트래픽이 증가할 수 있다. 이 경우, 음성 인식 장치(100)는 네트워크 환경에 따라 서버(200)로부터 원활한 인식 결과를 수신하지 못할 수도 있다. 본 개시의 일 실시예에 따른 음성 인식 장치(100)는 음성 신호를 획득한 수신환경에 대응하는 호출이력을 기초로 음성 신호를 서버(200)에게 전송할 수 있다. 예를 들어, 음성 인식 장치(100)는 호출이력을 기초로 음성 신호 중에서 서버(200)에게 전송할 적어도 일부분을 결정할 수 있다. 또한, 음성 인식 장치(100)는 결정된 음성 신호의 적어도 일부를 서버(200)로 전송할 수 있다. 여기에서, 호출이력은 특정 수신환경에서 음성 인식 장치가 호출된 이력을 나타내는 정보일 수 있다. 이와 관련하여서는 도 5 내지 도 6을 통해 구체적으로 설명하도록 한다.In Equation (1), " number of non-standard word input words " may represent the number of voice input words other than the call word. Also, the " recognized word count " can represent the number of words recognized as an invocation word among the input non-reference word input words. However, when the voice recognition device 100 transmits the acquired voice signal to the server 200, the data traffic of the network may increase. In this case, the speech recognition apparatus 100 may not receive a smooth recognition result from the server 200 according to the network environment. The speech recognition apparatus 100 according to an embodiment of the present disclosure may transmit a speech signal to the server 200 based on a call history corresponding to a reception environment in which the speech signal is acquired. For example, the speech recognition apparatus 100 may determine at least a part of speech signals to be transmitted to the server 200 based on the call history. Further, the speech recognition apparatus 100 may transmit at least a part of the determined voice signal to the server 200. [ Here, the call history may be information indicating a history in which the speech recognition apparatus is called in a specific reception environment. This will be described in detail with reference to FIGS. 5 to 6. FIG.

본 개시의 일 실시예에 따른 서버(200)는, 음성 인식 장치(100)가 호출어 또는 서비스 제공을 위한 음성 인식을 수행하는 방법과 동일 또는 유사한 방법으로 음성 인식을 수행할 수 있다. 예를 들어, 서버(200)는 음성 인식 장치(100)로부터 획득된 음성 신호에 대해 음성 인식을 수행할 수 있다. 음성 인식 장치(100)로부터 음성 신호의 적어도 일부를 수신한 서버(200)는 음성 인식을 수행하여 생성된 인식 결과를 음성 인식 장치(100)로 전송할 수 있다. 또한, 서버(200)는 음성 인식을 위한 데이터베이스를 포함할 수 있다. 이때, 데이터베이스는 적어도 하나의 음향 모델 또는 음성 인식 모델을 포함할 수 있다. 그러나 서버(200)가 데이터베이스를 반드시 포함하는 것은 아니며, 서비스 제공 시스템은 서버(200)와 연결된 별도의 저장소(미도시)를 포함할 수도 있다. 이때, 서버(200)는 데이터베이스를 포함하는 저장소로부터 적어도 하나의 음향 모델 또는 음성 인식 모델을 획득할 수 있다.The server 200 according to one embodiment of the present disclosure can perform speech recognition in the same or similar manner as the method in which the speech recognition apparatus 100 performs speech recognition for providing a service or a service. For example, the server 200 may perform speech recognition on the speech signal obtained from the speech recognition apparatus 100. [ The server 200 receiving at least a part of the voice signal from the voice recognition apparatus 100 can perform the voice recognition and transmit the recognition result generated to the voice recognition apparatus 100. [ In addition, the server 200 may include a database for voice recognition. At this time, the database may include at least one acoustic model or a speech recognition model. However, the server 200 does not necessarily include a database, and the service providing system may include a separate storage (not shown) connected to the server 200. At this time, the server 200 may acquire at least one acoustic model or speech recognition model from the repository including the database.

도 2는 본 발명의 실시예에 따른 음성 인식 장치(100)의 구성을 나타내는 도면이다. 일 실시예에 따라, 음성 인식 장치(100)는 음성 수신부(110), 프로세서(120) 및 출력부(130)를 포함할 수 있다. 그러나 도 2에 도시된 구성 요소의 일부는 생략될 수 있으며, 도 2에 도시되지 않은 구성 요소를 추가적으로 포함할 수 있다. 또한, 음성 인식 장치(100)는 적어도 둘 이상의 서로 다른 구성요소를 일체로서 구비할 수도 있다. 일 실시예에 따라, 음성 인식 장치(100)는 하나의 반도체 칩(chip)으로 구현될 수도 있다.2 is a diagram showing a configuration of a speech recognition apparatus 100 according to an embodiment of the present invention. According to one embodiment, the speech recognition apparatus 100 may include a voice receiving unit 110, a processor 120, and an output unit 130. However, some of the components shown in Fig. 2 may be omitted and may additionally include components not shown in Fig. In addition, the speech recognition apparatus 100 may include at least two or more different components as one unit. According to one embodiment, the speech recognition apparatus 100 may be implemented as a single semiconductor chip.

음성 수신부(110)는 음성 신호를 획득할 수 있다. 음성 수신부(110)는 음성 수신부(110)로 입사되는 음성 신호를 수집할 수 있다. 일 실시예에 따라, 음성 수신부(110)는 적어도 하나의 마이크를 포함할 수 있다. 예를 들어, 음성 수신부(110)는 복수의 마이크를 포함하는 마이크 어레이를 포함할 수 있다. 이때, 마이크 어레이는 원 또는 구 형태 이외의 정육면체 또는 정삼각형과 같은 다양한 형태로 배열된 복수의 마이크를 포함할 수 있다. 다른 일 실시예에 따라, 음성 수신부(110)는 외부의 음향 수집 장치로부터 수집된 음성에 대응하는 음성 신호를 수신할 수도 있다. 예를 들어, 음성 수신부(110)는 음성 신호가 입력되는 음성 신호 입력 단자를 포함할 수 있다. 구체적으로, 음성 수신부(110)는 유선으로 전송되는 음성 신호를 수신하는 음성 신호 입력 단자를 포함할 수 있다. 또는, 음성 수신부(110)는 블루투스(bluetooth) 또는 와이파이(Wi-Fi) 통신 방법을 이용하여 무선으로 전송되는 음성 신호를 수신할 수도 있다.The voice receiving unit 110 may acquire a voice signal. The voice receiving unit 110 may collect voice signals input to the voice receiving unit 110. According to one embodiment, the voice receiving unit 110 may include at least one microphone. For example, the voice receiving unit 110 may include a microphone array including a plurality of microphones. At this time, the microphone array may include a plurality of microphones arranged in various forms such as a cube other than a circle or a sphere, or a regular triangle. According to another embodiment, the voice receiving unit 110 may receive a voice signal corresponding to the voice collected from the external sound collecting apparatus. For example, the voice receiving unit 110 may include a voice signal input terminal through which a voice signal is input. Specifically, the voice receiving unit 110 may include a voice signal input terminal for receiving a voice signal transmitted through a wire. Alternatively, the voice receiving unit 110 may receive a voice signal transmitted wirelessly using a Bluetooth or Wi-Fi communication method.

프로세서(120)는 명세서 전반에 걸쳐 설명되는 음성 인식 장치(100)의 전반적인 동작을 제어할 수 있다. 프로세서(120)는 음성 인식 장치(100)의 각 구성 요소를 제어할 수 있다. 프로세서(120)는 각종 데이터와 신호의 연산 및 처리를 수행할 수 있다. 프로세서(120)는 반도체 칩 또는 전자 회로 형태의 하드웨어로 구현되거나 하드웨어를 제어하는 소프트웨어로 구현될 수 있다. 프로세서(120)는 하드웨어와 상기 소프트웨어가 결합된 형태로 구현될 수도 있다. 프로세서(120)는 소프트웨어가 포함하는 적어도 하나의 프로그램을 실행하여 음성 인식 장치(100)의 동작을 제어할 수 있다.The processor 120 may control the overall operation of the speech recognition apparatus 100 as described throughout the specification. Processor 120 may control each component of speech recognition apparatus 100. The processor 120 may perform arithmetic processing and processing of various data and signals. The processor 120 may be implemented in hardware in the form of a semiconductor chip or an electronic circuit, or may be implemented in software that controls hardware. The processor 120 may be implemented as a combination of hardware and software. The processor 120 may execute at least one program included in the software to control the operation of the speech recognition apparatus 100. [

일 실시예에 따라, 프로세서(120)는 전술한 음성 수신부(110)를 통해 획득된 음성 신호로부터 음성을 인식할 수 있다. 프로세서(120)는 전술한 임베디드 음성 인식 모듈을 포함할 수 있다. 일 실시예에 따라, 프로세서(120)는 임베디드 음성 인식 모듈을 이용하여 음성 신호로부터 호출어를 인식할 수 있다. 또한, 프로세서(120)는 송수신부(미도시)를 통해 음성 신호에 대한 인식 결과를 서버(200)에게 요청할 수도 있다. 예를 들어, 송수신부는 프로세서(120)의 제어에 의해 외부 통신 장치와 정보를 송수신할 수 있다. 이때, 송수신부는 외부와 통신을 수행하기 위한 물리적인 하드웨어 및 무형의 소프트웨어를 포함할 수 있다. 또한, 프로세서(120)는 송수신부를 통해 외부의 장치와 유/무선 네트워크를 통해 데이터를 송수신할 수 있다. 이때, 외부의 장치는 음성 인식 장치(100)를 제외한 외부의 모든 통신 네트워크, 개별 유무선 통신 단말기, 서버 및 AP(access point)를 포함할 수 있다. 외부의 장치는 다른 음성 인식 장치 및 서버(200)를 포함할 수 있으나 이에 한정되지 않는다. 또한, 프로세서(120)는 송수신부(미도시)를 통해 음성 신호를 서버(200)로 전송할 수 있다. 프로세서(120)는 서버(200)로부터 획득된 음성 인식 결과를 기초로 출력 정보를 생성할 수도 있다.According to one embodiment, the processor 120 can recognize the speech from the speech signal obtained through the speech receiver 110 described above. The processor 120 may include the above-described embedded speech recognition module. According to one embodiment, the processor 120 may recognize an invocation from a voice signal using an embedded speech recognition module. In addition, the processor 120 may request the server 200 to recognize a voice signal through a transmitting / receiving unit (not shown). For example, the transmitting and receiving unit can transmit and receive information to and from the external communication device under the control of the processor 120. [ At this time, the transceiver unit may include physical hardware and intangible software for performing communication with the outside. In addition, the processor 120 can transmit / receive data to / from an external device through a wired / wireless network through a transceiver. At this time, the external device may include all external communication networks except for the voice recognition device 100, a separate wired / wireless communication terminal, a server, and an access point (AP). The external device may include, but is not limited to, another voice recognition device and server 200. In addition, the processor 120 may transmit a voice signal to the server 200 through a transmission / reception unit (not shown). The processor 120 may generate output information based on the speech recognition result obtained from the server 200. [

프로세서(120)는 출력 정보를 생성할 수 있다. 예를 들어, 호출어가 검출된 경우, 프로세서(120)는 서비스 제공 기능을 웨이크-업할 수 있다. 이 경우, 프로세서(120)는 서비스 제공 기능이 웨이크-업 되었음을 알리는 정보를 포함하는 출력 정보를 생성할 수 있다. 또한, 프로세서(120)는 음성 인식을 수행하여 획득된 인식 결과에 대응하는 출력 정보를 생성할 수 있다. 반대로, 호출어가 검출되지 않은 경우, 프로세서(120)는 호출어가 검출되지 않았음을 알리는 정보를 포함하는 출력 정보를 생성할 수 있다. 또는, 이 경우, 프로세서(120)는 사용자에게 출력 정보를 제공하지 않을 수도 있다. 프로세서(120)는 생성된 출력 정보를 이하 설명되는 출력부(130)를 통해 출력할 수 있다.The processor 120 may generate output information. For example, if a caller is detected, the processor 120 may wake up the serving function. In this case, the processor 120 may generate output information including information indicating that the service providing function has been woken up. In addition, the processor 120 may perform speech recognition to generate output information corresponding to the obtained recognition result. Conversely, if no caller is detected, the processor 120 may generate output information that includes information indicating that the caller was not detected. Or, in this case, the processor 120 may not provide output information to the user. The processor 120 may output the generated output information through the output unit 130 described below.

출력부(130)는 사용자에게 제공되는 정보를 출력할 수 있다. 출력부(130)는 프로세서(120)에 의해 생성된 출력 정보를 출력할 수 있다. 또한, 출력부(130)는 빛, 소리, 진동과 같은 형태로 변환된 출력 정보를 출력할 수도 있다. 일 실시예에 따라, 출력부(130)는 스피커, 디스플레이, LED를 포함하는 각종 광원 및 모니터 중 적어도 하나일 수 있으나 이에 한정되지 않는다. 예를 들어, 출력부(130)는 호출어 검출 결과를 기초로 생성된 출력 정보를 출력할 수 있다. 이때, 출력 정보는 호출어 검출 결과를 포함할 수 있다. 출력부(130)는 호출어가 검출된 경우와 호출어가 검출되지 않은 경우에 따라 구별되는 검출 신호를 출력할 수 있다. 예를 들어, 출력부(130)는 광원을 통해, 호출어가 검출된 경우 '파란색' 빛을 출력하고, 호출어가 검출되지 않은 경우 '붉은색' 빛을 출력할 수 있다. 출력부(130)는 스피커를 통해 호출어가 검출된 경우에만 기 설정된 오디오 신호를 출력할 수도 있다. The output unit 130 may output information provided to the user. The output unit 130 may output the output information generated by the processor 120. Also, the output unit 130 may output the converted output information in the form of light, sound, or vibration. According to one embodiment, the output 130 may be, but is not limited to, at least one of a variety of light sources and monitors including speakers, displays, LEDs, and the like. For example, the output unit 130 may output the generated output information based on the result of the call detection. At this time, the output information may include the result of the call detection. The output unit 130 can output a detection signal that is distinguishable when a caller is detected and when a caller is not detected. For example, the output unit 130 outputs 'blue' light when a caller is detected through a light source, and 'red' light when a caller is not detected. The output unit 130 may output a predetermined audio signal only when a caller is detected through a speaker.

또한, 출력부(130)는 음성 인식 장치(100) 고유의 기능을 수행할 수 있다. 구체적으로, 음성 인식 장치(100)가 음성 인식 기능을 포함하는 정보 제공 장치인 경우, 출력부(130)는 사용자의 질의에 대응하는 정보를 오디오 신호 또는 비디오 신호의 형태로 제공할 수도 있다. 예를 들어, 출력부(130)는 사용자의 질의에 대응하는 정보를 텍스트 포맷 또는 음성 포맷으로 출력할 수 있다. 또한, 출력부(130)는 음성 인식 장치(100)와 유무선으로 연결된 다른 장치의 동작을 제어하는 제어 신호를 다른 장치로 전송할 수도 있다. 예를 들어, 음성 인식 장치(100)가 벽면에 부착된 IoT 단말인 경우, 음성 인식 장치(100)는 난방 장치의 온도를 제어하는 제어 신호를 난방 장치로 전송할 수 있다.In addition, the output unit 130 may perform a function unique to the speech recognition apparatus 100. [ Specifically, when the speech recognition apparatus 100 is an information providing apparatus including a speech recognition function, the output unit 130 may provide information corresponding to a user's query in the form of an audio signal or a video signal. For example, the output unit 130 may output information corresponding to a user's query in a text format or a voice format. Also, the output unit 130 may transmit a control signal for controlling the operation of the voice recognition apparatus 100 and other wired or wireless devices to another apparatus. For example, when the speech recognition apparatus 100 is an IoT terminal attached to a wall, the speech recognition apparatus 100 can transmit a control signal for controlling the temperature of the heating apparatus to the heating apparatus.

본 개시의 일 실시예에 따라, 프로세서(120)는 음성 수신부(110)를 통해 음성 신호를 획득할 수 있다. 프로세서(120)는 음성 신호를 획득한 수신환경에 대응하는 호출이력 및 제1 인식 결과를 기초로 음성 신호의 적어도 일부를 서버(200)로 전송할 수 있다. 여기에서, 제1 인식 결과는 음성 신호에 대한 음성 인식 장치(100)의 인식 결과를 나타낼 수 있다. 이때, 제1 인식 결과는 음성 신호의 호출어 포함 여부를 나타내는 음성 인식 장치(100)에 의한 인식 결과를 포함할 수 있다. 또한, 제 1 인식 결과는 음성 인식 장치(100)에 의해 산출된 음성 신호와 호출어 사이의 유사도를 포함할 수 있다. 프로세서(120)가 서버(200)로 음성 신호의 적어도 일부를 전송한 경우, 프로세서(120)는 제1 인식 결과 및 제2 인식 결과를 기초로 출력 정보를 생성할 수 있다. 여기에서, 제 2 인식 결과는 음성 신호 중 서버(200)로 전송된 적어도 일부분에 대한 서버(200)의 인식 결과를 나타낼 수 있다. 이때, 제2 인식 결과는 음성 신호의 호출어 포함 여부를 포함할 수 있다. 제2 인식 결과는 서비스 제공을 위한 음성 인식 결과를 포함할 수 있다. 또한, 프로세서(120)는 최종 호출어 검출 결과를 기초로 출력 정보를 생성할 수 있다. 이때, 최종 호출어 검출 결과는 제1 인식 결과 및 제2 인식 결과를 기초로 획득한 호출어 검출 결과를 나타낼 수 있다. 반면, 프로세서(120)가 서버(200)로 음성 신호를 전송하지 않은 경우, 프로세서(120)는 제1 인식 결과를 기초로 출력 정보를 생성할 수 있다. 이하, 도 3 내지 도 6을 통해 음성 인식 장치(100)의 상세한 동작 방식에 대해서 서술하도록 한다.According to one embodiment of the present disclosure, the processor 120 may obtain a voice signal via the voice receiving unit 110. [ The processor 120 may transmit at least a portion of the voice signal to the server 200 based on the call history corresponding to the receiving environment in which the voice signal was obtained and the first recognition result. Here, the first recognition result may indicate the recognition result of the speech recognition apparatus 100 with respect to the speech signal. At this time, the first recognition result may include a recognition result by the speech recognition apparatus 100 indicating whether or not the speech signal includes a call word. In addition, the first recognition result may include the similarity between the speech signal calculated by the speech recognition apparatus 100 and the caller. When the processor 120 transmits at least a part of the voice signal to the server 200, the processor 120 may generate the output information based on the first recognition result and the second recognition result. Here, the second recognition result may indicate the recognition result of the server 200 with respect to at least a part of the voice signal transmitted to the server 200. At this time, the second recognition result may include whether or not the voice signal includes a call word. The second recognition result may include a speech recognition result for providing the service. In addition, the processor 120 may generate the output information based on the final caller detection result. At this time, the final caller detection result may indicate the caller detection result obtained based on the first recognition result and the second recognition result. On the other hand, when the processor 120 does not transmit the voice signal to the server 200, the processor 120 may generate the output information based on the first recognition result. Hereinafter, a detailed operation method of the speech recognition apparatus 100 will be described with reference to FIGS. 3 to 6. FIG.

도 3은 본 개시의 일 실시예에 따른 음성 신호를 나타내는 도면이다. 도 3을 참조하면, 음성 신호는 적어도 하나의 프레임(frame)으로 구성될 수 있다. 여기에서, 프레임은 특정 길이로 구분된 신호의 일부 구간을 의미할 수 있다. 도 3에서 f1 내지 f9는 음성 신호에 포함된 각 프레임을 나타낸다. 일 실시예에 따라, 음성 인식 장치(100)는 음성 신호를 기 설정된 프레임으로 분할할 수 있다. 또한, 음성 인식 장치(100)는 분할된 각각의 음성 신호로부터 음향학적 특징(acoustic feature)을 추출할 수 있다. 음성 인식 장치(100)는 추출된 음향학적 특징과 호출어에 대응하는 음향 모델 사이의 유사도를 산출할 수 있다. 또한, 음성 인식 장치(100)는 추출된 음향학적 특징과 호출어에 대응하는 음향 모델 또는 음성인식을 위한 모델 사이의 유사도에 기초하여 호출어의 존재 여부를 판별할 수 있다. 이때, 음향학적 특징은 음성 인식에 필요한 정보를 나타낼 수 있다. 3 is a diagram illustrating a speech signal according to one embodiment of the present disclosure. Referring to FIG. 3, the speech signal may be composed of at least one frame. Here, a frame may mean a part of a signal divided into specific lengths. In Fig. 3, f1 to f9 denote the respective frames included in the voice signal. According to one embodiment, the speech recognition apparatus 100 may divide the speech signal into predetermined frames. In addition, the speech recognition apparatus 100 may extract an acoustic feature from each of the divided speech signals. The speech recognition apparatus 100 can calculate the similarity between the extracted acoustic feature and the acoustic model corresponding to the call word. In addition, the speech recognition apparatus 100 can determine the presence or absence of the caller based on the extracted acoustic characteristics and the similarity between the acoustic model corresponding to the call word or the model for speech recognition. At this time, the acoustic feature may represent information necessary for speech recognition.

예를 들어, 음향학적 특징은 포먼트(formant) 정보 및 피치(pitch) 정보를 포함할 수 있다. 포먼트는 음성 스펙트럼의 스펙트럴 피크(spectral peaks)로 정의되며 스펙트로그램(spectrogram)에서 진폭의 피크(amplitude peak) 값으로 정량화될 수 있다. 피치는 음성의 기본 주파수(Fundamental Frequency)를 의미하며 음성의 주기적 특성을 나타낸다. 음성 인식 장치(100)는 LPC(Linear Predictive Coding) Cepstrum, PLP(Perceptual Linear Prediction) Cepstrum, MFCC(Mel Frequency Cepstral Coefficient) 및 필터뱅크 에너지 분석(Filter Bank Energy Analysis) 중 적어도 하나를 사용하여 음성 신호의 음향학적 특징을 추출할 수 있다. 또한, 음성 인식 장치(100)는 음성 신호로부터 추출된 음향학적 특징과 적어도 하나의 상기 음향 모델 간의 유사도를 판별할 수 있다. 음성 인식 장치(100)는 추출된 음향학적 특징과 가장 유사도가 높은 음향 모델을 해당 음성 신호에 대응하는 음향 모델인 것으로 판별할 수 있다. 또한, 음성 인식 장치(100)는 음성 신호에 대응하는 음향 모델의 텍스트 데이터가 호출어에 대응하는 텍스트를 포함하는지 판별할 수 있다. 호출어에 대응하는 텍스트를 포함하는 경우, 음성 인식 장치(100)는 해당 음성 신호로부터 호출어가 검출된 것으로 결정할 수 있다. 예를 들어, 호출어가 '소리야'인 경우, 음성 인식 장치(100)는 획득된 음성 신호에 대응하는 음향 모델의 텍스트 데이터가 '소리야'를 포함하는 지 판별할 수 있다. For example, the acoustic features may include formant information and pitch information. Formants are defined as spectral peaks of the sound spectrum and can be quantified as amplitude peak values in the spectrogram. Pitch refers to the fundamental frequency of speech and represents the periodic nature of speech. The speech recognition apparatus 100 may use at least one of a Linear Predictive Coding (LPC) Cepstrum, a Perceptual Linear Prediction (PLP) Cepstrum, a Mel Frequency Cepstral Coefficient (MFCC), and a Filter Bank Energy Analysis Acoustic characteristics can be extracted. In addition, the speech recognition apparatus 100 can determine the similarity between the acoustic feature extracted from the speech signal and the at least one acoustic model. The speech recognition apparatus 100 can determine that the acoustic model having the highest degree of similarity to the extracted acoustic feature is an acoustic model corresponding to the voice signal. Further, the speech recognition apparatus 100 can determine whether the text data of the acoustic model corresponding to the speech signal includes text corresponding to the caller. When the speech recognition apparatus 100 includes the text corresponding to the caller, the speech recognition apparatus 100 can determine that the caller is detected from the voice signal. For example, when the caller is 'sound', the speech recognition apparatus 100 may determine whether the text data of the acoustic model corresponding to the obtained voice signal includes 'sound'.

도 4는 본 개시의 일 실시예에 따라 호출어 파트(401) 및 비호출어 파트(402)를 포함하는 음성 신호를 나타내는 도면이다. 도 4를 참조하면, 음성 신호(400)는 호출어 파트(401)와 비호출어 파트(402)를 포함할 수 있다. 여기에서, 호출어 파트(401)는 음성 신호 중에서 호출어에 대응하는 음성을 포함하는 음성 신호의 일 부분을 나타낼 수 있다. 또한, 비호출어 파트(402)는 음성 신호 중에서 호출어가 아닌 비호출어에 대응하는 음성을 포함하는 음성 신호의 일부분을 나타낼 수 있다. 음성 신호 중에서 호출어 파트(401)를 제외한 부분이 비호출어 파트(402)일 수 있다. 음성 인식 장치(100)가 음성 신호로부터 호출어를 검출한 경우, 음성 인식 장치(100)는 음성 신호를 호출어 파트(401)와 비호출어 파트(402)로 분리할 수 있다. 전술한 바와 같이, 음성 인식 장치(100) 또는 서버(200)는 적어도 하나의 프레임 단위로, 음성 신호로부터 음성을 인식할 수 있다. 일 실시예에 따라, 음성 인식 장치(100)는 음성 신호가 포함하는 적어도 하나의 프레임 중 일부 프레임을 서버(200)로 전송할 수 있다. 예를 들어, 음성 인식 장치(100)는 적어도 하나의 프레임을 포함하는 호출어 파트(401)를 서버(200)로 전송할 수 있다. 이때, 호출어 파트(401)는 음성 신호가 포함하는 적어도 하나의 프레임 중에서 호출어에 대응하는 음성 신호를 포함하는 적어도 하나의 프레임을 나타낼 수 있다. 또한, 음성 인식 장치(100)는 적어도 하나의 프레임을 포함하는 비호출어 파트(402)를 서버(200)로 전송할 수 있다. 이때, 비호출어 파트(402)는 음성 신호가 포함하는 적어도 하나의 프레임 중에서 호출어 파트(401)를 제외한 적어도 하나의 프레임을 나타낼 수 있다.FIG. 4 is a diagram illustrating a speech signal including a speech part 401 and a non-preferred part 402 in accordance with one embodiment of the present disclosure. Referring to FIG. 4, the speech signal 400 may include a caller part 401 and a non-preferred part 402. Here, the caller part 401 can represent a part of the speech signal including the speech corresponding to the caller among the speech signals. Also, the unsubscription part 402 may represent a portion of a speech signal that includes speech corresponding to a non-pronoun, rather than an ancestor. The part of the voice signal excluding the caller part 401 may be the unsub part 402. [ When the speech recognition apparatus 100 detects a call word from the speech signal, the speech recognition apparatus 100 can separate the speech signal into the call speech part 401 and the non-speech part 402. [ As described above, the speech recognition apparatus 100 or the server 200 can recognize speech from a speech signal in at least one frame unit. According to one embodiment, the speech recognition apparatus 100 may transmit to the server 200 some of the at least one frame included in the voice signal. For example, the speech recognition apparatus 100 may send the caller part 401, which includes at least one frame, to the server 200. At this time, the caller part 401 may represent at least one frame including a speech signal corresponding to the caller among at least one frame included in the speech signal. In addition, the speech recognition apparatus 100 may transmit the unsent part 402 including the at least one frame to the server 200. [ At this time, the unsub part 402 may represent at least one frame except for the call part 401 among at least one frame included in the voice signal.

이하에서는, 본 개시의 일 실시예에 따른 음성 인식 장치(100)가 제1 인식 결과 및 제2 인식 결과 중 적어도 하나를 이용하여 출력 정보를 제공하는 방법에 관하여 도 5를 참조하여 설명한다. 도 5는 본 개시의 일 실시예에 따른 음성 인식 장치(100)의 동작을 나타내는 흐름도이다. 단계 S502에서, 음성 인식 장치(100)는 음성 신호를 획득할 수 있다. 예를 들어, 음성 인식 장치(100)는 사용자(300)로부터 발화된 음성에 대응하는 음성 신호를 획득할 수 있다. 사용자(300)는 음성 신호를 통해 음성 인식 장치(100)에게 호출어 및 다양한 유형의 요청(request)을 입력할 수 있다. 서비스 제공을 위한 음성 인식 동작이 활성화된 경우, 음성 인식 장치(100)는 음성 신호로부터 음성을 인식하여 사용자(300)가 요청한 서비스를 제공할 수 있다. 이때, 음성 신호는 호출어에 대응하는 음성 신호를 획득한 때부터 소정의 시간 이내에 획득된 음성 신호일 수 있다.Hereinafter, a method by which the speech recognition apparatus 100 according to an embodiment of the present disclosure provides output information using at least one of a first recognition result and a second recognition result will be described with reference to FIG. 5 is a flow chart showing the operation of the speech recognition apparatus 100 according to one embodiment of the present disclosure. In step S502, the speech recognition apparatus 100 can acquire a speech signal. For example, the speech recognition apparatus 100 may acquire a speech signal corresponding to speech uttered from the user 300. [ The user 300 can input a caller and various types of requests to the voice recognition apparatus 100 through voice signals. When the voice recognition operation for providing the service is activated, the voice recognition apparatus 100 recognizes the voice from the voice signal and can provide the service requested by the user 300. [ In this case, the voice signal may be a voice signal obtained within a predetermined time from acquisition of the voice signal corresponding to the caller.

단계 S504에서, 음성 인식 장치(100)는 음성 신호에 대한 호출어 검출 여부를 나타내는 제1 인식 결과를 생성할 수 있다. 단계 S504에서, 제1 인식 결과가 획득된 음성 신호로부터 호출어가 검출된 것을 나타내는 경우, 음성 인식 장치(100)는 음성 신호의 적어도 일부를 서버(200)로 전송할 수 있다. 예를 들어, 음성 인식 장치(100)는 도 4에서와 같이, 획득된 음성 신호를 호출어 파트(401)와 비호출어 파트(402)로 분리할 수 있다. 이 경우, 음성 인식 장치(100)는 음성 신호의 호출어 파트(401) 및 비호출어 파트(402) 중 적어도 하나를 서버(200)로 전송할 수 있다(단계 S506). 반면, 단계 S504에서, 제1 인식 결과가 획득된 음성 신호로부터 호출어가 검출되지 않음을 나타내는 경우, 음성 신호는 비호출어 파트(402)를 포함할 있다. 이 경우, 음성 인식 장치(100)는 음성 신호를 서버(200)로 전송하지 않을 수 있다. 음성 인식 장치(100)가 음성 신호로부터 호출어가 검출되지 않은 것으로 판단한 경우, 음성 인식 장치(100)는 전술한 서비스 제공 기능을 웨이크-업하지 않을 수 있기 때문이다. 또한, 음성 인식 장치(100)는 후술할 제2 출력 정보를 제공할 수 있다(단계 S518).In step S504, the speech recognition apparatus 100 may generate a first recognition result indicating whether or not the speech signal is detected. In step S504, when the first recognition result indicates that the caller is detected from the acquired voice signal, the voice recognition apparatus 100 may transmit at least a part of the voice signal to the server 200. [ For example, the speech recognition apparatus 100 may separate the acquired speech signal into a calling speech part 401 and a non-calling part 402, as in Fig. In this case, the speech recognition apparatus 100 can transmit at least one of the speech part 401 and the non-speech part 402 of the speech signal to the server 200 (step S506). On the other hand, in step S504, if the first recognition result indicates that the caller is not detected from the acquired voice signal, the voice signal includes the unsent portion 402. [ In this case, the voice recognition apparatus 100 may not transmit the voice signal to the server 200. [ This is because the speech recognition apparatus 100 may not wake up the service providing function described above when it is determined that the speech recognition apparatus 100 has not detected a call word from the speech signal. Further, the speech recognition apparatus 100 can provide second output information to be described later (step S518).

단계 S506에서, 음성 인식 장치(100)는 호출어 파트(401)에 대한 서버(200)로의 전송 여부를 결정할 수 있다. 예를 들어, 음성 인식 장치(100)는 전술한 제1 인식 결과 및 호출이력을 기초로 음성 신호의 호출어 파트(401)에 대한 전송(또는 재인식) 여부를 결정할 수 있다. 또한, 음성 인식 장치(100)가 호출어 파트(401)에 대한 재인식을 수행하지 않을 것으로 결정한 경우, 음성 인식 장치(100)는 음성 신호의 호출어 파트(401)를 서버(200)로 전송하지 않을 수 있다. 이때, 음성 인식 장치(100)는 비호출어 파트(402)를 서버(200)로 전송할 수 있다(단계 S508). 이 경우, 음성 인식 장치(100)는 단계S510에서, 서버(200)로부터 제2 인식 결과를 획득할 수 있다. 이때, 제2 인식 결과는 호출어 인식 결과를 포함하지 않을 수 있다. 제2 인식 결과는 비호출어 파트(402)에 대한 음성 인식 결과를 포함할 수 있다. 음성 인식 장치(100)는 비호출어 파트(402)에 대한 음성 인식 결과를 기초로 제1 출력 정보를 생성할 수 있다.In step S506, the voice recognition apparatus 100 can determine whether or not the caller's part 401 is transmitted to the server 200. [ For example, the speech recognition apparatus 100 can determine whether the speech signal is transmitted (or re-recognized) to the speech part 401 based on the first recognition result and the call history described above. Further, when the speech recognition apparatus 100 determines not to perform the re-recognition of the caller's part 401, the speech recognition apparatus 100 does not transmit the caller's part 401 of the speech signal to the server 200 . At this time, the speech recognition apparatus 100 can transmit the unsent portion 402 to the server 200 (Step S508). In this case, the speech recognition apparatus 100 can acquire the second recognition result from the server 200 in step S510. At this time, the second recognition result may not include the result of recognition of the call word. The second recognition result may include a speech recognition result for the unsupported word part 402. The speech recognition apparatus 100 can generate the first output information based on the speech recognition result for the unsupported word part 402. [

반면, 음성 인식 장치(100)가 호출어 파트(401)에 대한 재인식을 수행하는 것으로 결정한 경우, 음성 인식 장치(100)는 서버(200)로 호출어 파트(401) 및 비호출어 파트(402)를 함께 전송할 수 있다(단계 S512). 단계 S512에서, 음성 인식 장치(100)가 호출어 파트(401)를 포함하는 음성 신호를 서버(200)로 전송한 경우, 전술한 제2 인식 결과는 서버(200)의 호출어 인식 결과를 포함할 수 있다. 이때, 서버(200)의 호출어 인식 결과는 음성 신호로부터 호출어가 검출 되었는지 여부를 나타내는 서버(200)에 의한 인식 결과를 나타낼 수 있다. 단계 S514에서, 음성 인식 장치(100)는 제2 인식 결과를 기초로 음성 신호에 대한 호출어 검출 여부를 판별할 수 있다. 제2 인식 결과가 음성 신호로부터 호출어가 검출된 것을 나타내는 경우, 음성 인식 장치(100)는 제1 출력 정보를 제공할 수 있다(단계 S516). 여기에서, 제1 출력 정보는 서비스 제공을 위한 음성 인식 결과를 기초로 생성된 출력 정보일 수 있다. 음성 인식 장치(100)는 제2 인식 결과를 기초로 출력 정보를 생성할 수 있다. 이때, 제2 인식 결과는 음성 신호의 비호출어 파트(402)에 대한 음성 인식 결과를 포함할 수 있다. 음성 인식 장치(100)는 비호출어 파트(402)에 대한 음성 인식 결과를 기초로 제1 출력 정보를 생성할 수 있다. 비호출어 파트(402)에 대한 음성 인식 결과는 서버(200) 또는 서버(200)와 연결된 외부의 장치에 의해 수행된 결과일 수 있다. 또한, 비호출어 파트(402)에 대한 음성 인식 결과는 전술한 서비스 제공을 위한 음성 인식 결과를 나타낼 수 있다.On the other hand, when the speech recognition apparatus 100 determines to perform the re-recognition of the caller's part 401, the speech recognition apparatus 100 sends the caller's part 401 and the non- (Step S512). When the voice recognition apparatus 100 transmits the voice signal including the voice call part 401 to the server 200 in step S512, the second voice recognition result includes the voice recognition result of the server 200 can do. At this time, the caller recognition result of the server 200 may indicate the recognition result by the server 200 indicating whether or not the caller is detected from the voice signal. In step S514, the voice recognition apparatus 100 can determine whether or not to detect a voice call for a voice signal based on the second recognition result. If the second recognition result indicates that a caller is detected from the voice signal, the voice recognition apparatus 100 may provide the first output information (step S516). Here, the first output information may be output information generated based on a speech recognition result for providing a service. The speech recognition apparatus 100 can generate the output information based on the second recognition result. At this time, the second recognition result may include a voice recognition result for the unsub part 402 of the voice signal. The speech recognition apparatus 100 can generate the first output information based on the speech recognition result for the unsupported word part 402. [ The speech recognition result for the unsubscription part 402 may be a result performed by the server 200 or an external device connected to the server 200. [ In addition, the speech recognition result for the unsub part 402 may indicate the speech recognition result for providing the service.

반대로, 단계 S514에서, 제2 인식 결과가 음성 신호로부터 호출어가 검출되지 않음을 나타내는 경우, 음성 인식 장치(100)는 제2 출력 정보를 제공할 수 있다(단계 S518). 여기에서, 제2 출력 정보는 음성 신호로부터 호출어가 검출되지 않음을 나타내는 정보일 수 있다. 예를 들어, 제2 출력 정보는 도 2를 통해 전술한 검출 신호일 수 있다. 또는 도 5와 달리, 음성 인식 장치(100)는 출력 정보를 제공하지 않을 수도 있다. Conversely, in step S514, if the second recognition result indicates that no caller is detected from the speech signal, the speech recognition apparatus 100 may provide the second output information (step S518). Here, the second output information may be information indicating that no caller is detected from the voice signal. For example, the second output information may be the detection signal described above with reference to FIG. Alternatively, unlike FIG. 5, the speech recognition apparatus 100 may not provide output information.

도 5에서, 음성 인식 장치(100)는 제1 인식 결과와 제2 인식 결과가 서로 다른 경우, 제2 인식 결과를 최종 호출어 검출 결과로 선택할 수 있다. 예를 들어, 음성 신호에 대해 제1 인식 결과가 호출어 검출을 나타내고 제2 인식 결과가 호출어 검출되지 않음을 나타내는 경우, 음성 인식 장치(100)는 음성 신호로부터 호출어가 검출되지 않은 것으로 판단할 수 있다. 이 경우, 음성 인식 장치(100)는 서비스 제공을 위한 출력 정보를 생성하지 않을 수 있다. 제2 인식 결과는 제1 인식 결과에 비해 보다 정밀한 음향 모델의 유사도 판별 결과일 수 있다. 이에 따라, 제2 인식 결과는 제1 인식 결과에 비해 정확도가 높을 수 있다. 제2 인식 결과는 제1 인식 결과에 비해 서버(200)에 의해 더 많은 자원(resource)을 이용할 수 있기 때문이다. 여기에서, 자원은 음성 인식에 이용되는 메모리, 버퍼와 같은 저장 공간을 의미할 수 있다. 또한, 자원은 프로세서에 의해 데이터 연산이 처리되는 시간 또는 빈도 수를 의미할 수 있다. 예를 들어, 음성 인식에 보다 많은 자원이 할당되면 음성 신호에 대한 필터링(filtering)을 수행할 때 보다 고차의 필터를 이용할 수 있다. 또 다른 예로써, 음성 인식에 보다 많은 자원이 할당되면 실수 또는 복소수 연산을 통해 보다 세밀한 처리 결과 값을 가질 수 있다. 본 개시의 일 실시예에 따른 서버(200)는 음성 인식 장치(100)에 비해 높은 데이터 연산 처리 성능을 가지는 적어도 하나의 프로세서를 포함할 수 있다. 또한, 서버(200)는 음성 인식 장치(100)에 비해 큰 저장 공간을 가질 수 있다. 예를 들어, 제2 인식 결과는 제1 인식 결과에 비해 더 많은 개수의 가우시안 분포를 포함하는 음향 모델을 기초로 수행된 인식 결과일 수 있다. 여기에서, 가우시안 분포는 호출어 검출에 이용되는 음향 모델이 포함하는 음향학적 특징을 나타낼 수 있다. 이를 통해, 음성 인식 장치(100)는 서버(200)로부터, 제1 인식 결과에 비해 추가적인 정보를 더 이용하여 수행된 인식 결과를 획득할 수 있다. In Fig. 5, the speech recognition apparatus 100 can select the second recognition result as the final call word detection result when the first recognition result and the second recognition result are different from each other. For example, when the first recognition result indicates that the speech recognition is detected and the second recognition result indicates that the caller is not detected, the speech recognition apparatus 100 determines that the caller is not detected from the speech signal . In this case, the speech recognition apparatus 100 may not generate the output information for providing the service. The second recognition result may be a more accurate determination result of the similarity degree of the acoustic model than the first recognition result. Accordingly, the second recognition result can be higher in accuracy than the first recognition result. The second recognition result is because more resources can be used by the server 200 compared to the first recognition result. Here, the resource may mean a storage space such as a memory or a buffer used for speech recognition. Also, a resource can mean the number of times or frequencies that a data operation is processed by a processor. For example, if more resources are allocated to speech recognition, a higher order filter can be used when performing filtering on speech signals. As another example, if more resources are allocated to speech recognition, more realistic processing results can be obtained through real or complex arithmetic operations. The server 200 according to one embodiment of the present disclosure may include at least one processor having a higher data processing performance than the speech recognition apparatus 100. [ In addition, the server 200 may have a larger storage space than the speech recognition apparatus 100. For example, the second recognition result may be a recognition result based on an acoustic model including a greater number of Gaussian distributions than the first recognition result. Here, the Gaussian distribution can represent the acoustic characteristics included in the acoustic model used for the call word detection. Accordingly, the speech recognition apparatus 100 can acquire the recognition result performed by using the additional information from the server 200 in comparison with the first recognition result.

한편, 본 개시의 일 실시예에 따른 음성 인식 장치(100)는 제1 인식 결과 및 제2 인식 결과를 도 5와 다른 방식으로 조합하여 호출어에 대한 최종 인식 결과를 획득할 수도 있다. 예를 들어, 제1 인식 결과 및 제2 인식 결과는 음성 신호와 호출어에 대응하는 음향 모델 사이의 유사도를 포함할 수 있다. 제1 인식 결과가 유사도를 포함하는 경우, 음성 인식 장치(100)는 제1 인식 결과 및 제2 인식 결과를 조합하여 음성 신호에 대한 최종 호출어 검출여부를 생성할 수 있다. 구체적으로, 제1 인식 결과가 '0.8'이고 제2 인식 결과가 '0.5'인 경우, 음성 인식 장치(100)는 결과값 '(0.8+0.5)/2=0.65'를 획득할 수 있다. 이때, 음성 인식 장치(100)는 결과값을 기준 유사도와 비교하여 최종 호출어 인식 결과를 획득할 수 있다. 기준 유사도가 '0.6'인 경우, 음성 인식 장치(100)는 음성 신호로부터 호출어가 검출된 것으로 판단할 수 있다. 일 실시예에 따라, 음성 인식 장치(100)는 제1 인식 결과 및 제2 인식 결과를 가중합하여 최종 호출어 인식 결과를 생성할 수 있다. 예를 들어, 음성 인식 장치(100)는 제1 인식 결과 및 제2 인식 결과 각각에 적용되는 가중 파라미터를 결정할 수 있다. 음성 인식 장치(100)는 제1 인식 결과 및 제2 인식 결과에 각각 '3' 및 '7'에 대응하는 가중 파라미터를 적용하여 가중합할 수 있다. 음성 인식 장치(100)는 결과값 '(2.4+3.5)/(3+7)=0.59'을 획득할 수 있다. 기준 유사도가 '0.6'인 경우, 음성 인식 장치(100)는 음성 신호로부터 호출어가 검출되지 않은 것으로 판단할 수 있다.Meanwhile, the speech recognition apparatus 100 according to an embodiment of the present disclosure may combine the first recognition result and the second recognition result in a manner different from that of FIG. 5 to obtain the final recognition result for the call word. For example, the first recognition result and the second recognition result may include the similarity between the speech signal and the acoustic model corresponding to the caller. When the first recognition result includes the similarity, the speech recognition apparatus 100 may combine the first recognition result and the second recognition result to generate whether or not to detect the final call word for the speech signal. Specifically, when the first recognition result is '0.8' and the second recognition result is '0.5', the speech recognition apparatus 100 can obtain the result '(0.8 + 0.5) /2=0.65'. At this time, the speech recognition apparatus 100 can obtain the final caller recognition result by comparing the result value with the reference similarity. When the reference similarity degree is '0.6', the speech recognition apparatus 100 can determine that the caller is detected from the voice signal. According to one embodiment, the speech recognition apparatus 100 may generate the final caller recognition result by weighting the first recognition result and the second recognition result. For example, the speech recognition apparatus 100 may determine a weighting parameter applied to each of the first recognition result and the second recognition result. The speech recognition apparatus 100 may apply weighting by applying weighting parameters corresponding to '3' and '7' to the first recognition result and the second recognition result, respectively. The speech recognition apparatus 100 can obtain the result value '(2.4 + 3.5) / (3 + 7) = 0.59'. When the reference similarity is '0.6', the speech recognition apparatus 100 can determine that no speech is detected from the speech signal.

한편, 전술한 단계 S506에서, 음성 인식 장치(100)는 음성 신호를 획득한 수신환경에 대응하는 호출이력을 기초로 호출어 파트 전송 여부를 결정할 수 있다. 이하에서는, 일 실시예에 따라 음성 신호에 대한 제1 인식 결과가 호출어 검출을 나타내는 경우, 음성 인식 장치(100)가 호출이력을 기초로 음성 신호의 적어도 일부를 서버(200)로 전송하는 방법에 대해 설명한다. 예를 들어, 수신환경은 음성 인식 장치가 호출된 시간, 음성 인식 장치를 호출한 특정 사용자, 음성 인식 장치가 호출된 때 음성 인식 장치가 위치된 공간의 조도(luminance) 중 적어도 하나를 포함할 수 있다. 또한, 음성 인식 장치(100)는 호출이력을 기초로 음성 신호가 획득된 시간, 음성 신호에 대응하는 음성을 발화한 사용자(300) 및 음성 인식 장치(100) 주변 환경 정보 중 적어도 하나에 대응하는 호출 빈도수를 산출할 수 있다. 이때, 호출 빈도수는 해당 상황에서 음성 인식 장치(100)가 호출된 누적 횟수를 나타낼 수 있다.On the other hand, in the above-described step S506, the voice recognition apparatus 100 can determine whether or not to transmit the caller part based on the call history corresponding to the reception environment in which the voice signal is acquired. Hereinafter, a description will be given of how the speech recognition apparatus 100 transmits at least a part of the speech signal to the server 200 based on the call history, when the first recognition result on the speech signal indicates the call word detection according to an embodiment Will be described. For example, the receiving environment may include at least one of the time at which the speech recognition apparatus was called, the particular user who invoked the speech recognition apparatus, and the luminance of the space in which the speech recognition apparatus was located when the speech recognition apparatus was called have. Further, the speech recognition apparatus 100 may be configured to recognize the time corresponding to the time at which the speech signal was acquired based on the call history, at least one of the user 300 who uttered the speech corresponding to the speech signal and the environment information of the speech recognition apparatus 100 The calling frequency can be calculated. At this time, the calling frequency can indicate the cumulative number of times the voice recognition apparatus 100 is called in the corresponding situation.

예를 들어, 음성 인식 장치(100)는 음성 신호를 획득한 시간 정보에 대응하는 호출이력을 기초로 음성 신호의 적어도 일부를 서버로 전송할 수 있다. 구체적으로, 호출이력은 음성 인식 장치(100)가 호출된 시간에 따른 시간 별 호출 빈도수를 포함할 수 있다. 음성 인식 장치(100)는 음성 신호를 획득한 시간에 대응하는 호출 빈도수를 산출할 수 있다. 구체적으로, 도 6은 본 개시의 일 실시예에 따라, 음성 인식 장치와 관련된 호출 이력의 예시를 나타내는 도면이다. 도 6은 음성 인식 장치와 관련된 시간 별 호출 빈도수를 나타낸다. 도 6은 음성 인식 장치(100)가 '오후 6시 30분'에 제1 음성 신호(61)를 획득하고 '오전 2시 50분'에 제2 음성 신호(62)를 획득한 경우를 나타낸다. 음성 인식 장치(100)는 시간 별 호출 빈도수(예를 들어, '호출 빈도수(장치)')를 기초로 호출어 파트를 서버(200)로 전송할 수 있다. 음성 인식 장치(100)는 음성 신호를 획득한 시간을 기초로 제1 시간(601)에 대응하는 제1 호출 빈도수를 산출할 수 있다. 또한, 음성 인식 장치(100)는 제1 호출 빈도수를 기준치와 비교할 수 있다. 이때, 기준치는 호출어 파트에 대한 서버(200)로의 전송 여부를 결정하는 기준이 되는 문턱값일 수 있다. 예를 들어, 제1 호출 빈도수가 기준치 보다 큰 경우, 음성 인식 장치(100)는 제1 호출어 파트를 제외한 음성 신호를 서버(200)로 전송할 수 있다. 여기에서, 제1 호출어 파트는 제1 음성 신호(61)가 포함하는 호출어 파트이다. 반면, 기준치가 '30'인 경우, 음성 인식 장치(100)는 제2 음성 신호(62)가 포함하는 제2 호출어 파트를 서버(200)로 전송할 수 있다. 여기에서, 제2 호출어 파트는 제2 음성 신호(62)가 포함하는 호출어 파트이다. 음성 신호를 획득한 시간에 대응하는 제2 호출 빈도수가 기준치 보다 작은 경우이기 때문이다. 음성 인식 장치(100)는 제2 음성 신호(62)를 획득한 시간을 기초로 제2 시간(602)에 대응하는 제2 호출 빈도수를 산출할 수 있다.For example, the speech recognition apparatus 100 may transmit at least a part of the speech signal to the server based on the call history corresponding to the time information obtained from the speech signal. Specifically, the call history may include the frequency of calls per hour according to the time the speech recognition apparatus 100 is called. The voice recognition apparatus 100 can calculate the call frequency corresponding to the time at which the voice signal is acquired. Specifically, Figure 6 is an illustration of an example of call history associated with a speech recognition device, in accordance with one embodiment of the present disclosure. Figure 6 shows the frequency of calls per hour associated with the speech recognition device. 6 shows a case where the speech recognition apparatus 100 acquires the first speech signal 61 at 6:30 PM and acquires the second speech signal 62 at 2:50 AM. The speech recognition apparatus 100 may transmit the caller part to the server 200 based on the call frequency (e.g., 'call frequency (device)') by time. The speech recognition apparatus 100 can calculate the first call frequency corresponding to the first time 601 based on the time of acquiring the voice signal. In addition, the speech recognition apparatus 100 may compare the first call frequency with a reference value. At this time, the reference value may be a threshold value that is a criterion for determining whether or not the caller part is transmitted to the server 200. For example, if the first call frequency is greater than the reference value, the speech recognition apparatus 100 may transmit the voice signal to the server 200 excluding the first call word part. Here, the first caller part is the caller part included in the first voice signal 61. [ On the other hand, if the reference value is '30', the speech recognition apparatus 100 may transmit the second call word part included in the second voice signal 62 to the server 200. Here, the second caller part is the caller part included in the second voice signal 62. And the second call frequency corresponding to the time when the voice signal is acquired is smaller than the reference value. The speech recognition apparatus 100 may calculate a second call frequency corresponding to the second time 602 based on the time when the second voice signal 62 is acquired.

또한, 음성 인식 장치(100)는 도 6의 '호출 빈도수(서버)'(603)를 이용하여 호출어 파트의 전송여부를 결정할 수도 있다. '호출 빈도수(서버)'(603)는 다른 음성 인식 기기가 호출된 호출이력을 포함할 수 있다. 음성 인식 장치(100)는 음성 인식 장치(100)가 아닌 다른 음성 인식 기기가 호출된 호출이력을 이용할 수 있다. 이때, 다른 음성 인식 기기는 음성 인식 장치(100)와 연결된 서버(200)를 이용하여 음성 인식 서비스를 제공하는 음성 인식 기기일 수 있다. 또한, 다른 음성 인식 기기는 음성 인식 장치(100) 설치된 장소와 유사한 장소에 설치된 음성 인식 기기를 나타낼 수 있다. 예를 들어, 다른 음성 인식 기기는 음성 인식 장치(100)가 설치된 위치를 기준으로 기 설정된 영역 내에 설치된 기기일 수 있다. 다른 음성 인식 기기는 음성 인식 장치(100)와 지리적으로 공통된 지역에 설치된 기기일 수도 있다. 구체적으로, 음성 인식 장치(100)가 다른 음성 인식 기기의 호출 빈도수가 높은 시간에 음성 신호를 획득하는 경우, 음성 인식 장치(100)는 서버(200)로 호출어 파트(401)를 전송하지 않을 수 있다. 음성 신호로부터 호출어가 검출된 것을 나타내는 제1 인식 결과의 신뢰도가 높은 경우이기 때문이다. 음성 인식 장치(100)는 음성 인식 장치(100) 또는 서버(200)와 연결된 각각의 음성 인식 장치가 설치된 장소에 관한 정보를 획득할 수 있다. 이때, 설치된 장소에 관한 정보는 음성 인식 장치가 설치된 지역, 장소의 용도 특성(예를 들어, 가정 또는 사무실)을 포함할 수 있다.In addition, the voice recognition apparatus 100 may determine whether to transmit the caller part using the 'call frequency (server)' 603 in FIG. The 'call frequency (server)' 603 may include a call history in which another voice recognition device is called. The voice recognition apparatus 100 can use a call history in which a voice recognition apparatus other than the voice recognition apparatus 100 is called. In this case, another voice recognition device may be a voice recognition device that provides a voice recognition service using the server 200 connected to the voice recognition device 100. Further, another voice recognition device may represent a voice recognition device installed in a place similar to the place where the voice recognition device 100 is installed. For example, another voice recognition device may be a device installed in a predetermined area based on a location where the voice recognition device 100 is installed. Other voice recognition devices may be devices installed in geographically common areas with the voice recognition device 100. [ Specifically, when the speech recognition apparatus 100 acquires a speech signal at a time when the number of calls of other speech recognition apparatuses is high, the speech recognition apparatus 100 does not transmit the call speech part 401 to the server 200 . This is because the reliability of the first recognition result indicating that the caller is detected from the voice signal is high. The speech recognition apparatus 100 may acquire information about a place where each speech recognition apparatus connected to the speech recognition apparatus 100 or the server 200 is installed. At this time, the information about the installed place may include an area where the voice recognition device is installed, a usage characteristic (e.g., home or office) of the place.

일 실시예에 따라, 음성 인식 장치(100)는 신뢰도를 기초로 호출어 파트에 대한 전송 여부를 결정할 수 있다. 여기에서, 신뢰도는 제1 인식 결과에 대한 오류 발생 가능성을 나타낼 수 있다. 신뢰도는 획득된 음성 신호로부터 호출어가 검출된 것을 나타내는 제1 인식 결과의 오류 발생 가능성을 나타낼 수 있다. 예를 들어, 신뢰도가 클 수록 신뢰도가 작은 경우에 비해, 제1 인식 결과가 오류일 가능성이 더 작은 것을 나타낼 수 있다. 음성 인식 장치(100)는 호출이력을 기초로 신뢰도를 결정할 수 있다. 예를 들어, 음성 인식 장치(100)는 신뢰도를 호출 빈도수에 비례하도록 설정할 수 있다. 또한, 음성 인식 장치(100)는 결정된 신뢰도를 기초로 호출어 파트에 대한 서버로의 전송 여부를 결정할 수 있다. 구체적으로, 음성 인식 장치(100)는 제1 시간 정보에 대응하는 제1 호출 빈도수가 제2 시간 정보에 대응하는 제2 호출 빈도수보다 많은 경우, 제1 시간 정보에 대응하는 제1 신뢰도를 제2 시간 정보에 대응하는 제2 신뢰도에 비해 높은 값으로 설정할 수 있다. 또한, 신뢰도가 기 설정된 값 보다 높은 경우, 음성 인식 장치(100)는 획득한 음성 신호 중에서 호출어 파트를 제외한 음성 신호의 일부를 서버(200)로 전송할 수 있다. 반대로, 신뢰도가 기 설정된 값 보다 낮은 경우, 음성 인식 장치(100)는 호출어 파트를 포함하는 음성 신호 전체를 서버(200)로 전송할 수 있다.According to one embodiment, the speech recognition apparatus 100 may determine whether to transmit to the caller part based on the reliability. Here, the reliability may indicate the possibility of occurrence of error with respect to the first recognition result. The reliability may indicate the probability of error in the first recognition result indicating that the caller is detected from the acquired voice signal. For example, a greater confidence may indicate that the first recognition result is less likely to be false than the lesser confidence. The speech recognition apparatus 100 can determine the reliability based on the call history. For example, the speech recognition apparatus 100 may set the reliability to be proportional to the call frequency. Further, the speech recognition apparatus 100 can determine whether or not the caller part is transmitted to the server based on the determined reliability. Specifically, when the first call frequency corresponding to the first time information is greater than the second call frequency corresponding to the second time information, the speech recognition apparatus 100 sets the first reliability corresponding to the first time information to the second Can be set to a higher value than the second reliability corresponding to the time information. If the reliability is higher than the predetermined value, the speech recognition apparatus 100 can transmit a part of the speech signal excluding the caller part to the server 200 from among the acquired speech signals. Conversely, when the reliability is lower than the predetermined value, the voice recognition apparatus 100 can transmit the entire voice signal including the caller part to the server 200. [

여기에서, 기 설정된 값은 서비스 제공 시스템에 기 저장된 값일 수 있다. 기 설정된 값은 음성 인식 장치(100) 또는 음성 인식 서비스를 제공하는 제공자에 의해 설정된 값일 수 있다. 기 설정된 값을 음성 인식 장치(100)를 통해 서비스를 제공받는 특정 사용자에 의해 설정된 값일 수도 있다. 예를 들어, 음성 인식 장치(100)는 서버(200)로부터 기 설정된 값을 획득할 수 있다. 또는 음성 인식 장치(100)는 음성 인식 장치(100) 내부에 기 저장된 값을 이용할 수도 있다. 또한, 기 설정된 값은 네트워크 환경에 따라 결정된 값일 수 있다. 예를 들어, 네트워크 환경에서 수용 가능한 데이터 트래픽 양이 충분한 경우, 데이터 트래픽 양이 적은 경우에 비해 높은 값으로 설정될 수 있다. 데이터 트래픽이 충분한 경우, 음성 인식 장치(100)가 서버(200)로 음성 신호를 전송하기에 용이할 수 있기 때문이다.Here, the predetermined value may be a value pre-stored in the service providing system. The predetermined value may be a value set by the speech recognition apparatus 100 or a provider providing voice recognition service. And the predetermined value may be a value set by a specific user who is provided with the service through the voice recognition apparatus 100. [ For example, the speech recognition apparatus 100 may obtain a predetermined value from the server 200. [ Alternatively, the speech recognition apparatus 100 may use a pre-stored value in the speech recognition apparatus 100. [ In addition, the predetermined value may be a value determined according to the network environment. For example, if the amount of data traffic acceptable in the network environment is sufficient, the amount of data traffic may be set to a higher value than when the amount of data traffic is small. This is because when the data traffic is sufficient, the voice recognition apparatus 100 may be able to easily transmit the voice signal to the server 200.

일 실시예에 따라, 제1 인식 결과가 음성 신호와 호출어 사이의 유사도를 포함하는 경우, 음성 인식 장치(100)는 제1 인식 결과 및 신뢰도를 기초로 결과값을 산정할 수 있다. 결과값이 기 설정된 값 이상인 경우, 음성 인식 장치(100)는 호출어 파트를 제외한 음성 신호를 서버(200)로 전송할 수 있다. 음성 인식 장치(100)는 음성 신호 중에서, 음성 신호의 호출어 파트를 제외한 비호출어 파트를 서버로 전송할 수 있다. 반대로, 결과값이 기 설정된 값 이하인 경우, 음성 인식 장치(100)는 호출어 파트를 포함하는 음성 신호 전체를 서버(200)로 전송할 수 있다.According to one embodiment, when the first recognition result includes the similarity between the speech signal and the caller, the speech recognition apparatus 100 can calculate the result based on the first recognition result and the reliability. When the result value is equal to or greater than a preset value, the voice recognition apparatus 100 can transmit the voice signal excluding the caller part to the server 200. [ The speech recognition apparatus 100 can transmit, to the server, a part of the speech signal excluding the speech part of the speech signal from the speech signal. Conversely, when the resultant value is equal to or less than a predetermined value, the speech recognition apparatus 100 can transmit the entire speech signal including the caller part to the server 200. [

한편, 본 개시의 일 실시예에 따라, 호출 이력은 상기 음성 인식 장치를 호출한 사용자 별 호출 이력을 포함할 수 있다. 여기에서, 사용자 별 호출이력은 특정 음성 인식 장치에 대한 특정 사용자의 호출이력을 의미할 수 있다. 이 경우, 음성 인식 장치(100)는 사용자 별 호출이력을 기초로 음성 신호의 적어도 일부를 서버(200)로 전송할 수 있다. 음성 신호에 대응하는 음성을 발화한 사용자에 대응하는 호출이력이 존재하는 경우, 음성 신호로부터 호출어가 검출된 것을 나타내는 제1 인식 결과에 대한 신뢰도가 높을 수 있기 때문이다. 예를 들어, 음성 인식 장치(100)는 기 인식된 음성과 동일한 사용자로부터 발화된 음성을 최초로 수집된 음성에 비해 더 정확하게 인식할 수 있다. 이때, 음성 인식 장치(100)는 뉴럴 네트워크(neural network)를 통한 딥 러닝(deep learning) 기술을 이용할 수 있다. 또한, 사용자에 대응하는 호출이력이 존재하는 경우, 호출이력이 존재하지 않는 경우에 비해, 사용자가 음성 인식 장치(100)를 호출하였을 가능성이 더 높기 때문이다.On the other hand, according to one embodiment of the present disclosure, the call history may include a call history per user calling the voice recognition apparatus. Here, the call history per user may mean a call history of a specific user to a specific speech recognition apparatus. In this case, the voice recognition apparatus 100 may transmit at least a part of the voice signal to the server 200 based on the call history per user. When there is a call history corresponding to a user who has uttered the voice corresponding to the voice signal, the reliability of the first recognition result indicating that the caller is detected from the voice signal may be high. For example, the speech recognition apparatus 100 can more accurately recognize a speech uttered by the same user as the previously recognized speech, compared with the originally collected speech. At this time, the speech recognition apparatus 100 may use a deep learning technique through a neural network. In addition, when there is a call history corresponding to the user, it is more likely that the user has called the voice recognition apparatus 100, as compared with the case where the call history does not exist.

예를 들어, 음성 인식 장치(100)는 획득된 음성 신호에 대응하는 음성을 발화한 사용자(300)에 대응하는 호출이력이 존재하는지 판별할 수 있다. 구체적으로, 음성 인식 장치(100)는 음성 신호를 기초로 음성 신호에 대응하는 음성을 발화한 사용자(300)를 식별할 수 있다. 음성 인식 장치(100)는 음성 신호로부터 음성 패턴을 추출하여 사용자(300)의 사용자 식별정보를 획득할 수 있다. 음성 인식 장치(100)는 획득된 사용자 식별정보를 기초로 사용자에 대응하는 사용자 별 호출이력을 획득할 수 있다. 그리고, 음성 인식 장치(100)는 판별 결과 및 제1 인식 결과를 기초로 음성 신호의 적어도 일부를 서버(200)로 전송할 수 있다. 구체적으로, 사용자에 대응하는 호출이력이 존재하는 경우, 음성 인식 장치(100)는 호출어 파트 및 비호출어 파트를 서버로 전송할 수 있다. 사용자에 대응하는 호출이력이 존재하지 않는 경우, 음성 인식 장치(100)는 비호출어 파트를 서버로 전송할 수 있다.For example, the speech recognition apparatus 100 can determine whether there is a call history corresponding to the user 300 that has uttered the voice corresponding to the obtained voice signal. Specifically, the speech recognition apparatus 100 can identify the user 300 who has uttered the voice corresponding to the voice signal based on the voice signal. The voice recognition apparatus 100 may extract the voice pattern from the voice signal to obtain the user identification information of the user 300. [ The speech recognition apparatus 100 may acquire a call history per user corresponding to the user based on the acquired user identification information. Then, the speech recognition apparatus 100 can transmit at least a part of the speech signal to the server 200 based on the determination result and the first recognition result. Specifically, when there is a call history corresponding to the user, the speech recognition apparatus 100 can transmit the call word part and the non-word part part to the server. If there is no call history corresponding to the user, the voice recognition apparatus 100 can transmit the unsent part to the server.

예를 들어, 음성 인식 장치(100)는 사용자(300)로부터 발화된 음성에 대응하는 음성 신호의 호출어 파트를 서버(200)로 전송하지 않을 수 있다. 이때, 음성 인식 장치(100)는 사용자(300)와 관련된 공간에 설치된 경우일 수 있다. 구체적으로, 사용자(300)와 관련된 공간은 사용자(300)가 거주하는 가정 및 상주하는 사무실 중 적어도 하나를 포함할 수 있다. 또한, 특정 사용자에 대응하는 호출 빈도수가 기 설정된 빈도수 보다 많은 경우, 음성 인식 장치(100)는 음성 인식 장치(100)가 설치된 공간을 특정 사용자와 관련된 공간으로 판단할 수 있다. 특정 사용자에 대응하는 호출 빈도수는 특정 사용자의 음성 인식 장치(100)에 대한 호출 빈도수를 포함할 수 있다. 또한, 특정 사용자에 대응하는 호출 빈도수는 음성 인식 장치(100)가 설치된 위치를 기준으로 기 설정된 영역 내에 설치된 다른 음성 인식 기기에 대한 특정 사용자의 호출 빈도수를 포함할 수 있다.For example, the voice recognition apparatus 100 may not transmit the caller part of the voice signal corresponding to the voice uttered from the user 300 to the server 200. [ In this case, the voice recognition apparatus 100 may be installed in a space associated with the user 300. [ Specifically, the space associated with the user 300 may include at least one of the home where the user 300 resides and the resident office. In addition, when the number of calls corresponding to a specific user is greater than a predetermined frequency, the voice recognition apparatus 100 can determine the space in which the voice recognition apparatus 100 is installed as a space related to a specific user. The frequency of calls corresponding to a particular user may include the frequency of calls to a particular user's speech recognition device 100. [ In addition, the calling frequency corresponding to a specific user may include a calling frequency of a specific user for another voice recognition device installed in a predetermined area based on a location where the voice recognition device 100 is installed.

본 개시의 일 실시예에 따라, 호출이력은 조도 별 호출 빈도수를 포함할 수 있다. 조도 별 호출 빈도수는 음성 인식 장치가 호출된 조도 각각에 대응하는 호출 빈도수를 나타낼 수 있다. 음성 인식 장치(100)는 조도 별 호출 빈도수를 기초로 음성 신호의 적어도 일부를 서버(200)로 전송할 수 있다. 음성 인식 장치(100)는 음성 인식 장치(100)가 호출된 시점에 음성 인식 장치(100)가 설치된 공간의 조도에 따라 제공하는 서비스가 달라지는 기기일 수 있기 때문이다. 예를 들어, 음성 인식 장치(100)가 조명 기능을 탑재한 경우, 기 설정된 조도 미만에서의 호출 빈도수는 기 설정된 조도 이상에서의 호출 빈도수 보다 더 클 수 있다. 음성 인식 장치(100)는 음성 신호를 획득한 시점에 음성 인식 장치(100)가 설치된 공간의 조도를 나타내는 조도 정보를 획득할 수 있다. 음성 인식 장치(100)는 호출이력을 기초로 조도 정보에 대응하는 조도 별 호출 빈도수를 산출할 수 있다. 또한, 음성 인식 장치(100)는 산출된 호출 빈도수를 기초로 호출어 파트를 서버(200)로 전송할 수 있다. 구체적으로, 특정 조도에 대응하는 호출 빈도수가 기 설정된 빈도수 보다 큰 경우, 음성 인식 장치(100)는 호출어 파트를 제외한 음성 신호의 적어도 일부를 서버(200)로 전송할 수 있다. 특정 조도에 대응하는 호출 빈도수가 기 설정된 빈도수 보다 작은 경우, 음성 인식 장치(100)는 호출어 파트 및 비호출어 파트를 서버(200)로 전송할 수 있다. According to one embodiment of the present disclosure, the call history may include an illuminated call frequency. The illuminated call frequency can indicate the frequency of calls corresponding to each illuminance for which the speech recognition device is called. The speech recognition apparatus 100 may transmit at least a portion of the speech signal to the server 200 based on the illuminated call frequency. This is because the voice recognition apparatus 100 may be a device whose service varies depending on the illuminance of the space where the voice recognition apparatus 100 is installed at the time when the voice recognition apparatus 100 is called. For example, when the speech recognition apparatus 100 is equipped with a lighting function, the calling frequency at a predetermined illumination level may be greater than the calling frequency at a predetermined illumination level or more. The speech recognition apparatus 100 can acquire illumination information indicating the illumination of the space in which the speech recognition apparatus 100 is installed at the time of acquiring the speech signal. The speech recognition apparatus 100 can calculate the frequency of illumination according to illumination information based on the call history. Further, the speech recognition apparatus 100 can transmit the caller part to the server 200 based on the calculated call frequency. Specifically, when the call frequency corresponding to the specific illuminance is larger than the predetermined frequency, the speech recognition apparatus 100 can transmit at least a part of the voice signal excluding the caller part to the server 200. [ If the calling frequency corresponding to the specific illuminance is smaller than the predetermined frequency, the speech recognition apparatus 100 can transmit the calling speech part and the non-calling speech part to the server 200. [

도 7은 본 개시의 일 실시예에 따른 음성 인식 장치(100)의 동작 방법을 나타내는 흐름도이다. 도 7을 참조하면, 단계 S702에서, 음성 인식 장치(100)는 음성 신호를 획득할 수 있다. 단계 S704에서, 음성 인식 장치(100)는 음성 신호로부터 호출어를 검출하는 제 1 인식 결과를 생성할 수 있다. 단계 S706에서, 음성 인식 장치(100)는 호출이력 및 제1 인식 결과를 기초로 음성 신호의 적어도 일부를 서버(200)로 전송할 수 있다. 구체적으로, 음성 인식 장치(100)는 호출이력 및 제1 인식 결과를 기초로 호출어 파트에 대한 서버(200)로의 전송 여부를 결정할 수 있다. 또한, 음성 인식 장치(100)는 전송 여부 결정을 기초로 음성 신호의 적어도 일부를 서버(200)로 전송할 수 있다. 단계 S708에서, 음성 인식 장치(100)는 서버로부터 획득한 제2 인식 결과 및 제1 인식 결과 중 적어도 하나를 기초로 출력 정보를 생성할 수 있다. 단계 S710에서, 음성 인식 장치(100)는 생성된 출력 정보를 출력할 수 있다. 예를 들어, 최종 호출어 인식 결과가 음성 신호로부터 호출어가 검출되지 않은 것을 나타내는 경우, 음성 인식 장치(100)는 호출어 검출 결과를 나타내는 출력 정보를 제공할 수 있다. 최종 호출어 인식 결과가 음성 신호로부터 호출어가 검출된 것을 나타내는 경우, 음성 인식 장치(100)는 서비스 제공을 위한 출력 정보를 제공할 수 있다. 전술한 방법을 통해, 음성 인식 장치(100)는 호출어 인식 오인식률을 감소시킬 수 있다. 또한, 음성 인식 장치(100)는 호출이력을 기초로 음성 신호의 호출어 파트를 서버(200)로 선별적으로 전송할 수 있다. 음성 인식 장치(100)는 통신 자원 측면에 있어서 효율적으로 호출어 인식 오인식률을 감소시킬 수 있다.7 is a flowchart showing a method of operating the speech recognition apparatus 100 according to an embodiment of the present disclosure. Referring to FIG. 7, in step S702, the speech recognition apparatus 100 can acquire a speech signal. In step S704, the speech recognition apparatus 100 may generate a first recognition result for detecting the call word from the speech signal. In step S706, the speech recognition apparatus 100 may transmit at least a part of the speech signal to the server 200 based on the call history and the first recognition result. Specifically, the speech recognition apparatus 100 can determine whether to transmit the call word part to the server 200 based on the call history and the first recognition result. In addition, the speech recognition apparatus 100 may transmit at least a part of the speech signal to the server 200 based on the determination of whether or not to transmit. In step S708, the speech recognition apparatus 100 can generate output information based on at least one of the second recognition result and the first recognition result obtained from the server. In step S710, the speech recognition apparatus 100 can output the generated output information. For example, if the final caller recognition result indicates that the caller is not detected from the voice signal, the voice recognition apparatus 100 may provide the output information indicating the result of the caller detection. When the final caller recognition result indicates that a caller is detected from the voice signal, the voice recognition apparatus 100 may provide the output information for providing the service. Through the above-described method, the speech recognition apparatus 100 can reduce the recognition accuracy of the speech recognition. In addition, the speech recognition apparatus 100 can selectively transmit the speech part of the speech signal to the server 200 based on the call history. The speech recognition apparatus 100 can effectively reduce the recognition accuracy of the speech recognition in terms of communication resources.

일부 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함할 수 있다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함할 수 있다. 또한, 본 명세서에서, “부”는 프로세서 또는 회로와 같은 하드웨어 구성(hardware component), 및/또는 프로세서와 같은 하드웨어 구성에 의해 실행되는 소프트웨어 구성(software component)일 수 있다.Some embodiments may also be implemented in the form of a recording medium including instructions executable by a computer, such as program modules, being executed by a computer. Computer readable media can be any available media that can be accessed by a computer, and can include both volatile and nonvolatile media, removable and non-removable media. The computer-readable medium may also include computer storage media. Computer storage media may include both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data. Also, in this specification, the term " part " may be a hardware component such as a processor or a circuit, and / or a software component executed by a hardware component such as a processor.

전술한 본 개시의 설명은 예시를 위한 것이며, 본 개시가 속하는 기술분야의 통상의 지식을 가진 자는 본 개시의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.It is to be understood that the foregoing description of the disclosure is for the purpose of illustration and that those skilled in the art will readily appreciate that other embodiments may be readily devised without departing from the spirit or essential characteristics of the disclosure will be. It is therefore to be understood that the above-described embodiments are illustrative in all aspects and not restrictive. For example, each component described as a single entity may be distributed and implemented, and components described as being distributed may also be implemented in a combined form.

Claims (14)

호출어 인식을 통해 서비스를 제공하는 음성 인식 장치에 있어서,
음성 신호를 획득하는 음성 수신부;
상기 음성 신호에 대한 호출어 검출 결과를 나타내는 제1 인식 결과를 생성하고,
상기 음성 신호를 획득한 수신환경에 대응하는 호출이력 및 상기 제1 인식 결과를 기초로 상기 음성 신호의 적어도 일부를 서버로 전송하고,
상기 서버로 상기 음성 신호의 적어도 일부를 전송한 경우, 상기 음성 신호의 적어도 일부에 대한 상기 서버의 인식 결과를 나타내는 제2 인식 결과, 및 상기 제1 인식 결과를 기초로 출력 정보를 생성하고,
상기 서버로 상기 음성 신호를 전송하지 않은 경우, 상기 제1 인식 결과를 기초로 출력 정보를 생성하는, 프로세서; 및
생성된 출력 정보를 출력하는 출력부를 포함하는, 음성 인식 장치.
A speech recognition apparatus for providing a service through speech recognition,
A voice receiving unit for acquiring a voice signal;
Generates a first recognition result indicating a result of the voice call detection for the voice signal,
Transmitting at least a part of the speech signal to a server based on a call history corresponding to a reception environment in which the speech signal is acquired and the first recognition result,
Generating a second recognition result indicating a recognition result of the server with respect to at least a part of the voice signal when the at least a part of the voice signal is transmitted to the server and output information based on the first recognition result,
And generate output information based on the first recognition result when the voice signal is not transmitted to the server; And
And an output unit for outputting the generated output information.
제 1 항에 있어서,
상기 음성 신호는 상기 호출어에 대응하는 호출어 파트와 상기 호출어가 아닌 비호출어에 대응하는 비호출어 파트로 구분되고,
상기 프로세서는,
상기 호출이력 및 상기 제1 인식 결과를 기초로, 상기 음성 신호 중에서 상기 음성 신호의 호출어 파트를 제외한 상기 비호출어 파트만을 상기 서버로 전송할 지, 상기 음성 신호의 호출어 파트 및 상기 비호출어 파트를 상기 서버로 전송할 지 결정하고,
상기 결정에 따라 상기 음성 신호의 적어도 일부를 상기 서버로 전송하는, 음성 인식 장치.
The method according to claim 1,
Wherein the voice signal is divided into a call word part corresponding to the call word and a non-call word part corresponding to a non-call word other than the call word,
The processor comprising:
Wherein the speech signal part and the non-referred word part of the speech signal are transmitted to the server only based on the call history and the first recognition result, Determines whether to transmit to the server,
And transmits at least a portion of the voice signal to the server in accordance with the determination.
제 2 항에 있어서,
상기 호출이력은 상기 음성 인식 장치를 호출한 사용자 별 호출이력을 포함하고,
상기 프로세서는,
상기 음성 신호에 대응하는 음성을 발화한 사용자에 대응하는 사용자 별 호출이력을 기초로 상기 음성 신호의 적어도 일부를 상기 서버로 전송하는, 음성 인식 장치.
3. The method of claim 2,
Wherein the call history includes a call history per user calling the voice recognition apparatus,
The processor comprising:
And transmits at least a part of the voice signal to the server based on a call history per user corresponding to a user who uttered the voice corresponding to the voice signal.
제 3 항에 있어서,
상기 프로세서는,
상기 음성 신호로부터 음성 패턴을 추출하여 상기 사용자를 식별하는 사용자 식별정보를 획득하고,
상기 사용자 식별정보를 기초로 상기 사용자에 대응하는 사용자 별 호출이력을 획득하는, 음성 인식 장치.
The method of claim 3,
The processor comprising:
Extracting a voice pattern from the voice signal to obtain user identification information for identifying the user,
And obtain call history per user corresponding to the user based on the user identification information.
제 4 항에 있어서,
상기 프로세서는,
상기 사용자에 대응하는 사용자 별 호출이력이 존재하는지 판별하고,
상기 판별 결과에 따라, 상기 사용자에 대응하는 호출이력이 존재하는 경우, 상기 비호출어 파트를 서버로 전송하고,
상기 사용자에 대응하는 호출이력이 존재하지 않는 경우, 상기 호출어 파트 및 상기 비호출어 파트를 서버로 전송하는, 음성 인식 장치.
5. The method of claim 4,
The processor comprising:
Determining whether there is a call history per user corresponding to the user,
When the call history corresponding to the user is present according to the determination result, transmitting the unsent headword part to the server,
And if the call history corresponding to the user does not exist, transmits the call word part and the non-referred word part to the server.
제 2 항에 있어서,
상기 프로세서는,
상기 음성 신호를 획득한 시간을 나타내는 시간 정보 및 상기 호출이력을 기초로, 상기 음성 신호 중에서 상기 음성 신호의 호출어 파트를 제외한 상기 비호출어 파트만을 상기 서버로 전송할 지, 상기 음성 신호의 호출어 파트 및 상기 비호출어 파트를 상기 서버로 전송할 지 결정하는, 음성 인식 장치.
3. The method of claim 2,
The processor comprising:
And the call history information indicating whether to transmit only the unsent portion of the voice signal excluding the caller part of the voice signal to the server based on the time information indicating the time at which the voice signal was acquired and the call history, And determining whether to transmit the unsubscription part to the server.
제 6 항에 있어서,
상기 호출이력은 음성 인식 장치가 호출된 시간에 따른 시간 별 호출 빈도수를 포함하고,
상기 프로세서는,
상기 호출이력을 기초로 상기 시간 정보에 대응하는 호출 빈도수를 산출하고,
상기 산출된 호출 빈도수를 기초로, 상기 음성 신호 중에서 상기 음성 신호의 호출어 파트를 제외한 상기 비호출어 파트만을 상기 서버로 전송할 지, 상기 음성 신호의 호출어 파트 및 상기 비호출어 파트를 상기 서버로 전송할 지 결정하는, 음성 인식 장치.
The method according to claim 6,
Wherein the call history includes a call frequency by time according to a time when the speech recognition apparatus is called,
The processor comprising:
Calculates a call frequency corresponding to the time information based on the call history,
And wherein, based on the calculated call frequency, only the unsent portion of the voice signal excluding the caller part of the voice signal is transmitted to the server, the caller part of the voice signal and the unsent portion are transmitted to the server Wherein the voice recognition device determines the voice recognition device.
제 6 항에 있어서,
상기 프로세서는,
상기 호출이력을 기초로 상기 제1 인식 결과에 대한 오류 발생 가능성을 나타내는 신뢰도를 획득하고,
상기 신뢰도를 기 설정된 값과 비교한 결과를 기초로, 상기 음성 신호 중에서 상기 음성 신호의 호출어 파트를 제외한 상기 비호출어 파트만을 상기 서버로 전송할 지, 상기 음성 신호의 호출어 파트 및 상기 비호출어 파트를 상기 서버로 전송할 지 결정하고,
제1 시간 정보에 대응하는 제1 호출 빈도수가 제2 시간 정보에 대응하는 제2 호출 빈도수보다 많은 경우, 상기 제1 시간 정보에 대응하는 제1 신뢰도는 상기 제2 시간 정보에 대응하는 제2 신뢰도에 비해 높은 값으로 설정되는, 음성 인식 장치.
The method according to claim 6,
The processor comprising:
Acquiring a reliability indicating a possibility of occurrence of an error with respect to the first recognition result based on the call history,
Wherein the speech signal part of the speech signal and the non-referred speech part of the speech signal are transmitted to the server only based on a result of comparing the reliability with a predetermined value, To the server,
When the first call frequency corresponding to the first time information is larger than the second call frequency corresponding to the second time information, the first reliability corresponding to the first time information is the second reliability corresponding to the second time information Is set to a higher value than that of the speech recognition apparatus.
제 8 항에 있어서,
상기 프로세서는,
상기 신뢰도가 기 설정된 값 이상인 경우, 상기 음성 신호 중에서 상기 음성 신호의 호출어 파트를 제외한 상기 비호출어 파트를 서버로 전송하고,
상기 제2 인식 결과는 상기 비호출어 파트에 대한 음성 인식 결과를 포함하는, 음성 인식 장치.
9. The method of claim 8,
The processor comprising:
When the reliability is equal to or greater than a preset value, transmitting the unsubscription part excluding the caller part of the voice signal from the voice signal to the server,
And the second recognition result includes a speech recognition result for the unsubscriber part.
제 8 항에 있어서,
상기 프로세서는,
상기 신뢰도가 기 설정된 값 이하인 경우, 상기 음성 신호의 호출어 파트 및 상기 비호출어 파트를 서버로 전송하고,
상기 제2 인식 결과는 상기 음성 신호에 대한 호출어 검출 여부를 나타내는 정보를 포함하는, 음성 인식 장치.
9. The method of claim 8,
The processor comprising:
Transmitting the speech part of the speech signal and the non-referred word part to a server when the reliability is equal to or less than a predetermined value,
And the second recognition result includes information indicating whether or not to detect a call word for the voice signal.
제 1 항에 있어서,
상기 프로세서는,
상기 서버로부터 상기 음성 인식 장치가 아닌 다른 음성 인식 장치에 대응하는 호출이력을 획득하고,
상기 다른 음성 인식 장치에 대응하는 호출이력을 기초로 상기 음성 신호의 적어도 일부를 상기 서버로 전송하고,
상기 다른 음성 인식 장치는, 상기 음성 인식 장치와 연결된 상기 서버와 동일한 서버를 통해 음성 인식 서비스를 제공하는 장치인, 음성 인식 장치.
The method according to claim 1,
The processor comprising:
Acquiring a call history corresponding to a voice recognition device other than the voice recognition device from the server,
Transmitting at least a part of the voice signal to the server based on a call history corresponding to the other voice recognition apparatus,
Wherein the another voice recognition device is a device for providing a voice recognition service through the same server as the server connected to the voice recognition device.
제 2 항에 있어서,
상기 호출이력은 음성 인식 장치가 호출된 조도에 대응하는 호출 빈도수를 포함하고,
상기 프로세서는,
상기 조도에 대응하는 호출 빈도수를 기초로, 상기 음성 신호를 획득한 시점에 상기 음성 인식 장치가 설치된 공간의 조도를 나타내는 조도 정보에 대응하는 호출 빈도수를 산출하고,
상기 호출 빈도수를 기초로, 상기 음성 신호 중에서 상기 음성 신호의 호출어 파트를 제외한 상기 비호출어 파트만을 상기 서버로 전송할 지, 상기 음성 신호의 호출어 파트 및 상기 비호출어 파트를 상기 서버로 전송할 지 결정하는, 음성 인식 장치.
3. The method of claim 2,
Wherein the call history includes a call frequency corresponding to the illuminance for which the speech recognition apparatus is called,
The processor comprising:
Calculating a calling frequency number corresponding to the illumination information indicating the illumination of the space in which the speech recognition device is installed at the time of acquiring the voice signal based on the calling frequency number corresponding to the illumination;
Determining whether to transmit to the server only the unsent portion of the voice signal excluding the caller part of the voice signal from among the voice signals based on the call frequency, to determine whether to transmit the caller part of the voice signal and the non- A voice recognition device.
호출어 인식을 통해 서비스를 제공하는 음성 인식 장치의 동작 방법에 있어서,
음성 신호를 획득하는 단계;
상기 음성 신호에 대한 호출어 검출 결과를 나타내는 제1 인식 결과를 생성하는 단계;
상기 음성 신호를 획득한 수신환경에 대응하는 호출이력 및 상기 제1 인식 결과를 기초로 상기 음성 신호의 적어도 일부를 서버로 전송하는 단계;
상기 서버로 상기 음성 신호의 적어도 일부를 전송한 경우, 상기 음성 신호의 적어도 일부에 대한 상기 서버의 인식 결과를 나타내는 제2 인식 결과, 및 상기 제1 인식 결과를 기초로 출력 정보를 생성하고,
상기 서버로 상기 음성 신호를 전송하지 않은 경우, 상기 제1 인식 결과를 기초로 출력 정보를 생성하는 단계; 및
생성된 출력 정보를 출력하는 단계를 포함하는, 음성 인식 방법.
A method of operating a speech recognition apparatus for providing a service through call word recognition,
Obtaining a voice signal;
Generating a first recognition result indicating a result of the voice call detection for the voice signal;
Transmitting at least a part of the speech signal to a server based on a call history corresponding to a reception environment in which the speech signal is acquired and the first recognition result;
Generating a second recognition result indicating a recognition result of the server with respect to at least a part of the voice signal when the at least a part of the voice signal is transmitted to the server and output information based on the first recognition result,
Generating output information based on the first recognition result when the voice signal is not transmitted to the server; And
And outputting the generated output information.
제 13 항의 방법을 전자 장치에서 실행시키는 프로그램이 기록된, 전자 장치로 판독 가능한 기록 매체.14. A recording medium readable by an electronic device, the program causing the method of claim 13 to be executed in an electronic device.
KR1020180055968A 2017-11-30 2018-05-16 Device and method for recognizing wake-up word using server recognition result KR102071865B1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020170163618 2017-11-30
KR20170163618 2017-11-30

Publications (2)

Publication Number Publication Date
KR20190064384A true KR20190064384A (en) 2019-06-10
KR102071865B1 KR102071865B1 (en) 2020-01-31

Family

ID=66848344

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180055968A KR102071865B1 (en) 2017-11-30 2018-05-16 Device and method for recognizing wake-up word using server recognition result

Country Status (1)

Country Link
KR (1) KR102071865B1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102378895B1 (en) * 2021-09-29 2022-03-28 주식회사 인피닉 Method for learning wake-word for speech recognition, and computer program recorded on record-medium for executing method therefor
CN116758684A (en) * 2023-06-15 2023-09-15 西安航空学院 Optical wake-up system and method

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160055162A (en) * 2013-08-26 2016-05-17 삼성전자주식회사 Electronic device and method for voice recognition
KR20160077223A (en) * 2010-05-19 2016-07-01 구글 인코포레이티드 Disambiguation of contact information using historical data
KR20170035529A (en) * 2015-09-23 2017-03-31 삼성전자주식회사 Electronic device and voice recognition method thereof

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160077223A (en) * 2010-05-19 2016-07-01 구글 인코포레이티드 Disambiguation of contact information using historical data
KR20160055162A (en) * 2013-08-26 2016-05-17 삼성전자주식회사 Electronic device and method for voice recognition
KR20170035529A (en) * 2015-09-23 2017-03-31 삼성전자주식회사 Electronic device and voice recognition method thereof

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102378895B1 (en) * 2021-09-29 2022-03-28 주식회사 인피닉 Method for learning wake-word for speech recognition, and computer program recorded on record-medium for executing method therefor
CN116758684A (en) * 2023-06-15 2023-09-15 西安航空学院 Optical wake-up system and method

Also Published As

Publication number Publication date
KR102071865B1 (en) 2020-01-31

Similar Documents

Publication Publication Date Title
US11875820B1 (en) Context driven device arbitration
US20210149939A1 (en) Responding to remote media classification queries using classifier models and context parameters
US11289087B2 (en) Context-based device arbitration
US11138977B1 (en) Determining device groups
US11094323B2 (en) Electronic device and method for processing audio signal by electronic device
CN108351872B (en) Method and system for responding to user speech
US9443511B2 (en) System and method for recognizing environmental sound
KR100636317B1 (en) Distributed Speech Recognition System and method
KR101610151B1 (en) Speech recognition device and method using individual sound model
KR101863097B1 (en) Apparatus and method for keyword recognition
CN108346425B (en) Voice activity detection method and device and voice recognition method and device
EP2681896B1 (en) Method and apparatus for identifying mobile devices in similar sound environment
KR20200012963A (en) Object recognition method, computer device and computer readable storage medium
US10685664B1 (en) Analyzing noise levels to determine usability of microphones
WO2015103836A1 (en) Voice control method and device
US11361764B1 (en) Device naming-indicator generation
US20180158462A1 (en) Speaker identification
KR102071865B1 (en) Device and method for recognizing wake-up word using server recognition result
US9224388B2 (en) Sound recognition method and system
KR102071867B1 (en) Device and method for recognizing wake-up word using information related to speech signal
KR102495028B1 (en) Sound Device with Function of Whistle Sound Recognition
KR101863098B1 (en) Apparatus and method for speech recognition
KR20230106335A (en) Apparatus and method for speech recognition
KR20150045967A (en) Algorithm that converts the voice data into emotion data

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right