KR20140054771A - Apparatus for improving utterance recognition performance and method thereof - Google Patents

Apparatus for improving utterance recognition performance and method thereof Download PDF

Info

Publication number
KR20140054771A
KR20140054771A KR1020120120674A KR20120120674A KR20140054771A KR 20140054771 A KR20140054771 A KR 20140054771A KR 1020120120674 A KR1020120120674 A KR 1020120120674A KR 20120120674 A KR20120120674 A KR 20120120674A KR 20140054771 A KR20140054771 A KR 20140054771A
Authority
KR
South Korea
Prior art keywords
user utterance
sentence
existing
user
unit
Prior art date
Application number
KR1020120120674A
Other languages
Korean (ko)
Other versions
KR101404246B1 (en
Inventor
이근배
최준휘
이인재
이동현
서홍석
류성한
한상도
Original Assignee
포항공과대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 포항공과대학교 산학협력단 filed Critical 포항공과대학교 산학협력단
Priority to KR1020120120674A priority Critical patent/KR101404246B1/en
Publication of KR20140054771A publication Critical patent/KR20140054771A/en
Application granted granted Critical
Publication of KR101404246B1 publication Critical patent/KR101404246B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L15/222Barge in, i.e. overridable guidance for interrupting prompts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

A system and a method for improving an utterance recognition performance are disclosed. Specifically, a system for improving an utterance recognition performance comprises: a weight adjusting unit for applying a weight based on a training corpus which is a voice recognition language model with respect to an existing user utterance sentence and a current user utterance sentence inputted in language; a recognition N-BEST generating unit for generating an N-BEST and an N-BEST score with respect to each of the weighted existing user utterance sentence and the weighted current user utterance sentence; and a recognition N-BEST combining unit for adding up the scores of the existing user utterance sentence and the current user utterance sentence with respect to the N-BEST. Therefore, the user utterance sentence can be corrected conveniently and easily because the user need not repeat re-utterance so as to correct an inaccurate existing user utterance sentence.

Description

발화 인식 성능 향상 시스템 및 방법{Apparatus for improving utterance recognition performance and method thereof} BACKGROUND OF THE INVENTION 1. Field of the Invention [0001]

본 발명은 발화 인식 성능 향상 시스템에 관한 것으로, 더욱 상세하게는 기존 발화 인식 정보 및 재발화 인식 정보를 이용하여 재발화 인식 성능을 향상시킨 발화 인식 성능 향상 시스템 및 방법에 관한 것이다.The present invention relates to a speech recognition performance enhancement system, and more particularly, to a speech recognition performance enhancement system and method that improves re-recognition recognition performance using existing speech recognition information and re-recognition recognition information.

최근 스마트 폰, 스마트 TV 또는 태블릿 PC(tablet PC) 등 다양한 최신 스마트 장치의 보급으로 음성 인식(voice recognition)을 기반한 소프트웨어(software)에 대한 관심이 증대되고 있다. 여기서, 음성 인식은 인간의 음성을 컴퓨터가 다룰 수 있는 문자(코드) 정보로 변환하는 기술인데, 구체적으로 마이크를 통해 입력 받은 음성을 컴퓨터가 분석한 다음, 음성모델 데이터베이스와 비교하여 문자 혹은 명령어로 변환하는 기술이다. 인식된 결과는 명령, 입력, 제어 등의 다양한 응용 분야에서 사용될 수 있다. 또한, 음성 인식은 다른 입력 방식과 차별화된 장점을 보유하고 있으므로 대표적인 ‘자연스런 사용자 인터페이스(NUI: Natural User Interface)’기술의 하나로 활용되며, 이동 중이거나 다른 작업을 하는 상황에서도 음성을 통한 정보 입력이 가능하기 때문에 모바일 기기에 적용하거나 물류 등의 업무 수행에 활용이 가능하다.Recently, with the spread of various smart devices such as smart phones, smart TVs and tablet PCs, interest in software based on voice recognition is increasing. Speech recognition is a technology for converting human voice into character (code) information that can be handled by a computer. Specifically, the computer analyzes the voice input through a microphone and then compares the voice with a character model database Conversion technology. Recognized results can be used in a variety of applications, such as command, input, and control. In addition, since speech recognition has advantages of differentiating from other input methods, it is utilized as one of representative 'Natural User Interface (NUI)' technology and it is possible to input information through voice even in the case of moving or other work It is possible to apply it to mobile devices or to perform work such as logistics.

그러나, 현재의 음성 인식 기술은 오류 발생률이 높은 편이다. 또한, 이러한 음성 인식 오류를 수정하기 위해서는 직접적인 타이핑(typing)이 필요하거나, 임의의 직접적인 수정 명령이 필요하다. However, current speech recognition technology has a high error rate. In order to correct such a speech recognition error, direct typing is required or an arbitrary direct correction command is required.

이러한 문제점을 개선하기 위해서, 최근에는 인식된 음성의 오류 부분을 포함한 일 부분의 재발화를 통하여 인식된 문장을 수정하는 방법이 개발되었다. In order to solve such a problem, recently, a method of correcting a recognized sentence by recalling a part including an erroneous part of a recognized speech has been developed.

그러나, 재발화를 통하여 문장의 오류를 수정할지라도, 기존 전체 문장에서 사용하던 음성 인식 모델을 그대로 적용한다는 것은 동일한 음성 인식 오류를 발생시킬 확률이 높다는 문제점이 있다.However, even if the error of the sentence is corrected through the recurrence, applying the same speech recognition model used in the existing sentence as it is, there is a problem that the probability of generating the same speech recognition error is high.

이에 따라, 사용자에게 수정을 위한 지속적인 재발화를 요청하게 되는 문제점이 발생하게 되며, 사용자는 반복적인 재발화 때문에 불편하고 불쾌감을 느끼는 문제점이 있다.
Accordingly, there arises a problem that the user is requested to continuously recalcate for correction, and the user is discomforted and uncomfortable due to repetitive recurrence.

상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 인식된 문장의 오류를 수정하기 위하여, 기존 발화와 재발화에 대한 엔-베스트(N-BEST)를 이용함으로써, 사용자의 반복적인 재발화를 방지하고 재발화 인식 성능을 향상시킬 수 있는 발화 인식 성능 향상 시스템을 제공하는 데 있다. In order to solve the above problems, it is an object of the present invention to provide an apparatus and a method for correcting errors of a recognized sentence by using N-BEST for existing utterance and recurrence, And to improve the recognition performance of re-ignition.

상기와 같은 문제점을 해결하기 위한 본 발명의 다른 목적은, 기존 발화를 수정하는 재발화 시, 기존 발화와 동일한 반복적인 오류를 줄이고, 음성 만을 통하여 오류 수정이 가능한 발화 인식 성능 향상 방법을 제공하는 데 있다.
Another object of the present invention to solve the above problems is to provide a method for improving speech recognition performance that can reduce the same repetitive errors as existing speech and correct errors only by voice when re- have.

상기 목적을 달성하기 위한 본 발명의 일 측면은, 사용자 발화를 입력 받는 사용자 발화 입력부; 상기 사용자 발화의 의도를 판단하고, 상기 사용자 발화의 의도에 대응하는 사용자 발화 의도 정보를 생성하는 사용자 발화 의도 판단부; 및 상기 사용자 발화 의도 정보가 입력 처리에 대응하는 경우, 상기 사용자 발화를 입력 처리하며, 상기 사용자 발화 의도 정보가 재발화 처리에 대응하는 경우, 상기 사용자 발화에 대해서 인식 성능 향상 처리를 하며, 인식 성능 향상 처리된 상기 사용자 발화를 이용하여 기존 사용자 발화를 수정하는 재발화 처리부를 포함하는 발화 인식 성능 향상 시스템을 제공한다.According to an aspect of the present invention, there is provided a user utterance input unit receiving a user utterance; A user utterance intention determining unit for determining an intention of the user utterance and generating user utterance intention information corresponding to the intention of the user utterance; And when the user's utterance intention information corresponds to input processing, inputting the user utterance, and when the user utterance intention information corresponds to recursion processing, performing recognition performance enhancement processing on the user utterance, And a recalculation processor for correcting the existing user utterance using the user utterance improved by the user utterance.

상기 목적을 달성하기 위한 본 발명의 또 다른 일 측면은, 언어 단위로 입력된 기존 사용자 발화 문장 및 현재 사용자 발화 문장에 대해 음성 인식 언어 모델인 훈련 말뭉치를 기반으로 가중치를 적용하는 가중치 조정부; 가중치가 적용된 기존 사용자 발화 문장 및 현재 사용자 발화 문장 각각에 대해 N-BEST 및 상기 N-BEST에 대한 점수를 생성하는 인식 N-BEST 생성부; 및 상기 N-BEST에 대해서 상기 기존 사용자 발화 문장 및 현재 사용자 발화 문장의 상기 점수를 합산하는 인식 N-BEST 결합부를 포함하는 발화 인식 성능 향상 시스템을 제공한다. According to another aspect of the present invention, there is provided a speech recognition apparatus, comprising: a weight adjuster for applying a weight based on a training corpus as a speech recognition language model for an existing user speech statement and a current user speech statement input in a language unit; A recognition N-BEST generator for generating a score for N-BEST and N-BEST for each of the weighted existing user utterance sentence and the current user utterance sentence; And a recognition N-BEST combining unit for summing the scores of the existing user utterance sentence and the current user utterance sentence with respect to the N-BEST.

여기서, 상기 가중치는, 제1전이 가능성을 가진 품사의 경우, 제1값을 가지고, 제2전이 가능성을 가진 품사의 경우, 제2값을 가지며, 상기 제1전이 가능성은 상기 제2전이 가능성보다 크고, 상기 제1값은 상기 제2값보다 작은 것을 특징으로 한다. Wherein the weight has a first value for a part of speech having a first transitivity and a second value for a part of speech having a second transitivity and the first transitivity is greater than the second transitivity And the first value is smaller than the second value.

여기서, 상기 언어 단위는 격자 단위인 것을 특징으로 한다.Here, the language unit is a lattice unit.

여기서, 상기 N-BEST의 합산 점수에 패널티를 적용하여 상기 N-BEST에 대한 최종 점수를 산출하는 패널티 적용부를 더 포함한다. Here, it further includes a penalty applying unit for calculating a final score for the N-BEST by applying a penalty to the sum score of the N-BEST.

여기서, 상기 패널티 적용부는, 상기 N-BEST가 상기 기존 사용자 발화 문장 및 현재 사용자 발화 문장에서 하나에만 포함되는 경우, 제1패널티를 적용하고, 상기 N-BEST가 상기 기존 사용자 발화 문장의 오류를 포함하고 있는 경우, 제2패널티를 적용하는 것을 특징으로 한다. Here, the penalty applying unit applies a first penalty when the N-BEST is included in only one of the existing user speaking sentence and the current user speaking sentence, and the N-BEST includes an error of the existing user speaking sentence , The second penalty is applied.

여기서, 상기 N-BEST의 최종 점수를 기반으로 최종 사용자 발화 인식 문장을 추출하는 최종 인식 결정부를 더 포함한다. Here, the final recognition determination unit may further include a final recognition determiner for extracting a final user speech recognition sentence based on the final score of the N-BEST.

상기 목적을 달성하기 위한 본 발명의 또 다른 일 측면은, 여기서, 발화 인식 성능 향상을 위한 발화 인식 성능 향상 시스템의 발화 인식 성능 향상 방법에 있어서, 언어 단위로 입력된 기존 사용자 발화 문장 및 현재 사용자 발화 문장에 대해 음성 인식 언어 모델인 훈련 말뭉치를 기반으로 가중치를 적용하는 단계; 가중치가 적용된 기존 사용자 발화 문장 및 현재 사용자 발화 문장 각각에 대해 N-BEST 및 상기 N-BEST에 대한 점수를 생성하는 단계; 및 상기 N-BEST에 대해서 상기 기존 사용자 발화 문장 및 현재 사용자 발화 문장의 상기 점수를 합산하는 단계를 포함하는 발화 인식 성능 향상 방법을 제공한다.According to another aspect of the present invention, there is provided a method for improving speech recognition performance of a speech recognition performance enhancement system for improving speech recognition performance, the method comprising: Applying a weight to a sentence based on training corpus, which is a speech recognition language model; Generating scores for N-BEST and N-BEST for each of the weighted existing user utterance sentence and the current user utterance sentence; And adding the scores of the existing user utterance sentence and the current user utterance sentence to the N-BEST.

여기서, 상기 가중치는, 제1전이 가능성을 가진 품사의 경우, 제1값을 가지고, 제2전이 가능성을 가진 품사의 경우, 제2값을 가지며, 상기 제1전이 가능성은 상기 제2전이 가능성보다 크고, 상기 제1값은 상기 제2값보다 작은 것을 특징으로 한다. Wherein the weight has a first value for a part of speech having a first transitivity and a second value for a part of speech having a second transitivity and the first transitivity is greater than the second transitivity And the first value is smaller than the second value.

여기서, 상기 언어 단위는 격자 단위인 것을 특징으로 한다. Here, the language unit is a lattice unit.

여기서, 상기 N-BEST의 합산 점수에 패널티를 적용하여 상기 N-BEST에 대한 최종 점수를 산출하는 단계를 더 포함한다, Here, the method further comprises calculating a final score for the N-BEST by applying a penalty to the sum score of the N-BEST,

여기서, 상기 패널티를 적용하는 단계는, 상기 N-BEST가 상기 기존 사용자 발화 문장 및 현재 사용자 발화 문장에서 하나에만 포함되는 경우, 제1패널티를 적용하고, 상기 N-BEST가 상기 기존 사용자 발화 문장의 오류를 포함하고 있는 경우, 제2패널티를 적용하는 것을 특징으로 한다. Here, the step of applying the penalty may include applying a first penalty when the N-BEST is included in only one of the existing user speaking sentence and the current user speaking sentence, And the second penalty is applied when an error is included.

여기서, 상기 N-BEST의 최종 점수를 기반으로 최종 사용자 발화 인식 문장을 추출하는 단계를 더 포함한다.
Here, the method further includes extracting an end user speech recognition sentence based on the final score of the N-BEST.

상기와 같은 본 발명의 실시예에 따른 음성 인식 성능 향상 시스템 및 방법은, 인식된 문장의 오류를 수정하기 위하여, 기존 발화와 재발화에 대한 엔-베스트(N-BEST)를 이용함으로써, 사용자의 반복적인 재발화를 방지하고 재발화 인식 성능을 향상시킬 수 있는 효과를 제공한다. The system and method for improving speech recognition performance according to an embodiment of the present invention as described above may use N-BEST for existing utterance and recurrence to correct errors in the recognized sentence, It is possible to prevent repetitive recurrences and to improve the recurrence recognition performance.

또한, 기존 발화를 수정하는 재발화 시, 기존 발화와 동일한 반복적인 오류를 줄이고, 음성 만을 통하여 오류 수정이 가능한 효과가 있다.
In addition, it is effective to reduce the same repetitive errors as the existing speech and to correct the errors only by voice when re-igniting the existing speech.

도 1은 본 발명의 실시예에 따른 발화 인식 성능 향상 시스템을 개략적으로 도시한 개념도이다.
도 2는 본 발명의 실시예에 따른 발화 인식 성능 향상 방법을 보여주는 순서도이다.
도 3은 본 발명의 실시예에 따른 수정 처리부(152)를 보다 상세하게 도시한 도면이다.
도 4는 본 발명의 실시예에 따른 발화 인식 성능 향상 시스템의 발화 인식 성능 향상을 위한 방법을 보여주는 순서도이다.
1 is a conceptual diagram schematically illustrating a speech recognition performance enhancement system according to an embodiment of the present invention.
2 is a flowchart illustrating a method for improving speech recognition performance according to an exemplary embodiment of the present invention.
3 is a diagram showing the modification processing unit 152 according to the embodiment of the present invention in more detail.
4 is a flowchart illustrating a method for improving speech recognition performance of a speech recognition performance enhancement system according to an embodiment of the present invention.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다. While the invention is susceptible to various modifications and alternative forms, specific embodiments thereof are shown by way of example in the drawings and will herein be described in detail. It should be understood, however, that the invention is not intended to be limited to the particular embodiments, but includes all modifications, equivalents, and alternatives falling within the spirit and scope of the invention. Like reference numerals are used for like elements in describing each drawing.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다. The terms first, second, A, B, etc. may be used to describe various elements, but the elements should not be limited by the terms. The terms are used only for the purpose of distinguishing one component from another. For example, without departing from the scope of the present invention, the first component may be referred to as a second component, and similarly, the second component may also be referred to as a first component. And / or < / RTI > includes any combination of a plurality of related listed items or any of a plurality of related listed items.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. It is to be understood that when an element is referred to as being "connected" or "connected" to another element, it may be directly connected or connected to the other element, . On the other hand, when an element is referred to as being "directly connected" or "directly connected" to another element, it should be understood that there are no other elements in between.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The terminology used in this application is used only to describe a specific embodiment and is not intended to limit the invention. The singular expressions include plural expressions unless the context clearly dictates otherwise. In the present application, the terms "comprises" or "having" and the like are used to specify that there is a feature, a number, a step, an operation, an element, a component or a combination thereof described in the specification, But do not preclude the presence or addition of one or more other features, integers, steps, operations, elements, components, or combinations thereof.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
Unless defined otherwise, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art to which this invention belongs. Terms such as those defined in commonly used dictionaries are to be interpreted as having a meaning consistent with the contextual meaning of the related art and are to be interpreted as either ideal or overly formal in the sense of the present application Do not.

이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 보다 상세하게 설명한다.
Hereinafter, preferred embodiments according to the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 실시예에 따른 발화 인식 성능 향상 시스템을 개략적으로 도시한 개념도이다. 1 is a conceptual diagram schematically illustrating a speech recognition performance enhancement system according to an embodiment of the present invention.

먼저, 본 발명의 실시예에 따른 발화 인식 성능 향상 시스템(100)은, 사용자 발화 입력부(110)와, 사용자 발화 의도 판단부(120)와, 사용자 발화 처리부(130)를 포함할 수 있다. The system 100 for improving speech recognition performance according to an embodiment of the present invention may include a user utterance input unit 110, a user utterance intention determination unit 120, and a user utterance processing unit 130.

여기서, 사용자 발화 입력부(110)는 사용자로부터 사용자 발화를 입력 받고, 사용자 발화에 대응하는 사용자 발화 문장(UUS)을 사용자 발화 의도 판단부(120)에 제공한다. Here, the user utterance input unit 110 receives a user utterance from a user and provides a user utterance sentence (UUS) corresponding to a user utterance to the user utterance intention determination unit 120. [

사용자 발화 의도 판단부(120)는 사용자 발화 입력부(110)로부터 제공받은 사용자 발화 문장(UUS)의 의도를 파악하고, 사용자 발화 문장(UUS)의 의도에 대응하는 정보인 사용자 발화 의도 정보(UUIF)를 사용자 발화 처리부(130)에 제공한다.The user utterance intention determining unit 120 determines the intention of the user utterance sentence UUS provided from the user utterance input unit 110 and determines the user utterance intention UUIF, which is information corresponding to the intention of the user utterance sentence UUS, To the user utterance processing unit (130).

여기서, 사용자 발화 의도는 사용자가 발화한 문장의 의미를 나타내는데, 구체적으로 예를 들면, 사용자 발화가 일반적인 입력을 위한 발화인지, 기존 발화의 수정을 위한 재발화인지에 대한 의도를 나타낸다. Here, the user's utterance intention indicates the meaning of a sentence uttered by the user. Specifically, for example, the user utterance intention indicates whether the user utterance is a utterance for a general input or a recall for modifying an existing utterance.

사용자 발화 의도 판단부(120)는 예를 들면, 현재 사용자 발화 문장(UUS)이 기존의 사용자 발화 문장을 비교하고, 그 비교 값이 기준 값 이상을 가질 경우, 현재 사용자 발화 문장(UUS)이 기존 사용자 발화를 수정하는 문장이라고 판단할 수 있다. 반면에, 사용자 발화 의도 판단부(120)는 예를 들면, 현재 사용자 발화 문장(UUS)과 기존 사용자 발화 문장의 비교 값이 기준 값 미만인 경우, 일반적인 입력을 위한 발화라고 판단할 수 있다. 한편, 여기서 일반적인 입력을 위한 사용자 발화인지, 기존 사용자 발화를 수정하기 위한 재발화인지에 대한 판단 방법은 다양한 방법에 의해 구현될 수 있다. The user utterance intention determining unit 120 compares the existing user utterance sentence with the current user utterance sentence UUS and determines whether the current user utterance sentence UUS has a predetermined value It can be judged that the sentence corrects the user's utterance. On the other hand, the user utterance intention determining unit 120 may determine that the utterance is a general utterance, for example, when the comparison value between the current user utterance sentence UUS and the existing user utterance sentence is less than the reference value. Meanwhile, a method for determining whether a user input for a general input or a re-input for modifying an existing user input can be implemented by various methods.

또한, 사용자 발화 의도 판단부(120)는 사용자 발화 문장(USS)이 일반적인 입력을 위한 사용자 발화인 경우, 일반 입력에 대응하는 사용자 발화 의도 정보(UUIF)를 생성하고, 반면에 기존 사용자 발화의 수정을 위한 재발화인 경우, 수정을 위한 재발화에 대응하는 사용자 발화 의도 정보(UUIF)를 생성한다. In addition, the user utterance intention determining unit 120 generates user utterance intention information (UUIF) corresponding to a general input when the user utterance sentence (USS) is a user utterance for a general input, The user utterance intention information (UUIF) corresponding to the recursion for modification is generated.

사용자 발화 처리부(130)는 사용자 발화 의도 판단부(120)로부터 제공받은 사용자 발화 의도 정보(UUIF)에 대응하여, 사용자 발화 문장(UUS)을 입력 처리 또는 재발화 처리를 한다.The user utterance processing unit 130 performs input processing or recalibration processing of the user utterance sentence UUS in response to the user utterance intention information UUIF provided from the user utterance intention determining unit 120. [

이를 위하여, 사용자 발화 처리부(130)는 입력 처리부(140)와, 재발화 처리부(150)를 포함할 수 있다.To this end, the user utterance processing unit 130 may include an input processing unit 140 and a recall processing unit 150.

입력 처리부(140)는 사용자 발화 의도 정보(UUIF)가 입력 처리에 해당될 경우, 사용자 발화 문장(UUS)에 대해서 입력 처리한다.When the user utterance intention information (UUIF) corresponds to the input processing, the input processing unit (140) performs input processing on the user utterance sentence (UUS).

입력 처리는 발화 인식 성능 향상 시스템(100)에 따라 다양하게 구현될 수 있다. 구체적으로 예를 들면, 입력 처리는, 음성 워드 프로세서의 경우, 새로운 문장의 입력이 될 수 있으며, 음성 대화 시스템의 경우, 대화 처리가 될 수 있다.The input processing may be variously implemented according to the speech recognition performance enhancement system 100. Specifically, for example, the input processing may be an input of a new sentence in the case of a voice word processor, and may be a conversation processing in the case of a voice conversation system.

재발화 처리부(150)는 사용자 발화 의도 정보(UUIF)가 기존 사용자 발화의 수정을 위한 재발화에 해당될 경우, 사용자 발화 문장(UUS)에 대해서 재발화 처리를 한다.The recurrentization processing unit 150 performs a recurrentization process on the user utterance sentence (UUS) when the user utterance intention information (UUIF) corresponds to the recurrence for modification of the existing user utterance.

이를 위해서, 재발화 처리부(150)는 인식 성능 향상부(151)와, 수정 처리부(152)를 포함할 수 있다. To this end, the recurrence processing unit 150 may include a recognition performance enhancing unit 151 and a correction processing unit 152.

먼저, 인식 성능 향상부(151)는 기존 사용자 발화 문장을 수정하기 위해서 재발화된 현재 사용자 발화 문장(UUS)의 인식 성능 향상 처리를 한다.First, the recognition performance enhancement unit 151 performs a recognition performance enhancement process for the reusable current user utterance sentence (UUS) to correct an existing user utterance sentence.

여기서, 인식 성능 향상 처리는 예를 들면, 재발화된 사용자 발화 문장(UUS)에서 잡음 또는 소음 등을 포함한 불필요한 음을 제거하는 것일 수 있다. Here, the recognition performance enhancement processing may be to remove unnecessary notes including noise or noise, for example, in a recalled user utterance sentence (UUS).

수정 처리부(152)는 인식 성능 향상 처리가 된 사용자 발화 문장(UUS)을 이용하여, 기존 사용자 발화 문장을 수정함으로써 사용자가 최종적으로 입력하고자 하는 최종 사용자 발화 문장을 결정한다. The modification processing unit 152 uses the user utterance sentence UUS that has been subjected to the recognition performance enhancement process to determine the final user utterance sentence that the user ultimately wants to input by modifying the existing user utterance sentence.

구체적으로, 수정 처리부(152)는 현재 입력된 사용자 발화 문장(UUS)을 이용하여 기존에 입력된 사용자 발화 문장을 수정 처리하는데, 수정 처리는 음성 인식 응용 시스템에 따라 다르게 구현될 수 있다. 예를 들면, 음성 워드 프로세서의 경우, 수정 처리는 기존에 입력된 문장의 수정이 될 수 있으며, 음성 대화 시스템의 경우, 기존의 입력된 대화의 수정이 될 수 있다. 여기서, 예를 들면, 음성 인식 응용 시스템은 음성을 인식하여, 음성을 처리하여, 음성에 대응하는 각종 다양한 프로세스를 처리한 장치로서, 본 발명의 발화 인식 성능 향상 시스템을 포함하는 장치일 수 있다. Specifically, the modification processing unit 152 corrects the existing user utterance sentence using the currently input user utterance sentence (UUS), and the modification processing may be implemented differently according to the voice recognition application system. For example, in the case of a voice word processor, the correction process may be modification of a previously entered sentence, and in the case of a voice conversation system, an existing input conversation may be corrected. Here, for example, the speech recognition application system may be an apparatus including a speech recognition performance enhancement system of the present invention, which recognizes speech, processes the speech, and processes various various processes corresponding to speech.

수정 처리부(152)에 대해서는 차후, 도 3을 참고하여 보다 상세하게 설명한다.
The correction processing unit 152 will be described later in detail with reference to FIG.

이하, 도 2를 참고하여, 본 발명의 실시예에 따른 발화 인식 성능 향상 시스템(도 1의 100)에서 수행되는 발화 인식 성능 향상 방법에 대해서 살펴본다.Hereinafter, referring to FIG. 2, a description will be made of a method for improving speech recognition performance performed in the speech recognition performance enhancement system 100 (FIG. 1) according to an embodiment of the present invention.

도 2는 본 발명의 실시예에 따른 발화 인식 성능 향상 방법을 보여주는 순서도이다. 2 is a flowchart illustrating a method for improving speech recognition performance according to an exemplary embodiment of the present invention.

도 2에 도시한 바와 같이, 먼저 사용자로부터 사용자 발화를 입력 받는다(S210).As shown in FIG. 2, first, a user utterance is input from a user (S210).

이어서, 사용자 발화의 의도를 판단한다(S220). 구체적으로 예를 들면, 사용자 발화의 발화 인식 성능 향상 시스템(도 1의 100), 다시 말하면 음성 인식 응용 시스템의 입력으로서, 해당 문장이 단순히 입력을 위하는 문장인지, 이전에 입력된 문장들에 대한 수정을 위한 문장인지를 판별한다. Then, the intention of user utterance is determined (S220). Specifically, for example, in a speech recognition performance enhancement system (100 in FIG. 1) of a user utterance, that is, an input of a speech recognition application system, whether the sentence is a sentence for inputting only, A sentence for the sentence.

이때, 사용자 발화의 의도가 입력을 위한 경우라면, 해당 음성 인식 응용 시스템은 사용자 발화의 입력 처리를 수행한다(S230).At this time, if the intention of the user utterance is for input, the speech recognition application system performs input processing of user utterance (S230).

반면에, 사용자 발화의 의도가 수정을 위한 경우라면, 기존에 입력된 사용자 발화의 수정을 하기 위해서, 먼저, 현재 입력된 사용자 발화의 인식 성능 향상 처리(S240)를 한다. 이어서, 인식 성능 향상 처리된 사용자 발화를 이용하여 기존 입력된 사용자 발화의 수정 처리를 한다(S250). 사용자 발화의 수정 처리를 통하여, 최종 사용자 발화가 결정된다(S260).On the other hand, if the intention of the user utterance is to be corrected, the recognition performance enhancement process of the currently input user utterance is performed (S240) in order to correct the previously inputted user utterance. Subsequently, the existing user utterance is corrected using the user utterance processed in the recognition performance improvement process (S250). Through the correction processing of the user utterance, the end user utterance is determined (S260).

전술한 바와 같이, 본 발명의 실시예에 따른 발화 인식 성능 향상 시스템(도 1의 100) 및 방법은 입력된 사용자 발화의 의도를 파악하여, 사용자 발화의 의도에 대응하는 처리를 수행한다. 특히, 기존 사용자 발화를 수정하기 위한 재발화 처리의 경우, 현재 입력된 사용자 발화와 기존 사용자 발화를 이용함으로써 기존 사용자 발화를 수정하고, 최종적으로 사용자가 원하는 사용자 발화 문장을 결정한다.
As described above, the speech recognition performance enhancement system (100 of FIG. 1) and method according to the embodiment of the present invention grasps the intention of the inputted user utterance and performs processing corresponding to the intention of user utterance. In particular, in the case of the re-ignition processing for correcting the existing user utterance, the existing user utterance is modified by using the currently inputted user utterance and the existing user utterance, and the user utterance sentence finally determined by the user is determined.

이하, 도 3을 참고하여 기존 사용자 발화 문장 및 현재 사용자 발화 문장을 이용하여 기존 사용자 발화를 수정함으로써, 최종 사용자 발화를 결정하는 본 발명의 실시예에 따른 수정 처리부(도 1의 152)에 대해서 보다 상세하게 살펴본다. Hereinafter, referring to FIG. 3, the modification processing unit (152 in FIG. 1) according to the embodiment of the present invention for determining the final user utterance by modifying the existing user utterance using the existing user utterance sentence and the current user uttered sentence Let's take a closer look.

도 3은 본 발명의 실시예에 따른 수정 처리부(152)를 보다 상세하게 도시한 도면이다.
3 is a diagram showing the modification processing unit 152 according to the embodiment of the present invention in more detail.

먼저, 도 3에 도시한 바와 같이, 본 발명의 실시예에 따른 수정 처리부(152)는, 가중치 조정부(152a)와, 인식 N-BEST 생성부(152b)와, 인식 N-BEST 결합부(152c)와, 패널티 적용부(152d)와, 최종 인식 결정부(152e)를 포함할 수 있다. 3, the correction processing unit 152 according to the embodiment of the present invention includes a weight adjustment unit 152a, a recognition N-BEST generation unit 152b, a recognition N-BEST combination unit 152c ), A penalty applying section 152d, and a final recognition determining section 152e.

여기서, 가중치 조정부(152a)는 현재의 재발화된 사용자 발화 문장 및 기존의 사용자 발화 문장을 언어 단위, 예를 들면, 격자(Lattice) 단위로 입력 받는다. 여기서, 사용자 발화 문장은 예를 들면, 도 1에서 언급된 사용 사용자 발화 문장이 될 것이며, 현재의 재발화된 사용자 발화 문장을 설명의 편의를 위하여, 현재 사용자 발화 문장으로 칭한다.Here, the weight adjuster 152a receives the current recalled user utterance sentence and the existing user uttered sentence in a language unit, for example, a lattice unit. Here, the user utterance sentence will be, for example, the user utterance sentence mentioned in Fig. 1, and the current recalled user utterance sentence is referred to as the present user utterance sentence for convenience of explanation.

또한, 가중치 조정부(152a)는 음성 인식 언어 모델인 훈련 말뭉치를 이용하여, 격자 단위로 입력 받은 현재 사용자 발화 문장과 기존 사용자 발화 문장 각각에 대해서 가중치를 적용한다. In addition, the weight adjuster 152a uses the training corpus, which is a speech recognition language model, to apply a weight to each of the current user utterance sentence and the existing user utterance sentence, which are input in units of a lattice.

훈련 말뭉치는 예를 들면, 음성 인식 언어 모델로서, 문장의 인식 단위를 기반으로 한 언어 모델이다. 보다 구체적으로 예를 들면, “사과를 좋아해”라는 문장을 살펴보면, “사과를 좋아해”라는 문장은, “사과”, “를”, “좋아”, “해”로 문장의 인식 단위로 구분될 수 있다. 이때, “사과”, “를”, “좋아”, “해”는 훈련 말뭉치가 될 수 있다. A training corpus is, for example, a speech recognition language model, a language model based on a recognition unit of sentences. More specifically, for example, if you look at the sentence "I like apples," the sentence "I like apples" can be divided into sentence recognition units with "apple," "good," "good," and " have. At this time, "apology", "e", "good", "sun" can be training corpus.

다시 말하면, 가중치 조정부(152a)는 훈련 말뭉치를 이용하여 현재 사용자 발화 문장과 기존 사용자 발화 문장에 대해서 변화 가능성을 높이는 방향으로 가중치를 적용한다.In other words, the weight adjuster 152a uses the training corpus to apply the weight to the current user utterance sentence and the existing user utterance sentence in the direction of increasing the possibility of change.

보다 구체적으로 예를 들면, “를”, “해” 등과 같은 조사 또는 동사의 어미의 경우, 단어에서 전이 가능성이 매우 높으므로, 가중치를 적게 주며, “사과”, “좋아”와 같은 일반 명사 또는 동사의 어근 등에는 전이 가능성이 조사에 비해 낮으므로, 가중치를 높게 준다. More specifically, for example, in the case of an inquiry such as "e", "sun", or the mother of a verb, the possibility of transition from a word is very high, so that the weight is small and a general noun such as "apple" Since the possibility of transition is low in the root of the verb, the weight is increased.

한편, 음성 인식 언어 모델인 훈련 말뭉치는, 예를 들면, 도시하지는 않았으나 데이터베이스에 저장될 수 있다.On the other hand, the training corpus, which is a speech recognition language model, may be stored in a database, for example, although not shown.

인식 N-BEST 생성부(152b)는 가중치 조정부(152a)에서 가중치가 조정된 기존 사용자 발화 문장의 격자 및 현재 사용자 발화 문장의 격자를 기반으로, 기존 사용자 발화 문장의 격자 및 현재 사용자 발화 문장의 격자 각각에 대응하는 N-BEST를 생성한다.The recognition N-BEST generating unit 152b generates a recognition N-BEST based on the grid of the existing user spoken sentence and the grid of the current user spoken sentence based on the grid of the existing user spoken sentence and the grid of the current user spoken sentence whose weights are adjusted in the weight adjusting unit 152a And generates N-BEST corresponding to each of them.

또한, 인식 N-BEST 생성부(152b)는 각각의 N-BEST에 대해서 점수(scroe)를 계산한다. Also, the recognition N-BEST generator 152b calculates a scroe for each N-BEST.

여기서, N-BEST에 대해서 간단히 살펴본다. 실제 상황에서 음성 인식율 100%인 음성 인식 시스템을 구현한다는 것은 매우 어렵다. 이에 따라, 입력된 음성에 대해서 실제 사용자 발화와 일치할 수 있는 높은 가능성을 가진 복수 개(N-BEST)의 사용자 발화 문장의 후보를 생성하는데, 이 가능성이 높은 후보 사용자 발화 문장이 N-BEST이다. N-BEST를 생성함으로써, 실제 사용자 발화와 일치하는 사용자 발화 문장의 생성 확률이 높아지게 된다.Here, N-BEST will be briefly described. It is very difficult to implement a speech recognition system with a speech recognition rate of 100% in actual situations. Thereby, a candidate of a plurality of (N-BEST) user utterance sentences having a high possibility of matching the actual user utterance with respect to the input voice is generated, and this candidate user utterance sentence with high possibility is N-BEST . By generating N-BEST, the probability of generating a user utterance sentence that matches the actual user utterance is increased.

이하, 표 1를 참고하여 보다 구체적으로 현재 사용자 발화 문장의 격자 및 기존 사용자 발화 문장의 격자에 대응하는 N-BEST 및 N-BEST 각각에 대한 점수를 살펴본다. Hereinafter, referring to Table 1, more specifically, the score for each of the N-BEST and N-BEST corresponding to the lattice of the current user utterance sentence and the lattice of the existing user utterance sentence will be examined.

표 1은 본 발명의 실시예에 따른 인식 N-BEST 생성부(152b)에서 현재 사용자 발화 문장의 격자 및 기존 사용자 발화 문장의 격자를 기반으로 각각에 대한 N-BEST 및 N-BEST에 대한 점수를 나타내는 표이다. 이때, 표 1은 “사과를 좋아해”라는 문장을 예시로 나타낸 것이다.Table 1 shows the scores for N-BEST and N-BEST for each of the users based on the lattice of the current user utterance sentence and the lattice of the existing user utterance sentence in the recognition N-BEST generator 152b according to the embodiment of the present invention Respectively. At this time, Table 1 shows the sentence "I like apples" as an example.

Figure pat00001
Figure pat00001

먼저, 기존 발화 N-BEST는 기존 사용자 발화 문장의 격자에 대응하는 N-BEST이고, 현재 재발화 N-BEST는 현재 사용자 발화 문장의 격자에 대응하는 N-BEST이고, 결합 N-BEST는 동일한 기존 및 현재 사용자 발화 문장의 격자에 대응하는 N-BEST 의 점수를 합산한 것을 나타낸다. 결합 N-BEST에 대해서는 차후에 설명한다. First, the existing uttered N-BEST is N-BEST corresponding to the grid of the existing user utterance sentence, and the present recurrent N-BEST is the N-BEST corresponding to the lattice of the current user utterance sentence, And scores of N-BEST corresponding to the lattice of the current user utterance sentence. Combined N-BEST will be described later.

먼저, 기존 발화 N-BEST는 “사과 가 좋아 해”, 즉, “사과”, “가”, “좋아”, “해” 및 “사과 를 좋아 해”, 즉, “사과”, “를”, “좋아”, “해”이다. 첫 번째 N-BEST에 대한 점수는 20이고, 두 번째 N-BEST에 대한 점수는 27이다.First, the existing spoken N-BEST is "Apples", ie, "Apples", "Ga", "Good", "Sun" "Good" and "Good". The score for the first N-BEST is 20, and the score for the second N-BEST is 27.

현재 발화 N-BEST는 “사과 를 좋을 때”, 즉, “사과”, “를”, “좋을”, “때”및 “사과 를 좋아 해”, 즉, “사과”, “를”, “좋아”, “해”이다. 첫 번째 N-BEST에 대한 점수는 30이고, 두 번째 N-BEST에 대한 점수는 36이다. Currently, N-BEST is a good source of "apples", "apples", "good", "when" and "apples" "And" sun ". The score for the first N-BEST is 30 and the score for the second N-BEST is 36.

즉, 인식 N-BEST 생성부(152b)는 표 1과 같은 기존 및 현재 사용자 발화 문장의 격자에 대응하는 N-BEST와 각각의 N-BEST에 대한 점수를 산정하고, 이를 인식 N-BEST 결합부(152c)에 제공한다. That is, the recognition N-BEST generation unit 152b calculates the score for N-BEST and each N-BEST corresponding to the grid of existing and current user utterance sentences as shown in Table 1, Lt; / RTI >

인식 N-BEST 결합부(152c)는 기존 및 현재 사용자 발화 문장의 격자에 대응하는 N-BEST 및 N-BEST 각각에 대한 점수를 제공받고, 기존 및 현재 사용자 발화 문장의 N-BEST 목록에 포함된 동일한 N-BEST에 대해서 점수를 합산한다. The recognition N-BEST combining unit 152c is provided with scores for each of N-BEST and N-BEST corresponding to the grids of existing and current user utterance sentences, Sum the scores for the same N-BEST.

다시 [표 1]를 참고하여 설명하면, 기존 발화 N-BEST의 “사과 가 좋아 해”는 현재 재발화 N-BEST에는 없는 바, 기존 발화 N-BEST의 점수인 20이 합산 점수로 된다. Again, referring to [Table 1], it is not present in the recurrent N-BEST of the existing "I like apples" of N-BEST.

기존 발화 N-BEST 및 현재 재발화 N-BEST 모두에 있는 “사과 를 좋아 해”에 대한 기존 발화 및 현재 재발화 각각의 점수는 27 및 36으로써, 두 개의 점수를 합친 점수인 63이 합산 점수로 된다.Existing utterances in both the old uttered N-BEST and the currently recalled N-BEST Both the old utterances of "I like apples" and the present recurrent utterances were 27 and 36, with a combined score of 63, do.

현재 재발화 N-BEST의 “사과 를 좋을 때”는 기존 발화 N-BEST에는 없는 바, 현재 발화 N-BEST의 점수인 30이 합산 점수로 된다. Current recurrences N-BEST's "When apples are good" is not available in the existing firing N-BEST.

인식 N-BEST 결합부(152c)는 각각의 N-BEST에 대하여 기존 및 현재 사용자 발화 문장의 합산 점수를 패널티 적용부(152d)에 제공한다. The recognition N-BEST combiner 152c provides the penalty applying unit 152d with the sum of the existing and current user utterance sentences for each N-BEST.

패널티 적용부(152d)는 제공받은 N-BEST의 기존 및 현재 사용자 발화 문장의 합산 점수에 대해 패널티(penalty)를 적용한다. The penalty applying unit 152d applies a penalty to the sum score of the existing and current user utterance sentences of the provided N-BEST.

이하, [표 2]를 참고하여 보다 구체적으로 살펴본다. [표 2]는 본 발명의 실시예에 따라, 각각의 N-BEST에 대해서 패널티가 적용된 값을 보여주는 표이다.Hereinafter, it will be described in more detail with reference to [Table 2]. Table 2 is a table showing the values to which the penalty is applied for each N-BEST according to the embodiment of the present invention.

Figure pat00002
Figure pat00002

먼저, 패널티 적용부(152d)는 기존 및 현재 사용자 발화 문장의 격자에 대응하는 N-BEST가 기존 및 현재 사용자 발화 문장의 N-BEST 모두에 존재하지 않는 경우, 제 1 패널티(p1)을 적용한다. 즉, 제1패널티(p1)는 기존 및 현재 N-BEST의 목록에 모두 포함되지 않는 N-BEST에 적용되는 패널티이다. First, the penalty applying unit 152d applies a first penalty (p1) when N-BEST corresponding to the grid of existing and current user utterance sentences is not present in all of the N-BEST of existing and current user utterance sentences . That is, the first penalty p1 is a penalty applied to the N-BEST which is not included in the existing and current N-BEST lists.

예를 들면, 기존 발화 N-BEST에서 “사과 가 좋아 해”는 현재 재발화 N-BEST에는 존재하지 않는 바, 합산 점수 20에서 제1패널티(p1)가 적용된다. For example, in an existing uttered N-BEST, "apple likes" does not exist in the current recurrences N-BEST, so the first penalty (p1) is applied at a total score of 20.

마찬가지로, 현재 재발화 N-BEST에서 “사과 를 좋을 때”는 기존 재발화 N-BEST에는 존재하지 않는 바, 합산 점수 30에서 제 1 패널티(p1)가 적용된다. Likewise, in the current recurrence N-BEST, "when the apple is good" does not exist in the existing recurrences N-BEST, so the first penalty (p1) is applied at the summation score 30.

반면에, “사과 를 좋아 해”는 기존 및 현재 N-BEST 모두에 포함되어 있는 바, 제1패널티(p1)가 적용되지 않는다.On the other hand, the "like apple" is included in both the existing and the current N-BEST, so that the first penalty p1 is not applied.

또한, 패널티 적용부(152d)는 기존 발화 N-BEST에 대해서 오류가 포함된 N-BEST에 제2패널티(p2)를 적용한다. In addition, the penalty applying section 152d applies the second penalty (p2) to the N-BEST containing the error for the existing ignited N-BEST.

구체적으로 예를 들면, “사과 가 좋아 해”는 기존 N-BEST에서 오류가 포함된 사용자 발화 문장의 격자에 대응하는 N-BEST로서 제2패널티(p2)가 적용된다. Concretely, for example, a second penalty (p2) is applied as an N-BEST corresponding to the grid of the user utterance sentence including the error in the existing N-BEST that "apple likes".

이때, 기존 발화 N-BEST에 대한 오류 포함 여부는 예를 들면, 각각의 N-BEST에 대한 점수가 기준 값보다 클 때, 오류가 포함되어 있다고 판단될 수 있다. 또한, 이전에 사용자에게 출력된 문장이 오류가 포함되어 있는 문장으로 판단될 수 있다. 이는 일 예일 뿐, 오류를 포함하는 문장의 판단 여부 방법은 다양하게 구현될 수 있다. At this time, whether or not an error is included in the existing speech N-BEST can be judged to include an error when the score for each N-BEST is larger than the reference value, for example. In addition, a sentence previously output to the user can be judged as a sentence including an error. This is merely an example, and a method of determining whether a sentence containing an error can be variously implemented.

이에 따라, “사과 를 좋아 해”에 대한 최종 합산 점수는 [63]이 되며, “사과 를 좋을 때”에 대한 최종 합산 점수는 [30-p1]이며, “사과 가 좋아 해”에 대한 최종 합산 점수는 [20-p1-p2]가 된다. Thus, the final total score for "I like apples" is [63], the final total score for "When apples are good" is [30-p1], and the final sum for "I like apples" The score is [20-p1-p2].

이때, 제1및 제 2 패널티(p1, p2)에 대한 정보를 담고 있는 휴리스틱 패널티로부터 제공받을 수 있다. At this time, a heuristic penalty including information on the first and second penalties p1 and p2 may be provided.

또한, 패널티 적용부(152d)는 각각의 N-BEST에 따라 제1및 제2 패널티(p1, p2)가 적용된 최종 합산 점수 및 N-BEST를 최종 인식 결정부(152e)에 제공한다. Further, the penalty applying section 152d provides the final summation determining section 152e with the final summed score and the N-BEST to which the first and second penalties (p1, p2) are applied according to each N-BEST.

최종 인식 결정부(152e)는 각각의 N-BEST에 대해서 기존 및 현재 발화의 점수와 제1및 제2패널티(p1, p2)가 적용된 점수를 기반으로, 예를 들면, 최고 점수를 가진 N-BEST를 추출하고, 이를 음성 인식 응용 시스템에 출력한다. 즉, 오류가 포함된 기존 사용자 발화 문장은 최종적으로 결정된 N-BEST로 수정된다.
The final recognition decision unit 152e calculates the N-BEST based on the score of the existing and current utterances and the scores of the first and second penalties (p1, p2) for each N-BEST, for example, BEST, and outputs it to the speech recognition application system. That is, the existing user utterance sentence including the error is corrected to the final determined N-BEST.

이하, 도 4를 참고하여, 본 발명의 실시예에 따른 발화 인식 성능 향상 시스템에서 기존 발화 및 재발화를 이용하여, 오류가 포함된 사용자 발화 문장을 수정하는 방법인 발화 인식 성능 향상 방법에 대해서 살펴본다. Hereinafter, referring to FIG. 4, a method for improving speech recognition performance, which is a method for correcting a user utterance sentence including an error, using existing speech and re-utterance in a speech recognition performance enhancement system according to an embodiment of the present invention see.

도 4는 본 발명의 실시예에 따른 발화 인식 성능 향상 시스템의 발화 인식 성능 향상을 위한 방법을 보여주는 순서도이다.
4 is a flowchart illustrating a method for improving speech recognition performance of a speech recognition performance enhancement system according to an embodiment of the present invention.

먼저, 기존 및 사용자 발화 문장을 격자 단위로 구분한다(S410). 이어서, 격자 단위로 구분된 기존 및 현재 사용자 발화 문장에 대해서 가중치를 적용하는데(S420), 이때, 조사 등 전이 가능성이 높은 품사에 대해서는 낮은 가중치를 적용하고, 일반 명사 및 동사의 어근 등 전이 가능성이 낮은 품사에 대해서는 높은 가중치를 적용한다. First, the existing and user uttered sentences are classified in units of a lattice (S410). Subsequently, weights are applied to the existing and current user utterance sentences divided by the lattice unit (S420). At this time, a low weight is applied to parts of speech having a high possibility of transition, such as surveying, High weighting is applied to low parts of speech.

가중치가 적용된 기존 및 현재 사용자 발화 문장을 기반으로, 기존 및 현재 사용자 발화 문장 각각에 대응하는 N-BEST를 생성한다(S430).BESTs corresponding to the existing and current user uttered sentences are generated based on the existing and current user uttered sentences to which weights are applied (S430).

이 후, 기존 및 현재 사용자 발화 문장의 동일한 N-BEST의 점수를 합산한다(S440).Then, the score of the same N-BEST of the existing and current user utterance sentences is summed up (S440).

점수가 합산된 N-BEST에 대해서, 기존 및 현재 사용자 발화 문장 모두에 포함되지 않는 N-BEST에 대해서는 제1패널티를 적용하고, 기존 사용자 발화 문장에서 오류를 포함하는 N-BEST에 대해서 제2패널티를 적용함으로써, 각각의 N-BEST에 대한 최종 점수를 산출한다(S450).For the N-BEST in which scores are added, a first penalty is applied to N-BEST that is not included in both existing and present user utterance sentences, and a second penalty is applied to N-BEST including an error in the existing user utterance sentence. The final score for each N-BEST is calculated (S450).

마지막으로, 최종 점수를 기반으로 최종 사용자 발화 문장을 추출한다(S460). 즉, 최적의 N-BEST 문장을 선택하고, 기존의 오류를 포함한 기존 사용자 발화를 선택된 N-BEST 문장으로 수정함으로써, 사용자에게 최종 인식 발화 문장을 출력한다.
Finally, an end user utterance sentence is extracted based on the final score (S460). That is, an optimal N-BEST sentence is selected and the existing user utterance including the existing error is corrected to the selected N-BEST sentence, thereby outputting the final recognition utterance sentence to the user.

전술한 바와 같이, 본 발명의 실시예에 따른 발화 인식 성능 향상 시스템 및 방법은 기존 발화 문장 및 재발화 문장을 이용하여, 오류를 수정하기 위한 반복적인 재발화를 방지할 수 있을 뿐만 아니라 향상된 재발화 인식 성능을 제공한다.As described above, the speech recognition performance enhancement system and method according to the embodiment of the present invention can prevent repetitive re-occurrence for correcting an error by using existing speech sentence and re-sentence sentence, Recognition performance.

다시 말하면, 기존 사용자 발화의 오류를 수정하기 위한 반복적인 재발화를 줄임으로써, 반복적인 오류의 발생이 줄어들게 된다. 또한, 음성만을 통하여, 기존 사용자 발화 문장의 오류를 수정할 수 있으므로, 직접적으로 문장 입력 등에 대한 방법보다 보다 편리하고 쉽게 오류가 수정될 수 있다. In other words, by reducing repetitive recurrences to correct errors in existing user utterances, the occurrence of repetitive errors is reduced. In addition, since the error of the existing user utterance sentence can be corrected only through the voice, the error can be corrected more conveniently and easily than the method of directly inputting the sentence or the like.

본 발명의 실시예에서는 각 구성이 각각 다른 블록에 도시됨으로써, 예를 들어 설명하였으나, 각각의 구성은 하나의 블록으로 구성될 수 있다. 예를 들면, 제어부 또는 프로세서 등에 구성되어 일련의 동작들을 수행할 수 있다.In the embodiment of the present invention, each configuration is shown in different blocks, so that the configuration is described as one block. For example, the control unit or the processor may be configured to perform a series of operations.

상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
It will be apparent to those skilled in the art that various modifications and variations can be made in the present invention without departing from the spirit or scope of the present invention as defined by the following claims It can be understood that

100: 발화 인식 성능 향상 시스템 110: 사용자 발화 입력부
120: 사용자 발화 의도 판단부 130: 사용자 발화 처리부
140: 입력 처리부 150: 재발화 처리부
151: 인식 성능 향상부 152: 수정 처리부
152a: 가중치 조정부 152b: 인식 N-BEST 생성부
152c: 인식 N-BEST 결합부 153d: 패널티 적용부
152e: 최종 인식 결정부
100: speech recognition performance enhancement system 110: user speech input unit
120: user utterance intention determining unit 130: user utterance processing unit
140: input processor 150: recursion processor
151: recognition performance improving section 152: correction processing section
152a: Weight adjustment unit 152b: Recognition N-BEST generation unit
152c: recognition N-BEST combining unit 153d: penalty applying unit
152e: final recognition determination unit

Claims (13)

사용자 발화를 입력 받는 사용자 발화 입력부;
상기 사용자 발화의 의도를 판단하고, 상기 사용자 발화의 의도에 대응하는 사용자 발화 의도 정보를 생성하는 사용자 발화 의도 판단부; 및
상기 사용자 발화 의도 정보가 입력 처리에 대응하는 경우, 상기 사용자 발화를 입력 처리하며, 상기 사용자 발화 의도 정보가 재발화 처리에 대응하는 경우, 상기 사용자 발화에 대해서 인식 성능 향상 처리를 하며, 인식 성능 향상 처리된 상기 사용자 발화를 이용하여 기존 사용자 발화를 수정하는 재발화 처리부를 포함하는 발화 인식 성능 향상 시스템.
A user utterance input unit for inputting a user utterance;
A user utterance intention determining unit for determining an intention of the user utterance and generating user utterance intention information corresponding to the intention of the user utterance; And
Wherein when the user's utterance intention information corresponds to input processing, input processing is performed on the user utterance, and when the user utterance intention information corresponds to recursion processing, recognition performance enhancement processing is performed on the user utterance, And a recalculation processor for correcting the existing user utterance using the processed user utterance.
언어 단위로 입력된 기존 사용자 발화 문장 및 현재 사용자 발화 문장에 대해 음성 인식 언어 모델인 훈련 말뭉치를 기반으로 가중치를 적용하는 가중치 조정부;
가중치가 적용된 기존 사용자 발화 문장 및 현재 사용자 발화 문장 각각에 대해 N-BEST 및 상기 N-BEST에 대한 점수를 생성하는 인식 N-BEST 생성부; 및
상기 N-BEST에 대해서 상기 기존 사용자 발화 문장 및 현재 사용자 발화 문장의 상기 점수를 합산하는 인식 N-BEST 결합부를 포함하는 발화 인식 성능 향상 시스템.
A weight adjuster for applying a weight based on training corpus, which is a speech recognition language model, for an existing user spoken sentence and a current user spoken sentence input in a language unit;
A recognition N-BEST generator for generating a score for N-BEST and N-BEST for each of the weighted existing user utterance sentence and the current user utterance sentence; And
And a recognition N-BEST combining unit for summing the scores of the existing user utterance sentence and the current user utterance sentence for the N-BEST.
청구항 2에 있어서,
상기 가중치는, 제1전이 가능성을 가진 품사의 경우, 제1값을 가지고, 제2전이 가능성을 가진 품사의 경우, 제2값을 가지며,
상기 제1전이 가능성은 상기 제2전이 가능성보다 크고, 상기 제1값은 상기 제2값보다 작은 것을 특징으로 하는 발화 인식 성능 향상 시스템.
The method of claim 2,
The weight having a first value for a part of speech having a first transitivity and a second value for a part of speech having a second transitivity,
Wherein the first transition probability is greater than the second transition probability and the first value is less than the second value.
청구항 2에 있어서,
상기 언어 단위는 격자 단위인 것을 특징으로 하는 발화 인식 성능 시스템.
The method of claim 2,
Wherein the language unit is a lattice unit.
청구항 2에 있어서,
상기 N-BEST의 합산 점수에 패널티를 적용하여 상기 N-BEST에 대한 최종 점수를 산출하는 패널티 적용부를 더 포함하는 발화 인식 성능 향상 시스템.
The method of claim 2,
And a penalty applying unit for calculating a final score for the N-BEST by applying a penalty to the sum score of the N-BEST.
청구항 5에 있어서,
상기 패널티 적용부는, 상기 N-BEST가 상기 기존 사용자 발화 문장 및 현재 사용자 발화 문장에서 하나에만 포함되는 경우, 제1패널티를 적용하고,
상기 N-BEST가 상기 기존 사용자 발화 문장의 오류를 포함하고 있는 경우, 제2패널티를 적용하는 것을 특징으로 하는 발화 인식 성능 향상 시스템.
The method of claim 5,
The penalty applying unit applies the first penalty when the N-BEST is included in only one of the existing user speaking sentence and the current user speaking sentence,
And when the N-BEST includes an error of the existing user utterance sentence, a second penalty is applied.
청구항 5에 있어서,
상기 N-BEST의 최종 점수를 기반으로 최종 사용자 발화 인식 문장을 추출하는 최종 인식 결정부를 더 포함하는 발화 인식 성능 향상 시스템.
The method of claim 5,
And a final recognition determiner for extracting an end user speech recognition sentence based on the final score of the N-BEST.
발화 인식 성능 향상을 위한 발화 인식 성능 향상 시스템의 발화 인식 성능 향상 방법에 있어서,
언어 단위로 입력된 기존 사용자 발화 문장 및 현재 사용자 발화 문장에 대해 음성 인식 언어 모델인 훈련 말뭉치를 기반으로 가중치를 적용하는 단계;
가중치가 적용된 기존 사용자 발화 문장 및 현재 사용자 발화 문장 각각에 대해 N-BEST 및 상기 N-BEST에 대한 점수를 생성하는 단계; 및
상기 N-BEST에 대해서 상기 기존 사용자 발화 문장 및 현재 사용자 발화 문장의 상기 점수를 합산하는 단계를 포함하는 발화 인식 성능 향상 방법.
A method for improving speech recognition performance of a speech recognition performance enhancement system for improving speech recognition performance,
Applying a weight based on training corpus, which is a speech recognition language model, for an existing user spoken sentence and a current user spoken sentence input in a language unit;
Generating scores for N-BEST and N-BEST for each of the weighted existing user utterance sentence and the current user utterance sentence; And
Summing the scores of the existing user utterance sentence and the current user utterance sentence for the N-BEST.
청구항 8에 있어서,
상기 가중치는, 제1전이 가능성을 가진 품사의 경우, 제1값을 가지고, 제2전이 가능성을 가진 품사의 경우, 제2값을 가지며,
상기 제1전이 가능성은 상기 제2전이 가능성보다 크고, 상기 제1값은 상기 제2값보다 작은 것을 특징으로 하는 발화 인식 성능 향상 방법.
The method of claim 8,
The weight having a first value for a part of speech having a first transitivity and a second value for a part of speech having a second transitivity,
Wherein the first transition probability is greater than the second transition probability and the first value is less than the second value.
청구항 8에 있어서,
상기 언어 단위는 격자 단위인 것을 특징으로 하는 발화 인식 성능 향상 방법.
The method of claim 8,
Wherein the language unit is a lattice unit.
청구항 8에 있어서,
상기 N-BEST의 합산 점수에 패널티를 적용하여 상기 N-BEST에 대한 최종 점수를 산출하는 단계를 더 포함하는 발화 인식 성능 향상 방법.
The method of claim 8,
And calculating a final score for the N-BEST by applying a penalty to the sum score of the N-BEST.
청구항 11에 있어서,
상기 패널티를 적용하는 단계는, 상기 N-BEST가 상기 기존 사용자 발화 문장 및 현재 사용자 발화 문장에서 하나에만 포함되는 경우, 제1패널티를 적용하고,
상기 N-BEST가 상기 기존 사용자 발화 문장의 오류를 포함하고 있는 경우, 제2패널티를 적용하는 것을 특징으로 하는 발화 인식 성능 향상 방법.
The method of claim 11,
Wherein applying the penalty applies a first penalty when the N-BEST is included in only one of the existing user speaking statement and the current user speaking statement,
And the second penalty is applied when the N-BEST includes an error of the existing user utterance sentence.
청구항 11에 있어서,
상기 N-BEST의 최종 점수를 기반으로 최종 사용자 발화 인식 문장을 추출하는 단계를 더 포함하는 발화 인식 성능 향상 방법.
The method of claim 11,
And extracting an end-user utterance recognition sentence based on the final score of the N-BEST.
KR1020120120674A 2012-10-29 2012-10-29 Apparatus for improving utterance recognition performance and method thereof KR101404246B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120120674A KR101404246B1 (en) 2012-10-29 2012-10-29 Apparatus for improving utterance recognition performance and method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120120674A KR101404246B1 (en) 2012-10-29 2012-10-29 Apparatus for improving utterance recognition performance and method thereof

Publications (2)

Publication Number Publication Date
KR20140054771A true KR20140054771A (en) 2014-05-09
KR101404246B1 KR101404246B1 (en) 2014-06-05

Family

ID=50886558

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120120674A KR101404246B1 (en) 2012-10-29 2012-10-29 Apparatus for improving utterance recognition performance and method thereof

Country Status (1)

Country Link
KR (1) KR101404246B1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105355200A (en) * 2015-11-20 2016-02-24 深圳狗尾草智能科技有限公司 System and method for training and modifying interactive content of robot directly
WO2021225198A1 (en) * 2020-05-08 2021-11-11 엘지전자 주식회사 Artificial intelligence device for recognizing speech and method thereof

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008051895A (en) * 2006-08-22 2008-03-06 Casio Comput Co Ltd Speech recognizer and speech recognition processing program
JP4946358B2 (en) * 2006-11-01 2012-06-06 日産自動車株式会社 Spoken dialogue apparatus and speech understanding result generation method
JP4812029B2 (en) * 2007-03-16 2011-11-09 富士通株式会社 Speech recognition system and speech recognition program
JP2009116277A (en) * 2007-11-09 2009-05-28 Panasonic Electric Works Co Ltd Speech recognition device

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105355200A (en) * 2015-11-20 2016-02-24 深圳狗尾草智能科技有限公司 System and method for training and modifying interactive content of robot directly
WO2021225198A1 (en) * 2020-05-08 2021-11-11 엘지전자 주식회사 Artificial intelligence device for recognizing speech and method thereof

Also Published As

Publication number Publication date
KR101404246B1 (en) 2014-06-05

Similar Documents

Publication Publication Date Title
JP6312942B2 (en) Language model generation apparatus, language model generation method and program thereof
US10037758B2 (en) Device and method for understanding user intent
US8423351B2 (en) Speech correction for typed input
US7392186B2 (en) System and method for effectively implementing an optimized language model for speech recognition
JP5932869B2 (en) N-gram language model unsupervised learning method, learning apparatus, and learning program
WO2020228175A1 (en) Polyphone prediction method, device, and apparatus, and computer-readable storage medium
US20150278192A1 (en) Language model adaptation based on filtered data
JP2009140503A (en) Method and apparatus for translating speech
JP2006058899A (en) System and method of lattice-based search for spoken utterance retrieval
JP2010085536A (en) Voice recognition system, voice recognition method, voice recognition client, and program
JP6051004B2 (en) Speech recognition apparatus, error correction model learning method, and program
JP2008216341A (en) Error-trend learning speech recognition device and computer program
KR20170134115A (en) Voice recognition apparatus using WFST optimization and method thereof
WO2011145272A1 (en) Perplexity calculation device
KR101404246B1 (en) Apparatus for improving utterance recognition performance and method thereof
JP2019101065A (en) Voice interactive device, voice interactive method and program
KR100639931B1 (en) Recognition error correction apparatus for interactive voice recognition system and method therefof
JP2006259641A (en) Voice recognition device and program
JP3006496B2 (en) Voice recognition device
Van Gysel Modeling Spoken Information Queries for Virtual Assistants: Open Problems, Challenges and Opportunities
Ma et al. Recognize foreign low-frequency words with similar pairs
Chetupalli et al. Context dependent RNNLM for automatic transcription of conversations
KR20160085100A (en) Apparatus for Hybride Translation
KR102217621B1 (en) Apparatus and method of correcting user utterance errors
WO2018043139A1 (en) Information processing device, information processing method, and program

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee