KR101651909B1 - Voice recognition text correction method and a device implementing the method - Google Patents

Voice recognition text correction method and a device implementing the method Download PDF

Info

Publication number
KR101651909B1
KR101651909B1 KR1020140048315A KR20140048315A KR101651909B1 KR 101651909 B1 KR101651909 B1 KR 101651909B1 KR 1020140048315 A KR1020140048315 A KR 1020140048315A KR 20140048315 A KR20140048315 A KR 20140048315A KR 101651909 B1 KR101651909 B1 KR 101651909B1
Authority
KR
South Korea
Prior art keywords
text
target text
correction
input
user
Prior art date
Application number
KR1020140048315A
Other languages
Korean (ko)
Other versions
KR20150122000A (en
Inventor
김민철
Original Assignee
주식회사 큐키
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 큐키 filed Critical 주식회사 큐키
Priority to KR1020140048315A priority Critical patent/KR101651909B1/en
Priority to PCT/KR2015/004010 priority patent/WO2015163684A1/en
Priority to JP2016515299A priority patent/JP2016521383A/en
Priority to US14/779,037 priority patent/US10395645B2/en
Priority to CN201911020246.4A priority patent/CN110675866B/en
Priority to CN201580000567.1A priority patent/CN105210147B/en
Publication of KR20150122000A publication Critical patent/KR20150122000A/en
Application granted granted Critical
Publication of KR101651909B1 publication Critical patent/KR101651909B1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)

Abstract

본 발명에 따른 음성 인식 텍스트 수정 방법은 수정 목표 텍스트를 입력하는 단계와, 수정 목표 텍스트가 표시되는 단계와, 사용자의 수정 명령에 따라 상기 수정 목표 텍스트와 음성 인식에 의하여 상기 수정 목표 텍스트 이전에 입력된 텍스트와의 연관성을 계산하는 단계와, 상기 연관성 계산 단계에서의 연관성 계산 결과 연관성 계산 점수가 설정된 조건을 만족하는 상기 수정 목표 텍스트 이전에 입력된 텍스트가 수정 후보 텍스트로 선정되고, 수정 후보 텍스트가 수정 목표 텍스트로 치환 입력되는 단계를 포함한다. 상기 수정 목표 텍스트 입력 단계에서는 수정 목표 텍스트가 사용자에 의한 수정 대상 텍스트의 선택 없이 입력된다. 상기 수정 목표 텍스트 표시 단계에서는 수정 목표 텍스트가 이전에 입력된 텍스트에 연이어 표시된다. 상기 연관성 계산 단계에서는 발음 유사에 기반한 연관성 점수 계산 단계가 포함되고, 수정 목표 텍스트의 단어 개수에 기반하여 연관성 계산 범위가 설정되고, 설정된 범위 내에서 한 단어 또는 둘 이상의 연속된 단어의 조합인 텍스트가 수정 목표 텍스트와 대비가 실행된다.According to another aspect of the present invention, there is provided a method for correcting a speech recognition text, comprising: inputting a correction target text; displaying a correction target text; inputting the correction target text and speech recognition, Calculating a relevance calculation score of the association calculation score in the association calculation step, the text entered before the correction target text satisfying the set condition is selected as the correction candidate text, and the correction candidate text is selected as the correction candidate text, And replacing the corrected target text with the corrected target text. In the modification target text input step, the modification target text is input without selection of the modification target text by the user. In the modification target text display step, the modification target text is displayed in succession to the previously input text. In the association calculation step, a correlation score calculation step based on phonetic similarity is included. A correlation calculation range is set based on the number of words of the correction target text, and one word or a combination of two or more consecutive words within the set range Corrective target text and contrast are executed.

Description

음성 인식 텍스트 수정 방법 및 이 방법을 구현한 장치{VOICE RECOGNITION TEXT CORRECTION METHOD AND A DEVICE IMPLEMENTING THE METHOD}TECHNICAL FIELD [0001] The present invention relates to a method for correcting a speech recognition text and a device implementing the method.

본 발명은 음성 인식에 의하여 사용자가 음성으로 구술한 정보를 텍스트화 하는 기술에 관련된다. TECHNICAL FIELD The present invention relates to a technique for textizing information that a user has uttered by voice by speech recognition.

최근 스마트폰에서는 애플의 시리(Siri), 구글 보이스, 삼성전자 S보이스 등 음성 인식 기술이 대중화되고 있으며, 스마트워치나 구글 글래스와 같은 웨어러블 장치에서는 음성 인식을 가장 주요한 문자 입력 수단으로 활용할 것으로 예상된다. 음성 인식 기술은 오래 전부터 개발되어 온 기술임에도 불구하고, 정확한 음성 인식을 통하여 텍스트로 치환되어 입력되는데 있어서 아직도 오류가 다수 발생하고 있는 기술 분야이다. In recent smartphones, voice recognition technologies such as Apple's Siri, Google Voice, and Samsung Electronics' S-Voice are becoming popular, and it is expected that voice recognition will be the most important way of inputting characters in wearable devices such as SmartWatch and Google Glass . Although the speech recognition technology has been developed for a long time, it is still a technical field in which many errors are still generated when text is substituted by correct speech recognition.

음성 인식으로 입력을 행하면, 텍스트로 치환되어 이것이 사용자에게 보여지게 되는데, 인식된 텍스트가 의도와 다르거나 오류가 있는 경우에 이를 수정해야 하고 현재 다음과 같은 방법으로 수정 동작을 진행한다. 첫째, 키보드 입력 모드로 전환하여 기존 키보드 입력 수정 방법과 동일하게 백스페이스 키를 통하거나 커서 이동을 통하여 입력된 텍스트의 일부를 수정한다. 둘째, 음성 인식 모드상에서 삭제 버튼을 눌러 구술된 단위로 한번에 입력된 텍스트 전체를 삭제하고, 구술을 다시 행하여 재입력하는 방법으로 이전의 오류를 수정한다.If input is done by speech recognition, it is replaced with text and this is displayed to the user. If the recognized text is different from the intention or there is an error, it should be corrected and the correction operation is proceeded as follows. First, the keyboard input mode is changed to modify a portion of the input text through the backspace key or cursor movement in the same manner as the conventional keyboard input modification method. Second, in the speech recognition mode, the deletion button is pressed to erase the entire text entered at once in the dictated unit, and the previous error is corrected by re-inputting the dictation again.

이러한 수정 동작에 있어서, 키보드 입력으로 복귀하는 방법은 작은 크기의 터치 스크린 상에서 정확한 커서 이동 동작을 수행하거나 백스페이스 키를 복수회로 눌러 입력하여 이미 입력된 텍스트를 지우고 다시 입력하는 등 번거로운 동작이 수반될 수 밖에 없다. 또한, 구술된 단위로 다시 입력하는 것은 잘못 인식된 텍스트 뿐만 아니라 인식에 문제가 없는 부분까지 다시 입력해야 하는 측면에서 비효율적이다.In this modification operation, the method of returning to the keyboard input may be performed by performing a precise cursor movement operation on a touch screen of a small size or by pressing a backspace key by pressing a plurality of circuits to erase already inputted text and re- I can not help it. In addition, it is inefficient to re-input in the dictated unit not only the erroneously recognized text but also the part where there is no problem in recognition.

구술을 다시 반복하여 전체 텍스트를 다시 인식하여야 하는 것이 아니라 음성 인식된 텍스트 중 일부 텍스트를 수정하는 기술로 한국 전자통신 연구원의 한국 특허출원 제10-2010-0113825호가 있다.  이 기술에서는 음성 인식된 텍스트 중 일부를 터치하면 장치가 수정 후보들을 사용자에게 보여주고 표시된 수정후보 중 어느 하나를 선택하면 수정 입력이 되는 방식이다.  이 기술에서는 수정 후보를 표시함에 있어서 사용자의 의도에 최대한 근접한 후보들을 선정하는 것이 중요하다.  사용자가 실제 입력을 의도한 텍스트가 장치가 추천한 수정 후보들에 존재하지 않으면, 이 방식으로는 수정이 불가능하다.  이러한 경우, 사용자는 키보드 입력 모드로 전환하여 인식 오류가 난 텍스트로 커서를 이동시키고, 이를 삭제한 후 재입력하는 번거로운 방식을 사용해야 한다.Korean Patent Application No. 10-2010-0113825 of the Electronics and Telecommunications Research Institute of Korea discloses a technique for correcting some texts of speech-recognized texts, rather than having to repeat the dictation again to recognize the whole text again. In this technique, when a part of speech-recognized text is touched, the device displays the correction candidates to the user and selects one of the correction candidates to be displayed. In this technique, it is important to select candidates that are as close as possible to the user's intention in displaying correction candidates. If the text in which the user intended the actual input is not present in the candidate correction candidates recommended by the apparatus, it is impossible to modify it in this way. In such a case, the user must switch to the keyboard input mode, move the cursor to the text with the recognition error, and delete and re-enter the text in a cumbersome manner.

또 다른 종래기술로 포항공과대학의 한국 등록특허 10-1197010호가 있다. 이 기술은 사용자의 음성 구술을 인식하여 인식 결과를 텍스트로 출력하는 보이스 인식 기술이며, 사용자의 음성 구술이 텍스트 추가 입력을 위한 것인지, 아니면 이미 입력된 텍스트의 수정을 위한 것인지를 판단하는 정보를 출력하는데 특징이 있다. 이 기술은 특별한 수정 명령 없이 시스템이 자동으로 음성 인식에 의하여 입력된 텍스트의 수정을 가능케 하는 것을 목적으로 한다. 이 기술에서는 나름의 방식으로 텍스트 수정을 위한 사용자의 음성 구술을 텍스트 추가 입력을 위한 음성 구술과 구별하고 있지만, 이러한 구별의 정확성은 현실적으로 만족스럽지 못하다. 구별의 정확성이 떨어져서 텍스트 수정을 위한 입력이 텍스트 추가 입력으로 인식된다던가 그 역의 경우에는 오히려 수정되어야 하는 텍스트가 늘어나는 결과가 초래되어 사용자 불편이 매우 커지는 큰 문제가 있다.Another prior art is Korean Patent No. 10-1197010 of POSTECH. This technology is a voice recognition technology for recognizing the user's voice dictation and outputting the recognition result as text, and outputs information for determining whether the user's voice dictation is for text addition input or for modification of already inputted text . This technique aims to enable the system to automatically modify the text entered by voice recognition without any special modification command. This technique differentiates the user's voice dictation for text modification from the voice dictation for text addition input in a custom manner, but the accuracy of such distinction is not realistic. The accuracy of the distinction is poor and the input for text modification is recognized as a text addition input, and in the opposite case, there is a problem that the text to be modified is increased and the user inconvenience becomes very large.

본 발명은 상술한 바와 같은 종래기술의 문제점을 인식한 것에서 출발한다.  본 발명은 상기 포항공과대학의 기술에서와 달리 사용자가 수정 명령을 직접 내리는 방식을 택하여 텍스트 수정의 경우와 텍스트 추가 입력의 경우를 오류 없이 명확히 구분하면서, 수정 명령에 따른 수정 동작에 있어서 사용자의 편의성을 최대한으로 할 수 있는 수정 방법 및 이 방법을 구현한 장치를 제공하는 것을 목적으로 한다.The present invention is based on the recognition of the problems of the prior art as described above. The present invention differs from the technology of the above-mentioned POSTECH in that a user directly selects a method of directly outputting a correction command, thereby clearly distinguishing between the case of text correction and the case of adding text input without error, And an object of the present invention is to provide a correction method capable of maximizing convenience and an apparatus implementing the method.

본 발명에 따른 음성 인식 텍스트 수정 방법은 구체적으로 다음의 경우를 포함한다.The speech recognition text modification method according to the present invention specifically includes the following cases.

먼저, 음성 인식으로 입력 중인 텍스트를 키보드 입력에 의하여 수정하는 방법이다. (제1 케이스)First, a method of correcting the text being input by voice recognition by keyboard input. (First case)

다음으로, 음성 인식으로 입력 중인 텍스트를 음성 인식에 의하여 수정하는 방법이다. (제2 케이스)Next, a method of correcting the text being input by speech recognition by speech recognition. (Second case)

마지막으로, 키보드로 입력 중인 텍스트를 음성 인식에 의하여 수정하는 방법이다. (제3 케이스)Finally, a method of correcting the text being input by the keyboard by speech recognition. (Third case)

키보드로 입력 중인 텍스트를 키보드 입력에 의하여 수정하는 것은 수정 대상 텍스트와 수정 목표 텍스트 중 어느 것도 음성 인식에 의하여 입력되지 않으므로 본 발명의 범주에서 제외한다.  Modification of the text being input by the keyboard by keyboard input is excluded from the scope of the present invention since neither the modification target text nor the modification target text is inputted by voice recognition.

즉, 본 발명은 수정 대상 텍스트와 수정 목표 텍스트 중 어느 하나 또는 둘 모두를 음성 인식에 의하여 입력하는 것을 대상으로 한다.  본 명세서에서 사용되는 수정 대상 텍스트란 용어는 음성 인식 또는 키보드 입력에 의하여 장치에 입력된 텍스트이면서 사용자의 의도와 달리 입력된 오류, 즉 수정되어야 할 대상을 포함하는 텍스트를 의미한다.  본 명세서에서 사용되는 수정 목표 텍스트란 용어는 상기 수정되어야 할 대상, 즉 수정 대상 텍스트의 원래 사용자 의도에 맞는 텍스트 형태로서, 사용자의 수정 의도에 따라 입력된 텍스트이면서, 본 발명에 따라 수정 대상 텍스트와 치환되는 텍스트이다.That is, the present invention is directed to inputting either or both of the correction target text and the correction target text by voice recognition. As used herein, the term " text to be modified " refers to text input to the device by speech recognition or keyboard input, but includes an error that is different from the intention of the user, i.e., an object to be corrected. As used herein, the term " correction target text " refers to the text to be corrected, that is, a text type suited to the original user intention of the correction target text, This is the text to be replaced.

먼저, 수정 대상 텍스트가 음성 인식으로 입력된 경우의 본 발명에 따른 제1 수단에 대해 설명한다. 수정 대상 텍스트가 음성 인식으로 입력된 경우, 수정 목표 텍스트는 음성 인식 또는 키보드 입력으로 입력될 수 있다. 즉, 상기 제1 및 제2 케이스가 이에 해당한다.First, the first means according to the present invention in the case where the text to be corrected is inputted into speech recognition will be described. If the text to be modified is entered as speech recognition, the text of the modification target can be entered as speech recognition or keyboard input. That is, the first and second cases correspond to this case.

제1 및 제2 케이스를 커버하는 본 발명의 음성 인식 텍스트 수정 방법은 수정 목표 텍스트를 입력하는 단계와, 수정 목표 텍스트가 표시되는 단계와, 사용자에 의한 수정 명령에 따라 상기 수정 목표 텍스트와 음성 인식에 의하여 상기 수정 목표 텍스트 이전에 입력된 텍스트와의 연관성을 계산하는 단계와, 상기 연관성 계산 단계에서의 연관성 계산 결과 연관성 계산 점수가 설정된 조건을 만족하는 상기 수정 목표 텍스트 이전에 입력된 텍스트가 수정 후보 텍스트로 선정되고, 수정 후보 텍스트가 수정 목표 텍스트로 치환 입력되는 단계를 포함한다.According to another aspect of the present invention, there is provided a method for correcting a speech recognition text, comprising the steps of: inputting a correction target text; displaying a correction target text; Calculating a relevance calculation result of the relevance calculation score in the relevancy calculation step, the text entered before the correction target text satisfying the set condition is a correction candidate The text is selected as the text, and the correction candidate text is substituted for the correction target text.

상기 수정 목표 텍스트 입력 단계에서는 음성 인식에 의해 이미 장치에 입력된 텍스트 중 어떤 텍스트를 수정하고자 하는 지에 대한 사용자에 의한 지정이 이루어지지 않은 채 음성 인식 또는 키보드로 수정 목표 텍스트의 입력이 이루어진다.In the modification target text input step, the user does not specify which of the texts already input to the device by the speech recognition is to be modified, and input of the modification target text is performed with the keyboard or the keyboard.

상기 수정 목표 텍스트의 표시 단계에서 수정 목표 텍스트는 이미 장치에 입력된, 오류를 포함한 텍스트에 연이어서 표시될 수 있다.In the display step of the modification target text, the modification target text may be displayed in succession to the text including the error already input to the apparatus.

상기 연관성 계산 단계에서는 발음 유사에 기반한 연관성 점수 계산 단계가 포함되고, 수정 목표 텍스트의 단어 수 또는 음절 수에 기반하여 연관성 계산 범위가 설정된다.  이러한 범위 설정 방식은, 후술하는 실시예에서 구체적으로 설명되듯이, 수정 목표 텍스트의 단어 개수와 동일한 개수의 단어로 이루어진 또는 수정 목표 텍스트의 음절 개수와 동일한 음절 개수의 음절로 이루어진 범위를 의미하는 것이 아니다.  수정 목표 텍스트의 단어 개수 또는 음절 개수 +-1, 또는 +-2, 또는 그 이외의 적절한 범위의 단어 개수 또는 음절 개수로 이루어진 이미 입력된 텍스트의 연속된 단어 또는 음절로 이루어진 부분 집합인 텍스트가 수정 목표 텍스트와의 대비 대상으로 선정된다.  그 이후, 설정된 범위 내에서 하나 또는 연속된 둘 이상의 단어 또는 음절의 조합인 텍스트가 수정 목표 텍스트와 대비가 실행된다.In the association calculation step, a correlation score calculation step based on pronunciation similarity is included, and a correlation calculation range is set based on the number of words or the number of syllables in the correction target text. This range setting method means a range made up of syllables having the same number of words as the number of words of the correction target text or the same number of syllables as the number of syllables of the correction target text, as will be described later in detail in the embodiment no. Modified text that is a subset of consecutive words or syllables of already entered text consisting of the number of words or syllables in the target text + -1, or + -2, or other appropriate number of words or syllables It is selected as a contrast object with the target text. Thereafter, the text, which is a combination of two or more words or syllables, is contrasted with the correction target text within the set range.

다음으로, 수정 대상 텍스트가 키보드로 입력된 경우의 본 발명에 따른 수단에 대해서 설명한다. 수정 대상 텍스트가 키보드로 입력된 경우, 수정 목표 텍스트는 음성 인식으로 입력된다. 즉, 상기 제3 케이스가 이에 해당한다.Next, the means according to the present invention in the case where the text to be corrected is input by the keyboard will be described. When the text to be corrected is input by the keyboard, the corrected target text is input into the speech recognition. That is, the third case corresponds to the third case.

이 경우에는 수정 대상 텍스트가 음성 인식으로 입력되는 상술한 제1 및 제2 케이스와 대비하여, 연관성 판단 방식에서 차이가 있다.  수정 대상 텍스트가 키보드로 입력된 경우이기 때문에, 연관성 판단 방법에 있어서 키보드 배치를 고려한 연관성 판단 방식이 포함되어야 한다.  그 외의 구성은 동일하며, 결과적으로 다음과 같은 구성으로 구현된다.In this case, there is a difference between the first and second cases, in which the text to be modified is input into speech recognition, in the method of determining the relevance. Since the text to be corrected is input by the keyboard, a method for determining the relevance of the keyboard should be included in the method of determining the relevance. The other configurations are the same, and as a result, the following configuration is implemented.

먼저, 수정 목표 텍스트를 입력하는 단계가 포함된다.  다음으로, 수정 목표 텍스트가 표시되는 단계와, 사용자에 의한 수정 명령에 따라 상기 수정 목표 텍스트와 키보드 입력에 의하여 상기 수정 목표 텍스트 이전에 입력된 텍스트와의 연관성을 계산하는 단계와, 상기 연관성 계산 단계에서의 연관성 계산 결과 연관성 계산 점수가 설정된 조건을 만족하는 상기 수정 목표 텍스트 이전에 입력된 텍스트가 수정 후보 텍스트로 선정되고, 수정 후보 텍스트가 수정 목표 텍스트로 치환 입력되는 단계를 포함한다.First, inputting the correction target text is included. Calculating a relevance between the corrected target text and a text entered before the corrected target text based on a keyboard input in accordance with a correction instruction by a user; The text entered before the corrected target text satisfying the set condition of the relevance calculation score is selected as the corrected candidate text and the corrected candidate text is substituted for the corrected target text.

상기 수정 목표 텍스트 입력 단계에서는 키보드 입력에 의해 이미 장치에 입력된 텍스트 중 어떤 텍스트를 수정하고자 하는 지에 대한 사용자에 의한 지정이 이루어지지 않은 채 음성 인식으로 수정 목표 텍스트의 입력이 이루어진다.In the correction target text input step, the correction target text is input into the speech recognition without designation by the user of which text of the text already inputted to the apparatus by the keyboard input is to be corrected.

상기 연관성 계산 단계에서는 키보드 배치에 기반한 연관성 점수 계산 단계가 포함되고, 수정 목표 텍스트의 단어 수 또는 음절 수에 기반하여 연관성 계산 범위가 설정된다.  수정 목표 텍스트의 단어 수 또는 음절 수에 기반한다는 의미는 후술하는 실시예에서 구체적으로 설명되듯이, 수정 목표 텍스트의 단어 개수 또는 음절 개수와 동일한 개수의 단어 또는 음절로 이루어진, 이미 입력된 텍스트의 부분 집합인 텍스트가 수정 목표 텍스트와 대비되는 것을 의미하는 것이 아니다.  수정 목표 텍스트의 단어 또는 음절 개수 +-1, 또는 +-2, 또는 그 이외의 적절한 범위의 단어 또는 음절 개수로 이루어진 이미 입력된 텍스트의 연속된 단어 또는 음절로 이루어진 부분 집합인 텍스트가 수정 목표 텍스트와의 대비 대상으로 선정된다.  이로써, 설정된 범위 내에서 하나 또는 연속된 둘 이상의 단어 또는 음절의 조합인 텍스트가 수정 목표 텍스트와 대비가 실행된다In the association calculation step, a relevance score calculation step based on keyboard layout is included, and a relevancy calculation range is set based on the number of words or the number of syllables in the correction target text. The meaning based on the number of words or the number of syllables of the correction target text is that the number of words or syllables of the corrected target text or the number of syllables of the same number as the number of syllables, It does not mean that the aggregated text is in contrast to the corrected target text. A text that is a subset of consecutive words or syllables of already entered text consisting of the number of words or syllables in the correction target text + -1, or + -2, or other appropriate range of words or syllables, . Thereby, the text, which is a combination of two or more words or syllables in one set or in a set range, is compared with the correction target text

이상에서, 제1 및 제2 케이스의 연관성 판단의 경우 발음 유사에 기반한 연관성 판단 방식이 기본이 되며, 제3 케이스의 연관성 판단의 경우 키보드 배치에 기반한 연관성 판단 방식이 기본이 되는 것으로 기술하였으나, 모든 케이스에 있어서 연관성 판단 방식이 오로지 이것만을 포함하는 것으로 이해되어서는 안 된다. 즉, 제1 및 제2 케이스의 경우에 연관성 판단의 정확성을 높이기 위하여, 다른 판단 방식, 예컨대 음파에 기반한 연관성 판단 방식이 추가적으로 포함될 수 있으며, 이는 제3 케이스에 대해서도 마찬가지이다.In the above description, in the case of determining the association between the first and second cases, the association determination method based on the pronunciation similarity is the basis. In the case of the association determination of the third case, In the case, the relevance judgment method should not be understood to include only this. That is, in the case of the first and second cases, in order to increase the accuracy of the association determination, another determination method, for example, a sound-based association determination method may be additionally included.

이 외에도, 본 발명의 기술적 사상에 따라 다른 구성이 더 제공될 수도 있다.Other configurations may be further provided in accordance with the technical idea of the present invention.

본 발명에 따르면, 음성 인식에 의한 텍스트 입력 시 사용자의 의도와는 다른 텍스트가 입력되었을 때, 사용자의 구술 단위에서 전체 텍스트의 재입력 없이 오류가 발생한 단어들만 수정할 수 있으므로, 음성 인식을 기반으로 한 텍스트 입력의 오류 수정 효율성이 대폭 향상된다.  According to the present invention, when a text different from the user's intention is input at the time of inputting text by speech recognition, only the words in which the error occurs can be corrected without re-inputting the entire text in the user's oral unit. The error correction efficiency of text input is greatly improved.

한편, 이미 입력된 오류를 포함한 텍스트 중 일부 텍스트를 사용자가 선택하게 함으로써 당해 텍스트를 수정하는 방식이 아니므로 사용자의 선택을 위한 과정이 생략될 수 있어서 보다 편리한 오류의 수정이 가능할 뿐만 아니라, 사용자의 수정 대상 텍스트의 선택에 이은 수정 목표 텍스트의 장치에 의한 추천이 이루어지지 않고 사용자가 직접 수정 목표 텍스트를 입력하는 방식이므로 추천의 정확성에 기대지 않고 언제나 정확하게 사용자의 의도에 부합하는 수정을 행할 수 있다.In addition, since the user does not need to edit some texts of the text including the already inputted error, the process for selecting the user can be omitted, so that it is possible to more easily correct the error, Since the method of selecting the correction target text and the recommendation by the device of the correction target text is not performed but the user inputs the correction target text directly, it is possible to always make a correction that exactly matches the intention of the user without relying on the accuracy of the recommendation.

또한, 사용자가 직접 수정 명령을 내리므로, 수정 의도를 추정하여 수정을 행하는 기술에 비하여 수정 정확성을 높일 수 있으면서도 연관성 판단 방식에 의한 치환이라는 고유의 기술수단으로써 사용자의 편리를 도모할 수 있다.In addition, since the user directly issues a correction command, the correction accuracy can be enhanced compared to the technique of estimating and correcting the correction intention, and the convenience of the user can be achieved as a unique technical means of replacement by the correlation determination method.

먼저, 수정 대상 텍스트가 음성인식으로 입력된 경우의 실시예에 대하여 기술한다.First, an embodiment in which the text to be modified is input into speech recognition will be described.

사용자는 "Seoul is 10 degree in Celsius."의 입력을 의도하였는데 실제 음성 인식 텍스트 입력은 "Seoul is 10 degree is say use."로 되었다.  본 발명에 따라 이를 수정하는 방식은 크게 두 가지이다.  첫째는 사용자가 "say use"가 "Celsius"로 치환 입력되어야 하는 것을 목표로 "Celsius"를 키보드로 입력하는 것이다.  둘째는 사용자가 "say use"가 "Celsius"로 치환 입력되어야 하는 것을 목표로 "Celsius"를 구술하는 것이다.  그 중 수정 목표 텍스트인 "Celsius"를 키보드로 입력하는 경우에 대해 먼저 설명한다. The user intended to input "Seoul is 10 degrees in Celsius." The actual speech recognition text input was "Seoul is 10 degrees is say use." There are two ways to modify this according to the present invention. The first is to enter "Celsius" on the keyboard with the goal that the user should have "say use" substituted for "Celsius". The second is to dictate "Celsius" with the goal that the user should be substituted for "say use" with "Celsius". First of all, let's start by typing the edit target text "Celsius" on the keyboard.

사용자는 가상 키보드 상에서 터치를 통하여 "Celsius"를 입력한다.  사용자의 입력에 따라 화면에는 "Celsius"가 표시된다.  이로써, 사용자의 전체 입력은 "Seoul is 10 degree is say use. Celsius"가 되었다.  이 상태에서 수정 명령을 내리면, 장치는 "Celsius"를 수정 목표 텍스트로 인식하고, 수정 목표 텍스트의 입력 이전에 입력된 텍스트인 "Seoul is 10 degree is say use." 즉 수정 대상 텍스트와의 연관성 검토를 개시한다.   The user inputs "Celsius" through the touch on the virtual keyboard. Depending on the user's input, the display will show "Celsius". As a result, the total input of the user becomes "Seoul is 10 degrees is say use. Celsius". If you issue a modify command in this state, the device recognizes "Celsius" as the revision target text, and the text entered before the revision target text is input, "Seoul is 10 degrees is say use." That is, the correlation with the text to be corrected.

연관성 검토에 있어서 가장 선행되어야 하는 판단은 연관성 검토 대상인 텍스트의 범위이다. The most preliminary judgment in the association review is the range of texts for which the association is being reviewed.

음성 입력의 경우 위 예제의 경우처럼 사용자가 실제로 입력 의도한 것은 한 단어(Celsius)이나, 이것이 발음이 유사한 연이은 복수의 단어로 입력되는 현상이 발생할 수 있다.  또한, 위 예제에서는 연이은 두 단어(say use)로 입력되었으나, 그 수가 반드시 2개에 한정되지도 않는다.  따라서 경우에 따라서는 세 개 또는 네 개의 연이은 단어까지도 그 비교 범위에 포함시킬 필요가 있다.  기본적으로 수정 목표 텍스트의 단어의 수 +-2의 숫자의 연이은 단어까지 연관성 검토 범위로 설정하는 것이 적절하다는 것이 본 발명자의 연구를 통하여 발견되었으나, 반드시 +-2에 한정되어야 하는 것은 아니다.In the case of speech input, as in the case of the above example, the user actually intends to input a word (Celsius) or a plurality of words having similar pronunciation. Also, in the above example, two successive words (say use) are entered, but the number is not necessarily limited to two. Therefore, in some cases, even three or four consecutive words need to be included in the comparison range. Basically, it has been found through research by the present inventors that it is appropriate to set the number of words in the correction target text to the number of successive words of the number of + -2 to the relevance examination range, but it is not necessarily limited to + -2.

여기서, -인 경우는 수정 목표 텍스트가 여러 단어로 구성될 수 있다는 것을 고려한 것이다.  즉, 사용자가 음성 인식 도중 복수의 단어로 인식되어야 하는 텍스트를 구술하였으나, 이것이 더 작은 수의 유사한 발음의 단어로 인식되어 텍스트 입력되는 경우가 발생할 수 있기 때문이다.  이러한 연관성 검토의 범위를 위 예제에 대해서 적용하여 보겠다.Here, in the case of -, it is taken into consideration that the corrected target text may be composed of several words. That is, while the user has dictated a text that should be recognized as a plurality of words during speech recognition, it may happen that the text is recognized as a smaller number of similar pronunciation words. The scope of this association review will be applied to the above examples.

한편, 연관성 검토 대상인 텍스트의 범위를 단어 수가 아닌 음절 수로 정하는 것도 가능하다. 예제의 "Celsius"는 한 단어이며 세 음절이다. 단어 단위로 검토 대상 텍스트 범위를 정할 경우 +-2의 범위를 적용한다면 한 단어로 이루어진 텍스트에서 세 단어로 이루어진 텍스트까지가 검토 대상 텍스트의 범위로 결정된다. 음절 단위로 검토 대상 텍스트 범위를 정할 경우 역시 +-2의 범위를 적용한다면 한 음절로 이루어진 텍스트(-2가 적용)에서 다섯 음절로 이루어진 텍스트(+2가 적용)까지가 검토 대상 텍스의 범위로 결정될 수 있다. 단어 단위로 텍스트 범위를 정하는 경우와 음절 단위로 텍스트 범위를 정하는 경우 수정 목표 텍스트의 단어 수 또는 음절 수에 어느 정도 숫자를 가감한 범위를 택할 것이냐는 다르게 실시될 수 있다.On the other hand, it is also possible to define the range of the text to be examined for relevance as the number of syllables, not the number of words. The example "Celsius" is one word and three syllables. When the range of the text to be reviewed is determined by the word, if the range of + -2 is applied, the range of the text to be examined is determined from the one-word text to the three-word text. If you specify a range of texts to be reviewed in the syllable unit, if you also apply a range of + -2, the text from one syllable (-2 applies) to the text of five syllables (+2 applies) Can be determined. When a text range is defined by a word unit and a text range is defined by a syllable unit, the number of words or the number of syllables in the target text to be modified may be varied depending on how much the number is added or subtracted.

이와 같이, 단어 수 또는 음절 수에 따른 연관성 검토 대상인 텍스트의 범위의 설정이 모두 가능하지만, 이하에서는 설명의 편의를 위하여 단어 수에 따라 연관성 검토 대상인 텍스트의 범위를 정하는 것에 대해서 설명하기로 한다.As described above, although it is possible to set the range of the text to be examined for relevance according to the number of words or the number of syllables, for the sake of convenience of description, description will be given below of defining the range of the text to be examined for relevance according to the number of words.

제시된 예제에서, 수정 대상 텍스트는 "Seoul is 10 degree in say use."이고, 사용자는 이의 수정을 위하여 키보드를 통한 텍스트 입력으로 "Celsius"를 입력하고 수정 명령을 내렸다.In the example presented, the text to be modified is "Seoul is 10 degrees in say use.", And the user entered "Celsius" as a text input via the keyboard to edit it.

이 상태에서, 장치는 먼저 수정 목표 텍스트인 "Celsius"와 수정 대상 텍스의 한 단어로 이루어진 부분 텍스트와의 대비를 실행한다.In this state, the device first performs a contrast between the modified target text "Celsius" and the partial text consisting of one word of the modification target text.

즉, 1차 연관성 검토 단계에서 Seoul, is, 10, degree, in, say, use의 7개 단어가 각각 수정 목표 텍스트인 "Celsius"와 대비된다.  그런데, 수정 목표 텍스트인 "Celsius"와 수정 대상 텍스트 중 하나의 단어로 이루어진 7개 부분 텍스트와의 대비 결과, 연관성 있는 대상이 없다는 결과가 나왔다.  이 때 실행되는 발음 유사에 기반한 연관성 판단 방법에 대해서는 후술하기로 한다. That is, in the primary relevance review stage, seven words of Seoul, is, 10, degree, in, say, use are compared with the target text "Celsius" respectively. However, as a result of the contrast between the modified target text, "Celsius", and the seven-part text, which is one of the words to be modified, there is no relevant object. The method of determining the association based on the pronunciation similarity executed at this time will be described later.

그러면, 장치는 범위를 확장하여 2차 연관성 판단 단계로 넘어간다.  1차 연관성 검토 단계에서 한 단어로 이루어진 부분 텍스트와의 대비가 실행되었으므로, 이번 단계에서는 연속된 두 단어로 이루어진 부분 텍스트와의 대비가 실행된다.  이 때 추출되는 대비 대상은 아래의 총 6개 부분 텍스트이다. Then, the device extends the range to the secondary relevance judgment step. Since the comparison with the partial text consisting of one word has been carried out in the step of examining the first association, at this stage, contrast with the partial text consisting of two consecutive words is executed. The contrast object extracted at this time is the total of six partial texts below.

Seoul isSeoul is

is 10is 10

10 degree10 degree

degree indegree in

in sayin say

say usesay use

이 연속된 두 단어 사이의 스페이스는 무시하고, 연속된 두 단어를 하나의 단위로 삼아 수정 목표 텍스트인 Celsius와의 대비가 실행된다.  그 결과 "sayuse"라는 원래는 두 단어로 이루어진 텍스트 단위의 발음이 Celsius와 연관성 있는 것으로 판단된다.  그러면, 장치는 이 부분 텍스트를 수정 후보로 인식하고 수정 후보 데이터 베이스에 저장한다.The space between these two consecutive words is ignored, and the contiguous two words are used as one unit, and contrast with the modified target text Celsius. As a result, the original word "sayuse" seems to be related to the Celsius pronunciation of a two-word text unit. Then, the device recognizes this partial text as a correction candidate and stores it in the correction candidate database.

이러한 방식으로 미리 설정된 범위까지의 연관성 검토가 이루어진다.  예컨대, 연관성 판단 대상의 범위가 수정 목표 텍스트의 단어 수 +-1로 설정된 경우라면, 수정 목표 텍스트인 "Celsius"가 한 단어로만 이루어져 있으므로 범위를 -로 확장할 수는 없으므로, 연관성 판단 범위는 수정 목표 텍스트와 동일한 단어 수의 부분 텍스트 및 수정 목표 텍스트의 단어 수 +1인 연속된 단어로 이루어진 부분 텍스트이다.  그런데, 그 범위 내에서 검토를 실행한 결과, 즉 연이은 두 단어로 이루어진 부분 텍스트까지를 검토한 결과, "sayuse"가 "Celsius"와 발음이 유사한 것으로 판단되어 수정 후보는 "sayuse"로 선택된다.  다른 수정 후보는 없다.  그러면, 장치는 여기서 연관성 판단을 종료하고, "say use"를 "Celsius"로 치환하여 입력하면서 수정 과정은 종료된다. In this way, the association is checked up to a predetermined range. For example, if the relevance determination target range is set to the number of words in the corrected target text + -1, since the modified target text "Celsius" consists of only one word, the range can not be extended to - The partial text of the same number of words as the target text, and the partial text of consecutive words of the number of words of the correction target text + 1. However, as a result of the examination within the range, that is, the partial text consisting of two consecutive words, it is judged that the "sayuse" is similar to the pronunciation of "Celsius", and the correction candidate is selected as the "sayuse". There are no other candidates for correction. Then, the device terminates the association determination here, and the modification process is ended by inputting "say use" as "Celsius".

만일, 연관성 판단 대상 범위를 수정 목표 텍스트의 단어 수 +-2로 설정한 경우라면, 2차 연관성 검토 단계에서 수정 후보가 검색되었더라도 중단하지 않고 3차 연관성 검토까지 이루어져야 한다.  이 때 수정 목표 텍스트인 "Celsius"와 대비되는 것은 연이은 세 개의 단어로 이루어진 수정 대상 텍스트의 부분 텍스트이고, 위 예제의 경우 다음의 5개이다.If the relevance judgment target range is set to the number of words in the target text + -2, the third relevance examination should be performed without stopping even if a correction candidate is searched in the second degree of relevance examination step. Here, contrasted with "Celsius", the revision goal text, is the partial text of the revised text consisting of three consecutive words.

Seoul is 10Seoul is 10

is 10 degreeis 10 degree

10 degree in10 degree in

degree in saydegree in say

in say usein say use

이 단어들 사이의 스페이스는 무시하고, 연속된 세 단어를 하나의 단위로 삼아 수정 목표 텍스트인 Celsius와의 대비가 실행된다.  그 결과 발음 유사로 판단된 것이 없으므로 여기서 대비 과정은 종료된다.  여기까지의 대비에서 수정 후보로 선택된 것은 2차 연관성 판단에서 검색된 "sayuse"가 유일하다.  따라서 "sayuse"를 "Celsius"로 치환입력하며 수정 과정은 종료된다.The space between these words is ignored, and the contiguous three words are used as a unit to perform the comparison with the modified target text Celsius. As a result, there is nothing that is judged as pronunciation similarity, so that the comparison process ends. In the contrast up to this point, only the "sayuse" is searched in the secondary relevance judgment. Therefore, "sayuse" is replaced with "Celsius", and the modification process is ended.

한편, 위에 기술한 바와 같은 연관성 판단 대상 설정 방식 외에 다른 방식도 가능하다. 예컨대, a, b, c, d, e의 다섯 개의 단어가 입력되어 있는 상태에서 수정 목표 단어가 입력되고 수정 명령이 내려지면, In addition, other methods other than the association determination target setting method as described above are also possible. For example, if a correction target word is input while five words a, b, c, d, and e are input and a correction command is issued,

e, e,

d, ded, de

c, de ,cdec, de, cde

b, bc, bcdb, bc, bcd

a, ab, abca, ab, abc

의 순서로 연관성 판단이 수행되는 식으로 구현될 수도 있다.The association determination may be performed in the order of " 0 "

본 예제의 경우와 달리, 만일 수정 후보가 복수인 경우 다음 방식으로 처리가 가능하다.Unlike the case of this example, if there are multiple candidates for modification, it can be processed in the following way.

먼저, 수정 후보가 복수인 경우의 처리에 관한 제1 실시예이다.  이 실시예에서는 복수의 수정 후보 중 늦게 입력된 텍스트, 즉 수정 목표 텍스트와 가까운 거리에 위치한 텍스트를 먼저 치환한다.  치환 결과는 디스플레이 상에 표시되므로 사용자는 치환된 결과가 본인이 의도한 수정 결과인지를 판단할 수 있다.  만일 1차 치환된 대상이 사용자가 원하는 치환대상이 아니라면 사용자가 수정 명령을 재차 입력하거나 수정 후보를 차회의 것으로 바꾸어 수정을 실행하라는 별도의 명령을 입력한다.  그러면 장치는 수정 후보를 다음의 것으로, 즉 그것보다 먼저 입력된 텍스트를 치환한 결과를 사용자에게 디스플레이한다.  차회의 수정 명령 또는 수정 후보 이동 명령이 없으면 장치는 수정을 완료한다.  수정 후보 이동 시 1차 수정 명령에 의해 치환된 텍스트는 원래대로 복귀되어야 한다.First, the first embodiment relates to a process when there are a plurality of correction candidates. In this embodiment, among the plurality of correction candidates, a text input late, that is, a text located at a close distance from the correction target text, is first replaced. The replacement result is displayed on the display so the user can determine whether the replacement result is the result of the intended modification. If the primary replacement object is not the replacement object desired by the user, the user inputs a correction command again or inputs a separate command to change the correction candidate to the secondary correction and execute the correction. The device then displays the result of the replacement of the input text to the user, with the correction candidate being the next one. If there is no corrective command or corrective candidate move command, the device completes the modification. When moving the correction candidate, the text replaced by the first correction instruction should be restored to its original state.

다음으로, 수정 후보가 복수인 경우의 처리에 관한 제2 실시예이다.  수정 후보가 복수로 검색되더라도, 연관성 계산 점수 상 연관성이 높은 순서가 존재한다.  본 실시예에서는 제1 실시예와 달리 수정 후보로 선택된 텍스트의 입력 순서에 상관없이 연관성이 높은 순서대로 치환을 실행한다.  그런데, 연관성 계산 점수가 가장 높은 수정 후보 텍스트일지라도 실제 사용자가 치환, 즉 수정을 원하는 텍스트가 아닐 수도 있다.  이 경우 제1 실시예에서와 같이 수정 명령을 재차 입력하거나 별도의 수정 후보 이동 명령을 입력하는 것에 의하여 연관성 계산 점수가 그 다음으로 높은 텍스트를 치환하고, 1차 수정 명령에 의해 치환된 텍스트는 원래대로 복귀하는 방식으로 다른 수정 후보 텍스트에 대한 수정을 실행할 수 있다.Next, the second embodiment relates to a process when there are a plurality of correction candidates. Even if a plurality of correction candidates are searched, there is a high correlation among the correlation calculation scores. In this embodiment, unlike the first embodiment, the replacement is performed in descending order of relevance irrespective of the input order of the text selected as the correction candidate. However, even if it is the correction candidate text having the highest relevance calculation score, the actual user may not replace the text desired to be modified. In this case, as in the first embodiment, by inputting the correction command again or inputting a separate correction candidate moving command, the relevance calculation score replaces the next highest text, and the text replaced by the first correction command is the original You can make corrections to other revision candidate texts in a way that reverts to.

다음으로, 발음 유사에 기반한 연관성 판단 방법에 대하여 설명하겠다.  본 발명의 완성일 기준으로 현재까지 알려진 발음 유사 판단 알고리즘에는 여러가지가 있다.  이 알고리즘들은 공통적으로 단어를 어떻게 변형해서 발음의 유사성이 있는 단어를 찾기 쉽게 만드느냐의 목표 아래 다양한 세부 방식들을 제안해 왔다.  이러한 알고리즘의 발전 역사를 개략적으로 기술하면, 제일 처음에 SoundEx라는 알고리즘이 개발된 이후에, NYSIIS, Metaphone이라는 이름의 알고리즘이 개발되었다.  현재는 Metaphone이라는 알고리즘이 공개 라이브러리화 되어 있을 뿐만 아니라 사용하기 쉽게 설계되어 있어서 본 발명자는 본 발명의 방식이 구현된 음성 인식 수정 소프트웨어의 프로토타입을  Metaphone 알고리즘 기반으로 구현한 바 있다.  이와 같이, 본 발명은 발음 유사에 기반한 연관성 판단 알고리즘 자체를 개발한 것이 아니다.  본 발명 특유의 방식에 의한 수정을 구현하는 데 있어서 위에 언급한 발음 유사에 기반한 연관성 판단 알고리즘만이 사용되는 것은 아니며, 발음 유사에 기반한 연관성 판단을 수행할 수 있는 한, 그 어떠한 알고리즘도 사용 가능하다는 점이 반드시 이해되어야 한다.Next, we will explain how to determine relevance based on phonetic similarity. There are various kinds of pronunciation similarity judgment algorithms known to date based on the completion date of the present invention. These algorithms have proposed a variety of detailed methods under the goal of making words that have similarity in pronunciation easier by finding ways to modify words in common. A brief history of the evolution of these algorithms was first developed after the algorithm called SoundEx was developed, called NYSIIS, Metaphone. At present, the algorithm called Metaphone is not only an open library but also an easy-to-use design. Therefore, the present inventor has implemented a prototype of a speech recognition correction software implementing the method of the present invention based on a Metaphone algorithm. Thus, the present invention does not develop a relevance judgment algorithm itself based on pronunciation similarity. The relevance judgment algorithm based on the phonetic similarity mentioned above is not used in implementing the modification by the method unique to the present invention and it is possible to use any algorithm as long as it can perform the affinity judgment based on pronunciation similarity Points must be understood.

다음으로, 수정 대상 텍스트가 음성 인식으로 입력되었고, 그 중 부분 텍스트를 수정하기 위하여 입력되는 수정 목표 텍스트도 음성 인식 방식으로 입력되는 경우에 대하여 설명하기로 한다.  즉, 사용자가 "Seoul is 10 degree in Celsius."의 입력을 의도한 상태에서 음성 인식 텍스트 입력이 "Seoul is 10 degree is say use."로 되었는데, 이의 수정을 위하여 수정 목표 텍스트인 "Celsius"를 음성으로 구술하여 장치가 인식하도록 하는 경우에 대하여 설명한다.Next, a description will be made of a case in which the text to be corrected is input to speech recognition, and the correction target text to be input for modifying the partial text is also input by the speech recognition method. In other words, when the user intended to input "Seoul is 10 degree in Celsius.", The speech recognition text input was "Seoul is 10 degree is say use." A description will be given of a case where the device is dictated by voice to be recognized by the device.

이 경우, 연관성 판단 방식 및 검색 범위를 설정하는 방식은 수정 목표 텍스트인 "Celsius"를 키보드로 입력할 때와 동일하다.  다만, 본 실시예에서는 수정 목표 텍스트가 음성으로 입력된다는 특수성이 있다.  이 때 고려 대상이 되어야 할 것은 수정 목표 텍스트의 입력 시에도 잘못된 인식이 발생할 가능성이 앞선 실시예보다 높다는 것이다.  수정 목표 텍스트가 키보드로 입력되는 경우, 사용자가 수정 명령을 내리기 전에 키보드 입력의 수정을 행할 수 있으므로 수정 목표 텍스트의 입력은 비교적 쉽고 정확하게 이루어질 수 있다.  그런데, 수정 목표 텍스트의 음성 입력은 키보드 입력의 경우에 비하여 입력의 정확성이 떨어질 수 있다.In this case, the method of determining the relevance determination method and the search range is the same as that of inputting the correction target text "Celsius" on the keyboard. However, in this embodiment, there is a special characteristic that the corrected target text is inputted by voice. In this case, it is considered that the possibility of erroneous recognition even when inputting the corrected target text is higher than in the preceding embodiments. If the corrected target text is input on the keyboard, inputting the corrected target text can be performed relatively easily and accurately since the user can correct the keyboard input before issuing the correction command. However, the speech input of the corrected target text may be less accurate than the keyboard input.

이 문제를 해결하기 위하여 본 실시예에서는 수정 명령을 내리는 방식과 수정 목표 텍스트의 입력을 행하는 방식에 있어서 앞선 실시예와 다른 방식을 취한다.In order to solve this problem, the present embodiment adopts a method different from the previous embodiment in a method of issuing a correction command and a method of inputting a correction target text.

그것은 수정 명령을 입력하기에 앞서 수정 목표 텍스트의 정확한 입력이 확인될 때까지 사용자가 음성 인식에 의한 수정 목표 텍스트의 입력을 반복하여 행할 수 있도록 하는 것이다.This allows the user to repeatedly input the corrected target text by speech recognition until the correct input of the corrected target text is confirmed before inputting the corrected command.

그 구체적인 방식에 있어서 본 발명자는 두 가지 형태의 실시를 행한 바 있다.  첫째는 별도의 수정 목표 텍스트 입력 대기 명령이 없는 것이고, 둘째는 수정 명령과 별도로 그 이전에 입력되는 수정 목표 텍스트 입력 대기 명령을 실행하는 경우이다.In the concrete method, the present inventor has carried out two types of implementations. The first is that there is no separate target text input waiting command, and the second is the case of executing the modified target text input standby command that is input before that other than the modification command.

첫번째 실시예에서는 "Seoul is 10 degree in say use."의 입력 이후 사용자가 수정 의도를 가지고 연이어 "Celsius"를 발음하여 입력한다.  그런데, 수정 목표 텍스트인 "Celsius"가 한번에 올바르게 인식되지 않고, 또 다시 say use로 인식되어 입력이 "Seoul is 10 degree in say use. say use"가 되었다.  이 입력 형태에서 뒤에 입력한 "say use"와 수정 대상 텍스트는 디스플레이 상에 연이어 입력되어 있으므로 그들 사이에 표시 상 구별은 없으나, 장치는 1회 구술의 단위에 의하여 입력된 텍스트의 범위를 기억하고 있다.  따라서 수정 목표 텍스트로서 잘못 입력된 "say use"만을 삭제 버튼을 누르는 방식 등으로 삭제가 가능하다.  본 실시예에서는 수정 목표 텍스트로서 잘못 입력된 "say use"를 삭제하고 사용자로 하여금 다시 "Celsius"를 발음하여 입력하도록 한다.  위와 같은 과정을 반복하다가 마침내 "Celsius"가 정확하게 인식되어 입력된 상태에서 사용자는 수정 명령을 내리게 된다.  그러면, 수정 목표 텍스트를 키보드로 입력하는 실시예에서와 동일한 방식으로 연관성 판단 및 이에 따른 수정 후보 텍스트의 선정 및 수정 목표 텍스트와의 치환이 실행될 수 있다.In the first embodiment, after the input of "Seoul is 10 degrees in say use. &Quot;, the user inputs the pronunciation of" Celsius " However, the revised target text, "Celsius", was not correctly recognized at once, and was again recognized as say use, and the input was "Seoul is 10 degrees in say use. Since the "say use" and the text to be modified, which are inputted later in this input form, are inputted consecutively on the display, there is no distinction between them in the display, but the device remembers the range of the text inputted by the unit of the once-dictation . Therefore, it is possible to delete only the "say use" which is entered incorrectly as the corrected target text by pressing the delete button. In this embodiment, "say use" which is erroneously input as the correction target text is deleted, and the user again inputs "Celsius" After repeating the above process, finally "Celsius" is recognized correctly and entered, the user will issue a correction command. Then, in the same manner as in the embodiment of inputting the correction target text on the keyboard, the determination of association and accordingly the selection of the correction candidate text and the replacement with the correction target text can be performed.

두번째 실시예에서는 "Seoul is 10 degree in say use."의 입력 이후 사용자가 오류를 인지하고, 수정 목표 텍스트를 구술하여 입력하겠다는 신호를 장치에 입력한 이후 수정 목표 텍스트의 구술이 이루어진다.In the second embodiment, after inputting "Seoul is 10 degrees in say use.", The user recognizes the error, and after inputting a signal to the device to dictate the corrected target text, the corrected target text is dictated.

즉, 수정 목표 텍스트 입력 대기 명령이 사용자에 의해 내려진다.  명령이 내려지면 장치는 차후의 음성 인식에 의한 텍스트 입력이 일반 텍스트 입력이 아니라 수정을 위한 텍스트 입력임을 인식하고 대기 상태에 들어간다.  이 상태에서 사용자는 음성으로 텍스트를 구술하고, 구술한 텍스트는 디스플레이에 표시된다.  사용자는 디스플레이에 표시된 수정 목표 텍스트를 보고 수정 목표 텍스트가 정확히 입력됨을 확인하면 수정 명령을 내린다.  그러면, 수정 목표 텍스트와 음성 인식에 의하여 그 이전에 입력된 텍스트, 즉 수정 대상 텍스트 중 부분 텍스트와의 연관성 판단이 이루어지고, 연관성 계산 점수가 소정 조건을 만족하는 부분 텍스트가 수정 후보로 선택되어, 수정 후보가 곧바로, 또는 수정 후보 중 하나의 선택에 따라(수정 후보가 복수인 경우), 수정 대상 텍스트로 치환되어 수정 목표 텍스트 입력 대기 상태가 종료된다.That is, the user inputs a correction target text input wait command. When the command is issued, the device recognizes that the text input by the subsequent speech recognition is not the plain text input but the text input for the correction, and enters the standby state. In this state, the user dictates the text by voice, and the dictated text is displayed on the display. The user sees the corrected target text displayed on the display and issues a correction command when confirming that the corrected target text is correctly input. Then, the association between the correction target text and the previously entered text, that is, the partial text of the correction target text is determined by voice recognition, and the partial text whose association calculation score satisfies the predetermined condition is selected as the correction candidate, The correction candidate is immediately replaced with the correction target text according to the selection of one of the correction candidates (when there are plural correction candidates), and the correction target text input waiting state is terminated.

만일, 수정 목표 텍스트가 정확히 입력되어 있지 않으면 사용자는 다시 텍스트를 구술한다.  그러면 이전에 입력된 수정 목표 텍스트는 지워지고 다시 구술한 텍스트가 디스플레이에 표시된다.  이러한 반복 입력 과정을 거쳐 사용자가 수정 목표 텍스트가 정확히 입력된 것으로 확인한 후 수정 명령을 내리면 연관성 판단 과정을 거쳐 치환이 이루어지고 수정 목표 텍스트 입력 대기 상태가 종료된다. If the correct target text is not entered correctly, the user again dictates the text. The previously entered revision target text is erased and the rewritten text is displayed on the display. When the user confirms that the correction target text is inputted correctly through the iterative inputting process and then issues a correction command, the replacement determination process is performed and the waiting target of inputting the correction target text is terminated.

이러한 수정 목표 텍스트 입력 대기 명령을 별도로 마련함으로써 몇 가지 장점이 달성될 수 있다.  첫째, 수정 목표 텍스트 입력 시의 변화된 사용자 구술 방식에 맞추어 보다 적합한 인식 알고리즘을 사용할 수 있다.  본 발명에 따라 수정 목표 텍스트를 입력할 때는 대개 한 단어 또는 두 단어의 짧은 텍스트를 발음하게 되고, 대개의 경우 이 때의 발음은 긴 문장 전체를 구술하는 경우와 다소 다른 방식으로 사용자에 의해 구술된다.  예컨대, "Seoul is 10 degree in Celsius."의 문장 속의 한 단어인 "Celsius"를 발음할 때와 "Celsius"만을 따로 발음할 때와 사용자의 구술 방식은 발음의 정확성, 구술의 속도 등에서 차이가 날 수 있다.  극단적으로, 수정 목표 텍스트 입력 대기 명령을 하게 되면, 앞선 문장의 구술 방식과 완전히 다른 방식, 예컨대 사용자가 알파벳 하나하나를 별개로 구술하는 방식으로 한 단어를 명확히 인식시키는 방식도 사용 가능하다.  수정 목표 텍스트 입력 대기 명령 이후의 구술에 대해서는 이러한 변화된 방식에 맞는 최적의 알고리즘을 적용함으로써 인식의 정확도를 높일 수 있다.  둘째, 장치가 차회의 입력이 수정 목표 텍스트의 입력이라는 점을 인식하고 있음으로 해서, 수정 목표 단어를 인식하고 표시하는 정확성을 높이려는 별개의 수단을 추가할 수 있는 여지가 생긴다.  예컨대, 수정 목표 단어 입력 대기 명령 이후에 입력된 텍스트는 이전에 입력된 텍스트를 이루는 부분 텍스트들과 어떤 식으로든 연관이 있는 텍스트일 것이다.  그러므로, 장치가 "Celsius"라는 수정 목표 단어의 사용자의 구술을 받아 이를 수정 목표 단어로 인식하고 디스플레이 상에 표시하는 과정에서 처리되는 여러 가지 가능성 있는 후보군들 간의 장치 내부 알고리즘에 의한 선택 과정에 있어서 이전에 입력된 텍스트를 참조하여 이와 연관성 있는 것에 대하여 가중치를 두는 방식 등으로 수정 목표 단어의 인식 정확성을 높일 수 있을 것이다.Several advantages can be achieved by separately providing such a correction target text input wait command. First, a more appropriate recognition algorithm can be used according to the changed user dictation method at the time of inputting the correction target text. According to the present invention, when a correction target text is inputted, usually a short text of one word or two words is pronounced, and in most cases, the pronunciation is dictated by the user in a manner slightly different from the case of dictating the entire long sentence . For example, when pronouncing the word "Celsius" in the sentence of "Seoul is 10 degree in Celsius." And when pronouncing only "Celsius" separately, the user's oral method differs in pronunciation accuracy, . Extremely, when a modified target text input wait command is given, it is also possible to use a method completely different from the dictation of the preceding sentence, for example, a method of clearly recognizing a word in such a way that the user separately dictates each alphabet. For the dictation after the modifying target text input wait command, the accuracy of recognition can be improved by applying an optimal algorithm suited to this changed method. Second, because the device recognizes that the next input is an input of the modified target text, there is room for adding a separate means to increase the accuracy of recognizing and displaying the modified target word. For example, the text entered after the modified target word input wait command will be somehow associated with the partial texts that comprise the previously entered text. Therefore, when the device receives a dictation of the user of the correction target word "Celsius ", recognizes it as a correction target word, and displays it on the display, A method of referring to the text input to the target word and weighting the relevance of the text to improve the recognition accuracy of the corrected target word.

다음으로, 수정 대상 텍스트가 키보드 입력에 의해 이루어지고, 이의 수정을 위한 수정 목표 텍스트의 입력이 음성 인식에 의하여 이루어지는 경우에 대하여 기술한다. Next, description will be given of a case where the text to be corrected is made by keyboard input, and the input of the corrected target text for correcting the text is performed by speech recognition.

수정을 위한 텍스트 입력이 음성인식에 의한 텍스트 입력으로 이루어진다는 점에서는 앞선 실시예와 동일하다.  그러므로, 음성 인식 수정을 위한 수정 목표 텍스트 입력 대기 명령을 별도로 하거나 하지 않고, 수정 명령을 내리는 앞선 실시예와 동일한 방식이 그대로 적용 가능하다. And the text input for correction is made by text input by speech recognition. Therefore, the same method as in the previous embodiment in which a correction command is issued without applying the correction target text input wait command for correcting the speech recognition is applicable as it is.

본 실시예가 앞선 실시예들과 다른 점은 연관성 판단 방법이다.  앞선 실시예들에서는 수정 대상인 텍스트 입력이 음성 인식으로 이루어졌기 때문에 연관성 판단 시 발음 유사에 기반한 계산이 이루어졌다.  그런데, 본 실시예에서는 수정 대상인 텍스트 입력이 키보드로 이루어졌으므로 자판 배치를 고려한 연관성 판단 방식에 의하여 연관성 점수 계산이 이루어져야 한다.  이러한 연관성 계산은 본 발명자가 한국 특허 출원 제10-2013-0137964로 출원하여 특허결정 받은 알고리즘을 통해 이루어질 수 있다. The present embodiment is different from the above-described embodiments in the method of determining the relevance. In the above embodiments, since the text input to be corrected is composed of speech recognition, calculation based on phonetic similarity is performed in the determination of association. In this embodiment, since the text input to be corrected is composed of a keyboard, the relevance score should be calculated by a relevance judgment method considering keyboard layout. Such association calculation can be made through the algorithm that the present inventor filed in Korean Patent Application No. 10-2013-0137964 and the patent is determined.

즉, 수정 후보 텍스트를 수정 목표 텍스트로 변환함에 있어서 어떠한 수정 동작들이 이루어져야 하는 지를 판단하고, 각 수정 동작에 특정 점수를 부여하고, 필요한 수정 동작에 해당하는 점수들을 합산한 후 기준 점수와 대비함으로써 자판 배치를 고려한 연관성 점수 계산 및 이에 따른 연관성 판단이 이루어질 수 있다.  연관성 파단의 범위는 어떻게 설정하는지, 수정 후보가 복수인 경우에 어떻게 처리하는지 등은 앞선 실시예들과 동일하게 구현이 가능하다.That is, it is determined whether the correction operations should be performed in converting the correction candidate text into the correction target text, adding specific points to each correction operation, adding the points corresponding to the necessary correction operations, It is possible to calculate the relevance score in consideration of the placement and to determine the association therebetween. How to set the range of association failure, and how to handle a plurality of correction candidates can be implemented in the same manner as in the previous embodiments.

이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항과 한정된 실시예에 의하여 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위하여 제공된 것일 뿐, 본 발명이 상기 실시예에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변경을 꾀할 수 있다. 특히, 본 실시예에 기재된 연관성 판단 방법, 즉 발음 유사에 기반한 연관성 판단 방법이나 키보드 배치를 고려한 연관성 판단 방법만이 사용되는 것으로 이해되어서는 안된다. 본 발명은 연관성 판단의 정확성을 높이기 위하여 다른 연관성 판단 방법, 예컨대 음파에 기반한 연관성 판단 방법이 함께 사용되는 것을 결코 배제하고 있지 않다.While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it is to be understood that the invention is not limited to the disclosed embodiments, but, on the contrary, Those skilled in the art will appreciate that various modifications and changes may be made thereto without departing from the scope of the present invention. In particular, it should not be understood that the association determination method described in this embodiment, that is, the association determination method based on pronunciation similarity or the association determination method considering keyboard layout is used. The present invention does not preclude the use of other associativity determination methods, such as sound-based association determination methods, together to increase the accuracy of the association determination.

본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다. It is to be understood that the scope of the present invention is not limited to the above-described embodiments, and all ranges equivalent to or equivalent to the claims of the present invention are included in the scope of the present invention I will say.

Claims (5)

음성인식에 의해 입력된 텍스트 중 오인식된 텍스트를 음성인식에 의해 입력된 수정 목표 텍스트로 치환수정하는, 음성 인식 텍스트 수정 방법에 있어서,
수정 목표 텍스트 입력 대기 명령이 내려지는 단계와,
상기 수정 목표 텍스트 입력 대기 명령 이후에 사용자의 발화에 의한 텍스트 입력이 이루어지는 단계와,
상기 사용자의 발화에 의한 텍스트 입력이 표시되는 단계와,
수정 명령이 내려지는 단계와,
상기 수정 명령이 내려지기 직전 사용자의 발화에 의해 입력된 텍스트가 수정 목표 텍스트로 인식되는 단계와,
상기 수정 명령에 따라 인식된 수정 목표 텍스트와 그 이전에 입력된 오인식된 텍스트를 포함하는 텍스트 사이의 연관성을 계산하는 단계와,
상기 연관성 계산 단계에서의 연관성 계산 결과 상기 수정 목표 텍스트와의 연관성 점수가 소정 조건을 만족하는 텍스트가 수정 후보 텍스트로 선정되고, 수정 후보 텍스트가 수정 목표 텍스트로 치환 입력되는 단계를 포함하고,
상기 수정 후보 텍스트의 선정은 사용자에 의한 선택 없이 오로지 수정 목표 텍스트와의 연관성 계산에 의해 이루어지고,
상기 수정 목표 텍스트 입력 대기 명령이 내려진 이후 상기 수정 명령이 내려지기 전에 수정 목표 텍스트가 의도된 대로 입력되지 않은 경우, 수정 목표 텍스트가 반복 구술되고 이전에 입력된 수정 목표 텍스트는 삭제되며 반복 구술된 텍스트가 디스플레이에 표시되는 것을 특징으로 하는 음성 인식 텍스트 수정 방법.
A method for correcting a speech recognition text in which an erroneously recognized text among texts input by speech recognition is replaced with a corrected target text input by speech recognition,
A modification target text input wait command is issued;
Inputting a text by a user's utterance after the correction target text input wait command;
Displaying a text input by the user's utterance;
A step of issuing a correction instruction;
The text input by the user's speech immediately before the modification instruction is recognized as the modification target text;
Calculating a correlation between the corrected target text recognized in accordance with the modification command and the text including the previously-input misunderstood text;
A step in which a text whose relevance score with the correction target text is a predetermined condition is selected as the correction candidate text and the correction candidate text is substituted with the correction target text,
Wherein the selection of the correction candidate text is made only by calculation of the association with the correction target text without selection by the user,
If the corrected target text is not entered as intended before the modified command is issued after the modified target text input wait command is issued, the corrected target text is repeatedly orally dubbed, the previously entered corrected target text is deleted, Is displayed on the display.
삭제delete 제1항에 있어서, 연관성 계산 단계에서 수정 후보 텍스트가 복수로 인지되는 경우, 사용자에 의한 수정 후보 텍스트 이동 명령에 의하여 복수의 수정 후보 텍스트 중 수정 목표 텍스트로 치환될 대상이 선택되고,
선택된 수정 후보 텍스트가 수정 목표 텍스트로 치환 입력되는 음성 인식 텍스트 수정 방법.
2. The method according to claim 1, wherein when a plurality of correction candidate texts are recognized in the association calculation step, an object to be replaced as the correction target text among a plurality of correction candidate texts is selected by the correction candidate text movement instruction by the user,
A method for correcting a speech recognition text in which a selected correction candidate text is substituted with a correction target text.
삭제delete 삭제delete
KR1020140048315A 2014-04-22 2014-04-22 Voice recognition text correction method and a device implementing the method KR101651909B1 (en)

Priority Applications (6)

Application Number Priority Date Filing Date Title
KR1020140048315A KR101651909B1 (en) 2014-04-22 2014-04-22 Voice recognition text correction method and a device implementing the method
PCT/KR2015/004010 WO2015163684A1 (en) 2014-04-22 2015-04-22 Method and device for improving set of at least one semantic unit, and computer-readable recording medium
JP2016515299A JP2016521383A (en) 2014-04-22 2015-04-22 Method, apparatus and computer readable recording medium for improving a set of at least one semantic unit
US14/779,037 US10395645B2 (en) 2014-04-22 2015-04-22 Method, apparatus, and computer-readable recording medium for improving at least one semantic unit set
CN201911020246.4A CN110675866B (en) 2014-04-22 2015-04-22 Method, apparatus and computer readable recording medium for improving at least one semantic unit set
CN201580000567.1A CN105210147B (en) 2014-04-22 2015-04-22 Method, apparatus and computer-readable recording medium for improving at least one semantic unit set

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140048315A KR101651909B1 (en) 2014-04-22 2014-04-22 Voice recognition text correction method and a device implementing the method

Publications (2)

Publication Number Publication Date
KR20150122000A KR20150122000A (en) 2015-10-30
KR101651909B1 true KR101651909B1 (en) 2016-08-29

Family

ID=54430959

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140048315A KR101651909B1 (en) 2014-04-22 2014-04-22 Voice recognition text correction method and a device implementing the method

Country Status (1)

Country Link
KR (1) KR101651909B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230076409A (en) 2021-11-24 2023-05-31 주식회사 딥파인 Smart Glass and Voice Recognition System having the same

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013238880A (en) * 2013-07-09 2013-11-28 Kyocera Corp Portable terminal, editing guiding program, and editing guiding method
KR101381101B1 (en) * 2013-11-13 2014-04-02 주식회사 큐키 Error revising method through correlation decision between character strings

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130008663A (en) * 2011-06-28 2013-01-23 엘지전자 주식회사 Method and device for user interface
KR20130135410A (en) * 2012-05-31 2013-12-11 삼성전자주식회사 Method for providing voice recognition function and an electronic device thereof

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013238880A (en) * 2013-07-09 2013-11-28 Kyocera Corp Portable terminal, editing guiding program, and editing guiding method
KR101381101B1 (en) * 2013-11-13 2014-04-02 주식회사 큐키 Error revising method through correlation decision between character strings

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230076409A (en) 2021-11-24 2023-05-31 주식회사 딥파인 Smart Glass and Voice Recognition System having the same

Also Published As

Publication number Publication date
KR20150122000A (en) 2015-10-30

Similar Documents

Publication Publication Date Title
JP4829901B2 (en) Method and apparatus for confirming manually entered indeterminate text input using speech input
CN106598939B (en) A kind of text error correction method and device, server, storage medium
US8994660B2 (en) Text correction processing
JP2019526142A (en) Search term error correction method and apparatus
JP6245846B2 (en) System, method and program for improving reading accuracy in speech recognition
US20150073801A1 (en) Apparatus and method for selecting a control object by voice recognition
WO2016107317A1 (en) Method and device for input method cursor operation
Vertanen et al. Parakeet: A continuous speech recognition system for mobile touch-screen devices
US9286288B2 (en) Method of learning character segments during text input, and associated handheld electronic device
Ouyang et al. Mobile keyboard input decoding with finite-state transducers
KR20160000449A (en) Voice recognition text correction method and a device implementing the method
US9171234B2 (en) Method of learning a context of a segment of text, and associated handheld electronic device
KR101651909B1 (en) Voice recognition text correction method and a device implementing the method
US8296679B2 (en) Method of learning character segments from received text, and associated handheld electronic device
KR20200051170A (en) Electronic terminal device having a touch screen for performing a typing correction process on an input character and operating method thereof
JP2019159118A (en) Output program, information processing device, and output control method
JP2010002830A (en) Voice recognition device
CA2658586C (en) Learning character segments from received text
KR101645420B1 (en) Touch screen device for inputting traditional korean based on touch and method for inputting traditional korean based on touch of the touch screen device
JP4797307B2 (en) Speech recognition apparatus and speech recognition method
CA2653823C (en) Method of learning a context of a segment of text, and associated handheld electronic device
CN105630361A (en) Input method of separating input box
TW201523296A (en) Character type text input method and electronic computation device using the method
KR20200034163A (en) Electronic terminal device for performing a correction process for a homophonic vowel based on speech recognition and operating method thereof
KR20180107052A (en) Type error correction method

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190701

Year of fee payment: 4