KR101819457B1 - Voice recognition apparatus and system - Google Patents

Voice recognition apparatus and system Download PDF

Info

Publication number
KR101819457B1
KR101819457B1 KR1020160114255A KR20160114255A KR101819457B1 KR 101819457 B1 KR101819457 B1 KR 101819457B1 KR 1020160114255 A KR1020160114255 A KR 1020160114255A KR 20160114255 A KR20160114255 A KR 20160114255A KR 101819457 B1 KR101819457 B1 KR 101819457B1
Authority
KR
South Korea
Prior art keywords
display window
word
voice
words
displayed
Prior art date
Application number
KR1020160114255A
Other languages
Korean (ko)
Inventor
안문학
Original Assignee
주식회사 소리자바
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 소리자바 filed Critical 주식회사 소리자바
Application granted granted Critical
Publication of KR101819457B1 publication Critical patent/KR101819457B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • G06F17/28
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling

Abstract

The present invention relates to a voice recognition apparatus and system for recognizing a voice and converting the same into text, and displaying a real-time input state for correction. A voice recognition apparatus according to the present invention includes: an input part for receiving a voice, a display part including a first display window for displaying a word generated by converting a text inputted from the input part, and a second display window for displaying a sentence generated by combining words displayed on the first display window; and a control part for converting a voice inputted from the input part into a text based on a word unit, displaying the same in real time on the first display window, combining words displayed on the first display window to form a sentence in real time on the second display window.

Description

음성 인식 장치 및 시스템{Voice recognition apparatus and system}[0001] Voice recognition apparatus and system [0002]

본 발명은 음성 인식 장치에 관한 것으로, 더욱 상세하게는 음성을 인식하여 텍스트로 변환하되, 수정을 위하여 실시간 입력 상태를 표시하기 위한 음성 인식 장치 및 시스템에 관한 것이다.BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech recognition apparatus, and more particularly, to a speech recognition apparatus and system for recognizing a speech and converting it into text, and displaying a real-time input state for correction.

최근 스마트폰에서는 음성 인식 기술이 대중화되고 있으며, 스마트워치와 같은 웨어러블 장치에서는 음성 인식을 가장 주요한 문자 입력 수단으로 활용할 것으로 예상된다.In recent years, voice recognition technology has been popularized in smartphones, and it is expected that voice recognition will be used as a main character input means in a wearable device such as a smart watch.

음성 인식 기술은 음성 인식으로 입력을 행하면, 이를 단어 별로 인식하고, 인식된 단어를 조합하여 문장으로 형성하여 텍스트 형태로 사용자에게 보여지게 된다.In the speech recognition technology, when input is performed by speech recognition, the speech recognition technology recognizes the words and combines the recognized words into sentences, which are displayed in a text form to the user.

그러나 음성 인식 기술은 오래전부터 개발되어 온 기술임에도 불구하고, 정확한 음성 인식을 통하여 텍스트로 치환되어 입력되는데 있어서 아직도 오류가 다수 발생하고 있다.However, although the speech recognition technology has been developed for a long time, many errors still occur when the text is substituted with the correct speech recognition.

이에 따라 인식된 텍스트가 의도와 다르거나 오류가 있는 경우에 이를 수정해야 한다.Accordingly, if the recognized text is different from the intended or error, it should be corrected.

일반적으로 이러한 텍스트를 수정하기 위해서는 키보드를 이용하여 백스페이스 키를 통하여 글자 단위로 텍스트의 일부를 삭제하여 수정하거나, 구술된 단위로 한번에 입력된 텍스트 전체를 삭제하고, 구술을 다시 행하여 재입력하는 방법으로 이전의 오류를 수정하게 된다.Generally, in order to modify these texts, it is necessary to use a keyboard to delete a part of the text by a backspace key to modify the text, to delete the whole text entered at once in the written unit, To correct the previous error.

이러한 텍스트 수정 방법은 키보드를 통해 백스페이스 키를 복수로 눌러 입력하여 텍스트를 글자단위로 지우고 다시 입력하는 등 번거로운 동작이 수반될 수 밖에 없다.Such a method for correcting text involves a cumbersome operation such as inputting a plurality of backspace keys through the keyboard, erasing the text in units of characters, and re-entering the text.

또한 구술된 단위로 다시 입력하는 것은 잘못 인식된 텍스트 뿐만 아니라 인식에 문제가 없는 부분까지 다시 행하여 재입력할 뿐만 아니라, 동일한 오류가 다시 발생되는 문제점이 생길 수 있다.In addition, inputting again in the dictated unit may cause not only the erroneously recognized text but also a part where there is no problem in recognition again and re-input, and the same error may be generated again.

한편 종래의 음성 인식 장치는 최종적으로 단어 조합에 의해 형성된 문장을 텍스트 형태로 보여주기 때문에, 수정을 위한 사용자의 입장에서는 어떠한 형태의 단어를 조합하여 문장이 형성되었는지 확인할 수 없는 문제점이 있었다.On the other hand, the conventional speech recognition apparatus finally displays a sentence formed by word combination in the form of a text, so that there is a problem in that a user for correction can not confirm what kind of words are combined to form a sentence.

한국등록특허 제10-1154011호(2012.05.31)Korean Registered Patent No. 10-1154011 (May 31, 2012)

따라서 본 발명의 목적은 음성이 입력되면 어떠한 단어 조합에 의해 어떠한 문장이 형성되었는지에 대한 과정을 직관적으로 확인할 수 있고, 음성 인식되어 생성된 텍스트의 수정을 용이하게 할 수 있는 음성 인식 장치 및 시스템을 제공하는 데 있다.It is therefore an object of the present invention to provide a speech recognition apparatus and a speech recognition system that can intuitively confirm a process of what kind of word is formed by a combination of words when a speech is inputted, .

본 발명에 따른 음성 인식 장치는 음성을 입력받는 입력부, 상기 입력부로부터 입력되는 음성을 텍스트로 변환한 단어를 표시하는 제1 표시창 및 상기 제1 표시창에 표시되는 상기 단어를 조합한 문장을 표시하는 제2 표시창을 포함하는 표시부, 상기 입력부로부터 입력되는 음성을 단어 단위로 텍스트로 변환하여 상기 제1 표시창에 실시간 표시하도록 하고, 상기 제1 표시창에 표시된 단어를 조합하고 문장으로 형성하여 실시간 제2 표시창에 표시하는 제어부를 포함한다.A speech recognition apparatus according to the present invention includes an input unit for inputting a voice, a first display window for displaying a word converted from text input from the input unit into text, and a display unit for displaying a sentence combining the words displayed on the first display window A display unit including a first display window and a second display window; a voice inputted from the input unit is converted into text in units of words and displayed in real time on the first display window; and words formed on the first display window are combined to form a sentence, And a control unit for displaying the information.

본 발명에 따른 음성 인식 장치에 있어서, 상기 제어부는 상기 제1 표시창에 실시간 표시되는 단어의 말미에 표시되어 상기 단어의 입력 상태를 나타내는 제1 커서를 상기 제1 표시창에 표시하도록 하고, 상기 제2 표시창에 실시간 표시되는 조합된 문장의 말미에 표시되어 상기 문장의 입력 상태를 나타내는 제2 커서를 상기 제2 표시창에 표시하도록 하고, 수정을 위한 제3 커서를 상기 제1 표시창 또는 상기 제2 표시창에 표시하는 것을 특징으로 한다.In the speech recognition apparatus according to the present invention, the controller may display a first cursor on the first display window, the first cursor being displayed at the end of a word displayed in real time on the first display window, A second cursor indicating the input state of the sentence is displayed on the second display window, and a third cursor for correction is displayed on the first display window or the second display window And displays the image.

본 발명에 따른 음성 인식 장치에 있어서, 상기 입력부는 음성을 입력받는 음성 입력부, 상기 음성 입력부로부터 입력된 음성을 통해 텍스트로 변환된 상기 단어 또는 상기 문장의 수정을 위하여 상기 제3 커서를 이동시키는 키 입력부를 포함하는 것을 특징으로 한다.In the speech recognition apparatus according to the present invention, the input unit may include a voice input unit for inputting voice, a key for moving the third cursor for correcting the word or the sentence converted into text through the voice input from the voice input unit, And an input unit.

본 발명에 따른 음성 인식 장치에 있어서, 상기 제어부는 상기 제1 표시창 또는 상기 제2 표시창에 표시되는 단어 중 인식률이 기 설정된 값보다 낮은 단어에 대하여 식별되도록 표시하는 것을 특징으로 한다.In the speech recognition apparatus according to the present invention, the control section displays the words displayed on the first display window or the second display window such that the recognition rate is discriminated for words lower than a predetermined value.

본 발명에 따른 음성 인식 장치에 있어서, 상기 제어부는 상지 제1 표시창 또는 상기 제2 표시창에 표시되는 단어 중 인식률이 기 설정된 값보다 낮은 단어에 대하여 인식률 값을 상기 인식률이 낮은 단어 옆에 표시하는 것을 특징으로 한다.In the speech recognition apparatus according to the present invention, the control unit displays a recognition rate value for a word whose recognition rate is lower than a predetermined value among words displayed on the upper first display window or the second display window beside a word whose recognition rate is lower .

본 발명에 따른 음성 인식 장치에 있어서, 상기 인식률 값은 인식률에 따라 0 ~ 1까지 표현한 수치인 것을 특징으로 한다.In the speech recognition apparatus according to the present invention, the recognition rate value is a value represented by 0 to 1 according to a recognition rate.

본 발명에 따른 음성 인식 장치에 있어서, 상기 제어부는 상기 제1 표시창 또는 상기 제2 표시창에 표시되는 단어 중 인식률이 기 설정된 값보다 낮은 단어에 대하여 크기 또는 색상을 달리하여 표시하는 것을 특징으로 한다.In the speech recognition apparatus according to the present invention, the control unit may display a word having a recognition rate lower than a preset value among the words displayed on the first display window or the second display window in different sizes or colors.

본 발명에 따른 음성 인식 장치에 있어서, 상기 제어부는 상기 제1 표시창 또는 상기 제2 표시창에 표시되는 단어 중 인식이 불가한 단어에 대하여 글자수가 식별되도록 표시하는 것을 특징으로 한다.In the voice recognition apparatus according to the present invention, the control section may display the number of characters to be recognized with respect to words that can not be recognized among words displayed on the first display window or the second display window.

본 발명에 따른 음성 인식 장치에 있어서, 상기 제어부는 상기 제1 표시창 또는 상기 제2 표시창에 표시되는 단어 중 인식이 불가한 단어에 대하여 글자수 만큼 특수문자를 표시하는 것을 특징으로 한다.In the speech recognition apparatus according to the present invention, the control unit displays special characters as many as the number of characters for words that can not be recognized among the words displayed on the first display window or the second display window.

본 발명에 따른 음성 인식 장치에 있어서, 외국어 단어를 저장하는 저장부 를 더 포함하고, 상기 제어부는 상기 음성 입력부로부터 외국어 음성이 입력되는 경우, 상기 외국어 음성을 상기 저장부에 저장된 외국어 단어 중 매칭되는 외국어 단어로 변환하여 상기 제1 표시창 또는 상기 제2 표시창에 표시하는 것을 특징으로 한다.The speech recognition apparatus according to the present invention may further include a storage unit for storing a foreign language word, and when the foreign language speech is input from the speech input unit, the control unit may cause the foreign language speech to match the foreign language words stored in the storage unit And the second display window is converted into a foreign language word and displayed on the first display window or the second display window.

본 발명에 따른 음성 인식 장치에 있어서, 상기 제어부는 상기 음성 입력부로부터 외국어 음성이 입력되는 경우, 상기 외국어 음성을 소리나는 대로 표시하되, 상기 키 입력부에 의해 상기 제3 커서가 상기 소리나는 대로 표시된 단어로 이동하게 되면, 상기 저장부에 저장된 외국어 단어 중 매칭되는 적어도 하나의 외국어 단어를 선택할 수 있는 선택창을 상기 제1 표시창 또는 상기 제2 표시창에 제공하는 것을 특징으로 한다.In the speech recognition apparatus according to the present invention, when the foreign language speech is input from the speech input unit, the control unit displays the foreign language speech aloud, and the third cursor displays the word A selection window for selecting at least one foreign language word matched among the foreign language words stored in the storage unit is provided to the first display window or the second display window.

본 발명에 따른 음성 인식 시스템은 음성을 포함하는 콘텐츠를 제공하는 콘텐츠 제공 서버, 상기 콘텐츠 제공 서버로부터 콘텐츠를 수신하여, 상기 콘텐츠에 포함된 음성을 입력받는 입력부, 상기 입력부로부터 입력되는 음성을 텍스트로 변환한 단어를 표시하는 제1 표시창 및 상기 제1 표시창에 표시되는 상기 단어를 조합한 문장을 표시하는 제2 표시창을 포함하는 표시부, 상기 입력부로부터 입력되는 음성을 단어 단위로 텍스트로 변환하여 상기 제1 표시창에 실시간 표시하도록 하고, 상기 제1 표시창에 표시된 단어를 조합하고 문장으로 형성하여 실시간 제2 표시창에 표시하는 제어부를 포함하는 음성 인식 장치를 포함한다.A speech recognition system according to the present invention includes a content providing server for providing a content including a voice, an input unit for receiving a content from the content providing server and inputting a voice included in the content, A display unit including a first display window displaying a converted word and a second display window displaying a sentence combining the words displayed on the first display window; And a control unit for displaying in real time on the first display window, combining the words displayed on the first display window and forming a sentence on the real time second display window.

본 발명에 따른 음성 인식 장치는 입력부로부터 입력되는 음성을 단어 단위로 텍스트로 변화하여 제1 표시창에 실시간 표시하도록 하고, 제1 표시창에 표시된 단어를 조합하고 문장으로 형성하여 실시간 제2 표시창에 표시함으로써, 문장이 어떠한 단어 조합에 의해 형성되었는지에 대한 과정을 직관적으로 확인할 수 있도록 함으로써, 음성 인식되어 생성된 텍스트의 수정을 용이하게 할 수 있다.The speech recognition apparatus according to the present invention changes the speech inputted from the input unit into text in units of words and displays the same in real time on the first display window, combines the words displayed on the first display window and forms a sentence, , It is possible to intuitively confirm the process of what word combination the sentence is formed, thereby facilitating the correction of the text generated by speech recognition.

본 발명에 따른 음성 인식 장치는 음성 인식되어 표시되는 단어 중 인식률이 낮은 단어에 대하여 식별되도록 표시함으로써, 음성 인식되어 생성된 텍스트의 수정을 용이하게 할 수 있다.The speech recognition apparatus according to the present invention can display words recognized and displayed so as to identify words with low recognition rates among the words displayed and recognized, thereby facilitating correction of the text generated by speech recognition.

본 발명에 따른 음성 인식 장치는 음성 인식되어 표시되는 단어 중 인식이 불가한 단어에 대하여 글자수가 식별되도록 표시함으로써, 음성 인식되어 생성된 텍스트의 수정을 용이하게 할 수 있다.The speech recognition apparatus according to the present invention can display the recognized number of the words that can not be recognized among the words recognized and displayed to facilitate the correction of the text generated by speech recognition.

본 발명에 따른 음성 인식 장치는 외국어 음성이 입력되는 경우, 외국어 음성을 저장부에 저장된 외국어 단어 중 매칭되는 외국어 단어로 변환하여 표시함으로써, 텍스트를 삭제 후 수정하지 않더라도 외국어 단어에 대한 변환이 가능할 수 있다.The speech recognition apparatus according to the present invention can convert a foreign language speech into a foreign language word matched to a foreign language word stored in the storage unit and display the foreign language speech without changing the text after deleting the text have.

도 1은 본 발명의 실시예에 따른 음성 인식 시스템의 구성을 나타낸 블록도이다.
도 2는 본 발명의 실시예에 따른 음성 인식 장치의 구성을 나타낸 블록도이다.
도 3은 본 발명의 실시예에 따른 음성 인식 장치의 표시부를 나타낸 예시도이다.
도 4는 본 발명의 다른 실시예에 따른 음성 인식 장치의 표시부를 나타낸 예시도이다.
1 is a block diagram illustrating a configuration of a speech recognition system according to an embodiment of the present invention.
2 is a block diagram showing a configuration of a speech recognition apparatus according to an embodiment of the present invention.
3 is an exemplary view illustrating a display unit of a speech recognition apparatus according to an embodiment of the present invention.
4 is an exemplary view illustrating a display unit of a speech recognition apparatus according to another embodiment of the present invention.

하기의 설명에서는 본 발명의 실시예를 이해하는데 필요한 부분만이 설명되며, 그 이외 부분의 설명은 본 발명의 요지를 흩트리지 않도록 생략될 것이라는 것을 유의하여야 한다.In the following description, only parts necessary for understanding the embodiments of the present invention will be described, and the description of other parts will be omitted so as not to obscure the gist of the present invention.

이하에서 설명되는 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념으로 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 바람직한 실시예에 불과할 뿐이고, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.The terms and words used in the present specification and claims should not be construed as limited to ordinary or dictionary meanings and the inventor is not limited to the meaning of the terms in order to describe his invention in the best way. It should be interpreted as meaning and concept consistent with the technical idea of the present invention. Therefore, the embodiments described in the present specification and the configurations shown in the drawings are merely preferred embodiments of the present invention, and are not intended to represent all of the technical ideas of the present invention, so that various equivalents And variations are possible.

이하, 첨부된 도면을 참조하여 본 발명의 실시예를 보다 상세하게 설명하고자 한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 실시예에 따른 음성 인식 시스템의 구성을 나타낸 블록도이다.1 is a block diagram illustrating a configuration of a speech recognition system according to an embodiment of the present invention.

도 1을 참조하면, 본 발명의 실시예에 따른 음성 인식 시스템(300)은 콘텐츠 제공 서버(200) 및 음성 인식 장치(100)를 포함한다.Referring to FIG. 1, a speech recognition system 300 according to an embodiment of the present invention includes a content providing server 200 and a speech recognition apparatus 100.

콘텐츠 제공 서버(200)는 음성이 포함된 오디오 파일 또는 동영상 파일을 음성 인식 장치(100)로 제공할 수 있다. 예컨데 콘텐츠 제공 서버(200)는 방송사 서버 또는 국회 서버 등이 될 수 있다. 여기서 콘텐츠 제공 서버(200)는 오디오 파일 또는 동영상 파일을 음성 인식 장치(100)로 전달하고, 오디오 파일 또는 동영상 파일에 포함된 음성을 텍스트로 변환하여 다시 전달받을 수 있다. 콘텐츠 제공 서버(200)는 음성 인식 장치(100)로부터 전달받은 텍스트를 자막으로 사용할 수 있다.The content providing server 200 may provide an audio file or a moving picture file including a voice to the voice recognition apparatus 100. [ For example, the content providing server 200 may be a broadcaster server or a national conference server. Here, the content providing server 200 may deliver an audio file or a moving image file to the voice recognition apparatus 100, convert the voice included in the audio file or the moving picture file into text, and receive the voice again. The content providing server 200 can use the text received from the speech recognition apparatus 100 as a caption.

음성 인식 장치(100)는 콘텐츠 제공 서버(200)로부터 음성이 포함된 오디오 파일 또는 동영상 파일을 전달받는다. 음성 인식 장치(100)는 콘텐츠 제공 서버(200)로부터 전달받은 오디오 파일 또는 동영상 파일에서 음성을 인식하여 텍스트 형태로 변환한다.The voice recognition apparatus 100 receives an audio file or a moving picture file containing a voice from the content providing server 200. [ The speech recognition apparatus 100 recognizes a voice in an audio file or a moving picture file received from the content providing server 200 and converts the voice into a text form.

음성 인식 장치(100)는 음성이 입력되면, 음성으로부터 인식에 필요한 특징 벡터를 추출한다. 여기서 특징 벡터들은 음성학적 특성은 잘 나타내며, 그 이외의 요소, 즉 배경 잡음, 화자 차이, 발음 태도 등에는 둔감하도록 설정된다. 이후 음성 인식 장치(100)는 특징 벡터를 저장된 단어 모델, 즉 각 단어의 음성학적 특징 또는 그보다 짧게 음소 단위의 음향 모델과의 비교를 통해 가능한 단어에 대한 경우를 뽑아내는 패턴 분류 과정을 수행한다. 여기서 음성 인식 장치(100)는 패턴 분류 과정을 통해 인식률이 가장 높은 단어를 화면상의 특정 창에 표시할 수 있다.When a voice is input, the voice recognition apparatus 100 extracts a feature vector necessary for recognition from the voice. Here, the feature vectors represent the phonetic characteristics well, and are set to be insensitive to other factors, such as background noise, speaker difference, and phonetic attitude. Then, the speech recognition apparatus 100 performs a pattern classification process for extracting a case of possible words by comparing the feature vector with a stored word model, that is, a phonetic characteristic of each word or a phonetic characteristic of a phoneme unit. Here, the speech recognition apparatus 100 can display a word having the highest recognition rate on a specific window on the screen through the pattern classification process.

또한 음성 인식 장치(100)는 패턴 분류 과정을 거친 결과를 일련의 후보 단어 또는 후보 음소의 형태로 문장 단위 검색을 실시한다. 여기서 음성 인식 장치(100)는 후보 단어 또는 후보 음소들의 정보를 토대로 문법 구조, 전체적인 문장 문맥, 특정 주제에 부합 여부를 판단하여 어떤 단어나 음소가 가장 적절한지를 판단하게 된다. 음성 인식 장치(100)는 이러한 과정을 거쳐 완성된 문장을 화면 상의 특정 창에 표시할 수 있다.In addition, the speech recognition apparatus 100 performs a sentence-based search in the form of a series of candidate words or candidate phonemes through a pattern classification process. Here, the speech recognition apparatus 100 judges whether a word or a phoneme is most appropriate by judging whether the word or the phoneme corresponds to a grammar structure, an overall sentence context, or a specific topic based on information of a candidate word or a candidate phoneme. The speech recognition apparatus 100 can display a completed sentence on a specific window on the screen through such a process.

즉 본 발명의 실시예에 따른 음성 인식 장치(100)는 상기의 과정을 통해 얻어진 단어와, 문장을 각각 독립된 창에 실시간 표시할 수 있다.That is, the speech recognition apparatus 100 according to the embodiment of the present invention can display words and sentences obtained through the above process in real time in independent windows.

또한 음성 인식 장치(100)는 사용자로부터 키 입력 동작을 입력받아 각각 독립된 창에 실시간 표시된 단어와 문장을 수정하도록 할 수 있다. 음성 인식 장치(100)는 수정되어 완성된 음성 인식 결과를 저장하거나, 콘텐츠 제공 서버(200)로 다시 제공할 수 있다.In addition, the speech recognition apparatus 100 may receive a key input operation from a user and modify words and sentences displayed in real time in independent windows. The speech recognition apparatus 100 may store the corrected speech recognition result or provide the result to the content providing server 200 again.

이하 본 발명의 실시예에 따른 음성 인식 장치(100)에 대하여 더욱 상세히 설명하도록 한다.Hereinafter, a speech recognition apparatus 100 according to an embodiment of the present invention will be described in more detail.

도 2는 본 발명의 실시예에 따른 음성 인식 장치의 구성을 나타낸 블록도이고, 도 3은 본 발명의 실시예에 따른 음성 인식 장치의 표시부를 나타낸 예시도이다.FIG. 2 is a block diagram showing a configuration of a speech recognition apparatus according to an embodiment of the present invention, and FIG. 3 is an exemplary view illustrating a display unit of a speech recognition apparatus according to an embodiment of the present invention.

도 1 내지 도 3을 참조하면, 본 발명의 실시예에 따른 음성 인식 장치(100)는 통신부(50), 입력부(10), 표시부(20), 저장부(30) 및 제어부(40)를 포함한다.1 to 3, the speech recognition apparatus 100 according to the embodiment of the present invention includes a communication unit 50, an input unit 10, a display unit 20, a storage unit 30, and a control unit 40 do.

통신부(50)는 콘텐츠 제공 서버(200)로부터 오디오 파일 또는 동영상 파일을 전달받을 수 있다. 이러한 통신부(50)는 유무선 통신을 통해 콘텐츠 제공 서버(200)로부터 오디오 파일 또는 동영상 파일을 전달받거나, 음성 인식이 완료된 텍스트를 다시 콘텐츠 제공 서버(200)로 전달할 수 있다.The communication unit 50 may receive an audio file or a moving picture file from the content providing server 200. [ The communication unit 50 may receive an audio file or a moving picture file from the content providing server 200 via wired / wireless communication, or may transmit the voice-recognized text to the content providing server 200 again.

입력부(10)는 음성 입력부(11) 및 키 입력부(12)를 포함할 수 있다.The input unit 10 may include a voice input unit 11 and a key input unit 12.

음성 입력부(11)는 콘텐츠 제공 서버(200)로부터 오디오 파일 또는 동영상 파일을 전달받게 되면, 오디오 파일 또는 동영상 파일에 포함된 음성을 입력받을 수 있다. 또한 음성 입력부(11)는 마이크(Microphone)로 구성되어 사용자의 음성을 입력받을 수 있다.When the audio input unit 11 receives an audio file or a moving image file from the content providing server 200, the audio input unit 11 can receive audio included in the audio file or the moving image file. In addition, the voice input unit 11 may be configured as a microphone to receive voice of a user.

키 입력부(12)는 숫자 및 문자 정보 등의 다양한 정보를 입력받고, 각종 기능을 설정 및 음성 인식 장치(100)의 기능 제어와 관련하여 입력되는 신호를 제어부(40)로 전달한다. 또한 키 입력부(12)는 제3 커서(30c)를 이동시켜 음성 인식되어 표시부(20)에 표시된 텍스트를 수정하기 위한 신호를 입력받을 수 있다. 예컨데 키 입력부(12)는 키보드, 키패드, 마우스, 조이스틱 등과 같은 입력 장치가 될 수 있고, 바람직하게는 잘못 인식된 단어 또는 문장을 빠르게 수정할 수 있는 속기 키보드가 될 수 있다.The key input unit 12 receives various information such as numbers and character information and transmits various signals to the control unit 40 in response to the setting of various functions and the function control of the voice recognition apparatus 100. Also, the key input unit 12 can receive a signal for correcting the text displayed on the display unit 20 by recognizing the voice by moving the third cursor 30c. For example, the key input unit 12 may be an input device such as a keyboard, a keypad, a mouse, a joystick, or the like, and preferably a shorthand keyboard capable of quickly correcting erroneously recognized words or phrases.

표시부(20)는 음성 인식 장치(100)의 기능 수행 중에 발생하는 일련의 동작상태 및 동작결과 등에 대한 정보를 표시한다. 또한 표시부(20)는 음성 인식 장치(100)의 메뉴 및 사용자가 입력한 사용자 데이터 등을 표시할 수 있다. 여기서 표시부(20)는 액정표시장치(LCD, Liquid Crystal Display), 초박막 액정표시장치(TFT-LCD, Thin Film Transistor LCD), 발광다이오드(LED, Light Emitting Diode), 유기 발광다이오드(OLED, Organic LED), 능동형 유기발광다이오드(AMOLED, Active Matrix OLED), 레티나 디스플레이(Retina Display), 플렉시블 디스플레이(Flexible display) 및 3차원(3 Dimension) 디스플레이 등으로 구성될 수 있다. The display unit 20 displays information on a series of operation states, operation results, and the like that occur while the function of the voice recognition apparatus 100 is performed. Also, the display unit 20 can display a menu of the voice recognition apparatus 100 and user data input by the user. Here, the display unit 20 may be a liquid crystal display (LCD), a thin film transistor LCD (TFT-LCD), a light emitting diode (LED), an organic light emitting diode (OLED) An active matrix OLED (OLED), a retina display, a flexible display, and a three-dimensional display.

이러한 표시부(20)는 제1 표시창(21) 및 제2 표시창(22)을 포함할 수 있다.The display unit 20 may include a first display window 21 and a second display window 22.

제1 표시창(21)은 음성 입력부(11)로 입력된 음성에서 추출된 특징 벡터와, 기 저장된 단어 모델을 비교하여 얻어진 결과를 표시한다. 즉 제1 표시창(21)은 제어부(40)에 의해 수행되는 패턴 분류의 결과물을 실시간 화면상에 표시할 수 있다. 제1 표시창(21)는 패턴 분류되어 얻어진 결과물인 단어를 누적 표시하며, 기 설정된 누적 범위가 지나면 지나간 단어는 삭제되고, 실시간 새로운 단어를 추가 표시한다. 즉 제1 표시창(21)은 음성 인식 과정에서 문장을 만들기 위한 전 단계인 단어별 인식 상태를 표시할 수 있다. 여기서 제1 표시창(21)은 패턴 분류되어 표시되는 단어의 실시간 입력 상태를 표시하기 위한 제1 커서(20a)를 단어의 말미에 표시할 수 있다.The first display window 21 displays the result obtained by comparing the feature vector extracted from the speech input to the speech input unit 11 with the previously stored word model. That is, the first display window 21 can display the result of pattern classification performed by the control unit 40 on a real time screen. The first display window 21 cumulatively displays words obtained as a result of pattern classification. If a pre-set cumulative range is exceeded, the past words are deleted and new real-time new words are additionally displayed. That is, the first display window 21 may display a recognition state for each word, which is the previous step for making a sentence in the speech recognition process. Here, the first display window 21 may display a first cursor 20a at the end of a word for displaying a real-time input state of a word displayed as a pattern.

제2 표시창(22)은 음성 입력되어 패턴 분류 과정을 거친 결과를 일련의 후보 단어 또는 후보 음소의 형태로 문장 단위 검색을 실시하고, 후보 단어 또는 후보음소들의 정보를 토대로 문법 구조, 전체적인 문장 문맥, 특정 주제에 부합 여부를 판단한 결과물, 즉 문장을 화면상에 표시할 수 있다. 이러한 제2 표시창(22)은 단어의 조합으로 형성된 문장을 실시간 표시할 수 있다. 여기서 제2 표시창(22)은 단어의 조합으로 형성된 문장의 실시간 입력 상태를 표시하기 위한 제2 커서(20b)를 문장의 말미에 표시할 수 있다. 또한 제2 표시창(22)은 문장의 수정을 위하여 이동하는 제3 커서(20c)를 표시할 수 있다.The second display window 22 performs a sentence-based search in the form of a series of candidate words or candidate phonemes through a speech input and pattern classification process. Based on the information of the candidate words or candidate phonemes, the grammar structure, the overall sentence context, It is possible to display the result of judging whether or not a certain topic is satisfied, that is, a sentence, on the screen. The second display window 22 can display a sentence formed by a combination of words in real time. Here, the second display window 22 may display a second cursor 20b at the end of a sentence to display a real-time input state of a sentence formed by a combination of words. Also, the second display window 22 can display a third cursor 20c to be moved for correction of the sentence.

저장부(30)는 음성 인식 장치(100)의 기능 동작에 필요한 응용 프로그램을 저장한다. 여기서 저장부(30)는 사용자의 요청에 상응하여 각 기능을 활성화하는 경우, 제어부(40)의 제어 하에 해당 응용 프로그램들을 실행하여 각 기능을 제공한다. 여기서 저장부(30)는 패턴 분류에 사용되는 단어 모델, 즉 각 단어의 음성학적 특징 또는 음소 단위의 음향 모델을 저장한다. 또한 저장부(30)는 문법 구조 정보, 문장 문맥 정보, 특정 주제 정보 등을 저장한다. 또한 저장부(30)는 외국어 DB(31) 저장할 수 있다. 즉 저장부(30)는 음성 입력부(11)를 통해 외국어 음성이 입력되는 경우, 매칭시킬 수 있는 외국어 단어를 저장하여 제어부(40)의 제어 하에 매칭되는 외국어 단어를 제공할 수 있다.The storage unit 30 stores an application program necessary for the functional operation of the speech recognition apparatus 100. [ Here, when activating each function according to a request of a user, the storage unit 30 executes the corresponding application programs under the control of the control unit 40 to provide each function. Here, the storage unit 30 stores a word model used for pattern classification, that is, a phonetic characteristic of each word or an acoustic model of a phoneme unit. The storage unit 30 also stores grammar structure information, sentence context information, specific topic information, and the like. Also, the storage unit 30 may store the foreign language DB 31. That is, when a foreign language voice is input through the voice input unit 11, the storage unit 30 stores a matched foreign language word and provides a matched foreign language word under the control of the control unit 40.

제어부(40)는 음성 입력부(11)로부터 음성이 입력되면, 패턴 분류를 통해 얻어진 단어를 제1 표시창(21)에 표시되도록 하고, 패턴 분류를 통해 얻어진 단어를 조합한 문장을 제2 표시창(22)에 표시되도록 할 수 있다.The control unit 40 causes a word obtained through pattern classification to be displayed on the first display window 21 when a voice is input from the voice input unit 11 and displays a sentence combining the words obtained through pattern classification on the second display window 22 ). ≪ / RTI >

이러한 제어부(40)는 패턴 분류 모듈(41) 및 언어 처리 모듈(42)을 포함한다.The control unit 40 includes a pattern classification module 41 and a language processing module 42.

패턴 분류 모듈(41)은 음성 입력부(11)를 통해 입력된 음성으로부터 필요한 특징 벡터를 추출한다. 여기서 특징 벡터들은 음성학적 특성은 잘 나타내며, 그 이외의 요소, 즉 배경 잡음, 화자 차이, 발음 태도 등에는 둔감하도록 설정된다. 이후 패턴 분류 모듈(41)은 저장부(30)에 저장되어 있는 단어 모델, 즉 각 단어의 음성학적 특징 또는 그보다 짧게 음소 단위의 음향 모델과의 비교를 통해 가능한 단어에 대한 경우를 추출한다. 즉 패턴 분류 모듈(41)은 저장부(30)에 저장된 음향 모델과의 패턴 비교를 통해 알맞은 후보 단어를 선정한다. 패턴 분류 모듈(41)은 선정된 후보 단어들 중 인식률이 가장 높은 단어를 제1 표시창(21)을 통해 표시하도록 한다. 여기서 패턴 분류 모듈(41)은 제1 표시창(21)에 실시간 표시되는 단어의 말미에 표시되어 단어의 입력 상태를 나타내는 제1 커서(20a)를 상기 제1 표시창(21)에 표시하도록 하도록 한다.The pattern classification module 41 extracts necessary feature vectors from the speech input through the speech input unit 11. [ Here, the feature vectors represent the phonetic characteristics well, and are set to be insensitive to other factors, such as background noise, speaker difference, and phonetic attitude. The pattern classification module 41 then extracts cases of possible words by comparing the word models stored in the storage unit 30, that is, the phonetic characteristics of the respective words or the acoustic models of the phonemes in a shorter period. That is, the pattern classification module 41 selects an appropriate candidate word through pattern comparison with the acoustic model stored in the storage unit 30. [ The pattern classification module 41 displays a word having the highest recognition rate among the selected candidate words through the first display window 21. [ Here, the pattern classification module 41 displays the first cursor 20a on the first display window 21, which is displayed at the end of a word displayed in real time on the first display window 21 to indicate the input state of the word.

또한 패턴 분류 모듈(41)은 패턴 분류 과정을 거쳐 제1 표시창(21)에 표시되는 단어 중 인식률이 기 설정된 값보다 낮은 단어에 대하여 식별되도록 표시할 수 있다. 즉 패턴 분류 모듈(41)은 제1 표시창(21)에 표시되는 단어 중 인식률이 기 설정된 값보다 낮은 단어에 대하여 그 인식률 값을 단어 옆에 표시할 수 있다. 여기서 인식률 값은 인식률에 따라 0 ~ 1까지 표현한 수치를 의미한다. 예컨데 패턴 분류 모듈(41)은 단어의 인식률 값이 0.8 미만인 단어에 대하여 인식률 값을 표시할 수 있다. 예컨데 패턴 분류 모듈(41)은 음성 입력부(11)로부터 '재단' 이라는 단어가 입력되게 되면, 인식률이 낮을 경우 오인식 하여 도 3의 a와 같이 '재난' 으로 표시될 수 있다. 이 경우, 패턴 분류 모듈(41)은 a와 같이 단어 옆에 인식률을 표시할 수 있다.In addition, the pattern classification module 41 can display the words displayed on the first display window 21 through the pattern classification process so as to identify words whose recognition rate is lower than a predetermined value. That is, the pattern classification module 41 can display a recognition rate value for a word whose recognition rate is lower than a predetermined value among words displayed in the first display window 21, next to the word. Here, the recognition rate value means a value expressed from 0 to 1 according to the recognition rate. For example, the pattern classification module 41 can display a recognition rate value for a word whose recognition rate value of a word is less than 0.8. For example, when the word 'cutting' is input from the voice input unit 11, the pattern classification module 41 may be mistaken when the recognition rate is low and may be displayed as 'disaster' as shown in FIG. In this case, the pattern classification module 41 can display the recognition rate next to the word as a.

또한 패턴 분류 모듈(41)은 인식률 값이 기 설정된 값보다 낮은 단어에 대하여 색상 또는 크기를 달리하여 표시할 수 있다.In addition, the pattern classification module 41 may display a word whose recognition rate value is lower than a preset value, in a different color or size.

이와 같이, 본 발명에 따른 음성 인식 장치(100)는 패턴 분류 모듈(41)을 통해 음성 인식되어 표시되는 단어 중 인식률이 낮은 단어에 대하여 식별되도록 표시함으로써, 음성 인식되어 생성된 텍스트의 수정을 용이하도록 할 수 있다.As described above, the speech recognition apparatus 100 according to the present invention displays the words recognized and displayed through the pattern classification module 41 so as to identify words with low recognition rates, thereby facilitating correction of the text generated by speech recognition .

또한 패턴 분류 모듈(41)은 인식이 불가한 단어에 대하여, 단어의 글자수를 식별할 수 있도록 표시할 수 있다. 즉 패턴 분류 모듈(41)은 인식이 불가한 단어에 대하여 글자수에 맞도록 특수문자를 표시하도록 할 수 있다. 예컨데 패턴 분류 모듈(41)은 '분석은' 이라는 음성이 입력되나, 인식이 불가한 경우 도3의 b와 같이 글자수가 식별 가능하도록 '???' 로 표시할 수 있다.In addition, the pattern classification module 41 can display the number of characters of a word that can not be recognized, so that the number of characters can be identified. In other words, the pattern classification module 41 can display a special character so as to match the number of characters with respect to a word that can not be recognized. For example, when the pattern classification module 41 receives a voice of 'analysis', if the recognition is not possible, '???' As shown in FIG.

이와 같이 본 발명에 따른 음성 인식 장치(100)는 패턴 분류 모듈(41)을 통해 음성 인식되어 표시되는 단어 중 인식이 불가한 단어에 대하여 글자수가 식별되도록 표시함으로써, 음성 인식되어 생성된 텍스트의 수정을 용이하게 할 수 있다.As described above, the speech recognition apparatus 100 according to the present invention displays the number of characters that can not be recognized among words displayed as speech recognition through the pattern classification module 41 so that the number of characters can be identified, . ≪ / RTI >

또한 패턴 분류 모듈(41)은 음성 입력부(11)로부터 외국어 음성이 입력되는 경우, 외국어 음성을 저장부(30)에 저장된 외국어 단어 중 매칭되는 외국어 단어로 변환하여 제1 표시창(21) 또는 제2 표시창(22)에 표시할 수 있다. 예컨데 패턴 분류 모듈(41)은 도 3의 c와 같이 매칭되는 외국어 단어를 소리나는 대로 표시된 단어 옆에 표시할 수 있다.When a foreign language voice is input from the voice input unit 11, the pattern classification module 41 converts the foreign language voice into a matching foreign language word among the foreign language words stored in the storage unit 30 and outputs it to the first display window 21 or the second Can be displayed on the display window (22). For example, the pattern classification module 41 may display a matched foreign language word next to the displayed word as shown in FIG. 3C.

언어 처리 모듈(42)은 패턴 분류 모듈(41)에서 패턴 분류 과정을 거친 결과를 일련의 후보 단어 또는 후보 음소의 형태로 문장 단위 검색을 실시한다. 여기서 언어 처리 모듈(42)은 후보 단어 또는 후보 음소들의 정보를 토대로 문법 구조, 전체적인 문장 문맥, 특정 주제에 부합 여부를 판단하여 어떤 단어나 음소가 가장 적절한지를 판단하게 된다. 이후 언어 처리 모듈(42)은 가장 적절한 단어를 혼합하여 문장을 형성한다. 여기서 언어 처리 모듈(42)은 생성된 문장을 실시간 제2 표시창(22)에 표시할 수 있다.The language processing module 42 performs a sentence-based search in the form of a series of candidate words or candidate phonemes through the pattern classification process in the pattern classification module 41. Here, the language processing module 42 judges whether a word or a phoneme is most appropriate by judging whether the word is a grammatical structure, an overall sentence context, or a specific subject based on the information of candidate words or candidate phonemes. The language processing module 42 then forms a sentence by mixing the most appropriate words. Here, the language processing module 42 can display the generated sentence in the second real time window 22.

여기서 언어 처리 모듈(42)은 제2 표시창(22)에 단어의 조합으로 형성된 문장의 실시간 입력 상태를 표시하기 위한 제2 커서(20b)를 문장의 말미에 표시하도록 할 수 있다. 또한 언어 처리 모듈(42)은 제2 표시창(22)에 문장의 수정을 위하여 이동하는 제3 커서(20c)를 표시할 수 있다. 여기서 제3 커서(20c)는 키 입력부(12)의 입력에 따라 이동될 수 있다.Here, the language processing module 42 may display a second cursor 20b at the end of a sentence to display a real-time input state of a sentence formed by a combination of words in the second display window 22. [ Also, the language processing module 42 may display a third cursor 20c which moves to modify the sentence in the second display window 22. Here, the third cursor 20c can be moved according to the input of the key input unit 12. [

또한 언어 처리 모듈(42)은 패턴 분류 모듈(41)과 같이, 인식률이 낮은 단어에 대하여 식별 가능하도록 표시할 수 있고, 인식이 불가한 단어에 대하여 글자수를 식별할 수 있도록 표시할 수 있고, 외국어 단어에 대하여 저장부(30)에 저장된 매칭되는 외국어 단어로 변환하여 제2 표시창(22)에 표시하도록 할 수 있다. 한편 인식률이 낮은 단어, 인식이 불가한 단어 및 외국어 단어에 대한 기능은 상술한 패턴 분류 모듈(41)과 동일하므로, 동일한 설명은 생략하도록 한다.Also, the language processing module 42 can display such that the recognition rate can be discriminated for words with a low recognition rate, such as the pattern classification module 41, It is possible to convert the foreign language words into matched foreign language words stored in the storage unit 30 and display them on the second display window 22. [ On the other hand, the function of the word with low recognition rate, the word which can not be recognized, and the word of foreign language is the same as that of the pattern classification module 41 described above, so that the same description will be omitted.

이하 본 발명의 다른 실시예에 따른 음성 인시 장치의 표시부에 대하여 설명하도록 한다.Hereinafter, a display unit of a voice presence apparatus according to another embodiment of the present invention will be described.

도 4는 본 발명의 다른 실시예에 따른 음성 인식 장치의 표시부를 나타낸 예시도이다.4 is an exemplary view illustrating a display unit of a speech recognition apparatus according to another embodiment of the present invention.

도 2 및 도 4를 참조하면, 본 발명의 다른 실시예에 따른 표시부(120)는 제어부(40)의 제어 하에, 음성 입력부(11)로부터 외국어 음성이 입력되는 경우, 외국어 음성을 소리나는 대로 표시하되, 키 입력부(12)에 의해 제3 커서(20c)가 소리나느 대로 표시된 단어로 이동하게 되면, 저장부(30)에 저장된 외국어 단어 중 매칭되는 적어도 하나의 외국어 단어를 선택할 수 있는 선택창(24)을 제1 표시창(21) 또는 제2 표시창(22)에 표시할 수 있다.2 and 4, the display unit 120 according to another exemplary embodiment of the present invention displays a foreign language voice in a phonetic state when a foreign language voice is input from the voice input unit 11 under the control of the control unit 40 If the third cursor 20c is moved to a word displayed by the key input unit 12 as a sound, a selection window for selecting at least one foreign language word matched among the foreign language words stored in the storage unit 30 24 can be displayed on the first display window 21 or the second display window 22.

예컨데 도 4의 c에 도시된 바와 같이, 음성 입력을 통해 '사드'가 입력되면, 제2 표시창(22)에 '사드'로 표시하되, 제3 커서(20c)를 단어로 이동하게 되면, 저장부(30)에 저장되어 있는 'THAAD' 및 'SOD' 중 하나를 선택할 수 있는 선택창(24)을 표시할 수 있다.For example, as shown in FIG. 4C, when 'SAD' is input through voice input, 'SAD' is displayed on the second display window 22. When the third cursor 20C is moved to a word, A selection window 24 for selecting one of 'THAAD' and 'SOD' stored in the storage unit 30 can be displayed.

한편, 본 도면에 개시된 실시예는 이해를 돕기 위해 특정 예를 제시한 것에 지나지 않으며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시예 이외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형예들이 실시 가능하다는 것은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게는 자명한 것이다.It should be noted that the embodiments disclosed in the drawings are merely examples of specific examples for the purpose of understanding, and are not intended to limit the scope of the present invention. It will be apparent to those skilled in the art that other modifications based on the technical idea of the present invention are possible in addition to the embodiments disclosed herein.

10 : 입력부 11 : 음성 입력부
12 : 키 입력부 20, 120 : 표시부
20a :제1 커서 20b : 제2 커서
20c : 제3 커서 21 : 제1 표시창
22 : 제2 표시창 23 : 제3 표시창
24 : 선택창 30 : 저장부
31 : 외국어DB 40 : 제어부
50 : 통신부 100 : 음성 인식 장치
200 : 콘텐츠 제공 서버 300 : 음성 인식 시스템
10: Input unit 11: Audio input unit
12: key input unit 20, 120:
20a: first cursor 20b: second cursor
20c: third cursor 21: first display window
22: second display window 23: third display window
24: Selection window 30:
31: Foreign language DB 40:
50: communication unit 100: voice recognition device
200: Content providing server 300: Voice recognition system

Claims (12)

음성을 입력받는 음성 입력부;
상기 음성 입력부로부터 입력된 음성을 통해 텍스트로 변환된 단어 또는 문장의 수정을 위한 신호를 입력받는 키 입력부;
상기 음성 입력부로부터 입력되는 음성을 텍스트로 변환한 단어를 표시하는 제1 표시창 및 상기 제1 표시창에 표시되는 상기 단어를 조합한 문장을 표시하는 제2 표시창을 포함하는 표시부;
상기 음성 입력부로부터 입력되는 음성을 단어 단위로 텍스트로 변환하여 상기 제1 표시창에 실시간 표시하도록 하고, 상기 제1 표시창에 표시된 단어를 조합하고 문장으로 형성하여 실시간 제2 표시창에 표시하는 제어부; 를 포함하고,
상기 제어부는 상기 제1 표시창에 실시간 표시되는 단어의 말미에 표시되어 상기 단어의 입력 상태를 나타내는 제1 커서를 상기 제1 표시창에 표시하도록 하고, 상기 제2 표시창에 실시간 표시되는 조합된 문장의 말미에 표시되어 상기 문장의 입력 상태를 나타내는 제2 커서를 상기 제2 표시창에 표시하도록 하고, 상기 키 입력부 신호에 따라 수정을 위한 제3 커서를 이동시켜 상기 제1 표시창 또는 상기 제2 표시창에 표시하고,
상기 제어부는 상기 제1 표시창 또는 상기 제2 표시창에 표시되는 단어 중 인식이 불가한 단어에 대하여 글자수가 식별되도록 글자수 만큼 특수문자를 표시하는 것을 특징으로 하는 음성 인식 장치.
A voice input unit for inputting voice;
A key input unit for inputting a signal for correcting a word or a sentence converted into a text through a voice inputted from the voice input unit;
A display unit including a first display window displaying a word converted from text input from the voice input unit and a second display window displaying a sentence combining the words displayed on the first display window;
A controller for converting a voice inputted from the voice input unit into text in units of words and displaying the same in real time on the first display window, combining the words displayed on the first display window and forming a sentence on the real time second display window; Lt; / RTI >
Wherein the control unit causes the first cursor to be displayed on the first display window at the end of a word displayed in real time on the first display window to indicate an input state of the word and to display an end of a combined sentence displayed in real time on the second display window Displays a second cursor indicating the input state of the sentence on the second display window, moves the third cursor for correction according to the key input unit signal, and displays the third cursor on the first display window or the second display window ,
Wherein the control unit displays a special character as many as the number of characters so as to identify the number of characters that can not be recognized among the words displayed on the first display window or the second display window.
삭제delete 삭제delete 제1항에 있어서,
상기 제어부는 상기 제1 표시창 또는 상기 제2 표시창에 표시되는 단어 중 인식률이 기 설정된 값보다 낮은 단어에 대하여 식별되도록 표시하는 것을 특징으로 하는 음성 인식 장치.
The method according to claim 1,
Wherein the control unit displays the words displayed on the first display window or the second display window such that the recognition rate is identified for words whose recognition rate is lower than a preset value.
제4항에 있어서,
상기 제어부는 상지 제1 표시창 또는 상기 제2 표시창에 표시되는 단어 중 인식률이 기 설정된 값보다 낮은 단어에 대하여 인식률 값을 상기 인식률이 낮은 단어 옆에 표시하는 것을 특징으로 하는 음성 인식 장치.
5. The method of claim 4,
Wherein the control unit displays a recognition rate value for a word whose recognition rate is lower than a predetermined value among words displayed on the upper first display window or the second display window beside a word whose recognition rate is lower.
제5항에 있어서,
상기 인식률 값은 인식률에 따라 0 ~ 1까지 표현한 수치인 것을 특징으로 하는 음성 인식 장치.
6. The method of claim 5,
Wherein the recognition rate value is expressed by 0 to 1 according to a recognition rate.
제1항에 있어서,
상기 제어부는 상기 제1 표시창 또는 상기 제2 표시창에 표시되는 단어 중 인식률이 기 설정된 값보다 낮은 단어에 대하여 크기 또는 색상을 달리하여 표시하는 것을 특징으로 하는 음성 인식 장치.
The method according to claim 1,
Wherein the control unit displays the words displayed in the first display window or the second display window in different sizes or colors for words whose recognition rate is lower than a predetermined value.
삭제delete 삭제delete 제1항에 있어서,
외국어 단어를 저장하는 저장부; 를 더 포함하고,
상기 제어부는 상기 음성 입력부로부터 외국어 음성이 입력되는 경우, 상기 외국어 음성을 상기 저장부에 저장된 외국어 단어 중 매칭되는 외국어 단어로 변환하여 상기 제1 표시창 또는 상기 제2 표시창에 표시하는 것을 특징으로 하는 음성 인식 장치.
The method according to claim 1,
A storage unit for storing a foreign language word; Further comprising:
Wherein the control unit converts the foreign language voice into a matched foreign language word stored in the storage unit and displays it on the first display window or the second display window when a foreign language voice is input from the voice input unit Recognition device.
제10항에 있어서,
상기 제어부는 상기 음성 입력부로부터 외국어 음성이 입력되는 경우, 상기 외국어 음성을 소리나는 대로 표시하되, 상기 키 입력부에 의해 상기 제3 커서가 상기 소리나는 대로 표시된 단어로 이동하게 되면, 상기 저장부에 저장된 외국어 단어 중 매칭되는 적어도 하나의 외국어 단어를 선택할 수 있는 선택창을 상기 제1 표시창 또는 상기 제2 표시창에 제공하는 것을 특징으로 하는 음성 인식 장치.
11. The method of claim 10,
Wherein the controller displays the foreign language voice aloud when the foreign language voice is input from the voice input unit, and when the third cursor is moved to the word displayed as the phonetic character by the key input unit, And provides a selection window to the first display window or the second display window in which at least one foreign language word matched among the foreign language words can be selected.
음성을 포함하는 콘텐츠를 제공하는 콘텐츠 제공 서버;
상기 콘텐츠 제공 서버로부터 콘텐츠를 수신하여, 상기 콘텐츠에 포함된 음성을 입력받는 음성 입력부, 상기 음성 입력부로부터 입력된 음성을 통해 텍스트로 변환된 단어 또는 문장의 수정을 위한 신호를 입력받는 키 입력부, 상기 음성 입력부로부터 입력되는 음성을 텍스트로 변환한 단어를 표시하는 제1 표시창 및 상기 제1 표시창에 표시되는 상기 단어를 조합한 문장을 표시하는 제2 표시창을 포함하는 표시부, 상기 음성 입력부로부터 입력되는 음성을 단어 단위로 텍스트로 변환하여 상기 제1 표시창에 실시간 표시하도록 하고, 상기 제1 표시창에 표시된 단어를 조합하고 문장으로 형성하여 실시간 제2 표시창에 표시하는 제어부를 포함하는 음성 인식 장치; 를 포함하고,
상기 제어부는 상기 제1 표시창에 실시간 표시되는 단어의 말미에 표시되어 상기 단어의 입력 상태를 나타내는 제1 커서를 상기 제1 표시창에 표시하도록 하고, 상기 제2 표시창에 실시간 표시되는 조합된 문장의 말미에 표시되어 상기 문장의 입력 상태를 나타내는 제2 커서를 상기 제2 표시창에 표시하도록 하고, 상기 키 입력부 신호에 따라 수정을 위한 제3 커서를 이동시켜 상기 제1 표시창 또는 상기 제2 표시창에 표시하고,
상기 제어부는 상기 제1 표시창 또는 상기 제2 표시창에 표시되는 단어 중 인식이 불가한 단어에 대하여 글자수가 식별되도록 글자수 만큼 특수문자를 표시하는 것을 특징으로 하는 음성 인식 시스템.
A content providing server for providing a content including a voice;
A key input unit for receiving a signal for correcting a word or a sentence converted into text through a voice input from the voice input unit, a voice input unit for receiving a voice from the voice input unit, A display unit including a first display window displaying a word obtained by converting a voice inputted from a voice input unit into text and a second display window displaying a sentence combining the words displayed on the first display window; And a controller for converting the words into words on a word-by-word basis and displaying them in real time on the first display window, combining the words displayed on the first display window and forming sentences, and displaying them on a real-time second display window. Lt; / RTI >
Wherein the control unit causes the first cursor to be displayed on the first display window at the end of a word displayed in real time on the first display window to indicate an input state of the word and to display an end of a combined sentence displayed in real time on the second display window Displays a second cursor indicating the input state of the sentence on the second display window, moves the third cursor for correction according to the key input unit signal, and displays the third cursor on the first display window or the second display window ,
Wherein the control unit displays a special character as many as the number of characters so that the number of characters can be recognized with respect to words that can not be recognized among words displayed on the first display window or the second display window.
KR1020160114255A 2016-08-17 2016-09-06 Voice recognition apparatus and system KR101819457B1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020160104021 2016-08-17
KR20160104021 2016-08-17

Publications (1)

Publication Number Publication Date
KR101819457B1 true KR101819457B1 (en) 2018-01-17

Family

ID=61025868

Family Applications (3)

Application Number Title Priority Date Filing Date
KR1020160114255A KR101819457B1 (en) 2016-08-17 2016-09-06 Voice recognition apparatus and system
KR1020160114256A KR101819458B1 (en) 2016-08-17 2016-09-06 Voice recognition apparatus and system
KR1020160115155A KR101819459B1 (en) 2016-08-17 2016-09-07 Voice recognition system and apparatus supporting voice recognition error correction

Family Applications After (2)

Application Number Title Priority Date Filing Date
KR1020160114256A KR101819458B1 (en) 2016-08-17 2016-09-06 Voice recognition apparatus and system
KR1020160115155A KR101819459B1 (en) 2016-08-17 2016-09-07 Voice recognition system and apparatus supporting voice recognition error correction

Country Status (1)

Country Link
KR (3) KR101819457B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102121059B1 (en) * 2019-06-26 2020-06-09 주식회사 아이미디어솔루션 Emergency broadcasting system, apparatus and technique for speech recognition based diversified notification of an emergency situation

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101992370B1 (en) * 2018-04-20 2019-06-24 주식회사 스터디맥스 Method for learning speaking and system for learning
KR20190087353A (en) 2019-07-05 2019-07-24 엘지전자 주식회사 Apparatus and method for inspecting speech recognition
KR20190100095A (en) 2019-08-08 2019-08-28 엘지전자 주식회사 Method and device for speech processing
KR102300427B1 (en) * 2019-10-28 2021-09-09 주식회사 한글과컴퓨터 Learning word collection device for improving the recognition rate of speech recognizer and operating method thereof
KR102453317B1 (en) * 2020-08-27 2022-10-12 주식회사 오투오 Word search game method using voice recognition in user device and user device thereof
US11657803B1 (en) 2022-11-02 2023-05-23 Actionpower Corp. Method for speech recognition by using feedback information

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3082746B2 (en) * 1998-05-11 2000-08-28 日本電気株式会社 Speech recognition system
JP2005128130A (en) * 2003-10-22 2005-05-19 Toyota Central Res & Dev Lab Inc Speech recognition device, speech recognition method, and program

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4784120B2 (en) * 2005-03-23 2011-10-05 日本電気株式会社 Voice transcription support device, method and program thereof
JP2012181358A (en) * 2011-03-01 2012-09-20 Nec Corp Text display time determination device, text display system, method, and program

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3082746B2 (en) * 1998-05-11 2000-08-28 日本電気株式会社 Speech recognition system
JP2005128130A (en) * 2003-10-22 2005-05-19 Toyota Central Res & Dev Lab Inc Speech recognition device, speech recognition method, and program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102121059B1 (en) * 2019-06-26 2020-06-09 주식회사 아이미디어솔루션 Emergency broadcasting system, apparatus and technique for speech recognition based diversified notification of an emergency situation

Also Published As

Publication number Publication date
KR101819459B1 (en) 2018-01-17
KR101819458B1 (en) 2018-01-17

Similar Documents

Publication Publication Date Title
KR101819457B1 (en) Voice recognition apparatus and system
US10276164B2 (en) Multi-speaker speech recognition correction system
KR102191425B1 (en) Apparatus and method for learning foreign language based on interactive character
KR102628036B1 (en) A text editing appratus and a text editing method based on sppech signal
US10102771B2 (en) Method and device for learning language and computer readable recording medium
CN107632980A (en) Voice translation method and device, the device for voiced translation
US10741172B2 (en) Conference system, conference system control method, and program
US10714082B2 (en) Information processing apparatus, information processing method, and program
KR102043419B1 (en) Speech recognition based training system and method for child language learning
CN112735396A (en) Speech recognition error correction method, device and storage medium
CN112036174B (en) Punctuation marking method and device
CN105913841B (en) Voice recognition method, device and terminal
KR102009150B1 (en) Automatic Apparatus and Method for Converting Sign language or Finger Language
CN109979435B (en) Data processing method and device for data processing
KR20200140171A (en) Electronic device and Method for controlling the electronic device thereof
KR20220143622A (en) Electronic apparatus and control method thereof
US10529330B2 (en) Speech recognition apparatus and system
JP6509308B1 (en) Speech recognition device and system
KR20130128172A (en) Mobile terminal and inputting keying method for the disabled
CN109841209A (en) Speech recognition apparatus and system
EP3489952A1 (en) Speech recognition apparatus and system
KR101373206B1 (en) Method for input message using voice recognition and image recognition in Mobile terminal
CN113707178B (en) Audio evaluation method and device and non-transient storage medium
TWI752437B (en) At least two phoneme-based voice input operation method and computer program product
US20230196001A1 (en) Sentence conversion techniques

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant