KR101393255B1 - Voice recognition method and apparatus combining speech and keystroke - Google Patents

Voice recognition method and apparatus combining speech and keystroke Download PDF

Info

Publication number
KR101393255B1
KR101393255B1 KR1020120062741A KR20120062741A KR101393255B1 KR 101393255 B1 KR101393255 B1 KR 101393255B1 KR 1020120062741 A KR1020120062741 A KR 1020120062741A KR 20120062741 A KR20120062741 A KR 20120062741A KR 101393255 B1 KR101393255 B1 KR 101393255B1
Authority
KR
South Korea
Prior art keywords
user
voice
speech recognition
speech
keystroke
Prior art date
Application number
KR1020120062741A
Other languages
Korean (ko)
Other versions
KR20130139047A (en
Inventor
김기성
이수빈
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020120062741A priority Critical patent/KR101393255B1/en
Publication of KR20130139047A publication Critical patent/KR20130139047A/en
Application granted granted Critical
Publication of KR101393255B1 publication Critical patent/KR101393255B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

스피치와 키스트로크 조합형 음성 인식 방법 및 음성 인식 장치가 개시된다. 음성 인식 방법은 음성 인식 장치가 사용자로부터 키스트로크(keystroke)와 음성을 입력 받는 단계, 현재까지 입력 받은 상기 키스트로크를 기반으로 상기 음성에 해당하는 후보 단어를 검색하는 단계 및 상기 검색된 후보 단어를 표시하는 단계를 포함할 수 있다.Disclosed is a speech recognition method and speech recognition apparatus in which a speech and keystroke combination type speech recognition method and a speech recognition apparatus are provided. The speech recognition method includes a step of the speech recognition device receiving a keystroke and voice from a user, a step of searching for a candidate word corresponding to the speech based on the keystrokes received so far, .

Description

스피치와 키스트로크 조합형 음성 인식 방법 및 음성 인식 장치{VOICE RECOGNITION METHOD AND APPARATUS COMBINING SPEECH AND KEYSTROKE}TECHNICAL FIELD [0001] The present invention relates to a speech recognition method and a speech recognition apparatus,

본 발명은 사용자로부터 입력 되는 스피치(speech)와 키스트로크(keystroke)를 조합하여 음성을 인식하는 스피치와 키스트로크 조합형 음성 인식 방법 및 음성 인식 장치에 관한 것이다.BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to speech and keystroke combination speech recognition methods and speech recognition apparatuses that recognize speech by combining speech and keystrokes inputted from a user.

음성 인식 기술이란 인간이 발성하는 음성을 컴퓨터가 인식할 수 있도록 문자 또는 코드 등으로 변환하는 기술이다. 이와 같은 음성 인식 기술은 타이핑으로 문자를 입력하는 것 보다 빠른 속도로 문자를 입력할 수 있기 때문에, 음성 인식 기술의 정확도를 높이기 위한 연구가 활발히 진행되고 있다.Speech recognition technology is a technology that converts a human voice into a character or code so that the computer can recognize it. Since such a speech recognition technology can input a character at a higher speed than a character input by typing, researches for increasing the accuracy of the speech recognition technology are actively conducted.

그러나, 현재까지 개발된 음성 인식 기술은 음성 인식률이 완벽하지 않다. 따라서, 각 사용자의 개인차(예를 들어, 성별, 거주 지역 등)에 따라 서로 다른 인식률을 보인다. 더욱이, 한국인이 영어를 발음하는 경우와 같이, 사용자가 외국어를 발음하는 경우에는 사용자의 발음이 원어민에 비해 부정확하기 때문에 더 낮은 인식률을 보인다.However, speech recognition technology developed to date does not have perfect speech recognition rate. Therefore, different recognition rates are shown according to the individual differences of each user (for example, sex, residence area, etc.). Furthermore, when a user pronounces a foreign language, as in the case of a Korean speaking English, the pronunciation of the user is inaccurate compared to the native speaker, and thus the recognition rate is lower.

따라서, 사용자가 부정확한 발음을 입력하거나 외국어를 발음하는 경우에도 보다 간편하고 정확하게 음성을 인식할 수 있는 방법이 요구되고 있다.Accordingly, there is a need for a method that can more easily and accurately recognize speech even when a user inputs incorrect pronunciation or pronounces a foreign language.

사용자의 개인차에 무관하게 간편하고 정확하게 음성을 인식할 수 있는 스피치와 키스트로크 조합형 음성 인식 방법 및 음성 인식 장치가 제공된다.There is provided a speech recognition method and speech recognition apparatus capable of recognizing a speech in a simple and accurate manner irrespective of a user's individual difference.

사용자가 부정확한 발음을 입력하거나 외국어를 발음하는 경우에도 정확하게 음성을 인식할 수 있는 스피치와 키스트로크 조합형 음성 인식 방법 및 음성 인식 장치가 제공된다.There is provided a speech recognition method and speech recognition apparatus capable of accurately recognizing a speech even when a user inputs an incorrect pronunciation or a foreign language.

음성 인식 방법은 음성 인식 장치가 사용자로부터 키스트로크(keystroke)와 음성을 입력 받는 단계, 현재까지 입력 받은 상기 키스트로크를 기반으로 상기 음성에 해당하는 후보 단어를 검색하는 단계 및 상기 검색된 후보 단어를 표시하는 단계를 포함할 수 있다.The speech recognition method includes a step of the speech recognition device receiving a keystroke and voice from a user, a step of searching for a candidate word corresponding to the speech based on the keystrokes received so far, .

일측에 따르면, 상기 후보 단어를 검색하는 단계는 상기 입력 받은 키스트로크를 포함하는 후보 단어 중 인식된 상기 음성에 해당하는 후보 단어를 검색하는 단계일 수 있다.According to one aspect of the present invention, the step of searching for the candidate word may be a step of searching for a candidate word corresponding to the recognized speech among the candidate words including the input keystroke.

다른 측면에 따르면, 상기 후보 단어를 검색하는 단계는 상기 키스트로크 및 상기 음성 중 어느 하나를 마지막으로 입력 받은 시간으로부터 기 설정된 시간이 경과하는 경우 수행될 수 있다.According to another aspect, the step of searching for the candidate word may be performed when a preset time elapses from the time when the keystroke and / or the voice was last input.

또 다른 측면에 따르면, 상기 표시된 후보 단어에 상기 사용자가 원하는 단어가 포함되지 않는 경우 상기 키스트로크 및 상기 음성 중 적어도 하나를 추가로 입력 받는 단계를 더 포함할 수 있다.According to another aspect, the method may further include receiving at least one of the keystroke and the voice when the user does not include a desired word in the displayed candidate word.

또 다른 측면에 따르면, 상기 입력된 음성은 음성 인식 지원 시스템으로 전송되고 사용자 정보를 기초로 군집화된 후 분석됨으로써 상기 사용자의 음성 인식을 위한 학습 모델의 생성에 이용될 수 있다.According to another aspect of the present invention, the input voice is transmitted to a voice recognition support system and is clustered on the basis of user information and analyzed, thereby being used for generating a learning model for voice recognition of the user.

또 다른 측면에 따르면, 상기 사용자 정보는 상기 사용자가 위치하는 지역에 대한 정보, 상기 사용자의 외국어 학습 레벨에 대한 정보 및 상기 사용자의 성별에 대한 정보 중 적어도 하나를 포함할 수 있다.According to another aspect, the user information may include at least one of information on an area where the user is located, information on a foreign language learning level of the user, and information on a sex of the user.

또 다른 측면에 따르면, 상기 후보 단어를 검색하는 단계는 상기 음성 인식 지원 시스템에서 생성된 학습 모델을 수신하고 상기 수신한 학습 모델을 기초로 상기 후보 단어를 검색하는 단계일 수 있다.According to another aspect, the step of searching for the candidate word may be a step of receiving the learning model generated in the speech recognition support system and searching for the candidate word based on the received learning model.

음성 인식 장치는 적어도 하나의 디스플레이, 적어도 하나의 프로세서, 메모리 및 적어도 하나의 프로그램을 포함하고, 상기 프로그램은 상기 메모리에 저장되어 상기 적어도 하나의 프로세서에 의해 실행되도록 구성되고, 사용자로부터 키스트로크(keystroke)와 음성을 입력 받고, 현재까지 입력 받은 상기 키스트로크를 기반으로 상기 음성에 해당하는 후보 단어를 상기 메모리에 저장된 복수개의 후보 단어 중에서 검색하며, 상기 검색된 후보 단어를 상기 디스플레이를 통해 표시하는 명령어를 포함할 수 있다.The speech recognition apparatus includes at least one display, at least one processor, a memory, and at least one program, wherein the program is stored in the memory and is configured to be executed by the at least one processor, the keystroke And a command for searching for a candidate word corresponding to the speech from a plurality of candidate words stored in the memory based on the keystrokes received so far and displaying the retrieved candidate word through the display, .

사용자로부터 현재까지 입력 받은 키스트로크와 음성을 조합하여 입력 받은 음성에 해당하는 후보 단어를 표시함으로써 사용자의 개인차에 무관하게 간편하고 정확하게 음성을 인식할 수 있다.It is possible to recognize the voice easily and accurately regardless of the individual difference of the user by displaying the candidate word corresponding to the inputted voice by combining the keystrokes and voice inputted from the user up to the present.

사용자가 입력한 음성에 기초하여 생성된 학습 모델을 이용하여 음성을 인식하기 때문에 사용자가 부정확한 발음을 입력하거나 외국어를 발음하는 경우에도 정확하게 음성을 인식할 수 있다.Since the speech is recognized using the learning model generated based on the speech inputted by the user, the speech can be correctly recognized even when the user inputs an incorrect pronunciation or pronounces a foreign language.

도 1은 본 발명의 일실시예에 있어서, 스피치와 키스트로크를 조합하여 음성을 인식하는 방법을 나타내는 흐름도이다.
도 2 및 도 3은 본 발명의 일실시예에 있어서, 스피치와 키스트로크를 조합하여 음성을 인식하는 방법을 설명하기 위한 예시도이다.
도 4는 본 발명의 일실시예에 있어서, 스피치와 키스트로크 조합형 음성 인식 장치 및 음성 인식 지원 시스템을 나타내는 블록도이다.
1 is a flowchart illustrating a method of recognizing speech by combining speech and keystrokes in one embodiment of the present invention.
2 and 3 are diagrams for explaining a method of recognizing speech by combining speech and keystrokes in an embodiment of the present invention.
4 is a block diagram showing a speech recognition apparatus and a speech recognition support system in a speech and keystroke combination type in one embodiment of the present invention.

이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 일실시예에 있어서, 스피치와 키스트로크를 조합하여 음성을 인식하는 방법을 나타내는 흐름도이다.1 is a flowchart illustrating a method of recognizing speech by combining speech and keystrokes in one embodiment of the present invention.

음성 인식률은 사용자의 성별, 거주 지역 등에 따라 서로 다르다. 또한, 사용자가 외국어를 발음하는 경우에는 사용자의 발음이 원어민에 비해 부정확하기 때문에 음성 인식률이 더 낮은 낮아지게 된다.The voice recognition rate differs depending on the user's sex, residence area, and the like. In addition, when the user pronounces a foreign language, the pronunciation of the user is inaccurate compared to the native speaker, so that the voice recognition rate is lowered.

예를 들어, "Macdonald"라는 단어에 대해서 한국인의 경우 이를 "맥도날드"라고 발음하는 반면, 일본인은 "마끄도나르도"라고 발음하고, 미국인은 "맥다날-드"로 발음한다. 마찬가지로, "Eat"라는 단어에 대해서 한국인은 "이트"로 발음하지만, 중국인은 "이터"로 발음하고, 미국인은 "이잇트"로 발음한다. 그리고, "Spring"이라는 단어에 대해서도 한국인은 "스프링"이라고 발음하지만, 일본인은 "스프링구"로 발음하고, 미국인은 "스쁘륑"으로 발음한다.For example, for the word "Macdonald," Koreans pronounce it as "McDonald" whereas Japanese pronounce it as "MacDonald" and Americans pronounce "McDonald". Likewise, for the word "Eat", Koreans pronounce it as "it", but Chinese pronounce it as "it" and Americans pronounce it as "it". And even for the word "spring", Koreans pronounce it "spring", but Japanese pronounce it "spring sphere" and Americans pronounce it "ス プ 륑".

따라서, 본 발명에 따른 음성 인식 방법은 상술한 것과 같이 사용자가 부정확한 발음을 입력하거나 외국어를 발음하는 경우에도 보다 간편하고 정확하게 사용자의 음성을 인식하기 위하여 사용자로부터 키스트로크(keystroke)와 음성을 입력 받고 이를 조합하여 음성을 인식한다.Therefore, in the speech recognition method according to the present invention, as described above, in order to more easily and accurately recognize the user's voice even when the user inputs an incorrect pronunciation or a foreign language, a keystroke and a voice are inputted from the user And recognizes the voice by combining them.

이를 위해, 음성 인식 장치는 사용자로부터 키스트로크와 음성을 입력 받는다(S110). 이 때, 사용자는 키스트로크와 음성을 동시에 입력하거나, 키스트로크와 음성 중 어느 하나만을 먼저 입력하고 이후 나머지 하나를 입력할 수 있다.To this end, the speech recognition apparatus receives a keystroke and a voice from a user (S110). At this time, the user can simultaneously input the keystroke and the voice, or input only one of the keystroke and the voice, and then input the remaining one.

키스트로크와 음성이 입력되면, 음성 인식 장치는 사용자로부터 마지막으로 키스트로크와 음성 중 어느 하나를 입력 받은 시간으로부터 기 설정된 시간이 경과하는 경우, 현재까지 입력 받은 키스트로크를 기반으로 입력 받은 음성에 해당하는 N 개(여기서, N은 0을 포함하는 자연수)의 후보 단어를 검색한다(S120).If a keystroke and a voice are input, the speech recognition device generates a keystroke and a voice corresponding to the input voice based on the keystrokes inputted until the predetermined time elapses from the time when one of the keystroke and voice was last input from the user (N is a natural number including 0) candidate words are searched (S120).

일 예로, 음성 인식 장치는 사용자로부터 입력 받은 키스트로크에서 텍스트 "t"를 도출하고, 사용자로부터 입력 받은 음성에서 음성 "s"를 도출할 수 있다. 이후, 음성 인식 장치는 다음의 수학식 1을 이용하여 도출된 텍스트 "t"를 포함하는 복수개의 후보 단어 중 인식된 음성 "s"에 해당하는 후보 단어를 검색할 수 있다.For example, the speech recognition apparatus derives the text "t" from the keystrokes received from the user and derives the speech "s" from the speech received from the user. Thereafter, the speech recognition apparatus can search for candidate words corresponding to the recognized speech "s" among a plurality of candidate words including the text "t " derived using the following equation (1).

Figure 112012046655520-pat00001
Figure 112012046655520-pat00001

그리고, 검색된 후보 단어를 음성 인식 장치의 디스플레이를 통해 표시한다(S130).Then, the searched candidate word is displayed on the display of the speech recognition apparatus (S130).

이 때, 디스플레이를 통해 표시된 후보 단어에 사용자가 원하는 단어가 포함되지 않는 경우(S140), 사용자는 음성 인식 장치에 추가적으로 키스트로크를 입력하거나 음성을 다시 입력할 수 있다(S150).At this time, if the candidate word displayed through the display does not include a word desired by the user (S140), the user can input the keystroke or input the voice again to the speech recognition apparatus (S150).

음성 인식 장치는 추가적인 키스트로크가 입력되는 경우, 추가적으로 입력된 키스트로크를 포함하는 후보 단어 중 입력 받은 음성에 해당하는 후보 단어를 디스플레이를 통해 표시할 수 있다.When the additional keystrokes are input, the speech recognition apparatus can display a candidate word corresponding to the input speech among the candidate words including the additional input keystroke through the display.

한편, 디스플레이를 통해 표시된 후보 단어가 사용자에 의해 선택되는 경우(S140), 음성 인식 장치는 선택된 단어를 디스플레이를 통해 출력할 수 있다(S150).On the other hand, if the candidate word displayed through the display is selected by the user (S140), the speech recognition apparatus can output the selected word through the display (S150).

이와 같은 과정으로 통해 음성 인식 장치에 입력된 음성은 사용자의 음성을 보다 정확하게 인식할 수 있도록 지원하는 음성 인식 지원 시스템으로 전송될 수 있다. 이 경우, 음성 인식 지원 시스템은 음성 인식 장치로부터 수신한 음성을 사용자 정보를 기초로 군집화한 후 분석함으로써 사용자의 음성 인식을 위한 학습 모델을 생성할 수 있다.Through the above process, the voice inputted to the voice recognition device can be transmitted to the voice recognition support system which supports the voice recognition of the user more accurately. In this case, the speech recognition support system can generate a learning model for user's speech recognition by grouping and analyzing the speech received from the speech recognition apparatus based on the user information.

이 때, 사용자 정보에는 사용자가 위치하는 지역에 대한 정보, 상기 사용자의 외국어 학습 레벨에 대한 정보, 상기 사용자의 성별에 대한 정보 등이 포함될 수 있다. 여기서, 사용자가 위치하는 지역에 대한 정보는 GPS(Global Positioning System)와 같은 위치 확인 시스템을 통해 입력 되거나, 사용자로부터 입력 받을 수 있다.At this time, the user information may include information on an area where the user is located, information on the foreign language learning level of the user, information on the sex of the user, and the like. Here, the information on the area where the user is located may be inputted through a location confirmation system such as GPS (Global Positioning System) or inputted from a user.

음성 인식 지원 시스템은 사용자로부터 수신된 음성을 기초로 생성한 학습 모델을 음성 인식 장치로 전송할 수 있다. 이 경우, 음성 인식 장치는 음성 인식 지원 시스템으로부터 수신한 학습 모델을 기초로 후보 단어를 검색함으로써 인식률을 보다 향상시킬 수 있다.The speech recognition support system can transmit the learning model generated based on the speech received from the user to the speech recognition apparatus. In this case, the speech recognition apparatus can improve the recognition rate by searching candidate words based on the learning model received from the speech recognition support system.

도 2 및 도 3은 본 발명의 일실시예에 있어서, 스피치와 키스트로크를 조합하여 음성을 인식하는 방법을 설명하기 위한 예시도이다. 이하에서는, 본 발명에 따른 음성 인식 방법이 전자 사전에 적용된 경우를 예를 들어 설명한다.2 and 3 are diagrams for explaining a method of recognizing speech by combining speech and keystrokes in an embodiment of the present invention. Hereinafter, a case where the speech recognition method according to the present invention is applied to an electronic dictionary will be described by way of example.

먼저 도 2를 참조하면, 사용자는 도 2(a)에 도시된 것과 같이 "refrigerator"에 대한 의미를 검색하기 위해 입력 인터페이스(210)를 통해 "R"이라는 키스트로크를 입력할 수 있다. 이후, 사용자가 입력 인터페이스(210)를 통해 음성으로 "refrigerator"를 입력하면, 음성 인식 장치는 "R"이라는 키스트로크를 포함하고 "refrigerator"라는 음성에 해당하는 후보 단어를 검색할 수 있다.Referring first to Figure 2, the user may enter a keystroke "R" through the input interface 210 to retrieve the meaning for "refrigerator ", as shown in Figure 2 (a). Thereafter, when the user inputs "refrigerator" by voice through the input interface 210, the speech recognition apparatus can search for a candidate word corresponding to the voice "refrigerator" including a key stroke of "R".

이때, 음성 인식 장치는 사용자로부터 키스트로크 또는 음성을 마지막으로 입력 받은 시간으로부터 기 설정된 시간이 경과하는 경우, 현재까지 입력 받은 키스트로크를 기반으로 입력 받은 음성에 해당하는 N 개의 후보 단어를 검색할 수 있다.At this time, if the predetermined time elapses from the time when the keystroke or voice was last input from the user, the speech recognition apparatus can search N candidate words corresponding to the inputted speech based on the keystrokes inputted so far have.

도 2(b)에는 일 예로, 사용자가 "Ref"라는 키스트로크를 입력하고 "refrigerator"라는 음성을 입력한 경우를 나타낸다. 이 경우, 음성 인식 장치는 "Ref"라는 키스트로크를 포함하는 복수개의 후보 단어 중 사용자가 발음한 "refrigerator"라는 음성에 해당하는 후보 단어(220)인 "refrigerator" 및 "refrigerated"를 표시할 수 있다.In Fig. 2 (b), for example, a user inputs a keystroke "Ref" and a voice "refrigerator" is input. In this case, the speech recognition apparatus can display " refrigerator " and "refrigerated " which are candidate words 220 corresponding to the voice of" refrigerator "pronounced by the user among a plurality of candidate words including a key stroke & have.

이후, 사용자가 "refrigerator"라는 후보 단어(220)를 선택하면 음성 인식 장치는 도 2(c)에 도시된 것과 같이, 음성 인식에 대한 결과로서 "refrigerator: 냉장고"라는 단어(230)를 출력할 수 있다.Thereafter, when the user selects the candidate word 220 of "refrigerator ", the speech recognition apparatus outputs the word" refrigerator: refrigerator "230 as a result of speech recognition, as shown in FIG. 2 (c) .

한편, 도 3(a)에 도시된 것과 같이 사용자가 "Spring"에 대한 의미를 검색하기 위해 입력 인터페이스(310)를 통해 "S"라는 키스트로크를 입력하고, "Spring"을 발음하면, 음성 인식 장치는 "S"라는 키스트로크를 포함하고 "Spring"이라는 음성에 해당하는 후보 단어를 검색할 수 있다.On the other hand, when a user inputs a keystroke called "S " through the input interface 310 to search for the meaning of" Spring " The device may include a keystroke called "S " and search for a candidate word corresponding to the voice" Spring ".

그러나, 사용자가 일본인이기 때문에 "Spring"을 "스프링구"로 발음한 경우, 음성 인식 장치는 도 3(b)에 도시된 것과 같이 "Sp"라는 키스트로크 및 "스프링구"라는 음성에 해당하는 후보 단어(320) "Spring up"이외에, 사용자 정보에 기초한 학습 모델을 이용하여 일본인의 발음 "스프링구"에 해당하는 "Spring"을 후보 단어(320)로서 표시함으로써 후보 단어의 선택을 통해 "Spring: 용수철"이라는 정확한 단어(330)가 출력되도록 할 수 있다.However, when the user is Japanese, "Spring" is pronounced as "spring sphere ", the speech recognition apparatus generates a key stroke" Sp " "Spring" corresponding to Japanese pronunciation "spring sphere" is displayed as the candidate word 320 by using a learning model based on user information in addition to the candidate word 320 "Spring up" Quot; spring "is output.

따라서, 본 발명에 따른 음성 인식 장치는 사용자가 부정확한 발음을 입력하거나 외국어를 발음하는 경우에도 사용자의 거주 지역, 성별, 외국어 학습 레벨 등에 기초한 학습 모델을 이용하여 정확하게 음성을 인식할 수 있다.Therefore, the speech recognition apparatus according to the present invention can correctly recognize the speech using the learning model based on the user's residence area, sex, foreign language learning level, etc. even when the user inputs an incorrect pronunciation or pronounces a foreign language.

이상에서는 본 발명에 따른 음성 인식 방법이 전자 사전에 적용된 경우를 예를 들어 설명하였지만, 본 발명은 이에 한정되는 것이 아니라 스마트폰, PDA, 데스크탑 PC, 네비게이션, 태블릿 PC 등과 같은 다양한 단말에 적용되어, 음성 인식을 통한 검색, 텍스트 입력 등에 사용될 수 있다.Although the speech recognition method according to the present invention is applied to an electronic dictionary, the present invention is not limited thereto. The present invention can be applied to various terminals such as a smart phone, a PDA, a desktop PC, a navigation system, Searching through voice recognition, inputting text, and the like.

도 4는 본 발명의 일실시예에 있어서, 스피치와 키스트로크 조합형 음성 인식 장치 및 음성 인식 지원 시스템을 나타내는 블록도이다. 이하, 도 4를 참조하여 본 발명에 따른 음성 인식 장치(410)와 이를 지원하는 음성 인식 지원 시스템(420)에 대해 보다 상세히 설명한다.4 is a block diagram showing a speech recognition apparatus and a speech recognition support system in a speech and keystroke combination type in one embodiment of the present invention. Hereinafter, a speech recognition apparatus 410 according to the present invention and a speech recognition support system 420 supporting the same will be described in detail with reference to FIG.

음성 인식 장치(410)는 적어도 하나의 디스플레이(412), 적어도 하나의 프로세서(414), 메모리(416) 및 적어도 하나의 프로그램(418)을 포함할 수 있다.Speech recognition device 410 may include at least one display 412, at least one processor 414, memory 416, and at least one program 418.

상기 프로그램(418)은 메모리(416)에 저장되어 프로세서(414)에 의해 실행되도록 구성될 수 있다. 상기 프로그램(418)은 소정의 입력 인터페이스를 통해 사용자로부터 키스트로크(keystroke)와 음성을 입력 받고, 현재까지 입력 받은 키스트로크를 기반으로 입력 받은 음성에 해당하는 후보 단어를 메모리(416)에 저장된 복수개의 후보 단어 중에서 검색하며, 검색된 후보 단어를 디스플레이(412)를 통해 표시하는 명령어를 포함할 수 있다.The program 418 may be stored in the memory 416 and configured to be executed by the processor 414. [ The program 418 receives a keystroke and a voice from a user through a predetermined input interface and receives a candidate word corresponding to a voice inputted based on the keystrokes inputted up to now to a plurality of words stored in the memory 416 And displaying the retrieved candidate word through the display 412. [0050] FIG.

구체적으로, 상기 프로그램(418)은 입력 인터페이스를 통해 입력 받은 키스트로크를 포함하는 복수개의 후보 단어 중 인식된 음성에 해당하는 후보 단어를 검색할 수 있다.Specifically, the program 418 can search candidate words corresponding to recognized speech out of a plurality of candidate words including keystrokes inputted through an input interface.

그리고, 상기 프로그램(418)은 사용자로부터 키스트로크 또는 음성을 마지막으로 입력 받은 시간으로부터 기 설정된 시간이 경과하는 경우에 후보 단어를 검색할 수 있다.The program 418 may search for a candidate word when a preset time elapses from the time when the keystroke or voice was last input from the user.

또한, 상기 프로그램(418)은 디스플레이를 통해 표시된 후보 단어에 사용자가 원하는 단어가 포함되지 않는 경우 사용자가 추가적으로 키스트로크 또는 음성을 입력할 수 있도록 함으로써 추가로 입력된 키스트로크 또는 음성을 이용하여 보다 정확하게 음성을 인식할 수 있다.In addition, the program 418 allows a user to additionally input a keystroke or a voice in the case where a word desired by the user is not included in the candidate word displayed through the display, thereby enabling the user to more accurately Voice can be recognized.

음성 인식 장치(410)로 입력된 음성은 유선 또는 무선 네트워크를 통해 음성 인식 지원 시스템(420)으로 전송될 수 있다.The voice input to the voice recognition device 410 may be transmitted to the voice recognition support system 420 via a wired or wireless network.

음성 인식 지원 시스템(420)은 음성 저장부(422), 음성 분석부(424) 및 학습 모델 생성부(426)을 포함할 수 있다.The voice recognition support system 420 may include a voice storage unit 422, a voice analysis unit 424, and a learning model generation unit 426.

음성 저장부(422)는 음성 인식 장치(410)로 음성을 입력한 사용자에 대한 사용자 정보를 기초로 수신한 음성을 군집화하여 저장한다. 여기서, 상기 사용자 정보는 사용자가 위치하는 지역에 대한 정보, 사용자의 외국어 학습 레벨에 대한 정보, 사용자의 성별에 대한 정보 등을 포함할 수 있다. 이러한 사용자 정보는 사용자로부터 입력 받거나, 음성 인식 장치(410)를 통해 수집될 수 있다. 일 예로, 사용자가 위치하는 지역에 대한 정보는 음성 인식 장치(410)에 포함된 GPS(Global Positioning System) 모듈을 통해 수집될 수 있고, 사용자의 외국어 학습 레벨에 대한 정보와 사용자의 성별에 대한 정보는 사용자가 입력한 음성의 분석 결과를 기초로 측정될 수 있다.The voice storage unit 422 groups and stores the voice received based on the user information of the user who has input the voice into the voice recognition apparatus 410. Here, the user information may include information on an area where a user is located, information on a foreign language learning level of a user, information on a sex of a user, and the like. Such user information may be input from the user or collected through the voice recognition device 410. [ For example, the information on the area where the user is located can be collected through a GPS (Global Positioning System) module included in the voice recognition device 410, and information on the foreign language learning level of the user and information on the sex of the user Can be measured based on the analysis result of the voice inputted by the user.

음성 분석부(424)는 음성 저장부(422)에 지역, 성별, 외국어 학습 레벨 등을 기반으로 군집화되어 저장된 음성을 기초로 해당 단어에 대한 사용자들의 음성을 분석한다.The voice analysis unit 424 analyzes users' voices for the corresponding word based on the voice stored in the voice storage unit 422, which is clustered based on the area, sex, foreign language learning level, and the like.

학습 모델 생성부(426)는 음성 분석부(424)에서의 분석 결과를 기초로 각각의 단어에 대해 사용자들이 발음한 음성을 학습하고 이를 기초로 학습 모델을 생성한다.The learning model generation unit 426 learns voices pronounced by the users for each word based on the analysis result in the voice analysis unit 424 and generates a learning model based on the voices.

음성 인식 지원 시스템(420)은 이와 같은 과정을 통해 생성된 학습 모델을 네트워크를 통해 음성 인식 장치(410)로 전송하여 음성 인식 장치(410)의 프로그램이 업데이트(update)되도록 함으로써 음식 인식 장치(410)가 보다 정확하게 음성을 인식할 수 있도록 할 수 있다.The speech recognition support system 420 transmits the generated learning model to the speech recognition device 410 through the network to update the program of the speech recognition device 410 to thereby allow the recognition of the food recognition device 410 Can more accurately recognize the voice.

따라서, 본 발명에 따른 스피치와 키스트로크 조합형 음성 인식 방법 및 음성 인식 장치는 사용자로부터 현재까지 입력 받은 키스트로크와 음성을 조합하여 입력 받은 음성에 해당하는 후보 단어를 표시함으로써 사용자의 개인차에 무관하게 간편하고 정확하게 음성을 인식할 수 있다.Therefore, the speech and keystroke combination type speech recognition method and speech recognition apparatus according to the present invention can display a candidate word corresponding to the input speech by combining the keystrokes and voice input from the user so far, And can accurately recognize the voice.

또한, 본 발명에 따른 음성 인식 방법 및 음성 인식 장치는 사용자가 입력한 음성에 기초하여 생성된 학습 모델을 이용하여 음성을 인식하기 때문에 사용자가 부정확한 발음을 입력하거나 외국어를 발음하는 경우에도 정확하게 음성을 인식할 수 있다.Further, since the speech recognition method and the speech recognition apparatus according to the present invention recognize the speech using the learning model generated based on the speech inputted by the user, even when the user inputs an incorrect pronunciation or pronounces a foreign language, Can be recognized.

본 발명의 실시예들은 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터 판독 가능 매체를 포함한다. 특히, 본 실시예에서는 디스플레이를 구비한 전자 장치에 의해 실행될 경우, 상기 전자 장치로 하여금 상술한 음성 인식 방법을 수행하도록 하는 명령어들을 포함하는 하나 이상의 프로그램을 저장한 컴퓨터 판독가능 저장 매체를 포함할 수 있다. 본 실시예에 따른 프로그램은 PC 기반의 프로그램 또는 휴대 단말 전용 애플리케이션(예를 들어, 스마트폰 애플리케이션, 피쳐폰 VM(virtual machine) 등의 형태) 등으로 구성될 수 있다. 이는 사용자 단말의 메모리에 저장되어 사용자 단말에서 구동되는 하나 이상의 프로세서에 의해 실행되도록 구성될 수 있다.Embodiments of the present invention include computer readable media including program instructions for performing various computer implemented operations. In particular, the present embodiment may include a computer readable storage medium having stored thereon one or more programs that, when executed by an electronic device having a display, include instructions for causing the electronic device to perform the speech recognition method described above have. The program according to the present embodiment can be configured as a PC-based program or a portable terminal-dedicated application (for example, in the form of a smartphone application, a feature phone VM (virtual machine), etc.). Which may be stored in the memory of the user terminal and configured to be executed by one or more processors running on the user terminal.

상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 또한, 상술한 파일 시스템은 컴퓨터 판독이 가능한 기록 매체에 기록될 수 있다.The computer-readable medium may include program instructions, data files, data structures, and the like, alone or in combination. The program instructions recorded on the medium may be those specially designed and constructed for the present invention or may be available to those skilled in the art of computer software. Furthermore, the above-described file system can be recorded on a computer-readable recording medium.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.While the invention has been shown and described with reference to certain preferred embodiments thereof, it will be understood by those of ordinary skill in the art that various changes in form and details may be made therein without departing from the spirit and scope of the invention as defined by the appended claims. This is possible.

그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.Therefore, the scope of the present invention should not be limited to the described embodiments, but should be determined by the equivalents of the claims, as well as the claims.

Claims (15)

컴퓨터로 구현되는 음성 인식 방법에 있어서,
음성 인식 장치가 사용자로부터 키스트로크(keystroke)와 음성을 입력 받는 단계;
현재까지 입력 받은 상기 키스트로크를 포함하는 후보 단어 중 인식된 상기 음성에 해당하는 후보 단어를 검색하는 단계; 및
상기 검색된 후보 단어를 표시하는 단계
를 포함하고,
상기 사용자로부터 입력된 음성은,
음성 인식 지원 시스템으로 전송되고 사용자 정보를 기초로 군집화된 후 분석됨으로써, 상기 사용자의 음성 인식을 위한 학습 모델의 생성에 이용되고,
상기 사용자 정보는,
상기 사용자의 국적에 대한 정보, 사용자가 발음하는 언어에 대한 정보, 상기 사용자의 외국어 학습 레벨에 대한 정보를 포함하고,
상기 학습 모델은,
상기 음성 인식 지원 시스템에서 분석된 결과를 기초로 상기 사용자가 발음한 음성을 학습함으로써 생성되고,
상기 후보 단어를 검색하는 단계는,
상기 음성 인식 지원 시스템에서 생성된 학습 모델을 수신하고 상기 수신한 학습 모델을 기초로 상기 후보 단어를 검색하는 단계인 것을 특징으로 하는 음성 인식 방법.
A computer-implemented speech recognition method,
Receiving a keystroke and voice from a user;
Retrieving candidate words corresponding to the recognized speech among candidate words including the keystrokes inputted up to now; And
Displaying the searched candidate word
Lt; / RTI >
The voice inputted from the user is,
The speech recognition system is used to generate a learning model for speech recognition of the user by being transmitted to a speech recognition support system and clustered based on user information and analyzed,
The user information includes:
Information on the user's nationality, information on a language spoken by the user, and information on a foreign language learning level of the user,
The learning model includes:
A voice recognition system for recognizing a voice generated by the user based on the analyzed result of the voice recognition support system,
Wherein the step of searching for the candidate word comprises:
And receiving the learning model generated in the speech recognition support system and searching for the candidate word based on the received learning model.
삭제delete 제1항에 있어서,
상기 후보 단어를 검색하는 단계는,
상기 키스트로크 및 상기 음성 중 어느 하나를 마지막으로 입력 받은 시간으로부터 기 설정된 시간이 경과하는 경우 수행되는 것을 특징으로 하는 음성 인식 방법.
The method according to claim 1,
Wherein the step of searching for the candidate word comprises:
And a predetermined time elapses from a time when one of the keystrokes and the voice is finally input.
제1항에 있어서,
상기 표시된 후보 단어에 상기 사용자가 원하는 단어가 포함되지 않는 경우 상기 키스트로크 및 상기 음성 중 적어도 하나를 추가로 입력 받는 단계
를 더 포함하는 것을 특징으로 하는 음성 인식 방법.
The method according to claim 1,
Receiving at least one of the keystroke and the voice when the user does not include a desired word in the displayed candidate word
Further comprising the steps of:
삭제delete 삭제delete 삭제delete 디스플레이를 포함하는 전자 장치에 의해 실행될 경우, 상기 전자 장치로 하여금 제1항, 제3항 및 제4항 중 어느 한 항의 음성 인식 방법을 수행하도록 하는 명령어들을 포함하는 하나 이상의 프로그램을 저장한 컴퓨터 판독 가능 저장 매체.Computer readable medium storing one or more programs that, when executed by an electronic device including a display, comprises instructions for causing the electronic device to perform the speech recognition method of any one of claims 1, 3, Possible storage medium. 적어도 하나의 디스플레이;
적어도 하나의 프로세서;
메모리; 및
적어도 하나의 프로그램
을 포함하고,
상기 프로그램은,
상기 메모리에 저장되어 상기 적어도 하나의 프로세서에 의해 실행되도록 구성되고,
사용자로부터 키스트로크(keystroke)와 음성을 입력 받고,
현재까지 입력 받은 상기 키스트로크를 포함하는 후보 단어 중 인식된 상기 음성에 해당하는 후보 단어를 상기 메모리에 저장된 복수개의 후보 단어 중에서 검색하며,
상기 검색된 후보 단어를 상기 디스플레이를 통해 표시하는 명령어를 포함하고,
상기 사용자로부터 입력된 음성은,
음성 인식 지원 시스템으로 전송되고 사용자 정보를 기초로 군집화된 후 분석됨으로써, 상기 사용자의 음성 인식을 위한 학습 모델의 생성에 이용되고,
상기 사용자 정보는,
상기 사용자의 국적에 대한 정보, 사용자가 발음하는 언어에 대한 정보, 상기 사용자의 외국어 학습 레벨에 대한 정보를 포함하고,
상기 학습 모델은,
상기 음성 인식 지원 시스템에서 분석된 결과를 기초로 상기 사용자가 발음한 음성을 학습함으로써 생성되고,
상기 검색은,
상기 음성 인식 지원 시스템에서 생성된 학습 모델을 수신하고 상기 수신한 학습 모델을 기초로 상기 후보 단어를 검색하는 것을 특징으로 하는 음성 인식 장치.
At least one display;
At least one processor;
Memory; And
At least one program
/ RTI >
The program includes:
A processor configured to be stored in the memory and to be executed by the at least one processor,
Receives a keystroke and voice from a user,
A candidate word corresponding to the recognized speech among the candidate words including the input keystrokes so far is searched among a plurality of candidate words stored in the memory,
And displaying the retrieved candidate word through the display,
The voice inputted from the user is,
The speech recognition system is used to generate a learning model for speech recognition of the user by being transmitted to a speech recognition support system and clustered based on user information and analyzed,
The user information includes:
Information on the user's nationality, information on a language spoken by the user, and information on a foreign language learning level of the user,
The learning model includes:
A voice recognition system for recognizing a voice generated by the user based on the analyzed result of the voice recognition support system,
The search may include:
Receives the learning model generated by the speech recognition support system, and searches the candidate word based on the received learning model.
삭제delete 제9항에 있어서,
상기 프로그램은,
상기 키스트로크 및 상기 음성 중 어느 하나를 마지막으로 입력 받은 시간으로부터 기 설정된 시간이 경과하는 경우 상기 후보 단어를 검색하는 것을 특징으로 하는 음성 인식 장치.
10. The method of claim 9,
The program includes:
And searches for the candidate word if a preset time elapses from the time when the keystroke and / or the voice were last input.
제9항에 있어서,
상기 프로그램은,
상기 표시된 후보 단어에 상기 사용자가 원하는 단어가 포함되지 않는 경우 상기 키스트로크 및 상기 음성 중 적어도 하나를 추가로 입력 받는 것을 특징으로 하는 음성 인식 장치.
10. The method of claim 9,
The program includes:
Wherein at least one of the keystroke and the voice is further input when the user does not include a desired word in the displayed candidate word.
삭제delete 삭제delete 삭제delete
KR1020120062741A 2012-06-12 2012-06-12 Voice recognition method and apparatus combining speech and keystroke KR101393255B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120062741A KR101393255B1 (en) 2012-06-12 2012-06-12 Voice recognition method and apparatus combining speech and keystroke

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120062741A KR101393255B1 (en) 2012-06-12 2012-06-12 Voice recognition method and apparatus combining speech and keystroke

Publications (2)

Publication Number Publication Date
KR20130139047A KR20130139047A (en) 2013-12-20
KR101393255B1 true KR101393255B1 (en) 2014-05-08

Family

ID=49984474

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120062741A KR101393255B1 (en) 2012-06-12 2012-06-12 Voice recognition method and apparatus combining speech and keystroke

Country Status (1)

Country Link
KR (1) KR101393255B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11875816B2 (en) 2020-10-26 2024-01-16 Samsung Electronics Co., Ltd. Electronic device and method for controlling thereof

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11875816B2 (en) 2020-10-26 2024-01-16 Samsung Electronics Co., Ltd. Electronic device and method for controlling thereof

Also Published As

Publication number Publication date
KR20130139047A (en) 2013-12-20

Similar Documents

Publication Publication Date Title
US10579730B1 (en) Allowing spelling of arbitrary words
US10192545B2 (en) Language modeling based on spoken and unspeakable corpuses
KR102596446B1 (en) Modality learning on mobile devices
CN106098060B (en) Method and device for error correction processing of voice
US9483459B1 (en) Natural language correction for speech input
JP6251958B2 (en) Utterance analysis device, voice dialogue control device, method, and program
KR102332729B1 (en) Speech recognition method and apparatus, speech recognition engine generation method and apparatus based on pronounce similarity
KR102256705B1 (en) Training acoustic models using modified terms
US20150073801A1 (en) Apparatus and method for selecting a control object by voice recognition
JP2015206906A (en) Speech retrieval method, speech retrieval device, and program for speech retrieval device
TW201337911A (en) Electrical device and voice identification method
JP2020516980A (en) Contextual deep bookmarking
CN104182381A (en) character input method and system
KR20210108557A (en) Method and system for supporting speech recognition to improve speech recognition rate
JP2008234427A (en) Device, method, and program for supporting interaction between user
WO2023129255A1 (en) Intelligent character correction and search in documents
KR101399777B1 (en) Voice recognition supporting method and system for improving an voice recognition ratio
KR101393255B1 (en) Voice recognition method and apparatus combining speech and keystroke
JP2020194494A (en) Information processing device, information processing method, and information processing program
JPWO2017159207A1 (en) Process execution device, process execution device control method, and control program
JP5583230B2 (en) Information search apparatus and information search method
US11935425B2 (en) Electronic device, pronunciation learning method, server apparatus, pronunciation learning processing system, and storage medium
CN112541651B (en) Electronic device, pronunciation learning method, server device, pronunciation learning processing system, and recording medium
JP6572969B2 (en) Speech recognition apparatus, speech recognition system, and program

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170327

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee