KR100474253B1 - Speech recognition method using utterance of the first consonant of word and media storing thereof - Google Patents

Speech recognition method using utterance of the first consonant of word and media storing thereof Download PDF

Info

Publication number
KR100474253B1
KR100474253B1 KR10-2002-0079226A KR20020079226A KR100474253B1 KR 100474253 B1 KR100474253 B1 KR 100474253B1 KR 20020079226 A KR20020079226 A KR 20020079226A KR 100474253 B1 KR100474253 B1 KR 100474253B1
Authority
KR
South Korea
Prior art keywords
consonant
vocabulary
recognition
recognized
speech
Prior art date
Application number
KR10-2002-0079226A
Other languages
Korean (ko)
Other versions
KR20040051317A (en
Inventor
이수종
이영직
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR10-2002-0079226A priority Critical patent/KR100474253B1/en
Publication of KR20040051317A publication Critical patent/KR20040051317A/en
Application granted granted Critical
Publication of KR100474253B1 publication Critical patent/KR100474253B1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Abstract

본 발명은 단어의 첫 자음 발성을 이용한 음성인식 방법 및 이를 저장한 기록 매체에 관한 것으로, 특히 음성인식 방법은 a) 인식대상 어휘의 첫 자음에 대응되며 사람의 발성에 의해 입력되는 음성신호를 수신하는 단계; b) 상기 수신된 음성신호를 분석하여 대응되는 자음을 인식하는 단계; c) 전체 인식대상 어휘 중에서 상기 인식된 자음에 따라 구분되는 영역에 있는 어휘를 인식대상 어휘로 축소하는 단계; d) 사람의 발성에 의해 입력되는 인식대상 어휘에 대응되는 음성신호를 수신하는 단계; 및 e) 상기 c) 단계에서 축소된 인식대상 어휘를 대상으로 상기 d) 단계에서 수신된 음성 신호를 분석하여 음성인식을 수행한 후 음성인식 결과를 출력하는 단계를 포함한다. 본 발명에 따르면, 동시에 인식해야 하는 인식대상 어휘가 현저하게, 예를 들면 인식대상 단어의 첫 자음의 수에 반비례하여 평균적으로 1/19정도 줄어들 수 있다. 또한, 한글 자음의 발음은 ㄱ, ㄴ, ㄷ 등과 같이 발음의 특성상 자음마다 해당 음소가 두 번씩 나오므로 그 만큼 자음의 음성인식에 유리한 점이 있다.The present invention relates to a speech recognition method using a first consonant of a word and a recording medium storing the same. In particular, the speech recognition method includes a) receiving a voice signal corresponding to the first consonant of a target vocabulary and input by human speech. Doing; b) analyzing the received voice signal to recognize a corresponding consonant; c) reducing a vocabulary in a region divided according to the recognized consonants among all recognized vocabulary words into a recognized vocabulary; d) receiving a voice signal corresponding to a recognition target vocabulary input by human speech; And e) analyzing the voice signal received in step d) to perform the voice recognition on the reduced recognition target vocabulary in step c) and outputting a voice recognition result. According to the present invention, the recognition target vocabulary to be recognized at the same time can be significantly reduced, for example, by 1/19 on the average in inverse proportion to the number of first consonants of the recognition target word. In addition, the pronunciation of the Hangul consonants, such as a, b, c, etc., due to the nature of the pronunciation, the phoneme comes out twice for each consonant, there is an advantage in the speech recognition of the consonant.

Description

단어의 첫 자음 발성을 이용한 음성인식 방법 및 이를 저장한 기록 매체 {SPEECH RECOGNITION METHOD USING UTTERANCE OF THE FIRST CONSONANT OF WORD AND MEDIA STORING THEREOF}Speech recognition method using the first consonant of a word and a recording medium storing the same {SPEECH RECOGNITION METHOD USING UTTERANCE OF THE FIRST CONSONANT OF WORD AND MEDIA STORING THEREOF}

본 발명은 음성인식에 관한 것으로, 보다 구체적으로는 단어의 첫 자음 발성을 이용하여 음성인식의 성공률을 향상시키는 음성인식 방법 및 이를 저장한 기록 매체에 관한 것이다.The present invention relates to speech recognition, and more particularly, to a speech recognition method for improving the success rate of speech recognition using a first consonant of a word and a recording medium storing the same.

일반적으로, 음성인식은 음성에 포함된 음향학적 정보로부터 음운 및 언어적 정보를 추출하고, 음성인식기를 통하여 음성어휘 사전에 등록된 어휘를 모델링한 후 이와 가장 유사한 데이터를 찾아내어 반응하게 만드는 일련의 과정이다. In general, speech recognition extracts phonological and linguistic information from acoustic information included in speech, models a vocabulary registered in a speech vocabulary dictionary through a speech recognizer, and then finds and responds to the most similar data. It is a process.

따라서 음성인식의 처리과정 전체에서 인식대상 어휘의 많고 적음은 인식률 향상과 인식속도를 결정하는 중요한 부분을 차지한다. Therefore, in the whole process of speech recognition, many and small words of recognition targets play an important part in determining recognition rate improvement and recognition speed.

현재의 음성인식 기술은 소용량 어휘를 대상으로 하는 고립단어 인식의 수준을 넘어 대규모 어휘를 대상으로 하는 연속 음성인식에 대한 연구가 활발하며, 인식대상 어휘의 처리에 많은 노력을 기울이고 있다. The current speech recognition technology goes beyond the level of isolated word recognition for small vocabulary, and the research on continuous speech recognition for large vocabulary is active.

이와 관련하여 대규모 음성어휘를 인식대상으로 하게 되면서 음성인식률이 큰 해결과제로 부각되어 있다. 인식대상 어휘의 수가 적을 때는 인식률이 상대적으로 높은 반면, 인식대상 어휘의 수가 많아짐에 따라 인식률이 현저하게 떨어지는 현상이 나타나게 되기 때문이다.In this regard, the recognition rate of the speech is becoming a big problem as the large-scale speech vocabulary is recognized. This is because the recognition rate is relatively high when the number of words to be recognized is relatively high, but the recognition rate is markedly decreased as the number of words to be recognized is increased.

현재 음성인식 대상 어휘의 수가 1,000개를 넘는 인식률의 경우, 정제된 실험실 환경에서는 90~95%로 발표되고 있으나, 실생활에서는 주변의 환경잡음과 다양한 통신망 및 통신기기 자체내의 채널잡음으로 인하여 80%가 채 안 되는 수준이다. 이러한 정도의 인식률 수준으로는 성공적인 상용서비스가 불가능하다는 문제점이 있다.At present, the recognition rate of more than 1,000 words for speech recognition is announced as 90 ~ 95% in the refined laboratory environment, but in real life, 80% is due to the environmental noise of the surrounding environment and the channel noise in various communication networks and communication devices themselves. It is less than a level. There is a problem that successful commercial service is not possible at this level of recognition rate.

또한, 가변어 인식기 분야에서는 고정어 인식기에서와는 달리 인식 대상 어휘를 추가, 변경하는 어휘를 수용할 수 있으나 가변어휘 전체를 HMM(Hidden Markov Model) 모델화해야 함으로써 계산량이 증가하고 인식 속도가 느려지는 문제점이 있다. In addition, unlike the fixed word recognizer, the variable word recognizer can accommodate a vocabulary for adding and changing a recognized vocabulary. have.

상기한 문제점을 해결하기 위한 종래 기술로는 한국특허공개공보 제1995-34054호가 있으며, 대어휘 인식대상 어휘 중에서 인식 단어일 확률이 희박한 단어를 제외시켜 인식률 향상을 도모하는 것을 특징으로 하지만, 이 기술은 후보 단어일 가능성이 희박한 단어를 일일이 제외시켜서 인식대상의 범위를 줄이기 위해 후보단어 추출부를 별도로 부가하여야 하며, 인식 단어일 확률이 희박한 단어를 일일이 제외시키는데 시간이 걸린다는 문제점이 있다.Conventional technology for solving the above problems is disclosed in Korea Patent Publication No. 195-34054, characterized in that the recognition rate is improved by excluding words that are less likely to be recognition words from the target vocabulary recognition target vocabulary. In order to reduce the range of the recognition object by excluding a word that is unlikely to be a candidate word, a candidate word extracting unit must be added separately, and it takes a long time to exclude a word that is rarely a recognition word.

따라서, 본 발명의 목적은 상기한 문제점을 해결하기 위한 것으로, 인식 대상 단어가 어떤 자음으로 시작되는 지를 명확히 알도록 함으로써 모든 음성 어휘를 대상으로 하는 대신에 해당 자음으로 시작하는 단어만을 인식대상 어휘로 하여 인식을 수행함으로써 인식률 및 인식 속도를 향상시키는 음성인식 방법 및 이를 저장한 기록 매체를 제공하는 데 있다.Accordingly, an object of the present invention is to solve the above-mentioned problem, so that the words to be recognized by the consonant to clearly know the consonant words, instead of targeting all the speech vocabulary only words that start with the consonant to the recognition target vocabulary The present invention provides a speech recognition method for improving recognition rate and recognition speed by performing recognition, and a recording medium storing the same.

상기 목적을 달성하기 위한, 본 발명의 특징에 따른 음성인식 방법은,In order to achieve the above object, the voice recognition method according to the characteristics of the present invention,

a) 인식대상 어휘의 첫 자음에 대응되며 사람의 발성에 의해 입력되는 음성신호를 수신하는 단계; b) 상기 수신된 음성신호를 분석하여 대응되는 자음을 인식하는 단계; c) 전체 인식대상 어휘 중에서 상기 인식된 자음에 따라 구분되는 영역에 있는 어휘를 인식대상 어휘로 축소하는 단계; d) 사람의 발성에 의해 입력되는 인식대상 어휘에 대응되는 음성신호를 수신하는 단계; 및 e) 상기 c) 단계에서 축소된 인식대상 어휘를 대상으로 상기 d) 단계에서 수신된 음성 신호를 분석하여 음성인식을 수행한 후 음성인식 결과를 출력하는 단계를 포함한다.a) receiving a voice signal corresponding to the first consonant of the recognition target vocabulary and input by a human voice; b) analyzing the received voice signal to recognize a corresponding consonant; c) reducing a vocabulary in a region divided according to the recognized consonants among all recognized vocabulary words into a recognized vocabulary; d) receiving a voice signal corresponding to a recognition target vocabulary input by human speech; And e) analyzing the voice signal received in step d) to perform the voice recognition on the reduced recognition target vocabulary in step c) and outputting a voice recognition result.

여기서, 상기 b) 단계에서는 상기 자음의 인식시 첫 자음 발성의 음가를 인식하고, 상기 c) 단계에서는 상기 b) 단계에서 인식된 첫 자음 발성의 음가와 동일한 첫 자음을 가진 어휘별로 인식대상 어휘 영역을 구분하는 것을 특징으로 한다.Here, in step b), when the consonant is recognized, the phoneme of the first consonant voice is recognized, and in step c), the vocabulary area to be recognized for each vocabulary having the same first consonant as that of the first consonant voice recognized in step b) Characterized by.

이 때, 상기 첫 자음 발성시의 종성의 대표 음가는 'ㄱ', 'ㄴ', 'ㄷ', 'ㄹ', 'ㅁ', 'ㅂ' 및 'ㅇ'의 7개인 것을 특징으로 한다.At this time, the representative phonetic sounds of the first consonant vocalization is characterized in that seven of 'b', 'b', 'c', 'd', 'ㅁ', 'ㅂ' and 'o'.

또한, 상기 대표 음가 'ㄱ'에는 자음 'ㄱ' 및 'ㅋ'이 포함되고, 상기 대표 음가 'ㄴ'에는 자음 'ㄴ'이 포함되며, 상기 대표 음가 'ㄷ'에는 자음 'ㄷ', 'ㅅ', 'ㅈ', 'ㅊ', 'ㅌ' 및 'ㅎ'이 포함되고, 상기 대표 음가 'ㄹ'에는 자음 'ㄹ'이 포함되며, 상기 대표 음가 'ㅁ'에는 'ㅁ'이 포함되고, 상기 대표 음가 'ㅂ'에는 'ㅂ' 및 'ㅍ'이 포함되며, 상기 대표 음가 'ㅇ'에는 'ㅇ'이 포함되는 것을 특징으로 한다.In addition, the representative sound 'b' includes consonants' ㄱ 'and' ㅋ ', the representative sound' b 'includes a consonant' b ', and the representative sound' c 'includes a consonant' c 'and' ㅅ ',' ㅈ ',' ㅊ ',' ㅌ 'and' ㅎ ', the representative note' ㄹ 'includes a consonant' ㄹ ', the representative note' ㅁ 'includes' ㅁ', The representative note 'ㅂ' includes 'ㅂ' and 't', and the representative note '' is characterized by including 'ㅇ'.

본 발명의 다른 특징에 따른 컴퓨터 판독 가능 기록 매체는,According to another aspect of the present invention, a computer readable recording medium includes

음성인식 방법의 단계들을 수행하도록 컴퓨터에 의해 실행 가능한 명령으로 구성되는 프로그램을 유형적으로 구체화한 컴퓨터 판독 가능 기록 매체로서,A computer-readable recording medium tangibly embodying a program consisting of instructions executable by a computer to perform the steps of a speech recognition method,

상기 방법 단계가 a) 인식대상 어휘의 첫 자음에 대응되며 사람의 발성에 의해 입력되는 음성신호를 수신하는 단계; b) 상기 수신된 음성신호를 분석하여 대응되는 자음을 인식하는 단계; c) 전체 인식대상 어휘 중에서 상기 인식된 자음에 따라 구분되는 영역에 있는 어휘를 인식대상 어휘로 축소하는 단계; d) 사람의 발성에 의해 입력되는 인식대상 어휘에 대응되는 음성신호를 수신하는 단계; 및 e) 상기 c) 단계에서 축소된 인식대상 어휘를 대상으로 상기 d) 단계에서 수신된 음성 신호를 분석하여 음성인식을 수행한 후 음성인식 결과를 출력하는 단계를 포함한다.The method may include: a) receiving a voice signal corresponding to the first consonant of the recognition target vocabulary and input by a human voice; b) analyzing the received voice signal to recognize a corresponding consonant; c) reducing a vocabulary in a region divided according to the recognized consonants among all recognized vocabulary words into a recognized vocabulary; d) receiving a voice signal corresponding to a recognition target vocabulary input by human speech; And e) analyzing the voice signal received in step d) to perform the voice recognition on the reduced recognition target vocabulary in step c) and outputting a voice recognition result.

이하, 본 발명의 실시예에 대해 첨부된 도면을 참조하여 상세히 설명한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 실시예에 따른 음성인식 장치의 블록도이다.1 is a block diagram of a voice recognition device according to an embodiment of the present invention.

도 1에 도시된 바와 같이, 본 발명의 실시예에 따른 음성인식 장치는 인식대상 어휘 사전(10) 및 음성인식기(20)를 포함한다.As shown in FIG. 1, a speech recognition apparatus according to an embodiment of the present invention includes a lexical dictionary 10 to be recognized and a speech recognizer 20.

인식대상 어휘 사전(10)에는 대규모의 음성인식 대상 어휘가 HMM 모델화되어 저장되어 있다. 여기서 대규모의 음성인식 대상 어휘의 수는 적어도 1000 단어 이상인 것을 의미한다.In the recognition target vocabulary dictionary 10, a large-scale speech recognition target vocabulary is HMM modeled and stored. Here, the number of words to be recognized on a large scale means that at least 1000 words are used.

이러한 인식대상 어휘 사전(10)에 저장된 어휘는 첫 자음에 따라 영역이 구분되도록 저장된다. The vocabulary stored in the recognition target vocabulary dictionary 10 is stored to distinguish the area according to the first consonant.

첫 자음 발성시 종성의 대표 음가는 첨부한 도 2에 도시되어 있는 바와 같이, 'ㄱ', 'ㄴ', 'ㄷ', 'ㄹ', 'ㅁ', 'ㅂ' 및 'ㅇ'의 7가지로 대표될 수 있다. 예를 들면, 대표 음가가 'ㄱ'인 경우에 해당되는 자음에는 'ㄱ'과 'ㅋ'이 있으며, 'ㄱ'의 발성은 "기역"으로서 마지막 음절 "역"의 종성이 'ㄱ'에 해당되고, 'ㅋ'의 발성이 "키읔"으로서 마지막 음절 "읔"의 음가가 'ㄱ'이 된다. 나머지 6개의 대표 음가에 대해서도 마찬가지로 적용될 수 있다.As shown in the accompanying FIG. 2, representative voice values of the first consonant vocalization are seven kinds of 'a', 'b', 'c', 'ㄹ', 'ㅁ', 'ㅂ' and 'ㅇ'. It can be represented as. For example, the consonants corresponding to the case where the representative phonetic value is 'ㄱ' include 'ㄱ' and 'ㅋ', and the voice of 'ㄱ' is the 'read', and the final syllable 'station' corresponds to the ''. 'ㅋ' vocalization is 'Ki', and the final syllable '읔' becomes 'ㄱ'. The same can be applied to the remaining six representative notes.

인식대상 어휘 사전(10)에 저장된 어휘는 첫 자음의 음가에 따라 영역이 구분되어 저장된다.The vocabulary stored in the recognition target vocabulary dictionary 10 is divided and stored according to the phonetic value of the first consonant.

또한, 인식대상 어휘 사전(10)에는 첫 자음에 따라 영역이 구분되어 HMM 모델이 저장되어 있다.In addition, the recognition target vocabulary dictionary 10 stores regions according to first consonants and stores the HMM model.

이와 같이 자음의 발음을 대상으로 한 것은 한글 자음의 발음은 자음마다 해당 음소가 두 번씩 나오므르 그만큼 자음의 음성인식이 유리하기 때문이다. 이에 비하여 영어의 알파벳은 A, B, C, …, Z 등과 같이 해당 음소가 주로 한 번밖에 발음되지 않으므로 정확한 음성인식에 불리하다.Thus, the pronunciation of the consonants is because the pronunciation of the Hangul consonants is more favorable because the phoneme comes out twice for each consonant. In contrast, the English alphabet is A, B, C,…. Since the phoneme is mainly pronounced only once, such as Z, etc., it is disadvantageous for accurate speech recognition.

한편, 음성인식기(20)는 외부로부터 입력되는 음성신호, 특히 사람의 발성에 의한 음성신호를 입력받아서 그 특징을 추출한 후, 인식대상 어휘 사전(10)에 저장된 대상 어휘의 HMM 모델과 비교하여 통계적 확률값에 따라 그 인식 결과를 출력한다.Meanwhile, the voice recognizer 20 receives a voice signal input from the outside, in particular, a voice signal by human voice, extracts a feature thereof, and compares it with the HMM model of the target vocabulary stored in the recognition target vocabulary dictionary 10. The recognition result is output according to the probability value.

이 때, 음성인식 전처리기(도시되지 않음)는 사람의 발성에 의하여 입력되는 음성신호에 대해 전처리 과정을 수행하여 양자화시켜 음성인식기(20)로 출력한다. 이러한 음성인식 전처리기는 음성인식기(20) 내에 포함될 수도 있다.At this time, the speech recognition preprocessor (not shown) performs a preprocessing process on the speech signal input by the human voice and quantizes it, and outputs the quantized signal to the speech recognizer 20. The speech recognition preprocessor may be included in the speech recognizer 20.

음성인식기(20)는 하나의 단어를 인식하기 위해 2번의 음성인식 동작을 수행한다.The speech recognizer 20 performs two speech recognition operations to recognize a single word.

첫 번째 음성인식 동작은 인식대상 단어의 첫 자음에 대한 음성신호를 입력받아서 인식대상 어휘 사전(10)을 참조하여 인식대상 단어의 첫 자음의 음가를 결정하는 것이다. 이러한 동작은 도 1에서 점선으로 표시되어 있다.The first voice recognition operation is to determine the phonetic value of the first consonant of the word to be recognized by referring to the lexical dictionary 10 to recognize the voice signal for the first consonant of the word to be recognized. This operation is indicated by the dotted line in FIG.

두 번째 음성인식 동작은 인식대상 단어에 대한 음성신호를 입력받은 후, 첫 번째 음성인식 동작에 의해 결정된 음가에 따라 선택된 인식대상 어휘와 비교하여 입력된 단어를 결정하는 것이다. 이러한 동작은 도 1에서 실선으로 표시되어 있다.The second voice recognition operation is to determine the input word by comparing the selected recognition target vocabulary according to the phonetic value determined by the first voice recognition operation after receiving the voice signal for the recognition target word. This operation is indicated by the solid line in FIG.

이하, 첨부한 도 3을 참조하여 본 발명의 실시예에 음성인식 방법에 대해 설명한다.Hereinafter, with reference to the accompanying Figure 3 will be described in the speech recognition method in an embodiment of the present invention.

먼저, 사람이 인식 대상 단어의 첫 자음을 발성하면(S1), 음성인식기(20)에서는 사람에 의해 발성된 첫 자음의 음가를 인식한다(S2).First, when a person utters the first consonant of a word to be recognized (S1), the speech recognizer 20 recognizes the sound value of the first consonant uttered by the person (S2).

사람에 의해 발성된 첫 자음의 음가가 인식되면, 음성인식기(20)는 인식대상어휘 사전(10)에 저장된 전체 어휘 중 인식된 음가의 영역으로 구분된 어휘로 인식대상 어휘 목록을 축소시킨다(S3). When the phonetic value of the first consonant uttered by a person is recognized, the speech recognizer 20 reduces the list of recognized vocabulary words into a vocabulary divided into regions of the recognized phonetic value among all the vocabularies stored in the recognized vocabulary dictionary 10 (S3). ).

그 후, 사람이 실제 인식 대상 단어를 발성하면(S4), 음성인식기(20)는 축소된 어휘 목록을 대상으로 음성 인식을 수행한다(S5).Thereafter, when a person speaks an actual recognition target word (S4), the speech recognizer 20 performs speech recognition on the reduced vocabulary list (S5).

즉, 실제 인식 대상 단어의 음성신호(음성인식 전처리기에 의해 양자화되어 입력되는 음성신호)가 입력되면, 수신된 음성신호에 대한 특징을 추출하고, 축소된 음성 어휘 목록으로부터 대상 어휘를 HMM 모델링하고, 그 결과를 수신된 음성신호의 특징 추출 데이터와 비교하여 통계적 확률값에 따라 인식 결과로 출력한다(S6).That is, when the voice signal (voice signal quantized and input by the voice recognition preprocessor) of the actual word to be recognized is input, the feature of the received voice signal is extracted, the target word is HMM modeled from the reduced voice vocabulary list, The result is compared with the feature extraction data of the received voice signal and output as a recognition result according to the statistical probability value (S6).

이와 같이, 음성인식기(20)가 인식대상 단어의 첫 자음에 맞는 축소된 인식대상 어휘만을 대상으로 HMM 모델링을 수행함으로써 보다 신속하게 인식 결과를 나타낼 수 있게 된다.In this way, the speech recognizer 20 may display the recognition result more quickly by performing the HMM modeling on only the reduced recognition target vocabulary corresponding to the first consonant of the recognition target word.

한편, 상기한 바와 같은 본 발명의 실시예에 따른 음성인식 방법은 프로그램으로 구현되어 컴퓨터로 판독 가능한 형태로 기록 매체(씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다.Meanwhile, the voice recognition method according to the embodiment of the present invention as described above may be implemented as a program and stored in a recording medium (CD-ROM, RAM, ROM, floppy disk, hard disk, magneto-optical disk, etc.) in a computer-readable form. Can be.

비록 본 발명이 가장 실제적이며 바람직한 실시예를 참조하여 설명되었지만, 본 발명은 상기 개시된 실시예에 한정되지 않으며, 후술되는 특허청구범위 내에 속하는 다양한 변형 및 등가물들도 포함한다.Although the present invention has been described with reference to the most practical and preferred embodiment, the present invention is not limited to the above-described embodiment, but also includes various modifications and equivalents within the scope of the following claims.

본 발명에 따르면, 동시에 인식해야 하는 인식대상 어휘가 현저하게, 예를 들면 인식대상 단어의 첫 자음의 수에 반비례하여 평균적으로 1/19정도 줄어들 수 있다. According to the present invention, the recognition target vocabulary to be recognized at the same time can be significantly reduced, for example, by 1/19 on the average in inverse proportion to the number of first consonants of the recognition target word.

또한, 한글 자음의 발음은 ㄱ, ㄴ, ㄷ 등과 같이 발음의 특성상 자음마다 해당 음소가 두 번씩 나오므로 그 만큼 자음의 음성인식에 유리한 점이 있다. In addition, the pronunciation of the Hangul consonants, such as a, b, c, etc., due to the nature of the pronunciation, the phoneme comes out twice for each consonant, there is an advantage in the speech recognition of the consonant.

도 1은 본 발명의 실시예에 따른 음성인식 장치의 블록도이다.1 is a block diagram of a voice recognition device according to an embodiment of the present invention.

도 2는 본 발명의 실시예에 따른 음성인식 장치에서 자음 발성시 종성의 대표 음가를 나타낸 도면이다.2 is a view showing a representative sound value of the final consonants in the speech recognition apparatus according to an embodiment of the present invention.

도 3은 본 발명의 실시예에 따른 음성인식 방법의 순서도이다. 3 is a flowchart of a voice recognition method according to an embodiment of the present invention.

<도면의 주요부분에 대한 부호의 간단한 설명><Brief description of symbols for the main parts of the drawings>

10 : 인식대상 어휘 사전 20 : 음성인식기10: Vocabulary dictionary of recognition 20: Speech recognizer

Claims (6)

a) 인식대상 어휘의 첫 자음에 대응되며 사람의 발성에 의해 입력되는 음성신호를 수신하는 단계;a) receiving a voice signal corresponding to the first consonant of the recognition target vocabulary and input by a human voice; b) 상기 수신된 음성신호를 분석하여 대응되는 자음을 인식하는 단계;b) analyzing the received voice signal to recognize a corresponding consonant; c) 전체 인식대상 어휘 중에서 상기 인식된 자음에 따라 구분되는 영역에 있는 어휘를 인식대상 어휘로 축소하는 단계;c) reducing a vocabulary in a region divided according to the recognized consonants among all recognized vocabulary words into a recognized vocabulary; d) 사람의 발성에 의해 입력되는 인식대상 어휘에 대응되는 음성신호를 수신하는 단계; 및d) receiving a voice signal corresponding to a recognition target vocabulary input by human speech; And e) 상기 c) 단계에서 축소된 인식대상 어휘를 대상으로 상기 d) 단계에서 수신된 음성 신호를 분석하여 음성인식을 수행한 후 음성인식 결과를 출력하는 단계e) performing speech recognition by analyzing the speech signal received in step d) on the reduced recognition target vocabulary in step c) and outputting a speech recognition result; 를 포함하는 음성인식 방법.Speech recognition method comprising a. 제1항에 있어서,The method of claim 1, 상기 b) 단계에서는 상기 자음의 인식시 첫 자음 발성의 음가를 인식하고,In step b), when the consonant is recognized, the phonetic value of the first consonant voice is recognized. 상기 c) 단계에서는 상기 b) 단계에서 인식된 음가와 동일한 첫 자음을 가진 인식대상 어휘 영역을 구분하는 In step c), the recognition target vocab region having the same consonant as the phonetic value recognized in step b) is identified. 것을 특징으로 하는 음성인식 방법.Speech recognition method, characterized in that. 제2항에 있어서,The method of claim 2, 상기 종성의 대표 음가는 'ㄱ', 'ㄴ', 'ㄷ', 'ㄹ', 'ㅁ', 'ㅂ' 및 'ㅇ'의 7개인 것을 특징으로 하는 음성인식 방법.Representative phonetics of the Jongseong 'a', 'b', 'c', 'ㄹ', 'ㅁ', 'ㅂ' and 'ㅇ' voice recognition method characterized in that seven. 제3항에 있어서,The method of claim 3, 상기 대표 음가 'ㄱ'에는 자음 'ㄱ' 및 'ㅋ'이 포함되고,The representative note 'ㄱ' includes consonants 'ㄱ' and 'ㅋ', 상기 대표 음가 'ㄴ'에는 자음 'ㄴ'이 포함되며,The representative note 'b' includes a consonant 'b', 상기 대표 음가 'ㄷ'에는 자음 'ㄷ', 'ㅅ', 'ㅈ', 'ㅊ', 'ㅌ' 및 'ㅎ'이 포함되고,The representative phonetic value 'ㄷ' includes consonants 'ㄷ', 'ㅅ', 'ㅈ', 'ㅊ', 'ㅌ' and 'ㅎ', 상기 대표 음가 'ㄹ'에는 자음 'ㄹ'이 포함되며,The representative note 'ㄹ' includes a consonant 'ㄹ', 상기 대표 음가 'ㅁ'에는 'ㅁ'이 포함되고,The representative note 'ㅁ' includes 'ㅁ', 상기 대표 음가 'ㅂ'에는 'ㅂ' 및 'ㅍ'이 포함되며,The representative note 'ㅂ' includes 'ㅂ' and 'ㄷ', 상기 대표 음가 'ㅇ'에는 'ㅇ'이 포함되는The representative note 'ㅇ' includes 'ㅇ' 것을 특징으로 하는 음성인식 방법.Speech recognition method, characterized in that. 제1항에 있어서,The method of claim 1, 상기 a) 단계 전에, Before step a), 사람의 발성에 의하여 입력되는 음성신호에 대해 전처리 과정을 수행하여 양자화시켜 출력하는 단계를 더 포함하는 음성인식 방법.Speech recognition method further comprises the step of performing a pre-processing process for the speech signal input by the human voice quantization and outputting. 음성인식 방법의 단계들을 수행하도록 컴퓨터에 의해 실행 가능한 명령으로 구성되는 프로그램을 유형적으로 구체화한 컴퓨터 판독 가능 기록 매체에 있어서,A computer-readable recording medium tangibly embodying a program composed of instructions executable by a computer to perform steps of a speech recognition method, 상기 방법 단계가,The method step, a) 인식대상 어휘의 첫 자음에 대응되며 사람의 발성에 의해 입력되는 음성신호를 수신하는 단계;a) receiving a voice signal corresponding to the first consonant of the recognition target vocabulary and input by a human voice; b) 상기 수신된 음성신호를 분석하여 대응되는 자음을 인식하는 단계;b) analyzing the received voice signal to recognize a corresponding consonant; c) 전체 인식대상 어휘 중에서 상기 인식된 자음에 따라 구분되는 영역에 있는 어휘를 인식대상 어휘로 축소하는 단계;c) reducing a vocabulary in a region divided according to the recognized consonants among all recognized vocabulary words into a recognized vocabulary; d) 사람의 발성에 의해 입력되는 인식대상 어휘에 대응되는 음성신호를 수신하는 단계; 및d) receiving a voice signal corresponding to a recognition target vocabulary input by human speech; And e) 상기 c) 단계에서 축소된 인식대상 어휘를 대상으로 상기 d) 단계에서 수신된 음성 신호를 분석하여 음성인식을 수행한 후 음성인식 결과를 출력하는 단계e) performing speech recognition by analyzing the speech signal received in step d) on the reduced recognition target vocabulary in step c) and outputting a speech recognition result; 를 포함하는 컴퓨터 판독 가능 기록 매체.Computer-readable recording medium comprising a.
KR10-2002-0079226A 2002-12-12 2002-12-12 Speech recognition method using utterance of the first consonant of word and media storing thereof KR100474253B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2002-0079226A KR100474253B1 (en) 2002-12-12 2002-12-12 Speech recognition method using utterance of the first consonant of word and media storing thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2002-0079226A KR100474253B1 (en) 2002-12-12 2002-12-12 Speech recognition method using utterance of the first consonant of word and media storing thereof

Publications (2)

Publication Number Publication Date
KR20040051317A KR20040051317A (en) 2004-06-18
KR100474253B1 true KR100474253B1 (en) 2005-03-10

Family

ID=37345292

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2002-0079226A KR100474253B1 (en) 2002-12-12 2002-12-12 Speech recognition method using utterance of the first consonant of word and media storing thereof

Country Status (1)

Country Link
KR (1) KR100474253B1 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100679042B1 (en) * 2004-10-27 2007-02-06 삼성전자주식회사 Method and apparatus for speech recognition, and navigation system using for the same
JP4667082B2 (en) * 2005-03-09 2011-04-06 キヤノン株式会社 Speech recognition method
KR100737343B1 (en) * 2005-12-08 2007-07-09 한국전자통신연구원 Apparatus and Method for recognizing speech
KR100777569B1 (en) * 2006-09-20 2007-11-20 주식회사 케이티 The speech recognition method and apparatus using multimodal

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR900003814A (en) * 1988-08-31 1990-03-27 최근선 Speech Recognition System Using Two-Step Matching of Initial Pre-Matching
KR970022955A (en) * 1995-10-24 1997-05-30 구자홍 Song selection function using voice information
KR19990061765A (en) * 1997-12-31 1999-07-26 윤종용 Korean Speech Recognition Apparatus and Method for Separating Consonants and Vowels
JP2001166789A (en) * 1999-12-10 2001-06-22 Matsushita Electric Ind Co Ltd Method and device for voice recognition of chinese using phoneme similarity vector at beginning or end
JP2002229590A (en) * 2001-02-01 2002-08-16 Atr Onsei Gengo Tsushin Kenkyusho:Kk Speech recognition system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR900003814A (en) * 1988-08-31 1990-03-27 최근선 Speech Recognition System Using Two-Step Matching of Initial Pre-Matching
KR970022955A (en) * 1995-10-24 1997-05-30 구자홍 Song selection function using voice information
KR19990061765A (en) * 1997-12-31 1999-07-26 윤종용 Korean Speech Recognition Apparatus and Method for Separating Consonants and Vowels
JP2001166789A (en) * 1999-12-10 2001-06-22 Matsushita Electric Ind Co Ltd Method and device for voice recognition of chinese using phoneme similarity vector at beginning or end
JP2002229590A (en) * 2001-02-01 2002-08-16 Atr Onsei Gengo Tsushin Kenkyusho:Kk Speech recognition system

Also Published As

Publication number Publication date
KR20040051317A (en) 2004-06-18

Similar Documents

Publication Publication Date Title
US6694296B1 (en) Method and apparatus for the recognition of spelled spoken words
Zissman et al. Automatic language identification
EP1557822B1 (en) Automatic speech recognition adaptation using user corrections
CN109545243B (en) Pronunciation quality evaluation method, pronunciation quality evaluation device, electronic equipment and storage medium
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
US7275034B2 (en) Word-specific acoustic models in a speech recognition system
US7676365B2 (en) Method and apparatus for constructing and using syllable-like unit language models
KR100679044B1 (en) Method and apparatus for speech recognition
JP4301102B2 (en) Audio processing apparatus, audio processing method, program, and recording medium
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
JP4351385B2 (en) Speech recognition system for recognizing continuous and separated speech
US7299178B2 (en) Continuous speech recognition method and system using inter-word phonetic information
JP3126985B2 (en) Method and apparatus for adapting the size of a language model of a speech recognition system
JP5014785B2 (en) Phonetic-based speech recognition system and method
US6539353B1 (en) Confidence measures using sub-word-dependent weighting of sub-word confidence scores for robust speech recognition
JP2011033680A (en) Voice processing device and method, and program
KR20060050361A (en) Hidden conditional random field models for phonetic classification and speech recognition
Pellegrino et al. Automatic language identification: an alternative approach to phonetic modelling
US20100324897A1 (en) Audio recognition device and audio recognition method
KR100474253B1 (en) Speech recognition method using utterance of the first consonant of word and media storing thereof
JP3444108B2 (en) Voice recognition device
JP2001195087A (en) Voice recognition system
Azim et al. Large vocabulary Arabic continuous speech recognition using tied states acoustic models
Mimer et al. Flexible decision trees for grapheme based speech recognition
JPH08314490A (en) Word spotting type method and device for recognizing voice

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130205

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20140123

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20150126

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20160127

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20170124

Year of fee payment: 13

LAPS Lapse due to unpaid annual fee