KR100474253B1 - Speech recognition method using utterance of the first consonant of word and media storing thereof - Google Patents
Speech recognition method using utterance of the first consonant of word and media storing thereof Download PDFInfo
- Publication number
- KR100474253B1 KR100474253B1 KR10-2002-0079226A KR20020079226A KR100474253B1 KR 100474253 B1 KR100474253 B1 KR 100474253B1 KR 20020079226 A KR20020079226 A KR 20020079226A KR 100474253 B1 KR100474253 B1 KR 100474253B1
- Authority
- KR
- South Korea
- Prior art keywords
- consonant
- vocabulary
- recognition
- recognized
- speech
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
Abstract
본 발명은 단어의 첫 자음 발성을 이용한 음성인식 방법 및 이를 저장한 기록 매체에 관한 것으로, 특히 음성인식 방법은 a) 인식대상 어휘의 첫 자음에 대응되며 사람의 발성에 의해 입력되는 음성신호를 수신하는 단계; b) 상기 수신된 음성신호를 분석하여 대응되는 자음을 인식하는 단계; c) 전체 인식대상 어휘 중에서 상기 인식된 자음에 따라 구분되는 영역에 있는 어휘를 인식대상 어휘로 축소하는 단계; d) 사람의 발성에 의해 입력되는 인식대상 어휘에 대응되는 음성신호를 수신하는 단계; 및 e) 상기 c) 단계에서 축소된 인식대상 어휘를 대상으로 상기 d) 단계에서 수신된 음성 신호를 분석하여 음성인식을 수행한 후 음성인식 결과를 출력하는 단계를 포함한다. 본 발명에 따르면, 동시에 인식해야 하는 인식대상 어휘가 현저하게, 예를 들면 인식대상 단어의 첫 자음의 수에 반비례하여 평균적으로 1/19정도 줄어들 수 있다. 또한, 한글 자음의 발음은 ㄱ, ㄴ, ㄷ 등과 같이 발음의 특성상 자음마다 해당 음소가 두 번씩 나오므로 그 만큼 자음의 음성인식에 유리한 점이 있다.The present invention relates to a speech recognition method using a first consonant of a word and a recording medium storing the same. In particular, the speech recognition method includes a) receiving a voice signal corresponding to the first consonant of a target vocabulary and input by human speech. Doing; b) analyzing the received voice signal to recognize a corresponding consonant; c) reducing a vocabulary in a region divided according to the recognized consonants among all recognized vocabulary words into a recognized vocabulary; d) receiving a voice signal corresponding to a recognition target vocabulary input by human speech; And e) analyzing the voice signal received in step d) to perform the voice recognition on the reduced recognition target vocabulary in step c) and outputting a voice recognition result. According to the present invention, the recognition target vocabulary to be recognized at the same time can be significantly reduced, for example, by 1/19 on the average in inverse proportion to the number of first consonants of the recognition target word. In addition, the pronunciation of the Hangul consonants, such as a, b, c, etc., due to the nature of the pronunciation, the phoneme comes out twice for each consonant, there is an advantage in the speech recognition of the consonant.
Description
본 발명은 음성인식에 관한 것으로, 보다 구체적으로는 단어의 첫 자음 발성을 이용하여 음성인식의 성공률을 향상시키는 음성인식 방법 및 이를 저장한 기록 매체에 관한 것이다.The present invention relates to speech recognition, and more particularly, to a speech recognition method for improving the success rate of speech recognition using a first consonant of a word and a recording medium storing the same.
일반적으로, 음성인식은 음성에 포함된 음향학적 정보로부터 음운 및 언어적 정보를 추출하고, 음성인식기를 통하여 음성어휘 사전에 등록된 어휘를 모델링한 후 이와 가장 유사한 데이터를 찾아내어 반응하게 만드는 일련의 과정이다. In general, speech recognition extracts phonological and linguistic information from acoustic information included in speech, models a vocabulary registered in a speech vocabulary dictionary through a speech recognizer, and then finds and responds to the most similar data. It is a process.
따라서 음성인식의 처리과정 전체에서 인식대상 어휘의 많고 적음은 인식률 향상과 인식속도를 결정하는 중요한 부분을 차지한다. Therefore, in the whole process of speech recognition, many and small words of recognition targets play an important part in determining recognition rate improvement and recognition speed.
현재의 음성인식 기술은 소용량 어휘를 대상으로 하는 고립단어 인식의 수준을 넘어 대규모 어휘를 대상으로 하는 연속 음성인식에 대한 연구가 활발하며, 인식대상 어휘의 처리에 많은 노력을 기울이고 있다. The current speech recognition technology goes beyond the level of isolated word recognition for small vocabulary, and the research on continuous speech recognition for large vocabulary is active.
이와 관련하여 대규모 음성어휘를 인식대상으로 하게 되면서 음성인식률이 큰 해결과제로 부각되어 있다. 인식대상 어휘의 수가 적을 때는 인식률이 상대적으로 높은 반면, 인식대상 어휘의 수가 많아짐에 따라 인식률이 현저하게 떨어지는 현상이 나타나게 되기 때문이다.In this regard, the recognition rate of the speech is becoming a big problem as the large-scale speech vocabulary is recognized. This is because the recognition rate is relatively high when the number of words to be recognized is relatively high, but the recognition rate is markedly decreased as the number of words to be recognized is increased.
현재 음성인식 대상 어휘의 수가 1,000개를 넘는 인식률의 경우, 정제된 실험실 환경에서는 90~95%로 발표되고 있으나, 실생활에서는 주변의 환경잡음과 다양한 통신망 및 통신기기 자체내의 채널잡음으로 인하여 80%가 채 안 되는 수준이다. 이러한 정도의 인식률 수준으로는 성공적인 상용서비스가 불가능하다는 문제점이 있다.At present, the recognition rate of more than 1,000 words for speech recognition is announced as 90 ~ 95% in the refined laboratory environment, but in real life, 80% is due to the environmental noise of the surrounding environment and the channel noise in various communication networks and communication devices themselves. It is less than a level. There is a problem that successful commercial service is not possible at this level of recognition rate.
또한, 가변어 인식기 분야에서는 고정어 인식기에서와는 달리 인식 대상 어휘를 추가, 변경하는 어휘를 수용할 수 있으나 가변어휘 전체를 HMM(Hidden Markov Model) 모델화해야 함으로써 계산량이 증가하고 인식 속도가 느려지는 문제점이 있다. In addition, unlike the fixed word recognizer, the variable word recognizer can accommodate a vocabulary for adding and changing a recognized vocabulary. have.
상기한 문제점을 해결하기 위한 종래 기술로는 한국특허공개공보 제1995-34054호가 있으며, 대어휘 인식대상 어휘 중에서 인식 단어일 확률이 희박한 단어를 제외시켜 인식률 향상을 도모하는 것을 특징으로 하지만, 이 기술은 후보 단어일 가능성이 희박한 단어를 일일이 제외시켜서 인식대상의 범위를 줄이기 위해 후보단어 추출부를 별도로 부가하여야 하며, 인식 단어일 확률이 희박한 단어를 일일이 제외시키는데 시간이 걸린다는 문제점이 있다.Conventional technology for solving the above problems is disclosed in Korea Patent Publication No. 195-34054, characterized in that the recognition rate is improved by excluding words that are less likely to be recognition words from the target vocabulary recognition target vocabulary. In order to reduce the range of the recognition object by excluding a word that is unlikely to be a candidate word, a candidate word extracting unit must be added separately, and it takes a long time to exclude a word that is rarely a recognition word.
따라서, 본 발명의 목적은 상기한 문제점을 해결하기 위한 것으로, 인식 대상 단어가 어떤 자음으로 시작되는 지를 명확히 알도록 함으로써 모든 음성 어휘를 대상으로 하는 대신에 해당 자음으로 시작하는 단어만을 인식대상 어휘로 하여 인식을 수행함으로써 인식률 및 인식 속도를 향상시키는 음성인식 방법 및 이를 저장한 기록 매체를 제공하는 데 있다.Accordingly, an object of the present invention is to solve the above-mentioned problem, so that the words to be recognized by the consonant to clearly know the consonant words, instead of targeting all the speech vocabulary only words that start with the consonant to the recognition target vocabulary The present invention provides a speech recognition method for improving recognition rate and recognition speed by performing recognition, and a recording medium storing the same.
상기 목적을 달성하기 위한, 본 발명의 특징에 따른 음성인식 방법은,In order to achieve the above object, the voice recognition method according to the characteristics of the present invention,
a) 인식대상 어휘의 첫 자음에 대응되며 사람의 발성에 의해 입력되는 음성신호를 수신하는 단계; b) 상기 수신된 음성신호를 분석하여 대응되는 자음을 인식하는 단계; c) 전체 인식대상 어휘 중에서 상기 인식된 자음에 따라 구분되는 영역에 있는 어휘를 인식대상 어휘로 축소하는 단계; d) 사람의 발성에 의해 입력되는 인식대상 어휘에 대응되는 음성신호를 수신하는 단계; 및 e) 상기 c) 단계에서 축소된 인식대상 어휘를 대상으로 상기 d) 단계에서 수신된 음성 신호를 분석하여 음성인식을 수행한 후 음성인식 결과를 출력하는 단계를 포함한다.a) receiving a voice signal corresponding to the first consonant of the recognition target vocabulary and input by a human voice; b) analyzing the received voice signal to recognize a corresponding consonant; c) reducing a vocabulary in a region divided according to the recognized consonants among all recognized vocabulary words into a recognized vocabulary; d) receiving a voice signal corresponding to a recognition target vocabulary input by human speech; And e) analyzing the voice signal received in step d) to perform the voice recognition on the reduced recognition target vocabulary in step c) and outputting a voice recognition result.
여기서, 상기 b) 단계에서는 상기 자음의 인식시 첫 자음 발성의 음가를 인식하고, 상기 c) 단계에서는 상기 b) 단계에서 인식된 첫 자음 발성의 음가와 동일한 첫 자음을 가진 어휘별로 인식대상 어휘 영역을 구분하는 것을 특징으로 한다.Here, in step b), when the consonant is recognized, the phoneme of the first consonant voice is recognized, and in step c), the vocabulary area to be recognized for each vocabulary having the same first consonant as that of the first consonant voice recognized in step b) Characterized by.
이 때, 상기 첫 자음 발성시의 종성의 대표 음가는 'ㄱ', 'ㄴ', 'ㄷ', 'ㄹ', 'ㅁ', 'ㅂ' 및 'ㅇ'의 7개인 것을 특징으로 한다.At this time, the representative phonetic sounds of the first consonant vocalization is characterized in that seven of 'b', 'b', 'c', 'd', 'ㅁ', 'ㅂ' and 'o'.
또한, 상기 대표 음가 'ㄱ'에는 자음 'ㄱ' 및 'ㅋ'이 포함되고, 상기 대표 음가 'ㄴ'에는 자음 'ㄴ'이 포함되며, 상기 대표 음가 'ㄷ'에는 자음 'ㄷ', 'ㅅ', 'ㅈ', 'ㅊ', 'ㅌ' 및 'ㅎ'이 포함되고, 상기 대표 음가 'ㄹ'에는 자음 'ㄹ'이 포함되며, 상기 대표 음가 'ㅁ'에는 'ㅁ'이 포함되고, 상기 대표 음가 'ㅂ'에는 'ㅂ' 및 'ㅍ'이 포함되며, 상기 대표 음가 'ㅇ'에는 'ㅇ'이 포함되는 것을 특징으로 한다.In addition, the representative sound 'b' includes consonants' ㄱ 'and' ㅋ ', the representative sound' b 'includes a consonant' b ', and the representative sound' c 'includes a consonant' c 'and' ㅅ ',' ㅈ ',' ㅊ ',' ㅌ 'and' ㅎ ', the representative note' ㄹ 'includes a consonant' ㄹ ', the representative note' ㅁ 'includes' ㅁ', The representative note 'ㅂ' includes 'ㅂ' and 't', and the representative note '' is characterized by including 'ㅇ'.
본 발명의 다른 특징에 따른 컴퓨터 판독 가능 기록 매체는,According to another aspect of the present invention, a computer readable recording medium includes
음성인식 방법의 단계들을 수행하도록 컴퓨터에 의해 실행 가능한 명령으로 구성되는 프로그램을 유형적으로 구체화한 컴퓨터 판독 가능 기록 매체로서,A computer-readable recording medium tangibly embodying a program consisting of instructions executable by a computer to perform the steps of a speech recognition method,
상기 방법 단계가 a) 인식대상 어휘의 첫 자음에 대응되며 사람의 발성에 의해 입력되는 음성신호를 수신하는 단계; b) 상기 수신된 음성신호를 분석하여 대응되는 자음을 인식하는 단계; c) 전체 인식대상 어휘 중에서 상기 인식된 자음에 따라 구분되는 영역에 있는 어휘를 인식대상 어휘로 축소하는 단계; d) 사람의 발성에 의해 입력되는 인식대상 어휘에 대응되는 음성신호를 수신하는 단계; 및 e) 상기 c) 단계에서 축소된 인식대상 어휘를 대상으로 상기 d) 단계에서 수신된 음성 신호를 분석하여 음성인식을 수행한 후 음성인식 결과를 출력하는 단계를 포함한다.The method may include: a) receiving a voice signal corresponding to the first consonant of the recognition target vocabulary and input by a human voice; b) analyzing the received voice signal to recognize a corresponding consonant; c) reducing a vocabulary in a region divided according to the recognized consonants among all recognized vocabulary words into a recognized vocabulary; d) receiving a voice signal corresponding to a recognition target vocabulary input by human speech; And e) analyzing the voice signal received in step d) to perform the voice recognition on the reduced recognition target vocabulary in step c) and outputting a voice recognition result.
이하, 본 발명의 실시예에 대해 첨부된 도면을 참조하여 상세히 설명한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.
도 1은 본 발명의 실시예에 따른 음성인식 장치의 블록도이다.1 is a block diagram of a voice recognition device according to an embodiment of the present invention.
도 1에 도시된 바와 같이, 본 발명의 실시예에 따른 음성인식 장치는 인식대상 어휘 사전(10) 및 음성인식기(20)를 포함한다.As shown in FIG. 1, a speech recognition apparatus according to an embodiment of the present invention includes a lexical dictionary 10 to be recognized and a speech recognizer 20.
인식대상 어휘 사전(10)에는 대규모의 음성인식 대상 어휘가 HMM 모델화되어 저장되어 있다. 여기서 대규모의 음성인식 대상 어휘의 수는 적어도 1000 단어 이상인 것을 의미한다.In the recognition target vocabulary dictionary 10, a large-scale speech recognition target vocabulary is HMM modeled and stored. Here, the number of words to be recognized on a large scale means that at least 1000 words are used.
이러한 인식대상 어휘 사전(10)에 저장된 어휘는 첫 자음에 따라 영역이 구분되도록 저장된다. The vocabulary stored in the recognition target vocabulary dictionary 10 is stored to distinguish the area according to the first consonant.
첫 자음 발성시 종성의 대표 음가는 첨부한 도 2에 도시되어 있는 바와 같이, 'ㄱ', 'ㄴ', 'ㄷ', 'ㄹ', 'ㅁ', 'ㅂ' 및 'ㅇ'의 7가지로 대표될 수 있다. 예를 들면, 대표 음가가 'ㄱ'인 경우에 해당되는 자음에는 'ㄱ'과 'ㅋ'이 있으며, 'ㄱ'의 발성은 "기역"으로서 마지막 음절 "역"의 종성이 'ㄱ'에 해당되고, 'ㅋ'의 발성이 "키읔"으로서 마지막 음절 "읔"의 음가가 'ㄱ'이 된다. 나머지 6개의 대표 음가에 대해서도 마찬가지로 적용될 수 있다.As shown in the accompanying FIG. 2, representative voice values of the first consonant vocalization are seven kinds of 'a', 'b', 'c', 'ㄹ', 'ㅁ', 'ㅂ' and 'ㅇ'. It can be represented as. For example, the consonants corresponding to the case where the representative phonetic value is 'ㄱ' include 'ㄱ' and 'ㅋ', and the voice of 'ㄱ' is the 'read', and the final syllable 'station' corresponds to the ''. 'ㅋ' vocalization is 'Ki', and the final syllable '읔' becomes 'ㄱ'. The same can be applied to the remaining six representative notes.
인식대상 어휘 사전(10)에 저장된 어휘는 첫 자음의 음가에 따라 영역이 구분되어 저장된다.The vocabulary stored in the recognition target vocabulary dictionary 10 is divided and stored according to the phonetic value of the first consonant.
또한, 인식대상 어휘 사전(10)에는 첫 자음에 따라 영역이 구분되어 HMM 모델이 저장되어 있다.In addition, the recognition target vocabulary dictionary 10 stores regions according to first consonants and stores the HMM model.
이와 같이 자음의 발음을 대상으로 한 것은 한글 자음의 발음은 자음마다 해당 음소가 두 번씩 나오므르 그만큼 자음의 음성인식이 유리하기 때문이다. 이에 비하여 영어의 알파벳은 A, B, C, …, Z 등과 같이 해당 음소가 주로 한 번밖에 발음되지 않으므로 정확한 음성인식에 불리하다.Thus, the pronunciation of the consonants is because the pronunciation of the Hangul consonants is more favorable because the phoneme comes out twice for each consonant. In contrast, the English alphabet is A, B, C,…. Since the phoneme is mainly pronounced only once, such as Z, etc., it is disadvantageous for accurate speech recognition.
한편, 음성인식기(20)는 외부로부터 입력되는 음성신호, 특히 사람의 발성에 의한 음성신호를 입력받아서 그 특징을 추출한 후, 인식대상 어휘 사전(10)에 저장된 대상 어휘의 HMM 모델과 비교하여 통계적 확률값에 따라 그 인식 결과를 출력한다.Meanwhile, the voice recognizer 20 receives a voice signal input from the outside, in particular, a voice signal by human voice, extracts a feature thereof, and compares it with the HMM model of the target vocabulary stored in the recognition target vocabulary dictionary 10. The recognition result is output according to the probability value.
이 때, 음성인식 전처리기(도시되지 않음)는 사람의 발성에 의하여 입력되는 음성신호에 대해 전처리 과정을 수행하여 양자화시켜 음성인식기(20)로 출력한다. 이러한 음성인식 전처리기는 음성인식기(20) 내에 포함될 수도 있다.At this time, the speech recognition preprocessor (not shown) performs a preprocessing process on the speech signal input by the human voice and quantizes it, and outputs the quantized signal to the speech recognizer 20. The speech recognition preprocessor may be included in the speech recognizer 20.
음성인식기(20)는 하나의 단어를 인식하기 위해 2번의 음성인식 동작을 수행한다.The speech recognizer 20 performs two speech recognition operations to recognize a single word.
첫 번째 음성인식 동작은 인식대상 단어의 첫 자음에 대한 음성신호를 입력받아서 인식대상 어휘 사전(10)을 참조하여 인식대상 단어의 첫 자음의 음가를 결정하는 것이다. 이러한 동작은 도 1에서 점선으로 표시되어 있다.The first voice recognition operation is to determine the phonetic value of the first consonant of the word to be recognized by referring to the lexical dictionary 10 to recognize the voice signal for the first consonant of the word to be recognized. This operation is indicated by the dotted line in FIG.
두 번째 음성인식 동작은 인식대상 단어에 대한 음성신호를 입력받은 후, 첫 번째 음성인식 동작에 의해 결정된 음가에 따라 선택된 인식대상 어휘와 비교하여 입력된 단어를 결정하는 것이다. 이러한 동작은 도 1에서 실선으로 표시되어 있다.The second voice recognition operation is to determine the input word by comparing the selected recognition target vocabulary according to the phonetic value determined by the first voice recognition operation after receiving the voice signal for the recognition target word. This operation is indicated by the solid line in FIG.
이하, 첨부한 도 3을 참조하여 본 발명의 실시예에 음성인식 방법에 대해 설명한다.Hereinafter, with reference to the accompanying Figure 3 will be described in the speech recognition method in an embodiment of the present invention.
먼저, 사람이 인식 대상 단어의 첫 자음을 발성하면(S1), 음성인식기(20)에서는 사람에 의해 발성된 첫 자음의 음가를 인식한다(S2).First, when a person utters the first consonant of a word to be recognized (S1), the speech recognizer 20 recognizes the sound value of the first consonant uttered by the person (S2).
사람에 의해 발성된 첫 자음의 음가가 인식되면, 음성인식기(20)는 인식대상어휘 사전(10)에 저장된 전체 어휘 중 인식된 음가의 영역으로 구분된 어휘로 인식대상 어휘 목록을 축소시킨다(S3). When the phonetic value of the first consonant uttered by a person is recognized, the speech recognizer 20 reduces the list of recognized vocabulary words into a vocabulary divided into regions of the recognized phonetic value among all the vocabularies stored in the recognized vocabulary dictionary 10 (S3). ).
그 후, 사람이 실제 인식 대상 단어를 발성하면(S4), 음성인식기(20)는 축소된 어휘 목록을 대상으로 음성 인식을 수행한다(S5).Thereafter, when a person speaks an actual recognition target word (S4), the speech recognizer 20 performs speech recognition on the reduced vocabulary list (S5).
즉, 실제 인식 대상 단어의 음성신호(음성인식 전처리기에 의해 양자화되어 입력되는 음성신호)가 입력되면, 수신된 음성신호에 대한 특징을 추출하고, 축소된 음성 어휘 목록으로부터 대상 어휘를 HMM 모델링하고, 그 결과를 수신된 음성신호의 특징 추출 데이터와 비교하여 통계적 확률값에 따라 인식 결과로 출력한다(S6).That is, when the voice signal (voice signal quantized and input by the voice recognition preprocessor) of the actual word to be recognized is input, the feature of the received voice signal is extracted, the target word is HMM modeled from the reduced voice vocabulary list, The result is compared with the feature extraction data of the received voice signal and output as a recognition result according to the statistical probability value (S6).
이와 같이, 음성인식기(20)가 인식대상 단어의 첫 자음에 맞는 축소된 인식대상 어휘만을 대상으로 HMM 모델링을 수행함으로써 보다 신속하게 인식 결과를 나타낼 수 있게 된다.In this way, the speech recognizer 20 may display the recognition result more quickly by performing the HMM modeling on only the reduced recognition target vocabulary corresponding to the first consonant of the recognition target word.
한편, 상기한 바와 같은 본 발명의 실시예에 따른 음성인식 방법은 프로그램으로 구현되어 컴퓨터로 판독 가능한 형태로 기록 매체(씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다.Meanwhile, the voice recognition method according to the embodiment of the present invention as described above may be implemented as a program and stored in a recording medium (CD-ROM, RAM, ROM, floppy disk, hard disk, magneto-optical disk, etc.) in a computer-readable form. Can be.
비록 본 발명이 가장 실제적이며 바람직한 실시예를 참조하여 설명되었지만, 본 발명은 상기 개시된 실시예에 한정되지 않으며, 후술되는 특허청구범위 내에 속하는 다양한 변형 및 등가물들도 포함한다.Although the present invention has been described with reference to the most practical and preferred embodiment, the present invention is not limited to the above-described embodiment, but also includes various modifications and equivalents within the scope of the following claims.
본 발명에 따르면, 동시에 인식해야 하는 인식대상 어휘가 현저하게, 예를 들면 인식대상 단어의 첫 자음의 수에 반비례하여 평균적으로 1/19정도 줄어들 수 있다. According to the present invention, the recognition target vocabulary to be recognized at the same time can be significantly reduced, for example, by 1/19 on the average in inverse proportion to the number of first consonants of the recognition target word.
또한, 한글 자음의 발음은 ㄱ, ㄴ, ㄷ 등과 같이 발음의 특성상 자음마다 해당 음소가 두 번씩 나오므로 그 만큼 자음의 음성인식에 유리한 점이 있다. In addition, the pronunciation of the Hangul consonants, such as a, b, c, etc., due to the nature of the pronunciation, the phoneme comes out twice for each consonant, there is an advantage in the speech recognition of the consonant.
도 1은 본 발명의 실시예에 따른 음성인식 장치의 블록도이다.1 is a block diagram of a voice recognition device according to an embodiment of the present invention.
도 2는 본 발명의 실시예에 따른 음성인식 장치에서 자음 발성시 종성의 대표 음가를 나타낸 도면이다.2 is a view showing a representative sound value of the final consonants in the speech recognition apparatus according to an embodiment of the present invention.
도 3은 본 발명의 실시예에 따른 음성인식 방법의 순서도이다. 3 is a flowchart of a voice recognition method according to an embodiment of the present invention.
<도면의 주요부분에 대한 부호의 간단한 설명><Brief description of symbols for the main parts of the drawings>
10 : 인식대상 어휘 사전 20 : 음성인식기10: Vocabulary dictionary of recognition 20: Speech recognizer
Claims (6)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2002-0079226A KR100474253B1 (en) | 2002-12-12 | 2002-12-12 | Speech recognition method using utterance of the first consonant of word and media storing thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2002-0079226A KR100474253B1 (en) | 2002-12-12 | 2002-12-12 | Speech recognition method using utterance of the first consonant of word and media storing thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20040051317A KR20040051317A (en) | 2004-06-18 |
KR100474253B1 true KR100474253B1 (en) | 2005-03-10 |
Family
ID=37345292
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR10-2002-0079226A KR100474253B1 (en) | 2002-12-12 | 2002-12-12 | Speech recognition method using utterance of the first consonant of word and media storing thereof |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100474253B1 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100679042B1 (en) * | 2004-10-27 | 2007-02-06 | 삼성전자주식회사 | Method and apparatus for speech recognition, and navigation system using for the same |
JP4667082B2 (en) * | 2005-03-09 | 2011-04-06 | キヤノン株式会社 | Speech recognition method |
KR100737343B1 (en) * | 2005-12-08 | 2007-07-09 | 한국전자통신연구원 | Apparatus and Method for recognizing speech |
KR100777569B1 (en) * | 2006-09-20 | 2007-11-20 | 주식회사 케이티 | The speech recognition method and apparatus using multimodal |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR900003814A (en) * | 1988-08-31 | 1990-03-27 | 최근선 | Speech Recognition System Using Two-Step Matching of Initial Pre-Matching |
KR970022955A (en) * | 1995-10-24 | 1997-05-30 | 구자홍 | Song selection function using voice information |
KR19990061765A (en) * | 1997-12-31 | 1999-07-26 | 윤종용 | Korean Speech Recognition Apparatus and Method for Separating Consonants and Vowels |
JP2001166789A (en) * | 1999-12-10 | 2001-06-22 | Matsushita Electric Ind Co Ltd | Method and device for voice recognition of chinese using phoneme similarity vector at beginning or end |
JP2002229590A (en) * | 2001-02-01 | 2002-08-16 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | Speech recognition system |
-
2002
- 2002-12-12 KR KR10-2002-0079226A patent/KR100474253B1/en not_active IP Right Cessation
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR900003814A (en) * | 1988-08-31 | 1990-03-27 | 최근선 | Speech Recognition System Using Two-Step Matching of Initial Pre-Matching |
KR970022955A (en) * | 1995-10-24 | 1997-05-30 | 구자홍 | Song selection function using voice information |
KR19990061765A (en) * | 1997-12-31 | 1999-07-26 | 윤종용 | Korean Speech Recognition Apparatus and Method for Separating Consonants and Vowels |
JP2001166789A (en) * | 1999-12-10 | 2001-06-22 | Matsushita Electric Ind Co Ltd | Method and device for voice recognition of chinese using phoneme similarity vector at beginning or end |
JP2002229590A (en) * | 2001-02-01 | 2002-08-16 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | Speech recognition system |
Also Published As
Publication number | Publication date |
---|---|
KR20040051317A (en) | 2004-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6694296B1 (en) | Method and apparatus for the recognition of spelled spoken words | |
Zissman et al. | Automatic language identification | |
EP1557822B1 (en) | Automatic speech recognition adaptation using user corrections | |
CN109545243B (en) | Pronunciation quality evaluation method, pronunciation quality evaluation device, electronic equipment and storage medium | |
US20180137109A1 (en) | Methodology for automatic multilingual speech recognition | |
US7275034B2 (en) | Word-specific acoustic models in a speech recognition system | |
US7676365B2 (en) | Method and apparatus for constructing and using syllable-like unit language models | |
KR100679044B1 (en) | Method and apparatus for speech recognition | |
JP4301102B2 (en) | Audio processing apparatus, audio processing method, program, and recording medium | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
JP4351385B2 (en) | Speech recognition system for recognizing continuous and separated speech | |
US7299178B2 (en) | Continuous speech recognition method and system using inter-word phonetic information | |
JP3126985B2 (en) | Method and apparatus for adapting the size of a language model of a speech recognition system | |
JP5014785B2 (en) | Phonetic-based speech recognition system and method | |
US6539353B1 (en) | Confidence measures using sub-word-dependent weighting of sub-word confidence scores for robust speech recognition | |
JP2011033680A (en) | Voice processing device and method, and program | |
KR20060050361A (en) | Hidden conditional random field models for phonetic classification and speech recognition | |
Pellegrino et al. | Automatic language identification: an alternative approach to phonetic modelling | |
US20100324897A1 (en) | Audio recognition device and audio recognition method | |
KR100474253B1 (en) | Speech recognition method using utterance of the first consonant of word and media storing thereof | |
JP3444108B2 (en) | Voice recognition device | |
JP2001195087A (en) | Voice recognition system | |
Azim et al. | Large vocabulary Arabic continuous speech recognition using tied states acoustic models | |
Mimer et al. | Flexible decision trees for grapheme based speech recognition | |
JPH08314490A (en) | Word spotting type method and device for recognizing voice |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20130205 Year of fee payment: 9 |
|
FPAY | Annual fee payment |
Payment date: 20140123 Year of fee payment: 10 |
|
FPAY | Annual fee payment |
Payment date: 20150126 Year of fee payment: 11 |
|
FPAY | Annual fee payment |
Payment date: 20160127 Year of fee payment: 12 |
|
FPAY | Annual fee payment |
Payment date: 20170124 Year of fee payment: 13 |
|
LAPS | Lapse due to unpaid annual fee |