KR20030010979A - Continuous speech recognization method utilizing meaning-word-based model and the apparatus - Google Patents

Continuous speech recognization method utilizing meaning-word-based model and the apparatus Download PDF

Info

Publication number
KR20030010979A
KR20030010979A KR1020010045687A KR20010045687A KR20030010979A KR 20030010979 A KR20030010979 A KR 20030010979A KR 1020010045687 A KR1020010045687 A KR 1020010045687A KR 20010045687 A KR20010045687 A KR 20010045687A KR 20030010979 A KR20030010979 A KR 20030010979A
Authority
KR
South Korea
Prior art keywords
recognition
model
speech
word
means
Prior art date
Application number
KR1020010045687A
Other languages
Korean (ko)
Inventor
강현석
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020010045687A priority Critical patent/KR20030010979A/en
Publication of KR20030010979A publication Critical patent/KR20030010979A/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks

Abstract

PURPOSE: A continuous voice recognition method and system using a meaning word unit model are provided to improve voice recognition rate by using the meaning word model as well as a phoneme model. CONSTITUTION: A characteristic vector to be used for voice recognition is extracted from an input voice signal. Pattern matching for the extracted characteristic vector is performed using a phoneme unit model and a meaning word unit model, which uses a meaning word essential for constructing a sentence as a separate recognition unit(320). An optimum sentence is selected using information of meaning words among sentences obtained by performing the pattern matching.

Description

의미어단위 모델을 이용한 연속음성인식방법 및 장치{Continuous speech recognization method utilizing meaning-word-based model and the apparatus} Means a continuous speech recognition method and apparatus using the control unit model {Continuous speech recognization method utilizing meaning-word-based model and the apparatus}

본 발명은 음성인식방법 및 그 장치에 관한 것으로, 좀더 구체적으로는 의미어 단위모델을 이용한 음성인식방법 및 그 장치에 관한 것이다. The present invention relates to a speech recognition method and apparatus using the present invention relates to speech recognition methods and apparatus, and more specifically means control unit model.

기존의 음성인식방법에는 인식단위에 따라서 단어기반(word-based) 음성인식과 음소기반(phoneme-based) 음성인식이 있다. Existing methods of speech recognition, according to the recognition unit has a word-based (word-based) and the phoneme-based speech recognition (phoneme-based) speech recognition. 단어기반 음성인식방법은 인식할 대상을 단어 단위로 설정하기 때문에 인식장치가 단어를 학습하고 입력에 대한 출력으로 가장 유사한 단어를 찾는다. Word-based speech recognition method to find the most similar word to be recognized as a destination for output because the device is set to word recognition learning, and enter the word. 단어기반 음성인식방법은 학습만 잘 되어 있다면 우수한 인식결과를 가져올 수 있는 방법이지만 단어단위 인식을 하기 위해서는 수만개에 해당하는 단어에 대한 학습모델과 학습 데이터를 가지고 있어야 하며, 특히, 모든 단어모델에 대해 공평한 학습을 시킨다는 것은 매우 어려운 작업이고, 수만가지의 단어 모델을 유지하는데 필요한 메모리 용량도 많이 차지한다. Word-based speech recognition method must have a learning model and learning data for the word to a method but recognized word can bring good recognition results, if well just learning for the tens of thousands and, in particular, for every word model sikindaneun equitable learning is a very difficult job, but also take up a lot of memory capacity required to keep tens of thousands of words model. 즉, 단어기반 음성인식방법은 충분한 학습을 시키기 어렵다는 문제점과 많은 비용이 들어간다는 단점을 안고 있다. That is, word-based speech recognition method has the disadvantage that is difficult to hold adequate learning and a lot of money into.

음소기반 음성인식방법은 음소를 인식하여 단어를 구성하는 것인데 단어기반 음성인식방법보다는 적은 비용으로 비교적 우수한 인식 작업을 수행할 수 있지만, 음소인식이 실패하게 되었을 때 단어구성에 치명적인 영향을 줄 수 있다. Phoneme-based speech recognition method can critically affect the word configuration when to recognize a phoneme becomes would be to configure the word can perform relatively better recognized with less than how the word-based speech recognition, and phonemic awareness fail, but .

또한, 단어기반 음성인식방법과 음소기반 음성인식방법의 장점을 모두 살리기 위해 이용한 방법으로 기능어 모델이 있다 기능어 모델은 문장에서 자주 사용되지만 구어체 대화에서 잘 들리지 않는 기능어들, 예컨대, 영어로는 'a','an','in','and' 등의 인식단위를 자체 단어 모델로 구성하는 것이다. In addition, there is a method function words model using in order to save all of the benefits of word-based speech recognition method with a phoneme-based speech recognition method function words models of function words can not be heard well in colloquial conversation, but often used in a sentence, for example, in English 'a to construct a recognition unit, such as', 'an', 'in', 'and' own words to the model. 기능어 단위 음성인식방법이 인식단위모델이 기능어들 즉, 영어의 전치사나 접속사, 한국어의 조사에 대해 만들어져 있어서, 이미 학습되어진 단어 모델과의 패턴매칭을 통해 가장 유사한 단어를 인식결과로 출력한다. The units function words speech recognition method to recognize the model unit of function words that is, made to the English prepositions and conjunctions, Korean investigation in and outputs the most similar words are already through pattern matching and word learning model been recognized as a result. 즉, 단어 음성이 입력되어지면 음소단위로 인식결과가 도출되고 발음사전을 참조하여 단어를 구성하게 되며 기능어들의 경우에는 음소단위 인식이 아닌 단어단위 인식이 수행되어 발음사전의 참조없이 곧바로 인식이 수행된다. That is, the word speech is when the input is the recognition result is derived by phoneme unit, see the pronunciation dictionary to be configured words the case of function words, the word recognition is carried out non-phoneme unit of recognition performed directly recognized without reference to the pronunciation dictionary do. 이와 같은 방법은 단어를 한꺼번에 비교분석하기 대문에 인식 결과에 대한 신뢰도가 높으나 단어 모델을 최적으로 학습시키는 것이 매우 어렵다. With this method, it is very difficult to learn the word model is high, but confidence in the recognition result to the gate once compared the word to the optimum.

기능어단위 모델을 이용하는 경우 그렇지 않은 경우보다 인식률이 향상됨은 많은 논문을 통해 증명되었다. When using the unit model, function words recognition rate improved than otherwise it has been demonstrated through a number of papers. 또한, 단어단위 인식이 가지고 있는 학습의 문제점도 나타나지 않는다. Also, it does not show problems of learning with word recognition have. 그러나, 이 방법은 기능어에 한정된 것으로써 실제 문장을 구성하는데 중요한 정보를 담고있는 단어들에 대해서는 여전히 인식오류의 문제점을 안고 있다. However, this method is limited to writing the function words still hold the issue of recognition errors for words that contain important information for configuring the actual text.

또한, 학습된 음소 모델과 발음사전만 있으면 원하는 단어를 인식할 수 있는 고립단어인식방법과 달리 연속음성인식방법에서 '단어 네트워크(word network)'가 추가적으로 사용되어 인식된 단어들을 묶어 하나의 문장을 구성하여 인식하는데, 이때, 단어 네트워크를 어떻게 구성하느냐에 따라서 탐색 공간의 크기가 좌우되고 이것은 인식기의 성능에 많은 영향을 미치므로 단어네트워크는 올바른 문장을 인식하도록 하는데 중요한 역할을 한다. In addition, a single sentence tie up the used unlike capable of if only the learned phoneme model pronunciation dictionary recognizes the words you want isolated word recognition method in continuous speech recognition method is "word network (word network) 'further recognized words to recognize the configurations, this time, influenced the size of the search space depending on how you configure your network, and this is because the word exert great influence on the performance of word recognizer network plays an important role to recognize the correct sentence.

단어 네트워크는 주로 word-pair grammar, N-gram, Finite State Automata (FSA) 등으로 구현된다. Word network is usually implemented in a word-pair grammar, N-gram, Finite State Automata (FSA) and the like. 주요 개념은 한 단어 뒤에 나타날 수 있는 단어들을 연결하되 규칙에 의해 고정시키거나 통계적인 확률값을 연결하는 것이다. The main idea is to connect to a fixed or statistical probability by connecting to the rules, but the words that may appear after the word. word-pair grammar는 특정 단어 뒤에 나타날 수 있는 단어들만 연결시킨다. word-pair grammar associates only word that can appear after a particular word. 예를 들어, "먹고" + "싶습니다" 는 순서대로 연결이 가능하지만 그 반대로는 연결될 수 없다. For example, "I want", "eat" + can be connected in order, but the opposite can not connected. 이러한 word-pair grammar의 단어 네트워크 구조의 한 예가 도 2에 도시되어 있다. An example of a network structure of the word-word pair grammar is shown in FIG. N-gram은 단어와 단어 사이의 연결에 통계적인 확률을 이용한다. N-gram uses a statistical probability of a connection between words. 학습 데이터 뭉치를 이용해서 어떤 단어가 한 단어 다음에 나타날 확률을 계산하여 확률이 높은 쪽으로 탐색을 수행하는 것이다. Using the training data bundles to perform a search towards a high probability to calculate the probability of any word in the word below. FSA는 구성가능한 문장들을 모두 네트워크로 묶는 것으로, 이 방법은 인식 성능은 빨라지지만, 구성된 문장 이외의 문장이 들어오면 인식이 불가능하다는 문제점이 있다. That the FSA is bound to the network, all of the configurable sentence, this method has a problem that the recognition performance faster, but it is impossible to recognize the sentence comes in addition constructed sentences.

이와 같이 기존에 사용하던 단어 네트워크는 탐색공간을 줄임과 동시에 자유로운 문장을 구성하는데는 한계를 지니고 있다. In this way the word was used in the existing network it may have a configuration is limited to the free text at the same time reducing the search space. 즉, 탐색공간을 줄이면 인식할 수 있는 문장의 자유도가 떨어지고(특히 어순이 자유로운 한국어의 경우에는 더욱 그렇다), 반대로 다양한 어순의 문장을 인식하려면 탐색 공간이 늘어나게 된다. In other words, dropping the freedom of sentences that can be recognized by reducing the search space (especially in the case of Korean, the word order is free even more so), to recognize the variety of word order of a sentence contrary will increase the search space.

본 발명은 상기와 같은 문제점을 해결하고자 기본적으로는 음소단위의 음성인식기법을 이용하여 단어단위 인식의 장점을 이용하되, 기능어 단위 인식과는 달리 문장의 구조를 파악하고 의미를 이해하는데 중요한 역할을 하는 문장성분이나 핵심어들을 별도의 인식단위로 설계("의미어 모델(meaning word)")하여 인식률을 향상시키기 위한 것이다. The present invention plays an important role in order to solve the above problems basically determine the structure of unlike, but takes advantage of the speech recognition word recognition using the techniques of phoneme units, function words unit recognizes sentences and understand the meaning sentences ingredient or keyword that is designed to enhance the recognition ( "uh meaningful model (meaning word)") as a separate unit of recognition.

또한, 본 발명은 인식의 성능을 향상시키기 위해 의미어를 중심으로 구성된단어 네트워크를 이용함으로써 탐색공간을 줄이고 또한 인식결과에 대한 오류 정정을 위해 의미 정보를 이용하여 최적의 인식결과를 도출해내기 위한 것이다. The invention also reduces the search area by using the word network of around the mean air to increase the performance of the recognition will also to derive an optimal recognition result using the semantic information for error correction for the recognition result .

도 1a는 종래의 기능어단위 인식모델에 따른 음성인식기의 블럭도. Figure 1a is a block diagram of the speech recognizer according to the related function words of the unit recognition model.

도 1b는 종래의 음소단위 인식모델에 따른 음성인식기의 블럭도. Figure 1b is a block diagram of the speech recognizer according to the conventional phoneme recognition unit model.

도 2는 종래의 word-pair grammar로 구현된 단어 네트워크의 구성도. 2 is a configuration of the word network implemented in the conventional word-pair grammar FIG.

도 3은 본 발명에 따른 연속음성인식시스템의 개략적인 블럭도. Figure 3 is a schematic block diagram of a continuous speech recognition system according to the present invention.

도 4a는 종래의 음소단위 HMM모델의 개념도. Figure 4a is a conceptual view showing a conventional unit of the phoneme HMM models.

도 4b는 본 발명에 따른 의미어단위 HMM모델의 개념도. Figure 4b is a conceptual view showing a control unit means HMM model according to the present invention.

도 5는 본 발명에 따른 의미어 중심 단어 네트워크의 개념도. 5 is a conceptual diagram of a control means Keyword network according to the present invention.

* 도면의 주요한 부분에 대한 부호의 설명 * * Description of marks for a main part of drawings *

300 : 전처리기 300: preprocessor

310 : 학습기 310: learner

320 : 인식기 320: reader

360 : 후처리기 360: The post-processor

본 발명은 상기와 같은 기술적 과제를 해결하기 위해 화자가 발화한 문장의 구조를 파악하고 의미를 이해하는데 중요한 역할을 하는 문장성분, 예컨대 동사와 핵심어를 별도의 음성인식단위 모델로 하고, 단어네트워크를 의미어 중심으로 구성하며, 후처리기에서도 의미어와 관련된 의미정보를 이용하여 최적의 인식결과를 찾아낸다. The invention sentence component to play an important role in determining the structure of a sentence by a speaker is ignited to understand what to solve the technical problems as described above, for example a company with the key words to a separate word network, a voice recognition unit model and control means consists of a center, even after the use of meaningful information concerning eel meaning handler finds the optimal recognition results.

본 발명의 하나의 특징은 음성인식방법에 관한 것으로, 입력 음성 신호로부터 인식에 사용될 특징벡터를 추출하는 단계와, 음소단위 모델과, 문장 구성에 중요한 역할을 하는 의미어를 별도의 인식단위로 하는 의미어단위모델을 인식단위모델로 이용하여 상기 추출된 특징벡터 신호에 대한 패턴매칭을 수행하는 단계를 포함한다. One feature of the present invention relates to a speech recognition method, comprising the steps of: extracting a feature vector to be used for recognition from an input speech signal, to the sense control to play an important role in the phoneme unit models and a sentence made up of separate recognition unit using the control means to the recognition unit model unit models comprises the step of performing pattern matching on the extracted feature vector signal.

본 발명의 다른 특징은 연속음성인식방법에 관한 것으로, 입력 음성신호로부터 인식에 사용될 특징벡터를 추출하는 단계와, 인식단위모델로서 음소단위 모델과 문장구성에 중요한 역할을 하는 의미어를 별도의 인식단위로 하는 의미어단위 모델을 사용하고, 상기 의미어가 갖는 의미 정보를 이용하여 네트워크를 구성한 의미어중심 단어 네트워크를 이용하여 상기 추출된 특징벡터에 대한 패턴매칭을 수행하는 단계와, 패턴매칭 수행 결과 문장들중에서 의미어가 가지고 있는 정보를 이용해서 최적의 문장을 선별하는 단계를 포함한다. Another feature of the invention is continuous to the input separate recognize means control to play an important role in extracting a characteristic vector used for recognition from the speech signal, and a phoneme unit model as a recognition unit model and the syntactic relates to a speech recognition method using means control unit model as a unit, and wherein the means eoga means configured the network using the semantic information with air comprising the steps of: using the key words network performs pattern matching on the extracted feature vectors, performing the pattern matching result, using the semantic information has eoga among sentences comprises the steps of selecting the best sentence.

본 발명의 또다른 특징은 음성인식기에 관한 것으로, 입력 음성신호로부터 인식에 사용될 특징벡터를 추출하는 전처리기와, 인식단위모델로서 음소단위 모델과 문장구성에 중요한 역할을 하는 의미어를 별도의 인식단위로 하는 의미어단위 모델을 사용하여 상기 전처리기로부터 출력된 특징벡터 신호에 대한 패턴매칭을 수행하는 인식기를 포함한다. Another feature of the invention is that, the mean air which plays an important role in the phoneme unit model and sentences as a preprocessor, the recognition unit model to extract a feature vector to be used for recognition from an input speech signal separate recognition unit of the speech recognizer using the mean control unit model that includes a recognizer that performs pattern matching for the feature vector signal output from the preprocessor.

본 발명의 또다른 특징은 연속음성인식시스템에 관한 것으로, 입력 음성신호로부터 인식에 사용될 특징벡터를 추출하는 전처리기와, 인식단위모델로서 음소단위 모델과 문장구성에 중요한 역할을 하는 의미어를 별도의 인식단위로 하는 의미어단위 모델을 사용하고, 상기 의미어가 갖는 의미 정보를 이용하여 네트워크를 구성한 의미어중심 단어 네트워크를 이용하여, 상기 전처리기로부터 출력된 특징벡터 신호에 대한 패턴매칭을 수행하는 인식기와, 상기 인식기의 패턴매칭 수행결과 문장들중에서 의미어가 가지고 있는 정보를 이용해서 최적의 문장을 선별하는 후처리기를 포함한다. Another aspect of the invention the means control to play an important role in the continuous speech recognition relates to a system, the input pre-processing to extract the feature vector to be used for recognition from the speech signal group, the phoneme units of the model as a recognition unit model and the syntactic separate using means control unit model that recognition unit and reader that by means using the semantic information having eoga the means configured the network control using the key words network, performs the pattern matching for the feature vector signal output from the preprocessor and, it, including post-processor for selecting the best sentence using the information that has eoga means among perform pattern matching of the sentence recognizer result.

바람직하게, 상기 음성인식방법 및 음성인식기에서 의미어는 문장구성에 중요한 역할을 하는 동사나 핵심어를 포함한다. Preferably, a verb, or key words which plays an important role in the freezing means sentences from the voice recognition method and a speech recognizer.

또한, 바람직하게, 상기 음성인식방법 및 음성인식기에서 상기 입력 음성 신호는 예약, 증권서비스 관련 대화신호를 포함한다. Further, preferably, the input speech signal in the speech recognition method and a speech recognizer comprises an associated conversation reservation signal, and securities services.

이제, 도 3 내지 5를 참조하여 본 발명을 상세히 설명한다. Now, the present invention will be described in detail with reference to Figures 3 to 5.

도 3에 본 발명에 따른 음성인식장치의 한 예가 도시되어 있다. There is shown an example of a speech recognition apparatus according to the present invention in FIG. 음성인식장치는 전처리기(300)와, 학습기(310)와, 인식기(320)와, 후처리기(360)를 포함한다. The speech recognition apparatus includes a preprocessor 300, a learning machine (310), a reader 320 and a post-processor (360).

전처리기(300)는 입력으로 들어온 아날로그 음성 신호로부터 학습 및 인식에 사용될 특징벡터를 추출한다. Preprocessor 300 extracts a feature vector to be used for learning and recognition from the analog audio signal from the input. 즉, 전처리기의 윗단으로 들어오는 음성입력신호는 음성인식을 위한 데이터이고, 아랫단으로 들어오는 음성데이터는 학습에 사용하기 위한 데이터를 나타낸다. That is, the speech input signal input in witdan of the preprocessor is the data for speech recognition, the voice data coming into ahraetdan shows the data for use in learning.

학습기(310)는 인식의 기본 단위를 통계적으로 학습하며, 이때 인식의 기본 단위는 음소가 될 수도 있고 형태소 혹은 단어가 될 수도 있는데, 본 발명에서는 학습기는 인식기에서 사용될 인식단위모델로서 음소모델과 의미어단위 모델을 생성한다. Learning machine (310) and learn the basic unit of recognition by a statistical, wherein the basic unit of recognition, there may be also be, and morpheme or word phoneme, according to the present invention learner refers to the phoneme model as a recognition unit model used in the reader It generates the control unit model. 즉, 학습기(310)는 음소단위 모델을 기본으로 하면서 주요 문장성분이나 동사 및 핵심어를 별도의 인식단위 즉, 의미어단위로 구성하여 모델을 학습한다. That is, the learning machine (310) by configuring the key sentence component or verb, and key words and the phoneme units into the basic model as a separate unit that is recognized, meaning control unit learns the model. 학습하는 방법은 기존 음성인식장치의 학습방법을 사용하되, 의미어 모델과 음소단위 모델간의 학습이 공평하게 이루어지도록 학습데이터를 조절하며, 의미어 모델의 수는 상당히 많을 수도 있으나, 그 대화 영역이 특정 부분, 예를 들어, 호텔예약, 증권서비스 등에 한정된다면 적은 수의 의미어 모델이 존재할 수 있으며 학습 또한 용이하게 할 수 있다. How to learn the number of adjusting the training data, learning is so evenly made between the existing speech recognition learning method, meaning word models and phoneme unit model, but use of the apparatus, means control model, but also quite large, the conversation area certain parts, for example, be present in the book, and securities services only if the word means fewer models, etc., and can also make learning easy. 이와 같은 의미어 모델은 문장을 구성하고 의미를 부여하는데 중요한 역할을 하는 단어들에 대한 인식률을 높임으로써 발화 문장의 의미분석을 정확하게 할 수 있도록 해준다. This means control model makes it possible to accurately analyze the meaning of the sentence utterance by increasing the recognition of the words play an important role in constructing a sentence and give meaning.

인식기(320)는 학습기(310)에서 학습된 인식단위 모델(330)과 발음사전(340)과, 의미어 중심 단어 네트워크(350)를 이용하여, 전처리기로부터 출력된 음성신호의 특징벡터들에 대해 패턴매칭을 수행한다. The identifier 320 is learning machine 310, a recognition unit model 330 and the pronunciation dictionary (340) and, by means word by using the key words network 350, the characteristic vector of the voice signal output from the preprocessor learning in to perform pattern matching. 본발명에서 인식기를 HMM(Hidden Markov Model)을 사용하여 구현하면, 음소단위 모델은 도 4a에 도시된 바와 같이일반적으로 3-상태 좌우형태의 모양을 가지며, 의미어단위 모델은 도 4b에 도시된 바와 같이 이보다 더 많은 상태를 가지는 좌우형태가 될 것이다. When implemented by a reader in the present invention using HMM (Hidden Markov Model), the phoneme units of the model typically has the appearance of a three-state left and right form, meaning control unit model as illustrated in Figure 4a it is shown in Figure 4b than this would be more dependent form, which has a number of conditions as described.

본 발명에서는 또한 연속음성인식에 사용되는 단어 네트워크(350)를 의미어 중심으로 구성한다. The present invention also consists of a central control means a word network 350 that is used for continuous speech recognition. 즉, 단어 네트워크를 의미어가 갖는 의도(intention) 및 의미(meaning) 정보를 이용하여 구성한다. That is, the configuration using the intended meaning of the word having eoga network (intention) and sense (meaning) information. 예를 들면, "예약하-"라는 의미어 모델이 있다고 가정할 때, 이 의미어가 가지고 있는 의도는 "예약"에 대한 것이고 담고 있는 정보는 (예약)주체, (예약)날짜, (예약)대상, (예약)개수 등이 될 것이다. For example, "scheduled to" Assuming that the mean control model named, the intention has eoga means will information contained on the "reservation" is (Book) Subject (scheduled) date (scheduled) Target (reservation) number will be like. 이러한 정보를 기초로 도 5에 도시된 바와 같이 의미어 중심 단어 네트워크를 구성할 수 있다. It means, as shown in Figure 5 on the basis of this information word can be configured Keyword network. 이와 같이 구성된 의미어 중심 단어 네트워크로부터 의미어가 감지되면 전체 인식과정에서 만들어진 각 단어들이 포함되는 단어 네트워크 내의 범주를 이용해서 현재 올바른 문장으로 인식하고 있는지를 확인할 수 있다. Thus, when the control means senses from sense eoga network of key words using the word in a category that includes the network, each word made in full recognition that can determine whether the currently recognized as a valid sentence. 예를 들어서, "예약"에 대한 의미어가 감지되었는데 인식과정에서 "예약"과 전혀 관련없는 범주가 나타난다면 그 문장은 잘못 인식된 것이므로 그 방향으로는 더 이상 인식작업을 수행할 필요가 없다. For example, it was meant eoga sense to "reserve" if the category does not at all related to the "schedule" shown on the recognition that sentence is wrong because it recognizes that direction is no longer necessary to perform a recognition task. 이러한 방법으로 해서 탐색 공간을 줄일 수 있다. In this way it is possible to reduce the search space.

후처리기(360)는 인식기(320)로부터 출력된 N개의 인식결과 문장들중에서 가장 오류가 적은 문장을 찾아내는데, 이때에도 의미어가 가지고 있는 정보를 이용해서 의미에 맞는 최적의 문장을 찾아낸다. After processor 360 is in finding the N recognition results from the statements of a few sentences the error output from the reader (320), using the information you have eoga means in this case find the optimal fit sentence means. 즉, 인식문장에서 의미어가 여러 개 나타날 경우 우선순위를 정하여 문장을 구성하는데 가장 적합한 단어의 범주를 가려내는 작업을 한다. That is, the meaning of the sentence recognized eoga will work to screen the most appropriate category of words to construct sentences prioritizing If you receive more than one. 예를 들어서, "제가 어제 예약한 것 확인해 주세요"에서 의미어가 "예약한"과 "확인해" 두개라면 여기서는 중요한 역할을 하는 의미어는 "확인해"가 될 것이다. For example, if "I will make a reservation, please Yesterday" means eoga "reservations" and "out" two in this case will be the means to play an important role freezing "out". 따라서 "확인하다"라는 의미어에 맞는 단어 네트워크를 통과한 문장인지를 후처리기에서 확인할 필요가 있고 만일 그렇지 않다면 후처리기는 N개의 인식 후보 문장들중에서 최적의 문장을 찾게 될 것이다. Thus, "it is OK" means air handler then need to determine whether the sentence passed on the word to match the network, and that if not then the handler will find the best sentence from among the N candidate recognizes sentence.

이상과 같은 본 발명에 의하면, 음성인식단위모델로서 음소단위 모델뿐만 아니라 문장구성에 핵심적인 동사등의 의미어를 이용하여 의미어단위 모델을 사용함으로써 음성인식의 성능을 향상시킬 수 있다. According to the present invention as described above, it can be a voice recognition unit model as well as the model phoneme unit means using a control means such as a key word verb in a sentence configuration improves the performance of speech recognition by using the model unit.

또한, 본 발명에 의하면 단어 네트워크를 의미어 중심으로 구성함으로써 탐색 공간을 줄일 수 있다. Further, according to the present invention can reduce the search space by forming the central control means a word network.

또한, 본 발명에 의하면 단어 네트워크를 거쳐서 나온 인식결과 후보들을 의미어 정보를 이용함으로써 가장 오류가 작은 문장을 찾아낼 수 있다. According to the present invention can find a small sentence the errors by using the information word means the recognition results through the word candidates from the network.

Claims (8)

  1. 음성인식방법에 있어서, In the speech recognition method,
    입력 음성 신호로부터 인식에 사용될 특징벡터를 추출하는 단계와, Extracting a feature vector to be used for recognition from an input speech signal,
    음소단위 모델 및 문장 구성에 중요한 역할을 하는 의미어를 별도의 인식단위로 하는 의미어단위모델을 인식단위모델로 이용하여 상기 추출된 특징벡터 신호에 대한 패턴매칭을 수행하는 단계를 포함하는 음성인식방법. Speech recognition comprising: performing pattern matching of the means control to play an important role in the phoneme unit models, and sentence structure to the feature vector signal and the extracted with sense control unit model with recognition unit model, a separate recognition unit Way.
  2. 연속음성인식방법에 있어서, In the continuous speech recognition method,
    입력 음성신호로부터 인식에 사용될 특징벡터를 추출하는 단계와, Extracting a feature vector to be used for recognition from an input speech signal,
    인식단위모델로서 음소단위 모델 및 문장구성에 중요한 역할을 하는 의미어를 별도의 인식단위로 하는 의미어단위 모델을 사용하고, 상기 의미어가 갖는 의미 정보를 이용하여 네트워크를 구성한 의미어중심 단어 네트워크를 이용하여 상기 추출된 특징벡터에 대한 패턴매칭을 수행하는 단계와, A recognition unit model using the mean control unit model to the mean air which plays an important role in the phoneme unit model and sentences composed of separate recognition unit, and means using the semantic information having eoga the means configured the network control center the word network and performing pattern matching on the extracted feature vector using,
    패턴매칭 수행 결과 문장들중에서 의미어가 가지고 있는 정보를 이용해서 최적의 문장을 선별하는 단계를 포함하는 연속음성인식방법. Continuous speech recognition method including the steps of selecting the optimal sentences using the information you have eoga means among performing pattern matching results statement.
  3. 상기 제1항 또는 제2항에 있어서, According to the claim 1 or 2,
    상기 의미어는 문장 구성에 중요한 동사나 핵심어를 포함하는 음성인식방법. Speech recognition method comprising the relevant verbs and keywords in the sentences mean freezing.
  4. 상기 제1항 또는 제2항에 있어서, According to the claim 1 or 2,
    입력 음성 신호는 예약, 증권서비스 관련 대화신호를 포함하는 음성인식방법. The input audio signal is speech recognition method comprising the reserve, securities services Dialogue signal.
  5. 음성인식기에 있어서, In the speech recognizer,
    입력 음성신호로부터 인식에 사용될 특징벡터를 추출하는 전처리기와, Precompilers and extracting a feature vector to be used for recognition from an input speech signal,
    인식단위모델로서 음소단위 모델 및 문장구성에 중요한 역할을 하는 의미어를 별도의 인식단위로 하는 의미어단위 모델을 사용하여 상기 전처리기로부터 출력된 특징벡터 신호에 대한 패턴매칭을 수행하는 인식기를 포함하는 음성인식기. Comprising a recognition unit model, the recognizer to perform the pattern matching for the mean air which plays an important role in the phoneme units of the model, and sentence structure to the feature vector signal output with the sense control unit model from the pre-processor to a separate recognition unit speech recognizer that.
  6. 연속음성인식기에 있어서, In a continuous speech recognizer,
    입력 음성신호로부터 인식에 사용될 특징벡터를 추출하는 전처리기와, Precompilers and extracting a feature vector to be used for recognition from an input speech signal,
    인식단위모델로서 음소단위 모델 및 문장구성에 중요한 역할을 하는 의미어를 별도의 인식단위로 하는 의미어단위 모델을 사용하고, 상기 의미어가 갖는 의미 정보를 이용하여 네트워크를 구성한 의미어중심 단어 네트워크를 이용하여, 상기 전처리기로부터 출력된 특징벡터 신호에 대한 패턴매칭을 수행하는 인식기와, A recognition unit model using the mean control unit model to the mean air which plays an important role in the phoneme unit model and sentences composed of separate recognition unit, and means using the semantic information having eoga the means configured the network control center the word network and a recognizer that performs pattern matching for the feature vector signal output from the preprocessor, using,
    상기 인식기의 패턴매칭 수행결과 문장들중에서 의미어가 가지고 있는 정보를 이용해서 최적의 문장을 선별하는 후처리기를 포함하는 연속음성인식기. A continuous speech recognizer, which, including the post-processor for selecting the best sentence using the information that has eoga means among perform pattern matching of the sentence recognizer result.
  7. 상기 제5항 또는 제6항에 있어서, According to the claim 5 or 6,
    상기 의미어는 문장 구성에 중요한 동사나 핵심어를 포함하는 음성인식기. Speech recognizer that includes important verbs and keywords in the sentences mean freezing.
  8. 상기 제5항 또는 제6항에 있어서, According to the claim 5 or 6,
    상기 입력 음성 신호는 예약, 증권서비스 관련 대화신호를 포함하는 음성인식기. Speech recognizer to the input audio signal comprises a signal related conversations reservations, securities services.
KR1020010045687A 2001-07-28 2001-07-28 Continuous speech recognization method utilizing meaning-word-based model and the apparatus KR20030010979A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020010045687A KR20030010979A (en) 2001-07-28 2001-07-28 Continuous speech recognization method utilizing meaning-word-based model and the apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020010045687A KR20030010979A (en) 2001-07-28 2001-07-28 Continuous speech recognization method utilizing meaning-word-based model and the apparatus

Publications (1)

Publication Number Publication Date
KR20030010979A true KR20030010979A (en) 2003-02-06

Family

ID=27717108

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020010045687A KR20030010979A (en) 2001-07-28 2001-07-28 Continuous speech recognization method utilizing meaning-word-based model and the apparatus

Country Status (1)

Country Link
KR (1) KR20030010979A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100718147B1 (en) * 2005-02-01 2007-05-14 삼성전자주식회사 Apparatus and method of generating grammar network for speech recognition and dialogue speech recognition apparatus and method employing the same
US8032374B2 (en) 2006-12-05 2011-10-04 Electronics And Telecommunications Research Institute Method and apparatus for recognizing continuous speech using search space restriction based on phoneme recognition

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100718147B1 (en) * 2005-02-01 2007-05-14 삼성전자주식회사 Apparatus and method of generating grammar network for speech recognition and dialogue speech recognition apparatus and method employing the same
US8032374B2 (en) 2006-12-05 2011-10-04 Electronics And Telecommunications Research Institute Method and apparatus for recognizing continuous speech using search space restriction based on phoneme recognition

Similar Documents

Publication Publication Date Title
Riley et al. Stochastic pronunciation modelling from hand-labelled phonetic corpora
Chen et al. Advances in speech transcription at IBM under the DARPA EARS program
Oostdijk et al. Experiences from the spoken Dutch corpus project
KR101056080B1 (en) The phoneme-based speech recognition system and method
CN1841498B (en) Method for validating speech input using a spoken utterance
US5848389A (en) Speech recognizing method and apparatus, and speech translating system
US6272464B1 (en) Method and apparatus for assembling a prediction list of name pronunciation variations for use during speech recognition
JP4267081B2 (en) Pattern recognition registration in a distributed system
US6501833B2 (en) Method and apparatus for dynamic adaptation of a large vocabulary speech recognition system and for use of constraints from a database in a large vocabulary speech recognition system
Jelinek Statistical methods for speech recognition
JP4028375B2 (en) Independent voice-based search system in the language
Lamel et al. High performance speaker-independent phone recognition using CDHMM
CN1156821C (en) Recognition engines with complementary language models
US20060074671A1 (en) System and methods for improving accuracy of speech recognition
US8532993B2 (en) Speech recognition based on pronunciation modeling
Black et al. Issues in building general letter to sound rules
US20080077391A1 (en) Method, apparatus, and computer program product for machine translation
Zissman et al. Automatic language identification
US6078885A (en) Verbal, fully automatic dictionary updates by end-users of speech synthesis and recognition systems
US6999931B2 (en) Spoken dialog system using a best-fit language model and best-fit grammar
US20020052742A1 (en) Method and apparatus for generating and displaying N-best alternatives in a speech recognition system
US6879956B1 (en) Speech recognition with feedback from natural language processing for adaptation of acoustic models
JP5040909B2 (en) Speech recognition dictionary creating support systems, speech recognition dictionary creating support method, and a speech recognition dictionary creating support for the program
US7299178B2 (en) Continuous speech recognition method and system using inter-word phonetic information
Batliner et al. The prosody module

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination