KR100577990B1 - Apparatus of talker dependence/independence speech recognition - Google Patents
Apparatus of talker dependence/independence speech recognition Download PDFInfo
- Publication number
- KR100577990B1 KR100577990B1 KR1019970081825A KR19970081825A KR100577990B1 KR 100577990 B1 KR100577990 B1 KR 100577990B1 KR 1019970081825 A KR1019970081825 A KR 1019970081825A KR 19970081825 A KR19970081825 A KR 19970081825A KR 100577990 B1 KR100577990 B1 KR 100577990B1
- Authority
- KR
- South Korea
- Prior art keywords
- model
- independent
- dependent
- similarity information
- speaker
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/285—Memory allocation or algorithm optimisation to reduce hardware requirements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/081—Search algorithms, e.g. Baum-Welch or Viterbi
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0004—Design or structure of the codebook
- G10L2019/0005—Multi-stage vector quantisation
Abstract
본 발명은 화자 종속 단어와 화자 독립 단어를 동시에 인식할 수 있는 화자 종속/독립 음성 인식 장치에 관한 것이다.The present invention relates to a speaker-dependent / independent speech recognition apparatus capable of simultaneously recognizing a speaker-dependent word and a speaker-independent word.
이 화자 종속/독립 음성 음성 인식 장치는 음성신호로부터 음성구간을 검출하는 음성구간 검출수단과; 상기 음성구간 검출수단으로부터의 음성신호에서 특징벡터를 추출하는 특징벡터 추출수단과; 상기 특징벡터 추출수단으로부터의 특징벡터를 코드북 이용하여 양자화하는 벡터 양자화수단과; 상기 양자화수단의 출력신호를 입력받아 종속모델 파라미터를 추정하는 파라미터 추정수단과; 상기 파라미터 추정수단으로부터의 종속모델을 저장하는 제1 저장수단과; 다수 화자의 음성데이터로부터 만들어진 독립모델을 저장하는 제2 저장수단과; 상기 제1 저장수단의 종속모델과 제2 저장수단의 독립모델 각각을 전처리수단의 출력신호와 패턴 정합하여 종속모델 유사도 정보와 독립모델 유사도 정보를 각각 생성하는 패턴 정합수단과;화자의 선택에 따라 상기 벡터 약자화수단을 상기 파라미터 추정수단과 패턴 정합수단 중 어느 하나에 접속시키는 선택 스위치 수단과; 상기 종속모델 유사도 정보와 독립모델 유사도 정보를 비교하여 해당모드를 결정하는 결정 로직부와, 상기 결정 로직부에서 결정된 모드에 따라 선택적으로 동작하여 해당 모드의 유사도 정보를 이용하여 결정된 인식결과를 출력하는 거절부를 포함하여 상기 패턴 정합수단으로부터의 종속모델 유사도 정보와 독립모델 유사도 정보를 이용하여 상기 입력음성이 해당하는 모드를 판단하고 그 해당 모드에서 결정된 인식결과를 출력하는 후처리 수단을 구비한다.This speaker dependent / independent speech recognition apparatus includes speech section detection means for detecting a speech section from a speech signal; Feature vector extracting means for extracting feature vectors from the speech signal from said speech segment detecting means; Vector quantization means for quantizing a feature vector from the feature vector extracting means using a codebook; Parameter estimation means for receiving an output signal of the quantization means and estimating the dependent model parameter; First storage means for storing the dependent model from the parameter estimating means; Second storage means for storing an independent model made from voice data of multiple speakers; A pattern matching means for pattern matching each of the dependent model of the first storage means and the independent model of the second storage means with the output signal of the preprocessing means to generate the dependent model similarity information and the independent model similarity information, respectively; Selection switch means for connecting the vector abbreviation means to any one of the parameter estimating means and the pattern matching means; A decision logic unit for determining a corresponding mode by comparing the dependent model similarity information and the independent model similarity information, and selectively operating according to a mode determined by the decision logic unit to output a recognition result determined using similarity information of the corresponding mode. And a post-processing means for determining a mode corresponding to the input voice using the dependent model similarity information and the independent model similarity information from the pattern matching means and outputting a recognition result determined in the corresponding mode, including a rejection unit.
Description
본 발명은 음성 인식 시스템에 관한 것으로, 특히 화자 종속 단어와 화자 독립 단어를 동시에 인식할 수 있는 화자 종속/독립 음성 인식 장치에 관한 것이다.The present invention relates to a speech recognition system, and more particularly, to a speaker-dependent / independent speech recognition apparatus capable of simultaneously recognizing a speaker-dependent word and a speaker-independent word.
통상, 음성인식 방법에는 화자에 따라 화자종속 음성인식 방법과 화자독립 음성인식 방법으로 분류된다. 여기서, 화자종속 음성인식 방법은 특정인 한사람만을 위한 것으로 사용자의 입장에서는 종속 기준모델을 등록하기 위하여 학습과정이 필요하다. 반면에, 화자독립 음성인식 방법은 불특정 다수인을 위한 것으로 다수 인이 학습에 참여하여 얻은 일반적인 독립 기준모델을 이용하여 음성을 인식하는 방법으로써, 이 독립 기준모델은 생산공장에서 제품화되어 공급되므로 사용자의 입장에서는 학습의 과정이 불필요하다.Usually, voice recognition methods are classified into speaker dependent voice recognition methods and speaker independent voice recognition methods according to the speaker. Here, the speaker-dependent speech recognition method is for a specific person only and a learning process is required from the user's point of view in order to register the dependent reference model. On the other hand, the speaker-independent speech recognition method is for an unspecified number of people, and is a method of recognizing speech using a general independent reference model obtained by a large number of participants in learning. From the standpoint of learning, the process of learning is unnecessary.
일반적인 음성인식 장치는 상술한 두가지의 음성인식 방법을 제공하기 위하여 화자종속 인식기와 화자독립 인식기를 구비하고 있다. 종래의 음성인식 장치는 우선적으로 종속 기준모델을 등록하여 종속 단어의 인식과 독립 단어의 인식을 대비한다. 따라서, 종래의 음성 인식 장치는 처음 사용자가 무조건 종속 기준모델을 등록해야 하므로 번거로울 뿐만 아니라 경우에 따라 화자종속 인식기와 화자독립 인식기를 제어해야 하므로 인식을 위한 제어가 복잡하다는 문제점이 있다. 이하, 첨부도면을 참조하여 상술한 문제점을 상세히 살펴보기로 한다.A general speech recognition device includes a speaker dependent recognizer and a speaker independent recognizer to provide the above two speech recognition methods. The conventional speech recognition apparatus firstly registers the subordinate reference model to prepare for the recognition of the dependent word and the recognition of the independent word. Therefore, the conventional speech recognition apparatus has a problem in that the control for recognition is complicated because the first user must unconditionally register the dependent reference model, and the speaker dependent recognizer and the speaker independent recognizer must be controlled in some cases. Hereinafter, the above-described problems will be described in detail with reference to the accompanying drawings.
도 1은 종래의 음성인식 장치 중 화자종속 음성인식기의 구성을 도시한 블록도로써, 도 1의 화자종속 음성인식기는 입력되는 음성신호에서 특징벡터를 추출하여 양자화하는 전처리부(10)와, 전처리부(10)의 출력신호를 밤 웰츠(Baum-Welch) 추정부(14)와 패턴 정합부(22)로 절환하는 선택 스위치(12)와, 선택 스위치(12)에 접속되어 HMM 파라미터를 추정하는 밤 웰츠 추정부(14)와, 밤 웰츠 추정부(14)의 HMM 파라미터를 기준패턴으로 저장하는 저장부(16)와, 선택 스위치(12)를 경유한 입력신호와 저장부(16)의 기준패턴을 정합하는 패턴 정합부(18)와, 패턴 정합부(18)에 접속되어 인식결과를 출력하는 인식판단부(20)를 구비한다.1 is a block diagram showing the configuration of a speaker-dependent speech recognizer of the conventional speech recognition apparatus. The speaker-dependent speech recognizer of FIG. A selection switch 12 for switching the output signal of the
도 1의 화자종속 음성인식기에서 전처리부(10)는 음성구간 검출부(2), 특징 추출부(4) 및 벡터 양자화기(6)를 구성으로 한다. 전처리부(10)에서 음성구간 검 출부(2)는 입력된 음성신호로부터 음성구간을 검출하여 출력한다. 특징 추출부(4)는 음성구간 검출부(2)의 출력신호에서 특징벡터를 추출하여 출력한다. 벡터 양자화기(6)는 코드북(8)을 참조하여 특징 추출부(4)로부터의 특징벡터를 양자화하여 이산신호로 출력한다. 다시 말하여, 벡터 양자화기(6)는 특징 추출부(4)로부터의 특징벡터들을 코드북(8)의 N 개의 코드벡터와 비교하여 가장 근접한 코드 벡터값으로 양자화하여 출력한다. 코드북(8)은 N개의 다차원 특징 벡터들이 집단화(Clustering) 방법으로 구성된다. 선택 스위치(12)는 사용자의 선택에 따라 전처리부(10)를 밤 웰츠 추정부(14) 또는 패턴 정합부(18)에 접속시킨다. 상세히 하면, 선택스위치(12)는 사용자가 자신의 음성을 등록시키고자 하는 경우 전처리부(10)를 밤 웰츠 추정부(14)에 접속시킨다. 또한, 선택스위치(12)는 사용자의 음성을 인식하고자 하는 경우 전처리부(10)를 패턴 정합부(18)로 접속시킨다. 밤 웰츠 추정부(14)는 등록시 벡터 양자화기(6)로부터 선택스위치(12)를 경유하여 입력된 이산신호에서 은닉 마르코프 모델(Hidden Markov Model; 이하, HMM이라 한다) 파라미터를 추정한다. 이때, 밤 웰츠 추정부(14)는 사용자가 2∼3번 반복 발음한 신호를 입력받아 일반적인 HMM 파라미터를 추출한다. 저장부(16)에는 밤 웰츠 추정부(12)의 HMM 파라미터가 기준패턴으로 저장된다. 패턴 정합부(22)는 인식시 벡터 양자화기(6)로부터 선택 스위치(12)를 경유하여 입력된 이산신호와 저장부(16)의 기준패턴들을 정합하여 출력하고, 인식 판단부(20)는 유사도가 가장 높은 기준모델을 인식결과로 출력한다.In the speaker-dependent speech recognizer of FIG. 1, the
그리고, 음성인식 장치는 상기와 같은 전치리부와 독립모델을 기준으로 인식을 수행하는 인식기를 구성으로 하는 화자독립 인식기를 구비한다.In addition, the speech recognition apparatus includes a speaker independent recognizer configured as a recognizer that performs recognition based on the preposition and the independent model as described above.
그런데, 상술한 음성 인식 장치는 독립 단어의 인식과 동시에 종속 단어의 인식을 대비하기 위하여 우선적으로 종속 기준모델을 등록하여야 한다. 예컨데, 현재 이동통신망에서 사용되는 음성 인식 장치는 중요 메뉴 명령을 미리 화자 종속 상태로 등록해서 화자종속 단어와 화자독립 단어가 동시에 인식될 경우를 대비한다. 이에 따라, 종래의 음성인식 장치는 처음 사용자가 무조건 종속 기준모델을 등록해야 하는 문제점을 갖고 있다.However, the above-described speech recognition apparatus must first register the subordinate reference model in order to prepare for the recognition of the dependent word at the same time as the recognition of the independent word. For example, the speech recognition apparatus used in the current mobile communication network registers important menu commands in a speaker dependent state in advance to prepare for a case where a speaker dependent word and a speaker independent word are simultaneously recognized. Accordingly, the conventional speech recognition apparatus has a problem that the first user must register the dependent reference model unconditionally.
또한, 종래의 음성 인식 장치에서 화자종속 인식기와 화자독립 인식기는 마이컴 등과 같은 제어수단에 의하여 동작이 제어되므로 인식을 위한 제어가 복잡한 문제점을 갖고 있다.In addition, in the conventional speech recognition apparatus, the speaker dependent recognizer and the speaker independent recognizer have a complicated problem because the operation is controlled by a control means such as a microcomputer.
따라서, 본 발명의 목적은 화자종속 단어와 화자독립 단어를 동시에 인식하여 인식기에서 해당 모드 판단함으로써, 인식기의 구조를 간단히 할 수 있는 화자 종속/독립 음성인식 장치를 제공하는 것이다.Accordingly, an object of the present invention is to provide a speaker-dependent / independent speech recognition device capable of simplifying the structure of the recognizer by simultaneously recognizing the speaker dependent word and the speaker independent word and determining the corresponding mode in the recognizer.
본 발명의 다른 목적은 동일한 코드북을 사용하여 화자 종속 및 독립 인식을 수행함으로써, 메모리의 용량을 줄일 수 있는 화자 종속/독립 음성인식 장치를 제공하는 것이다.Another object of the present invention is to provide a speaker dependent / independent speech recognition apparatus capable of reducing the memory capacity by performing speaker dependent and independent recognition using the same codebook.
상기 목적을 달성하기 위하여, 본 발명에 따른 화자 종속/독립 음성 인식 장치는 음성신호로부터 음성구간을 검출하는 음성구간 검출수단과; 상기 음성구간 검출수단으로부터의 음성신호에서 특징벡터를 추출하는 특징벡터 추출수단과; 상기 특징벡터 추출수단으로부터의 특징벡터를 코드북 이용하여 양자화하는 벡터 양자화 수단과; 상기 양자화수단의 출력신호를 입력받아 종속모델 파라미터를 추정하는 파라미터 추정수단과; 상기 파라미터 추정수단으로부터의 종속모델을 저장하는 제1 저장수단과; 다수 화자의 음성데이터로부터 만들어진 독립모델을 저장하는 제2 저장수단과; 상기 제1 저장수단의 종속모델과 제2 저장수단의 독립모델 각각을 전처리수단의 출력신호와 패턴 정합하여 종속모델 유사도 정보와 독립모델 유사도 정보를 각각 생성하는 패턴 정합수단과; 화자의 선택에 따라 상기 벡터 약자화수단을 상기 파라미터 추정수단과 패턴 정합수단 중 어느 하나에 접속시키는 선택 스위치수단과; 상기 종속모델 유사도 정보와 독립모델 유사도 정보를 비교하여 해당모드를 결정하는 결정 로직부와, 상기 결정 로직부에서 결정된 모드에 따라 선택적으로 동작하여 해당 모드의 유사도 정보를 이용하여 결정된 인식결과를 출력하는 거절부를 포함하여 상기 패턴 정합수단으로부터의 종속모델 유사도 정보와 독립모델 유사도 정보를 이용하여 상기 입력음성이 해당하는 모드를 판단하고 그 해당 모드에서 결정된 인식결과를 출력하는 후처리 수단을 구비한다.In order to achieve the above object, a speaker-dependent / independent speech recognition apparatus according to the present invention comprises: speech section detecting means for detecting a speech section from a speech signal; Feature vector extracting means for extracting feature vectors from the speech signal from said speech segment detecting means; Vector quantization means for quantizing the feature vector from the feature vector extracting means using a codebook; Parameter estimation means for receiving an output signal of the quantization means and estimating the dependent model parameter; First storage means for storing the dependent model from the parameter estimating means; Second storage means for storing an independent model made from voice data of multiple speakers; Pattern matching means for pattern matching each of the dependent model of the first storage means and the independent model of the second storage means with the output signal of the preprocessing means to generate the dependent model similarity information and the independent model similarity information, respectively; Selection switch means for connecting the vector abbreviation means to one of the parameter estimating means and the pattern matching means according to a speaker's selection; A decision logic unit for determining a corresponding mode by comparing the dependent model similarity information and the independent model similarity information, and selectively operating according to a mode determined by the decision logic unit to output a recognition result determined using similarity information of the corresponding mode. And a post-processing means for determining a mode corresponding to the input voice using the dependent model similarity information and the independent model similarity information from the pattern matching means and outputting a recognition result determined in the corresponding mode, including a rejection unit.
상기 선택 스위치 수단은 화자가 음성을 등록시키고자 하는 경우 상기 전처 리수단을 상기 파라미터 추정수단에 접속시킨다.The selection switch means connects the preprocessing means to the parameter estimating means when the speaker wants to register a voice.
상기 선택 스위치 수단은 화자의 음성을 인식하고자 하는 경우 상기 전처리수단을 상기 패턴 정합수단에 접속시킨다.The selection switch means connects the preprocessing means to the pattern matching means when the speaker's voice is to be recognized.
상기 거절부는 상기 종속모델 유사도 정보를 이용하여 인식결과를 결정하는 종속모델 거절부와, 상기 독립모델 유사도 정보를 이용하여 인식결과를 결정하는 독립모델 거절부를 구비한다.The rejection unit includes a dependency model rejection unit that determines a recognition result using the dependent model similarity information, and an independent model rejection unit that determines the recognition result using the independent model similarity information.
상기 결정 로직부에서 상기 입력 음성신호가 종속모델에 유사하다고 결정되는 경우 상기 종속모델 거절부에서 종속모델 유사도 정보 중 가장 높은 인식 확률값과 종속모델에 대응되는 필러모델의 가장 높은 인식 확률값을 비교하여 종속모델의 확률값이 큰 경우 그 종속모델을 인식결과로 출력하고, 상기 필러모델의 확률값이 큰 경우 인식결과의 출력을 차단한다.If the decision logic unit determines that the input speech signal is similar to the dependent model, the dependent model rejection unit compares the highest recognition probability value among the similarity information of the dependent model with the highest recognition probability value of the filler model corresponding to the dependent model. If the probability value of the model is large, the dependent model is output as a recognition result. If the probability value of the filler model is large, the output of the recognition result is blocked.
상기 종속모델 거절부의 인식결과 출력이 차단되는 경우 상기 독립모델 거절부에서 상기 독립모델 유사도 정보 중 가장 높은 인식 확률값과 독립모델에 대응되는 필러모델의 가장 높은 인식 확률값을 비교하여 독립모델의 확률값이 큰 경우 그 독립모델을 인식결과로 출력하고, 상기 필러모델의 확률값이 큰 경우 인식 불가능메시지를 출력한다.When the recognition result output of the dependent model rejection unit is blocked, the independent model rejection unit compares the highest recognition probability value of the independent model similarity information with the highest recognition probability value of the filler model corresponding to the independent model and has a large probability value of the independent model. If the independent model is output as a recognition result, if the probability value of the filler model is large, an unrecognizable message is output.
상기 결정 로직부에서 상기 입력 음성신호가 독립모델에 유사하다고 결정되는 경우 상기 독립모델 거절부에서 독립모델 유사도 정보 중 가장 높은 인식 확률값과 독립모델에 대응되는 필러모델의 가장 높은 인식 확률값을 비교하여 독립모델의 확률값이 큰 경우 그 독립모델을 인식결과로 출력하고, 상기 필러모델의 확률값이 큰 경우 인식결과의 출력을 차단한다.When the decision logic unit determines that the input voice signal is similar to the independent model, the independent model rejection unit compares the highest recognition probability value among the independent model similarity information with the highest recognition probability value of the filler model corresponding to the independent model to determine the independence. If the probability value of the model is large, the independent model is output as a recognition result, and if the probability value of the filler model is large, the output of the recognition result is blocked.
상기 독립모델 거절부의 인식결과 출력이 차단되는 경우 상기 종속모델 거절수단에서 상기 종속모델 유사도 정보 중 가장 높은 인식 확률값과 종속모델에 대응되는 필러모델의 가장 높은 인식 확률값을 비교하여 종속모델의 확률값이 큰 경우 그 종속모델을 인식결과로 출력하고, 상기 필러모델의 확률값이 큰 경우 인식 불가능 메시지를 출력한다.When the recognition result output of the independent model rejection unit is blocked, the dependent model rejection means compares the highest recognition probability value among the similarity information of the dependent model with the highest recognition probability value of the filler model corresponding to the dependent model, and thus has a large probability value of the dependent model. If the dependent model is output as a recognition result, and if the probability value of the filler model is large, an unrecognizable message is output.
상기 목적 외에 본 발명의 다른 목적 및 이점들은 첨부 도면을 참조한 본 발명의 바람직한 실시예에 대한 설명을 통하여 명백하게 드러나게 될 것이다.Other objects and advantages of the present invention in addition to the above object will become apparent from the description of the preferred embodiment of the present invention with reference to the accompanying drawings.
이하, 본 발명의 바람직한 실시예를 도 2 및 도 3을 참조하여 상세하게 설명하기로 한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to FIGS. 2 and 3.
도 2은 본 발명에 따른 화자 종속/독립 음성인식 장치의 구성을 도시한 블록도로써, 도 2의 화자 종속/독립 음성인식 장치는 입력되는 음성신호에서 특징벡터를 추출하여 양자화하는 전처리부(10)와, 전처리부(10)의 출력신호를 밤 웰츠(Baum-Welch) 추정부(14)와 패턴 정합부(24)로 절환하는 선택 스위치(12)와, 선택 스위치(12)에 접속되어 HMM 파라미터를 추정하는 밤 웰츠 추정부(14)와, 밤 웰츠 추정부(14)의 HMM 파라미터를 기준패턴으로 저장하는 종속모델 저장부(16)와, 다수 화자의 음성데이터로부터 만들어진 독립모델을 저장하는 독립모델 저장부(22)와, 선택 스위치(12)를 경유한 입력신호를 종속모델 저장부(16)와 독립모델 저장부(18)의 종속모델과 독립모델과 각각 정합하는 패턴 정합부(24)와, 패턴 정합부(24)에 접속되어 해당 모드 결정 및 거절을 수행하여 인식결과를 출력하는 후처리부(26)를 구비한다.FIG. 2 is a block diagram illustrating a configuration of a speaker-dependent / independent speech recognition apparatus according to the present invention. The speaker-dependent / independent speech recognition apparatus of FIG. 2 is a
도 2의 화자 종속/독립 음성인식 장치에서 전처리부(10)는 음성구간 검출부(2), 특징 추출부(4) 및 벡터 양자화기(6)를 구성으로 한다. 전처리부(10)에서 음성구간 검출부(2)는 입력된 음성신호로부터 음성구간을 검출하여 출력한다. 특징 추출부(4)는 음성구간 검출부(2)의 출력신호에서 특징벡터를 추출하여 출력한다. 벡터 양자화기(6)는 코드북(8)을 참조하여 특징 추출부(4)로부터의 특징벡터를 양자화하여 이산신호로 출력한다. 다시 말하여, 벡터 양자화기(6)는 특징 추출부(4)로부터의 특징벡터들을 코드북(8)의 N 개의 코드벡터와 비교하여 가장 근접한 코드 벡터값으로 양자화하여 출력한다. 코드북(8)은 N개의 다차원 특징 벡터들이 집단화(Clustering) 방법으로 구성된다. 선택 스위치(12)는 사용자의 선택에 따라 전처리부(10)를 밤 웰츠 추정부(14) 또는 패턴 정합부(18)에 접속시킨다. 상세히 하면, 선택스위치(12)는 사용자가 자신의 음성을 등록시키고자 하는 경우 전처리부(10)를 밤 웰츠 추정부(14)에 접속시킨다. 또한, 선택스위치(12)는 사용자의 음성을 인식하고자 하는 경우 전처리부(10)를 패턴 정합부(18)로 접속시킨다. 밤 웰츠 추정부(14)는 등록시 벡터 양자화기(6)로부터 선택스위치(12)를 경유하여 입력된 이산신호에서 HMM 파라미터를 추정한다. 이때, 밤 웰츠 추정부(14)는 사용자가 2∼3번 반복 발음한 신호를 입력받아 일반적인 HMM 파라미터를 추출한다. 종속모델 저장부(16)에는 밤 웰츠 추정부(12)의 HMM 파라미터가 종속모델로 저장된다.In the speaker dependent / independent speech recognition apparatus of FIG. 2, the
독립모델 저장부(22)에는 다수 화자의 음성데이터로부터 만들어진 독립모델이 저장되어 있다.The independent
패턴 정합부(24)는 인식시 벡터 양자화기(6)로부터 선택 스위치(12)를 경유한 이산신호를 입력으로 하여 비터비(Viterbi) 검색을 한다. 이때, 기준모델로 사용되는 것은 종속모델 저장부(16)의 종속모델과 독립모델 저장부(22)의 독립모델이다. 패턴 정합부(24)는 비터비 검색을 하여 입력신호와 종속모델 간의 유사도 정보(이하, 종속모델 학습정보라 한다)와 입력신호와 독립모델 간의 유사도 정보(이하, 독립모델 학습정보라 한다) 각각을 출력한다. 이때, 각 유사도는 대수가 취해진 확률값으로 표시된다.The
후처리부(26)는 패턴 정합부(24)로부터 출력되는 종속모델 학습정보와 독립모델 학습정보를 이용하여 입력음성이 종속모델에 유사한지 독립모델에 유사한지를 판단하고 이에 따라 결정된 인식결과를 출력한다. 이를 위하여, 후처리부(26)는 결정 로직부(28)와 거절부(30)를 구비하고, 거절부(30)는 종속 거절부(32)와 독립거절부(34)를 구성으로 한다. 후처리부(26)의 결정 로직부(28)는 패턴 정합부(24)로부터의 종속모델 학습정보와 독립모델 학습정보를 이용하여 입력음성이 종속모델에 유사한지 독립모델에 유사한지를 판단하여 출력한다. 상세히 하면, 통상수십 내지 수백명의 화자로부터 취득한 동일한 단어의 음성신호로부터 만들어진 독립모델은 2∼3번 반복 발음으로 학습된 종속모델에 비하여 해당 음성신호에 대한 비터비 검색 후 산출되는 확률값이 높다는 특성을 갖는다. 따라서, 결정 로직부(28)는 상술한 특성을 입력음성이 종속단어인지 독립단어인지 여부를 결정하여 거절부(30)의 해당 모드로 출력한다. 거절부(30)의 종속 거절부(32)와 독립 거절부(34)는 결정 로직부(28)의 출력에 따라 선택적으로 동작한다.The
상세히 하면, 결정 로직부(28)에서 입력음성을 독립단어로 결정한 경우 독립 거절부(34)는 독립모델 학습정보 중 가장 높은 확률값과 이 독립모델에 대응되는 필러(Filler) 모델의 확률값 중 가장 높은 값을 비교하여 독립모델의 확률값이 큰 경우 그 독립모델을 인식결과로 출력한다. 반면에, 필러 모델의 확률 값이 큰 경우 인식결과의 출력을 차단한다. 이 경우 종속 거절부(32)는 결정 로직부(28)로부터 종속모델 학습정보 중 가장 높은 값을 이 종속 모델에 대응되는 필러 모델의 확률값 중 가장 높은 값을 비교하여 종속모델의 확률값이 큰 경우 그 종속모델을 인식결과로 출력한다. 반면에 필러 모델의 확률값이 큰 경우 인식결과의 출력을 차단하고 인식 불가능(Out-of-vocabulary)이라는 메시지를 출력한다.In detail, when the
한편, 결정 로직부(28)에서 입력 음성을 종속단어로 결정한 경우 종속 거절부(32)부터 상술한 바와 같은 방법으로 동작하여 인식대상 단어인지 인식 불가능 단어인지를 결정하여 출력한다.On the other hand, when the
이와 같이, 상술한 화자 종속/독립 음성 인식 장치는 종래와 같이 종속 모드로 중요 메뉴를 학습할 필요가 없을 뿐만 아니라, 종속 및 독립 모드를 인식기에서 자동으로 인식하여 판단함으로 구조를 간단히 할 수 있다.As described above, the speaker-dependent / independent speech recognition apparatus described above does not need to learn important menus in the dependent mode as in the conventional art, and can simplify the structure by automatically recognizing and determining the dependent and independent modes in the recognizer.
이상 설명한 바와 같이, 본 발명에 따른 화자 종속/독립 음성 인식 장치에 의하면 화자종속 단어와 화자독립 단어를 같은 인식부를 이용하여 동시에 인식하고 인식부에서 해당 모드를 판단함으로써 인식기의 구조를 간단히 할 수 있다. 또한,본 발명의 화자 종속/독립 음성인식 장치는 동일한 코드북을 이용하여 화자 종속 및 독립 인식을 수행함으로써 메모리의 용량을 줄일 수 있다.As described above, according to the speaker-dependent / independent speech recognition apparatus according to the present invention, the structure of the recognizer can be simplified by simultaneously recognizing the speaker-dependent word and the speaker-independent word by using the same recognizer and determining the corresponding mode by the recognizer. . In addition, the speaker-dependent / independent speech recognition device of the present invention can reduce the memory capacity by performing speaker-dependent and independent recognition using the same codebook.
한편, 상술한 내용을 통해 당업자라면 본 발명의 기술사상을 일탈하지 아니하는 범위에서 다양한 변경 및 수정이 가능함을 알 수 있을 것이다. 따라서, 본 발명의 기술적 범위는 명세서의 상세한 설명에 기재된 내용으로 한정되는 것이 아니라 특허 청구의 범위에 의하여 정하여져야만 한다.On the other hand, it will be appreciated by those skilled in the art that various changes and modifications can be made without departing from the spirit of the present invention. Therefore, the technical scope of the present invention should not be limited to the contents described in the detailed description of the specification but should be defined by the claims.
도 1은 종래의 음성인식 장치 중 화자종속 음성인식기의 구성을 도시한 블록도.1 is a block diagram showing the configuration of a speaker-dependent speech recognizer of the conventional speech recognition device.
도 2는 본 발명에 따른 화자 종속/독립 음성인식 장치의 구성을 도시한 블록도.Figure 2 is a block diagram showing the configuration of a speaker-dependent / independent speech recognition device according to the present invention.
도 3은 도 2의 음성인식 장치에서 후처리부의 구성을 상세히 도시한 블록도.3 is a block diagram showing in detail the configuration of the post-processing unit in the voice recognition device of FIG.
<도면의 주요부분에 대한 부호의 간단한 설명><Brief description of symbols for the main parts of the drawings>
2 : 음성구간 검출부 4 : 특징 추출부2: voice section detection unit 4: feature extraction unit
6 : 벡터 양자화기 8 : 코드북6: vector quantizer 8: codebook
10 : 전처리부 12 : 선택 스위치10: preprocessor 12: selection switch
14 : 밤웰츠(Baum-Welch) 추정부 16 : 종속모델 저장부14: Baum-Welch estimator 16: dependent model storage unit
18, 24 : 패턴 정합부 20 : 인식 판단부18, 24: pattern matching unit 20: recognition determination unit
22 : 독립모델 저장부 26 : 후처리부22: independent model storage unit 26: post-processing unit
28 : 결정 로직부 30 : 거절부28: decision logic unit 30: rejection unit
32 : 종속 거절부 34 : 독립 거절부32: dependent refusal 34: independent refusal
Claims (8)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1019970081825A KR100577990B1 (en) | 1997-12-31 | 1997-12-31 | Apparatus of talker dependence/independence speech recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1019970081825A KR100577990B1 (en) | 1997-12-31 | 1997-12-31 | Apparatus of talker dependence/independence speech recognition |
Publications (2)
Publication Number | Publication Date |
---|---|
KR19990061558A KR19990061558A (en) | 1999-07-26 |
KR100577990B1 true KR100577990B1 (en) | 2006-08-30 |
Family
ID=37600993
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1019970081825A KR100577990B1 (en) | 1997-12-31 | 1997-12-31 | Apparatus of talker dependence/independence speech recognition |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100577990B1 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100331689B1 (en) * | 2000-06-24 | 2002-04-09 | 송문섭 | Method for speaker adaptive training in speech recognition system |
KR100423495B1 (en) * | 2001-06-21 | 2004-03-18 | 삼성전자주식회사 | Operation control system by speech recognition for portable device and a method using the same |
KR100485864B1 (en) * | 2001-12-28 | 2005-04-28 | 최중인 | Verification system using sound bar-code combined with bell sound |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5091947A (en) * | 1987-06-04 | 1992-02-25 | Ricoh Company, Ltd. | Speech recognition method and apparatus |
US5144672A (en) * | 1989-10-05 | 1992-09-01 | Ricoh Company, Ltd. | Speech recognition apparatus including speaker-independent dictionary and speaker-dependent |
US5165095A (en) * | 1990-09-28 | 1992-11-17 | Texas Instruments Incorporated | Voice telephone dialing |
JPH06175678A (en) * | 1992-07-30 | 1994-06-24 | Nec Corp | Voice recognizing device |
KR19990052548A (en) * | 1997-12-22 | 1999-07-15 | 정선종 | A voice dialing method of a mobile terminal by a user's selection. |
-
1997
- 1997-12-31 KR KR1019970081825A patent/KR100577990B1/en not_active IP Right Cessation
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5091947A (en) * | 1987-06-04 | 1992-02-25 | Ricoh Company, Ltd. | Speech recognition method and apparatus |
US5144672A (en) * | 1989-10-05 | 1992-09-01 | Ricoh Company, Ltd. | Speech recognition apparatus including speaker-independent dictionary and speaker-dependent |
US5165095A (en) * | 1990-09-28 | 1992-11-17 | Texas Instruments Incorporated | Voice telephone dialing |
JPH06175678A (en) * | 1992-07-30 | 1994-06-24 | Nec Corp | Voice recognizing device |
KR19990052548A (en) * | 1997-12-22 | 1999-07-15 | 정선종 | A voice dialing method of a mobile terminal by a user's selection. |
Also Published As
Publication number | Publication date |
---|---|
KR19990061558A (en) | 1999-07-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US4618984A (en) | Adaptive automatic discrete utterance recognition | |
EP0921519B1 (en) | Technique for adaptation of hidden Markov Models for speech recognition | |
US7769588B2 (en) | Spoken man-machine interface with speaker identification | |
US5857169A (en) | Method and system for pattern recognition based on tree organized probability densities | |
US6023676A (en) | Keyword recognition system and method | |
US6823307B1 (en) | Language model based on the speech recognition history | |
US20050049870A1 (en) | Open vocabulary speech recognition | |
US5506933A (en) | Speech recognition using continuous density hidden markov models and the orthogonalizing karhunen-loeve transformation | |
US5873061A (en) | Method for constructing a model of a new word for addition to a word model database of a speech recognition system | |
JP2000122691A (en) | Automatic recognizing method for spelling reading type speech speaking | |
EP1022725B1 (en) | Selection of acoustic models using speaker verification | |
US5995926A (en) | Technique for effectively recognizing sequence of digits in voice dialing | |
EP1074019B1 (en) | Adaptation of a speech recognizer for dialectal and linguistic domain variations | |
EP1024476A1 (en) | Speech recognizing device and method, navigation device, portable telephone, and information processor | |
KR100577990B1 (en) | Apparatus of talker dependence/independence speech recognition | |
EP1316944B1 (en) | Sound signal recognition system and method, and dialog control system and method using it | |
US5828998A (en) | Identification-function calculator, identification-function calculating method, identification unit, identification method, and speech recognition system | |
EP0177854B1 (en) | Keyword recognition system using template-concatenation model | |
KR20160122564A (en) | Apparatus for recognizing voice and method thereof | |
KR20020045960A (en) | Method for performance improvement of keyword detection in speech recognition | |
KR102392992B1 (en) | User interfacing device and method for setting wake-up word activating speech recognition | |
EP1205907B1 (en) | Phonetic context adaptation for improved speech recognition | |
WO2004012184A1 (en) | Spoken man-machine interface with speaker identification | |
JPH10116093A (en) | Voice recognition device | |
KR100382473B1 (en) | Speech recognition method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
N231 | Notification of change of applicant | ||
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
LAPS | Lapse due to unpaid annual fee |