KR101529918B1 - Speech recognition apparatus using the multi-thread and methmod thereof - Google Patents
Speech recognition apparatus using the multi-thread and methmod thereof Download PDFInfo
- Publication number
- KR101529918B1 KR101529918B1 KR1020080089453A KR20080089453A KR101529918B1 KR 101529918 B1 KR101529918 B1 KR 101529918B1 KR 1020080089453 A KR1020080089453 A KR 1020080089453A KR 20080089453 A KR20080089453 A KR 20080089453A KR 101529918 B1 KR101529918 B1 KR 101529918B1
- Authority
- KR
- South Korea
- Prior art keywords
- thread
- speech recognition
- reliability
- result
- speaker
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/04—Training, enrolment or model building
Abstract
본 발명에 의한 다중 스레드를 이용한 음성 인식 장치 및 그 방법은, 입력된 음성 신호로부터 특징 벡터를 추출하는 제1 단계; 상기 추출된 특징 벡터를 서로 다른 음향 모델을 이용하는 복수의 스레드들을 통해 각각 음성 인식을 수행하는 제2 단계; 상기 복수의 스레드들 중 상기 음성 인식에 대한 응답 시간이 빠른 스레드의 음성 인식 결과를 출력하는 제3 단계를 포함하여 이루어짐으로써, 복수의 스레드를 통해 음성 인식을 수행하여 응답 시간이 빠른 스레드의 결과를 이용할 수 있도록 구성한다.A multi-threaded speech recognition apparatus and method according to the present invention includes: a first step of extracting a feature vector from an input speech signal; A second step of performing speech recognition on the extracted feature vectors through a plurality of threads using different acoustic models; And a third step of outputting a speech recognition result of a thread having a high response time to the speech recognition among the plurality of threads. Thus, speech recognition is performed through a plurality of threads, So that it can be used.
다중 스레드, 음성 인식, 화자 인식, 응답 시간 Multithreaded, Speech Recognition, Speaker Recognition, Response Time
Description
본 발명은 다중 스레드를 이용한 음성 인식 장치 및 그 방법에 관한 것이다.The present invention relates to a multi-threaded speech recognition apparatus and method.
일반적으로, 음성 인식은 화자로부터 입력된 일반 명령어에 대한 인식 또는 자연어에 대한 인식을 포함한다.In general, speech recognition includes recognition of a general command input from a speaker or recognition of a natural language.
또한, 상기 일반 명령어에 대한 인식 시, 상기 일반 명령어에 대한 인식 응답 시간은 상기 자연어에 대한 인식 응답 시간보다 짧다.In recognition of the general command, the recognition response time for the general command is shorter than the recognition response time for the natural language.
본 발명의 목적은, 서로 다른 음향 모델을 이용하는 다중 스레드를 이용하여 음성 인식을 수행하는 음성 인식 장치 및 그 방법을 제공하는 데 있다.SUMMARY OF THE INVENTION An object of the present invention is to provide a speech recognition apparatus and method for performing speech recognition using multithreads using different acoustic models.
본 발명의 다른 목적은, 일반 명령어와 자연어 인식에 있어서, 서로 다른 음향 모델을 이용하는 다중 스레드를 이용하여 음성 인식을 처리하여, 일반 명령어를 인식하는 경우 자연어 인식에 비해 응답 시간을 줄이는 다중 스레드를 이용한 음성 인식 장치 및 그 방법을 제공하는 데 있다.It is another object of the present invention to provide a method and apparatus for processing speech recognition using generalized instructions and natural language recognition using multithreads using different acoustic models and using multithreading to reduce response time compared to natural language recognition And a speech recognition apparatus and method therefor.
상기 목적들을 달성하기 위한 본 발명에 따른 다중 스레드를 이용한 음성 인식 방법은, 입력된 음성 신호로부터 특징 벡터를 추출하는 제1 단계; 상기 추출된 특징 벡터를 서로 다른 음향 모델을 이용하는 복수의 스레드들을 통해 각각 음성 인식을 수행하는 제2 단계; 상기 복수의 스레드들 중 상기 음성 인식에 대한 응답 시간이 빠른 스레드의 음성 인식 결과를 출력하는 제3 단계를 포함하여 이루어진다.According to another aspect of the present invention, there is provided a method for recognizing a multi-threaded speech, comprising the steps of: extracting a feature vector from an inputted speech signal; A second step of performing speech recognition on the extracted feature vectors through a plurality of threads using different acoustic models; And a third step of outputting a speech recognition result of a thread having a fast response time to the speech recognition among the plurality of threads.
상기 목적들을 달성하기 위한 본 발명에 따른 다중 스레드를 이용한 음성 인식 방법은, 입력된 음성 신호로부터 특징 벡터를 추출하는 제1 단계; 상기 추출된 특징 벡터를 근거로 화자 인식을 수행하는 제2 단계; 상기 화자 인식 수행 후, 상기 추출된 특징 벡터를 서로 다른 음향 모델을 이용하는 복수의 스레드들을 통해 각각 음성 인식을 수행하는 제3 단계; 상기 복수의 스레드들 중 상기 음성 인식에 대한 응답 시간이 빠른 스레드의 음성 인식 결과를 출력하는 제4 단계를 포함하여 이루어진다.According to another aspect of the present invention, there is provided a method for recognizing a multi-threaded speech, comprising the steps of: extracting a feature vector from an inputted speech signal; A second step of performing speaker recognition based on the extracted feature vector; A third step of performing speech recognition on the extracted feature vectors through a plurality of threads using different acoustic models after performing the speaker recognition; And outputting a speech recognition result of a thread having a fast response time to the speech recognition among the plurality of threads.
상기 목적들을 달성하기 위한 본 발명에 따른 다중 스레드를 이용한 음성 인식 장치는, 입력된 음성 신호로부터 특징 벡터를 추출하는 특징 벡터 추출부; 상기 추출된 특징 벡터를 서로 다른 음향 모델을 이용하는 복수의 스레드를 통해 음성 인식을 수행하는 음성 인식 서버를 포함하여 이루어진다.According to an aspect of the present invention, there is provided a multi-thread speech recognition apparatus including: a feature vector extractor for extracting a feature vector from an input speech signal; And a speech recognition server for performing speech recognition through a plurality of threads using the extracted feature vectors in different acoustic models.
상기 목적들을 달성하기 위한 본 발명에 따른 다중 스레드를 이용한 음성 인식 장치는, 입력된 음성 신호로부터 특징 벡터를 추출하는 특징 벡터 추출부; 상기 추출된 특징 벡터를 근거로 화자 인식을 수행하는 화자 인식 서버; 상기 화자 인식이 정상 수행된 후, 상기 추출된 특징 벡터를 서로 다른 음향 모델을 이용하는 복수의 스레드를 통해 음성 인식을 수행하는 음성 인식 서버를 포함하여 이루어진다.According to an aspect of the present invention, there is provided a multi-thread speech recognition apparatus including: a feature vector extractor for extracting a feature vector from an input speech signal; A speaker recognition server for performing speaker recognition based on the extracted feature vectors; And a speech recognition server for performing speech recognition through a plurality of threads using different acoustic models of the extracted feature vectors after the speaker recognition is performed normally.
본 발명의 실시예에 따른 다중 스레드를 이용한 음성 인식 장치 및 그 방법은, 일반 명령어(Command & Control)와 자연어 인식(Flexible Speech Recognition, 또는 자유 발화)이 가능한 경우에 있어서, 서로 다른 음향 모델을 이용하는 다중 스레드를 이용하여 음성 인식을 처리하여, 인식 결과가 빠르게 나온 스레드의 결과를 이용하도록 함으로써, 응답 시간을 줄일 수 있는 효과가 있다.The multithreaded speech recognition apparatus and method according to an embodiment of the present invention can be applied to a speech recognition system that uses a different acoustic model in a case where general commands (Command & Control) and natural speech recognition (flexible speech recognition) The speech recognition is processed by using the multi-thread, and the result of the thread in which the recognition result is obtained quickly is utilized, thereby reducing the response time.
또한, 본 발명의 실시예에 따른 다중 스레드를 이용한 음성 인식 장치 및 그 방법은, 서로 다른 음향 모델을 이용하는 다중 스레드를 이용하여 인식률이 좋은 스레드의 결과를 이용하도록 함으로써, 신뢰성 있는 인식 결과를 제공할 수 있는 효과가 있다.In addition, the apparatus and method for recognizing a multithreaded speech according to an embodiment of the present invention use a result of a thread having a high recognition rate by using multithreading using different acoustic models, thereby providing a reliable recognition result There is an effect that can be.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 대응하는 구성 요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings, wherein like or corresponding elements are denoted by the same reference numerals, and a duplicate description thereof will be omitted.
도 1은 본 발명의 제1 실시예에 따른 다중 스레드를 이용한 음성 인식 장치를 나타낸 블록도로서, 이에 도시된 바와 같이, 음성 인식 장치(100)는, 입력부(110), 특징 벡터 추출부(120), 음성 인식 서버(130), 응용 프로그램부(140) 및, 출력부(150)를 포함하여 이루어진다.FIG. 1 is a block diagram illustrating a multithreaded speech recognition apparatus according to a first embodiment of the present invention. As shown in FIG. 1, the speech recognition apparatus 100 includes an
상기 입력부(110)는, 임의의 화자로부터 발성된 음성 신호를 입력받는다.The
또한, 상기 입력부(110)는, 필터(filter)와 같은 모듈 등을 추가로 구비하여 상기 입력된 음성 신호에 포함된 잡음 등을 제거하도록 구성할 수도 있다.In addition, the
상기 특징 벡터 추출부(120)는, 상기 입력부(110)를 통해 입력된 음성 신호로부터 특징 벡터를 추출한다. 여기서, 상기 특징 벡터의 추출 기술들로는, 선형예측계수(LPC : Linear Predictive Coefficient), 켑스트럼(Cepstrum), MFCC(Mel Frequency Cepstral Coefficients), LSF(Line Spectral Frequencies), 주파수 대역별 에너지(Filter Bank Energy) 등이 있다.The feature
상기 음성 인식 서버(130)는, 음성 인식부(131) 및, 음향 모델 데이터베이스(132)를 포함하여 이루어진다.The
상기 음성 인식부(131)는, 다중 스레드(131-1, ... , 131-N)를 포함한다. 상 기 다중 스레드 각각(131-1, ... , 131-N)은, 상기 음향 모델 데이터베이스(132)에 기저장된 각각의 음향 모델을 이용하여 상기 특징 벡터 추출부(120)에서 추출된 상기 특징 벡터에 대한 디코딩(Decoding)을 수행한다. 이때, 상기 디코딩 수행 결과에 따른 결과는, 기저장된 유한 세트(finite-set) 중에서, 유사도 등의 비교 결과에 의해, 그 중 유사도가 가장 높은 첫 번째 결과를 의미한다.The
또한, 상기 음성 인식부(131)는, 상기 각각의 음향 모델을 이용하여 디코딩을 수행한 결과, 응답 시간이 빠른 스레드에 대해 신뢰도(Confidence Score)를 평가하고, 상기 신뢰도의 평가 결과에 따라 해당 스레드의 결과를 음성 인식의 결과로 채택할지 여부를 결정한다.Also, the
또한, 상기 음성 인식부(131)는, 상기 다수의 스레드 중 어느 하나의 스레드에서, 음향 모델을 이용하여 상기 추출된 특징 벡터에 대한 디코딩을 수행하는 경우, 상기 어느 하나의 스레드에 대해 상기 신뢰도를 평가하고, 상기 신뢰도의 평가 결과에 따라 해당 스레드의 결과를 음성 인식의 결과로 채택할지 여부를 결정하도록 구성할 수도 있다. 이때, 상기 음향 모델을 이용하는 경우, 그에 따른 응답 속도(음성의 끝 지점을 검출한 시점으로부터 음성 인식 결과가 나타나기까지의 시간 또는, End of utterance Time-out)는 약 300ms 정도이다.In addition, when the
또한, 상기 음성 인식부(131)는, 상기 다수의 스레드 중 또 다른 어느 하나의 스레드에서, 통계적 언어 모델을 이용하여 상기 추출된 특징 벡터에 대한 디코딩을 수행하는 경우, 상기 디코딩 수행 결과에 대해 의미 분석(Semantic Analysis)을 수행하고, 상기 의미 분석 수행 후, 상기 또 다른 어느 하나의 스레드에 대해 상기 신뢰도를 평가하고, 상기 신뢰도의 평가 결과에 따라 해당 스레드의 결과를 음성 인식의 결과로 채택할지 여부를 결정하도록 구성할 수도 있다. 이때, 상기 통계적 언어 모델을 이용하는 경우, 그에 따른 응답 속도는 약 1300ms 정도이다.When the
또한, 상기 음성 인식부(131)는, 상기 어느 하나의 스레드의 신뢰도와 상기 또 다른 어느 하나의 스레드의 신뢰도 모두가 기설정된 임계값보다 작거나 같은 경우에는, 상기 어느 하나의 스레드의 신뢰도와 상기 또 다른 어느 하나의 스레드의 신뢰도 중, 더 높은 신뢰도를 가지는 해당 스레드의 결과를 음성 인식의 결과로 채택할 수도 있다.If the reliability of any one of the threads and the reliability of any one of the other threads is less than or equal to a preset threshold value, Of the reliability of any other thread, the result of the thread having higher reliability may be adopted as a result of speech recognition.
상기 음향 모델 데이터베이스(132)는, 음향 모델(Acoustic Model), 통계적 언어 모델(SLM : Statistical Language Model) 등을 포함한다.The
상기 응용 프로그램부(140)는, 상기 음성 인식 서버(130)의 음성 인식의 결과에 따라 상기 응용 프로그램부(140)에 포함된 해당 응용 프로그램을 동작시키게 된다.The
상기 출력부(150)는, 상기 음성 인식 서버(130)의 음성 인식의 결과를 출력한다.The
이와 같이, 일반 명령어 및 자연어 인식이 모두 가능한 경우에 있어서, 서로 다른 음향 모델을 이용하는 다수의 스레드를 구비하여 음성 인식을 수행함으로써, 음성 인식에 따른 응답 시간이 빠른 스레드의 결과를 이용함으로써, 화자에게 빠른 음성 인식 결과를 제공할 수 있다.In this manner, when both normal commands and natural language recognition are possible, speech recognition is performed by using a plurality of threads using different acoustic models, so that by using the result of a thread with a high response time according to speech recognition, A fast speech recognition result can be provided.
또한, 서로 다른 음향 모델을 이용하는 다수의 스레드를 구비하여, 각 스레 드의 신뢰도에 따른 음성 인식 결과를 제공함으로써, 화자에게 신뢰성 있는 음성 인식 결과를 제공할 수 있다.Further, a plurality of threads using different acoustic models are provided to provide a speech recognition result according to the reliability of each thread, thereby providing a reliable speech recognition result to the speaker.
또한, 일반 명령어 및 자연어 인식이 모두 가능한 경우에 있어서, 서로 다른 음향 모델을 이용하는 다수의 스레드를 구비하여 음성 인식을 수행함으로써, 일반 명령어에 대해 자연어 인식과 동일한 응답 시간을 필요로 하지 않음으로써, 음성 인식 장치에 대한 효율적인 운영을 제공할 수 있다.In addition, when both general commands and natural language recognition are possible, speech recognition is performed by using a plurality of threads using different acoustic models, so that response times equivalent to natural language recognition are not required for general commands, It is possible to provide efficient operation of the recognition device.
도 2는 본 발명의 제2 실시예에 따른 다중 스레드를 이용한 음성 인식 장치를 나타낸 블록도로서, 이에 도시된 바와 같이, 음성 인식 장치(100)는, 입력부(110), 특징 벡터 추출부(120), 음성 인식 서버(130), 응용 프로그램부(140), 출력부(150) 및, 화자 인식 서버(160)를 포함하여 이루어진다.FIG. 2 is a block diagram of a multi-threaded speech recognition apparatus according to a second embodiment of the present invention. As shown in FIG. 2, the speech recognition apparatus 100 includes an
상기 입력부(110), 특징 벡터 추출부(120), 음성 인식 서버(130), 응용 프로그램부(140) 및, 출력부(150)의 기본적인 구성은 상기 제1 실시예에 기재된 내용과 동일하며, 이에 대한 설명은 생략한다.The basic configuration of the
상기 화자 인식 서버(160)는, 상기 특징 벡터 추출부(120)에서 추출된 특징 벡터를 근거로 화자 인식을 수행한다.The
또한, 상기 화자 인식 서버(160)는, 화자 인식부(161), 화자 모델 데이터베이스(162) 및, 화자 모델 적응 서버(163)를 포함하여 이루어진다.The
상기 화자 인식부(161)는, 상기 특징 벡터 추출부(120)에서 추출된 특징 벡터를 근거로 상기 추출된 특징 벡터와 상기 화자 모델 데이터베이스(162)에 기저장된 하나 이상의 화자 모델 간의 확률 값을 계산하고, 상기 계산된 확률 값을 근거 로 상기 화자 모델 데이터베이스(162)에 기등록된 화자인지 아닌지 여부를 판단하는 화자 식별(Speaker Identification)이나, 올바른 사용자의 접근인지를 판단하는 화자 검증(Speaker Verification)을 수행한다.The
즉, 상기 화자 모델 데이터베이스(162)에 기저장된 다수의 화자 모델들에 대한 최우추정법(Maximum Likelihood Estimation)을 수행한 결과, 가장 높은 확률 값을 갖는 화자 모델을 상기 음성을 발성한 화자로 선택하게 된다. 또한, 상기 수행 결과 가장 높은 확률 값이 기설정된 임계값보다 작거나 같은 경우에는 상기 화자 모델 데이터베이스(162)에 기등록된 화자들 중에서는 상기 음성을 발성한 화자가 없는 것으로 판단하여, 상기 음성을 발성한 화자에 대해서는 화자 식별 결과 기등록된 화자가 아닌 것으로 판단하게 된다. 일 예로, 상기 추출된 특징 벡터와 상기 화자 모델 데이터베이스(162)에 기저장된 다수의 특징 벡터들과의 유사도를 각각 판별하고, 그 유사도가 기설정된 임계값 큰 경우에는, 상기 추출된 특징 벡터에 해당하는 화자의 화자 모델이 기등록된 것으로 판단하고, 상기 유사도가 기설정된 임계값보다 작거나 같은 경우에는, 상기 추출된 특징 벡터에 해당하는 화자의 화자 모델이 등록되지 않은 것으로 판단하게 된다.That is, as a result of performing maximum likelihood estimation on a plurality of speaker models previously stored in the
또한, 화자 검증의 경우에는, 로그 우도비(LLR : Log-Likelihood Ratio) 방법을 이용하여 올바른 화자 인지 여부를 판별하게 된다.In the case of speaker verification, it is determined whether the speaker is a correct speaker by using a log-likelihood ratio (LLR) method.
또한, 상기 화자 인식부(161)는, 상기 판단 결과, 상기 기등록된 화자인 경우, 상기 화자 모델 적응 서버(163)를 이용하여 상기 추출된 특징 벡터를 상기 화자 모델 데이터베이스(162)에 기저장된 상기 추출된 특징 벡터에 대응하는 화자 모 델에 적응시킨다.As a result of the determination, the
또한, 상기 화자 인식부(161)는, 상기 판단 결과, 기등록된 화자가 아닌 경우, 상기 추출된 특징 벡터를 근거로 새로운 화자 모델을 생성하게 된다.If it is determined that the speaker is not a previously registered speaker, the
이때, 상기 화자 인식부(161)는, GMM(Gaussian Mixture Model), HMM(Hidden Markov Model), 신경망(Neural Network) 등을 이용하여 상기 화자 모델을 생성하게 된다.At this time, the
또한, 상기 화자 인식부(161)는, 상기 추출된 특징 벡터를 근거로 EM(Expectation Maximazation) 알고리즘을 이용하여 화자 모델인 GMM을 생성할 수도 있다.In addition, the
또한, 상기 화자 인식부(161)는, 상기 추출된 특징 벡터를 근거로 상기 EM 알고리즘을 이용하여 UBM(Universal Background Model)을 생성하고, 상기 생성된 UBM에 대해 상기 화자 모델 적응 서버(163)에 기저장된 적응 알고리즘(Adaptation Algorithm)을 수행하여 상기 발성한 화자에 적응된 화자 모델 즉, GMM을 생성할 수 있다. 이때, 상기 화자 모델 적응 서버(163)에 기저장된 적응 알고리즘은, MAP(Maximum A Posteriori), MLLR(Maximum Likelihood Linear Regression) 또는, 아이겐보이스(Eigenvoice) 방법 등을 포함할 수 있다.Also, the
상기 화자 모델 데이터베이스(162)는, 기등록된 하나 이상의 화자 모델을 저장한다.The
또한, 상기 화자 모델 데이터베이스(162)는, 상기 화자 인식부(161)에 의해 새롭게 생성된 화자 모델을 저장하도록 구성된다.The
상기 화자 모델 적응 서버(163)는, 상기 기술된 바와 같이 MAP, MLLR 또는, 아이겐보이스 방법 등과 같은 적응 알고리즘을 저장하고, 상기 화자 인식부(161)의 제어에 의해 상기 추출된 특징 벡터를 화자 모델에 적응시킨다.The speaker
또한, 상기 화자 모델 적응 서버(163)는, 상기 화자 인식부(161)의 제어에 의해 상기 추출된 특징 벡터로부터 생성된 UBM에 대해서 상기 화자 모델 적응 서버(163)에 기저장된 적응 알고리즘을 수행하여 GMM을 생성할 수 있다.The speaker
또한, 상기 화자 인식 서버(160)는, 상기 화자 인식 수행 결과를 상기 출력부(150)에 출력하거나, 상기 음성 인식 서버(130)에 전달 또는 출력한다.The
상기 음성 인식 서버(130)는, 상기 화자 인식 서버(160)에서 출력된 결과에 따라, 상기 음성을 발성한 화자에 대한 음성 인식을 수행하게 된다. 즉, 상기 화자 인식 서버(160)에서 정상적으로 화자를 인식(화자 검증 또는 화자 식별)한 후, 해당 화자에 대한 음성 인식을 수행하게 된다.The
또한, 상기 음성 인식 서버(130) 내에는, 상기 기재한 바와 같이 다중 스레드(131-1, ... , 131-N)가 포함되며, 상기 다중 스레드 각각(131-1, ... , 131-N)은, 상기 음향 모델 데이터베이스(132)에 기저장된 각각의 음향 모델을 이용하여 상기 특징 벡터 추출부(120)에서 추출된 상기 특징 벡터에 대한 디코딩(또는, 음성 인식)을 수행한다.The
또한, 상기 음성 인식부(131)는, 상기 각각의 음향 모델을 이용하여 디코딩을 수행한 결과에 따라 신뢰도를 평가하여 해당 스레드의 결과를 음성 인식의 결과로 채택할지 여부를 결정하게 된다.In addition, the
이와 같이, 화자 인식 및 음성 인식을 동시에 수행함으로써, 화자에게 신뢰성 있는 화자 인식 및 빠른 음성 인식 결과를 제공할 수 있다.By performing speaker recognition and speech recognition at the same time in this way, reliable speaker recognition and fast speech recognition results can be provided to the speaker.
이하에서는, 본 발명에 따른 다중 스레드를 이용한 음성 인식 방법을 도 1 및 도 2를 참조하여 상세히 설명한다.Hereinafter, a multi-threaded speech recognition method according to the present invention will be described in detail with reference to FIGS. 1 and 2. FIG.
도 3은 본 발명의 제1 실시예에 따른 다중 스레드를 이용한 음성 인식 방법을 나타낸 흐름도이다.FIG. 3 is a flowchart illustrating a method of recognizing a speech using multithread according to the first embodiment of the present invention.
먼저, 입력부(110)를 통해 입력된 음성 신호로부터 특징 벡터를 추출한다(S10).First, a feature vector is extracted from a speech signal input through the input unit 110 (S10).
이후, 상기 추출된 특징 벡터에 대해 서로 다른 음향 모델을 이용하는 복수의 스레드들을 통해 각각 음성 인식을 수행한다. 이때, 상기 서로 다른 음향 모델들은, 음향 모델 또는 통계적 언어 모델 등 일 수 있다(S20).Then, speech recognition is performed through a plurality of threads using different acoustic models for the extracted feature vectors. At this time, the different acoustic models may be an acoustic model or a statistical language model (S20).
이후, 상기 음성 인식 수행에 따라, 상기 복수의 스레드들 중에서 음성 인식에 대한 응답 시간이 가장 빠른 제1 스레드의 음성 인식 결과를 출력한다.Thereafter, according to the speech recognition, the speech recognition result of the first thread having the fastest response time for speech recognition among the plurality of threads is output.
이때, 상기 제1 스레드의 음성 인식 결과에 대해, 상기 제1 스레드의 신뢰도가 기설정된 임계값보다 큰 경우에는, 상기 제1 스레드의 음성 인식 결과를 출력하고, 상기 복수의 스레드들 중에서 상기 제1 스레드를 제외한 나머지 모든 스레드들의 동작을 강제 종료시킨다.If the reliability of the first thread is greater than a predetermined threshold value, the speech recognition result of the first thread is output to the speech recognition result of the first thread. Forcibly terminates the operation of all but the thread.
또한, 상기 제1 스레드의 음성 인식 결과에 대해, 상기 제1 스레드의 신뢰도가 기설정된 임계값보다 작거나 같은 경우에는, 상기 음성 인식 수행에 따라 응답 시간이 상기 제1 스레드 다음 순서인 제2 스레드에 대해 상기 제2 스레드의 신뢰도 가 상기 기설정된 임계값보다 큰지 판단하여 상기 제2 스레드의 출력 여부를 결정할 수도 있다.If the reliability of the first thread is smaller than or equal to a predetermined threshold value, the response time of the speech recognition may be shorter than the response time of the second thread May determine whether the reliability of the second thread is greater than the predetermined threshold to determine whether to output the second thread.
즉, 상기 제1 스레드의 신뢰도가 기설정된 임계값보다 작거나 같고, 상기 제2 스레드의 신뢰도가 상기 기설정된 임계값보다 큰 경우에는, 상기 제2 스레드의 음성 인식 결과를 출력한다. 또한, 상기 제2 스레드의 신뢰도가 상기 기설정된 임계값보다 작거나 같은 경우에는, 상기 제1 및 제2 스레드에 대한 신뢰도가 낮은 것으로 판단하여, 화자에게 음성 신호를 재입력해줄 것을 요청하고 상기 화자로부터 재입력된 음성 신호에 대해 상기 단계들을 재수행하도록 하거나 또는, 상기 제1 스레드의 신뢰도와 상기 제2 스레드의 신뢰도를 비교하여, 그 2개의 스레드의 신뢰도 중 더 높은 신뢰도를 가지는 해당 스레드의 음성 인식 결과를 출력하도록 할 수도 있다.That is, if the reliability of the first thread is less than or equal to a preset threshold, and the reliability of the second thread is greater than the predetermined threshold value, the second thread outputs the speech recognition result of the second thread. If the reliability of the second thread is less than or equal to the predetermined threshold value, it is determined that the reliability of the first and second threads is low, Or to compare the reliability of the first thread with the reliability of the second thread to determine whether the voice of the corresponding thread having the higher reliability of the reliability of the two threads And output the recognition result.
또한, 음성 인식에 대한 응답 시간이 빠른 스레드 순으로 해당 스레드의 신뢰도를 상기 기설정된 임계값과 비교하고, 상기 비교 결과 해당 스레드의 신뢰도가 상기 기설정된 임계값보다 큰 경우에는 해당 스레드의 음성 인식 결과를 출력하고, 해당 스레드의 신뢰도가 상기 기설정된 임계값보다 작거나 같은 경우에는 응답 시간이 빠른 다음 스레드에 대해 상기 기설정된 임계값과의 비교를 통해 상기 응답 시간이 빠른 다음 스레드의 음성 인식 결과의 출력 여부를 결정하게 된다.If the reliability of the thread is greater than the preset threshold value, the voice recognition result of the corresponding thread is compared with the predetermined threshold value. And if the reliability of the thread is less than or equal to the predetermined threshold value, a comparison is made with respect to the next threshold for the next thread having the fastest response time, And determines whether or not to output.
이후, 상기 출력된 해당 스레드의 음성 인식 결과에 따라 해당 응용 프로그램을 동작시킬 수도 있다(S30).Thereafter, the application program may be operated according to the output speech recognition result of the thread (S30).
도 4는 본 발명의 제2 실시예에 따른 다중 스레드를 이용한 음성 인식 방법 을 나타낸 흐름도이다.FIG. 4 is a flowchart illustrating a method of recognizing speech using multithread according to a second embodiment of the present invention.
먼저, 입력부(110)를 통해 입력된 음성 신호로부터 특징 벡터를 추출한다(S110).First, a feature vector is extracted from the speech signal input through the input unit 110 (S110).
이후, 상기 추출된 특징 벡터에 대해 서로 다른 음향 모델을 이용하는 복수의 스레드들을 통해 각각 음성 인식을 수행한다.Then, speech recognition is performed through a plurality of threads using different acoustic models for the extracted feature vectors.
즉, 상기 복수의 스레드들(131-1, ... ,131-N)이 제1 스레드(131-1) 및 제2 스레드(131-2)를 포함하는 경우, 상기 제1 스레드(131-1)는 음향 모델을 이용하여 음성 인식(또는, 디코딩)을 수행하고, 상기 제2 스레드(131-2)는 통계적 언어 모델을 이용하여 음성 인식을 수행한다(S120).That is, when the plurality of threads 131-1, ..., 131-N includes the first thread 131-1 and the second thread 131-2, the first thread 131- 1) performs speech recognition (or decoding) using an acoustic model, and the second thread 131-2 performs speech recognition using a statistical language model (S120).
이후, 상기 제1 스레드(131-1) 및 제2 스레드(131-2)의 음성 인식 수행에 있어서, 상기 음향 모델을 이용하는 상기 제1 스레드(131-1)의 인식 결과가 상기 제2 스레드(131-2)의 인식 결과보다 빠른지 비교한다(S130).Thereafter, in the voice recognition of the first thread 131-1 and the second thread 131-2, the recognition result of the first thread 131-1 using the acoustic model is the second thread 131-2) (S130).
상기 비교 결과, 상기 제1 스레드(131-1)의 인식 결과가 상기 제2 스레드(131-2)의 인식 결과보다 빠른 경우, 일 예로, 일반 명령어 인식인 경우, 상기 제1 스레드(131-1)의 음성 인식 결과에 대한 신뢰도를 평가한다. 여기서, 상기 신뢰도 평가는, 상기 제1 스레드(131-1)의 신뢰도가 기설정된 임계값보다 큰지를 비교하는 것이며, 상기 비교 결과에 따라 해당 스레드의 결과를 이용하거나 이용하지 않도록 구성할 수 있다(S140).As a result of the comparison, if the recognition result of the first thread 131-1 is faster than the recognition result of the second thread 131-2, for example, in the case of recognizing a general command, the first thread 131-1 ) To evaluate the reliability of the speech recognition result. Here, the reliability evaluation compares whether the reliability of the first thread 131-1 is greater than a preset threshold value, and the reliability of the first thread 131-1 may be configured to use or not use the result of the thread according to the comparison result S140).
상기 단계(S140)에서의 신뢰도 비교 결과, 상기 제1 스레드(131-1)의 신뢰도가 상기 기설정된 임계값보다 큰 경우에는, 상기 제1 스레드(131-1)의 음성 인식 결과를 출력하고, 상기 제2 스레드(131-2)의 동작을 강제 종료시킨다. 여기서, 상기 제2 스레드(131-2)의 동작 강제 종료는, 상기 제1 스레드(131-1)의 음성 인식 결과가 충분히 신뢰할 수 있는 정도이므로, 상기 제1 스레드(131-1)의 음성 인식 결과를 출력함에 따라, 상기 제2 스레드(131-2)의 음성 인식 결과가 추가로 필요하지 않기 때문이다(S150).If the reliability of the first thread 131-1 is greater than the preset threshold value as a result of the reliability comparison in step S140, the first thread 131-1 outputs the speech recognition result of the first thread 131-1, And forcibly terminates the operation of the second thread 131-2. Since the forcible termination of the second thread 131-2 is performed to the extent that the voice recognition result of the first thread 131-1 is sufficiently reliable, the voice recognition of the first thread 131-1 As a result, the result of speech recognition of the second thread 131-2 is not needed any more (S150).
이후, 상기 단계(S130)에서의 인식 결과에 대한 비교 결과, 상기 제1 스레드(131-1)의 인식 결과가 상기 제2 스레드(131-2)의 인식 결과보다 빠르지 않은 경우, 일 예로, 자연어 인식인 경우, 상기 제2 스레드(131-2)의 동작이 완료되어 상기 제2 스레드(131-2)의 음성 인식 결과가 나올 때까지 잠시 대기하게 된다.If the recognition result of the first thread 131-1 is not faster than the recognition result of the second thread 131-2 as a result of comparison of the recognition result in the step S130, If it is recognized, the operation is completed for the second thread 131-2 and waits for a while until the voice recognition result of the second thread 131-2 comes out.
또한, 상기 단계(S140)에서의 신뢰도 비교 결과, 상기 제1 스레드(131-1)의 신뢰도가 상기 기설정된 임계값보다 작거나 같은 경우에는, 상기 제2 스레드(131-2)의 음성 인식 결과가 나올 때까지 잠시 대기하게 된다(S160).If the reliability of the first thread 131-1 is smaller than or equal to the preset threshold value as a result of the reliability comparison in step S140, the speech recognition result of the second thread 131-2 (S160).
이후, 상기 제2 스레드(131-2)의 음성 인식 결과에 대한 신뢰도를 평가한다. 여기서, 상기 신뢰도 평가는, 상기 제2 스레드(131-2)의 신뢰도가 상기 기설정된 임계값보다 큰지를 비교하는 것이며, 상기 비교 결과에 따라 해당 스레드의 결과를 이용하거나 이용하지 않도록 구성할 수 있다.Thereafter, the reliability of the speech recognition result of the second thread 131-2 is evaluated. Here, the reliability evaluation is performed to compare whether the reliability of the second thread 131-2 is greater than the predetermined threshold, and the reliability of the second thread 131-2 may be configured to use or not use the result of the thread according to the comparison result .
또한, 상기 통계적 언어 모델을 이용하여 자연어 인식을 수행하는 상기 제2 스레드의 음성 인식 결과에 대해서는, 의미 분석(Semantic Analysis)을 수행한 후, 상기 신뢰도를 평가하도록 구성한다(S170).In addition, the speech recognition result of the second thread performing the natural language recognition using the statistical language model is subjected to a semantic analysis, and then the reliability is evaluated (S170).
상기 단계(S170)에서의 신뢰도 비교 결과, 상기 제2 스레드(131-2)의 신뢰도 가 상기 기설정된 임계값보다 큰 경우에는, 상기 제2 스레드(131-2)의 음성 인식 결과를 출력한다(S180).If the reliability of the second thread 131-2 is greater than the preset threshold value as a result of the reliability comparison in step S170, the speech recognition result of the second thread 131-2 is output S180).
상기 단계(S170)에서의 신뢰도 비교 결과, 상기 제2 스레드(131-2)의 신뢰도가 상기 기설정된 임계값보다 작거나 같은 경우에는, 화자에게 음성 신호를 재입력해줄 것을 요청하여 상기 화자로부터 재입력된 음성 신호에 대해 상기 단계들을 재수행하도록 하거나 또는, 상기 제1 스레드의 신뢰도와 상기 제2 스레드의 신뢰도를 비교하여, 상기 2개의 스레드의 신뢰도 중 더 높은 신뢰도를 가지는 해당 스레드의 음성 인식 결과를 출력하도록 할 수도 있다.If the reliability of the second thread 131-2 is less than or equal to the preset threshold value as a result of the reliability comparison in the step S170, the user is requested to re-input the voice signal to the speaker, The method of claim 1, further comprising: re-performing the steps for the input speech signal; or comparing the reliability of the first thread with the reliability of the second thread, May be output.
즉, 상기 제1 스레드의 신뢰도가 상기 제2 스레드의 신뢰도보다 큰지를 비교하고, 상기 제1 스레드의 신뢰도가 상기 제2 스레드의 신뢰도보다 큰 경우에는, 상기 제1 스레드(131-1)의 음성 인식 결과를 출력하고, 상기 제1 스레드의 신뢰도가 상기 제2 스레드의 신뢰도보도 작거나 같은 경우에는, 상기 제2 스레드(131-2)의 음성 인식 결과를 출력한다(S190).That is, it is determined whether the reliability of the first thread is greater than the reliability of the second thread. If the reliability of the first thread is greater than the reliability of the second thread, If the reliability of the first thread is less than or equal to the reliability of the second thread, the recognition result of the second thread 131-2 is output (S190).
이와 같이, 일반 명령어 및 자연어 인식이 모두 가능한 경우에 있어서, 서로 다른 음향 모델을 이용하는 다수의 스레드를 구비하여 음성 인식을 수행하는 도중, 음성 인식에 따른 응답 시간이 빠른 스레드의 결과를 이용하면서 상기 복수의 스레드들 중 상기 음성 인식의 결과를 출력하는 스레드를 제외한 나머지 동작 중인 스레드들의 동작을 강제 종료시킴으로써, 상기 나머지 스레드들의 부하를 줄일 수 있다.In this way, when both ordinary commands and natural language recognition are possible, a plurality of threads using different acoustic models are provided to perform speech recognition, while using the result of a thread with a fast response time according to speech recognition, The load of the remaining threads can be reduced by forcibly terminating the operation of the remaining operating threads except for the thread outputting the result of the speech recognition among the threads of the thread.
도 5는 본 발명의 제3 실시예에 따른 다중 스레드를 이용한 음성 인식 방법 을 나타낸 흐름도이다.FIG. 5 is a flowchart illustrating a method of recognizing a speech using multithread according to a third embodiment of the present invention.
먼저, 입력부(110)를 통해 입력된 음성 신호로부터 특징 벡터를 추출한다(S210).First, a feature vector is extracted from the speech signal input through the input unit 110 (S210).
이후, 상기 추출된 특징 벡터를 근거로 화자 인식(화자 식별 또는/및 화자 검증) 과정을 수행한다. 이때, 상기 음성 신호를 발성한 화자가 화자 모델 데이터베이스(162)에 기등록된 화자가 아닌 경우에는 해당 화자에 대한 화자 모델을 생성하여 상기 해당 화자에 대해 상기 화자 모델 데이터베이스(162)에 등록시키는 과정을 추가로 수행한다. 또한, 상기 추출된 특징 벡터를 상기 화자 모델 데이터베이스(162)에 저장된 상기 추출된 특징 벡터에 대응하는 화자 모델에 적응시킨다(S220).Then, a speaker recognition (speaker identification and / or speaker verification) process is performed based on the extracted feature vectors. If the speaker who has uttered the voice signal is not a speaker previously registered in the
이후, 상기 화자 모델에 적응된 특징 벡터에 대해 서로 다른 음향 모델을 이용하는 복수의 스레드들을 통해 각각 음성 인식을 수행한다.Thereafter, speech recognition is performed through a plurality of threads using different acoustic models for the feature vectors adapted to the speaker model.
이와 같이, 상기 화자 모델에 적응된 특징 벡터에 대해 음성 인식을 수행하는 이후의 과정들(S230 내지 S300)은, 상기 제2 실시예에 기재된 과정들(S120 내지 S190)에 각각 대응되며, 상기 각 대응되는 내용은 동일하며, 이에 대한 설명은 생략한다(S230~S300).The steps S230 through S300 for performing speech recognition on the feature vector adapted to the speaker model correspond to the steps S120 through S190 described in the second embodiment, The corresponding contents are the same, and a description thereof is omitted (S230 to S300).
본 발명의 다중 스레드를 이용한 음성 인식 장치 및 그 방법에 의하면, 일반 명령어와 자연어 인식이 동시에 존재하는 경우, 각각 서로 다른 화자 모델을 사용하는 복수의 스레드를 이용하여 음성 인식을 수행하고, 음성 인식의 처리 결과가 빠른 스레드의 결과를 이용함으로써, 서로 다른 성격의 음성 인식으로 인해 생기는 응답 시간의 지연을 방지할 수 있고, 사용자의 편의성을 제공할 수 있음으로, 그 산업상 이용가능성이 크다고 하겠다.According to the multithreaded speech recognition apparatus and method of the present invention, when general commands and natural language recognition exist at the same time, speech recognition is performed using a plurality of threads using different speaker models, It is possible to prevent the delay of the response time caused by speech recognition of different characteristics and to provide the convenience of the user by using the result of the thread having a fast processing result.
도 1은 본 발명의 제1 실시예에 따른 다중 스레드를 이용한 음성 인식 장치를 나타낸 블록도이다.1 is a block diagram illustrating a multi-threaded speech recognition apparatus according to a first embodiment of the present invention.
도 2는 본 발명의 제2 실시예에 따른 다중 스레드를 이용한 음성 인식 장치를 나타낸 블록도2 is a block diagram illustrating a multi-threaded speech recognition apparatus according to a second embodiment of the present invention.
도 3은 본 발명의 제1 실시예에 따른 다중 스레드를 이용한 음성 인식 방법을 나타낸 흐름도이다.FIG. 3 is a flowchart illustrating a method of recognizing a speech using multithread according to the first embodiment of the present invention.
도 4는 본 발명의 제2 실시예에 따른 다중 스레드를 이용한 음성 인식 방법을 나타낸 흐름도이다.FIG. 4 is a flowchart illustrating a method of recognizing speech using multithread according to a second embodiment of the present invention.
도 5는 본 발명의 제3 실시예에 따른 다중 스레드를 이용한 음성 인식 방법을 나타낸 흐름도이다.FIG. 5 is a flowchart illustrating a method of recognizing a speech using multithread according to a third embodiment of the present invention.
***도면의 주요 부분에 대한 부호의 설명***DESCRIPTION OF THE REFERENCE SYMBOLS
110: 입력부 120: 특징 벡터 추출부110: input unit 120: feature vector extraction unit
130: 음성 인식 서버 131: 음성 인식부130: Speech recognition server 131:
132: 음향 모델 데이터베이스 140: 응용 프로그램부132: Acoustic model database 140: Application program section
150: 출력부 160: 화자 인식 서버150: output unit 160: speaker recognition server
161: 화자 인식부 162: 화자 모델 데이터베이스161: Speaker recognition unit 162: Speaker model database
163: 화자 모델 적응 서버163: Speaker model adaptation server
Claims (35)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020080089453A KR101529918B1 (en) | 2008-09-10 | 2008-09-10 | Speech recognition apparatus using the multi-thread and methmod thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020080089453A KR101529918B1 (en) | 2008-09-10 | 2008-09-10 | Speech recognition apparatus using the multi-thread and methmod thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20100030483A KR20100030483A (en) | 2010-03-18 |
KR101529918B1 true KR101529918B1 (en) | 2015-06-18 |
Family
ID=42180430
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020080089453A KR101529918B1 (en) | 2008-09-10 | 2008-09-10 | Speech recognition apparatus using the multi-thread and methmod thereof |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101529918B1 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102246900B1 (en) | 2014-07-29 | 2021-04-30 | 삼성전자주식회사 | Electronic device for speech recognition and method thereof |
WO2019208858A1 (en) * | 2018-04-27 | 2019-10-31 | 주식회사 시스트란인터내셔널 | Voice recognition method and device therefor |
CN111145751A (en) * | 2019-12-31 | 2020-05-12 | 百度在线网络技术(北京)有限公司 | Audio signal processing method and device and electronic equipment |
CN111145752B (en) * | 2020-01-03 | 2022-08-02 | 百度在线网络技术(北京)有限公司 | Intelligent audio device, method, electronic device and computer readable medium |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000214880A (en) * | 1999-01-20 | 2000-08-04 | Sony Internatl Europ Gmbh | Voice recognition method and voice recognition device |
JP2002328696A (en) * | 2001-04-26 | 2002-11-15 | Canon Inc | Voice recognizing device and process condition setting method in voice recognizing device |
KR100766061B1 (en) * | 2005-12-09 | 2007-10-11 | 한국전자통신연구원 | apparatus and method for speaker adaptive |
-
2008
- 2008-09-10 KR KR1020080089453A patent/KR101529918B1/en active IP Right Grant
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000214880A (en) * | 1999-01-20 | 2000-08-04 | Sony Internatl Europ Gmbh | Voice recognition method and voice recognition device |
JP2002328696A (en) * | 2001-04-26 | 2002-11-15 | Canon Inc | Voice recognizing device and process condition setting method in voice recognizing device |
KR100766061B1 (en) * | 2005-12-09 | 2007-10-11 | 한국전자통신연구원 | apparatus and method for speaker adaptive |
Also Published As
Publication number | Publication date |
---|---|
KR20100030483A (en) | 2010-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100655491B1 (en) | Two stage utterance verification method and device of speech recognition system | |
US8532991B2 (en) | Speech models generated using competitive training, asymmetric training, and data boosting | |
JP3078279B2 (en) | Method and apparatus for speech recognition using neural network and Markov model recognition technology | |
US8271283B2 (en) | Method and apparatus for recognizing speech by measuring confidence levels of respective frames | |
CN111566729A (en) | Speaker identification with ultra-short speech segmentation for far-field and near-field sound assistance applications | |
US20090119103A1 (en) | Speaker recognition system | |
KR20100027865A (en) | Speaker recognition and speech recognition apparatus and method thereof | |
US9799350B2 (en) | Apparatus and method for verifying utterance in speech recognition system | |
KR20000067829A (en) | Semi-supervised speaker adaptation | |
KR20060097895A (en) | Method and apparatus for speech recognition | |
US9280979B2 (en) | Online maximum-likelihood mean and variance normalization for speech recognition | |
US20160267924A1 (en) | Speech detection device, speech detection method, and medium | |
US20080004876A1 (en) | Non-enrolled continuous dictation | |
KR101618512B1 (en) | Gaussian mixture model based speaker recognition system and the selection method of additional training utterance | |
KR101151571B1 (en) | Speech recognition environment control apparatus for spoken dialog system and method thereof | |
EP2877992A1 (en) | Feature normalization inputs to front end processing for automatic speech recognition | |
WO2010128560A1 (en) | Voice recognition device, voice recognition method, and voice recognition program | |
KR101529918B1 (en) | Speech recognition apparatus using the multi-thread and methmod thereof | |
CN109065026B (en) | Recording control method and device | |
KR101122591B1 (en) | Apparatus and method for speech recognition by keyword recognition | |
KR102429656B1 (en) | A speaker embedding extraction method and system for automatic speech recognition based pooling method for speaker recognition, and recording medium therefor | |
EP3195314B1 (en) | Methods and apparatus for unsupervised wakeup | |
JP2996019B2 (en) | Voice recognition device | |
JP2013083796A (en) | Method for identifying male/female voice, male/female voice identification device, and program | |
US8768695B2 (en) | Channel normalization using recognition feedback |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20180514 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20190514 Year of fee payment: 5 |