KR100612843B1 - 은닉 마코프 모델를 위한 확률밀도함수 보상 방법, 그에따른 음성 인식 방법 및 장치 - Google Patents

은닉 마코프 모델를 위한 확률밀도함수 보상 방법, 그에따른 음성 인식 방법 및 장치 Download PDF

Info

Publication number
KR100612843B1
KR100612843B1 KR1020040013815A KR20040013815A KR100612843B1 KR 100612843 B1 KR100612843 B1 KR 100612843B1 KR 1020040013815 A KR1020040013815 A KR 1020040013815A KR 20040013815 A KR20040013815 A KR 20040013815A KR 100612843 B1 KR100612843 B1 KR 100612843B1
Authority
KR
South Korea
Prior art keywords
probability density
variance
density function
feature vector
global
Prior art date
Application number
KR1020040013815A
Other languages
English (en)
Other versions
KR20050088014A (ko
Inventor
한익상
정상배
전유진
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020040013815A priority Critical patent/KR100612843B1/ko
Priority to US11/066,428 priority patent/US8140333B2/en
Publication of KR20050088014A publication Critical patent/KR20050088014A/ko
Application granted granted Critical
Publication of KR100612843B1 publication Critical patent/KR100612843B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/4012D or 3D arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/403Linear arrays of transducers

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Otolaryngology (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)
  • Telephonic Communication Services (AREA)

Abstract

은닉 마코프 모델를 위한 확률밀도함수 보상 방법, 그에 따른 음성 인식 방법 및 장치가 개시된다. 본 발명의 확률밀도함수 보상 방법은 음성 신호로부터 특징벡터를 추출하고, 특징벡터를 입력했을 때 음성 신호를 인식할 확률이 높도록 복수의 확률밀도함수를 갖는 모델을 학습시키는 단계; 학습이 완료되면, 각 확률밀도함수의 분산을 평균하여 전역분산을 구하는 단계; 전역분산을 이용하여 보상 팩터를 구하는 단계; 및 각 확률밀도함수에 전역분산을 적용하고, 보상 팩터를 이용하여 전역분산을 보상함으로써 각 확률밀도함수를 보상하는 단계를 포함함을 특징으로한다.

Description

은닉 마코프 모델를 위한 확률밀도함수 보상 방법, 그에 따른 음성 인식 방법 및 장치{Method for compensating probability density function, method and apparatus for speech recognition thereby}
도 1은 본 발명에 따른 음성 인식 방법에 따른 흐름도를 도시한 것이다.
도 2는 본 발명에 따른 음성 인식 장치에 대한 블록도를 도시한 것이다.
도 3a 내지 도 3c는 MFCC의 각 차수에 대한 분산값을 도시한 것이다.
본 발명을 확률밀도함수 보상 방법, 그에 따른 음성 인식 방법 및 장치에 관한 것으로, 특히 연속 은닉 마코프 모델(continuous hidden Markov model)에 사용되는 확률밀도함수를 보상하는 방법, 그에 따른 음성 인식 방법 및 장치에 관한 것이다.
일반적으로 음성 인식은 입력 음성으로부터 음성 파형과 인식에 필요한 정보를 나타내는 특징 벡터를 추출하는 전처리단계부터 시작한다. 두번째 단계는 은닉 마코프 모델(Hidden Markov Model, HMM)이라고하는 음소(phoneme) 레벨의 통계 모델(statistical model)을 사용하여 인식 또는 디코딩하는 것이다. 단어 레벨의 음 향 모델(acoustic model)은 발음 사전에 따라 모음 또는 자음과 같은 단음(phone) 레벨의 모델들을 연접하여 이루어진다.
HMM은 유연한 모델링과 높은 성능때문에 음성 인식 분야에서 널리 사용되고 있다. 음성 인식에서 HMM은 발성하는 기관의 시간적 상태 또는 생성된 음운은 은닉되고, 관측되는 음성을 출력으로하여 음운이나 상태를 파악하여 음성을 인식하는 것을 말한다. HMM은 상태 천이 확률과 출력 확률로 표시되는 이중의 프로세스이다. 상태 천이는 마코프 프로세스(Markov process)로 표시되고, 출력 확률은 세 가지로 표시된다. 첫째, 벡터 양자화(Vetor Quantization)를 통해서 코드북(VQ-based codebook)의 코드워드로 나타낼 수 있다. 이것은 모든 가능한 음향적인 특성을 이 코드북에 이산 확률 밀도(discrete probability density) 함수로 나타낼 수 있다는 것이다. 둘째, 연속 확률 밀도(continuous probability density) 함수로 나타낼 수 있다. 이것은 해당 단위에 매우 종속적이다. 왜냐하면 해당 음성을 가지고 여러 개의 음성 특징 벡터의 평균(spectral mean)과 분산을 구하기 때문이다. 셋째, 이것은 첫째와 둘째의 경우를 복합한 것으로 볼 수 있다.
이산 은닉 마코프 모델(Discrete HMM)에서는 관측 심벌(음성 특징 벡터)이 벡터 양자화를 통해서 가장 근접한 코드워드로 대표된다. 따라서 양자화 에러가 존재한다. DHMM에서 발생되는 이 양자화 에러를 극복하기 위해서 연속 은닉 마코프 모델(Continuous HMM)이 제안되었다. 그런데 CHMM은 음성 인식기 구현에 널리 사용되지 못하는 다음과 같은 이유가 있다. 첫째, 추정해야 할 모델 파라미터가 매우 많다. 이 모델 파라미터의 추정을 위해서는 큰 데이터베이스와 많은 계산량이 요구 된다. 둘째, CHMM은 초기 값에 민감하다. 이러한 이유들때문에 리소스가 작은 휴대폰 등에는 자동 음성 인식 시스템을 내장하는 것이 부적합하다. 따라서 메모리와 계산량을 줄일 필요가 있다.
본 발명이 이루고자하는 기술적 과제는 음성 인식 모델에서 메모리 요구량이 많은 확률밀도함수의 분산을 소정 값으로 고정하고, 그에 따라 발생할 수 있는 인식률 저하를 고정된 분산을 보상하는 확률밀도함수 보상 방법, 이를 이용한 음성 인식 방법 및 장치를 제공하는데 있다.
상기 기술적 과제를 이루기위한, 본 발명의 확률밀도함수 보상 방법은 음성 신호로부터 특징벡터를 추출하고, 상기 특징벡터를 입력했을 때 상기 음성 신호를 인식할 확률이 높도록 복수의 확률밀도함수를 갖는 모델을 학습시키는 단계; 상기 학습이 완료되면, 각 확률밀도함수의 분산을 평균하여 전역분산을 구하는 단계; 상기 전역분산을 이용하여 보상 팩터를 구하는 단계; 및 각 확률밀도함수에 상기 전역분산을 적용하고, 상기 보상 팩터를 이용하여 상기 전역분산을 보상함으로써 각 확률밀도함수를 보상하는 단계를 포함함을 특징으로한다.
상기 기술적 과제를 이루기위한, 본 발명의 음성 인식 방법은 음성 신호로부터 제1특징벡터를 추출하고, 상기 제1특징벡터를 입력으로했을 때 상기 음성 신호를 인식할 확률이 높도록 복수의 확률밀도함수를 갖는 모델을 학습시키는 단계; 상기 학습이 완료되면, 각 확률밀도함수의 분산을 평균하여 전역분산을 구하는 단계; 상기 전역분산을 이용하여 보상 팩터를 구하는 단계; 각 확률밀도함수에 상기 전역분산을 적용하고, 상기 보상 팩터를 이용하여 상기 전역분산을 보상함으로써 상기 모델을 보정하는 단계; 인식하고자하는 음성 신호로부터 제2특징벡터를 추출하는 단계; 및 상기 제2특징벡터를 보정이 이루어진 모델에 입력하여 상기 음성 신호를 인식하는 단계를 포함함을 특징으로한다.
상기 기술적 과제를 이루기위한 본 발명의 음성 인식 장치는 음성신호에 대한 특징벡터를 구하는 특징추출부; 복수의 확률밀도함수를 구비하고, 상기 특징벡터를 입력으로했을 때 상기 확률밀도함수에 따라 목표 인식값을 출력할 확률이 높도록 학습하고, 상기 학습이 완료되면 소정 보상팩터에 의해 상기 확률밀도함수가 보상되는 모델; 학습이 완료되면, 각 확률밀도함수의 분산을 평균하여 전역분산을 구하는 전역분산 추출부; 및 각 확률밀도함수를 보상하도록 상기 전역분산을 이용하여 보상팩터를 구하고, 상기 보상팩터를 상기 모델에 제공하는 보상팩터 추출부를 포함함을 특징으로한다.
이하에서 첨부된 도면을 참조하여 본 발명을 보다 상세하게 설명하기로 한다.
도 1은 본 발명에 따른 음성 인식 방법에 따른 흐름도를 도시한 것이고, 도 2는 본 발명에 따른 음성 인식 장치에 대한 블록도를 도시한 것이다. 본 실시예에서는 음성 인식의 종류로 연속되는 숫자음을 인식한다. 이를 위하여 숫자음 인식에 적절한 HMM의 구조를 결정하고, 학습 데이터를 이용하여 HMM을 학습시킨다(11단계). 본 실시예에서 채택한 HMM은 도 2의 참조번호 22에 나타난 바 와 같이 헤드-바디-테일(Head-Body-Tail, HBT) HMM이다. HBT HMM은 문맥(context)에 종속하는 모델로서, 좌측 문맥에 종속하는 유닛(left-context dependent unit)인 헤드(head), 문맥에 독립적인(context independent unit) 유닛인 바디(body), 그리고 우측 문맥에 종속하는 유닛(right-context dependent unit)인 테일(tail)이 연접되어 이루어진다. HBT HMM의 구조로서 헤드, 바디 및 테일 유닛 각각에 포함되는 상태(state) 수를 결정하고, 각 상태에 해당하는 혼합 가우시안(mixture Gaussian) 확률밀도함수(Probability Densiity Fuction, PDF)의 수를 결정한다.
HBT HMM(22)의 구조가 결정되면, 학습 데이터를 이용하여 HBT HMM(22)을 학습시킨다. 학습 데이터는 인식하고자하는 숫자의 음성신호로부터 추출된 특징벡터와 해당 숫자가 된다. 학습 데이터를 만들기위해 특징 추출부(21)는 숫자의 음성신호로부터 음성의 시작점과 끝점을 검출하고, 검출된 음성신호로부터 특징벡터를 추출한다. 추출된 특징벡터는 HBT HMM(22)에 입력되고, HBT HMM(22)는 각 상태별로 혼합 가우시안 PDF에 따른 확률을 출력한다. 학습은 어느 한 숫자에 대한 특징벡터에 대해 해당 유닛의 상태들의 출력확률이 가장 크도록 HBT HMM(22)의 파라미터들을 갱신하는 방식으로 이루어진다.
HMM의 파라미터로는 혼합 가우시안 PDF의 평균과 분산을 포함한다.
본 발명에서 특징벡터는 멜 주파수 켑스트럼 계수(Mel-Frequency Cepstrum Coefficient, MFCC)를 사용한다. MFCC는 멜 필터뱅크(Mel filter bank)에 로그를 취한 후 역 이산 푸리에 변환(Inverse Discrete Fourier Trandform, IDFT)을 취한 것으로 인간의 귀를 모델링한 것이다. 본 실시예에서는 39차 MFCC 특징벡터를 사용 하며, 39차 MFCC 특징벡터의 특징값들은 12개의 켑스트럴 계수(cepstral coefficient), 에너지, 프레임간의 켑스트럴 계수 및 에너지의 차를 각각 구한 델타 계수 및 델타 에너지, 프레임간의 델타 계수 및 델타 에너지의 차를 각각 구한 델타-델타 계수 및 델타-델타 에너지의 6개 스트림을 포함한다.
학습이 이루어지면, 전역 분산 추출부(23)는 HBT HMM(22)에 대한 전역 분산(global variance) σgi를 계산한다(12단계). σgi는 HBT HMM(22)의 상태들에 대한 분산값을 평균하여 얻어진다. 실제 인식에 사용되는 HBT HMM(22)에서는 분산값을 σgi를 모든 상태에 동일하게 적용한다.
이와같이, 전역 분산을 사용하여 음성 인식을 수행하면 메모리 요구량은 작아지지만 인식률이 저하될 수 있다. 따라서 본 발명에서는 혼합 가우시안 PDF의 평균은 양자화하고, 전역분산을 보상하는 보상 팩터(compensation factor)를 도입하여 인식률 저하를 보상한다.
이를 위해 보상 팩터 추출부(24)는 전역 분산으로부터 다음과 같이 보상 팩터를 추출한다(13단계).
각 상태에 해당하는 혼합 가우시안 PDF
Figure 112004008488365-pat00001
가 다음 식과 같이 표현된다고 하자.
Figure 112004008488365-pat00002
여기서, D는 MFCC의 총 차수(dimension), xi는 i번째 차수의 특징벡터값, mi는 i번째 특징벡터에 대응하는 혼합 가우시안 PDF의 평균, σi는 분산이다.
수학식 1의 분포에 따른 가우시안 PDF의 음의 로그 우도(negative log likelihood)를 계산하면 다음 식과 같다.
Figure 112004008488365-pat00003
여기서, G는 상수이다.
수학식 2를 전역 분산에 대해 계산하면 다음과 같다.
Figure 112004008488365-pat00004
여기서, G'은 σi를 전역 분산 σgi로 치환했을 때 그에 따라 G가 변한 값을 나타낸다.
수학식 3으로 부터 특징벡터의 스트림(stream) A에 따른 보상팩터
Figure 112004008488365-pat00005
를 다음과 같은 과정에 따라 구할 수 있다. 여기서, A는 스트림별로 구분되는 값으로, 본 실시예에서는 1차 내지 12차, 13차, 14차 내지 25차, 26차, 27차 내지 38차 그리고 39차로 구분된다.
먼저, 다음 식과 같이 전역분산의 제곱에 대한 각 혼합 가우시안의 분산의 제곱의 비를 구한다.
Figure 112004008488365-pat00006
수학식 4로부터 최적의 보상 팩터
Figure 112004008488365-pat00007
는 최소 평균자승 에러(minimum mean square error)에 의해 다음 식과 같이 결정될 수 있고, 이는 결국 βi에 대한 스트림내의 평균이 된다.
Figure 112004008488365-pat00008
여기서, A_start_id는 각 스트림의 시작 차수, A_end_id는 각 스트림의 끝 차수, E{}는 평균을 나타낸다. αA는 임의의 상수로서, 예를 들어 스트림내의 βi중 최소값이 될 수 있다.
수학식 5의 최적의 보상 팩터에 의해 분산이 보상된 음의 로그 우도는 다음 식과 같이 계산될 수 있다.
Figure 112004008488365-pat00009
수학식 6에 따른 보상 팩터는 각 스트림별로 존재한다.
수학식 6에 따라 보상된 전역분산이 HBT HMM(22)에 적용되어 향후 음성 인식시 이용된다.
학습과 보상이 이루어진 HBT HMM(22)을 이용하여 음성 인식이 이루어지는 과정은 다음과 같다. 먼저, 특징 추출부(21)는 인식하고자하는 입력 음성으로부터 상술한 바와 같은 특징벡터를 추출한다(14단계). 추출된 특징벡터를 HBT HMM(22)에 입력하고, HBT HMM(22)의 출력 확률중 최대 확률에 해당하는 숫자를 인식된 숫자로 출력한다(15단계).
도 3a 내지 도 3c는 MFCC의 각 차수에 대한 분산값을 도시한 것이다. 1차에서 12차 계수는 켑스트럴 계수, 13차는 에너지, 14차 내지 25차까지는 델타 계수, 26차는 델타 에너지, 27차 내지 38차 델타-델타 계수, 39차는 델타-델타 에너지를 나타낸다. 여기서 GV는 전역 분산값을 나타내고, 모델 1과 모델 2는 원래의 분산(original variance)값을 나타낸다.
도 3b는 도 3a의 모델 1의 분산을 본 발명에 따라 보상한 결과를 도시한 것이다. 도 3c는 도 3a의 모델 2의 분산을 본 발명에 따라 보상한 결과를 도시한 것이다. 도시된 바에 따르면, 분산 보상에 따라 각각의 분산 값이 보상되었음을 알 수 있다.
다음 표는 한국어 4연속 숫자음에 대해 종래기술과 본 발명에 의한 인식 결과를 나타낸 것이다. 본 실시예에서는 상술한 바 있는 39차 MFCC 특징벡터를 입력으로하고, 학습 데이터로서 100명이 발성한 연속 숫자음 5만개, 테스트 데이터로서 10명이 발성한 연속 숫자음 2000개를 사용하였다. 종래 기술로는 원래의 분산을 사용한 경우와 벡터 양자화된 분산을 사용한 경우를 실험하였다.
본 발명에 채택된 HMM의 구조는 각 숫자에 대해 7개의 헤드, 1개의 바디 및 7개의 테일의 부분 모델로 구성되어 총 167개의 유닛을 사용하고, 성별을 분리하는 경우 332개의 유닛을 사용한다. 또한 헤드는 각 유닛별로 3개의 상태(state), 바디는 2개의 상태, 테일은 3개의 상태를 갖는다. 또한, 각 상태는 8개의 혼합 가우시안 PDF를 갖고, 이들에 대한 가중 합을 구함으로써 출력 확률을 결정한다.
본 실험에서 인식대상은 영(0), 공(0), 일(1), …, 구(9)의 11개의 숫자와 무음(silence), 일시중지(pause)를 포함한다.
알고리듬 인식률 메모리 크기
원래의 분산 86.8% 2.34M
전역 분산 84.1% 1.19M
벡터 영자화된 분산 84.8% 1.20M
본 발명 86.0% 1.26M
표 1에 따르면, 본 발명에 따른 인식률은 원래의 분산을 이용한 경우보다 인식률은 6.1%정도 낮지만, 메모리 크기는 46.2%정도 작음을 알 수 있다. 또한 종래기술들에 비해 메모리 크기는 다소 크지만 인식률이 큰 것을 알 수 있다.
본 발명에 따르면, 연속 HMM을 이용하여 음성을 인식할 때 HMM의 전역 분산을 이용함으로써 메모리 크기를 줄이고 전역 분산을 보상함으로써 인식률을 향상 시킬 수 있다.

Claims (7)

  1. 음성 신호로부터 특징벡터를 추출하고, 상기 특징벡터를 입력했을 때 상기 음성 신호를 인식할 확률이 높도록 복수의 확률밀도함수를 갖는 모델을 학습시키는 단계;
    상기 학습이 완료되면, 각 확률밀도함수의 분산을 평균하여 전역분산을 구하는 단계;
    상기 전역분산을 이용하여 보상 팩터를 구하는 단계; 및
    각 확률밀도함수에 상기 전역분산을 적용하고, 상기 보상 팩터를 이용하여 상기 전역분산을 보상함으로써 각 확률밀도함수를 보상하는 단계를 포함함을 특징으로하는 확률밀도함수 보상 방법.
  2. 제1항에 있어서, 상기 각 확률밀도함수를 보상하는 단계는
    각 분산의 제곱에 대한 상기 전역분산의 제곱의 비를 각각 구하는 단계;
    상기 비들을 상기 특징벡터의 스트림별로 평균하는 단계; 및
    평균화된 비를 상기 스트림별로 상기 전역분산에 곱하는 단계를 포함함을 특징으로하는 확률밀도함수 보상 방법.
  3. 음성 신호로부터 제1특징벡터를 추출하고, 상기 제1특징벡터를 입력으로했을 때 상기 음성 신호를 인식할 확률이 높도록 복수의 확률밀도함수를 갖는 모델을 학습시키는 단계;
    상기 학습이 완료되면, 각 확률밀도함수의 분산을 평균하여 전역분산을 구하는 단계;
    상기 전역분산을 이용하여 보상 팩터를 구하는 단계;
    각 확률밀도함수에 상기 전역분산을 적용하고, 상기 보상 팩터를 이용하여 상기 전역분산을 보상함으로써 상기 모델을 보정하는 단계;
    인식하고자하는 음성 신호로부터 제2특징벡터를 추출하는 단계; 및
    상기 제2특징벡터를 보정이 이루어진 모델에 입력하여 상기 음성 신호를 인식하는 단계를 포함함을 특징으로하는 음성 인식 방법.
  4. 제3항에 있어서, 상기 모델을 보정하는 단계는
    각 분산의 제곱에 대한 상기 전역분산의 비를 각각 구하는 단계;
    상기 비들을 상기 특징벡터의 스트림별로 평균하는 단계; 및
    평균화된 비를 상기 스트림별로 상기 전역분산에 곱하는 단계를 포함함을 특징으로하는 음성 인식 방법.
  5. 제3항에 있어서, 상기 모델은
    헤드-바디-테일 은닉 마코프 모델임을 특징으로하는 음성 인식 방법.
  6. 음성신호에 대한 특징벡터를 구하는 특징추출부;
    복수의 확률밀도함수를 구비하고, 상기 특징벡터를 입력으로했을 때 상기 확률밀도함수에 따라 목표 인식값을 출력할 확률이 높도록 학습하고, 상기 학습이 완료되면 소정 보상팩터에 의해 상기 확률밀도함수가 보상되는 모델;
    학습이 완료되면, 각 확률밀도함수의 분산을 평균하여 전역분산을 구하는 전역분산 추출부; 및
    각 확률밀도함수를 보상하도록 상기 전역분산을 이용하여 보상팩터를 구하고, 상기 보상팩터를 상기 모델에 제공하는 보상팩터 추출부를 포함함을 특징으로하는 음성 인식 장치.
  7. 제6항에 있어서, 상기 모델은
    헤드-바디-테일 은닉 마코프 모델임을 특징으로하는 음성 인식 장치.
KR1020040013815A 2004-02-28 2004-02-28 은닉 마코프 모델를 위한 확률밀도함수 보상 방법, 그에따른 음성 인식 방법 및 장치 KR100612843B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020040013815A KR100612843B1 (ko) 2004-02-28 2004-02-28 은닉 마코프 모델를 위한 확률밀도함수 보상 방법, 그에따른 음성 인식 방법 및 장치
US11/066,428 US8140333B2 (en) 2004-02-28 2005-02-28 Probability density function compensation method for hidden markov model and speech recognition method and apparatus using the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020040013815A KR100612843B1 (ko) 2004-02-28 2004-02-28 은닉 마코프 모델를 위한 확률밀도함수 보상 방법, 그에따른 음성 인식 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20050088014A KR20050088014A (ko) 2005-09-01
KR100612843B1 true KR100612843B1 (ko) 2006-08-14

Family

ID=34880342

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020040013815A KR100612843B1 (ko) 2004-02-28 2004-02-28 은닉 마코프 모델를 위한 확률밀도함수 보상 방법, 그에따른 음성 인식 방법 및 장치

Country Status (2)

Country Link
US (1) US8140333B2 (ko)
KR (1) KR100612843B1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103077704A (zh) * 2010-12-09 2013-05-01 北京宇音天下科技有限公司 一种用于嵌入式语音合成系统的音库压缩及使用方法
US20120324007A1 (en) * 2011-06-20 2012-12-20 Myspace Llc System and method for determining the relative ranking of a network resource
US8682670B2 (en) 2011-07-07 2014-03-25 International Business Machines Corporation Statistical enhancement of speech output from a statistical text-to-speech synthesis system
CN104021390B (zh) * 2013-03-01 2018-01-02 佳能株式会社 模型生成装置、模式识别设备及其方法
JP5995226B2 (ja) * 2014-11-27 2016-09-21 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 音響モデルを改善する方法、並びに、音響モデルを改善する為のコンピュータ及びそのコンピュータ・プログラム
CN104916281B (zh) * 2015-06-12 2018-09-21 科大讯飞股份有限公司 大语料音库裁剪方法及系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5742928A (en) * 1994-10-28 1998-04-21 Mitsubishi Denki Kabushiki Kaisha Apparatus and method for speech recognition in the presence of unnatural speech effects
US5995927A (en) * 1997-03-14 1999-11-30 Lucent Technologies Inc. Method for performing stochastic matching for use in speaker verification
US6163769A (en) * 1997-10-02 2000-12-19 Microsoft Corporation Text-to-speech using clustered context-dependent phoneme-based units
US6226612B1 (en) * 1998-01-30 2001-05-01 Motorola, Inc. Method of evaluating an utterance in a speech recognition system
JP2001100781A (ja) * 1999-09-30 2001-04-13 Sony Corp 音声処理装置および音声処理方法、並びに記録媒体
TW473704B (en) * 2000-08-30 2002-01-21 Ind Tech Res Inst Adaptive voice recognition method with noise compensation
US7571097B2 (en) * 2003-03-13 2009-08-04 Microsoft Corporation Method for training of subspace coded gaussian models
US7454342B2 (en) * 2003-03-19 2008-11-18 Intel Corporation Coupled hidden Markov model (CHMM) for continuous audiovisual speech recognition

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
1997. IEE Proc. of Visual Image Signal Process, Vol.144, No.3, pp.129-135에 기재된 Adaptation of hidden Markov model for telephone speech recognition and speaker adaptation 으로부터 공지된 발명 *
1998. Proc. of ICASSP, pp.457-460에 기재된 Natural Number Recognition Using MCE Trained Inter-Word Context Dependent Acoustic Models 로부터 공지된 발명 *
2001. 한국정보과학회 학술발표논문집, Vol.28, No.2, pp.34-360에 기재된 빠른 공분산 보상을 이용한 온라인 HMM 적응 으로부터 공지된 발명 *

Also Published As

Publication number Publication date
KR20050088014A (ko) 2005-09-01
US8140333B2 (en) 2012-03-20
US20050192806A1 (en) 2005-09-01

Similar Documents

Publication Publication Date Title
EP1557822B1 (en) Automatic speech recognition adaptation using user corrections
US7054810B2 (en) Feature vector-based apparatus and method for robust pattern recognition
US8386254B2 (en) Multi-class constrained maximum likelihood linear regression
US20110066434A1 (en) Method for Speech Recognition on All Languages and for Inputing words using Speech Recognition
US9280979B2 (en) Online maximum-likelihood mean and variance normalization for speech recognition
JP2000507714A (ja) 言語処理
JP5242782B2 (ja) 音声認識方法
EP2161718A1 (en) Speech recognition
US6148284A (en) Method and apparatus for automatic speech recognition using Markov processes on curves
Ranjan et al. Isolated word recognition using HMM for Maithili dialect
CN117043857A (zh) 用于英语发音评估的方法、设备和计算机程序产品
Sinha et al. Continuous density hidden markov model for context dependent Hindi speech recognition
US8140333B2 (en) Probability density function compensation method for hidden markov model and speech recognition method and apparatus using the same
JP3403838B2 (ja) 句境界確率計算装置および句境界確率利用連続音声認識装置
Ljolje Speech recognition using fundamental frequency and voicing in acoustic modeling.
KR100883650B1 (ko) 정규화 상태 라이크리후드를 이용한 음성인식방법 및 그장치
KR100474253B1 (ko) 단어의 첫 자음 발성을 이용한 음성인식 방법 및 이를 저장한 기록 매체
Soe et al. Syllable-based speech recognition system for Myanmar
Tangwongsan et al. Highly efficient and effective techniques for Thai syllable speech recognition
Khalifa et al. Statistical modeling for speech recognition
Geetha et al. Monosyllable isolated word recognition for Tamil language using continuous density hidden Markov model
KR100488121B1 (ko) 화자간 변별력 향상을 위하여 개인별 켑스트럼 가중치를 적용한 화자 인증 장치 및 그 방법
JP3105708B2 (ja) 音声認識装置
Aubert Eigen-MLLRs applied to unsupervised speaker enrollment for large vocabulary continuous speech recognition
Kotwal et al. Effect of Neural Network based phonetic feature segmentation in ASR

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120730

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20130730

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20140730

Year of fee payment: 9

LAPS Lapse due to unpaid annual fee