KR100612843B1

KR100612843B1 - 은닉 마코프 모델를 위한 확률밀도함수 보상 방법, 그에따른 음성 인식 방법 및 장치

Info

Publication number: KR100612843B1
Application number: KR1020040013815A
Authority: KR
Inventors: 한익상; 정상배; 전유진
Original assignee: 삼성전자주식회사
Priority date: 2004-02-28
Filing date: 2004-02-28
Publication date: 2006-08-14
Also published as: KR20050088014A; US8140333B2; US20050192806A1

Abstract

은닉 마코프 모델를 위한 확률밀도함수 보상 방법, 그에 따른 음성 인식 방법 및 장치가 개시된다. 본 발명의 확률밀도함수 보상 방법은 음성 신호로부터 특징벡터를 추출하고, 특징벡터를 입력했을 때 음성 신호를 인식할 확률이 높도록 복수의 확률밀도함수를 갖는 모델을 학습시키는 단계; 학습이 완료되면, 각 확률밀도함수의 분산을 평균하여 전역분산을 구하는 단계; 전역분산을 이용하여 보상 팩터를 구하는 단계; 및 각 확률밀도함수에 전역분산을 적용하고, 보상 팩터를 이용하여 전역분산을 보상함으로써 각 확률밀도함수를 보상하는 단계를 포함함을 특징으로한다.

Description

은닉 마코프 모델를 위한 확률밀도함수 보상 방법, 그에 따른 음성 인식 방법 및 장치{Method for compensating probability density function, method and apparatus for speech recognition thereby}

도 1은 본 발명에 따른 음성 인식 방법에 따른 흐름도를 도시한 것이다.

도 2는 본 발명에 따른 음성 인식 장치에 대한 블록도를 도시한 것이다.

도 3a 내지 도 3c는 MFCC의 각 차수에 대한 분산값을 도시한 것이다.

본 발명을 확률밀도함수 보상 방법, 그에 따른 음성 인식 방법 및 장치에 관한 것으로, 특히 연속 은닉 마코프 모델(continuous hidden Markov model)에 사용되는 확률밀도함수를 보상하는 방법, 그에 따른 음성 인식 방법 및 장치에 관한 것이다.

일반적으로 음성 인식은 입력 음성으로부터 음성 파형과 인식에 필요한 정보를 나타내는 특징 벡터를 추출하는 전처리단계부터 시작한다. 두번째 단계는 은닉 마코프 모델(Hidden Markov Model, HMM)이라고하는 음소(phoneme) 레벨의 통계 모델(statistical model)을 사용하여 인식 또는 디코딩하는 것이다. 단어 레벨의 음 향 모델(acoustic model)은 발음 사전에 따라 모음 또는 자음과 같은 단음(phone) 레벨의 모델들을 연접하여 이루어진다.

HMM은 유연한 모델링과 높은 성능때문에 음성 인식 분야에서 널리 사용되고 있다. 음성 인식에서 HMM은 발성하는 기관의 시간적 상태 또는 생성된 음운은 은닉되고, 관측되는 음성을 출력으로하여 음운이나 상태를 파악하여 음성을 인식하는 것을 말한다. HMM은 상태 천이 확률과 출력 확률로 표시되는 이중의 프로세스이다. 상태 천이는 마코프 프로세스(Markov process)로 표시되고, 출력 확률은 세 가지로 표시된다. 첫째, 벡터 양자화(Vetor Quantization)를 통해서 코드북(VQ-based codebook)의 코드워드로 나타낼 수 있다. 이것은 모든 가능한 음향적인 특성을 이 코드북에 이산 확률 밀도(discrete probability density) 함수로 나타낼 수 있다는 것이다. 둘째, 연속 확률 밀도(continuous probability density) 함수로 나타낼 수 있다. 이것은 해당 단위에 매우 종속적이다. 왜냐하면 해당 음성을 가지고 여러 개의 음성 특징 벡터의 평균(spectral mean)과 분산을 구하기 때문이다. 셋째, 이것은 첫째와 둘째의 경우를 복합한 것으로 볼 수 있다.

이산 은닉 마코프 모델(Discrete HMM)에서는 관측 심벌(음성 특징 벡터)이 벡터 양자화를 통해서 가장 근접한 코드워드로 대표된다. 따라서 양자화 에러가 존재한다. DHMM에서 발생되는 이 양자화 에러를 극복하기 위해서 연속 은닉 마코프 모델(Continuous HMM)이 제안되었다. 그런데 CHMM은 음성 인식기 구현에 널리 사용되지 못하는 다음과 같은 이유가 있다. 첫째, 추정해야 할 모델 파라미터가 매우 많다. 이 모델 파라미터의 추정을 위해서는 큰 데이터베이스와 많은 계산량이 요구 된다. 둘째, CHMM은 초기 값에 민감하다. 이러한 이유들때문에 리소스가 작은 휴대폰 등에는 자동 음성 인식 시스템을 내장하는 것이 부적합하다. 따라서 메모리와 계산량을 줄일 필요가 있다.

본 발명이 이루고자하는 기술적 과제는 음성 인식 모델에서 메모리 요구량이 많은 확률밀도함수의 분산을 소정 값으로 고정하고, 그에 따라 발생할 수 있는 인식률 저하를 고정된 분산을 보상하는 확률밀도함수 보상 방법, 이를 이용한 음성 인식 방법 및 장치를 제공하는데 있다.

상기 기술적 과제를 이루기위한, 본 발명의 확률밀도함수 보상 방법은 음성 신호로부터 특징벡터를 추출하고, 상기 특징벡터를 입력했을 때 상기 음성 신호를 인식할 확률이 높도록 복수의 확률밀도함수를 갖는 모델을 학습시키는 단계; 상기 학습이 완료되면, 각 확률밀도함수의 분산을 평균하여 전역분산을 구하는 단계; 상기 전역분산을 이용하여 보상 팩터를 구하는 단계; 및 각 확률밀도함수에 상기 전역분산을 적용하고, 상기 보상 팩터를 이용하여 상기 전역분산을 보상함으로써 각 확률밀도함수를 보상하는 단계를 포함함을 특징으로한다.

상기 기술적 과제를 이루기위한, 본 발명의 음성 인식 방법은 음성 신호로부터 제1특징벡터를 추출하고, 상기 제1특징벡터를 입력으로했을 때 상기 음성 신호를 인식할 확률이 높도록 복수의 확률밀도함수를 갖는 모델을 학습시키는 단계; 상기 학습이 완료되면, 각 확률밀도함수의 분산을 평균하여 전역분산을 구하는 단계; 상기 전역분산을 이용하여 보상 팩터를 구하는 단계; 각 확률밀도함수에 상기 전역분산을 적용하고, 상기 보상 팩터를 이용하여 상기 전역분산을 보상함으로써 상기 모델을 보정하는 단계; 인식하고자하는 음성 신호로부터 제2특징벡터를 추출하는 단계; 및 상기 제2특징벡터를 보정이 이루어진 모델에 입력하여 상기 음성 신호를 인식하는 단계를 포함함을 특징으로한다.

상기 기술적 과제를 이루기위한 본 발명의 음성 인식 장치는 음성신호에 대한 특징벡터를 구하는 특징추출부; 복수의 확률밀도함수를 구비하고, 상기 특징벡터를 입력으로했을 때 상기 확률밀도함수에 따라 목표 인식값을 출력할 확률이 높도록 학습하고, 상기 학습이 완료되면 소정 보상팩터에 의해 상기 확률밀도함수가 보상되는 모델; 학습이 완료되면, 각 확률밀도함수의 분산을 평균하여 전역분산을 구하는 전역분산 추출부; 및 각 확률밀도함수를 보상하도록 상기 전역분산을 이용하여 보상팩터를 구하고, 상기 보상팩터를 상기 모델에 제공하는 보상팩터 추출부를 포함함을 특징으로한다.

이하에서 첨부된 도면을 참조하여 본 발명을 보다 상세하게 설명하기로 한다.

도 1은 본 발명에 따른 음성 인식 방법에 따른 흐름도를 도시한 것이고, 도 2는 본 발명에 따른 음성 인식 장치에 대한 블록도를 도시한 것이다. 본 실시예에서는 음성 인식의 종류로 연속되는 숫자음을 인식한다. 이를 위하여 숫자음 인식에 적절한 HMM의 구조를 결정하고, 학습 데이터를 이용하여 HMM을 학습시킨다(11단계). 본 실시예에서 채택한 HMM은 도 2의 참조번호 22에 나타난 바 와 같이 헤드-바디-테일(Head-Body-Tail, HBT) HMM이다. HBT HMM은 문맥(context)에 종속하는 모델로서, 좌측 문맥에 종속하는 유닛(left-context dependent unit)인 헤드(head), 문맥에 독립적인(context independent unit) 유닛인 바디(body), 그리고 우측 문맥에 종속하는 유닛(right-context dependent unit)인 테일(tail)이 연접되어 이루어진다. HBT HMM의 구조로서 헤드, 바디 및 테일 유닛 각각에 포함되는 상태(state) 수를 결정하고, 각 상태에 해당하는 혼합 가우시안(mixture Gaussian) 확률밀도함수(Probability Densiity Fuction, PDF)의 수를 결정한다.

HBT HMM(22)의 구조가 결정되면, 학습 데이터를 이용하여 HBT HMM(22)을 학습시킨다. 학습 데이터는 인식하고자하는 숫자의 음성신호로부터 추출된 특징벡터와 해당 숫자가 된다. 학습 데이터를 만들기위해 특징 추출부(21)는 숫자의 음성신호로부터 음성의 시작점과 끝점을 검출하고, 검출된 음성신호로부터 특징벡터를 추출한다. 추출된 특징벡터는 HBT HMM(22)에 입력되고, HBT HMM(22)는 각 상태별로 혼합 가우시안 PDF에 따른 확률을 출력한다. 학습은 어느 한 숫자에 대한 특징벡터에 대해 해당 유닛의 상태들의 출력확률이 가장 크도록 HBT HMM(22)의 파라미터들을 갱신하는 방식으로 이루어진다.

HMM의 파라미터로는 혼합 가우시안 PDF의 평균과 분산을 포함한다.

본 발명에서 특징벡터는 멜 주파수 켑스트럼 계수(Mel-Frequency Cepstrum Coefficient, MFCC)를 사용한다. MFCC는 멜 필터뱅크(Mel filter bank)에 로그를 취한 후 역 이산 푸리에 변환(Inverse Discrete Fourier Trandform, IDFT)을 취한 것으로 인간의 귀를 모델링한 것이다. 본 실시예에서는 39차 MFCC 특징벡터를 사용 하며, 39차 MFCC 특징벡터의 특징값들은 12개의 켑스트럴 계수(cepstral coefficient), 에너지, 프레임간의 켑스트럴 계수 및 에너지의 차를 각각 구한 델타 계수 및 델타 에너지, 프레임간의 델타 계수 및 델타 에너지의 차를 각각 구한 델타-델타 계수 및 델타-델타 에너지의 6개 스트림을 포함한다.

학습이 이루어지면, 전역 분산 추출부(23)는 HBT HMM(22)에 대한 전역 분산(global variance) σ_gi를 계산한다(12단계). σ_gi는 HBT HMM(22)의 상태들에 대한 분산값을 평균하여 얻어진다. 실제 인식에 사용되는 HBT HMM(22)에서는 분산값을 σ_gi를 모든 상태에 동일하게 적용한다.

이와같이, 전역 분산을 사용하여 음성 인식을 수행하면 메모리 요구량은 작아지지만 인식률이 저하될 수 있다. 따라서 본 발명에서는 혼합 가우시안 PDF의 평균은 양자화하고, 전역분산을 보상하는 보상 팩터(compensation factor)를 도입하여 인식률 저하를 보상한다.

이를 위해 보상 팩터 추출부(24)는 전역 분산으로부터 다음과 같이 보상 팩터를 추출한다(13단계).

각 상태에 해당하는 혼합 가우시안 PDF

가 다음 식과 같이 표현된다고 하자.

여기서, D는 MFCC의 총 차수(dimension), x_i는 i번째 차수의 특징벡터값, m_i는 i번째 특징벡터에 대응하는 혼합 가우시안 PDF의 평균, σ_i는 분산이다.

수학식 1의 분포에 따른 가우시안 PDF의 음의 로그 우도(negative log likelihood)를 계산하면 다음 식과 같다.

여기서, G는 상수이다.

수학식 2를 전역 분산에 대해 계산하면 다음과 같다.

여기서, G'은 σ_i를 전역 분산 σ_gi로 치환했을 때 그에 따라 G가 변한 값을 나타낸다.

수학식 3으로 부터 특징벡터의 스트림(stream) A에 따른 보상팩터

를 다음과 같은 과정에 따라 구할 수 있다. 여기서, A는 스트림별로 구분되는 값으로, 본 실시예에서는 1차 내지 12차, 13차, 14차 내지 25차, 26차, 27차 내지 38차 그리고 39차로 구분된다.

먼저, 다음 식과 같이 전역분산의 제곱에 대한 각 혼합 가우시안의 분산의 제곱의 비를 구한다.

수학식 4로부터 최적의 보상 팩터

는 최소 평균자승 에러(minimum mean square error)에 의해 다음 식과 같이 결정될 수 있고, 이는 결국 β_i에 대한 스트림내의 평균이 된다.

여기서, A_start_id는 각 스트림의 시작 차수, A_end_id는 각 스트림의 끝 차수, E{}는 평균을 나타낸다. α_A는 임의의 상수로서, 예를 들어 스트림내의 β_i중 최소값이 될 수 있다.

수학식 5의 최적의 보상 팩터에 의해 분산이 보상된 음의 로그 우도는 다음 식과 같이 계산될 수 있다.

수학식 6에 따른 보상 팩터는 각 스트림별로 존재한다.

수학식 6에 따라 보상된 전역분산이 HBT HMM(22)에 적용되어 향후 음성 인식시 이용된다.

학습과 보상이 이루어진 HBT HMM(22)을 이용하여 음성 인식이 이루어지는 과정은 다음과 같다. 먼저, 특징 추출부(21)는 인식하고자하는 입력 음성으로부터 상술한 바와 같은 특징벡터를 추출한다(14단계). 추출된 특징벡터를 HBT HMM(22)에 입력하고, HBT HMM(22)의 출력 확률중 최대 확률에 해당하는 숫자를 인식된 숫자로 출력한다(15단계).

도 3a 내지 도 3c는 MFCC의 각 차수에 대한 분산값을 도시한 것이다. 1차에서 12차 계수는 켑스트럴 계수, 13차는 에너지, 14차 내지 25차까지는 델타 계수, 26차는 델타 에너지, 27차 내지 38차 델타-델타 계수, 39차는 델타-델타 에너지를 나타낸다. 여기서 GV는 전역 분산값을 나타내고, 모델 1과 모델 2는 원래의 분산(original variance)값을 나타낸다.

도 3b는 도 3a의 모델 1의 분산을 본 발명에 따라 보상한 결과를 도시한 것이다. 도 3c는 도 3a의 모델 2의 분산을 본 발명에 따라 보상한 결과를 도시한 것이다. 도시된 바에 따르면, 분산 보상에 따라 각각의 분산 값이 보상되었음을 알 수 있다.

다음 표는 한국어 4연속 숫자음에 대해 종래기술과 본 발명에 의한 인식 결과를 나타낸 것이다. 본 실시예에서는 상술한 바 있는 39차 MFCC 특징벡터를 입력으로하고, 학습 데이터로서 100명이 발성한 연속 숫자음 5만개, 테스트 데이터로서 10명이 발성한 연속 숫자음 2000개를 사용하였다. 종래 기술로는 원래의 분산을 사용한 경우와 벡터 양자화된 분산을 사용한 경우를 실험하였다.

본 발명에 채택된 HMM의 구조는 각 숫자에 대해 7개의 헤드, 1개의 바디 및 7개의 테일의 부분 모델로 구성되어 총 167개의 유닛을 사용하고, 성별을 분리하는 경우 332개의 유닛을 사용한다. 또한 헤드는 각 유닛별로 3개의 상태(state), 바디는 2개의 상태, 테일은 3개의 상태를 갖는다. 또한, 각 상태는 8개의 혼합 가우시안 PDF를 갖고, 이들에 대한 가중 합을 구함으로써 출력 확률을 결정한다.

본 실험에서 인식대상은 영(0), 공(0), 일(1), …, 구(9)의 11개의 숫자와 무음(silence), 일시중지(pause)를 포함한다.

알고리듬	인식률	메모리 크기
원래의 분산	86.8%	2.34M
전역 분산	84.1%	1.19M
벡터 영자화된 분산	84.8%	1.20M
본 발명	86.0%	1.26M

표 1에 따르면, 본 발명에 따른 인식률은 원래의 분산을 이용한 경우보다 인식률은 6.1%정도 낮지만, 메모리 크기는 46.2%정도 작음을 알 수 있다. 또한 종래기술들에 비해 메모리 크기는 다소 크지만 인식률이 큰 것을 알 수 있다.

본 발명에 따르면, 연속 HMM을 이용하여 음성을 인식할 때 HMM의 전역 분산을 이용함으로써 메모리 크기를 줄이고 전역 분산을 보상함으로써 인식률을 향상 시킬 수 있다.

Claims

음성 신호로부터 특징벡터를 추출하고, 상기 특징벡터를 입력했을 때 상기 음성 신호를 인식할 확률이 높도록 복수의 확률밀도함수를 갖는 모델을 학습시키는 단계;

상기 학습이 완료되면, 각 확률밀도함수의 분산을 평균하여 전역분산을 구하는 단계;

상기 전역분산을 이용하여 보상 팩터를 구하는 단계; 및

각 확률밀도함수에 상기 전역분산을 적용하고, 상기 보상 팩터를 이용하여 상기 전역분산을 보상함으로써 각 확률밀도함수를 보상하는 단계를 포함함을 특징으로하는 확률밀도함수 보상 방법.
제1항에 있어서, 상기 각 확률밀도함수를 보상하는 단계는

각 분산의 제곱에 대한 상기 전역분산의 제곱의 비를 각각 구하는 단계;

상기 비들을 상기 특징벡터의 스트림별로 평균하는 단계; 및

평균화된 비를 상기 스트림별로 상기 전역분산에 곱하는 단계를 포함함을 특징으로하는 확률밀도함수 보상 방법.
음성 신호로부터 제1특징벡터를 추출하고, 상기 제1특징벡터를 입력으로했을 때 상기 음성 신호를 인식할 확률이 높도록 복수의 확률밀도함수를 갖는 모델을 학습시키는 단계;

상기 학습이 완료되면, 각 확률밀도함수의 분산을 평균하여 전역분산을 구하는 단계;

상기 전역분산을 이용하여 보상 팩터를 구하는 단계;

각 확률밀도함수에 상기 전역분산을 적용하고, 상기 보상 팩터를 이용하여 상기 전역분산을 보상함으로써 상기 모델을 보정하는 단계;

인식하고자하는 음성 신호로부터 제2특징벡터를 추출하는 단계; 및

상기 제2특징벡터를 보정이 이루어진 모델에 입력하여 상기 음성 신호를 인식하는 단계를 포함함을 특징으로하는 음성 인식 방법.
제3항에 있어서, 상기 모델을 보정하는 단계는

각 분산의 제곱에 대한 상기 전역분산의 비를 각각 구하는 단계;

상기 비들을 상기 특징벡터의 스트림별로 평균하는 단계; 및

평균화된 비를 상기 스트림별로 상기 전역분산에 곱하는 단계를 포함함을 특징으로하는 음성 인식 방법.
제3항에 있어서, 상기 모델은

헤드-바디-테일 은닉 마코프 모델임을 특징으로하는 음성 인식 방법.
음성신호에 대한 특징벡터를 구하는 특징추출부;

복수의 확률밀도함수를 구비하고, 상기 특징벡터를 입력으로했을 때 상기 확률밀도함수에 따라 목표 인식값을 출력할 확률이 높도록 학습하고, 상기 학습이 완료되면 소정 보상팩터에 의해 상기 확률밀도함수가 보상되는 모델;

학습이 완료되면, 각 확률밀도함수의 분산을 평균하여 전역분산을 구하는 전역분산 추출부; 및

각 확률밀도함수를 보상하도록 상기 전역분산을 이용하여 보상팩터를 구하고, 상기 보상팩터를 상기 모델에 제공하는 보상팩터 추출부를 포함함을 특징으로하는 음성 인식 장치.
제6항에 있어서, 상기 모델은

헤드-바디-테일 은닉 마코프 모델임을 특징으로하는 음성 인식 장치.