KR19980036956A

KR19980036956A - 히든 마크오프 모델(hmm)을 이용한 음성인식 방법

Info

Publication number: KR19980036956A
Application number: KR1019960055629A
Authority: KR
Inventors: 이상헌
Original assignee: 김영환; 현대전자산업 주식회사
Priority date: 1996-11-20
Filing date: 1996-11-20
Publication date: 1998-08-05
Also published as: KR100289315B1

Abstract

[목적]

본 발명은 HMM을 이용한 음성인식에서, 모델을 훈련시킬 경우 상태당 가지 수를 그 상태에 속한 프레임 수에 따라 가변하여 음성의 인식률을 높이고 음성의 확률밀도를 함수를 효과적으로 모델링하기 위한 히든 마크오프 모델을 이용한 음성인식 방법에 관한 것이다.

[구성]

본 발명은 HMM을 이용한 음성인식에서 기존모델을 생성하는 훈련과정이, 모델 파라미터를 초기화하는 제 1 단계와, 음성 데이터를 상태로 분할하는 제 2 단계와, 모델 파라미터를 재추정하는 제 3 단계와, 제 3 단계의 모델 파라미터를 이용하여 비터비 알고리즘을 수행하여 각 상태에 속한 프레임 수를 구하는 제 4 단계와, 제 4 단계의 비터비 알고리즘이 일정 회수만큼 반복 수행된 경우 프레임 수에 따라 상태당 가지의 수를 변환하도록 가지 수 변환 알고리즘을 수행하는 제 5 단계와, 모델이 수렴하는 경우 모델 파라미터를 저장하고, 수렴하지 않는 경우 제 2 단계로 돌아가 그 이후 단계를 수행하는 제 6 단계로 이루어진다.

Description

히든 마크오프 모델(HMM)을 이용한 음성인식 방법

도 1 은 일반적인 단순 좌우모델의 상태 천이도.

도 2 는 일반적인 음성인식 과정도.

도 3 은 본 발명에 의한 기준모델의 훈련 과정도.

* 도면의 주요부분에 대한 부호의 설명 *

A : 상태천이 확률

본 발명은 히든 마크오프 모델(Hidden Markov Model ; 이하, 'HMM'이라 약칭함)을 이용한 음성인식 방법에 있어서, 모델을 훈련시킬 경우 상태당 가지수를 그 상태에 속한 프레임 수에 따라 가변하여 음성의 인식률을 높이고 음성의 확률밀도 함수를 효과적으로 모델링하기 위한 HMM을 이용한 음성인식 방법에 관한 것이다.

일반적으로 디지털 오디오 시스템의 음성인식 기술에서 고립단어를 인식하는 것은 매우 중요하며, 특히 연속음성을 인식하기 위해서는 무엇보다 고립단어의 인식률이 높아야 한다.

이에 따라, 종래에는 고립단어를 인식하기 위한 기술로서 HMM을 이용하여 음성인식을 수행하였다.

상기 HMM을 이용한 음성인식은 크게 2가지 과정으로 나누어지는데 즉, 수렴되는 모델의 파라미터를 저장하는 것으로 훈련과정을 통해 각 음성의 기준모델을 만드는 과정과 인식과정을 통해 테스트할 음성을 기준모델과 비교하여 제일 확률값이 높은 모델을 음성으로 인식하는 과정으로 나뉘어 수행된다.

이러한 HMM을 이용한 음성인식은 상태의 수와 가지의 수를 정하여 훈련하게 되며, 특히 종래의 모델 훈련과정은 각 상태당 가지의 수를 미리 일정하게 정하여 훈련하도록 되어 있다.

여기서, 상태라는 것은 음성이 프레임으로 나뉘어졌을 때 어떤 특징들이 같게 나타나는 부분을 가리키고, 가지라는 것은 같은 단어를 발음하여 여러 음성 중에서 같은 상태내에서 임의의 프레임이 관측될 확률밀도 함수를 말한다.

그러나, 상기와 같은 종래의 기준모델의 훈련과정은 어떤 상태에 속한 프레임의 수가 많든 적든 상관없이 상태의 가지 수를 일정하게 함에 따라 프레임의 수가 많아져 다양한 음성의 특징들이 나타날 경우에도 그 특징들이 관측될 확률을 보다 정확하게 나타낼 수 없었다.

더욱이, 어떤 상태에 속한 프레임이 많아 그 프레임으로부터 구해지는 특징 벡터들이 많아져 관측될 확률분포가 다양해질 가능성이 있음에도 불구하고 각 상태마다 일정한 가지수로 훈련을 시킴에 따라 인식과정에 있어서 확률값에 영향을 미쳐 다른 단어로 오인식될 수도 있게 되는 커다란 문제점을 초래하였다.

따라서 본 발명은 상기와 같은 문제점을 해결하기 위해 창안된 것으로서, 그 목적은 HMM을 이용한 음성인식에서 모델을 훈련시킬 경우 상태당 가지 수를 그 상태에 속한 프레임 수에 따라 가변시킴으로써 음성의 인식률을 높이고, 음성의 확률밀도 함수를 효과적으로 모델링할 수 있도록 한 HMM을 이용한 음성인식 방법을 제공하는 데에 있다.

이러한 목적을 달성하기 위한 본 발명의 HMM을 이용한 음성인식 방법은, 각 상태에 속한 프레임의 수가 일정값보다 많으면 관측될 확률밀도 함수를 나타내는 가지의 수를 많게 하여 보다 정확한 관측확률을 구할 수 있도록 하고, 상기 프레임의 수가 일정값보다 적으면 가지의 수를 작게하여 계산량을 줄일 수 있도록 한다.

이하, 첨부된 도면을 참조하여 본 발명의 HMM을 이용한 음성인식 방법을 상세히 설명한다.

도 1 은 일반적인 단순 좌우모델의 상태 천이도로서, HMM을 이용한 음성 인식에서는 여러 모델 중에서 음성을 모델링하기에 제일 적당한 좌우모델을 주로 사용한다.

상기 좌우모델의 파라미터는 A, B, Ⅱ로 나타낼 수 있으며, 이때 A는 도 1에 도시된 바와 같이 상태와 상태를 천이하는 상태천이 확률로 정의할 수 있고, B는 음성의 특징들이 관측될 확률을 나타내는 관측확률이며, Ⅱ는 초기에 모델이 어느 상태에 있는가를 나타내는 초기상태 확률이다.

도 2는 일반적인 HMM을 이용한 음성인식 중 음성인식 과정을 보인 도면으로서, 음성인식은 테스트할 음성들을 프레임으로 나누어 특징벡터를 추출하는 특징벡터 추출 단계(S1)와, 상기 단계(S1)에서 추출된 특징벡터로 저장되어 있는 기준모델의 음성에 대해 비터비 복호화(viterbi decoding)과정을 수행하는 비터비 복호화 단계(S2)와, 상기 비터비 복호화 단계(S2)를 수행한 후 각각의 프레임들이 해당 상태에서 발생될 확률을 구하는 것으로 모든 기준모델에 대해 확률값을 구하는 확률값 계산 단계(S3)와, 상기 단계(S3)에서 구한 기준모델의 확률값 중 가장 확률값이 높은 것을 단어로 인식하는 음성 인식 단계(S4)로 수행된다.

여기서, 상기 비터비 복호화(viterbi decoding)알고리즘은 모델이 주어졌을 때 테스트할 음성의 프레임들이 어느 상태에서 발생되었는지를 추정하여 최적의 상태 경로를 찾는 알고리즘이다.

도 3은 본 발명에 의한 기준모델의 훈련 과정을 보인 도면으로서, 기준모델의 훈련과정은 각 상태당 가지의 수를 결정하기 위해 비터비 알고리즘을 통해 그 상태에 속한 프레임의 수를 알아내는 과정과 이 과정에 의해 알아낸 프레임의 수에 따라 가지의 수를 결정하는 과정으로 크게 이루어진다.

특히, 상기 프레임 수를 알아내기 위해 비터비 알고리즘을 수행하는 경우, 모델의 파라미터가 원하는 만큼 근사적으로 수렴되어 더이상 비터비 알고리즘 과정을 수행하여 상태를 분할해도 그 상태에 속한 프레임의 수가 크게 변하지 않을 정도까지 비터비 알고리즘을 일정 회수만큼만(예를 들면, 약 5회 정도)반복 수행한다.

그리고 나서, 상기 비터비 알고리즘에 의해 알아낸 프레임 수를 이용하여 가지의 수를 결정하는 것은 다음 아래 식과 같이 구한다.

(아래 식)

2 ≤ n_j≤ 7

.1 ≤ i≤ N

여기서,n_i: i상태에 속한 가지의 수

.n_ji: i상태에 속한 j번째 음성데이터의 프레임 수

.N : 훈련시키는 모델의 상태수

즉, 상기 식은 상태에 속한 프레임의 개수가 전체 데이터의 프레임 개수를 상태 수로 나눈 값과 같으면 가지의 수를 5개로 할당하고, 상기 값보다 작으면 5개 보다 작게 할당하며, 상기 프레임의 개수가 상기 값보다 크면 비례하여 많게 할당하기 위한 식이다.

한편, 각 상태에 할당되는 가지의 수가 상기 식으로부터 2개보다 작게 구해지면 최소한 2개는 할당하고, 7개보다 많아도 최대 7개로 할당한다.

상기와 같이 프레임의 수에 따라 가지의 수를 변환한 후, 상태별로 각각 다른 가지로 상기 과정을 반복하고 모델의 수렴여부를 조사하여 수렴하는 경우 그 모델을 기준모델로 저장한다.

상기와 같은 기준모델의 훈련 과정을 도 3을 참조하여 단계별로 상세히 설명하면 다음과 같다.

우선, 모델 파라미터를 초기화시킨 후(S10), 데이터를 상태로 분할하고(S11), Baum-Welch 알고리즘을 이용하여 모델 파라미터를 재추정한다(S12).

이어, 상기 단계(S12)에서 재추정된 모델 파라미터를 이용하여 비터비 알고리즘을 수행하여 각 상태에 속한 프레임 수를 알아낸 후(S13), 모델의 파라미터를 근사적으로 수렴시키기 위해 상기 비터비 알고리즘이 일정회수만큼(예를 들면, 약 5회 정도) 반복 수행되었는지를 판단하여(S14), 일정 회수만큼 반복 수행되었으면 가지 수 변환 알고리즘을 수행한다(S15).

상기 가지 수 변환 알고리즘은 상기 단계(S13)에서 알아낸 각 상태에 속한 프레임 수에 따라 상태당 가지의 개수를 결정하게 되는데, 즉 상기 프레임 수가 전체 음성 데이터의 프레임 개수를 훈련시키는 모델의 상태수로 나눈 값보다 작으면 가지의 수를 작게 배당하고, 상기 값보다 크면 가지의 수를 많게 배당한다.

이때, 상태당 프레임의 개수에 따라 가지의 수를 변환시킬 경우, 아무리 적어도 2개 이상은 배당하여 확률값을 구할 때 오차가 작게 발생하도록 하고, 또한 아무리 많아도 7개 이상은 배당하지 않게 하여 계산량을 너무 많게 하지 않도록 한다.

즉, 본 발명은 가지수 변환 알고리즘에 의해 프레임의 개수가 많으면 음성의 특징벡터인 심볼을 관측할 확률을 구함에 있어 확률밀도 함수를 많게 하여 자세히 관측확률을 구할 수 있고, 프레임의 개수가 적으면 가지의 수를 적게 배당하여 확률을 덜 세밀하게 구할 수 있다.

이어, 모델이 수렴하는지를 판단하여(S16), 모델이 수렴하지 않는 경우에는 데이터를 상태 분할하는 단계(S11)로 되돌아가 다시 상태별로 각각 다른 가지에 대해 이후 과정을 반복 수행하여 모델의 수렴여부를 조사하고, 만약 모델이 수렴하는 경우에는 그 모델 파라미터를 기준모델로 저장한다.(S17)

이상, 상기 상세한 설명에서와 같이 본 발명은 HMM을 이용하여 고립단어를 인식함에 있어서, 각 상태에 속한 프레임의 수에 따라 가지의 수를 달리함으로써 확률의 모델링을 좀 더 자세하고도 정확히 수행하여 인식과정에서 오인식이 발생되는 것을 방지할 수 있다.

Claims

기준모델을 생성하는 훈련과정과 고확률값의 모델을 음성으로 인식하는 인식과정으로 이루어진 HMM을 이용한 음성인식 방법에 있어서,

상기 훈련과정이, 모델 파라미터를 초기화하는 제 1 단계와, 음성 데이터를 상태로 분할하는 제 2 단계와, 모델 파라미터를 재추정하는 제 3 단계와, 상기 제 3 단계에서 재추정된 모델 파라미터를 이용하여 비터비 알고리즘을 수행하여 각 상태에 속한 프레임 수를 구하는 제 4 단계와, 상기 제 4 단계의 비터비 알고리즘이 일정 회수만큼 반복 수행된 경우 상기 제 4 단계에서 구한 프레임 수에 따라 상태당 가지의 수를 변환하도록 가지 수 변환 알고리즘을 수행하는 제 5 단계와, 모델이 수렴하는 경우 모델 파라미터를 저장하고, 수렴하지 않는 경우 상기 제 2 단계로 돌아가 그 이후 단계를 수행하는 제 6 단계로 이루어지는 것을 특징으로 하는 히든 마크오프 모델(HMM)을 이용한 음성인식 방법.
제 1 항에 있어서,

상기 제 5 단계의 가지 수 변환 알고리즘은, 상기 제 4 단계에서 구한 각 상태에 속한 프레임 수가 전체 음성 데이터의 프레임 개수를 모델의 상태로 나누어 그 값보다 작은 경우에는 가지의 수를 적게 배당하고, 상기 나눈 값보다 큰 경우에는 가지의 수를 많게 배당하도록 함을 특징으로 하는 히든 마크오프 모델(HMM)을 이용한 음성인식 방법.