KR100557650B1

KR100557650B1 - 문맥 종속 음소 지속시간 정보를 이용한 음성인식 방법

Info

Publication number: KR100557650B1
Application number: KR1020020058105A
Authority: KR
Inventors: 구명완
Original assignee: 주식회사 케이티
Priority date: 2002-09-25
Filing date: 2002-09-25
Publication date: 2006-03-10
Also published as: KR20040026566A

Abstract

1. 청구범위에 기재된 발명이 속한 기술분야

본 발명은 문맥 종속 음소 지속시간 정보를 이용한 음성인식 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것임.

2. 발명이 해결하려고 하는 기술적 과제

본 발명은, 결정트리 기반 음소 모델 HMM 음성인식 시스템에서 문맥 종속(CD) 음소 지속시간 정보를 이용하여, 상태 지속시간 정보를 이용할 때 따른 인식률 저하 및 인식시간 증가를 줄이기 위한 음성인식 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하고자 함.

3. 발명의 해결방법의 요지

본 발명은, 결정트리 기반 음소 모델링을 이용한 음성인식 시스템에서의 음성인식 방법에 있어서, 결정트리 기반 음소 모델링 훈련과정을 통해 문맥 종속 음소를 이루고 있는 상태의 지속시간 정보를 확률값으로 구하여 상태 단위로 저장하는 단계; 인식 대상 후보 단어를 읽어서 단어를 구성하는 문맥 종속 음소를 구하는 단계; 결정트리 기반 음소 모델을 바탕으로, 상기 구하여진 문맥 종속 음소에 해당하는 상태를 구하여, 해당 상태의 지속시간 정보로부터 음소 지속시간 정보를 구하는 단계; 및 상기 음소 지속시간 정보를 이용하여 단어/문장을 인식하는 음성인식 단계를 포함함.

4. 발명의 중요한 용도

본 발명은 결정트리 기반 HMM 음성인식 시스템 등에 이용됨.

음소, 문맥 종속, 결정트리, 음성인식, HMM

Description

문맥 종속 음소 지속시간 정보를 이용한 음성인식 방법{A speech recognition method using context-dependent phone duration model}

도 1 은 일반적인 음성인식 시스템의 구성 예시도.

도 2 는 본 발명에 따른 음성인식 방법 중 훈련 과정에 대한 일실시예 상세 흐름도.

도 3 은 본 발명에 이용되는 결정트리 기반 음소 모델을 나타낸 일실시예 설명도.

도 4 는 본 발명에 따른 음성인식 방법 중 인식 과정에 대한 일실시예 상세 흐름도.

* 도면의 주요 부분에 대한 부호의 설명

13 : 비터비탐색기 14 : 발음사전

15 : CD 음소모델 데이터베이스 16 : 발화검증기

본 발명은 결정트리 기반 은닉 마르코프 모델(HMM : Hidden Markov Model)음성인식 시스템에서 음성의 지속시간(길이)을 이용하는 방식 중 문맥 종속(CD : Context-Dependent) 음소 지속시간 정보를 이용한 음성인식 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.

일반적으로, 널리 알려진 음성인식 방법으로 HMM을 사용하는 방법이 있다. 여기서, 음성인식 과정으로 비터비(Viterbi) 탐색을 실시하는데, 이는 인식대상 후보 단어들에 대한 미리 훈련하여 구축한 HMM과 현재 입력된 음성의 특징들과의 차이를 비교하여 가장 유사한 후보단어를 결정하는 과정이다.

음소 모델은 어떤 음성에서 실제로 발화된 음소들을 추출하여 추출된 음소들을 훈련시켜 생성된 HMM이다. 이러한 음소 모델은 일반적인 HMM에 근거한 음성인식 시스템에서 사용되는 모델이다.

그럼, 도 1을 참조하여 일반적인 음소 모델 HMM 음성인식 시스템에 대해 살펴보기로 한다.

도 1 은 일반적인 음성인식 시스템의 구성 예시도이다.

일반적인 음소 모델 HMM 음성인식 시스템의 구성 및 동작은 당해 분야에서 이미 주지된 기술에 지나지 아니하므로 여기에서는 그에 관한 자세한 설명한 생략하기로 한다.

먼저, 음성이 입력되면, 끝점 검출기(11)에서 음성의 앞두에 있는 묵음 구간 을 제외한 음성구간을 찾는다. 이후에, 특징 추출기(12)에서 앞에서 찾은 음성 구간의 음성신호로부터 음성의 특징을 추출한다.

다음으로, 비터비 탐색기(13)에서 문맥 종속(CD) 음소 모델 데이터베이스(15)로 구성된 발음사전(14)에 등록된 단어들에 대해 음성 특징값을 이용하여 유사도(Likelihood)가 가장 유사한 단어들을 선정하여 인식결과를 출력한다.

그런데, 음성인식 시스템에서 음성의 지속시간(길이)을 이용하는 방식은 그동안 많이 연구되어 왔다. 즉, 단어의 지속시간 정보를 이용하는 방식, 음소의 지속시간 정보를 이용하는 방식이 그 대표적인 방법이었다. 현재, 가장 많이 사용되고 있는 방법이 음소 지속시간 정보를 사용하는 방법이다.

음소는 주변 음소의 영향을 받지 않는 문맥 독립(CI : Context-Independent) 음소와 좌/우 음소의 영향을 고려한 문맥 종속(CD) 음소(예를 들면, 트라이 폰)로 나누어 진다.

그런데, 음소 지속시간 정보도 문맥 독립(CI) 음소에 사용할 때 보다 문맥 종속(CD) 음소에 이용하는 것이 더욱 음성인식 성능을 높이게 된다.

최근에는 음성인식 시스템에 결정트리(Decision Tree) 기반 알고리즘이 제안되었으며, 이 방식은 문맥 종속(CD) 음소를 표현하는데 상태 단위를 공유하기 때문에 적은 메모리 양과 인식 속도 향상 및 성능 향상에 도움이 되었다. 그런데, 이 방식은 문맥 독립(CI) 음소 지속시간 정보만 이용하거나 상태 지속시간 정보만 이용할 수 있었다.

그러나, 상태 지속시간 정보는 상태의 지속시간이 너무 짧기 때문에 안정성이 부족하여 성능 향상에 크게 기여하지 못했다. 또한, 문맥 독립(CI) 음소 지속시간보다는 문맥 종속(CD) 음소 지속시간 정보가 음소를 더 잘 표현해 주기 때문에 성능 향상을 기할 수 있음에도 불구하고, 이에 대한 연구가 현재까지는 미비한 상황이다.

따라서, 현재의 기술분야에서는 결정트리 기반 음소 모델 HMM 음성인식 시스템에서 음소를 더 잘 표현할 수 있는 문맥 종속(CD) 음소 지속시간 정보를 이용하여 인식률을 향상하고 인식시간을 감소시킬 수 있는 방안이 필수적으로 요구된다.

본 발명은, 상기한 바와 같은 요구에 부응하기 위하여 제안된 것으로, 결정트리 기반 음소 모델 HMM 음성인식 시스템에서 문맥 종속(CD) 음소 지속시간 정보를 이용하여, 상태 지속시간 정보를 이용할 때 따른 인식률 저하 및 인식시간 증가를 줄이기 위한 음성인식 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.

상기 목적을 달성하기 위한 본 발명은, 결정트리 기반 음소 모델링을 이용한 음성인식 시스템에서의 음성인식 방법에 있어서, 결정트리 기반 음소 모델링 훈련과정을 통해 문맥 종속 음소를 이루고 있는 상태의 지속시간 정보를 확률값으로 구하여 상태 단위로 저장하는 단계; 인식 대상 후보 단어를 읽어서 단어를 구성하는 문맥 종속 음소를 구하는 단계; 결정트리 기반 음소 모델을 바탕으로, 상기 구하여진 문맥 종속 음소에 해당하는 상태를 구하여, 해당 상태의 지속시간 정보로부터 음소 지속시간 정보를 구하는 단계; 및 상기 음소 지속시간 정보를 이용하여 단어/문장을 인식하는 음성인식 단계를 포함하여 이루어진 것을 특징으로 한다.

한편, 본 발명은, 프로세서를 구비한 결정트리 기반 음소 모델 음성인식 시스템에, 결정트리 기반 음소 모델링 훈련과정을 통해 문맥 종속 음소를 이루고 있는 상태의 지속시간 정보를 확률값으로 구하여 상태 단위로 저장하는 기능; 인식 대상 후보 단어를 읽어서 단어를 구성하는 문맥 종속 음소를 구하는 기능; 결정트리 기반 음소 모델을 바탕으로, 상기 구하여진 문맥 종속 음소에 해당하는 상태를 구하여, 해당 상태의 지속시간 정보로부터 음소 지속시간 정보를 구하는 기능; 및 상기 음소 지속시간 정보를 이용하여 단어/문장을 인식하는 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.

본 발명은 결정트리 기반의 문맥 종속(CD) 음소 지속시간 정보를 이용한 음성인식 방법으로서, 훈련과정을 통해 문맥 종속(CD) 음소내의 상태 단위로 지속시간 정보를 저장해 두고, 인식과정에서 상태 단위 지속시간 정보를 이용해서 문맥 종속(CD) 음소의 지속시간 정보로 변환하여 이를 이용해 인식과정을 수행한다.

즉, 본 발명은 결정트리 기반 HMM 음성인식 시스템에서 문맥 종속(CD) 음소 지속시간 정보를 표현하기 위해서 음소의 상태 지속시간 정보(평균, 분산)를 구해서 저장해 두고, 인식과정에서 음소의 상태 지속시간 정보로부터 문맥 종속(CD) 음 소 지속시간 정보를 구하는 초기 과정을 수행한 후 비터비 탐색과정을 진행한다. 이때, 인식시간은 매 음소가 끝나는 시점에서 기존의 로그 유사도(Likelihood) 값에서 초기 과정에서 구한 정보를 이용한 지속시간 로그 유사도(Likelihood) 값을 더한다.

본 발명에 따르면, 훈련과정에서는 상태 지속시간 정보를 구하고 인식과정에서는 문맥 종속(CD) 음소 지속시간 정보로 변경해서 이용함으로써, 상태 지속시간 정보를 이용할 때 따른 인식률 저하 및 인식시간 증가를 줄일 수 있다.

상술한 목적, 특징들 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.

본 발명은 훈련과정(도 2 참조)을 통해 결정트리 기반의 문맥 종속(CD) 음소의 상태 단위 지속시간 정보를 구하고, 인식과정(도 4 참조)에서 상태 단위 지속시간 정보를 문맥 종속(CD) 음소 지속시간 정보로 변환해 이를 이용하여 인식과정을 수행한다.

도 2 는 본 발명에 따른 음성인식 방법 중 훈련 과정에 대한 일실시예 상세 흐름도로서, 훈련과정을 통해 상태 단위 지속시간 정보를 구하는 절차를 나타낸다.

먼저, 결정트리 기반 HMM 파라미터는 "forward-backward" 알고리즘과 "baum-welch" 알고리즘에 의해 구해진다(201,202). 즉, 모든 훈련 데이터(특징 추출된 음성 DB)에 대해 forward-backward 알고리즘을 적용하여 유사도(Likelihood) 값을 구하고(201) baum-welch 알고리즘을 적용하여 HMM 파라미터를 구한다(202).

이후, 구해진 파라미터의 유사도 값과 이전에 구해진 파라미터에 의한 유사도(Likeihood) 값을 비교하여(203), 차이가 작으면 수령된 것으로 가정하고 상태 단위의 지속시간 정보를 구하기 위해 비터비 탐색기를 수행하여 상태 단위로 분할한다(204).

그리고, 이 비터비 탐색기의 결과를 이용해서 음소 단위 HMM 파라미터내의 상태 지속시간 정보를 구한다(205). 이때, 상태 지속시간 정보는 감마 분포(Gamma distribution)를 갖는다고 가정하여, 상태 단위의 평균과 분산 값을 구하여 저장한다.

마지막으로, 결정트리 노드에 HMM 파라미터와 상태 지속시간 정보를 동시에 저장한다(206).

도 3 은 본 발명에 이용되는 결정트리 기반 음소 모델을 나타낸 일실시예 설명도로서, 상태에 관한 HMM 파라미터와 상태 지속시간 정보를 구하는 과정을 나타낸다.

도 3에 도시된 바와 같이, 음소 모델은 B, M, E의 3종류의 상태로 표시되고, 매 상태에서는 질문군에 따라서 문맥 종속(CD) 음소가 표현되도록 한다. 예를 들면, 질문 Q1은 "왼쪽에 모음이 있는가?"라는 질문이 될 수 있으며, 만약 있으면 그때의 HMM 파라미터를 사용하게 된다.

도 3에서는 모든 "ㄱ" 음소의 가능한 상태를 표현하기 위하여 8개의 노드(HMM 파라미터)를 사용한다. 이때, 도 2에서 설명한 알고리즘을 사용하면 8개의 상태에 지속시간 정보(평균, 분산)가 저장된다.

도 3을 보면, 음소 "ㄱ"의 좌우 음소에 따라 8개의 상태값 중 3개의 상태가 정해지게 되므로 문맥 종속(CD) 음소로 사용될 수 있다.

도 4 는 본 발명에 따른 음성인식 방법 중 인식 과정에 대한 일실시예 상세 흐름도로서, 도 3에서 정해진 상태 지속시간 정보를 이용해서 음성인식을 수행하는 절차를 나타낸다.

먼저, 후보 단어를 읽어서 단어를 구성하는 문맥 종속(CD) 음소를 구한다(401).

이후, 결정트리 기반 음소로부터 문맥 종속 음소에 해당하는 상태를 구하여(402), 문맥 종속(CD) 음소(예를 들면, 트라이 폰)를 구성하는 B, M, E 상태에 대한 HMM 파라미터 및 지속시간 정보를 DB로부터 구한다. 그리고, 상태 지속시간 정보를 이용하여 문맥 종속(CD) 음소 지속시간 정보를 하기의 [수학식 1]을 통해 구한다(403).

E[음소 지속시간]

= E[B 상태 지속시간] + E[M 상태 지속시간] + E[E 상태 지속시간]

Var[음소 지속시간]

= Var[B 상태 지속시간] + Var[M 상태 지속시간] + Var[E 상태 지속시간]

상기 [수학식 1]이 성립되기 위해서는 음소 및 B, M, E 상태가 랜덤 배리어블(random variable)하여야 하고, 그때 감마(gamma) 확률 분포를 만족해야 한다. 상기 [수학식 1]에서, E[ ]은 평균을 의미하며, Var[ ]은 분산을 의미한다.

즉, 상태 지속시간 정보로부터 문맥 종속(CD) 음소 지속시간 정보를 쉽게 구하기 위해서, 상태 B, M, E 각각의 지속시간을 독립된 랜덤 프로세서라고 가정하고 문맥 종속(CD) 음소 지속시간을 상태 랜덤 프로세서의 합이라고 가정하여, 상기 [수학식 1]이 성립되도록 랜덤 프로세서의 확률 분포를 감마 함수로 정의한다.

한편, 문맥 종속(CD) 음소 지속시간 정보와 HMM 파라미터를 이용하여 비터비 탐색기를 수행하여(404) 단어, 문장을 인식한다(405). 이때, 비터비 탐색시에 매 음소가 끝나는 프레임에서 음소 지속시간 정보에 의한 로그 유사도 값을 더한다.

본 발명에서 음소는 다이폰 등으로 변경될 수 있다. 그 이유는 음성인식의 기본 단위가 음소, 유사음소, 다이폰 등이 사용될 수 있기 때문이다. 즉, 결정트리 기반 모델링의 경우 음소(기본유니트)단위 지속시간 정보를 만들 때 상태단위 정보를 만들어서 저장하고, 나중에 사용할 때만 음소단위(다이폰도 가능) 지속시간 정보로 변환시켜서 사용 가능하다.

상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 기록매체(씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다.

이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치 환, 변형 및 변경이 가능하다는 것이 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 명백할 것이다.

상기한 바와 같은 본 발명은, 훈련과정에서는 상태 지속시간 정보를 구하고 인식과정에서 문맥 종속 음소 지속시간 정보로 변경해서 이용함으로써 상태 지속시간 정보를 이용할 때 따른 인식률 저하 및 인식시간 증가를 줄일 수 있는 효과가 있다. 특히, 본 발명은 상태 지속시간 정보로부터 음소 지속시간 정보를 쉽게 변환시킬 수 있도록 음소 지속시간을 랜덤 배리어블(random variable)로 정의하고 이때의 확률 분포를 감마(gamma) 분포로 갖는다고 가정하며 또한 상태(B, M, E)는 서로 독립된 랜덤 프로세스라고 가정함으로써, 결정트리 기반 음소 모델을 이용한 인식 시스템에 한국어 음소 지속시간 정보를 효율적으로 사용할 수 있는 효과가 있다.

Claims

결정트리 기반 음소 모델링을 이용한 음성인식 시스템에서의 음성인식 방법에 있어서,

결정트리 기반 음소 모델링 훈련과정을 통해 문맥 종속 음소를 이루고 있는 상태의 지속시간 정보를 확률값으로 구하여 상태 단위로 저장하는 단계;

인식 대상 후보 단어를 읽어서 단어를 구성하는 문맥 종속 음소를 구하는 단계;

결정트리 기반 음소 모델을 바탕으로, 상기 구하여진 문맥 종속 음소에 해당하는 상태를 구하여, 해당 상태의 지속시간 정보로부터 음소 지속시간 정보를 구하는 단계; 및

상기 음소 지속시간 정보를 이용하여 단어/문장을 인식하는 음성인식 단계

를 포함하는 문맥 종속 음소 지속시간 정보를 이용한 음성인식 방법.
제 1 항에 있어서,

상기 문맥 종속 음소는,

다이폰으로 변경 가능하며, 결정트리 기반 모델링일 경우 음소단위 지속시간 정보를 만들 때 상태단위 정보를 만들어서 저장하고, 추후 사용할 때 음소단위 혹은 다이폰 지속시간 정보로 변환시켜 사용하는 것을 특징으로 하는 문맥 종속 음소 지속시간 정보를 이용한 음성인식 방법
제 1 항에 있어서,

상기 결정트리 기반 음소 모델링 훈련과정에서,

상태 지속시간 정보를 구하기 위하여 은닉 마르코프 모델(HMM) 파라미터를 먼저 구하고, 비터비 탐색기를 수행하여 상태 단위로 분할한 후, 상태 지속시간 정보로서 평균값과 분산값을 구하는 것을 특징으로 하는 문맥 종속 음소 지속시간 정보를 이용한 음성인식 방법.
제 1 항에 있어서,

상기 음성인식 단계는,

비터비 탐색을 통해 인식 과정을 수행하되, 비터비 탐색시에 매 음소가 끝나는 프레임에서 음소 지속시간 정보에 의한 로그 유사도 값을 더하는 것을 특징으로 하는 문맥 종속 음소 지속시간 정보를 이용한 음성인식 방법.
제 1 항 내지 제 4 항 중 어느 한 항에 있어서,

상기 상태 지속시간 정보로부터 상기 문맥 종속 음소 지속시간 정보를 쉽게 변환시킬 수 있도록,

음소 지속시간을 랜덤 배리어블(random variable)로 정의하고 이때의 확률 분포를 감마(gamma) 분포로 갖는다고 가정하며, 또한 상태(B, M, E)는 서로 독립된 랜덤 프로세스라고 가정하는 것을 특징으로 하는 문맥 종속 음소 지속시간 정보를 이용한 음성인식 방법.
제 1 항 내지 제 4 항 중 어느 한 항에 있어서,

상기 상태 지속시간 정보로부터 상기 문맥 종속 음소 지속시간 정보를 쉽게 구하기 위해서,

상태(B, M, E) 각각의 지속시간을 서로 독립된 랜덤 프로세서라고 가정하고 상기 문맥 종속 음소 지속시간을 상태 랜덤 프로세서의 합이라고 가정하여 E[음소 지속시간] = E[B 상태 지속시간] + E[M 상태 지속시간] + E(E 상태 지속시간], Var[음소 지속시간] = Var[B 상태 지속시간] + Var[M 상태 지속시간] + Var[E 상태 지속시간]가 성립되도록 랜덤 프로세서의 확률 분포를 감마 함수로 정의하는 것을 특징으로 하는 문맥 종속 음소 지속시간 정보를 이용한 음성인식 방법.
프로세서를 구비한 결정트리 기반 음소 모델 음성인식 시스템에,

결정트리 기반 음소 모델링 훈련과정을 통해 문맥 종속 음소를 이루고 있는 상태의 지속시간 정보를 확률값으로 구하여 상태 단위로 저장하는 기능;

인식 대상 후보 단어를 읽어서 단어를 구성하는 문맥 종속 음소를 구하는 기능;

결정트리 기반 음소 모델을 바탕으로, 상기 구하여진 문맥 종속 음소에 해당하는 상태를 구하여, 해당 상태의 지속시간 정보로부터 음소 지속시간 정보를 구하는 기능; 및

상기 음소 지속시간 정보를 이용하여 단어/문장을 인식하는 기능

을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.