KR100775186B1

KR100775186B1 - 학습된 모델을 이용한 상태 클러스터링 방법

Info

Publication number: KR100775186B1
Application number: KR1020010033447A
Authority: KR
Inventors: 신원호
Original assignee: 엘지전자 주식회사
Priority date: 2001-06-14
Filing date: 2001-06-14
Publication date: 2007-11-12
Also published as: KR20020095503A

Abstract

학습된 모델을 이용한 상태 클러스터링 방법에 관하여 게시된다. 본 발명에 따른 학습된 모델을 이용한 상태 클러스터링 방법은 (a) 입력되는 임의의 단어를 다수 개의 트라이폰으로 분류하는 단계; (b) 상기 분류된 트라이폰을 학습된 트라이폰으로 대체하고, 개별 관측값 및 다중 믹스춰(mixture)를 이용하여 확률밀도함수를 구하는 단계; (c) 상기 확률밀도함수를 기초로한 음향학적 질문을 적용하여 최적 질문을 선택하고, 최적 질문을 선택하는 과정에서 상기 학습된 트라이폰의 발생 빈도별 가중치를 부여하는 단계; (d) 상기 선택된 최적의 질문에 따라 클러스터를 분할하여 임계값 이상이 될때까지 분할 과정을 반복하는 단계을 포함한다.

따라서, 학습된 모델을 이용하여 상태 클러스터링을 수행함으로써 많은 데이터에 의해 계산량을 줄일 수 있어 효과적이다.

또한, 개별적인 관측과 다중 믹스춰를 사용하여 클러스터에 속한 모델의 관측 확률 분포를 보다 세밀하게 나타냄으로써 정확한 확률을 구할 수 있는 효과가 있다.

트라이폰, HMM, mixture

Description

학습된 모델을 이용한 상태 클러스터링 방법{METHOD FOR THE STATE 0CLUSTRING USE OF TRAIDED MODEL}

도 1은 종래의 임의의 단어인식을 위한 학습과정을 나타내는 음성인식 시스템을 나타내는 도면이다.

도 2는 본 발명의 바람직한 일실시예에 따른 하나의 클러스터 내의 관측값을 모델링한 것을 나타내는 도면이다.

도 3은 본 발명의 바람직한 일실시예에 따른 상태 클러스터링을 나타내는 순서도이다.

<도면에 나타나는 도면부호에 대한 설명>

101, 103 ; Baum-Welch 102 ; 탑 다운 클러스터링

본 발명은 학습된 모델을 이용한 상태 클러스터링 방법에 관한 것으로서, 더욱 상세하게는 다중 믹스춰(mixture) 및 개개의 클러스터 내의 평균 및 분산을 이용하는 상태 클러스터링을 이용하여 음향 모델링하는 학습된 모델을 이용한 상태 클러스터링 방법에 관한 것이다.

일반적으로, HMM(Hidden Markov Model)을 이용한 음성 인식 시스템에서 음향 모델은 인식 성능을 좌우하는 중요한 요소이다. 상기 음향 모델은 학습 데이터 부족의 보완, 모델 크기의 축소 등에 따른 속도 개선 등을 위하여 모델이나 상태를 공유하는 것이 바람직하며, 최근에는 상태 클러스터링 방식이 많이 이용되고 있다. 상기 상태 클러스터링을 이용한 학습 모델을 추출하기 위해서는 음향학적 질문(phonetic question)을 이용한 탑-다운(top-down)방식의 결정 트리 방법 또는 모델간의 유사도를 이용하여 클러스터링을 수행하는 바텀-업(bottom-up) 방식의 클러스터링 방식이 일반적으로 자주 사용되고 있다.

이러한 경우, 전자는 미학습(unseen) 트라이폰에 대해서도 음향학적 질문을 적용하여 처리할 수 있는 잇점이 있어 보다 자주 이용되고 있으므로, 상기 탑-다운 방식의 결정 트리 방법을 구현하는 음성인식 시스템에 대하여 상세히 설명하기로 한다.

도 1은 종래의 임의의 단어인식을 위한 훈련과정을 나타내는 음성인식 시스템을 나타내는 도면이다.

도 1에 도시된 바와 같이, 음성 인식 시스템은 음성 데이터와 텍스트(text)데이터를 이용하여 Baum-Welch 알고리즘(101)에 의해 HMM 파라미터를 훈련시키고, 탑-다운 클러스터링부(102)는 훈련된 모델들을 디시젼-트리 방법에 의하여 클러스터링하고, Baum-Welch 알고리즘(103)은 클러스터링부(102)에서 구해진 디시젼 트리의 맵핑(mapping) 관계를 이용하여 HMM 파라미터를 재훈련시켜 최종적인 HMM 모델들을 추출한다.

상기와 같은 음성인식 시스템을 이용한 결정 트리 방법은 개개의 클러스터 내의 학습 데이터에 대해 음향학적 질문에 의해 나누어진 데이터의 우도값(likilihood)의 증가분이 큰 질문을 선택하고 이를 이용하여 클러스터를 분할하는 과정을 반복한다. 이러한 경우, 학습 데이터를 이용하여 개개의 클러스터에 할당된 데이터들의 평균 및 분산 값을 구하는 과정을 반복해야 하므로 많은 양의 학습 데이터를 처리할 때 계산량의 부담 및 불편함을 가지고 있다.

또한, 일반적으로 단일 mixture를 기반으로 하므로 다중 mixture를 사용하는 시스템에 비해 정확도가 떨어지는 문제점이 있다.

본 발명은 상기한 종래 기술의 문제점을 효과적으로 해결하기 위해, 학습된 모델을 관측 데이터의 평균 특징으로 대체하여 효율적으로 상태 클러스터링 결과를 생성하는 학습된 모델을 이용한 상태 클러스터링 방법을 제공함에 그 목적이 있다.

상기한 기술적 과제를 달성하기 위한 본 발명은 (a) 입력되는 임의의 단어를 다수 개의 트라이폰으로 분류하는 단계;

(b) 상기 분류된 트라이폰을 학습된 트라이폰으로 대체하고, 개별 관측값 및 다중 믹스춰를 이용하여 확률밀도함수를 구하는 단계;

(c) 상기 확률밀도함수를 기초로한 음향학적 질문을 적용하여 최적 질문을 선택하고, 최적 질문을 선택하는 과정에서 상기 학습된 트라이폰의 발생 빈도별 가중치를 부여하는 단계;

(d) 상기 선택된 최적의 질문에 따라 클러스터를 분할하여 임계값 이상이 될 때까지 분할 과정을 반복하는 단계를 포함한다.

이하, 첨부된 도 2 내지 도 3을 참조하여 본 발명의 바람직한 일실시예에 따른 학습된 모델을 이용한 상태 클러스터링 방법을 설명하고자 한다.

도 2는 본 발명의 바람직한 일실시예에 따른 하나의 클러스터 내의 관측값을 모델링한 것을 나타내는 도면이고, 도 3은 본 발명의 바람직한 일실시예에 따른 상태 클러스터링을 나타내는 순서도이다.

우선, 학습 데이터로 HMM을 학습시킨 다음 음향학적 모델(aucoustic model), 렉시컨(lexicon), 언어 모델(language model)들을 구축한다. 이러한 경우, 새로운 단어가 입력되면 상기 학습된 모델들이 수정되어 각각 새로운 음향학적 모델들과 렉시컨, 언어모델이 된다.

부연하면, 상기 음향학적 모델은 음성인식의 기본 단위인 트라이폰 모델이고, 렉시컨은 단어의 음소구성정보를 저장하는 일종의 단어사전이며, 언어모델은 연속음성인식에 필요하다.

도 2에 도시된 바와 같이, 새로운 단어가 입력되면(s301), 입력된 단어를 n개의 트라이폰으로 분해하여, 학습된 트라이폰인가를 확인하는 단계를 수행한다 (s302).

상기 단계(s302)에서, n개로 분해된 트라이폰이 학습된 트라이폰으로 존재하는 경우, 학습된 트라이폰으로 대체하여 음향학적 질문을 적용한다(s303). 반면에, n개로 분해된 트라이폰이 학습된 트라이폰 중에서 존재하지 않는 경우, 학습된 트라이폰 중에서 가장 근접된 트라이폰을 선택한 다음(s304), 음향학적 질문을 적용 하는 단계 (s303)를 수행한다.

상기와 같이, 새로운 단어가 입력되면 n개의 트라이폰으로 분해한 다음, 저장되어 있는 학습된 트라이폰 중에서 가장 근접한 학습된 트라이폰으로부터 근사치의 관측값을 추출한다.

한편, 음향학적 질문이 적용된 다음, 질문 셋(set) 내에 있는 질문들 중에서 최적의 질문을 선택하는 단계를 수행한다(s305). 이러한 경우, 상기 단계(s305)에서 음향학적 질문으로 나누어진 데이터의 우도값(likelihood)의 증가분이 가장 큰 질문을 선택한다.

따라서, 종래의 방법으로 하나의 클러스터 내에 속한 관측값의 확률밀도함수를 구하는 식은 다음과 같다.

상기 확률 밀도 함수는 학습되는 F프레임들 중에서 상태 S에 속한 관측 값들을 공통 평균 μ(S)과 공통 분산 Σ(S)를 이용하여 나타낸 것이다.

상기에서,

는 관측 값에 대한 사후확률을 나타낸다. 즉, 종래의 방법에서는 클러스터의 평균적인 분포만을 이용하고 있지만, 본 발명에서는 개별 관측 값과 다중 mixture를 이용한다. 따라서, 클러스터에 대한 보다 정확한 분포를 표현하며 이를 클러스터 분할에 이용할 수 있다.

한편, 상기와 같이 개별 관측값과 다중 mixture를 이용하는 경우, 하나의 클 러스터 내의 트라이폰들에 대하여 개별적인 관측 값의 확률 밀도 함수를 구하여 이들의 합으로 나타낸다.

여기에서, oc는 클러스터에 속한 관측값에 대한 변수이며, mc는 모델에 대한 변수를 나타낸다. 물론, 관측값은 트라이폰으로부터 생성되는 값이므로 oc와 mc의 같은 범위 내에서 사용되는 변수이다.

한편, 상기 최적의 질문이 선택되었는지를 판별하는 단계(s305)에서 학습된트라이폰의 통계적 특성을 명확히 하기 위해 각각의 트라이폰 별로 발생빈도를 학습 과정 중에서 구하여 가중치로 사용한다(s307).

이러한 경우, 상기 수학식 2에서의 ocr(oc)는 학습과정에 트라이폰로 추정되었던 데이터의 수를 나타내는데, 이것은 이에 대한 가중치를 나타내게 된다.

이때, 관측 값의 경우 mixture의 가중치를 곱하여 평균적인 관측 값을 이용하거나 아니면 믹스춰 별로 개별적인 관측 값을 그대로 이용할 수 있는데, 먼저 평균적인 값을 이용할 경우 다음의 수학식 3과 같이 나타낼 수 있다.

반면에, mixture 별로 개별적인 관측 값을 이용하는 경우에는 다음의 수학식 4와 같이 나타낸다.

그런 다음, 상기 수학식 2 내지 수학식 4를 기초로하여 클러스터를 분할하는 과정을 수행한다(s306). 이러한 경우, 상기 분할된 클러스터가 임계값보다 더 큰 지를 확인하는 단계를 수행한다(s308).

상기 단계(s308)에서, 분할된 클러스터가 임계값 이상이 되는 경우, 더이상의 클러스터링이 일어나지 않는다.

반면에, 상기 단계(s308)에서, 분할된 클러스터가 임계값보다 작은 경우, 단계(s301)에서부터 재수행하여 적당히 분할된 클러스터를 추출한다.

본 발명은 도면에 도시된 일실시예를 참고로 설명되었으나, 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

전술한 바와 같이, 본 발명에 따른 학습 모델을 이용한 상태 클러스터링 방법에 따르면 학습된 모델을 이용하여 상태 클러스터링을 수행함으로써 많은 데이터 에 의해 계산량을 줄일 수 있어 효과적이다.

Claims

(a) 입력되는 임의의 단어를 다수 개의 트라이폰으로 분류하는 단계;

(b) 상기 분류된 트라이폰을 학습된 트라이폰으로 대체하고, 개별 관측값 및 다중 믹스춰(mixture)를 이용하여 확률밀도함수를 구하는 단계;

(c) 상기 확률밀도함수를 기초로한 음향학적 질문을 적용하여 최적 질문을 선택하고, 최적 질문을 선택하는 과정에서 상기 학습된 트라이폰의 발생 빈도별 가중치를 부여하는 단계;

(d) 상기 선택된 최적의 질문에 따라 클러스터를 분할하여 임계값 이상이 될때까지 분할 과정을 반복하는 단계를 포함하는 것을 특징으로 하는 학습된 모델을 이용한 상태 클러스터링 방법.
제 1 항에 있어서, 상기 단계 (a)는

상기 분류된 트라이폰이 학습되지 않은 트라이폰으로 확인되는 경우, 학습된 트라이폰 중에서 가장 근접된 트라이폰으로 선택되는 단계를 더 포함하는 것을 특징으로 하는 학습된 모델을 이용한 상태 클러스터링 방법.
삭제
제 1 항에 있어서,

상기 확률밀도함수는

를 이용하여 구하며, OC는 클러스터에 속한 관측값에 대한 변수, mc는 모델에 대한 변수인 것을 특징으로 하는 학습된 모델을 이용한 상태 클러스터링 방법.
제 4 항에 있어서,

상기 mixture의 가중치를 곱하여 평균적인 관측값을 구하는 식은

을 이용하며, OC는 클러스터에 속한 관측값에 대한 변수, mc는 모델에 대한 변수인 것을 특징으로 하는 학습된 모델을 이용한 상태 클러스터링 방법.
제 4 항에 있어서,

상기 믹스춰(mixture)의 개별적인 관측값을 이용하여 구하는 식은

을 이용하며, OC는 클러스터에 속한 관측값에 대한 변수, mc는 모델에 대한 변수인 것을 특징으로 하는 학습된 모델을 이용한 상태 클러스터링 방법.