KR100284405B1

KR100284405B1 - 은닉 마르코브 모델 핵심어 검출에 적합한 계산량 감축 방법

Info

Publication number: KR100284405B1
Application number: KR1019970060539A
Authority: KR
Inventors: 이교혁
Original assignee: 김영환; 현대전자산업주식회사
Priority date: 1997-11-17
Filing date: 1997-11-17
Publication date: 2001-03-02
Also published as: KR19990040215A

Abstract

본 발명은 은닉 마르코브 모델을 이용한 핵심어 검출에서 핵심어들간의 변별력을 최대화시켜 핵심어 검출에 적합한 계산량을 감축시키기 위한 것으로, 이러한 본 발명은 현재 트리 깊이에 속하는 모든 노드에 대해 찾은 핵심어 모델의 가우시안 믹스쳐들을 클러스터링하여 2개의 클러스터로 나누는 것을 원하는 트리 깊이가 될 때까지 수행하고, 비핵심어 모델과 묵음 모델의 가우시안 믹스쳐들을 원하는 트리의 리프중 가장 가까운 리프로 할당하여 핵심어 검출의 계산량을 감축시킬 수 있게 되는 것이다.

Description

은닉 마르코브 모델 핵심어 검출에 적합한 계산량 감축 방법

본 발명은 은닉 마르코브 모델(HMM, Hidden Markov Model)을 이용한 핵심어 검출에 관한 것으로, 특히 HMM을 이용한 핵심어 검출에서 핵심어들간의 변별력을 최대화시켜 핵심어 검출에 적합한 계산량을 감축시키는 방법에 관한 것이다.

일반적으로 음성인식이란 사람의 말을 기계가 인식하도록 하는 것을 말한다. 이러한 음성인식 기술이 실생활에 적용되기 위해서는 높은 인식률과 함께 실시간 처리가 필수적인 요건이 된다. 이때 사람의 음성을 인식하기 위해서는 많은 계산량을 필요로하여 많은 계산량 때문에 실시간 처리가 곤란한데, 이를 해결하기 위해 제안된 방법이 HMM이다.

여기서 음성인식을 위한 HMM은 바로 전 상태에 의해서 다음 상태가 결정되는 일차 마르코브(Markov) 과정이 주로 사용된다. 음성의 시간적 제약은 음성을 시간의 함수로 표시할 수 있다는 점이다. 이것은 음성이 시작되고 지속적으로 변화하여 마치게 되는 과정이어서 마르코브 모델을 좌향우 천이(Left to right translation)만 허용하는 모델로 단순화시킨다. HMM이 사용되는 근거는 발성하는 기관의 시간적 상태 또는 생성된 음운의 은닉되고 관측되는 음성을 출력으로 하여 음운이나 상태를 파악하여 음성을 인식하고자 하는 인식 과정이라고 볼 수 있다.

이러한 음성인식 기술에서 핵심어 검출이란 어휘에 제한 없이 자연스럽게 발음한 연속음성으로부터 미리 정해진 핵심어들을 검출해내는 것을 말한다. 즉, 기계가 인식하고자하는 몇가지의 단어를 가지고 있으면, 기계에 저장된 단어(핵심어)를 기초로 사람의 음성을 인식하는 것이다. 예를들어 기계에 '아버지, 어머니, 누나, 오빠'의 단어가 기억되어 있고, 입력되는 음성이 '지금 아버지가 방에 들어가신다'이면, 기계는 기억되어 있는 단어들의 정보를 이용하여 입력음성내에 '아버지'라는 단어라는 핵심어가 포함되어 있음을 판단한다.

그래서 HMM을 이용한 음성인식은, 예를들어 '아버지'의 표현에서 각각 '아', '버', '지'의 신호에서 '특징 파라메터'를 추출하여 표현한다. 즉, 파라메터가 2차원 파라메터라면 2차원상의 점으로 '아버지'를 표현하여 확률분포인 가우시안(Gaussian) 분포로 모델링을 하게 된다(실제로는 20차 내지 28차원의 파라메터). 그리고 확률분포상에 표시된 확률값을 계산하여 '아', '버', '지'를 계산하게 된다.

종래의 HMM을 이용한 음성인식의 계산량을 감소시키는 방법들의 기본적인 개념은 현재 입력관찰 벡터의 위치와 가까운 곳에 위치하는 가우시안 믹스쳐(Gaussian Mixture)들에 대해서만 가우시안 계산을 하는 것이다. 여기서 가우시안 믹스쳐란 음성신호를 분석하는 과정에서 차원상에 찍히는 점을 이용한 가우시안 함수의 상태를 의미한다. 그래서 현재 입력관찰 벡터와 멀리 떨어진 믹스쳐들, 즉 관찰확률에 거의 영향을 미치지 못하는 믹스쳐들에 대한 가우시안 계산을 하지 않음으로써 계산량을 줄이는 것이다.

이러한 종래의 방법에서 입력관찰 벡터와 가까운 곳에 위치하는 가우시안 믹스쳐들을 결정하기 위해서는 모든 훈련과정에서 만들어진 가우시안 믹스쳐들을 클럭스터링(Clustering)하는 방법을 이용한다. 즉, 훈련과정을 거쳐 만들어진 모든 가우시안 믹스쳐들 중 서로 가까이 위치하는 가우시안 믹스쳐들을 하나의 클럭스터(Cluster)로 묶어 이러한 클러스터를 리프(Leaf)로 하는 트리(Tree)를 구성한다. 그리고 인식시 트리 서치(Search)에 의해 현재 입력관찰 벡터와 가장 가까이 위치하는 클러스터를 찾는다. 그리고 찾아진 클러스터에 속한 가우시안 믹스쳐들에 대해서만 가우시안 계산을 수행하고 나머지 가우시안 믹스쳐들에 대해서는 미리 정해진 한계값(Threshold)으로 대체함으로써 계산량을 감축시키게 된다.

이러한 종래의 방법은 단어를 몇 개까지 인식하고자 하는가에 따라 가우시안 개수가 달라진다. 수백 내지 수천개의 가우시안에 대해 일정 범위 이내에서 모두 확률계산을 하여야 한다. 즉, 훈련과정에서 여러 가우시안들을 서로 가까운 것들끼리 몇 개로 묶은 클러스터로 대표 가우시안을 만들고, 만들어진 클러스터와 입력되는 음성데이터를 비교하게 된다. 예를들어 '저 여보세요 총무부 부탁합니다'라는 음성이 입력되면, 핵심어로 설정한 '총무부'를 인식하기 위해서 '총무부' 단어의 경계를 끊어야 하고, 이를 위해 비핵심어 모델인 전체 단어 모델과 음성 사이의 끊긴 부분인 묵음모델을 가지고 있어야 한다. 그래서 '총무부'와 '기획부'라는 핵심어가 있으면 이 둘을 구별할 수 있는 변별력이 커야 한다.

그러나 종래의 음성인식에서의 계산량 감축 방법은 모든 가우시안인 핵심어와 비핵심어와 묵음 모델에 대해 확률계산을 하여 실행속도가 늦어지고, 핵심어들 간의 변별력을 최대화시키지 못하는 문제점이 있었다.

이에 본 발명은 상기와 같은 종래의 제반 문제점을 해소하기 위해 제안된 것으로, 본 발명의 목적은 HMM을 이용한 핵심어 검출에서 훈련과정에서 만들어진 가우시안 믹스쳐들을 클러스터링할 때 핵심어 모델에 사용되는 가우시안 믹스쳐들 만으로 클럭스터링을 수행하고, 핵심어를 제외한 나머지 모델인 비핵심어 모델과 묵음 모델에 사용되는 가우시안 믹스쳐들을 핵심어 모델만으로 만들어진 트리의 리프 중 가장 가까운 리프로 할당하여 핵심어들간의 변별력을 최대화시킴으로써 핵심어 검출에 적합한 계산량을 감축시킬 수 있는 은닉 마르코브 모델 핵심어 검출에 적합한 계산량 감축 방법에 관한 것이다.

상기와 같은 목적을 달성하기 위하여 본 발명에 의한 은닉 마르코브 모델 핵심어 검출에 적합한 계산량 감축 방법은,

현재 노드에 속하는 모든 핵심어 모델의 가우시안 믹스쳐를 찾는 단계와; 현재 트리 깊이에 속하는 모든 노드에 대해 상기 찾은 가우시안 믹스쳐들을 클러스터링하여 2개의 클러스터로 나누는 것을 원하는 트리 깊이가 될 때까지 수행하는 단계와; 상기 원하는 트리 깊이까지 수행하면 비핵심어 모델과 묵음 모델의 가우시안 믹스쳐들을 상기 원하는 트리의 리프중 가장 가까운 리프로 각각 할당하는 단계로 이루어짐을 그 기술적 구성상의 특징으로 한다.

도 1은 본 발명이 적용되는 은닉 마르코브 모델 핵심어 검출 시스템의 블록구성도,

도 2는 본 발명에 의한 은닉 마르코브 모델 핵심어 검출에 적합한 계산량 감축 방법을 보인 흐름도,

도 3은 도2에서 가우시안 믹스쳐 선택을 위한 트리의 일실시예도.

〈도면의 주요 부분에 대한 부호의 설명〉

10: 음성특징 파라메터 추출부 20: 모델 저장부

30: 핵심어 검출부

이하, 상기와 같이 구성된 본 발명 은닉 마르코브 모델 핵심어 검출에 적합한 계산량 감축 방법의 기술적 사상에 따른 일실시예를 상세히 설명하면 다음과 같다.

도1은 본 발명이 적용되는 은닉 마르코브 모델 핵심어 검출 시스템의 블록구성도이다.

이에 도시된 바와 같이, 입력되는 음성에서 음성특징 파라메터를 추출하는 음성특징파라메터 추출부(10)와; 훈련과정을 통해 형성된 핵심어 모델과 비핵심어 모델과 묵음 모델을 저장하는 모델 저장부(20)와; 상기 음성특징파라메터 추출부(10)에서 추출된 특징파라메터를 HMM 방식에 의해 훈련에 의해 만들어진 상기 모델 저장부(20)의 핵심어 모델, 비핵심어 모델 및 묵음 모델과 비교하여 핵심어를 검출해내는 핵심어 검출부(30)로 구성된다.

도2는 본 발명에 의한 은닉 마르코브 모델 핵심어 검출에 적합한 계산량 감축 방법을 보인 흐름도이다.

이에 도시된 바와 같이, 현재 노드에 속하는 모든 핵심어 모델의 가우시안 믹스쳐를 찾는 단계(ST1)(ST2)와; 현재 트리 깊이에 속하는 모든 노드에 대해 상기 찾은 가우시안 믹스쳐들을 클러스터링하여 2개의 클러스터로 나누는 것을 원하는 트리 깊이가 될 때까지 수행하는 단계(ST3 - ST7)와; 상기 원하는 트리 깊이까지 수행하면 비핵심어 모델과 묵음 모델의 가우시안 믹스쳐들을 상기 원하는 트리의 리프중 가장 가까운 리프로 각각 할당하는 단계(ST8)로 구성된다.

이와 같이 구성된 본 발명에 의한 은닉 마르코브 모델 핵심어 검출에 적합한 계산량 감축 방법의 동작을 첨부한 도면에 의거 상세히 설명하면 다음과 같다.

먼저 입력되는 음성에서 음성특징 파라메터를 추출한다. 그러면 핵심어 검출부(30)는 음성특징파라메터 추출부(10)에서 추출된 특징파라메터를 HMM 방식에 의해 훈련에 의해 만들어진 모델 저장부(20)의 핵심어 모델, 비핵심어 모델 및 묵음 모델과 비교하여 핵심어를 검출해낸다. 여기서 HMM에 의한 핵심어를 검출할 때는 전체 모델의 가우시안 믹스쳐를 모두 계산하는 것이 아니라, 현재 특징파라메터에 가장 근접한 클러스터내의 가우시안 믹스쳐들에 대해서만 가우시안 계산을 하게 된다.

이를 위해서는 훈련과정에서 가우시안 믹스쳐를 구성요소로 하는 트리를 구성해야 한다. 그래서 현재 노드에 속하는 모든 핵심어 모델의 가우시안 믹스쳐를 찾고(ST1)(ST2), 현재 트리 깊이에 속하는 모든 노드에 대해 찾은 가우시안 믹스쳐들을 클러스터링하여 2개의 클러스터로 나누는 것을 원하는 트리 깊이가 될 때까지 수행한다(ST3 - ST7). 그리고 비핵심어 모델과 묵음 모델의 가우시안 믹스쳐들을 원하는 트리의 리프중 가장 가까운 리프로 각각 할당하게 된다. 즉, 비핵심어 모델과 묵음 모델의 가우시안이 어느 리프에 가까운가를 파악하여 가장 가까운 클러스터를 찾아 인위적으로 할당하게 된다(ST8).

도3은 2차원 특징파라메터의 경우 본 발명에 의해 형성된 가우시안 믹스쳐 선택을 위한 트리의 일실시예도이다.

이와 같이 핵심어 모델에 사용되는 가우시안 믹스쳐들에 중점을 두어 트리를 구성함으로써 핵심어들 간의 변별력을 최대화시키는 데, 인식시 도3과 같이 만들어진 트리를 이용하여 현재 특징파라메터와 가장 가까운 리프를 찾는다. 이렇게 찾아진 리프에 속한 가우시안 믹스쳐에 대해서만 가우시안 계산을 나머지 가우시안 믹스쳐에 대해서는 미리 정해진 한계값으로 대체함으로서 계산량 감축이 이루어진다.

이와같이 수행하여 본 발명에 의한 방법은 핵심어들간의 변별력을 최대화시키고 핵심어 검출에 적합한 계산량을 감축시킬 수 있게 되는 것이다.

이상에서 살펴본 바와 같이, 본 발명에 의한 은닉 마르코브 모델 핵심어 검출에 적합한 계산량 감축 방법은 훈련과정에서 만들어진 가우시안 믹스쳐들을 클러스터링할 때 핵심어 모델에 사용되는 가우시안 믹스쳐들 만으로 클럭스터링을 수행하고, 비핵심어 모델과 묵음 모델에 사용되는 가우시안 믹스쳐들을 트리의 리프 중 가장 가까운 리프로 할당하여 핵심어들간의 변별력을 최대화시킬 수 있고, 핵심어 검출에 적합한 계산량을 감축시킬 수 있는 효과가 있게 된다.

Claims

은닉 마르코브 모델을 이용한 음성인식에 있어서,

현재 노드에 속하는 모든 핵심어 모델의 가우시안 믹스쳐를 찾는 단계와;

현재 트리 깊이에 속하는 모든 노드에 대해 상기 찾은 가우시안 믹스쳐들을 클러스터링하여 2개의 클러스터로 나누는 것을 원하는 트리 깊이가 될 때까지 수행하는 단계와;

상기 원하는 트리 깊이까지 수행하면 비핵심어 모델과 묵음 모델의 가우시안 믹스쳐들을 상기 원하는 트리의 리프중 가장 가까운 리프로 각각 할당하는 단계로 구성된 것을 특징으로 하는 은닉 마르코브 모델 핵심어 검출에 적합한 계산량 감축 방법.