KR20010060005A

KR20010060005A - 가우시안 확률밀도 표현 방법 및 그를 얻기 위한 음성인식 훈련 방법

Info

Publication number: KR20010060005A
Application number: KR1019990068001A
Authority: KR
Inventors: 박용규
Original assignee: 이계철; 한국전기통신공사
Priority date: 1999-12-31
Filing date: 1999-12-31
Publication date: 2001-07-06
Also published as: KR100633228B1

Abstract

1. 청구범위에 기재된 발명이 속한 기술분야

본 발명은 가우시안 확률밀도 표현 방법 및 그를 얻기 위한 음성 인식 훈련 방법과 상기 방법들을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것임.

2. 발명이 해결하려고 하는 기술적 과제

본 발명은, 확률밀도 공간을 여러 개의 PGAM 공간으로 나눈 다음 이 공간을 GAM으로 표현한 후 가장 큰 값을 갖는 GAM을 대표 확률밀도로 나타내는 가우시안 확률밀도 표현 방법 및 그를 얻기 위한 음성 인식 훈련 방법과 상기 방법들을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하고자 함.

3. 발명의 해결방법의 요지

본 발명은, 믹스츄어 그룹 수가 초기화된 음성 인식모델을 입력받아 인식 훈련을 통해 훈련된 음성 인식모델을 얻는 제 1 단계; 훈련된 상기 음성 인식모델에 대해 음성 인식 테스트를 수행하여 오인식 단어에 대해 인식 훈련을 수행하여 새로운 음성 인식모델을 획득하고 상기 제 1 단계에서 얻은 음성 인식모델과 결합하여 상기 믹스츄어 그룹 수가 증가된 음성 인식모델을 얻는 제 2 단계; 상기 제 2 단계에서 얻은 음성 인식모델에 대해 인식 훈련을 수행하고 믹스츄어 그룹 개수가 원하는 수에 도달하였는지를 확인하는 제 3 단계; 상기 제 3 단계의 확인 결과, 믹스츄어 그룹 개수가 원하는 수에 도달하지 않았으면 상기 제 2 단계부터 반복 수행하는제 4 단계; 및 상기 제 3 단계의 확인 결과, 믹스츄어 그룹 개수가 원하는 수에 도달하였으면 음성 인식 훈련을 마치는 제 5 단계를 포함함.

4. 발명의 중요한 용도

본 발명은 음성 인식 시스템 등에 이용됨.

Description

가우시안 확률밀도 표현 방법 및 그를 얻기 위한 음성 인식 훈련 방법{METHOD FOR PRESENTING GAUSSIAN PROBABILITY DENSITY AND METHOD OF SPEECH RECOGNITION TRAINING FOR OBTAINING THE SAME}

본 발명은 가우시안 확률밀도 표현 방법 및 그를 얻기 위한 음성 인식 훈련 방법과 상기 방법들을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것으로, 특히 가우시안 오토리그레시브 믹스츄어(GAM : Gaussian Autoregressive mixture)와 파티숀드 가우시안 오토리그레시브 믹스츄어(PGAM : Partitioned Gaussian Autoregressive mixture)를 합쳐서 가우시안 확률밀도를 표현하는 방법 및 그를 얻기 위한 음성 인식 훈련 방법과 상기 방법들을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.

도 1 은 일반적인 컴퓨터의 구성예시도이다.

일반적으로 컴퓨터는 입력장치(1), 중앙처리장치(2), 주기억장치(3), 보조기억장치(4) 및 표시장치(5)를 구비한다. 이러한 컴퓨터에서 확률밀도를 표현하는 방법과 이를 이용하여 음성 인식 훈련을 수행하는 방법이 구현된다.

도 2 는 종래의 확률밀도를 표현하기 위한 확률모델의 일예시도이다.

기존에 널리 사용되는 확률모델을 나타낸다. 즉, 2개의 가우시안(Gaussian) 믹스츄어(mixture) 확률분포(PDF)가 중첩되어 1개의 확률분포(PDF)가 되어진 모양(점선)이다.

확률밀도가 다른 2개의 가우시안(Gaussian) 분포가 합쳐질 경우 믹스츄어(mixture) 모델은 각각의 가우시안(Gaussian) 분포에 가중치(weighting)을주어 단순히 합하여 새로운 확률분포(PDF)를 만들어 낸다. 이를 가우시안 오토리그레시브 믹스츄어(GAM : Gaussian Autoregressive mixture) 모델이라 부르며(점선), 2개의 가우시안(Gaussian) 분포중 가장 큰 확률분포만 고려하고 나머지 확률분포를 무시하는 것을 파티숀드 가우시안 오토리그레시브 믹스츄어(PGAM : Partitioned Gaussian Autoregressive mixture) 모델이라 부른다.

가우시안(Gaussian) 밀도(density)의 합으로 확률밀도를 표현하는 경우에 기존 방법은 GAM와 PGAM으로 불린 두 가지 방법이 사용되었다. GAM은 확률 밀도를 가우시안(Gaussian) 밀도(density)의 가중된 합(weighted sum)으로 표현한다. 또한 PGAM은 확률 공간을 가우시안(Gaussian)으로 표현한 후 가장 큰 값을 확률밀도로 나타내고 나머지 확률밀도 값은 무시하는 방식이다.

그런데, 상기한 확률밀도 표현 방식을 이용하여 음성 인식에 적용할 경우에 음성 인식율이 만족할 만큼 높지 못한 문제점이 있었다. 따라서, 음성 인식율 향상을 위한 보다 나은 확률밀도 표현 방식이 요구되고 있다.

본 발명은, 상기한 바와 같은 문제점을 해결하기 위하여 안출된 것으로, 확률밀도 공간을 여러 개의 PGAM 공간으로 나눈 다음 이 공간을 GAM으로 표현한 후 가장 큰 값을 갖는 GAM을 대표 확률밀도로 나타내는 가우시안 확률밀도 표현 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.

또한, 본 발명은, 기존 훈련 방식에 오인식된 데이터를 결합하여 초기화하여 상기 가우시안 확률밀도 표현을 얻기 위한 음성 인식 훈련 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 다른 목적이 있다.

도 1 은 일반적인 컴퓨터의 구성예시도.

도 2 는 종래의 확률밀도를 표현하기 위한 확률모델의 일예시도.

도 3 은 본 발명에 따른 확률밀도 모델의 일실시예 설명도.

도 4 는 본 발명에 따른 가우시안 확률밀도 표현 방법에 대한 일실시예 흐름도.

도 5 는 본 발명에 따른 HPGAM을 얻기 위한 음성 인식 훈련 방법에 대한 일실시예 흐름도.

*도면의 주요 부분에 대한 부호의 설명

1 : 입력장치 2 : 중앙처리장치

3 : 주기억장치 4 : 보조기억장치

5 : 표시장치

상기 목적을 달성하기 위한 본 발명은, 음성 인식 시스템에 적용되는 가우시안 확률밀도 표현 방법에 있어서, 확률밀도 공간을 여러 개의 파티숀드 가우시안 오토리그레시브 믹스츄어(PGAM : Partitioned Gaussian Autoregressive Mixture) 공간으로 나누는 제 1 단계; 나뉘어진 상기 파티숀드 가우시안 오토리그레시브 믹스츄어 공간을 가우시안 오토리그레시브 믹스츄어(GAM : Gaussian Autoregressive Mixture)로 표현하는 제 2 단계; 및 가장 큰 값을 갖는 GAM을 대표 확률밀도인 하이브리드 파티숀드 가우시안 오토리그레시브 믹스츄어(HPGAM : Hybrid Partitioned Gaussian Autoregressive Mixture)로 나타내어 가우시안 확률밀도를 표현하는 제 3 단계를 포함하는 것을 특징으로 한다.

또한, 본 발명은, 프로세서를 구비한 음성 인식 시스템에 있어서, 확률밀도 공간을 여러 개의 파티숀드 가우시안 오토리그레시브 믹스츄어(PGAM : Partitioned Gaussian Autoregressive Mixture) 공간으로 나누는 제 1 기능; 나뉘어진 상기 공간을 가우시안 오토리그레시브 믹스츄어(GAM : Gaussian Autoregressive Mixture)로 표현하는 제 2 기능; 및 가장 큰 값을 갖는 GAM을 대표 확률밀도인 하이브리드파티숀드 가우시안 오토리그레시브 믹스츄어(HPGAM : Hybrid Partitioned Gaussian Autoregressive Mixture)로 나타내어 가우시안 확률밀도를 표현하는 제 3 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.

상기 다른 목적을 달성하기 위한 본 발명은, 음성 인식 시스템에 적용되는 하이브리드 파티숀드 가우시안 오토리그레시브 믹스츄어을 얻기 위한 음성 인식 훈련 방법에 있어서, 믹스츄어 그룹 수가 초기화된 음성 인식모델을 입력받아 인식 훈련을 통해 훈련된 음성 인식모델을 얻는 제 1 단계; 훈련된 상기 음성 인식모델에 대해 음성 인식 테스트를 수행하여 오인식 단어에 대해 인식 훈련을 수행하여 새로운 음성 인식모델을 획득하고 상기 제 1 단계에서 얻은 음성 인식모델과 결합하여 상기 믹스츄어 그룹 수가 증가된 음성 인식모델을 얻는 제 2 단계; 상기 제 2 단계에서 얻은 음성 인식모델에 대해 인식 훈련을 수행하고 믹스츄어 그룹 개수가 원하는 수에 도달하였는지를 확인하는 제 3 단계; 상기 제 3 단계의 확인 결과, 믹스츄어 그룹 개수가 원하는 수에 도달하지 않았으면 상기 제 2 단계부터 반복 수행하는 제 4 단계; 및 상기 제 3 단계의 확인 결과, 믹스츄어 그룹 개수가 원하는 수에 도달하였으면 음성 인식 훈련을 마치는 제 5 단계를 포함하는 것을 특징으로 한다.

또한, 본 발명은, 프로세서를 구비한 음성 인식 시스템에, 믹스츄어 그룹 수가 초기화된 음성 인식모델을 입력받아 인식 훈련을 통해 훈련된 음성 인식모델을 얻는 제 1 기능; 훈련된 상기 음성 인식모델에 대해 음성 인식 테스트를 수행하여 오인식 단어에 대해 인식 훈련을 수행하여 새로운 음성 인식모델을 획득하고 상기제 1 기능에서 얻은 음성 인식모델과 결합하여 상기 믹스츄어 그룹 수가 증가된 음성 인식모델을 얻는 제 2 기능; 상기 제 2 기능에서 얻은 음성 인식모델에 대해 인식 훈련을 수행하고 믹스츄어 그룹 개수가 원하는 수에 도달하였는지를 확인하는 제 3 기능; 상기 제 3 기능의 확인 결과, 믹스츄어 그룹 개수가 원하는 수에 도달하지 않았으면 상기 제 2 기능부터 반복 수행하는 제 4 기능; 및 상기 제 3 기능의 확인 결과, 믹스츄어 그룹 개수가 원하는 수에 도달하였으면 음성 인식 훈련을 마치는 제 5 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.

상술한 목적, 특징들 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.

도 3 은 본 발명에 따른 확률밀도 모델의 일실시예 설명도이다.

도 3 은 2개의 확률밀도(PDF) 모델을 나타내고 있다. 12 믹스츄어(mixture)를 가진 기존의 가우시안 오토리그레시브 믹스츄어(GAM) 믹스츄어(mixture) 모델과 4 믹스츄어(mixture) 그룹(group)과 3 믹스츄어(mixture)를 가진 본 발명에서 제안하는 하이브리드 파티숀드 가우시안 오토리그레시브 믹스츄어(HPGAM) 모델을 나타내고 있다.

본 실시예에서는 확률밀도를 표현하는 방법에 대하여 설명한다. 가우시안(Gaussian) 밀도(density)의 합으로 확률밀도를 표현하는 경우에 기존에는 GAM와 PGAM으로 불린 두 가지 방식이 사용되었다.

GAM은 확률 밀도를 가우시안(Gaussian) 밀도(density)의 가중된 합(weighted sum)으로 표현한다. 또한, PGAM은 학률 공간을 가우시안(Gaussian)으로 표현한 후 가장 큰 값을 확률밀도로 나타내고 나머지 확률밀도 값은 무시하는 방식이다.

본 발명에서 제안한 방식은 위의 두 가지를 결합한 방식으로 확률밀도 공간을 여러 개의 PGAM 공간으로 나눈 다음 이 공간을 GAM으로 표현한 후 가장 큰 값을 갖는 GAM을 대표 확률밀도로 나타내는 방식이다. 즉 제안한 가우시안(Gaussian) 확률밀도의 표현방법은 GAM와 PGAM을 합쳐놓은 방식으로 우리는 이 방식을 하이브리드 파티숀드 가우시안 오토리그레시브 믹스츄어(HPGAM : Hybrid Partitioned Gaussian Autoregressive mixture)로 부른다.

도 4 는 본 발명에 따른 가우시안 확률밀도 표현 방법에 대한 일실시예 흐름도이다.

우선, 확률밀도 공간을 여러 개의 PGAM 공간으로 나누고(401), 이 공간을 GAM으로 표현한다(402). 그리고, 가장 큰 값을 갖는 GAM을 대표 확률밀도로 나타내어 가우시안 확률밀도를 표현한다(403).

도 5 는 본 발명에 따른 HPGAM을 얻기 위한 음성 인식 훈련 방법에 대한 일실시예 흐름도이다.

또한, 본 실시예에서는 HPGAM에 대한 훈련(training) 방법에 대하여 설명한다. 이 방식은 기존 훈련 방식에 따라 훈련한 뒤 오 인식된 데이타를 결합하여 새로이 초기화함으로써 HPGAM을 얻는 방식이다. 즉, 도 5 에서 보여진 바와 같이 원하는 믹스츄어(mixture) 개수의 음성 인식모델(1 mixture group and N mixtures)을전통적인 방식으로 구한다음 이 모델로 음성 인식 테스트(test)를 수행한다. 이 음성 인식 결과중 오 인식 단어를 이용하여 새로운 음성 인식모델(1 mixture group and N mixtures)을 구한다. 이 모델을 이전 모델과 결합하여 새로운 음성 인식모델(2 mixture group and N mixtures)을 구하며, 이 모델을 이용하여 훈련을 수행한다. 이후 또다시 이 모델로 음성 인식 테스트(test)를 수행하여 원하는 믹스츄어 그룹(mixture groups)이 얻어질 때까지 반복한다. 이러한 훈련은 기존 훈련의 단점인 초기화에서 발생하는 문제점을 보충해 준다.

이를 도면의 흐름에 따라 설명하면 다음과 같다.

우선, 믹스츄어 그룹 수를 1로 하여 훈련 데이터를 설정하고(501), 이 훈련 데이터에 대한 세그멘탈 k-민스(Segmental k-means) 훈련과 포워드-백워드(forward-backward) 훈련을 수행한다(502).

훈련이 수행된 훈련 데이터에 대해 인식시험을 수행하고(503), 오인식 단어에 대한 세그멘탈 k-민스(Segmental k-means) 훈련과 포워드-백워드(forward-backward) 훈련을 수행한다(504, 505).

오인식 단어를 훈련시켜 얻은 훈련 데이터에 기존의 훈련 데이터를 결합하여 믹스츄어 그룹 개수가 1증가된 새로운 훈련데이터를 얻어(506), 포워드-백워드 훈련을 수행하고(507), 이 훈련 데이터의 믹스츄어 그룹 개수가 원하는 믹스츄어 그룹 개수와 같은지를 판단한다(508). 판단 결과, 같지 않으면 그 숫자에 미치지 않는 것이므로, 훈련 데이터에 대한 인식시험을 수행하는 과정(503)부터 반복 수행한다. 판단 결과, 같으면 훈련 데이터에 대한 음성 인식 훈련 과정을 종료한다.

이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하다는 것이 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 명백할 것이다.

상기한 바와 같은 본 발명은, 우선 음성 인식율 향상을 위해 기존의 GAM이나 PGAM보다 인식율이 좋은 HPGAM을 보다 수월하게 얻을 수 있으며, 기존 훈련의 단점인 초기화에서 발생하는 문제점을 보충해주는 음성 인식 훈련에 따라 음성 인식율을 향상시킬 수 있는 효과가 있다.

Claims

음성 인식 시스템에 적용되는 가우시안 확률밀도 표현 방법에 있어서,

확률밀도 공간을 여러 개의 파티숀드 가우시안 오토리그레시브 믹스츄어(PGAM : Partitioned Gaussian Autoregressive Mixture) 공간으로 나누는 제 1 단계;

나뉘어진 상기 파티숀드 가우시안 오토리그레시브 믹스츄어 공간을 가우시안 오토리그레시브 믹스츄어(GAM : Gaussian Autoregressive Mixture)으로 표현하는 제 2 단계; 및

가장 큰 값을 갖는 GAM을 대표 확률밀도인 하이브리드 파티숀드 가우시안 오토리그레시브 믹스츄어(HPGAM : Hybrid Partitioned Gaussian Autoregressive Mixture)으로 나타내어 가우시안 확률밀도를 표현하는 제 3 단계

를 포함하는 가우시안 확률밀도 표현 방법.
음성 인식 시스템에 적용되는 하이브리드 파티숀드 가우시안 오토리그레시브 믹스츄어을 얻기 위한 음성 인식 훈련 방법에 있어서,

믹스츄어 그룹 수가 초기화된 음성 인식모델을 입력받아 인식 훈련을 통해 훈련된 음성 인식모델을 얻는 제 1 단계;

훈련된 상기 음성 인식모델에 대해 음성 인식 테스트를 수행하여 오인식 단어에 대해 인식 훈련을 수행하여 새로운 음성 인식모델을 획득하고 상기 제 1 단계에서 얻은 음성 인식모델과 결합하여 상기 믹스츄어 그룹 수가 증가된 음성 인식모델을 얻는 제 2 단계;

상기 제 2 단계에서 얻은 음성 인식모델에 대해 인식 훈련을 수행하고 믹스츄어 그룹 개수가 원하는 수에 도달하였는지를 확인하는 제 3 단계;

상기 제 3 단계의 확인 결과, 믹스츄어 그룹 개수가 원하는 수에 도달하지 않았으면 상기 제 2 단계부터 반복 수행하는 제 4 단계; 및

상기 제 3 단계의 확인 결과, 믹스츄어 그룹 개수가 원하는 수에 도달하였으면 음성 인식 훈련을 마치는 제 5 단계

를 포함하는 음성 인식 훈련 방법.
프로세서를 구비한 음성 인식 시스템에 있어서,

확률밀도 공간을 여러 개의 파티숀드 가우시안 오토리그레시브 믹스츄어(PGAM : Partitioned Gaussian Autoregressive Mixture) 공간으로 나누는 제 1 기능;

나뉘어진 상기 파티숀드 가우시안 오토리그레시브 믹스츄어 공간을 가우시안 오토리그레시브 믹스츄어(GAM : Gaussian Autoregressive Mixture)로 표현하는 제 2 기능; 및

가장 큰 값을 갖는 GAM을 대표 확률밀도인 하이브리드 파티숀드 가우시안 오토리그레시브 믹스츄어(HPGAM : Hybrid Partitioned Gaussian Autoregressive Mixture)로 나타내어 가우시안 확률밀도를 표현하는 제 3 기능

을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
프로세서를 구비한 음성 인식 시스템에,

믹스츄어 그룹 수가 초기화된 음성 인식모델을 입력받아 인식 훈련을 통해 훈련된 음성 인식모델을 얻는 제 1 기능;

훈련된 상기 음성 인식모델에 대해 음성 인식 테스트를 수행하여 오인식 단어에 대해 인식 훈련을 수행하여 새로운 음성 인식모델을 획득하고 상기 제 1 기능에서 얻은 음성 인식모델과 결합하여 상기 믹스츄어 그룹 수가 증가된 음성 인식모델을 얻는 제 2 기능;

상기 제 2 기능에서 얻은 음성 인식모델에 대해 인식 훈련을 수행하고 믹스츄어 그룹 개수가 원하는 수에 도달하였는지를 확인하는 제 3 기능;

상기 제 3 기능의 확인 결과, 믹스츄어 그룹 개수가 원하는 수에 도달하지 않았으면 상기 제 2 기능부터 반복 수행하는 제 4 기능; 및

상기 제 3 기능의 확인 결과, 믹스츄어 그룹 개수가 원하는 수에 도달하였으면 음성 인식 훈련을 마치는 제 5 기능

을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.