KR19990059297A

KR19990059297A - 음성 인식 장치 및 방법

Info

Publication number: KR19990059297A
Application number: KR1019970079496A
Authority: KR
Inventors: 장육현
Original assignee: 서평원; 엘지정보통신 주식회사
Priority date: 1997-12-30
Filing date: 1997-12-30
Publication date: 1999-07-26
Also published as: CN1229971A; CN1112670C

Abstract

본 발명은 음성 인식 장치 및 방법에 관한 것으로서, 특히, 수정된 모델 변수 변환 방식인 결합지수를 이용한 상태 의존형 모델 변수 변환 방식과 VTS근사화법을 이용한 환경변수 예측 기법을 통한 모델변수 변환방식을 통하여 잡음에 강한 음성인식 장치 및 방법에 관한 것이다.

종래의 PMC방식인 경우는 모델 변수 조합시 많은 근사화가 이루어지고 잡음 모델을 이용하여 인식대상 단어모두에 대하여 조정을 함으로 기존의 학습된 모델 변수중에서 잡음에 그다지 많이 변화하지 않는 음성부분까지도 원하지 않는 방향으로 조정되며, 또한 VTS방식은 환경변수 모델을 수렴할때까지 계속 반복하여 예측하는 과정이 그 다지 큰 효과가 있지 못하며 이로 인하여 계산량이 증가하게 되며, 환경 변수 모델 중 공분산을 조정하는데 있어서 적은 양의 데이타를 가져 정확하지 못하게 예측할 경우 인식 성능이 저하되는 문제점이 있다.

본 발명은 음성 인식 장치를 잡음 환경인 실제 환경과 인식 전단계에 모델 변수 변환을 수행 할수 있는 블럭을 삽입하여 쉽게 응용할수 있고, 또한 자동차 환경과 같은 응용 분야에서 음성인식을 통한 음성 다이얼링이나 음성 명령 장치 개발에 적용이 가능하므로 시끄러운 주변환경에서의 음성 인식을 향상시킨다.

Description

음성 인식 장치 및 방법

본 발명은 음성 인식 장치 및 방법에 관한 것으로서, 특히 수정된 모델 변수 변환 방식인 결합지수를 이용한 상태 의존형 모델 변수 변환 방식과 VTS근사화법을 이용한 환경변수 예측 기법을 통한 모델변수 변환방식을 통하여 잡음에 강한 음성인식장치및 방법에 관한 것이다.

종래의 음성 인식 방법은 첨부된 도면 도1, 2에 도시한 바와 같이

먼저, Parallel Model Combination(PMC)방식은 조용한 환경에서 훈련된 인식장치의 모델 변수와 입력 음성의 잡음 통계치 또는 기존에 만들어진 잡음 모델을 입력한다(스텝 S1-1), 상기 두 모델을 모든 인식 대상 음성의 모델 변수에 대하여 각각 더하여 준다 (스텝 S1-2), 상기 만들어진 인식 장치 모델을 이용해 입력 음성에 대하여 인식을 수행한다(스텝 S1-3).

한편, Vector Taylor Series(VTS)방식은 초기의 환경요소 모델을 결정한후에 입력 음성을 이용하여 환경 요소 모델을 예측하고(스텝S2-1), 상기 예측된 모델의 수렴여부를 결정하고 수렴하면 (스텝S2-2), 상기 결과와 학습된 인식장치 모델 변수를 입력하고 모델 변수를 새로이 조정하여(스텝S2-3), 상기 결과를 입력 음성에 대한 인식을 수행한다(스텝 S2-4).

상기 스텝 S2-2에서 수렴하지 않으면 스텝 S2-1로 귀환한다.

전술한 바와 같은 음성인식방법에 있어서, PMC방식인 경우는 모델 변수 조합시 많은 근사화가 이루어지고 잡음 모델을 이용하여 인식대상 단어모두에 대하여 조정을 함으로 기존의 학습된 모델 변수중에서 잡음에 그다지 많이 변화하지 않는 음성부분 까지도 원하지 않는 방향으로 조정되는 문제점이 있다. 또한 VTS방식은 환경변수 모델을 수렴할때까지 계속 반복하여 예측하는 과정이 그 다지 큰 효과가 있지 못하며 이로 인하여 계산량이 증가하게 되며, 환경 변수 모델 중 공분산을 조정하는데 있어서 적은 양의 데이타를 가져 정확하지 못하게 예측할 경우 인식 성능이 저하되는 문제점이 있다.

본 발명은 전술한 바와 같은 문제점을 감안하여 안출한 것으로, 음성 인식장치에서 잡음환경인 실제 환경에 쉽게 응용할수 있고, 기존의 학습된 인식장치를 그대로 사용하면서 인식 전단계에 모델 변수변환을 수행할수 있는 블럭을 삽입하여 쉽게 응용이 가능함에 목적이 있다.

상기와 같은 목적을 달성하기 위해 본 발명 음성 인식 장치에 있어서, 입력되는 음성신호를 PCM음성데이타로 변환하여 출력하는 보코더와; 학습된 모델변수와 인식대상 단어를 저장하고 출력하는 메모리부와; 상기 보코더로 부터 인가되는 PCM음성데이타에서 특정벡터를 추출하여 출력하는 보조 처리부와; 상기 보조 처리부로 부터 인가되는 특정벡터를 입력받아 모델변수 변환과 음성인식을 수행한후 인식결과를 이용하여 인식 음성 출력을 조절하는 주처리부를 구비하는 것을 특징으로 한다.

한편, 음성 인식 방법에 있어서, 인식대상 단어를 입력으로 하여 모델 변수 변환을 수행하는 제 1과정과; 모델 변수 변화정도를 조절하는 초기 결합지수와 상기 제 1과정의 결과를 입력으로 하는 제 2과정과; 상기 제 2과정에서 인가된 인식결과를 인식단위별로 나누는 제 3과정과; 상기 제 3과정에서 인가된 결과를 이용하여 결합지수를 재조정하는 결합지수 제 4과정과; 상기 제 4과정에서 인가된 재조정된 결합지수를 이용하여 모델 변수를 조정한후 인식을 수행하는 제 5과정을 포함하는 것을 특징으로 한다.

또한, 음성 인식 방법에 있어서, 인식대상 음성과 초기의 환경변수를 모델을 이용하여 모델 변수를 조정하는 제 1과정과; 상기 제 1과정에서 인가된 결과를 입력으로 하여 인식을 수행하고 인식결과를 인식단위로 나누어주는 제 2과정과; 상기 제 2과정에서 인가된 결과를 이용하여 환경변수 모델을 새로이 예측하는 제 3과정과: 상기 제 3과정에 인가된 재조정된 환경변수 모델과 학습된 모델변수를 입력으로하여 인식장치의 모델변수를 재조정하여 인식을 수행하는 제 4과정을 특징으로 한다.

도1은 종래의 PMC방식의 인식과정의 순서도

도2는 종래의 VTS방식의 인식과정의 순서도

도3는 본 발명의 음성인식 장치의 구성블록도

도4은 본 발명의 상태의존형 모델변수변환 방식의 순서도

도5는 본 발명의 환경변수예측기법을 통한 모델변수변환방식의 순서도

* 도면의 주요부분에 대한 부호의 설명 *

30:보코더 31:보조 처리부

32:주처리부 33:메모리부

34:스피커

이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세하게 설명하면 다음과 같다.

본 발명에 따른 모델변수 변환 방식을 이용한 음성인식장치는 첨부된 도면 도1에 도시된바와 같이 보코더(30), 보조 처리부(31), 주처리부(32), 메모리부(33), 스피커(34)을 구비하여 이루어진다.

보코더(30)는 인식실험을 위해 인가된 입력음성신호를 PCM음성데이타로 변환시킨후 보조 처리부(31)로 출력 한다.

보조 처리부(31)는 인가되는 PCM음성데이타를 받아들어 특징벡터을 추출하여 주처리부(32)로 인가한다.

주처리부(32)는 상기 보조 처리부(31)에서 인가되는 추출한 특징벡터를 모델변수변환과 음성인식을 수행한후 인식결과를 이용하여 인식 음성출력을 조절하고, 인식결과를 메모리부(33)에서 인가한후 그에 해당하는 인식음성을 다시 인가받아 스피커부(34)로 출력하도록 제어한다.

메모리부(33)는 학습된 모델 변수와 인식 대상 단어를 저장하고 상기 주처리부(32)에서 인식결과가 나오면 그에 해당하는 인식음성을 출력한다.

스피커(34)는 상기 주처리부(32)에서 인가되는 음성신호를 외부로 출력한다.

전술한 바와 같이 구성되는 본 발명의 동작을 첨부된 도면 3,4에 따라 상세하게 설명하면 다음과 같다.

먼저, 결합 지수를 이용한 상태 의존형 모델 변수 변환방식을 사용한 주 처리부(32)에서는 보조처리부(31)에서 PCM음성데이타 받아 들여 특징벡터로 추출하는데 이를 인가받아 입력 음성의 특징벡터에 대하여 PMC방식을 이용하여 모델 변수 변환을 수행하여(스텝 S3-1), 상기와 같이 조정된 모델 변수 변화정도를 조절하는 초기 결합지수와 모델 변수를 이용하여 인식 결과를 수행하고(스텝 S3-2), 상기 스텝 S3-2에서 인가된 인식결과에 대하여 복호화 과정을 수행하여 인식단어를 인식단위인 음소 단위별로 나누고, 나누어진 음소의 세그멘트 정보를 이용하여 결합지수를 예측하여(스텝 S3-3), 결합지수가 알고리즘을 통하여 예측되며 이와 같이 예측된 결합지수는 모델변수중 평균을 변화시키며, 평균의 변화량은 은닉마르코프모델의 각 상태별로 PMC에 의해 변화된 평균의 개별적인 변화량과 각 상태내에서의 평균벡터들의 변화량의 평균이 결합지수에 의해 조절되어 결정되며 이와 같이 만들어진 평균의 변화량은 상기 스텝 S3-2에서 인식결과로 나온 음성의 음소의 모델변수중 평균벡터에 더하여 진다. 이때 PMC에 의해 변화된 공분산은 그대로 사용하고(스텝 S3-4), 상기 조정된 모델변수를 이용하여 인식이 수행되며 인식결과가 주처리부(33)의 결과가된다(스텝 S3-5).

한편, VTS근사화법을 이용한 환경 변수 예측 기법을 통한 모델 변수 변환 방식을 이용한 주처리부에서는 인식 대상 음성과 초기의 환경 변수 모델을 이용해서 모델변수를 조정하여(스텝 S4-1), 상기 스텝 S4-1의 결과를 인가받아 예비 인식한후 인식결과를 인식 단위로 나누어 주고(스텝 S4-2), 상기 스텝 S4-2에서 인가되는 결과로 새로이 예측된 환경변수를 이용하여 학습된 모델 변수중 평균 벡터만을 조정는데 이때 공분산은 기존의 학습된 값을 사용하며(스텝 S4-3), 상기 스텝 S4-3에서 인가되는 재조정된 환경변수모델과 학습된 모델 변수을 입력으로 하여 인식장치의 모델변수를 재조정하여 인식을 수행한다(스텝 S4-4).

이와 같이 모델 변수 변환을 잡음 환경인 실제 환경과 인식 전단계에 블럭을 삽입해 수행 할수 있고, 자동차 환경과 같은 응용 분야에서 음성인식을 통한 음성 다이얼링이나 음성 명령 장치 개발에 적용이 가능하므로 시끄러운 주변환경에서의 음성 인식을 향상시킨다.

전술한 바와 같이, 본 발명은 음성 인식 장치를 잡음 환경인 실제 환경과 인식 전단계에 모델 변수 변환을 수행 할수 있는 블럭을 삽입하여 쉽게 응용할수 있고, 또한 자동차 환경 과 같은 응용 분야에서 음성인식을 통한 음성 다이얼링이나 음성 명령 장치 개발에 적용이 가능하므로 시끄러운 주변환경에서의 음성 인식을 향상시킨다.

Claims

음성 인식 장치에 있어서, 입력되는 음성신호를 PCM음성데이타로 변환하여 출력하는 보코더와; 학습된 모델변수와 인식대상 단어를 저장하고 출력하는 메모리부와; 상기 보코더로 부터 인가되는 PCM음성데이타에서 특정벡터를 추출하여 출력하는 보조 처리부와; 상기 보조 처리부로 부터 인가되는 특정벡터를 입력받아 모델변수 변환과 음성인식을 수행한후 인식결과를 이용하여 인식 음성 출력을 조절하는 주처리부를 구비하는 것을 특징으로 하는 음성인식장치.
음성 인식 방법에 있어서, 인식대상 단어를 입력으로 하여 모델 변수 변환을 수행하는 제 1과정과; 모델 변수 변화정도를 조절하는 초기 결합지수와 상기 제 1과정의 결과를 입력으로 하는 제 2과정과; 상기 제 2과정에서 인가된 인식결과를 인식단위별로 나누는 제 3과정과; 상기 제 3과정에서 인가된 결과를 이용하여 결합지수를 재조정하는 결합지수 제 4과정과; 상기 제 4과정에서 인가된 재조정된 결합지수를 이용하여 모델 변수를 조정한후 인식을 수행하는 제 5과정을 포함하는 것을 특징으로 하는 음성인식방법.
음성 인식 방법에 있어서, 인식대상 음성과 초기의 환경변수를 모델을 이용하여 모델 변수를 조정하는 제 1과정과; 상기 제 1과정에서 인가된 결과를 입력으로 하여 인식을 수행하고 인식결과를 인식단위로 나누어주는 제 2과정과; 상기 제 2과정에서 인가된 결과를 이용하여 환경변수 모델을 새로이 예측하는 제 3과정과: 상기 제3과정에 인가된 재조정된 환경변수 모델과 학습된 모델변수를 입력으로하여 인식장치의 모델변수를 재조정하여 인식을 수행하는 제4과정을 특징으로 하는 음성 인식 방법.