KR101479674B1

KR101479674B1 - 음향모델을 이용한 vts 기반의 음성인식 방법

Info

Publication number: KR101479674B1
Application number: KR1020130108761A
Authority: KR
Inventors: 정용주
Original assignee: 계명대학교 산학협력단
Priority date: 2013-09-10
Filing date: 2013-09-10
Publication date: 2015-01-07

Abstract

본 발명은 음향모델을 이용한 VTS 기반의 음성인식 방법에 관한 것으로, (a) 음성신호로부터 VTS(Vector Taylor Serise) 알고리듬을 이용하여 로그스펙트럼 벡터 영역에서 인식잡음음성 신호를 훈련잡음음성 신호의 관계식으로 산출하는 단계; (b) 상기 인식잡음음성 신호의 평균과 분산을 추정하는 단계; (c) 상기 추정된 평균과 분산으로 유도되는 로그우도함수로부터 EM(Expectation-Maximization) 과정을 통하여 상기 인식잡음음성의 잡음신호를 추정하는 단계; (d) 상기 로그우도함수가 수렴할때까지 상기 (b) 단계 및 (c) 단계를 반복하는 단계; (e) 상기 (d) 단계로부터 추정한 잡음신호로부터 상기 훈련잡음음성 신호에 대한 MMSE(Minimum Mean Square Error) 추정값을 산출하는 단계; 및 (f) 상기 MMSE 추정값을 캡스트럼(cepstrum) 벡터로 변환하여 최종 음성인식 특징을 획득하는 단계를 포함한다.
이와 같이 본 발명은 인식잡음음성 특징의 보상을 위하여 잡음음성을 이용한 음향모델을 사용하여 부가잡음과 채널잡음을 동시에 보상함으로써, 부가잡음만을 보상한 경우에 비해서 채널잡음 보상을 통해서 보다 나은 인식성능을 갖는 음성특징 보상방법을 제공하고, 인식성능이 향상된 방법을 제공한다.

Description

음향모델을 이용한 VTS 기반의 음성인식 방법{VTS Based Speech Feature Compensation method Using Noisy Speech Acoustic Models}

본 발명은 음성인식 방법에 관한 것으로, 보다 상세하게는 인식성능이 향상된 잡음음성 음향모델을 이용한 VTS 기반의 음성인식 방법에 관한 것이다.

최근 음성인식기술의 급격한 발전으로 인하여 많은 분야에서 음성인식제품의 실용화가 이루어지고 있다. 그러나 최신의 음성인식기술들도 잡음이나 채널에 의한 환경변화가 초래한 인식성능의 저하를 충분히 극복하지 못하고 있는 게 사실이다. 이러한 잡음 환경 하에서 음성인식의 성능향상을 위해서는 크게 3가지 서로 다른 접근 방법이 사용되고 있다.

그중 하나는 잡음인식음성의 특징이나 훈련음향모델을 보상하거나 적응하여 훈련음향모델과 잡음인식음성간의 불일치를 최대한 줄임으로서 인식성능의 향상을 이루는 것이다. 그중에서도 VTS(Vector Taylor Series) 기반의 음성특징 보상이나 음향모델 적응 방식은 매우 큰 인식성능 향상을 보이는 것으로 알려져 있다. 두 번째 방식으로는 훈련음향모델을 생성하는 과정에서부터 잡음음성을 사용하는 것이다. MTR(Multi- condition TRaining) 방식이나 MMSR(Multi-Model based Speech Recognition) 방식은 훈련과정에서 잡음음성을 이용하여 음향모델을 훈련함으로써 인식시에 잡음음성이 발생하더라도 이에 대처할 수 있도록 하는 방식이다. 마지막으로는 음성특징 추출시에 음성개선 알고리듬을 사용함으로서 추출된 음성특징에서 잡음성분을 제거하는 방식이다. ETSI AFE(Advanced Front-End)는 가장 널리 사용되는 음성특징 추출 알고리듬중의 하나이다.

기존의 잡음음성인식방법에서는 위에 제시된 3가지 방법 중에서 어느 1~2가지 방식을 적절히 결합하여 사용하는 것이 일반적이었다. 예를 들어, 깨끗한 음성을 이용하여 생성된 음향모델을 VTS를 이용하여 잡음인식음성에 적응하는 것은 가장 대표적인 잡음음성방법중의 하나이다. 여기에 잡음에 강인한 음성특징인 AFE를 사용하게 되면 추가적인 인식성능의 향상을 꾀할 수도 있다. 본 논문에서는 깨끗한 음향모델에 비해서 잡음음성인식 성능향상에 유리하다고 알려진 MTR 훈련모델이나 MMSR 훈련모델을 VTS에 적용함으로서 보다 향상된 인식성능을 얻고자 한다.

종래의 기술에서 우리는 로그스펙트럼 영역에서 인식잡음음성과 훈련잡음음성간의 차이를 표현하는 관계식을 유도한 후 VTS 방식을 적용하고 훈련잡음음성에 대한 MMSE (minimum mean square error) 추정을 통해서 인식잡음음성과 훈련잡음음성 간의 불일치를 줄이고 인식성능의 향상을 이루었다. 그러나 이 방식에서는 부가잡음만을 고려하고 채널잡음에 대해서는 고려하지 않음으로서 Aurora2 데이터베이스의 Set C에 대한 성능 향상이 다소 저조했다고 생각된다. 또한 음향모델로서는 MMSR 훈련모델 만을 고려하고 MTR 훈련모델은 고려하지 않은 문제점이 있었다.

대한민국 공개특허 10-2005-0063987

상술한 문제를 해결하고자 하는 본 발명의 과제는 종래에 제시된 VTS 기반의 음성특징보상 방식에서 채널잡음을 고려한 인식잡음음성과 훈련잡음음성간의 새로운 관계식을 제안하고, VTS를 적용하는 기준 음향모델로서 MMSR 외에 MTR 음향모델을 함께 고려하여 보다 향상된 잡음음성인식 성능을 얻는 잡음음성 음향모델을 이용한 VTS 기반의 음성특징 보상방법을 제공하고자 함이다.

상술한 과제를 해결하기 위한 본 발명의 특징은 (a) 음성신호로부터 VTS(Vector Taylor Serise) 알고리듬을 이용하여 로그스펙트럼 벡터 영역에서 인식잡음음성 신호를 훈련잡음음성 신호의 관계식으로 산출하는 단계; (b) 상기 인식잡음음성 신호의 평균과 분산을 추정하는 단계; (c) 상기 추정된 평균과 분산으로 유도되는 로그우도함수로부터 EM(Expectation-Maximization) 과정을 통하여 상기 인식잡음음성의 잡음신호를 추정하는 단계; (d) 상기 로그우도함수가 수렴할때까지 상기 (b) 단계 및 (c) 단계를 반복하는 단계; (e) 상기 (d) 단계로부터 추정한 잡음신호로부터 상기 훈련잡음음성 신호에 대한 MMSE(Minimum Mean Square Error) 추정값을 산출하는 단계; 및 (f) 상기 MMSE 추정값을 캡스트럼(cepstrum) 벡터로 변환하여 최종 음성인식 특징을 획득하는 단계를 포함한다.

여기서, 상기 (a) 단계에서,

관계식은,

(여기서, x는 깨끗한 음성신호의 로그스펙트럼 벡터이고, y는 인식잡음음성의 로그스펙트럼이고, n은 부가잡음신호의 로그스펙트럼 벡터이며 h는 채널(컨벌루션) 잡음의 로그스펙트럼 영역에서의 값이다.)인 것이 바람직하다.

또한, 상기 (c) 단계는, 상기 인식잡음음성의 로그스펙트럼인 y는 가우시안 혼합 분포를 가정하고, 상기 추정된 평균과 분산을 이용한 확률밀도함수에 대한 로그우도함수를 이용하는 것이 바람직하다.

더하여, 상기 로그우도함수는,

(여기서, p는 확률밀도함수이고, Y는 로그스펙트럼 벡터의 열로서,

로 나타낸다.) 인 것이 바람직하다.

또한, 바람직하게는 상기 (d) 단계에서, 상기 MMSE 추정값은,

로 나타내는 것일 수 있다.

그리고, 상기 (f) 단계는,

DCT(Discrete Cosine Transform)을 이용하여 상기 MMSE 추정값을 캡스트럼 벡터로 변환하고, 특징벡터를 산출하여 최종 음성인식 특징을 획득하는 단계인 것이 바람직하고, 상기 캡스트럼 벡터에서 0차의 캡스트럼 벡터는 로그에너지 성분을 사용하는 것이 바람직하다.

이와 같이 본 발명은 인식잡음음성 특징의 보상을 위하여 잡음음성을 이용한 음향모델을 사용하여 부가잡음과 채널잡음을 동시에 보상함으로써, 부가잡음만을 보상한 경우에 비해서 채널잡음 보상을 통해서 보다 나은 인식성능을 갖는 음성특징 보상방법을 제공한다.

또한 MTR 음향모델과 MMSR 음향모델을 VTS 적응시에 동시에 고려함으로서 인식성능을 더욱 향상시킬 수 있다.

도 1은 본 발명의 실시예에 따른 잡음음성 음향모델을 이용한 VTS 기반의 음성특징 보상방법의 흐름을 나타낸 도면이다.

본 발명의 이점 및 특징, 그리고 그것을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 통해 설명될 것이다. 그러나 본 발명은 여기에서 설명되는 실시예들에 한정되지 않고 다른 형태로 구체화될 수도 있다. 단지, 본 실시예들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 본 발명의 기술적 사상을 용이하게 실시할 수 있을 정도로 상세히 설명하기 위하여 제공되는 것이다.

도면들에 있어서, 본 발명의 실시예들은 도시된 특정 형태로 제한되는 것이 아니며 명확성을 기하기 위하여 과장된 것이다. 또한 명세서 전체에 걸쳐서 동일한 참조번호로 표시된 부분들은 동일한 구성요소를 나타낸다.

본 명세서에서 "및/또는"이란 표현은 전후에 나열된 구성요소들 중 적어도 하나를 포함하는 의미로 사용된다. 또한, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 또한, 명세서에서 사용되는 "포함한다" 또는 "포함하는"으로 언급된 구성요소, 단계, 동작 및 소자는 하나 이상의 다른 구성요소, 단계, 동작, 소자 및 장치의 존재 또는 추가를 의미한다.

이하에서 본 발명의 바람직한 실시예를 도면을 참조하여 상세히 설명하기로 한다.

도 1은 본 발명의 실시예에 따른 잡음음성 음향모델을 이용한 VTS 기반의 음성특징 보상방법의 흐름을 나타낸 도면이다. 도 1에 나타낸 바와 같이, 본 발명의 실시예에 따른 잡음음성 음향모델을 이용한 VTS 기반의 음성특징 보상방법은 (a) 음성신호로부터 VTS(Vector Taylor Serise) 알고리듬을 이용하여 로그스펙트럼 벡터 영역에서 인식잡음음성 신호를 훈련잡음음성 신호의 관계식으로 산출하는 단계(S100); (b) 상기 인식잡음음성 신호의 평균과 분산을 추정하는 단계(S200); (c) 상기 추정된 평균과 분산으로 유도되는 로그우도함수로부터 EM(Expectation-Maximization) 과정을 통하여 상기 인식잡음음성의 잡음신호를 추정하는 단계(S300); (d) 상기 로그우도함수가 수렴할때까지 상기 (b) 단계 및 (c) 단계를 반복하는 단계(S400); (e) 상기 (d) 단계로부터 추정한 잡음신호로부터 상기 훈련잡음음성 신호에 대한 MMSE(Minimum Mean Square Error) 추정값을 산출하는 단계(S500); 및 (f) 상기 MMSE 추정값을 캡스트럼(cepstrum) 벡터로 변환하여 최종 음성인식 특징을 획득하는 단계(S600)를 포함하여 구성된다.

이와 같은 본 발명의 실시예는, 잡음음성 음향모델 기반의 VTS 알고리듬을 위해서는 먼저 훈련잡음음성과 인식잡음음성 간의 로그스펙트럼(log-spectrum) 영역에서의 관계식이 수립하고, 이에 기반하여 인식잡음음성에 대한 파라미터 값이 훈련잡음음성에 대한 파라미터 값을 이용하여 추정되며, 이와 더불어 잡음신호 값이 새로이 얻어지며 이를 통하여 최종적으로 훈련잡음음성에 대한 MMSE 값이 얻어지고 이를 DCT(Discrete Cosine Transform) 변환하여 최종 음성인식특징으로 사용하는 잡음음성 음향모델을 이용한 VTS 기반의 음성특징 보상방법을 제안한다. 이하 그 과정을 상세히 설명하기로 한다.

먼저, (a) 단계로서 인식잡음음성과 훈련잡음음성 간의 관계식을 설명하면, 깨끗한 음성신호의 로그스펙트럼 벡터 x와 잡음음성신호의 로그스펙트럼 벡터 y간에 [수학식 1]과 같은 관계식이 일반적으로 성립한다.

[수학식 1]에서 n은 부가잡음신호의 로그스펙트럼 벡터이며 i는 단위벡터이며 h는 채널(컨벌루션) 잡음의 로그스펙트럼 영역에서의 값이다. [수학식 1]에 기반하여 인식잡음음성의 로그스펙트럼 벡터 y와 훈련잡음음성의 로그스펙트럼 벡터 y_Tr은 [수학식 2] 및 [수학식 3]과 같이 표현가능하다.

여기서 n와 n_Tr은 각각 인식잡음음성과 훈련잡음음성에 포함된 부가잡음신호를 나타내며, 해석의 간편함을 위하여 [수학식 2]의 훈련잡음음성의 경우에는 채널잡음은 없다고 가정된다.

[수학식 2]와 [수학식 3]을 결합하면 인식잡음음성 y는 훈련잡음음성 y_Tr를 이용하여 [수학식 4] 및 [수학식 5]와 같이 표현된다.

(b) 단계로서, 인식자음음성의 평균과 분산을 추정하는 단계는, 인식잡음음성의 잡음신호를 n, h로 표시하고, VTS(Vectro Taylor Serise)를 이용하여 n, h의 초기값 n₀, h₀와 훈련잡음음성의 평균값

를 중심점으로 한

의 1차 VTS 전개식을 이용하여 [수학식 5]를 다시 기술하면 아래식 [수학식 6] 내지 [수학식 9]와 같다.

[수학식 6] 내지 [수학식 9]를 사용하면 인식잡음음성의 평균과 분산은 아래와 같이 얻어진다. 여기서

은 인식잡음음성에 포함된 부가잡음신호의 분산이며 이는 인식잡음음성의 묵음구간에서 추정가능하다.

(c) 단계로서, 잡음신호(n,h)를 추정하는 단계는, 인식잡음음성 y는 가우시안 혼합 분포를 가진다고 가정되며, 그 확률밀도함수는 [수학식 10]의 평균과 분산을 이용하여 [수학식 11]과 같이 정의된다.

여기서

은 m번째 가우시안 밀도함수이며, p_m은 해당 혼합성분의 가중치이다.

인식잡음음성에 대한 로그스펙트럼 벡터의 열

이 주어진 경우, 로그우도함수(log-likelihood function)는 [수학식 12]와 같이 주어진다.

주어진 인식잡음음성에 대해서 [수학식 12]에 기반한 EM(Expectation-Maximization) 과정을 통하여 잡음신호 n과 h를 새로이 추정하게 된다. 추정된 잡음신호 n, h값은 [수학식 10]에 대입되어 [수학식 11]의 확률밀도 함수값이 개선된다. 이는 다시 식 (12) 로그우도함수를 개선시키게 된다. 이와 같은 과정은 로그우도함수 값이 수렴할 때 까지 반복되게 된다.((d) 단계)

(e) 단계로서, 훈련잡음음성에 대한 MMSE 값을 추정하는 단계는, EM 과정의 수렴을 통해서 얻어진 잡음신호 n, h를 이용하여 [수학식 10]으로부터 인식잡음음성의 로그스펙트럼에 대한 확률밀도함수에 대한 최종적인 평균과 분산 값이 얻어진다. 이를 이용하여 훈련잡음음성에 대한 MMSE 추정 값

이 [수학식 13]과 같이 얻어진다.

[수학식 13]에서 얻어진 로그스펙트럼 벡터는 DCT (Discrete Cosine Transform)을 통하여 13차의 캡스트럼 벡터로 변환된다. 본 발명의 실시예에서는 0차의 캡스트럼 벡터 대신 로그에너지 성분을 사용하였고 차분과 차차분 계수를 구하여 39차의 특징벡터를 최종인식을 위한 특징으로 사용하였다.((f) 단계)

실험결과

본 발명의 실시예에서는 잡음음성인식 실험을 위하여 Aurora 2 데이터베이스를 사용하였다. Aurora 2 데이터베이스는 깨끗한 연속숫자음 음성신호에 인공적으로 부가잡음을 더해주고 채널왜곡을 인가하여 만들어진 잡음음성으로 구성되어 있으며 국제적으로 공인되어 가장 많이 사용되는 음성데이터 중의 하나이다. 훈련방법으로는 CLEAN과 MTR 두 가지 종류가 있으며 CLEAN 방식은 HMM(Hidden Markov Model)의 훈련을 위하여 깨끗한 음성데이터 만을 이용하며 MTR 방식은 깨끗한 음성과 더불어 여러 가지 종류의 잡음과 다양한 SNR 값으로 구성된 잡음음성을 이용하여 HMM을 훈련하는 방식이다.

인식실험에는 3가지 종류의 음성데이터 Set이 사용된다. Set A는 MTR 훈련시 알려진 잡음신호(Subway, Babble, Car, Exhibition)들로부터 생성된 잡음음성으로 구성되며 Set B는 훈련시 알려지지 않은 잡음신호(Restaurant, Street, Airport, Train-Station)들로부터 생성된 잡음음성신호로 구성되며 마지막으로 Set C는 부가 잡음 외에도 채널 왜곡이 인위적으로 조성된 잡음음성신호들로 구성된 경우이다.

음성특징 추출을 위해서는 음성개선 알고리듬이 적용된 ETSI AFE를 사용하였다. 0차의 cepstral 계수를 제외한 12차의 MFCC(Mel-frequency Cepstral Coefficient)와 로그에너지를 포함한 13차의 특징벡터를 추출하고 delta와 acceleration 계수를 추가하여 전체 39차의 특징벡터를 사용하였다.

음향모델을 위해서 각 숫자에 대한 HMM은 3개의 Gaussian 성분을 가지는 16개의 상태들로 이루어지나 묵음에 관한 HMM은 6개의 Gaussian 성분을 가지는 3개의 상태로 구성된다. 또한 1개의 상태를 가지는 짧은 묵음에 관한 HMM도 구성되며 이는 묵음 HMM의 가운데 상태와 동일하다고 간주된다. 또한 음향모델의 훈련과 인식을 위해서는 HTK(Hidden Markov Toolkit)를 사용하였다.

[표 1]에는 기존의 대표적인 잡음음성인식 방식인 MTR, MMSR 방식과 더불어 본 발명의 실시예에서 제안된 잡음음성 음향모델을 기반으로 한 VTS 방식(MMSR-VTS /MTR-VTS)의 성능이 비교되어 있다. 채널잡음을 고려한 경우의 VTS 성능을 따로 비교 검토하기 위해서 [표 1]에서는 부가 잡음만을 고려한 결과를 나타내었다. MMSR-VTS 방식은 VTS 적응을 위한 잡음음성 음향모델로서 MMSR 음향모델을 사용한 것이고 MTR-VTS 방식은 잡음음성 음향모델로서 MTR 음향모델을 사용한 것이다.

MMSR-VTS에서는 [수학식 11]의 잡음음성신호에 대한 혼합성분의 개수 M값을 달리하면서 인식결과를 나타내었다. M=128부터 M=4 까지 변화함에 따라서 인식성능의 큰 변화가 없음을 알 수 있었으나 M=2인 경우에는 인식성능의 저하가 심하게 나타남을 알 수 있다. 이는 잡음음성신호를 나타냄에 있어서 너무 작지 않은 혼합성분의 개수를 사용한 경우에는 VTS의 성능이 큰 영향을 끼치지 않는 것을 의미한다.

본 발명의 실시예에서는 실험에 사용된 M값의 중간값 정도가 되는 16을 실험에서 사용하기로 한다. 한편 M=16의 경우에 MTR-VTS의 성능을 [표 1]에 함께 나타내었는데 MMSR-VTS에 비해서 다소 저조한 성능을 보임을 알 수 있다. MTR-VTS는 예상한대로 Set B에서는 MMSR-VTS에 비해서 더 나은 성능을 보이나 Set A, Set C에서 MMSR-VTS에 비해서 저조한 성능을 보임을 알 수 있다.

[표 1]의 결과를 비교해보면 기존의 방식들인 MTR 이나 MMSR 방식에 비해서 제안된 MMSR-VTS, MTR-VTS 방식이 우수한 인식성능을 보임을 알 수 있다. 이는 기존의 잡음음성 음향모델들이 부가잡음의 영향을 어느 정도 자체적으로 포함한다고 하더라도 VTS를 통해서 부가잡음을 보상함으로서 더 나은 성능을 보인다는것을 말해준다.

한편, [표 1]의 MMSR-VTS와 MTR-VTS의 성능을 비교해보면 전체적으로는 MMSR-VTS가 MTR-VTS 보다 다소 나은 성능을 보이지만 Set B의 경우에는 오히려 MTR-VTS의 성능이 우수함을 알 수 있다. 이러한 점에 착안하여 본 발명의 실시예에서는 MMSR-VTS와 MTR-VTS의 결합을 통해서 전체인식성능의 향상을 꽤하도록 하였다.

제안된 방식은 인식잡음음성으로부터 추출된 부가잡음신호를 분류하여 이 잡음신호가 MMSR 음향모델 구성시에 이용된 4가지 잡음신호(Subway, Babble, Car, Exhibition)의 어느 하나와 일치하면 VTS 적용시에 그 해당하는 MMSR 음향모델을 이용하고 그 일치도가 명확하지 않으면 MTR 음향모델을 사용하는 것이다. 예를 들어, 인식잡음음성에 포함된 잡음신호와 Subway 잡음간의 일치도는 [수학식 14]와 같이 계산된다.

만약, 인식잡음음성에 포함된 부가잡음신호를 이용하여 구한 일치도가 어느 기준값(TH)을 넘어서면 VTS적응을 위해서 Subway 잡음을 이용해서 생성된 MMSR 음향모델을 사용하고 TH값을 넘지 못하면 MTR 음향모델을 사용하면 된다.

[표 2]에서 TH=0.9에서 가장 좋은 인식성능을 보임을 알 수 있으며 이 결과는 MMSR-VTS 나 MTR-VTS 비해서도 더 나은 성능임을 알 수 있다. 종래의 기술에서는 채널잡음(h)를 고려하지 않았으나, 본 발명의 실시예를 적용한 [표 3]에서는 채널잡음을 고려한 경우의 결과들을 나타내었다.

MMSR-VTS+H는 표 1의 MMSR-VTS에서 채널잡음 보상을 추가한 것의 결과를 나타내는데 인식성능의 향상이 뚜렷이 나타남을 알 수 있다. 마찬가지로 MTR-VTS+H 도 표 1의 MTR-VTS에 비해서 성능이 나아짐을 확인할 수 있었다. 이를 통해서 제안된 방식에서 채널잡음을 고려한 경우에 인식성능이 전반적으로 개선됨을 확인 할 수 있었으며 특히 MTR+MMSR-VTS+H에서 음향모델로서 MTR과 MMSR 음향모델을 함께 고려함으로서 보다 나은 인식성능이 나타남을 알 수 있었다.

이와 같이 본 발명은 인식잡음음성 특징의 보상을 위하여 잡음음성을 이용한 음향모델을 사용하여 부가잡음과 채널잡음을 동시에 보상하는 방식을 제안하고, 부가잡음만을 보상한 경우에 비해서 채널잡음 보상을 통해서 보다 나은 인식성능을 보임을 실험결과 확인할 수 있었다. 또한 MTR 음향모델과 MMSR 음향모델을 VTS 적응시에 동시에 고려함으로서 인식성능을 더욱 향상시킬 수 있었다.

이상의 설명에서 본 발명은 특정의 실시 예와 관련하여 도시 및 설명하였지만, 특허청구범위에 의해 나타난 발명의 사상 및 영역으로부터 벗어나지 않는 한도 내에서 다양한 개조 및 변화가 가능 하다는 것을 당 업계에서 통상의 지식을 가진 자라면 누구나 쉽게 알 수 있을 것이다.

Claims

(a) 음성신호로부터 VTS(Vector Taylor Serise) 알고리듬을 이용하여 로그스펙트럼 벡터 영역에서 채널잡음이 관계된 인식잡음음성 신호를 훈련잡음음성 신호의 관계식으로 산출하는 단계;
(b) 상기 인식잡음음성 신호의 평균과 분산을 추정하는 단계;
(c) 상기 추정된 평균과 분산으로 유도되는 로그우도함수로부터 EM(Expectation-Maximization) 과정을 통하여 상기 인식잡음음성의 잡음신호를 추정하는 단계;
(d) 상기 로그우도함수가 수렴할때까지 상기 (b) 단계 및 (c) 단계를 반복하는 단계;
(e) 상기 (d) 단계로부터 추정한 잡음신호로부터 상기 훈련잡음음성 신호에 대한 MMSE(Minimum Mean Square Error) 추정값을 산출하는 단계; 및
(f) 상기 MMSE 추정값을 캡스트럼(cepstrum) 벡터로 변환하여 최종 음성인식 특징을 획득하는 단계를 포함하되,
상기 관계식은,

,
(여기서, x는 깨끗한 음성신호의 로그스펙트럼 벡터이고, y는 인식잡음음성의 로그스펙트럼 벡터이고, y_Tr은 채널잡음이 없다고 가정된 훈련잡음음성의 로그스펙트럼 벡터이고, n과 n_Tr은 각각 인식잡음음성과 훈련잡음음성에 포함된 부가잡음신호의 로그스펙트럼 벡터이며, h는 채널(컨벌루션) 잡음의 로그스펙트럼 영역에서의 값이다.)
인 것을 특징으로 하는 잡음음성 음향모델을 이용한 VTS 기반의 음성인식 방법.
삭제
제1항에 있어서,
상기 (c) 단계는,
상기 인식잡음음성의 로그스펙트럼인 y는 가우시안 혼합 분포를 가정하고, 상기 추정된 평균과 분산을 이용한 확률밀도함수에 대한 로그우도함수를 이용하는 것을 특징으로 하는 잡음음성 음향모델을 이용한 VTS 기반의 음성인식 방법.
제3항에 있어서,
상기 로그우도함수는,

(여기서, p는 확률밀도함수이고, Y는 로그스펙트럼 벡터의 열로서,
로 나타낸다.)
인 것을 특징으로 하는 잡음음성 음향모델을 이용한 VTS 기반의 음성인식 방법.
제4항에 있어서,
상기 (d) 단계에서,
상기 MMSE 추정값은,

로 나타내는 것을 특징으로 하는 잡음음성 음향모델을 이용한 VTS 기반의 음성인식 방법.
제1항, 제3항 내지 제5항 중 어느 한 항에 있어서,
상기 (f) 단계는,
DCT(Discrete Cosine Transform)을 이용하여 상기 MMSE 추정값을 캡스트럼 벡터로 변환하고, 특징벡터를 산출하여 최종 음성인식 특징을 획득하는 단계인 것을 특징으로 하는 잡음음성 음향모델을 이용한 VTS 기반의 음성인식 방법.
제6항에 있어서,
상기 캡스트럼 벡터에서 0차의 캡스트럼 벡터는 로그에너지 성분을 사용하는 것을 특징으로 하는 잡음음성 음향모델을 이용한 VTS 기반의 음성인식 방법.