KR20130022513A

KR20130022513A - 결합 쌍일차 변환 공간 기반의 화자 적응 방법 및 장치

Info

Publication number: KR20130022513A
Application number: KR1020110084856A
Authority: KR
Inventors: 송화전
Original assignee: 한국전자통신연구원
Priority date: 2011-08-24
Filing date: 2011-08-24
Publication date: 2013-03-07

Abstract

본 발명의 일실시예에 따른 결합 쌍일차 변환 공간 기반의 화자 적응 방법 및 장치는 화자의 스타일(style)에 관한 변환 행렬(transformation matrix) 및 음향 모델의 차원 수를 조절하는 변환 행렬을 동시에 추정하여 화자 적응에 이용함으로써 화자 적응 데이터 수에 관계없이 화자 독립 모델에 기반하는 베이스라인(baseline)시스템보다 항상 높은 성능을 얻을 수 있으며, 특히 적응 데이터수가 아주 적은 경우에도 각각의 화자 적응 방식에서 하나의 기저(basis)를 공유하는 특성에 기반하여 서로간의 시너지효과를 극대화하도록 결합(joint) 방식을 통해 화자 적응을 수행함으로써 기존의 화자 적응 방식보다 더 높은 성능을 얻을 수 있다.

Description

결합 쌍일차 변환 공간 기반의 화자 적응 방법 및 장치{Speaker Adaptation Method based on Joint Bilinear Transformation Space and Apparatus therefor}

본 발명은 쌍일차 모델(Bilinear Model) 기반의 화자 적응 기술에 관한 것이다.

기존의 화자 적응 방법으로는 MAP(maximum a posteriori), MLLR(maximum a posteriori linear regression) 및 SC(speaker clustering) 계열 방식이 대표적이다.

먼저 간단하게 SC 방식으로 화자 적응을 먼저 한 후, 이를 사전 모델(prior model)로 이용하여 MLLR 방식에 MAP 적응 기법을 도입한 maximum a posteriori linear regression(MAPLR)을 적용하여 적응 모델을 얻은 후, 이를 다시 사전 모델로 하여 전통적인 MAP를 연속적으로(sequential) 수행하여 최종 화자 적응 모델을 구하게 된다. MAPLR에 대한 상세한 내용은 “C. Chesta, O. Siohan and C.-H. Lee, “Maximum a posteriori linear regression for hidden Markov model adaptation,” in Proc. Eurospeech, 1771-1774, 1998.”(이하 “참고문헌 1”이라 함)에 개시되어 있다.

그리고, 이보다 좀 더 개선된 방식으로써 앞선 연속적인 방식을 동시에 수행하도록 하는 결합(joint) 방식 기반 화자 적응이 이루어지도록 할 수 있으며, 이는 “O. Siohan and C. Chesta and C.-H. Lee, “Joint maximum a posteriori adaptation of transformation and HMM parameters,” in Proc. ICASSP, pp.2945-2948, 2001.”(이하 “참고문헌 2”이라 함)에서 제안한 joint MAP-MAPLR 방식이 대표적이다.

본 발명이 해결하려고 하는 기술적 과제는, 화자 적응을 수행시 동질적인 사전 모델이나 동일한 기저를 공유함으로써 이용되는 화자 적응 방식들간의 이질성을 제거할 수 있는 결합 쌍일차 변환 공간(bilinear transformation space; BITS) 기반의 화자 적응 방법 및 장치를 제공하는 데 있다.

본 발명이 해결하려고 하는 다른 기술적 과제는, 차원 조정이 자유로운 BITS에서 기존의 방식(SC, MLLR, MAPLR, MAP, joint MAP-MAPLR)을 전부 포함하는 일반화된 방식을 고안하여 적응 데이터 수에 관계없이 기존의 방식보다 더 높은 성능을 얻을 수 있는 결합 쌍일차 변환 공간 기반의 화자 적응 방법 및 장치를 제공하는 데 있다.

본 발명이 해결하려고 하는 또 다른 기술적 과제는, 적응데이터가 아주 적은 부분에서 jBIT-MAPLR 화자 적응 방식의 시너지 효과를 극대화할 수 있는 결합 쌍일차 변환 공간 기반의 화자 적응 방법 및 장치를 제공하는 데 있다.

본 발명의 실시예에 따른 결합 쌍일차 변환 공간 기반의 화자 적응 장치는 S명의 화자에 의해서 구성된 훈련데이터에 기초하여, N개의 tied state 및 각 state당 K개의 mixture로 이루어진 화자 독립(speaker independent; SI) 모델을 생성하고, 상기 SI을 이용하여 화자별 MLLR(Maximum Likelihood Linear Regression) 변환행렬을 생성하는 화자별 모델링 생성부; 상기 S개의 화자별 MLLR 변환행렬들을 이용하여 상호 전치행렬 관계에 있는 두 가지 형태의 관측 행렬을 생성하는 관측행렬 생성부; 대칭형 쌍일차 모델 파라미터를 구하기 위해 SVD(Singular Value Decomposition) 기반으로 BITS(Bilinear Transformation Space) 기저인 인수(SF), 콘탠트 인수(SF) 및 쌍일차 맵핑 행렬을 생성하는 쌍일차 변환 공간 모델 생성부; 및 상기 생성된 BITS 기저를 이용해 새로운 화자의 적응 데이터가 들어오는 경우에는 스타일 요소(SF) 만을 추정하고, 상기 추정될 SF의 형식에 따라 전사(projection) 방식 또는 변환(transformation) 방식으로 화자 적응 모델을 생성하는 화자 적응 모델 생성부를 포함한다.

본 발명의 실시예들에 따른 결합 쌍일차 변환 공간 기반의 화자 적응 방법 및 장치 는 차원 조정이 자유로운 BITS에서 기존의 방식(SC, MLLR, MAPLR, MAP, joint MAP-MAPLR)을 전부 포함하는 일반화된 방식을 고안하여 적응 데이터 수에 관계없이 기존의 방식보다 더 높은 성능을 얻을 수 있다.

또한, 본 발명의 실시예들에 따른 결합 쌍일차 변환 공간 기반의 화자 적응 방법 및 장치는 적응 데이터수가 아주 적은 경우에 기저(basis)를 공유하는 특성에 기반하여 서로 간의 시너지 효과를 극대화하도록 화자 적응을 수행하여 기존의 화자 적응 방식보다 더 높은 성능을 얻을 수 있다.

또한, 본 발명의 실시예들에 따른 결합 쌍일차 변환 공간 기반의 화자 적응 방법 및 장치는 두 가지 형식의 jBIT-MAPLR(v) 화자 적응을 이용하여 화자의 SF에 관한 변환 행렬 및 음향 모델의 차원 수를 조절하는 변환 행렬(CF에 해당)을 동시에 추정하여 화자 적응에 이용함으로써 화자 적응 데이터 수에 관계없이 화자 독립 모델에 기반하는 기존의 호자 적응 방식보다 항상 높은 성능을 얻을 수 있다.

도 1은 결합 쌍일차 변환 공간 기반 화자 적응 장치에 대한 개념도이다.

이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 우선 각 도면의 구성 요소들에 참조 부호를 부가함에 있어서, 동일한 구성 요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략하며, 단수로 기재된 용어도 복수의 개념을 포함할 수 있다. 또한, 이하에서 본 발명의 바람직한 실시예를 설명할 것이나, 본 발명의 기술적 사상은 이에 한정하거나 제한되지 않고 당업자에 의해 변형되어 다양하게 실시될 수 있음은 물론이다.

화자 적응 방법은 최근 주목을 받고 있는 모바일 음성 검색(mobile voice search)이나 음성메일(voicemail)과 같은 음성 기술에 기반한 사용자 맞춤형 서비스 제공 시 사용자의 만족도를 극대화 시킬 수 있는 효과적인 방법이 될 수 있다. 많은 화자 적응 방법이 지속적으로 개발되어 왔으며, 이러한 화자 적응 방법에서 가장 중요한 고려사항이 화자 적응 데이터의 개수이다. 즉, 사용이 가능한 화자 적응 데이터 수에 따라 화자 적응 방법이 달라지게 된다. 그러나, 화자 적응 방법의 최종 목표는 화자 적응 데이터의 개수에 관계없이 항상 화자 독립(Speaker Independent; SI) 모델 기반의 베이스라인(baseline) 시스템보다 높은 성능을 유지하고, 사용자의 적응 데이터가 계속해서 누적되면 화자 종속(speaker dependent; SD) 시스템의 성능으로 수렴하는 것이다.

본 실시예에서 제안하는 바와 같이, 이러한 과정을 충족시키는 한가지 예로써 간단하지만 효과적인 방법은 지금까지 개발된 다양한 방법들을 유기적으로 결합하는 것이며, 식(1)과 같이 전개될 수 있다.

여기서

는 임의의 화자 s 의 임의의 음향 영역을 나타내는 모델의 평균벡터를 의미하며,

는 임의의 화자 s의 적응 데이터에 대해 화자 군집화(Speaker Clustering; SC) 방식으로 기저 (basis) 모델을 구성하여 이를 화자 적응에 이용한 방식(고속화자 적응에 유리한 eigenvoice 방식이 대표적임.)으로 추정한 모델이며,

는 임의의 화자 s의 적응 데이터에 대해 maximum likelihood linear regression (MLLR) 방식으로 추정한 모델을,

는 임의의 화자 s의 적응 데이터에 대해 maximum likelihood (ML)에 의해 추정된 모델(즉, SD 모델)을 의미한다.

또한

,

이고, 상기 값들은 임의의 화자 s의 화자 적응 데이터 개수에 따라 임의의 방법(즉, 수동 또는 자동)으로 조정할 수 있다. 즉, 적응 데이터가 아주 작은 경우는

이 되어 SC 방식이 우세하게 되고, 적응 데이터가 적절한 개수로 주어지면

이 되어 MLLR 방식이 우세하게 되고, 계속해서 적응 데이터가 주어지면

이 되어 ML 추정 결과(SD 모델) 방식이 우세하게 되어 결과적으로 데이터가 지속적으로 증가하면 SD 모델이 된다. 즉, 화자 적응 데이터 수에 따라

의 적절한 값을 결정하는 것이 중요하며 이는 보통 maximum a posteriori(MAP) 화자 적응 방식을 도입하여 자동적으로 결정하도록 한다.

여기서, SC 방식에 관한 상세한 내용은 “R. Kuhn, J.-C. Junqua, P. Nguyen and N. Niedzielski, "Rapid speaker adaptation in eigenvoice space," IEEE Trans. Speech Audio Processing, vol.8, No.6, pp.695-707, Nov., 2000.”, “K.-T. Chen, W.-W. Liau, H.-M. Wang, and L.-S. Lee, "Fast speaker adaptation using eigenspace-based maximum likelihood linear regression," in Proc. Int. Conf. Spoken Language Process., pp. 742-745, Oct., 2000.”(이하 “참고문헌 3”,”참고문헌 4”라 함)에 개시되어 있고, MLLR 방식에 관한 상세한 내용은 “C. J. Leggetter and P. C. Woodland, "Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models," Comput. Speech Lang., vol.9, No.2, pp.171-185, Apr., 1995.” (이하 “참고문헌 5”라 함)에 개시되어있고, MAP 화자 적응 방식에 관한 상세한 내용은 “J.-L. Gauvain and C.-H. Lee, "Maximum a posteriori estimation for multivariate Gaussian mixture observations of Markov chains," IEEE Trans. Speech Audio Processing, vol. 2, pp. 291-298, Apr., 1994.”(이하 “참고문헌 6”이라 함)에 개시되어 있다.

본 발명자는 식(1)의 효과적인 구현을 위해, 쌍일차 모델(bilinear model; BM) 개념을 도입하여 두 가지 형식의 “결합 쌍일차 변환 공간 기반 maximum a posteriori linear regression (joint bilinear transformation space-based MAPLR; jBIT-MAPLR)” 화자 적응 방식을 고안하였으며,

값을 적응 데이터 개수에 따라 자동적으로 조절하게 하였을 뿐만 아니라, 식(1)의 예와 같이 모든 적응 방식에서 각각의 방식이 독립적인 모델을 사용하지 않고 동일한 기저(basis)를 공유함으로써 적응 기법들 간의 이질성을 제거하고자 하였다.

또한 본 실시예를 통하여, 쌍일차 변환 공간(bilinear transformation space; BITS)에서 기존의 방식(SC, MLLR, MAPLR, MAP 방식) 전부를 포함하는 일반화된 방식을 고안하여 적응 데이터 수에 관계없이 기존의 방식보다 더 높은 성능을 얻을 수 있는 방식이 창출되며, 특히 적응데이터가 아주 적은 부분에서 jBIT-MAPLR 화자 적응 방식의 시너지 효과가 극대화 되도록 하였다.

여기서, BM에 관한 상세한 내용은 “J. B. Tenenbaum and W. T. Freeman, "Separating style and content with bilinear models," Neural Computat., vol.12, No.6, pp.1247-1283, 2000.”(이하 “참고문헌 7”이라 함)에 개시되어 있다.

상술한 화자 적응 방식에서 화자 적응 성능을 결정짓는 다양한 요소 중의 하나는 좋은 품질의 사전 모델을 구성하는 것이다.

첫 번째 방식에서는 SC 방식을 통해 적응 데이터가 아주 적은 경우에도 어느 정도 좋은 품질의 사전 모델을 구성할 수가 있다. 그러나, 참고문헌 2에서 사용한 사전 모델은 단지 훈련환경에서 얻는 변환행렬의 평균을 이용하므로 적응 데이터가 아주 적은 고속화자 적응에서는 좋은 성능을 얻지 못하므로 좀 더 높은 품질의 사전 모델을 위해서는 먼저 SC 방식을 사용해 이를 얻는 것이다. 하지만 이상에서 사용한 방식들 (SC, MLLR, MAP)에서는 동일한 기저 및 동일한 형식의 사전 모델을 사용하지 않고 각각의 방식에 맞는 개별적인 기저 및 사전 모델들을 사용하게 된다. 화자 적응 시스템을 구성하기 위해서는 각각의 적응 방법에 따라 개별적인 기저 구성 절차 및 상황에 맞는 사전 모델을 구성해야 하므로 시스템의 효율적인 측면이나 각각의 방식간의 시너지를 얻기 위한 연결 고리가 서로 밀접하게 연결되어 있지 않다. 따라서, 본 발명에서는 참고문헌 2와 같이 결합 방식에 기반한 화자 적응을 수행하는 동시에 모든 적응 방식에서 서로 이질적이며 독립적인 사전 모델 또는 기저를 사용하지 않고 동질적인 사전 모델이나 동일한 기저를 공유함으로써 이상의 적응 방식들간의 이질성을 제거하고자 한다.

BM에서 정의한 요소인 스타일 인수(style factor; SF)와 콘텐트 인수(content factor; CF)는 특이값 분해(singular value decomposition; SVD) 기반의 반복적인 방식을 통해 구성할 수 있다. 상기 반복적 알고리즘에 관하여는 “J. B. Tenenbaum and W. T. Freeman, “Separating style and content with bilinear models”, Neural Computation, vol. 12, No. 6, pp.1247-1283, 2000.”(이하 “참고문헌 8”이라 함)에서 상세하게 설명되어 있다.

본 실시예에서는 기존의 모델에 대해 BM으로 분해하는 것 대신, MLLR의 변환행렬을 BM 개념을 적용하여 두 가지 요소로 분해하여 joint BIT-MAPLR 화자 적응에 이용하여 적응 데이터 개수에 관계없이 항상 성능 향상이 유지되도록 하는 방식을 고안하였다.

식(1)과 같이 상기 목적을 달성하기 위해 발명된 방법은 크게 BM 개념을 이용하여 MLLR 변환행렬을 두 가지 기본 요소로 분해하여 BITS에서의 기저를 추정하는 구성 단계 및 구성된 요소를 이용한 joint BIT-MAPLR 방식에 기반한 화자 적응 단계로 구성된다.

도 1을 참조하면, 본 발명의 실시예에 따른 쌍일차 변환 공간 기반 화자 적응 장치는 S명의 화자에 의해서 구성된 훈련데이터에 기초하여, N개의 tied state의 각각이 K개의 mixture로 이루어진 화자 독립 모델을 생성하고, 상기 SI을 이용하여 화자별 MLLR(Maximum Likelihood Linear Regression) 변환행렬을 생성하는 화자별 모델링 생성부(110)와, 상기 S개의 화자별 MLLR 변환행렬들을 이용하여 상호 전치행렬 관계에 있는 두 가지 형태의 관측 행렬을 생성하는 관측행렬 생성부(120)와, 대칭형 쌍일차 모델 파라미터를 구하기 위해 SVD(Singular Value Decomposition) 기반으로 BITS(Bilinear Transformation Space) 기저를 생성하는 쌍일차 변환 공간 모델 생성부(130)와, 상기 생성된 BITS 기저를 이용해 새로운 화자의 적응 데이터가 들어오는 경우에는 스타일 요소(SF) 만을 추정하고, 상기 추정될 SF의 형식에 따라 전사(projection) 방식 또는 변환(transformation) 방식으로 화자 적응 모델을 생성하는 화자 적응 모델 생성부(140)를 포함한다. 상기 쌍일차 변환 공간 기반 화자 적응 장치는 상기 생성된 적응화자 모델을 이용하여 사용자의 테스트 음성을 인식하는 음성 인식기(150)를 더 포함하는 것도 가능하다.

이하에서는 도 1을 참조하여, 본 발명의 일실시예에 따른 쌍일차 변환 공간 기반 화자 적응 장치를 더욱 상세하게 설명하기로 한다.

화자별 모델링 생성부(110)는 BM 개념을 MLLR 변환 행렬에 적용하기 위해서는 훈련 DB로부터 관측 행렬(observation matrix)을 구성한다. 즉, 화자별 모델링 생성부(110)는, 먼저 S명의 화자로 구성된 훈련데이터가 저장된 훈련 DB(111)로부터 화자 독립(Speaker Independent; SI) 모델(112)을 구성한다.

여기서, 상기 SI 모델은 N개의 tied state로 구성되어 있으며, 각각의 state는 K개의 mixture로 구성되어 있다.

는 state n의 k번째 mixture의 D차원의 평균 벡터를 나타낸다. 본 실시예에서는, 편의를 위해 화자 적응시 평균 벡터만 고려하며, 또한 표기의 단순성을 위해

대신

로 표기한다. 여기서,

이다. 상기 SI 모델로부터 훈련에 참여한 화자의 모델을 MLLR 화자 적응을 통해 구성하며, 이때

는 s번째 화자를 위한 변환 행렬이며, SI 모델과의 관계는 다음과 같다.

여기서,

이고,

이며,

는

의 d번째 열 벡터(column vector)를 뜻하며,

이고,

는 SI 모델의 c번째 mixture의 평균 벡터이다.

관측행렬 생성부(120)는 상기 구성된 S명의 화자의 S개의 MLLR 변환행렬들을 사용하여 다음과 같이 두 가지 형태의 관측 행렬을 생성한다.

여기서 관측 행렬

의 크기는 (SD) x (D+1)이며, [ ] ^VT 는 벡터 전치 행렬(vector transpose matrix)을, [] ^T 는 전치 행렬을 뜻한다. 또한,

를 뜻하며,

의 크기는 (S(D+1)) x D) 이다. 상세한 내용은 참고문헌 1에 설명되어 있다.

쌍일차 변환 공간 모델 생성부(130)는, 대칭형 BM(symmetric bilinear model) 파라미터를 구하기 위해 기존의 SVD 기반의 방법으로 BITS의 기저를 구성한다. 여기서, SVD 기반 방식을 이용한 대칭형 BM 파라미터를 추정하는 방법의 자세한 내용은 참고문헌 8을 참조하라. 이러한 추정 방법으로 관측행렬은 다음과 같은 두 가지 형태로 분해가 된다.

여기서

,

이고,

,

이며,

이고,

는 평균 벡터의 차원을 감소시킬 수 있는 직교 기저(orthogonal basis)를 나타낸다. 여기서, 모든 행렬은 그 크기를 자유롭게 설정할 수 있다. 또한

에서

는 스타일 요소(style factor; SF)라 부르며 이는 화자 s의 unique한 특성을 나타내며,

는 화자들간에 불변(invariant)의 특성을 나타낸다.

은 쌍일차 맵핑 기저 행렬(bilinear mapping basis matrix)이며

와

를 독립적으로 조정할 수 있다. 따라서, BITS에서 화자 s의 변환 행렬은 식(3)과 식(4)의 형태에 따라 다음과 같이 두 가지 형식으로 표현할 수 있다.

그리고, 식(6)과 식(7)를 이용해 화자 s의 c번째 평균 벡터는 다음과 같이 식(8) 및 식(9)로 표현할 수 있다.

참고로 식(8)은 MLLR형식으로 적용되며, 식(9)는 SC 형식으로 적용된다. 그러나, 식(8)과 식(9)는 개별적인 것이 아니라 동일한 수식을 두 가지 변수를 반영하는 BM 개념을 사용하여 두 가지 형식으로 나타낸 것뿐이다.

화자 적응 모델 생성부(140)는 상기 생성된 BITS 기저를 이용해 새로운 화자의 적응 데이터(108)가 들어오면 새로운 화자에 대해서는 CF가 변하지 않으므로 단지 SF 만을 추정하면 된다. 본 실싱예에서는 대칭형 BITS 기저를 구성하였으므로 추정될 SF의 형식에 따라 전사(projection) 방식과 변환(transformation) 방식으로 구성할 수 있다. 이와 관련된 자세한 내용은 “H. J. Song, Y. Jeong, and H. S. Kim, “Bilinear Transformation Space-based Maximum Likelihood Linear Regression Frameworks”, in Proc. Interspeech, 2009.”(이하 “참고문헌 9”라 함)를 참고하라. 참고문헌 9에서는 비대칭형 추정방식을 통해 식(3)과 식(4)에 대해 각각 기저들을 구했으나, 본 발명에서는 대칭형 추정방식을 사용하여 식(6)과 식(7)과 같이 한번에 기저들을 구한 것이 다르며, 적응 데이터가 주어졌을 때 추정하는 방식은 참고문헌 9에 개시된 방식과 동일하다.

약술하면 전사방식은 식(9)를 이용하여 maximum likelihood eigen-decomposition(MLED) 방식을 사용하여

을 추정하면 된다. 이 방식을 BIT-MLLR_P라 부른다. 즉, SC 방식중에 하나이다. 그리고, 변환 방식은 식(8)을 이용하여

를 추정하는 것이 아니라

로 변환하여 MLLR 방식을 사용하여

를 추정하면 된다. 이 방식을 BIT-MLLR_T라 부른다. BIT-MLLR_P 와 BIT-MLLR_T는 SC나 MLLR에 비해 차원 조절이 훨씬 자유롭다는 것을 명심하라.

이상의 두 가지 형태의 BIT-MLLR들을 이용하여 적절한 적응 데이터 개수에 대응하여 효과적인 방식을 선택하여 사용하면 되지만, 그런 경우 사용에 제약이 따른다. 이러한 문제를 해결하기 위해 기존의 MAP 또는 MAPLR 방식을 사용할 수 있으며, 또한 joint MAP-MAPLR로 확대할 수 있다. 실제로 이러한 방식을 사용함에 있어서 본 발명에서 사용한 BITS의 기저의 경우는 BIT-MLLR_P 와 BIT-MLLR_T에서 함께 공유를 함으로 기존의 방식에서 각각의 기저를 사용하는 것보다 훨씬 더 효율적으로 시스템을 구성할 수 있다. 또한 기존의 방식들은 이러한 사전 모델과 추정된 모델 사이에 사용하는 기저들이 다름으로 인해 서로 간의 방식들을 서로 극대화하여 사용할 수가 없었다. 따라서, 본 실시예에서는 BITS 상의 기저를 공유할 수 있다는 장점을 활용하여 이러한 기존의 단점들을 극복하는 방안으로 두 가지 형식의 joint BIT-MAPLR을 고안한다.

먼저 본 실시예에서 고안된 첫 번째 방식은 BITS에서 기존의 MAPLR에서 사용한 사전 모델 형식을 사용하여 고안된 joint BIT-MAPLR(jBIT-MAPLR) 방식이고, 두 번째 방식은 첫 번째 방식인 jBIT-MAPLR에서의 단점을 극복하기 위해 분산 함수에 기반한 사전 모델을 사용하는 joint BIT-MAPLR (jBIT-MAPLR using prior with a variance function; jBIT-MAPLRv) 방식이다. 각각의 방식에 대해 차례로 상세히 서술한다.

1. 기존의 MAPLR 기법을 일반화한 joint BIT-MAPLR방식 (jBIT-MAPLR)

상기에서는

가 모든 화자들에 대해 변하지 않는다고 가정하였다. 그러나, 각각의 화자의 SF뿐만 아니라 CF도 각각의 화자마다 다르다. 따라서, 본 실시예에서는 이러한 부분을 반영해 주기 위해서

가 불변하는 것이 아니라 각각의 화자에 따라 변할 수 있도록 하였다. 또한 BM의 개념이 SF와 CF가 서로 상호교환(interchange)이 가능하므로, CF가 화자의 특성에 맞게 적절하게 변경되는 것이 바람직하다. 따라서,

대신

를 사용하여 다음과 같이 화자의 SF와 CF를 정밀하게 반영하도록 한다.

여기서,

이며, 이것은

의 선형 변환 형식으로 표현한 것이다. 따라서, 추정할 파라미터를 먼저

로 정의하여,

는

,

는

를 나타내도록 한다. MAP 기반으로 이러한 추정할 파라미터

는 다음과 같이 expectation-maximization(EM) 알고리즘을 사용하여 반복적을 구해진다. EM에 관하여는 “A. P. Dempster, N. M. Laird, and D. B. Rubin, "Maximum likelihood from incomplete data via the EM algorithm," J. R. Statist. Soc., vol.39, pp.1-38, 1977.”(이하 “참고문헌 10”이라 함)에 상세하게 기술되어 있다.

여기서,

는 통계적 기대치(statistical expectation)를 의미하고, C는 콘텐트 열(content sequence, 즉, joint state and mixture sequence)를 의미하고,

는 결합 사전 확률 밀도 함수(joint prior probability density function; joint prior pdf)이고, SF와 CF가 서로 독립이므로

가 된다.

그리고, MAPLR 에서는 일반적으로 prior pdf로 matrix variate normal density가 사용된다. 그리고, MAPLR는 prior pdf의 성능에 의해 적응 데이터가 아주 적은 경우 성능 향상에 결정적인 역할을 한다. 만약 prior pdf에 새로운 화자의 정보(예를 들면 새로운 화자의 SF 정보)가 포함되어 있다면 좋은 품질(good quality)의 prior pdf가 된다. 본 실시예에서 사용하는 jBIT-MAPLR의 경우 BIT-MLLRp라는 적응 데이터가 아주 적은 경우에도 좋은 품질의 사전 모델을 얻을 수 있다. 따라서,

와

의 prior pdf는 다음과 같이 정의될 수 있다.

여기서,

은 matrix variate normal density 를 의미한다. 또한,

와

는 각각의 pdf의 평균 행렬(mean matrix)이고,

,

는 각각의 pdf의 공분산 행렬(covariance matrix)를 뜻한다. 여기서,

이고,

는 BIT-MLLRP에 의해 구해진 SF이다. 따라서,

는 식(8)과 식(9)는 서로 호환이 되므로 식(9) 형식을 식(8) 형식으로 나타내어 얻은 것이다. 이러한 요소들을 식(11)에 대입하여 정리하면 다음의 식을 얻을 수 있다.

여기서,

이고, tr( )은 trace operator를 의미하고,

와

는 편의를 위해 단위행렬로 선택한다. 식(14)에서 추정해야 할 파라미터 외의 관계없는 항들을 제거하면 다음과 같은 식으로 전개된다.

여기서,

는 추정할 파라미터와 관계없는 항들로 이루어진 값을 의미한다. 그러나, 식(15)에서 추정해야 할 파라미터는

와

이지만, 이를 동시에 추정할 수 있는 방법은 없다. 따라서, 참고문헌 2에 개시된 iterative MAP principle을 사용하여 분리해서 추정할 수 있다. 추정방식에 대한 자세한 내용은 참고문헌 2를 참고하라.

d((Xa+b) ^T C(Xa+b)) = ((C+C ^T )(Xa+b)a ^T ): ^T d X:
d(a ^T X ^T CXa) = ((C + C ^T )Xaa ^T ): ^T d X: = [C=C ^T ] 2(CXaa ^T ): ^T d X:
d(a ^T Xb) = (b ¤ a) ^T d X: = (ab ^T ): ^T d X:
d(a ^T X ^T b) = (a ¤ b) ^T d X: = (ba ^T ): ^T d X:
d(x ^T Cx) = (C+C ^T )x d x = [C=C ^T ] 2Cx d x
d(tr(X ^T AX)) = d(tr(AXX ^T )) = d(tr(XX ^T A)) = ((A+A ^T )X): ^T d X:
d(tr(XA ^T )) = d(tr(A ^T X)) =d(tr(X ^T A)) = d(tr(AX ^T )) = A: ^T d X:

상기 <표 1>은 본 실시예에서 사용된 벡터-행렬 미분(vector-matrix calculus) 관련 공식이다.

본 발명에서 추정할 파라미터 중에서 먼저

를 고정시키고

을 구한다. 이를 위해

와

라 하면 (여기서,

), 또한

과

이 대각 행렬(diagonal matrix)이라고 가정하고 식(15)의 마지막 수식과 <표 1>의 공식을 이용하여 정리하면,

여기서,

,

로 할당한다. 식(16)에서 MLLR에서 변환 행렬을 구하는 동일한 절차를 통해

를 구할 수 있다. 이제 식(16)으로부터 구한

를 고정시키고

를 구하자. 먼저,

,

라 하고, 식(15)의

에서

와 관계없는 항들을 제거하면 다음과 같이 정리된다.

여기서,

는 추정할 파라미터인

와 관계없는 항들로 이루어진 값을 의미하고, 최종적으로

와 <표 1> 공식을 이용하여 정리하면

그러나,

는

와는 달리 필수적으로 대각 행렬이 아니므로

와 같은 추정 과정(즉, MLLR 추정과정)을 통해서는

에 대한 해를 구할 수가 없다. 따라서, 본 발명에서는 해를 구하기 위해 다음과 같은 절차를 통해 간접적으로

를 구한다. 먼저

로 할당한 후, 식(18)의 양변에

를 곱하면 다음과 같이 얻어진다.

여기서,

(

) 가 되므로 아래와 같이 정리된다.

비록

의 역행렬이 반드시 존재하지 않지만,

도 식(20)의 해 중에 하나이므로 이를 취한다.

2. 분산 함수를 가지는 사전 모델을 이용한 joint BIT-MAPLR 방식 (jBIT-MAPLRv)

앞선 두 가지 BIT-MLLR 들에서 기준 모델(canonical model; 일반적으로 SI 모델을 의미함)을 서로 공유하며 또한 BITS 기저로

도 두 가지 적응 방식(즉, BIT-MLLR_T 및 BIT-MLLR_P)에서 공유하여 SF와 CF를 구하게 된다. 따라서, 앞선 jBIT-MAPLR 방식에서는 사전모델을 각각의 추정 파라미터 별로 설정한 후에 이를 이용하였지만 공유되는 기준 모델(canonical model)을 활용한다면 MAPLR의 방식이 아니라 기존의 MAP 방식으로 이를 활용해야 한다. 한가지 예로 참고문헌 12에서 Probabilistic PCA (PPCA)을 사용하여 사전 모델을 설정한 후, 이를 활용하여 SC 방식에 MAP 방식을 적용하여 고속화자 적응 기법이 제안되었다. 즉, SC 방식으로 켤례쌍(conjugate pair) 조건을 만족하도록 사전 모델을 만들어 이를 기존 MAP 기법을 통해 고속 화자 적응에 적용하였다. 본 실시예에서도 사전모델을 다음과 같이 BITS 기반의 다음과 같이 확률 모델로 구성한다고 가정한다. PPCA에 관하여는 “D. K. Kim, N. S. Kim, “Rapid speaker adaptation using probabilistic principal component analysis”, IEEE Signal Processing Letters, vol. 8, issue 6, pp. 180-183.”(이하 “참고문헌 11”이라 함)과,“M. E. Tipping and C. M. Bishop, “Mixtures of probabilistic principal component analyzers”, Neural Computation, vol.11, No.2 pp.443-482, 1999.”(이하 “참고문헌 12”라 함)에서 상세히 기술되어 있다.

여기서,

은 multivariate normal density 를 뜻하며,

는 BIT-MLLR_P를 이용하여 추정한 모델이며,

는 임의의 분산 함수인

를 가지는 공분산 행렬을 의미한다. 또한

는

크기의 단위 행렬을 의미한다. 비록 PPCA와 같이

와

에 대한 확률 모델을 정의하지는 않았지만 전개의 단순화를 위해 켤레쌍 조건을 위반하지 않는 확률 모델의 존재를 가정한다. MAP 방식에서 사전 모델이 켤례쌍 조건을 만족해야 하지만 이러한 조건을 완화시키는 것 중에는 사전 모델 부분이 비음수 함수(non-negative function) 조건은 반드시 만족을 시켜야 하므로 식(21)과 같은 사전모델의 정의도 EM을 수행하는 것에는 문제가 없다. 따라서, 이러한 완화된 조건들을 기반하여 다음과 같은 수식을 정의할 수 있다.

여기서,

이고, 이상에서 설명한

는 임의의 함수이다. 그러나, 함수의 특성은 상수이거나 개별 추정 파라미터 간에 서로 추정시 서로 영향을 주지 말아야 한다. 식(22)를 풀어서 추정할 파라미터 위주로 전개를 하면 다음과 같다.

여기서,

는 추정 파라미터와 관계없는 항들로 이루어진 값이며, 먼저

를 구하기 위해 식(23)의 제일 마지막 전개식에서

와 <표 1> 의 공식을 이용하여 정리하면

식(24)의 경우는 식(16)과 거의 유사하지만 양변의 두 번째 항이 독립적인 항들이 아니고 모든 콘텐트(content)에 의해 공유됨을 알 수 있다. 이는 앞선 jBIT-MAPLR 방식의

의 형식의 콘텐트와 상관없이 독립적인 변환행렬만을 이용하여 구성된 사전 모델이 아니라,

의 형식의 사전모델을 활용함으로써 모든 콘텐트를 공유하며, 이들간의 차이를 최소화하는 형식으로 모델을 조정하게 된다. 즉, 모든 공유되는 콘텐트 정보를 활용함으로써 smoothing 효과를 얻을 수 있으므로 적응 데이터가 아주 적은 경우에도 변환행렬을 신뢰성 있게 추정할 수 있으므로 이는 앞선 jBIT-MAPLR 방식보다 훨씬 더 합리적임을 알 수 있다.

두 번째로 첫번째 고안한 방식인 jBIT-MAPLR에서 서술한 것과 동일한 절차를 통해

를 추정할 수 있다. 그러나, 이러한 방식보다는 좀 더 편리한 방식이 있으며, 이는

대신에

를 구하는 것이다. (즉,

는

를 사용해

의 선형변환 형식)이므로 식(18)에서 양변에

대신

를 곱하여

를 바로 구하더라도 동등한 추정 공식을 얻게 된다. 따라서,

와 <표 1> 공식을 이용하여 정리하면

여기서,

이다.

이제 지금까지 고안된 두가지 jBIT-MAPLR(v)이 본 발명의 과제인 식(1)을 표현할 수 있는지에 대해 살펴보자. 먼저 식(16)과 식(24)를 통해 구한

는 다음과 같이 근사화 시킬 수 있다.

여기서,

는 BIT-MLLR_P에 의해 구한 변환행렬이고,

는 BIT-MLLR_T에 의해 구한 변환행렬이다. 또한

이고,

는 임의의 상수이다. 또한 식(20)과 식(25)에서 구한

도 다음과 같이 근사화 시킬 수 있다.

여기서,

이고,

도 임의의 상수이고,

이고

이다. 식(26)과 식(27)을 사용하여 다음과 같이 식을 전개할 수 있다.

여기서,

,

이고, 참고로 식(28)의 마지막 식에서

조건인 경우에 등식이 만족하게 된다. 따라서, 식(28)에서 나타난 것과 같이 본 발명에서 고안한 두 가지 jBIT-MAPLR(v) 방식이 화자 적응 데이터 수에 관계없이 화자 적응이 수행되는 식(1)에서 나타내고자 했던 본 발명의 목적을 달성함을 알 수 있다.

음성 인식기(150)는 구성된 화자 적응 모델(142)을 이용하여 사용자의 테스트 음성에 대해 음성 인식을 수행하고 인식결과를 출력한다.

전자의 선행기술과 대비하면, 본 발명의 일시시예는, 쌍일차 변환 공간에서 변환 행렬의 두 가지 성분에 대해 이를 결합 적응시켜 적응 데이터 수에 관계없이 기본 모델보다 개선된 화자 적응 모델을 구성할 수 있으며, 또한 기본 모델에 직접적으로 쌍일차 모델을 적용하는 것이 아니라 변환 행렬에 쌍일차 모델 개념만 사용하여 두 가지 형식의 변환행렬로 분리한 뒤 이를 결합하여 화자 적응시키며, 또한, 기존의 모든 방식의 화자 적응 기법을 일반화할 수 있다.

구체적으로는, 본 발명의 실시예는, 변환행렬에 대해 두가지 형식의 쌍일차 변환 공간 베이시스를 구한 후, 이에 대해 두 가지 변환 행렬에 대해 분산 함수를 사용한 사전 모델 기반으로 결합하여 추정할 수 있다. 즉, 본 발명의 일실시예는, MLLR 방식에 대한 일반화뿐만 아니라 화자 군집화, MAP 방식 등 모든 화자 적응 방식을 일반화하며, 특히 분산 함수를 이용한 사전모델을 구성함으로써 특히 고속 화자 적응에 유리하다.

또한, 본 발명의 일실시예는, 적응 데이터 수에 관계없이 자동적으로 화자 적응이 가능하며 특히 적응 데이터가 아주 적은 경우 화자 추정 방식에서 좋은 품질의 사전모델과 추정 기준을 적용함으로써 기존의 방식에 비해 성능 향상이 높으며, 적응 데이터가 많아지면 화자 종속 모델로 수렴할 뿐만 아니라, 적응 데이터 수에 따라 자동적으로 우세한 화자 적응 방식이 선택되도록 함과 동시에 모든 화자 적응방식에서 차원 조절이 가능한 동일한 기저벡터를 공유하도록 함으로써 화자 적응 시스템을 효율적으로 구성할 수 있다.

후자의 선행기술과 대비하면, 본 발명의 일시시예는, 변환행렬에 대해 두 가지 형식의 쌍일차 변환 공간 베이시스를 구한 후, 이에 대해 두 가지 변환 행렬에 대해 분산 함수를 사용한 사전 모델에 기반하여 joint하게 추정한다. 기존 방식은 MLLR 방식과 ML 방식의 단순한 결합이며 이는 단지 MLLR을 사용하여 구성한 모델을 사전모델로 한 MAP 적응 방식의 단순화된 방식일 뿐만 아니라, 본 발명의 일시예에서 제안한 방식의 한 가지 아주 특수한 경우에 해당한다.

본 발명의 일시시예는, 변환행렬에 대해 두가지 형식의 쌍일차 변환 공간 베이시스를 구한 후, 새로운 화자의 적응데이터를 이용하여 이상에서 구성된 두가지 성분의 변환 행렬에 대해 분산 함수를 사용한 사전 모델에 기반하여 joint하게 추정한다.

즉, 기존 발명에서 MLLR과 ML 방식의 모델을 단순 선형 결합시켰고, 본 발명의 일실시예에서는 화자 군집화, MAP 방식 등 모든 화자 적응 방식을 일반화하며, 특히 분산 함수를 이용한 사전모델을 구성함으로써 특히 고속 화자 적응에 유리하도록 하였다.

본 발명의 일실시예는, 적응 데이터 수에 관계없이 자동적으로 화자 적응이 가능하며 특히 적응 데이터가 아주 적은 경우 화자 추정 방식에서 좋은 품질의 사전모델과 추정 기준을 적용함으로써 기존의 방식에 비해 성능 향상이 높으며, 적응 데이터가 많아지면 화자 종속 모델로 수렴한다.

기존 발명은 화자 군집화방식을 사용하지 않아 적응 데이터가 아주 적은 고속 화자 적응에서는 성능 하락을 유발할 수 있으나, 본 발명의 일실시예는, 적응 데이터 수에 따라 자동적으로 우세한 화자 적응 방식이 선택되도록 함과 동시에 모든 화자 적응방식에서 차원 조절이 가능한 동일한 기저벡터를 공유하도록 함으로써 화자 적응 시스템을 효율적으로 구성할 수 있다.

최근 모바일 기기 사용자의 급증에 따라 음성 기술을 활용한 많은 서비스가 제공되며 또한 좀더 고급 서비스를 제공하기 위해 개인 맞춤형 서비스로 시장이 이동 중이다. 이러한 개인 맞춤형 서비스의 경우

본 발명에 따른 일실시예는, jBIT-MAPLRv 화자 적응 기술을 사용하며 사용자가 사용하면 할수록 향상된 성능의 서비스를 제공받을 수 있고, jBIT-MAPLRv 방식에서는 기저 차원을 자유롭게 변경할 수 있는 기능이 있으므로 제한적인 리소스를 가지는 임베디드 시스템(embedded system)에도 쉽게 이식이 가능하며, 내비게이션 단말기와 같이 사용자가 거의 고정되어 있는 경우에서도 효과적으로 적용이 가능하며, 뿐만 아니라, SF요소에 다양한 잡음에 대한 정보도 함께 추가하여 이러한 잡음 환경 요소들을 적절히 선택하도록 한다면 잡음 환경에서 강인한 화자 적응 방식을 구현할 수 있다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다. 따라서, 본 발명에 개시된 실시예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

110 : 화자별 모델 생성부 111 : 훈련 DB
112 : SI 모델 113 : 모델링부
120 : 관측행렬 생성부
130 : 쌍일차 변환 공간 모델 생성부
131 : 쌍일차 변환 공간부 132 : 쌍일차 변환 공간 모델링부
140 : 화자 적응부 141 : 결합 쌍일차 변환 공간 적용부
142 : 화자 적응 모델부 150 : 음성인식부

Claims

S명의 화자에 의해서 구성된 훈련데이터에 기초하여, N개의 tied state 및 각 state당 K개의 mixture로 이루어진 화자 독립(speaker independent; SI) 모델을 생성하고, 상기 SI을 이용하여 화자별 MLLR(Maximum Likelihood Linear Regression) 변환행렬을 생성하는 화자별 모델링 생성부;
상기 S개의 화자별 MLLR 변환행렬들을 이용하여 상호 전치행렬 관계에 있는 두 가지 형태의 관측 행렬을 생성하는 관측행렬 생성부;
대칭형 쌍일차 모델 파라미터를 구하기 위해 SVD(Singular Value Decomposition) 기반으로 BITS(Bilinear Transformation Space) 기저인 스타일 인수(SF), 콘탠트 인수(SF) 및 쌍일차 맵핑 행렬을 생성하는 쌍일차 변환 공간 모델 생성부; 및
상기 생성된 BITS 기저를 이용해 새로운 화자의 적응 데이터가 들어오는 경우에는 스타일 요소(SF) 만을 추정하고, 상기 추정될 SF의 형식에 따라 전사(projection) 방식 또는 변환(transformation) 방식으로 화자 적응 모델을 생성하는 화자 적응 모델 생성부
를 포함하는 결합 쌍일차 변환 공간 기반의 화자 적응 장치.