KR101145441B1

KR101145441B1 - 스위칭 선형 동적 시스템을 활용한 통계적 음성 합성 시스템의 음성 합성 방법

Info

Publication number: KR101145441B1
Application number: KR1020110036463A
Authority: KR
Inventors: 김남수; 홍두화; 성준식
Original assignee: 서울대학교산학협력단
Priority date: 2011-04-20
Filing date: 2011-04-20
Publication date: 2012-05-15

Abstract

본 발명은 스위칭 선형 동적 시스템을 활용한 통계적 음성 합성 시스템의 음성 합성 방법에 관한 것으로서, 보다 구체적으로는 (1) 음성 데이터베이스로부터 통계 모델 학습 및 최대 우도 기법을 이용하여 스위칭 선형 동적 시스템의 시스템 파라미터를 학습하는 단계; 및 (2) 입력된 문장 또는 단어에 대응되는 통계 모델 및 변환기를 선택하며 상기 단계 (1)에서 학습한 통계 모델 값을 입력으로 하여 스위칭 선형 동적 시스템으로부터 추정된 합성 특징 벡터로부터 음성을 합성하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
본 발명에서 제안하고 있는, 스위칭 선형 동적 시스템을 활용한 통계적 음성 합성 시스템의 음성 합성 방법에 따르면, 음성 데이터베이스와 기존의 통계 모델에 대해 학습된 스위칭 선형 동적 시스템을 적용하여 음성을 합성함으로써, 통계 값을 바탕으로 합성된 특징값에 대해 동적 특성을 개선할 수 있고, 합성음의 음질을 향상시킬 수 있다.

Description

스위칭 선형 동적 시스템을 활용한 통계적 음성 합성 시스템의 음성 합성 방법{A SPEECH SYNTHESIZING METHOD OF STATISTICAL SPEECH SYNTHESIS SYSTEM USING A SWITCHING LINEAR DYNAMIC SYSTEM}

본 발명은 통계적 음성 합성 시스템의 음성 합성 방법에 관한 것으로서, 보다 구체적으로는 스위칭 선형 동적 시스템을 활용한 통계적 음성 합성 시스템의 음성 합성 방법에 관한 것이다.

통계적 음성 합성 기법은 자료 선택 기반의 음성 합성 기법에 비해 통계 값을 이용하기 때문에, 소용량으로 시스템을 구축할 수 있고, 잘 알려진 통계적 기법을 통해 합성음의 특성을 손쉽게 변환할 수 있다는 장점을 가지고 있다. 가장 널리 활용되는 은닉 마코프 모델 (HMM) 기반의 합성 기법은, 실제 음성으로 구축된 데이터베이스로부터 특징 파라미터와 피치 값을 추출한 뒤 이를 학습하여 HMM으로 모델링하는 것으로 학습 과정이 이루어진다. 합성 과정에서는 학습된 모델 집합으로부터 목적하는 단어 혹은 문장에 대응되는 모델을 선택 및 조합하여 이에 대해 최대 우도 기법(Maximum Likelihood)을 적용하여 합성음의 특징값을 생성하고, 이렇게 얻어진 특징값을 바탕으로 음성 필터를 구성하여 합성된 음성 신호를 얻는다.

이와 같은 통계 기반의 음성 합성 기법은, 음성 신호를 그대로 저장할 필요 없이 파라미터의 통계 값을 저장하기 때문에 작은 용량으로도 시스템을 구축할 수 있으며, 명료성이 뛰어난 음질을 확보할 수 있다. 통계적 음성 합성 시스템은, 일반적인 소용량 시스템에 대해 같은 용량일 경우 자료 선택 기반 음성 합성 시스템에 비해 훨씬 더 우수한 음질의 합성음을 생성한다. 그러나 자료 선택 기반 시스템은 시스템의 용량이 커질수록 음질이 매우 우수해지는 반면, 통계적 음성 합성 기법은 상대적으로 크게 변하지 않기 때문에 충분한 용량이 주어질 경우에는 자료 선택 기반 시스템의 음질이 우수하다. 다시 말해, 통계적 합성 기법은 작은 용량으로 시스템이 표현할 수 있는 최대 음질에 쉽게 도달하지만 최대 음질 자체는 높지 않은 한계를 가지고 있다.

한편, HMM은 음성 신호를 안정적으로 모델링하기에 적합하지만, 서로 인접한 특징 파라미터끼리 확률적으로 무관하다는 가정이 필요하기 때문에 동적 특성(동특성)을 직접 모델링하지 못한다. 이에 따라 합성음의 동적 특성은 원음에서 나타나는 동적 특성에 비해 현저하게 제한된 것으로 나타난다. 따라서 특징 벡터의 변화에서 나타나는 동적 특성을 모델링하여 보상해줄 수 있는 과정이 필요한 실정이다.

본 발명은 기존에 제안된 방법들의 상기와 같은 문제점들을 해결하기 위해 제안된 것으로서, 음성 데이터베이스와 기존의 통계 모델에 대해 학습된 스위칭 선형 동적 시스템을 적용하여 음성을 합성함으로써, 통계 값을 바탕으로 합성된 특징값에 대해 동적 특성을 개선할 수 있고, 합성음의 음질을 향상시킬 수 있는, 스위칭 선형 동적 시스템을 활용한 통계적 음성 합성 시스템의 음성 합성 방법을 제공하는 것을 그 목적으로 한다.

상기한 목적을 달성하기 위한 본 발명의 특징에 따른 스위칭 선형 동적 시스템을 활용한 통계적 음성 합성 시스템의 음성 합성 방법은,

(1) 음성 데이터베이스로부터 통계 모델 학습 및 최대 우도 기법을 이용하여 스위칭 선형 동적 시스템의 시스템 파라미터를 학습하는 단계; 및

(2) 입력된 문장 또는 단어에 대응되는 통계 모델 및 변환기를 선택하며, 상기 단계 (1)에서 학습한 통계 모델 값을 입력으로 하여 스위칭 선형 동적 시스템으로부터 추정된 합성 특징 벡터로부터 음성을 합성하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.

바람직하게는, 상기 단계 (1)은,

(1-1) 상기 음성 데이터베이스로부터 통계 모델 학습을 수행하는 단계; 및

(1-2) 상기 학습한 통계 모델 값을 벡터화하여 상기 스위칭 선형 동적 시스템의 입력으로 하고, 최대 우도 기법을 이용하여 상기 스위칭 선형 동적 시스템의 시스템 파라미터를 학습하는 단계를 포함할 수 있다.

더욱 바람직하게는, 상기 단계 (1-1)은,

상기 학습한 통계 모델 값을 통계 모델 데이터베이스에 저장하는 단계를 더 포함할 수 있다.

더욱 바람직하게는, 상기 단계 (1-2)는,

(a) 상기 스위칭 선형 동적 시스템의 시스템 파라미터를 초기화하는 단계;

(b) 상기 단계 (1-1)에서 학습한 통계 모델 값을 벡터화하여 상기 스위칭 선형 동적 시스템의 입력 벡터로 하고, 상기 음성 데이터베이스의 원음의 특징 벡터를 상기 스위칭 선형 동적 시스템의 출력 벡터로 구성하여, 상기 입력 벡터 및 출력 벡터를 바탕으로 칼만 스무딩을 통해 상태 벡터의 통계 값을 추정하는 단계;

(c) 상기 추정한 상태 벡터의 통계 값과 상기 입력 벡터 및 출력 벡터를 이용하여 시스템 파라미터를 추정하는 단계; 및

(d) 상기 단계 (b) 및 (c)를 우도가 최대로 수렴할 때까지 반복하여 상기 스위칭 선형 동적 시스템의 시스템 파라미터를 학습하는 단계를 포함할 수 있다.

더욱 바람직하게는, 상기 단계 (1-2)는,

상기 학습한 상기 스위칭 선형 동적 시스템의 시스템 파라미터를 스위칭 선형 동적 시스템 데이터베이스에 저장하는 단계를 더 포함할 수 있다.

바람직하게는, 상기 단계 (2)는,

(2-1) 입력된 문장 또는 단어에 대응되는 통계 모델 및 스위칭 선형 동적 시스템을 선택 및 조합하는 단계;

(2-2) 상기 단계 (1)에서 학습한 통계 모델 값을 벡터화하여 상기 스위칭 선형 동적 시스템의 입력 벡터로 하고, 상기 단계 (1)에서 학습한 시스템 파라미터를 이용하여 스위칭 선형 동적 시스템으로부터 우도를 최대로 하는 합성 특징 벡터를 추정하는 단계; 및

(2-3) 음성 합성 필터를 이용하여 상기 추정된 합성 특징 벡터로부터 음성 신호를 합성하는 단계를 포함할 수 있다.

바람직하게는,

상기 스위칭 선형 동적 시스템은 다음 수학식으로 구성될 수 있다.

여기서, x_t, y_t, z_t는 각각 시간 t에서의 입력 벡터, 출력 벡터, 상태 벡터를 의미하며, A_m, B_m, C_m, D_m는 각각 변환기 m에 대한 상태천이 행렬, 입력 행렬, 출력 행렬, 변환 행렬을 나타내며, u_t, w_t는 각각 시간 t에서의 상태천이 모델과 출력 모델의 잡음을 나타낸다.

본 발명에서 제안하고 있는, 스위칭 선형 동적 시스템을 활용한 통계적 음성 합성 시스템의 음성 합성 방법에 따르면, 음성 데이터베이스와 기존의 통계 모델에 대해 학습된 스위칭 선형 동적 시스템을 적용하여 음성을 합성함으로써, 통계 값을 바탕으로 합성된 특징값에 대해 동적 특성을 개선할 수 있고, 합성음의 음질을 향상시킬 수 있다.

도 1은 본 발명의 일실시예에 따른 스위칭 선형 동적 시스템을 활용한 통계적 음성 합성 시스템의 음성 합성 방법의 흐름을 요약하여 도시한 도면.
도 2는 본 발명의 일실시예에 따른 스위칭 선형 동적 시스템을 활용한 통계적 음성 합성 시스템의 음성 합성 방법의 흐름을 도시한 도면.
도 3은 본 발명의 일실시예에 따른 스위칭 선형 동적 시스템을 활용한 통계적 음성 합성 시스템의 음성 합성 방법에서 단계 S100의 세부적인 흐름을 도시한 도면.
도 4는 본 발명의 일실시예에 따른 스위칭 선형 동적 시스템을 활용한 통계적 음성 합성 시스템의 음성 합성 방법에서 단계 S120의 세부적인 흐름을 도시한 도면.
도 5는 본 발명의 일실시예에 따른 스위칭 선형 동적 시스템을 활용한 통계적 음성 합성 시스템의 음성 합성 방법에서 단계 S200의 세부적인 흐름을 도시한 도면.

이하, 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예를 상세하게 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 유사한 기능 및 작용을 하는 부분에 대해서는 도면 전체에 걸쳐 동일한 부호를 사용한다.

덧붙여, 명세서 전체에서, 어떤 부분이 다른 부분과 ‘연결’ 되어 있다고 할 때, 이는 ‘직접적으로 연결’ 되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 ‘간접적으로 연결’ 되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 ‘포함’ 한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.

도 1은 본 발명의 일실시예에 따른 스위칭 선형 동적 시스템을 활용한 통계적 음성 합성 시스템의 음성 합성 방법의 흐름을 요약하여 도시한 도면이다. 도 1에 도시된 바와 같이, 본 발명의 일실시예에 따른 스위칭 선형 동적 시스템을 활용한 통계적 음성 합성 시스템의 음성 합성 방법은, 실제 음성으로 이루어진 음성 데이터베이스로부터 음성 특징 벡터를 추출하고, 추출된 음성 특징 벡터를 이용하여 통계적 모델 학습 및 스위칭 선형 동적 시스템 학습을 수행할 수 있다. 음성 데이터베이스로부터 추출되는 음성 특징 벡터는, 특징 파라미터와 피치 값 등으로 구성될 수 있다. 이때, 통계적 모델 학습은 기존의 통계적 음성 합성 시스템에서 사용되는 일반적인 통계 모델 학습을 수행할 수 있다. 한편, 본 발명의 일실시예에 따른 스위칭 선형 동적 시스템을 활용한 통계적 음성 합성 시스템의 음성 합성 방법에서는, 스위칭 선형 동적 시스템이 포함하고 있는 상태천이모델을 통한 스위칭 선형 동적 시스템 학습을 수행할 수 있다. 통계 모델 학습 및 스위칭 선형 동적 시스템 학습을 통해 얻어진 값들을 이용하여 입력된 단어 또는 문장을 음성으로 합성할 수 있다. 특히, 스위칭 선형 동적 시스템은 출력 모델을 포함하고 있어 상태천이모델을 통해 표현된 동적 특성이 반영된 출력 신호, 즉 향상된 합성음 특징값을 제공할 수 있기 때문에, 합성된 합성음의 음질이 향상될 수 있다.

도 2는 본 발명의 일실시예에 따른 스위칭 선형 동적 시스템을 활용한 통계적 음성 합성 시스템의 음성 합성 방법의 흐름을 도시한 도면이다. 도 2에 도시된 바와 같이, 본 발명의 일실시예에 따른 스위칭 선형 동적 시스템을 활용한 통계적 음성 합성 시스템의 음성 합성 방법은, 음성 데이터베이스로부터 통계 모델 학습 및 스위칭 선형 동적 시스템의 시스템 파라미터를 학습하는 단계(S100), 및 입력된 문장 또는 단어에 대응되는 통계 모델 및 변환기를 선택하며 스위칭 선형 동적 시스템으로부터 추정된 합성 특징 벡터로부터 음성을 합성하는 단계(S200)를 포함하여 구현될 수 있다.

즉, 도 1 및 도 2에 도시된 바와 같이, 본 발명의 일실시예에 따른 스위칭 선형 동적 시스템을 활용한 통계적 음성 합성 시스템의 음성 합성 방법은, 학습 단계 및 합성 단계로 구분될 수 있다. 단계 S100은 학습 단계로서, 음성 데이터베이스로부터 통계 모델 학습 및 최대 우도 기법을 이용하여 스위칭 선형 동적 시스템의 시스템 파라미터를 학습할 수 있다. 단계 S200은 합성 단계로서, 입력된 문장 또는 단어에 대응되는 통계 모델 및 변환기를 선택하며 단계 S100에서 학습한 통계 모델 값을 입력으로 하여 스위칭 선형 동적 시스템으로부터 추정된 합성 특징 벡터로부터 음성을 합성할 수 있다. 단계 S100의 세부적인 흐름에 대해서는 추후 도 3 및 도 4를 참조하여 상세히 설명하고, 단계 S200의 세부적인 흐름에 대해서는 추후 도 5를 참조하여 상세히 설명하도록 한다.

한편, 본 발명에서는, 음성 합성을 위한 통계 값으로부터 합성음의 특징값을 얻어낼 때 상태천이모델을 응용한 스위칭 선형 동적 시스템을 이용하여 합성음 특징값의 동적 특성을 향상시켜 합성음의 음질 향상을 이루어낼 수 있다. 스위칭 선형 동적 시스템은 다음 수학식 1 및 2로 표현될 수 있다.

위 식에서 x_t, y_t, z_t는 각각 시간 t에서의 입력 벡터, 출력 벡터, 상태 벡터를 의미하며, A_m, B_m, C_m, D_m는 각각 변환기 m에 대한 상태천이 행렬, 입력 행렬, 출력 행렬, 변환 행렬을 의미한다. 또한, u_t, w_t는 각각 시간 t에서의 상태천이 모델과 출력 모델의 잡음을 나타내며, 각각 μ_u,m, μ_w,m의 평균벡터와 Q, R의 공분산 행렬로 표현된다. 입력 벡터는 학습된 통계 모델 값을 벡터화하여 사용할 수 있으며, 출력 벡터는 음성 데이터베이스의 원음의 특징 벡터로 구성한다.

이와 같은 스위칭 선형 동적 시스템을 사용하면, 합성음 특징값의 동특성을 향상하여 통계적 처리에 의한 음성 합성 시스템의 음질을 향상시킬 수 있다. 실제 음성의 특징값이 시간에 따라 변하는 특성을 모델링하고 합성할 수 있게 되므로 인해 기존 방식이 가지고 있는 단점을 보완하여 더욱 실제 음성과 가까운 합성음을 얻을 수 있다. 기존 방식을 통해 얻은 합성음의 발음이 뭉개지거나 운율이 과도하게 단조로운 느낌이 드는 상황에 대해 제안된 방식을 적용할 경우 더욱 향상된 음질의 합성음을 얻을 수 있다.

또한 스위칭 선형 동적 시스템의 형태를 바꾸어 제어 모델로 활용할 경우 특징값의 동특성을 조절하여 합성음의 스타일을 제어할 수 있다. 특히, 낭독체에 비해 더욱 다양한 특징값 동특성을 보이는 대화체 혹은 노래하는 음성에 대해 넓은 범위의 제어가 가능하다. 대화체의 경우 운율의 세부 성분인 억양, 강세, 속도 등을 조절할 수 있으며, 노래하는 음성의 경우 음조, 강약의 동특성 제어를 통해 미세한 음악적 표현을 재현 및 조절할 수 있다.

도 3은 본 발명의 일실시예에 따른 스위칭 선형 동적 시스템을 활용한 통계적 음성 합성 시스템의 음성 합성 방법에서 단계 S100의 세부적인 흐름을 도시한 도면이다. 도 3에 도시된 바와 같이, 본 발명의 일실시예에 따른 스위칭 선형 동적 시스템을 활용한 통계적 음성 합성 시스템의 음성 합성 방법에서 단계 S100은, 음성 데이터베이스로부터 통계 모델 학습을 수행하는 단계(S110) 및 스위칭 선형 동적 시스템의 시스템 파라미터를 학습하는 단계(S120)를 포함하여 구현될 수 있으며, 단계 S110은 통계 모델 값을 통계 모델 데이터베이스에 저장하는 단계(S115), 단계 S120은 시스템 파라미터를 스위칭 선형 동적 시스템 데이터베이스에 저장하는 단계(S125)를 각각 더 포함하여 구현될 수 있다.

단계 S110에서는, 음성 데이터베이스로부터 통계 모델 학습을 수행할 수 있다. 단계 S110에서는 실제 음성이 저장된 음성 데이터베이스에서 추출된 음성 특징 벡터를 입력 벡터로 하여 통계적 모델 학습을 수행하게 되며, 학습한 통계 모델 값을 통계 모델 데이터베이스에 저장하는, 단계 S115를 더 포함할 수 있다.

단계 S120에서는, 학습한 통계 모델 값을 벡터화하여 스위칭 선형 동적 시스템의 입력으로 하고, 최대 우도 기법을 이용하여 스위칭 선형 동적 시스템의 시스템 파라미터를 학습할 수 있다. 단계 S120에서는 실제 음성이 저장된 음성 데이터베이스에서 추출된 음성 특징 벡터 및 단계 S110에서 학습한 통계 모델 값을 이용하여 스위칭 선형 동적 시스템의 학습을 수행하게 되며, 학습한 스위칭 선형 동적 시스템의 시스템 파라미터를 스위칭 선형 동적 시스템 데이터베이스에 저장하는 단계 S125를 더 포함할 수 있다. 이하에서는, 도 4를 참조하여 단계 S120의 세부적인 흐름에 대해 상세히 설명하기로 한다.

도 4는 본 발명의 일실시예에 따른 스위칭 선형 동적 시스템을 활용한 통계적 음성 합성 시스템의 음성 합성 방법에서 단계 S120의 세부적인 흐름을 도시한 도면이다. 도 4에 도시된 바와 같이, 본 발명의 일실시예에 따른 스위칭 선형 동적 시스템을 활용한 통계적 음성 합성 시스템의 음성 합성 방법에서 단계 S120은, 스위칭 선형 동적 시스템의 시스템 파라미터를 초기화하는 단계(S121), 통계 모델 값을 입력 벡터로 하고, 음성 데이터베이스의 원음의 특징 벡터를 출력 벡터로 구성하여, 칼만 스무딩(Kalman smoothing)을 통해 상태 벡터의 통계 값을 추정하는 단계(S122), 상태 벡터의 통계 값과 입력 벡터 및 출력 벡터를 이용하여 시스템 파라미터를 추정하는 단계(S123), 및 최대 우도 기법을 이용하여 스위칭 선형 동적 시스템의 시스템 파라미터를 학습하는 단계(S124)를 포함하여 구현될 수 있다. 이하는 스위칭 선형 동적 시스템 m에 대한 세부 흐름이며, 따라서 설명의 편의를 위해 이하에서 기호의 아래 첨자 m은 생략하도록 한다.

단계 S121에서는, 스위칭 선형 동적 시스템의 시스템 파라미터를 초기화할 수 있다. 스위칭 선형 동적 시스템은 단계 S110에서 학습된 은닉 마코프 모델(HMM) 집합과 음성 데이터베이스를 이용하여 최대우도 기법을 이용한 EM 알고리즘을 통해 얻는다. 반복적인 알고리즘을 위해서, 먼저 스위칭 선형 동적 시스템의 시스템 파라미터 A, B, C, D, μ_u, μ_w, Q, R에 대해 초기화한다.

단계 S122에서는, 단계 S110에서 학습한 통계 모델 값을 벡터화하여 스위칭 선형 동적 시스템의 입력 벡터로 하고, 음성 데이터베이스의 원음의 특징 벡터를 스위칭 선형 동적 시스템의 출력 벡터로 구성하여, 입력 벡터 및 출력 벡터를 바탕으로 칼만 스무딩(Kalman smoothing)을 통해 상태 벡터의 통계 값을 추정할 수 있다.

EM 알고리즘의 E(Expectation) 단계로서, 주어진 입력 및 출력 벡터를 바탕으로 Kalman smoothing을 통해 상태 벡터의 통계 값을 추정한다. Kalman smoothing 중에서 정 방향 Kalman filtering은 다음 수학식 3과 같다.

위 식에서,

, P_t _|t-1은 각각 시간 1부터 t-1까지의 입출력 신호가 주어졌을 때 시간 t에서의 상태 벡터 사후 추정 값과 상태 공분산 행렬을 가리키며, P_t _,t-1|t는 시간 1부터 t까지의 입출력 신호를 토대로 한 t와 t-1 사이의 상태 교차 공분산을 가리킨다. 또한, K_t는 시간 t에서의 정방향 칼만 게인을 가리키며, I와 T는 각각 단위행렬과 전치 행렬을 가리킨다.

Kalman smoothing 중에서 역방향 smoothing은 다음 수학식 4와 같다.

위 식에서, 아래 첨자 _T는 주어진 입출력 신호의 총 길이를 뜻하며, J_t는 역방향 스무딩 게인을 가리킨다.

단계 S123에서는, 단계 S122에서 추정한 상태 벡터의 통계 값과 입력 벡터 및 출력 벡터를 이용하여 시스템 파라미터를 추정할 수 있다. 즉, 단계 S122에서 얻어진 상태 벡터의 통계 값과 입출력 벡터를 이용하여 최대 우도 기법(Maximum Likelihood)을 적용하여 최대 우도를 만족하는 시스템 파라미터 추정한다. 이에 대한 수학식은 다음 수학식 5 내지 7과 같다.

상기 수학식 5 내지 7에서, 위 첨자 ^#은 전치 행렬을 의미한다.

단계 S124에서는, 단계 S122 및 단계 S123을 우도(Likelihood)가 최대로 수렴할 때까지 반복하여 스위칭 선형 동적 시스템의 시스템 파라미터를 학습할 수 있다. 단계 S124에서 학습된 시스템 파라미터는, 스위칭 선형 동적 시스템 데이터베이스에 저장될 수 있고, 저장된 시스템 파라미터를 단계 S200에서 음성 합성 시에 사용하여 합성음의 음질 향상을 도모할 수 있다.

도 5는 본 발명의 일실시예에 따른 스위칭 선형 동적 시스템을 활용한 통계적 음성 합성 시스템의 음성 합성 방법에서 단계 S200의 세부적인 흐름을 도시한 도면이다. 도 5에 도시된 바와 같이, 본 발명의 일실시예에 따른 스위칭 선형 동적 시스템을 활용한 통계적 음성 합성 시스템의 음성 합성 방법에서 단계 S200은, 입력된 문장 또는 단어에 대응되는 통계 모델 및 스위칭 선형 동적 시스템을 선택 및 조합하는 단계(S210), 통계 모델 값을 입력 벡터로 하고, 시스템 파라미터를 이용하여 스위칭 선형 동적 시스템으로부터 우도를 최대로 하는 합성 특징 벡터를 추정하는 단계(S220), 및 음성 합성 필터를 이용하여 합성 특징 벡터로부터 음성 신호를 합성하는 단계(S230)를 포함하여 구현될 수 있다.

단계 S210에서는, 입력된 문장 또는 단어에 대응되는 통계 모델 및 스위칭 선형 동적 시스템을 선택 및 조합할 수 있다. 이때, 스위칭 선형 동적 시스템은 사전지식으로 얻어진 분할 정보에 따라 여러 변환기 중에 하나씩 전환되어 적용된다.

단계 S220에서는, 단계 S100에서 학습한 통계 모델 값을 벡터화하여 스위칭 선형 동적 시스템의 입력 벡터로 하고, 단계 S100에서 학습한 시스템 파라미터를 이용하여 스위칭 선형 동적 시스템으로부터 우도를 최대로 하는 합성 특징 벡터를 추정할 수 있다. 즉, 스위칭 선형 동적 시스템 내부에 포함된 출력 모델을 이용하여 통계 모델 값을 입력으로 받아 최대 우도를 얻을 수 있는, 동적 특성이 반영된 향상된 합성음 특징 벡터를 생성할 수 있다.

단계 S230에서는, 음성 합성 필터를 이용하여 단계 S220에서 추정된 합성 특징 벡터로부터 음성 신호를 합성할 수 있다. 단계 S230에서 합성된 음성 신호는, 스위칭 선형 동적 시스템에 의해 동특성이 표현되므로 통계적 음성 합성 기법에서 부족했던 동특성 모델링을 보완할 수 있다.

본 발명의 일실시예에 따른 스위칭 선형 동적 시스템을 활용한 통계적 음성 합성 시스템의 음성 합성 방법은, 통계적 처리에 의한 음성 합성기를 사용하는 모든 제품, 시스템 등에 적용되어 각 제품, 시스템들의 음질 개선을 이루어낼 수 있다. 파라미터 기반 혹은 통계 기반의 음성 합성기가 적용되는 분야는 일반 컴퓨터의 애플리케이션, 이-북(e-book), 휴대 전화, PDA(personal digital assistant), 혹은 그에 준하는 외부전원과 독립된 휴대기기, ARS(음성 응답 시스템, audio response system), 기차, 공항, 관공서 등에서의 안내방송, 로봇의 음성 재생 등이 있을 수 있으며, 장차 개발될 가능성이 있는 시각장애인을 위한 독서 장치, 개인 애니메이션 제작 애플리케이션 등 인위적인 텍스트를 청각을 통해 인지할 수 있는 신호로 변환이 필요한 모든 분야에 적용이 가능하다.

이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.

S100: 음성 데이터베이스로부터 통계 모델 학습 및 스위칭 선형 동적 시스템의 시스템 파라미터를 학습하는 단계
S110: 음성 데이터베이스로부터 통계 모델 학습을 수행하는 단계
S115: 통계 모델 값을 통계 모델 데이터베이스에 저장하는 단계
S120: 스위칭 선형 동적 시스템의 시스템 파라미터를 학습하는 단계
S121: 스위칭 선형 동적 시스템의 시스템 파라미터를 초기화 하는 단계
S122: 통계 모델 값을 입력 벡터로 하고, 음성 데이터베이스의 원음의 특징 벡터를 출력 벡터로 구성하여, 칼만 스무딩을 통해 상태 벡터의 통계 값을 추정하는 단계
S123: 상태 벡터의 통계 값과 입력 벡터 및 출력 벡터를 이용하여 시스템 파라미터를 추정하는 단계
S124: 최대 우도 기법을 이용하여 스위칭 선형 동적 시스템의 시스템 파라미터를 학습하는 단계
S125: 시스템 파라미터를 스위칭 선형 동적 시스템 데이터베이스에 저장하는 단계
S200: 입력된 문장 또는 단어에 대응되는 통계 모델 및 변환기를 선택하며 스위칭 선형 동적 시스템으로부터 추정된 합성 특징 벡터로부터 음성을 합성하는 단계
S210: 입력된 문장 또는 단어에 대응되는 통계 모델 및 스위칭 선형 동적 시스템을 선택 및 조합하는 단계
S220: 통계 모델 값을 입력 벡터로 하고, 시스템 파라미터를 이용하여 스위칭 선형 동적 시스템으로부터 우도를 최대로 하는 합성 특징 벡터를 추정하는 단계
S230: 음성 합성 필터를 이용하여 합성 특징 벡터로부터 음성 신호를 합성하는 단계

Claims

통계적 음성 합성 시스템의 음성 합성 방법으로서,
(1) 음성 데이터베이스로부터 통계 모델 학습 및 최대 우도 기법을 이용하여 스위칭 선형 동적 시스템의 시스템 파라미터를 학습하는 단계; 및
(2) 입력된 문장 또는 단어에 대응되는 통계 모델 및 변환기를 선택하며, 상기 단계 (1)에서 학습한 통계 모델 값을 입력으로 하여 스위칭 선형 동적 시스템으로부터 추정된 합성 특징 벡터로부터 음성을 합성하는 단계를 포함하는 것을 특징으로 하는, 스위칭 선형 동적 시스템을 활용한 통계적 음성 합성 시스템의 음성 합성 방법.
제1항에 있어서, 상기 단계 (1)은,
(1-1) 상기 음성 데이터베이스로부터 통계 모델 학습을 수행하는 단계; 및
(1-2) 상기 학습한 통계 모델 값을 벡터화하여 상기 스위칭 선형 동적 시스템의 입력으로 하고, 최대 우도 기법을 이용하여 상기 스위칭 선형 동적 시스템의 시스템 파라미터를 학습하는 단계를 포함하는 것을 특징으로 하는, 스위칭 선형 동적 시스템을 활용한 통계적 음성 합성 시스템의 음성 합성 방법.
제2항에 있어서, 상기 단계 (1-1)은,
상기 학습한 통계 모델 값을 통계 모델 데이터베이스에 저장하는 단계를 더 포함하는 것을 특징으로 하는, 스위칭 선형 동적 시스템을 활용한 통계적 음성 합성 시스템의 음성 합성 방법.
제2항에 있어서, 상기 단계 (1-2)는,
(a) 상기 스위칭 선형 동적 시스템의 시스템 파라미터를 초기화 하는 단계;
(b) 상기 단계 (1-1)에서 학습한 통계 모델 값을 벡터화하여 상기 스위칭 선형 동적 시스템의 입력 벡터로 하고, 상기 음성 데이터베이스의 원음의 특징 벡터를 상기 스위칭 선형 동적 시스템의 출력 벡터로 구성하여, 상기 입력 벡터 및 출력 벡터를 바탕으로 칼만 스무딩을 통해 상태 벡터의 통계 값을 추정하는 단계;
(c) 상기 추정한 상태 벡터의 통계 값과 상기 입력 벡터 및 출력 벡터를 이용하여 시스템 파라미터를 추정하는 단계; 및
(d) 상기 단계 (b) 및 (c)를 우도가 최대로 수렴할 때까지 반복하여 상기 스위칭 선형 동적 시스템의 시스템 파라미터를 학습하는 단계를 포함하는 것을 특징으로 하는, 스위칭 선형 동적 시스템을 활용한 통계적 음성 합성 시스템의 음성 합성 방법.
제2항에 있어서, 상기 단계 (1-2)는,
상기 학습한 상기 스위칭 선형 동적 시스템의 시스템 파라미터를 스위칭 선형 동적 시스템 데이터베이스에 저장하는 단계를 더 포함하는 것을 특징으로 하는, 스위칭 선형 동적 시스템을 활용한 통계적 음성 합성 시스템의 음성 합성 방법.
제1항에 있어서, 상기 단계 (2)는,
(2-1) 입력된 문장 또는 단어에 대응되는 통계 모델 및 스위칭 선형 동적 시스템을 선택 및 조합하는 단계;
(2-2) 상기 단계 (1)에서 학습한 통계 모델 값을 벡터화하여 상기 스위칭 선형 동적 시스템의 입력 벡터로 하고, 상기 단계 (1)에서 학습한 시스템 파라미터를 이용하여 스위칭 선형 동적 시스템으로부터 우도를 최대로 하는 합성 특징 벡터를 추정하는 단계; 및
(2-3) 음성 합성 필터를 이용하여 상기 추정된 합성 특징 벡터로부터 음성 신호를 합성하는 단계를 포함하는 것을 특징으로 하는, 스위칭 선형 동적 시스템을 활용한 통계적 음성 합성 시스템의 음성 합성 방법.
제1항에 있어서,
상기 스위칭 선형 동적 시스템은 다음 수학식으로 구성되는 것을 특징으로 하는, 스위칭 선형 동적 시스템을 활용한 통계적 음성 합성 시스템의 음성 합성 방법.

여기서, x_t, y_t, z_t는 각각 시간 t에서의 입력 벡터, 출력 벡터, 상태 벡터를 의미하며, A_m, B_m, C_m, D_m는 각각 변환기 m에 대한 상태천이 행렬, 입력 행렬, 출력 행렬, 변환 행렬을 나타내며, u_t, w_t는 각각 시간 t에서의 상태천이 모델과 출력 모델의 잡음을 나타낸다.