KR100641347B1

KR100641347B1 - 코퍼스 기반 음성합성에서 섭동을 이용한 합성단위 탐색방법

Info

Publication number: KR100641347B1
Application number: KR1020020088062A
Authority: KR
Inventors: 김진영
Original assignee: 송우아이엔티 주식회사; 정보통신연구진흥원; 김진영
Priority date: 2002-12-31
Filing date: 2002-12-31
Publication date: 2006-10-31
Also published as: KR20040061768A

Abstract

1. 청구범위에 기재된 발명이 속하는 기술분야

본 발명은 음성합성시스템에서 합성단위 선정에 관한 것으로서, 특히 대용량의 음성 데이터베이스로부터 음성합성을 하는 코퍼스(Corpus) 기반의 음성 합성 방법에 관한 것임.

2. 발명이 해결하려고 하는 기술적 과제

본 발명은 코퍼스 기반의 음성합성 방법에 있어서, 섭동을 주고 국부 최대 오차 거리가 작은 합성열을 선택함으로써, 음성 합성시의 국부적이 오차를 줄여 전체적으로 매끄러운 음성 합성이 가능하도록 하는 코퍼스 기반 음성합성에서 섭동을 이용한 합성단위 탐색방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있음.

3. 발명의 해결 방법의 요지

본 발명은, 코퍼스(Corpus) 기반 음성합성에서 섭동(perturbation)을 이용한 합성단위 탐색방법에 있어서, 합성단위 인덱스에 대해 누적거리 및 변수에 대한 초기화를 하는 제 1 단계; 모든 합성 단위 인덱스에 대해, 섭동을 고려한 누적거리를 계산하고 선택 인덱스를 결정하는 제 2 단계; 상기 제 2 단계에서 누적거리가 계산된 최후 합성 단위 후보마다 후방향 탐색에 의한 합성 단위열을 선정하는 제 3 단계; 및 상기 제 3 단계의 합성단위열마다 국부 최대 오차를 계산하여 국부 최대 오차거리가 가장 작은 열을 선정하는 제 4 단계를 포함함.

4. 발명의 중요한 용도

본 발명은 음성 합성 등에 이용됨.

코퍼스, 음성 합성, 섭동, 후 탐색,

Description

코퍼스 기반 음성합성에서 섭동을 이용한 합성단위 탐색방법{Searching Method for synthesis unit By Using Perturbation in Corpus Based Speech Synthesis}

도 1 은 종래의 코퍼스 기반 음성합성 방법에 의한 음성 합성 장치의 일실시예 구성도.

도 2 는 종래의 코퍼스 기반 음성합성 방법에서 최적 합성단위 후보 열 선택 과정의 일실시예 개념도.

도 3 은 일반적인 비터비(Viterbi)탐색 방법에 대한 일실시예 흐름도.

도 4 는 본 발명에 따른 코퍼스 기반 음성합성에서 섭동을 이용한 합성단위 탐색방법의 개념 설명도.

도 5 는 본 발명에 따른 코퍼스 기반 음성합성에서 섭동을 이용한 합성단위 탐색방법의 일실시예 흐름도.

도 3은 본 특허의 개념을 보여주는 예제

도 4는 섭동과 최대오차 거리 기준에 의한 합성단위 탐색 방법 블록 구성도

도 5는 섭동을 이용한 합성단위 탐색 장치

* 도면의 주요 부분에 대한 부호 설명

본 발명은 음성합성시스템에서 합성단위 선정에 관한 것으로서, 특히 대용량의 음성 데이터베이스로부터 음성합성을 하는 코퍼스(Corpus) 기반의 음성 합성 방법에 관한 것이다.

일반적인 음성합성 방법에는 합성 가능한 어휘의 범위에 따라 제한 어휘 합성과 무제한 어휘 합성 방식으로 분류된다.

특히, 무제한 어휘 합성 방식으로는 파라미터(parameter) 방식인 포먼트(Formant), 선형예측계수(LPC: Linear Prediction Coefficient), 엘에스피(LSP: Line Spectrum Pair) 합성 방법 등이 연구되어 왔으며, 이 방법들에 의해 생성된 합성음질은 다소 열악하지만 음원과 성도 파라미터 등을 조절함으로써 다양한 합성음을 만들 수 있으며, 합성 장치의 크기가 매우 작기 때문에 최근에는 휴대용 단말기에 많이 이용되고 있다.

또한, 고품질의 무제한 합성음을 생성하기 위해 음성인식장치에 기반한 학습 기를 이용하여 대용량의 음성 데이터베이스로부터 자동으로 합성단위를 생성하여 합성 데이터베이스를 구축하고, 구축된 합성 데이터베이스로부터 음향특성의 연속성이 양호한 합성단위를 선택하여 연결하는 코퍼스 기반의 음성합성 방법이 연구되어 왔다.

도 1, 2 를 참조하여 종래의 코퍼스 기반의 음성합성 방법을 설명하면 입력된 문장에 대하여 구문 분석 수단(100)을 통해 구문 분석을 수행하여 품사 정보를 추출하고, 발음 변환 수단(101)을 통해 발음변환을 수행하여 합성단위 열(200)을 생성한다. 합성단위 후보 선택수단(102)은 생성된 합성단위 열(200)에 있어서 각각의 합성단위에 해당하는 합성단위 후보들(201)을 합성 데이터베이스(103)에서 가져와서 모두 나열한 다음, 순차적으로 연결 가능한 모든 경로에 대하여 각 합성단위 후보간 접합점에서의 음향특성에 대한 연속성을 측정한다. 연속성 측정을 완료한 후 이어서 접합점에서 연속성이 가장 양호한 경로를 순차적으로 역 추적하면 전체 경로상에서 누적된 연속성이 가장 양호한 하나의 경로(예를 들면, 도 2 에서 굵은 실선)를 선택할 수 있다. 이는 흔히 비터비 탐색(Viterbi search) 방법으로 알려져 있다. 합성단위 연결 수단(105)을 통해, 선택된 합성단위 후보 열(202)을 차례대로 연결하면(105) 입력문장에 해당되는 합성음이 생성된다.

상기의 과정을 수학적으로 좀더 상세히 살펴보면, 예를 들어, '나는 간다'의 경우 'ㄴ', 'ㅏ', 'ㄱ', 'ㅏ', 'ㄷ'에 해당하는 다양한 변이를 합성 데이터베이스(103)에서 찾아 나열하고, 이로부터 최적 단위의 합성단위 후보(instance)들을 찾아 음성파형을 연쇄시킴으로써 합성음이 생성된다.

최적의 합성단위 열을 찾아 내기 위해서는 이 과정을 수확적으로 명확하게 정의해야 하는데, 목표비용(target cost)와 연결비용(concatenation cost)가 정의되며, 탐색방법으로서는 비터비(Viterbi) 탐색이 널리 사용되고 있다.

여기서, 목표비용은 각 합성단위의 특징이 목표치(목표된 단위의 길이, 세기 그리고, 피치)등과 얼마나 유사한지를 측정하는 척도이고, 연결비용은 두 합성단위가 얼마나 부드럽게 이어지는 지를 측정하는 척도로서, 주로 두 단위간의 세기와 피치 그리고 스펙트럼의 차이등이 사용된다.

그러면, 비터비 탐색 방법을 설명하기 위하여, 다음과 같은 수학적 정의를 하여 보자.

1)

: 합성 데이터베이스(103)에 존재하는 합성문장의 i번째 음소의 합성단위 후보들 (단, i=1,2,...,I),

2)

: 합성문장의 i번째 음소의 j 번째 합성단위 후보,

3)

: 합성문장 i 번째 음소의 j번째 합성단위 후보와 i+1번째 음소의 k번째 합성단위 후보와의 연결 함수

그러면, 최적의 합성열을 찾는 과정은 다음과 같이 정의된다.

즉, 최소 거리값을 가지는 합성열을 찾는 것이다.

이 문제를 풀기 위한 방법으로서 일반적으로 사용되는 방법은 비터비 탐색과 후방향 탐색(back-tracking)이다. 이 과정을 수학적으로 설명하면, 도 3 과 같다.

우선, 모든 합성단위 인덱스 "i"에 대하여 다음의 <수학식 1>과 같이 초기화 한다(301).

각 "i" 에 대하여 모든 "j" 에 대하여, <수학식 2>에 따른 누적 거리를 계산한다(302). 그리고, "i"가 1 부터 I 까지 반복한다(303).

그리고, <수학식 3>을 통해 최소 누적거리와 최적열을 표현하는 인덱스를 찾는다(304).

그리고 마지막으로 <수학식 4>를 통한 후방향 탐색을 수행한다(305).

여기서

는 i번째 음소의 j번째 음소에 이르기까지의 최소 누적 거리를 말하고,

는 i번째 음소의 j번째 음소가 i-1번째 음소의 몇 번째 합성단위 후보에서 왔는지를 기억하는 변수이다.

위에서 기술한 바와 같은 비터비 탐색을 이용하여 최적의 탐색열을 결정하는데, 최적열을 표현하는 인덱스는

이다.

한편, 목표거리함수와 연결거리함수의 척도는 본 특허와 관련이 적으므로 설명을 생략한다.

이와 같은 코퍼스 기반의 음성합성 방법은 "Donovan et al., Improvements in an HMM-Based Synthesizer, ESCA Eurospeech '95.4th EuropeanConference on Speech Communication and Technology, Madrid, Sep. 1995, pp. 573-576." 의 논문에서 공개되었고, 이후 "Xuedong Huang, A. Acero, J. Adcock, Hsiao-Wuen Hon, J. Goldsmith, Jingsong Liu, and M. Plumpe, "Whistler: ATrainable Text-to-Speech System, Proc. Fourth Int. Conf. Spoken Language, 1996. ICSLP 96, vol. 4, pp. 2387-23 90,Oct.3-6, 1996." , "Huang et al. Recent Improvements on Microsoft's Trainable Text-to-Speech System-Whistler, 1997IEEE, pp. 959-962; ICASSP-97, Apr. 21-24." , "Campbell et al., Stress, Prominence, and Spectral Tilt, ESCAWorkshop on Intonation: Theory, Models and Applications, Athens Greece, Sep. 18-20, 1997, pp. 67-70." 에 공개되어있다. 종래 기술에서 "학습형(Trainable)" 이란 합성 데이터베이스를 자동으로 제작하는 단계에서 음성인식기에 기반한 학습기를 적용한 것에서 도입된 용어이다.

일반적으로 코퍼스 기반의 음성합성 방법에 의한 합성음은 입력문장을 합성하기 위해 선택된 합성단위 후보간 접합점에서 음향특성(스펙트럼, 운율특성 등)의 연속성이 양호할수록 자연스러우나, 연속성이 유지되지 않아서 불연속이 커지는 경우에는 합성음질이 저하된다. 따라서, 합성 데이터베이스를 구축할 때 포함된 어휘를 합성할 경우에는 접합점에서의 연속성이 양호하면 매우 자연스런 합성음을 얻을 수 있으나, 합성 데이터베이스 구축시 포함되지 않은 어휘를 합성할 경우 합성음질이 크게 저하되는 단점이 있다. 이와 같은 단점을 해결하기 위해서는 다양한 어휘가 포함되도록 합성 데이터베이스를 확장하여 구축해야 하지만, 이러한 경우 합성 데이터베이스의 용량이 너무 커져서 합성장치를 운용하기 위한 하드웨어를 제작하기 어렵거나 많은 비용이 소요되고 처리속도가 크게 저하되는 단점이 있다.

게다가, 일반적인 합성단위 탐색방법은 결국 합성단위열의 거리합이 최소가 되는 합성단위열을 찾는 방법으로서, 거리의 합을 중요시하게 된다. 그러므로, 일시적으로나마 국부적으로 합성단위간의 거리가 크다고 할지라도, 비터비탐색 상에서 이 합성단위를 지나는 길(path)의 거리합이 최소라면, 이 열은 합성을 위한 합성단위열로서 선정된다.

이러한 경우 합성음은 전반적으로는 자연스럽고 매끄러운 합성음질을 가지게 되겠지만, 매우 국부적인 한 음소에서 합성음질이 저하될 수가 있는데, 이는 청취 자로 하여금 합성음 전체의 음질이 좋지 못한 것으로 판단하게 하는 문제점이 있다.

본 발명은, 상기와 같은 문제점을 해결하기 위하여 제안된 것으로, 코퍼스 기반의 음성합성 방법에 있어서, 섭동을 주고 국부 최대 오차 거리가 작은 합성열을 선택함으로써, 음성 합성시의 국부적이 오차를 줄여 전체적으로 매끄러운 음성 합성이 가능하도록 하는 코퍼스 기반 음성합성에서 섭동을 이용한 합성단위 탐색방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.

즉, 본 발명은 음성합성에 있어서, 합성단위 열들의 전체 거리합보다는 국부적인 거리들이 오차가 되도록 작아지도록 하자는 합성단위 탐색 개념을 도입한다. 따라서, 주어진 합성열의 전체의 거리합보다는 주어진 합성열에서 국부적인 거리의 가장 큰 값이 작아지도록 최적화하는 합성단위 탐색방법을 제시한다. 결과적으로, 국부적 섭동을 이용하여 비터비 탐색으로부터 다양한 부최적(sub-optimum)한 해(합성단위 열들)을 찾고, 찾아진 합성단위 열들의 셋으로부터 후방탐색 및 최적오차를 최소화하는 최적화 방법(Min Max 방법)을 사용한 코퍼스 기반 음성합성에서 섭동을 이용한 합성단위 탐색방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.

상기의 목적을 달성하기 위한 본 발명은, 코퍼스(Corpus) 기반 음성합성에서 섭동(perturbation)을 이용한 합성단위 탐색방법에 있어서, 합성단위 인덱스에 대해 누적거리 및 변수에 대한 초기화를 하는 제 1 단계; 모든 합성 단위 인덱스에 대해, 섭동을 고려한 누적거리를 계산하고 선택 인덱스를 결정하는 제 2 단계; 상기 제 2 단계에서 누적거리가 계산된 최후 합성 단위 후보마다 후방향 탐색에 의한 합성 단위열을 선정하는 제 3 단계; 및 상기 제 3 단계의 합성단위열마다 국부 최대 오차를 계산하여 국부 최대 오차거리가 가장 작은 열을 선정하는 제 4 단계를 포함한다.

또한, 본발명은, 프로세서를 구비한 음성 합성 시스템에, 합성단위 인덱스에 대해 누적거리 및 변수에 대한 초기화를 하는 제 1 기능; 모든 합성 단위 인덱스에 대해, 섭동을 고려한 누적거리를 계산하고 선택 인덱스를 결정하는 제 2 기능; 상기 제 2 기능에 의해서 누적거리가 계산된 최후 합성 단위 후보마다 후방향 탐색에 의한 합성 단위열을 선정하는 제 3 기능; 및 상기 제 3 기능에 의한 합성단위열마다 국부 최대 오차를 계산하여 국부 최대 오차거리가 가장 작은 열을 선정하는 제 4 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.

이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다. 또한, 본 발명을 설명함에 있어서, 관련된 공지기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명은 생략한다.

도 4 는 본 발명에 따른 코퍼스 기반 음성합성에서 섭동을 이용한 합성단위 탐색방법의 개념 설명도이다. 도 4에 도시된 a_ij는 i번째 음소의 j번째 합성단위 후보이다. 그 거리를 "0.1", "0.13", "0.2" 등으로 표시하고 있다.

이때, 설명을 간단히 하기 위하여, 각각의 합성단위 후보의 목표거리는 모두 동일하고 0이라고 가정한다. 이 경우, 기존의 비터비 탐색 방법을 사용하면, 도 3에서 보인 바와 같이 a₁₁->a_₂₁->a₃₂가 되고 최소누적거리는 0.3, 그리고 최대오차는 0.2가 된다.

그러나, 본 발명에 의한 "국부 최대 오차(MinMax)"의 개념에서 최적의 길은 a₁₂->a₂₁->a₃₁ 와 같다. 이 경우 누적거리는 0.32이고 최대오차는 0.17이 된다. 기존의 비터비 탐색과 국부 최대 오차(MinMax) 개념의 탐색방법을 비교하면, 본 발명에서 제안하는 방법이 누적거리의 측면에서는 좋지 않지만, 합성음의 음질을 떨어뜨리는 가장 좋지 않은 경우인 국부 오차의 경우는 오차가 0.2에서 0.17로 줄어듦을 알 수가 있다.

기존의 비터비 탐색 방법을 사용하면, 물론 여러 개의 합성단위 열 셋이 도출될 수 있으나, 이들의 탐색열을 비교해 보면, 주로 열의 마지막 부분들에서만 차이를 가지게 된다. 따라서, 기존의 비터비 탐색의 계산량을 증가하지 않으면서 합성문장의 전 부분에서 상이한 합성단위 후보들을 갖는 열을 찾는 한가지 방법은 섭동 기술을 이용하는 것이다.

도 5 는 본 발명에 따른 코퍼스 기반 음성합성에서 섭동을 이용한 합성단위 탐색방법의 일실시예 흐름도이다. 도 5 에 도시된 코퍼스 기반 음성합성에서 섭동을 이용한 합성단위 탐색방법은 우선, 모든 합성단위 인덱스 "i"에 대하여 다음의 <수학식 5>과 같이 초기화한다(501).

각 "i" 에 대하여 모든 "j" 에 대하여, <수학식 6>에 따른 누적 거리를 계산하고 선택인덱스를 결정한다(502). 그리고, 502의 과정을 "i"가 1 부터 I 까지 반복한다(503). 즉, 기존의 비터비 탐색의 누적거리함수는 다음의 <수학식 6>와 같이 변형된다.

상기 <수학식 6>에서 "

"는 적당한 범위의 불규칙변수값이고, "

"는 불규칙변수값의 반영도를 나타내는 값이며, "

"에 음소 인덱스 "i"를 곱한 것은 "

" 거리가 누적거리이기 때문에 i번째 음소의 계산에서는 "U"라는 거리가 i번 더해졌음을 반영하기 위한 것이다.

특히, "

"와 같은 적당한 범위의 불규칙변수값을 주기 위해 난수 발생기 를 이용할 수 있다.

즉, 본 발명에서는 누적거리 계산 과정(502)에서 누적거리 함수에 섭동을 줌으로써, 기존의 개념에서 최적인 열로부터의 분산된 열들을 찾게 하여 준다. 그리고, 502~503의 과정을 완료하면, 최후의 합성단위의 합성단위 후보마다, 누적거리를 계산하게 된다. 이는 <수학식 7>과 같다.

그리고, <수학식 8>을 사용하여, N개의 합성단위 열을 찾는다. 즉, 최후 합성 단위 후보마다 후방향 탐색에 의한 합성 단위열을 선정한다(504).

상기 <수학식 8>은 주어진 j에 대하여 i를 1~I까지 변화시키며 반복하고, 이를 N번 하게 된다. 이는 누적거리가 가장 적은 노드 뿐 아니라 모든 노드에 대하여 후방향탐색을 한다는 것을 의미한다.

그리고, 주어진 N개의 열에 대하여 최대오차를 계산하는데, 이는 <수학식 9>과 같이 표현된다.

여기서,

는 j번째 합성단위 열의 최대오차를 의미한다.

그리고, 계산된

을 통해서 국부 최대 오차거리가 가장 작은 합성단위 열을 선정하고(505) 이를 이용하여 음성파편을 찾아서 연쇄하고 합성음을 생성한다.

상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 형태로 기록매체(씨디롬, 램, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다.

이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 있어 본 발명의 기술적 사상을 벗어나지 않는 범위내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.

상기와 같은 본 발명은, 코퍼스 기반의 음성 합성 방법에 있어서, 기존의 비터비 탐색이 가지고 있던 국부적 오차의 문제를 줄여 그 음성 합성음의 음질을 개선하는 효과가 있다.

Claims

코퍼스(Corpus) 기반 음성합성에서 섭동(perturbation)을 이용한 합성단위 탐색방법에 있어서,

합성단위 인덱스에 대해 누적거리 및 변수에 대한 초기화를 하는 제 1 단계;

모든 합성 단위 인덱스에 대해, 섭동을 고려한 누적거리를 계산하고 선택 인덱스를 결정하는 제 2 단계;

상기 제 2 단계에서 누적거리가 계산된 최후 합성 단위 후보마다 후방향 탐색에 의한 합성 단위열을 선정하는 제 3 단계; 및

상기 제 3 단계의 합성단위열마다 국부 최대 오차를 계산하여 국부 최대 오차거리가 가장 작은 열을 선정하는 제 4 단계를 포함하는 코퍼스 기반 음성합성에서 섭동을 이용한 합성단위 탐색방법.
제 1 항에 있어서, 상기 제 2 단계의 섭동을 고려한 누적거리를 계산은,

하기의 <수학식 10>을 이용하는 것을 특징으로 하는 코퍼스 기반 음성합성에서 섭동을 이용한 합성단위 탐색방법.

여기서,
는 i번째 음소의 j번째 음소에 이르기까지의 최소 누적 거리

는 i번째 음소의 j번째 음소가 i-1번째 음소의 몇 번째 합성단위 후보에서 왔는지를 기억하는 변수

: 합성 데이터베이스에 존재하는 합성문장의 i번째 음소의 합성단위 후보들 (단, i=1,2,...,I),

: 합성문장의 i번째 음소의 j 번째 합성단위 후보,

: 합성문장 i 번째 음소의 j번째 합성단위 후보와 i+1번째 음소의 k번째 합성단위 후보와의 연결 함수

는 적당한 범위의 불규칙변수값

는 불규칙변수값의 반영도를 나타내는 값
제 1 항에 있어서, 상기 제 3 단계의 후방향 탐색은, 누적거리가 가장 적은 노드 뿐 아니라 모든 노드에 대하여 후방향 탐색을 수행하는 것을 특징으로 하는 코퍼스 기반 음성합성에서 섭동을 이용한 합성단위 탐색방법.
프로세서를 구비한 음성 합성 시스템에,

합성단위 인덱스에 대해 누적거리 및 변수에 대한 초기화를 하는 제 1 기능;

모든 합성 단위 인덱스에 대해, 섭동을 고려한 누적거리를 계산하고 선택 인 덱스를 결정하는 제 2 기능;

상기 제 2 기능에 의해서 누적거리가 계산된 최후 합성 단위 후보마다 후방향 탐색에 의한 합성 단위열을 선정하는 제 3 기능; 및

상기 제 3 기능에 의한 합성단위열마다 국부 최대 오차를 계산하여 국부 최대 오차거리가 가장 작은 열을 선정하는 제 4 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.