KR100811226B1

KR100811226B1 - 악센트구 매칭 사전선택을 이용한 일본어음성합성방법 및시스템

Info

Publication number: KR100811226B1
Application number: KR1020060076688A
Authority: KR
Inventors: 이종석; 이준우; 전원석; 조미혜; 나덕수
Original assignee: 주식회사 보이스웨어
Priority date: 2006-08-14
Filing date: 2006-08-14
Publication date: 2008-03-07
Also published as: JP5174392B2; JP2008046636A; KR20080015235A

Abstract

본 발명에 따른 음성합성방법 및 시스템은 입력된 문장의 음소에 대한 발음 및 악센트 정보를 포함하는 기호로 변환하고, 상기 기호의 악센트 정보를 이용하여 상기 입력된 문장의 악센트구를 구분하고, 상기 구분된 악센트구를 기준으로 음성 데이터베이스(DB)에 미리 저장된 문장을 비교하여 유사한 문장들을 사전선택하고, 그리고 상기 사전선택된 문장들만을 이용하여 음성합성하는 것을 특징으로 한다.

음성합성, 억양구, 악센트구, 악센트정보를 포함한 발음기호, 악센트구매칭방법

Description

악센트구 매칭 사전선택을 이용한 일본어음성합성방법 및 시스템{Method For Japanese Voice Synthesizing Using Accentual Phrase Matching Pre-selection and System Thereof}

제1도는 종래 코퍼스 기반 음성합성시스템에 대한 시스템구성도이다.

제2도는 음성의 억양구(IP)와 악센트구(AP)를 나타내는 그림이다.

제3도는 본 발명에 따른 음성합성시스템의 시스템구성도이다.

제4도는 본 발명에 따른 악센트구 분리와 연결된 음소열의 최대길이(CCL) 검출방법을 나타내는 그림이다.

제5도는 악센트구 매칭 방법을 이용한 사전선택 순서도이다.

* 도면의 주요부호에 대한 간단한 설명 *

110, 210 : 문장입력부 120, 220 : 언어학적 처리부

121, 221 : Text전처리모듈 122, 222 : 문장분석모듈

123 : 발음표기변환모듈 130, 230 : 운율처리부

140, 250 : 음성신호처리부 141, 251 : 합성단위선택모듈

142, 252 : 운율조절모듈 143, 253 : 음성파형생성모듈

144, 254 : 음색제어모듈 150, 260 : 음성출력부

161, 261 : 숫자/약어/기호사전 162, 262 : 품사사전

163 : 발음사전 164, 264 : 음성 DB(데이터베이스)

223 : 표기변환모듈 240 : 사전선택처리부

241 : 분석/계산모듈 242 : 사전선택모듈

263 : 발음/악센트사전

발명의 분야

본 발명은 음성합성 방법 및 음성합성시스템에 관한 것이고, 보다 구체적으로 본 발명은 합성단위 선택 과정에서 비교해야할 후보의 수를 사전선택(pre-selection)하는 음성합성방법 및 시스템에 관한 것이다.

발명의 배경

지금까지 입력된 텍스트를 음성으로 합성(TTS: Text To Speech)하는 여러 가지 음성 합성 방법 및 시스템이 제안되고 사용되어 왔다. 그 중에서도 코퍼스 기반 음성 합성 방법은 음성을 합성단위(unit) 형태로 구성한 데이터베이스(DB)에서 합 성에 필요한 단위를 선택하고 이것들을 적절히 연결하여 합성음을 생성함으로써 고음질의 합성음을 생성할 수 있다.

이러한 코퍼스 기반 음성 합성 시스템에 대한 기본 시스템 구성도가 도1에 도시되어 있다. 도1을 참고로 일반적인 음성 합성 방법을 살펴보면, 문장이 입력되면 언어학적 처리부(120)의 텍스트 전처리모듈(121)이 숫자/약어/기호사전(161)을 사용하여 문장에 포함된 숫자, 기호 등을 텍스트(Text)로 전환하고, 문장분석모듈(122)이 품사사전(162)을 사용하여 문장을 분석하고, 발음표기변환모듈(123)이 발음사전(163)을 사용하여 발음표기로 변환한다.

상기 언어학적 처리부에서 입력문장의 전처리가 이루어지면, 운율처리부(130)는 언어학적 처리부에서 추출된 정보들을 이용하여 억양, 지속시간 등의 운율 정보를 생성한다.

또한 음성신호처리부(140)의 합성단위 선택모듈(141)은 언어학적 처리부에서 생성된 정보들을 이용하여 음성 DB(164)로부터 최적의 합성단위를 선택하고, 운율조절모듈(142)에서 상기 운율처리부(130)에서 발생시킨 운율 정보를 이용하여 운율을 조절한 다음, 음성파형생성모듈(143)에서 운율이 조절된 합성단위들을 연결하여 합성음을 만들어 음성출력부(150)를 통해 합성음을 출력한다. 이 때 부가적으로 음색제어 모듈(144)을 통해 음색을 조절할 수도 있다.

상기와 같은 구조의 일반적인 코퍼스 기반 음성 합성 시스템은 동적 프로그래밍 탐색 기법인 Viterbi 알고리즘을 사용하여 최적의 합성단위를 선택하며, 그 성능이 좋아 현재 많이 사용되고 있다.

그러나 보다 좋은 음질을 얻기 위해서는 음성신호처리부(140)에서 사용하는 음성 DB(164)에 다양한 음운 변화 및 발음 규칙이 포함되도록 구성해야하는데 데이터베이스에 다양한 발음 조합을 포함하게하면 할수록 음질은 좋아지는 반면 데이터베이스에 저장된 자료의 양이 매우 커져 최적의 합성단위를 선택하기 위한 합성단위 검색 시간 및 계산량이 급격히 증가하여 실시간 음성합성이 불가능하게 되는 문제점이 발생된다.

이에 본 발명자들은 언어에 존재하는 억양 발화 특성, 특히 일본어에 존재하는 억양 발화 특성을 파악하고 이를 이용하여 음성합성 과정에서 비교해야할 후보의 수를 효과적으로 줄이는 반면 최적의 후보가 제외되지 않도록 하여 신속하고 우수한 음질의 음성합성을 할 수 있는 사전선택 방법 및 이를 이용한 시스템을 개발하기에 이른 것이다.

본 발명의 목적은 일본어의 운율 특성을 이용함으로써 일본어 음성합성에 유용한 음성합성 방법 및 시스템을 제공하기 위한 것이다.

본 발명의 다른 목적은 최적의 합성단위를 선택하기 전에 합성단위 선택에서 비교해야할 후보를 사전선택함으로써 신속한 음성합성이 가능한 음성합성 방법 및 시스템을 제공하기 위한 것이다.

본 발명의 또 다른 목적은 악센트 구 단위로 사전선택을 수행하는 효율적이고 고음질의 음성합성이 가능한 음성합성 방법 및 시스템을 제공하기 위한 것이다.

본 발명의 또 다른 목적은 연결된 음소열의 최대길이를 기준으로 후보의 유사도를 판단함으로써 최적의 후보가 제외되는 것은 방지할 수 있는 음성합성 방법 및 시스템을 제공하기 위한 것이다.

본 발명의 또 다른 목적은 음성합성을 위해 문장을 구성하는 음소의 발음정보뿐만 아니라 악센트 정보를 함께 나타낼 수 있는 발음기호 표시방법을 제공하기 위한 것이다.

본 발명의 또 다른 목적은 문장의 악센트 정보로부터 단어와 단어 사이의 운율정보인 휴지기 정보를 파악할 수 있는 방법을 제공하기 위한 것이다.

본 발명의 또 다른 목적은 문장의 휴지기 정보를 통해 악센트구를 구분할 수 있는 방법을 제공하기 위한 것이다.

본 발명의 또 다른 목적은 최적의 후보를 선택하기 위한 악센트구 매칭 방법을 제공하기 위한 것이다.

본 발명의 상기 및 기타의 목적들은 하기 설명되는 본 발명에 의하여 모두 달성될 수 있다.

발명의 요약

본 발명에 따른 음성합성방법은 입력된 문장의 음소에 대한 발음 및 악센트 정보를 포함하는 기호로 변환하고, 상기 기호의 악센트 정보를 이용하여 상기 입력 된 문장의 악센트구를 구분하고, 상기 구분된 악센트구를 기준으로 음성 데이터베이스(DB)에 미리 저장된 문장을 비교하여 유사한 문장들을 사전선택하고, 그리고 상기 사전선택된 문장들만을 이용하여 음성합성하는 것을 특징으로 한다.

또한 상기와 음성합성을 위해 입력된 문장을 악센트 정보가 포함된 발음기호로 나타내고, 이 기호가 나타내는 악센트정보로부터 문장을 구성하는 단어와 단어 사이의 휴지기 정보를 파악하고, 파악된 휴지기 정보로부터 악센트 경계를 파악하는 것을 특징으로 한다.

또한 파악된 악센트구 정보를 이용한 악센트구 매칭방법에 있어서 일치하는 음소열의 최대 길이를 나타내는 CCL값을 이용함으로써 최적의 후보가 사전선택과정에서 제외되는 것을 방지하는 것을 특징으로 한다.

발명의 구체예에 대한 상세한 설명

일반적으로 억양은 문장을 그 단위로 하는 억양구(Intonational Phase: IP) 단위로 변화하므로 억양구 전체를 비교하여 모든 음소열이 일치하는 후보가 존재하는 경우 이것들만을 후보로 하여 합성단위 선택을 수행하면 음성합성을 위한 계산량을 줄일 수 있을 뿐만 아니라 합성되는 음성 단위가 모두 연결되어 있어 음질도 녹음 음질과 동일하게 우수하다.

즉, 예를 들어 "안녕하세요"라는 문장을 음성합성할 때 "안녕하세요"라는 음성이 DB에 존재하면 이것만을 후보로 선택하고 이 음성을 구성하는 합성단위들을 그대로 가져와서 합성음을 생성하는 것이다. 한국어와 같이 억양이 억양구(IP) 단 위로 주로 변화하는 언어의 경우 억양구 단위로 합성단위들을 탐색하도록 구현함으로써 음성합성에 필요한 후보의 수를 줄임과 동시에 합성 음질도 향상시킬 수 있다. 그러나 억양구는 하나의 문장과 같이 비교적 긴 길이를 갖는 큰 운율 단위이므로 억양구 전체가 일치하는 후보가 존재할 확률은 낮다.

이에 반해 일본어의 경우 도 2에 도시된 바와 같이 억양구 보다 작은 악센트구 단위로 억양이 크게 변화하는 특징이 있다. 따라서 일본어의 경우 억양구 보다 작은 단위인 악센트구(Accentual Phrase: AP) 단위로 후보를 비교함으로써 일치하는 후보를 찾을 확률을 높임과 동시에 악센트 구가 일치하는 후보들만으로 합성단위 선택을 수행하여 억양구 전체가 일치하는 경우와 동일하게 우수한 음질의 합성음을 얻을 수 있다.

도 3에 본 발명에 따른 음성합성시스템의 시스템 구성도가 도시되어 있다. 우선 문장입력부(210)를 통해 일본어 문장이 입력되면 언어학적 처리부(220)의 텍스트 전처리모듈(221)이 숫자/약어/기호사전(261)를 사용하여 문장에 포함된 숫자, 기호 등을 텍스트(Text)로 전환한다. 즉, 문장에 "1", "2" 등의 숫자가 포함되어 있는 경우 숫자 "1"과 "2"에 대응하는 일본어 텍스트 "いち", "に"로 텍스트 처리된다.

상기 텍스트 처리된 문장은 문장분석모듈(222)이 품사사전(262)을 사용하여 문장을 분석하고, 표기변환모듈(223)이 발음/악센트사전(263)을 사용하여 악센트 정보가 포함된 발음기호로 문장의 표기를 변환한다.

상기 언어학적 처리부(220)에서 입력문장의 전처리가 이루어지면, 운율처리 부(230)는 언어학적 처리부에서 추출된 정보들을 이용하여 억양, 지속시간 등의 운율 정보를 생성하고, 사전선택처리부(240)의 분석/계산 모듈(241)에서는 언어학적 처리부에서 추출된 정보들을 이용하여 억양구(IP) 및 악센트구(AP)를 분석하고 연결된 음소 열의 최대 길이(Connected Context Length: CCL)를 계산하고, 사전선택모듈(242)에서는 분석/계산 모듈에서 분석된 정보를 바탕으로 억양구 및/또는 악센트 구가 일치하는지를 비교하는 악센트구 매칭(Accentual Phrase Matching) 기법을 통해 음성합성에 이용될 후보들을 사전선택(pre-selection)한다.

위의 사전선택처리부(240)에서 음성합성에 사용될 후보들이 사전선택되면 종래와 동일한 방법으로 합성단위 선택모듈(251)이 사전선택된 후보들을 이용하여 최적의 합성단위를 찾고, 운율조절모듈(252)이 운율처리부(230)에서 생성된 운율정보를 이용하여 운율을 조절한 뒤 음성파형생성모듈(253)에서 운율 조절된 최적의 합성단위들을 연결하여 합성음을 만들고 음성출력부(250)를 통해 합성음을 출력하게 된다. 이때 부가적으로 음색제어모듈(254)을 통해 음색을 조절할 수도 있다.

위와 같이 본 발명에 따른 음성합성 시스템에서는 최적의 합성단위를 선택하는 과정을 수행하기 전에 음성DB에 저장된 문장들 중에서 합성단위 선택 과정에 참여할 일정 범위의 문장들, 즉 후보를 사전선택한다. 이와 같은 사전선택을 수행하기 위해서는 음성합성하고자 하는 문장과 음성DB에 저장된 문장들 사이에 악센트구 단위의 매칭이 이루어져야하고, 악센트구 단위의 매칭이 이루어지기 위해서는 음성합성하고자 하는 문장의 악센트구가 분석되어야 하며, 문장의 악센트구를 분석하기 위해서는 문장을 구성하는 음소에 대한 발음과 악센트정보를 동시에 표시하는 기호 로 나타낼 수 있어야 한다.

따라서 이하에서 악센트 정보가 포함된 발음기호로 입력된 문장을 표현하는 방법, 이를 통해 악센트구를 분리하는 방법, 악센트구 매칭 기법에 대해 보다 상세히 설명하기로 한다.

⊙ 악센트 정보가 포함된 발음기호

음소는 크게 모음과 자음으로 나눌 수 있는데, 모음의 경우 단음과 장음으로 구분될 수 있으며, 단음은 다시 저음과 고음으로 나뉠 수 있으며, 장음의 경우 저음, 고음, 저음에서 고음으로 변하는 경우, 고음에서 저음으로 변하는 경우로 구분될 수 있으며, 본 발명에서는 일본어의 고유한 악센트 변화를 반영하기 위해 추가적으로 고음인 단음 뒤에 저음이 오는 경우와 고음이 오는 경우를 구분한다.

위와 같은 악센트 정보를 표시하기 위해 본 발명에서는 자음의 경우 일반적인 발음기호를 사용하지만 모음의 경우 악센트정보를 표시할 수 있는 기호를 일반적인 발음기호와 병기하여 다음의 표1과 같이 나타낸다. 그러나 표1과 같이 숫자로 악센트 정보를 구분하여 표시하는 것은 예시적인 것일 뿐 상기의 원칙에 따라 악센트 정보를 표기할 수 있는 어떠한 형태의 기호도 정의하여 사용될 수 있음을 당업자는 용이하게 이해할 수 있을 것이다.

도4에 나타낸 바와 같이, 예를 들어 "후지산은 일본에서 가장 높은 산이다"라는 의미의 일본어 문장 "富士山は日本で一番高い山です。"이 입력되었을 경우 품사사전에 의한 문장분석 후 상기와 같은 방식으로 악센트 정보가 포함된 발음기호로 입력된 문장을 표현하면 "[h u2 j i0 s a0 xN0][wa0][n i0 h o2 xn0][d e0][i0 ch i1 b a1 xn1][t a0 k a2 i0][ya0 m a2][d e0 s u0]"와 같이 표현할 수 있다.

⊙ 악센트구 결정 방법

상기와 같이 악센트정보가 표시된 기호 문장이 표현되면, 이로부터 악센트 구의 경계를 찾기 위해서는 먼저 단어와 단어 사이에 적용되는 운율정보인 휴지기 정보를 결정하여야 한다.

본 발명에서는 표2와 같이 단어와 단어 휴지기를 5가지로 구분한다.

입력된 문장에서 휴지기를 결정하기 위해서는 문장 분석으로 얻어진 단어의 품사, 발음, 기호의 종류, 그리고 여러 관용어 정보 등을 이용하는데, 우선 상기의 휴지기 중 휴지기 3을 가장 먼저 결정한다. 휴지기 3은 억양구나 문장의 끝을 나타내므로 문장 종료 기호, 쉼표 또는 쉼표와 같은 의미의 기호가 나타나는 단어의 끝을 휴지기 3으로 결정한다. 휴지기 3을 결정함으로써 전체 문장의 길이 정보를 얻을 수 있고, 매우 긴 문장에 대해서는 휴지기 3을 적절한 위치에 추가하는 것이 바람직하다.

위와 같이 휴지기 3이 결정되면, 각 단어의 발음 정보를 이용하여 악센트의 흐름을 추정한다. 일본어의 악센트는 하나의 악센트구에서 한번 내려가면 다시 올라가지 않기 때문에 이러한 특성을 이용하여 동일한 악센트구에 포함되는 단어 사이를 나타내는 휴지기 1과 서로 다른 악센트구에 포함되는 단어 사이를 나타내는 휴지기 2를 결정할 수 있다.

휴지기 1과 휴지기 2를 결정하는 방법을 보다 자세히 설명하면 다음의 표3과 같다.

이 때 조사나 어미는 앞의 단어와 연결하여 하나의 단어로 취급되는데 예를 들어 "富士山は日本で一番高い山です。"라는 문장에서 조사 は와 で는 앞의 단어 富士山, 日本과 함께 하나의 단어로 취급되며, 어미 です도 앞의 단어 山와 함께 하나의 단어로 취급됩니다.

또한 고음과 저음을 판단함에 있어서, [a2]와 같이 고음이지만 저음이 다음에 오는 단음은 고음으로 처리되며, [aa2]와 같이 저음에서 고음으로 변하는 장음이 앞단어의 마지막 악센트인 경우에는 고음으로 처리되나 뒷단어의 처음 악센트인 경우에는 저음으로 처리되며, [aa3]과 같이 고음에서 저음으로 변하는 장음의 경우 이와 반대로 처리됩니다.

상기와 같이 휴지기 1과 2를 결정함으로써 문장의 악센트구를 구분할 수 있다.

위와 같은 규칙에 따라 "富士山は日本で一番高い山です。"의 악센트구를 구분하면 앞단어인 "富士山は[h u2 j i0 s a0 xN0 wa0]"의 마지막 악센트는 고음이고, 뒷단어인 "日本で[n i0 h o2 xn0 d e0]"의 처음 악센트는 저음이며 나머지 악센트 중 고음[o2]가 있으므로 "富士山は"와 "日本で" 사이는 휴지기 2이며 서로 다른 악센트구로 나뉨을 알 수 있다.

위와 같은 방법으로 "富士山は日本で一番高い山です。"를 모두 파악해보면, 도4에 도시된 바와 같이 5개의 악센트구(AP1∼AP5)로 구분될 수 있고, 이는 도2에서의 분석된 음성의 악센트구 구분과 동일함을 확인할 수 있다.

그러나 악센트구 사이의 포즈(pause)가 없을 경우 2개의 악센트구 사이에 상관관계가 존재할 수 있기 때문에 이를 고려하여 악센트구 사이의 포즈 유무에 따라 다시 휴지기 2를 휴지기 2-1과 2-2로 구분할 수 있다.

휴지기 2-1과 2-2는 휴지기 2로 결정된 부분에 대하여 품사정보, 관용어적 정보 등을 이용하여 구분한다. 휴지기 1과 2의 구분과 달리 악센트구 사이의 포즈 유무는 일정한 패턴이 존재하지 않고 사람이 직접 읽었을 때 단어의 의미나 DB를 녹음한 아나운서의 읽는 습관, 일반인의 읽기 패턴 등에 따라 달라질 수 있다. 따라서 휴지기 2-1과 2-2를 구분하는 방법을 표4에 예시적으로 기재하였으나 이를 바탕으로 당업자가 용이하게 부가, 변경하여 사용할 수 있을 것이다.　

위와 같이 휴지기 1 내지 3을 구분한 후, 휴지기 0을 결정하는데, 문장 분석의 결과 중 한 단어가 2개의 단어로 분리된 경우, 단어의 첫 음이 음가가 없는 경우(ツ) 등을 휴지기 0으로 결정한다.

위의 방법에 따라 입력된 문장의 휴지기 정보가 결정되면, 휴지기 정보로부터 악센트구 경계(Accentual Phrase Boundary: APB) 정보를 얻을 수 있다. APB는 악센트구와 악센트구 사이의 특징을 나타내는 것으로 3가지 종류 즉, 악센트구 경계가 아닌 경우(APB 0), 악센트 구의 경계이나 포즈가 존재하지 않는 의존적인 경계(Dependent Boundary)(APB 1), 포즈가 존재하는 독립적인 경계(Independent Boundary)(APB 2)로 나누어지며, 휴지기와 APB 사이의 관계는 하기의 표5와 같다.

상기와 같이 구한 악센트 구 경계 정보를 이용하여 입력된 문장의 악센트 구를 분리하고, 적합한 후보를 선택하기 위한 악센트구 매칭을 실시한다. 악센트구 매칭에 있어서, 의존적인 경계의 악센트 구 사이에는 상관관계가 클 수 있으나 독립적인 경계의 악센트 구 사이에는 상관관계가 거의 존재하지 않기 때문에 독립적인 경계의 악센트구는 억양구처럼 처리한다.

⊙ 악센트구 매칭 방법

기본적으로 악센트구 매칭이란 DB에 저장된 후보들 중 음성합성에 사용될 후보를 선택함에 있어 악센트구 단위로 그 유사여부를 판단하는 것인데, 본 발명에서는 연결된 음소열의 최대 길이(Connected Context Length: CCL)를 정의하고, 이를 이용하여 악센트구 매칭을 수행함으로써 최적의 후보가 사전선택에서 제외되는 것을 방지한다.

CCL이란 합성하고자 하는 음소의 전후 음소 열과 후보의 DB내 전후 음소열을 비교하여 일치하는 음소열의 최대 길이를 의미한다. 현재 합성하고자 하는 음소를 p[i]라 하면, p[i]에 인접한 전후 음소열은 {..., p[i-2], p[i-1], p[i+1], p[i+2], ...}로 나타낼 수 있고, p[i]의 후보를 u[i]라고 하면, u[i]에 인접한 전후 음소열은 {..., u[i-2], u[i-1], u[i+1], u[i+2], ...}로 나타낼 수 있다.

Tri-Phone으로 합성단위를 선택하는 경우 합성하고자 하는 음소열 "p[i-1]-p[i]-p[i+1]"과 후보 "u[i-1]-u[i]-u[i+1]"이 일치할 경우 CCL값은 1이다. CCL값은 전방, 후방 CCL로 나누어 계산되는데, p[i-2]와 u[i-2]가 일치하면 전방 CCL값이 1 증가하고, p[i+2]와 u[i+2]가 일치하면 후방 CCL값이 1 증가하며, 이와 같은 계산은 각 후보에 대해 악센트 경계까지 계속하여 CCL값을 구한다.

도4에 "富士山は日本で一番高い山です。"를 Tri-Phone 합성단위로 나타내고 이 중 첫 번째 악센트구의 4번째 음소인 [i0]의 후보 1 내지 3에 대해 각각의 CCL값을 구하는 방법이 도시되어 있다. 합성하고자 하는 악센트 구 AP1은 8개의 음소로 이루어져 있으며, 후보 1(Cadidate 1)의 CCL값이 8로 합성하고자 하는 악센트 구 AP1의 음소 열과 완전히 일치함을 보여주고 있다.

도5는 본 발명에 따른 사전선택 방법인 악센트 구 매칭의 순서도가 도시되어 있다. 우선 S1 내지 S3은 억양구 전체가 일치하는 후보가 있는지 찾는 과정이고, S4 내지 S6은 악센트 구 전체가 일치하는 후보가 있는지 여부를 찾는 과정으로 비교하는 범위만 다를 뿐 방법은 동일하다.

우선 억양구 전체가 일치하는 후보가 존재하는지를 찾기 위해 합성하고자 하는 문장과 DB에 저장되어 있는 후보들을 억양구 범위에 CCL값을 계산하고(S1), CCL값이 큰 순서대로 후보들을 정렬한다(S2). 정렬된 후보 중 가장 큰 CCL값을 갖는 후보의 음소 열이 합성하고자 하는 억양구 전체의 음소 열과 일치하는지 여부를 판단하고(S3), 만약 억양구 전체의 음소 열이 일치한다면, 최대 CCL값을 갖는 후보들만 남기는 것으로 사전선택과정은 종료된다.

그러나 만약 억양구 전체의 음소 열이 일치하지 않는다면, 사전선택 과정은 악센트구가 일치하는지를 비교하는 다음 과정으로 진행된다. 다시 악센트구 범위에 대해 각 후보들의 CCL값이 계산되고(S4), CCL값이 큰 순서대로 후보들을 정렬한 다음(S5). 정렬된 후보 중 가장 큰 CCL값을 갖는 후보의 음소 열이 합성하고자 하는 악센트구 전체의 음소 열과 일치하는지 여부를 판단하고(S6), 악센트구(AP) 전체가 일치하는 후보가 존재한다면 최대 CCL값을 갖는 후보들만 남기는 것으로 사전선택과정은 종료할 수 있다.

그러나 앞서 설명한 바와 같이 악센트구 경계가 독립된 악센트구 경계(APB2)가 아닌 경우 서로 상관관계가 존재할 수 있기 때문에 합성하고자 하는 문장의 악센트구가 독립된 악센트구 경계인지 여부를 판단하여(S7) 독립된 악센트구 경계인 경우에만 최대 CCL값을 갖는 n개의 후보만 남기는 것으로 사전선택과정을 종료하는 것이 바람직하다.

만약 S6에서 악센트구 전체가 일치하는 후보가 존재하지 않거나 S7에서 독립된 악센트구 경계가 아니라면 S9에서 피치, 지속시간 등의 운율정보를 고려하여 목표 음소에 대한 후보의 유사도를 계산하여 유사도가 큰 N개(미리 정해진 수)의 후보를 선택한다. 이 때 CCL값으로 후보들의 가중치를 계산하고(S8), 계산된 가중치를 상기 유사도 판단에 반영하여 CCL값이 큰 후보가 선택될 확률을 높이는 것이 바람직하다.

만약 S3 또는 S7의 억양구 또는 악센트 구 전체 음소열이 일치하는 후보의 수가 미리 결정된 최대 후보의 수 N을 넘는 경우 S9와 같은 유사도 계산을 하여 N개의 후보만이 남도록 할 수 있으며, 이렇게 사전 선택된 후보들만이 최적의 합성단위 선택과정에 참가하게 된다.

상기와 같이 본 발명에 따른 음성합성 시스템은 음성DB에서 최적의 합성단위를 선택하기 전에 데이터베이스에 저장되어 있는 후보들 중에서 최적 합성단위 선택에 사용될 후보들을 사전선택함으로써 최적 합성단위를 선택하기 위한 계산량과 소요 시간을 획기적으로 줄여줄 수 있다.

또한 음성합성을 하고자 하는 문장과 음성DB에 저장된 문장(후보)을 악센트구 단위로 매칭함으로써 억양구 단위로 매칭할 때보다 최적의 후보를 용이하게 선택할 수 있을 뿐만 아니라 각각의 억양구가 일치하는 후보들의 해당 억양구를 구성하는 합성단위들을 연결함으로써 억양구 전체가 일치하는 경우와 동일하게 높은 음질의 합성음을 만들어 낼 수 있다.

또한 CCL값을 이용하여 합성단위 선택에 이용된 후보를 사전선택함으로써 최적의 후보가 음성합성 과정에서 제외되는 것을 방지할 수 있다.

본 발명은 음성합성을 위해 문장을 구성하는 음소의 발음정보뿐만 아니라 악센트 정보를 함께 나타낼 수 있는 발음기호 표시방법, 문장의 악센트 정보로부터 단어와 단어 사이의 운율정보인 휴지기 정보를 파악할 수 있는 방법, 문장의 휴지기 정보를 통해 악센트구를 구분할 수 있는 방법, 최적의 후보를 선택하기 위한 악센트구 매칭 방법을 제공할 수 있으며, 상기와 같은 방법을 이용하여 최적의 합성단위를 선택하기 전에 합성단위 선택에서 비교해야할 후보를 사전선택함으로써 신속한 음성합성이 가능하며, 악센트 구 단위로 사전선택을 수행하는 효율적이고 고음질의 음성합성이 가능하며, 연결된 음소열의 최대길이를 기준으로 유사도를 판단함으로써 최적의 후보가 제외되는 것은 방지할 수 있으며, 일본어의 운율 특성을 이용함으로써 일본어 음성합성에 유용한 음성합성 방법 및 시스템을 제공하는 효과를 갖는다.

비록 본 발명이 바람직한 구체예와 관련하여 설명되었으나, 하기의 특허청구범위에서 청구된 발명의 사상 및 그 영역을 이탈하지 않으면서 다양한 변화 및 변경이 있을 수 있음을 이해하여야 할 것이다.

Claims

입력된 일본어 문장을 음성합성하는 방법에 있어서,

입력된 문장을 자음의 경우 음소에 대한 발음기호만을 표기하고, 모음의 경우 음소에 대한 발음기호와 저음인 단음, 고음인 단음, 저음이 다음에 오는 고음, 저음인 장음, 고음인 장음, 저음에서 고음으로 변하는 장음, 및 고음에서 저음으로 변하는 장음의 7가지로 구분되는 악센트 정보를 포함하는 기호로 변환하고;

상기 기호의 악센트 정보를 이용하여 상기 입력된 문장의 악센트구를 구분하고;

상기 구분된 악센트구를 기준으로 음성 데이터베이스(DB)에 미리 저장된 문장을 비교하여 유사한 문장들을 후보로 사전선택하고; 그리고

상기 사전선택된 문장들만을 이용하여 음성합성하는;

단계들을 포함하여 이루어진 것을 특징으로 하는 일본어 음성합성 방법.
삭제
제1항에 있어서, 상기 악센트구를 구분하는 단계는

상기 입력된 문장에서 동일한 단어의 음소와 음소 사이를 나타내는 휴지기 0, 동일한 악센트구에 포함되는 단어 사이를 나타내는 휴지기 1, 서로 다른 악센트구에 포함되는 단어 사이를 나타내는 휴지기 2, 억양구나 문장의 끝을 나타내는 휴지기 3으로 나누어지는 휴지기 정보를 파악하고; 그리고

휴지기 2가 나타나는 곳은 악센트구 경계, 휴지기 3이 나타나는 곳을 억양구 경계로 결정하는;

단계를 포함하여 이루어진 것을 특징으로 하는 일본어 음성합성 방법.
제3항에 있어서, 상기 휴지기 1과 휴지기 2는

앞 단어의 마지막 악센트가 저음이고, 앞 단어의 나머지 악센트 중 고음이 없는 경우를 휴지기 1;

앞 단어의 마지막 악센트가 저음이고, 앞 단어의 나머지 악센트 중 고음이 있으며, 뒷단어의 악센트 중 고음이 없는 경우를 휴지기 1;

앞 단어의 마지막 악센트가 저음이고, 앞 단어의 나머지 악센트 중 고음이 있으며, 뒷단어의 악센트 중 고음이 있는 경우를 휴지기 2;

앞 단어의 마지막 악센트가 고음이고, 뒷 단어의 처음 악센트가 고음인 경우를 휴지기 1;

앞 단어의 마지막 악센트가 고음이고, 뒷 단어의 처음 악센트가 저음이며, 뒷단어의 나머지 악센트 중 고음이 나타나지 않는 경우를 휴지기 1; 그리고

앞 단어의 마지막 악센트가 고음이고, 뒷 단어의 처음 악센트가 저음이며, 뒷단어의 나머지 악센트 중 고음이 나타나는 경우를 휴지기 2;

로 결정하는 것을 특징으로 하는 일본어 음성합성 방법.
제3항에 있어서, 상기 휴지기 2는 단어와 단어 사이에 포즈(pause)가 존재하는 휴지기 2-1과 포즈가 존재하지 않는 휴지기 2-2로 더 구분될 수 있으며, 휴지기 2-1이 나타나는 곳을 의존적 악센트구 경계, 휴지기 2-2와 3이 나타나는 곳을 독립적 악센트구 경계로 결정하는 단계를 더 포함하고, 상기 사전선택과정에서 독립된 악센트구 경계를 갖는 악센트구는 억양구와 동일하게 처리하는 것을 특징으로 하는 일본어 음성합성 방법.
제1항, 및 제3항 내지 제5항 중 어느 한 항에 있어서, 상기 사전선택 단계는

상기 음성 데이터베이스에 상기 입력된 문장과 억양구 전체가 동일한 문장이 있다면 억양구 전체가 일치하는 문장들만을 선택하는 단계;

만약 억양구 전체가 일치하는 문장이 없고 각각의 악센트구 전체가 일치하는 문장이 있다면 악센트구가 일치하는 문장들만을 선택하는 단계; 그리고

만약 각각의 악센트구가 일치하는 문장들이 존재하지 않는다면, 악센트구 단위로 음소에 대한 유사도를 계산하여 유사도가 큰 순서대로 미리 결정된 수인 N개의 문장들을 선택하는 단계;

를 포함하여 이루어지고, 상기 유사도는 운율정보를 고려하여 계산되는 것을 특징으로 하는 일본어 음성합성 방법.
제6항에 있어서, 상기 억양구 또는 악센트구가 일치하는 문장이 존재하는지 여부는 합성하고자 하는 음소의 전후 음소열과 DB에 저장된 문장의 전후 음소열을 비교하여 일치하는 음소열의 최대 길이를 나타내는 CCL값을 계산하여 결정하고, 상기 음소에 대한 유사도를 계산함에 있어서 CCL값이 큰 문장에 가중치를 부여하는 것을 특징으로 하는 일본어 음성합성 방법.
제7항에 있어서, 상기 악센트구가 일치하는 문장들을 선택하는 단계 다음에 합성하고자 하는 문장의 악센트구가 독립된 악센트구 경계인지 여부를 판단하는 단계를 더 포함하고, 만약 독립된 악센트구 경계가 아니라면, 악센트구가 일치하는 문장들이 존재하지 않는 경우와 동일하게 사전선택하는 것을 특징으로 하는 일본어 음성합성 방법.
삭제
삭제