KR100403293B1

KR100403293B1 - 음성합성방법, 음성합성장치 및 음성합성프로그램을기록한 컴퓨터판독 가능한 매체

Info

Publication number: KR100403293B1
Application number: KR10-2000-0041363A
Authority: KR
Inventors: 가사이오사무; 미조구치도시유키
Original assignee: 코나미 가부시키가이샤; 가부시키가이샤 코나미 컴퓨터 엔터테인먼트 도쿄
Priority date: 1999-07-23
Filing date: 2000-07-19
Publication date: 2003-10-30
Also published as: CN1108603C; TW523733B; JP3361291B2; EP1071074A3; DE60035001T2; EP1071074B1; DE60035001D1; KR20010021106A; JP2001034283A; HK1034130A1; EP1071074A2; US6778962B1; CN1282018A

Abstract

본 발명은 입력문자열의 액센트형을 결정하고(s1), 단어사전중의 문자열에 대한 운율정보를 표시하는 운율모델중의 대표적인 운율모델을 수록한 운율사전으로부터 입력문자열과 그 액센트형에 의거하여 운율모델을 선택하고(s2), 이 선택한 운율모델의 문자열이 입력문자열과 일치하지 않는 경우는 상기 운율모델의 운율정보를 변형하고(s3), 변형후의 운율모델에 의거하여 입력문자열의 각 문자에 대응하는 파형데이터를 파형사전으로부터 선택하고(s4), 이 선택한 파형데이터끼리를 접속함(s5)으로써, 임의로 입력된 문자열과 사전에 수록된 문자열과의 상위를 고도로 흡수하여 자연스러운 음성을 합성한다.

Description

음성합성방법, 음성합성장치 및 음성합성프로그램을 기록한 컴퓨터판독 가능한 매체{SPEECH SYNTHESIZING METHOD, SPEECH SYNTHESIS APPARATUS, AND COMPUTER-READABLE MEDIUM RECORDING SPEECH SYNTHESIS PROGRAM}

본 발명은 음성합성방법, 음성합성장치 및 음성합성프로그램을 기록한 컴퓨터판독 가능한 매체의 개량에 관한 것이다.

종래의 각종 음성메시지(인간이 이야기하는 말)을 기계로부터 출력시키는 방법으로서는 미리 음성메시지를 구성하는 다양한 단어에 대응하는 합성단위의 음성데이터를 기억시켜 두고, 임의로 입력된 문자열(텍스트)에 따라 상기 음성데이터를 조합시켜 출력하는 방법, 소위 음성합성방법이 있었다.

이와 같은 음성합성방법에서는, 통상 일상적으로 사용되는 다양한 단어(문자열)에 대응하는 바의 발음기호 등의 음운정보나, 액센트, 인토네이션, 진폭 등의 운율정보를 사전에 수록시켜 둔다. 그리고 입력된 문자열을 해석하여 동일한 문자열이 사전에 수록되어 있으면 그 정보에 의거하여 합성단위의 음성데이터를 조합시켜 출력하고, 사전에 수록되어 있지 않으면 입력된 문자열로부터 미리 정해진 규칙에 따라 이들 정보를 작성하고, 이것에 의거하여 합성단위의 음성데이터를 조합시켜 출력하는 바와 같이 이루어져 있다.

그러나 상기한 종래의 음성합성방법에서는 사전에 등록되어 있지 않은 문자열의 경우, 반드시 실제의 음성메시지에 대응한 정보, 특히 운율정보를 작성할 수 없고 결과적으로 부자연스러운 음성이 되거나, 의도하는 바와 인상이 다른 음성으로 된다는 문제가 있었다.

본 발명의 목적은 임의로 입력된 문자열과 사전에 수록된 문자열과의 상위를 고도로 흡수하여 자연스러운 음성을 합성할 수 있는 음성합성방법, 음성합성장치및 음성합성프로그램을 기록한 컴퓨터판독 가능한 매체를 제공하는 데에 있다.

도 1은 본 발명의 음성합성방법의 전체를 나타내는 플로우차트,

도 2는 운율사전의 일례를 나타내는 도,

도 3은 운율모델선택처리의 상세를 나타내는 플로우차트,

도 4는 구체적인 운율모델선택처리의 상태의 일례를 나타내는 도,

도 5는 운율변형처리의 상세를 나타내는 플로우차트,

도 6은 구체적인 운율변형의 상태의 일례를 나타내는 도,

도 7은 파형선택처리의 상세를 나타내는 플로우차트,

도 8은 구체적인 파형선택처리의 상태의 일례를 나타내는 도,

도 9는 구체적인 파형선택처리의 상태의 일례를 나타내는 도,

도 10은 파형접속처리의 상세를 나타내는 플로우차트,

도 11은 본 발명의 음성합성장치의 기능블록도이다.

본 발명에서는 상기 목적을 달성하기 위하여 입력된 문자열에 대응하는 음성메시지데이터를 작성하는 음성합성방법으로서, 적어도 1개의 문자를 포함하는 문자열을 그 액센트형과 함께 다수 수록한 단어사전과, 이 단어사전에 수록된 문자열에 대한 운율정보를 나타내는 운율모델데이터중의 대표적인 운율모델데이터를 수록한 운율사전과, 수록음성을 합성단위의 음성파형데이터로서 수록한 파형사전을 사용하여 입력문자열의 액센트형을 결정하고, 입력문자열과 액센트형에 의거하여 운율사전으로부터 운율모델데이터를 선택하고, 이 선택한 운율모델데이터의 문자열이 입력문자열과 일치하지 않는 경우는 상기 운율모델데이터의 운율정보를 입력문자열에 맞추어 변형하고, 운율모델데이터에 의거하여 입력문자열의 각 문자에 대응하는 파형데이터를 파형사전으로부터 선택하고, 이 선택한 파형데이터끼리를 접속하는 음성합성방법을 제안한다.

본 발명에 의하면 입력문자열이 사전에 등록되어 있지 않은 경우에도 이 문자열에 가까운 운율모델데이터를 이용할 수 있고, 또한 그 운율정보를 입력문자열에 맞추어 변형하고, 이것에 의거하여 파형데이터를 선택할 수 있으므로 자연스러운 음성을 합성할 수 있다.

여기서 운율모델데이터의 선택은 문자열, 모라(mora)의 수, 액센트형 및 음절정보를 포함하는 운율모델데이터를 수록한 운율사전을 사용하고, 입력문자열의 음절정보를 작성하여 운율사전중에서 입력문자열과 모라의 수 및 액센트형이 일치하는 운율모델데이터를 추출하여 운율모델데이터후보로 하고, 각 운율모델데이터후보에 대하여 그 음절정보와 입력문자열의 음절정보를 비교하여 각각 운율복원정보를 작성하고, 각 운율모델데이터후보의 문자열 및 운율복원정보에 의거하여 최적의 운율모델데이터를 선택함으로써 행할 수 있다.

이때, 운율모델데이터후보중에서 그 모든 음소가 입력문자열의 음소와 일치하는 후보가 있으면 이것을 최적운율모델데이터로 하고, 모든 음소가 일치하는 후보가 없으면 운율모델데이터후보중에서 입력문자열의 음소와 일치하는 음소의 수가 최대인 후보를 최적운율모델데이터로 하고, 일치하는 음소의 수가 최대인 후보가 복수개 있는 경우는 그중 연속하여 일치하는 음소의 수가 최대인 후보를 최적운율모델데이터로 함으로써, 입력문자열과 동일위치의 동일음소, 즉 그대로 이용가능한 음소(이하, 복원음소라 함)를 가장 많이 또한 연속하여 포함하는 운율모델데이터를 선택하는 것이 가능하게 되어 더욱 자연스러운 음성합성이 가능하게 된다.

또 운율모델데이터의 변형은, 선택한 운율모델데이터의 문자열이 입력문자열과 일치하지 않는 경우, 상기 운율모델데이터중에서 일치하지 않는 문자별로 음성합성에 사용하는 모든 문자에 대하여 미리 구하여 둔 평균음절길이와, 상기 운율모델데이터에 있어서의 음절길이로부터 변형후의 음절길이를 구함으로써, 선택한 운율모델데이터의 운율정보를 입력문자열에 맞추어 변형할 수 있고 더욱 자연스러운 음성합성이 가능하게 된다.

또한 파형데이터의 선택은 입력문자열을 구성하는 각 음소중에서 복원음소에 대해서는 운율모델데이터중에서 해당하는 음소의 파형데이터를 파형사전으로부터선택하고, 그외의 음소에 대해서는 대응하는 음소중에서 운율모델데이터와 주파수가 가장 가까운 음소의 파형데이터를 파형사전으로부터 선택함으로써, 변형후의 운율모델데이터에 가장 가까운 파형데이터를 선택할 수 있어 더욱 자연스럽고 의도하는 바에 가까운 음성합성이 가능하게 된다.

또 본 발명에서는 상기 목적을 달성하기 위하여 입력된 문자열에 대응하는 음성메시지데이터를 작성하는 음성합성장치로서, 적어도 1개의 문자를 포함하는 문자열을 그 액센트형과 함께 다수 수록한 단어사전과, 이 단어사전에 수록된 문자열에 대한 운율정보를 나타내는 운율모델데이터중의 대표적인 운율모델데이터를 수록한 운율사전과, 수록음성을 합성단위의 음성파형데이터로서 수록한 파형사전과, 입력문자열의 액센트형을 결정하는 액센트형 결정수단과, 입력문자열과 액센트형에 의거하여 운율사전으로부터 운율모델데이터를 선택하는 운율모델 선택수단과, 이 선택한 운율모델데이터의 문자열이 입력문자열과 일치하지 않는 경우에 상기 운율모델데이터의 운율정보를 입력문자열에 맞추어 변형하는 운율변형수단과, 운율모델데이터에 의거하여 입력문자열의 각 문자에 대응하는 파형데이터를 파형사전으로부터 선택하는 파형선택수단과, 이 선택한 파형데이터끼리를 접속하는 파형접속수단을 구비한 음성합성장치를 제안한다.

또 상기한 바와 같은 음성합성장치는, 음성합성프로그램을 기록한 컴퓨터판독 가능한 매체에 있어서, 상기 프로그램이 컴퓨터에 판독되었을 때, 이 컴퓨터를 적어도 1개의 문자를 포함하는 문자열을 그 액센트형과 함께 다수 수록한 단어사전과, 이 단어사전에 수록된 문자열에 대한 운율정보를 나타내는 운율모델데이터중의대표적인 운율모델데이터를 수록한 운율사전과, 수록음성을 합성단위의 음성파형데이터로서 수록한 파형사전과, 입력문자열의 액센트형을 결정하는 액센트형 결정수단과, 입력문자열과 액센트형에 의거하여 운율사전으로부터 운율모델데이터를 선택하는 운율모델 선택수단과, 이 선택한 운율모델데이터의 문자열이 입력문자열과 일치하지 않는 경우에 상기 운율모델데이터의 운율정보를 입력문자열에 맞춰어 변형하는 운율변형수단과, 운율모델데이터에 의거하여 입력문자열의 각 문자에 대응하는 파형데이터를 파형사전으로부터 선택하는 파형선택수단과, 이 선택한 파형데이터끼리를 접속하는 파형접속수단으로서 기능시키는 음성합성프로그램을 기록한 컴퓨터판독 가능한 매체에 의해서도 실현할 수 있다.

본 발명의 상기 목적과 그것 이외의 목적과, 특징과, 이익은 이하의 설명과 첨부도면에 의해 분명해진다.

도 1은 본 발명의 음성합성방법의 전체의 흐름을 나타내는 것이다.

먼저, 도시 생략한 입력수단이나 게임시스템 등에 의해 합성하고자 하는 문자열이 입력되면, 그 액센트형을 단어사전 등에 의거하여 결정한다(s1). 여기서 단어사전이란, 적어도 1개의 문자를 포함하는 문자열(단어)을 그 액센트형과 함께 다수 수록한 것으로, 예를 들어 입력될 것이 예상되는 플레이어캐릭터의 이름[단, 여기서는 실제의 이름뒤에「쿠운」(일본어의 경칭)을 더한 것]을 나타내는 단어를 그 액센트형과 함께 다수 수록한 것이다.

구체적인 결정은 입력문자열과 단어사전에 수록된 단어를 비교하여, 동일한 단어가 있으면 그 액센트형을 채용하고, 없으면 모라의 수가 동일한 단어중에서 유사한 문자열을 가지는 단어의 액센트형을 채용한다.

또한 동일한 단어가 없는 경우, 입력문자열과 모라의 수가 동일한 단어에 나타날 수 있는 모든 액센트형으로부터 오퍼레이터(게임플레이어) 등이 도시 생략한 입력수단에 의해 임의로 선택·결정할 수 있게 하여도 좋다.

다음에 입력문자열과 액센트형에 의거하여 운율사전으로부터 운율모델데이터를 선택한다(s2). 여기서 운율사전이란, 단어사전에 수록된 단어에 대한 운율정보를 표시하는 운율모델데이터중의 대표적인 운율모델데이터를 수록한 것이다.

다음에 선택한 운율모델데이터의 문자열이 입력문자열과 일치하지 않는 경우는, 상기 운율모델데이터의 운율정보를 입력문자열에 맞추어 변형한다(s3).

다음에 변형후의 운율모델데이터(또한, 선택한 운율모델데이터의 문자열이 입력문자열과 일치하는 경우는 변형되지 않기 때문에, 변형후의 운율모델데이터중에는 실제로는 변형되어 있지 않은 운율모델데이터도 포함하는 것으로 한다)에 의거하여 입력문자열의 각 문자에 대응하는 파형데이터를 파형사전으로부터 선택한다 (s4). 여기서 파형사전이란, 수록음성을 합성단위의 음성파형데이터로서 수록한 것으로, 본 실시형태에서는 주지의 VCV 음소방식에 의한 음성파형데이터(음소편)를 수록하고 있다.

마지막으로 선택한 파형데이터끼리를 접속하여(s5), 합성음성데이터를 작성한다.

다음에 운율모델선택처리의 상세에 대하여 설명한다.

도 2는 운율사전의 일례를 나타내는 것으로, 문자열, 모라의 수, 액센트형 및 음절정보를 포함하는 복수의 운율모델데이터, 즉 단어사전에 수록된 다수의 문자열에 대한 대표적인 복수의 운율모델데이터를 수록하여 이루어져 있다. 여기서 음절정보란, 문자열을 구성하는 각 문자가 C : 자음 + 모음, V : 모음, N' : 하츠옹(ン), Q' : 소쿠옹(ッ), L : 장음, # : 무성음중 어느것에 해당하는 지를 표시하는 음절종류와, ASJ(일본음향학회)표기법으로 표시되는 음성표기용 기호의 몇번째(A(아) : 1, I(이) : 2, U(우) : 3, E(에) : 4, O(오) : 5, KA(가) : 6, ……)인지를 표시하는 음절번호로 이루어져 있다(단, 도 2에서는 생략). 또한 운율사전은 실제로는 운율모델데이터별로 구성하는 각 음소의 주파수, 볼륨, 음절길이 등의 상세한 정보를 구비하고 있으나, 도면에서는 생략하였다.

도 3은 운율모델선택처리의 상세플로우차트, 도 4는 구체적인 운율모델선택처리 상태의 일례를 나타내는 것으로, 이하, 상세하게 설명한다.

먼저, 입력문자열의 음절정보를 작성한다(s201). 구체적으로는 히라가나로 표기된 문자열을 상기한 ASJ 표기법으로 로마자화(알파벳표기에 의한 표음문자화) 하여 상기한 음절종류 및 음절번호로 이루어지는 음절정보를 작성한다. 예를 들어 도 4에 나타내는 바와 같이 문자열「가사이쿠운」의 경우, 「kasaikun'」으로 로마자화하고, 다시 음절종류「CCVCN'」및 음절번호「6, 11, 2, 8, 98」로 이루어지는 음절정보를 작성한다.

다음에 복원음소개수를 VCV 음소단위로 보기 때문에 입력문자열에 대한 VCV 음소열을 작성한다(s202). 예를 들어 상기한「가사이쿠운」의 경우는「ka asa ai iku un」이 된다.

한편 운율사전에 수록되어 있는 운율모델데이터로부터 입력문자열과 액센트형 및 모라의 수가 일치하는 운율모델데이터만을 추출하여 운율모델데이터후보로 한다 (s203). 예를 들어 도 2, 도 4의 예에서는「카마이쿠운」, 「사사이쿠운」,「시사이쿠운」이다.

다음에 각 운율모델데이터후보마다 그 음절정보와 입력문자열의 음절정보를 비교하여 운율복원정보를 작성한다(s204). 구체적으로는 운율모델데이터후보와 입력문자열의 음절정보를 문자마다 비교하여 자음도 모음도 일치하면「11」, 자음은 다르나 모음은 일치하는 경우는「01」, 자음은 일치하나 모음은 다른 경우는「10」, 자음도 모음도 다른 경우는「00」이라는 정보를 부여하고, 다시 VCV 단위로 구분한다.

예를 들어 도 2, 도 4의 예에서는 비교정보는 「카마이쿠운」이「11 01 11 11 11」, 「사사이쿠운」이「01 11 11 11 11」, 「시사이쿠운」이「00 11 11 11 11」이 되고, 운율복원정보는「카마이쿠운」이「11 101 111 111 111」, 「사사이쿠운」이「O1 111 111 111 111」, 「시사이쿠운」이「00 011 111 111 111」이 된다.

다음에 각 운율모델데이터후보로부터 1개 선택하여(s205), 그 음소가 입력문자열의 음소와 VCV 단위에서 일치하고 있는 지의 여부, 즉 상기한 운율복원정보가 「11」또는「111」인지의 여부를 조사한다(s206). 여기서 모든 음소가 일치하고 있으면 이것을 최적 운율모델데이터로 결정한다(s207).

한편, 1개라도 불일치의 음소가 있으면 VCV 단위에서 일치하는 음소의 수, 즉 상기한 운율복원정보중「11」또는「111」의 수를 비교(초기값은 0)하여(s208),최대치이면 그 모델을 최적 운율모델데이터의 후보로 한다(s209). 또한 VCV 단위에서 일치하는 음소의 연속수, 즉 상기한 운율복원정보중「11」또는「111」의 연속수를 비교(초기값은 0)하여(s210), 최대치이면 그 모델을 최적 운율모델데이터의 후보로 한다(s211).

이상의 처리를 모든 운율모델데이터후보에 관하여 반복하여 행하고(s212), 모든 음소가 일치 또는 일치 음소수가 최대 또는 일치 음소수 최대인 모델이 복수개 있는 경우는 일치 음소연속수가 최대인 모델을 최적 운율모델데이터로 결정한다.

상기한 도 2, 도 4의 예에서 설명하면, 문자열이 입력문자열과 동일한 모델은 없고, 일치 음소수는「카마이쿠운」이 4, 「사사이쿠운」이 4, 「시사이쿠운」이 3 이나, 일치 음소연속수는 「카마이쿠운」이 3, 「사사이쿠운」이 4 이므로, 「사사이쿠운」이 최적 운율모델데이터로 결정된다.

다음에 운율변형처리의 상세에 관하여 설명한다.

도 5는 운율변형처리의 상세 플로우차트, 도 6은 구체적인 운율변형처리의 상태의 일례를 나타내는 것으로, 이하 상세하게 설명한다.

먼저, 상기한 바와 같이하여 선택된 운율모델데이터 및 입력문자열의 문자를 선두로부터 1 문자씩 선택하고(s301), 이때 문자가 일치하면(s302), 그대로 다음 문자의 선택을 반복한다(s303). 문자가 불일치할 경우, 운율모델데이터중의 문자에 대응하는 변형후의 음절길이를 이하와 같이 하여 구하고, 또 필요에 따라 변형후의 볼륨을 구하여 운율모델데이터를 재입력한다(s304, s305).

변형후의 음절길이는 모델데이터중의 음절길이를 x, 모델데이터의 문자에 대응하는 평균음절길이를 X', 변형후의 음절길이를 y, 변형후의 문자에 대응하는 평균음절길이를 y'로 하였을 때,

y = y' ×(X/X')

에 의해 구한다. 또한 평균음절길이는 미리 각 문자마다 구하여 기억해 두는 것으로 한다.

도 6은 입력문자열을「사가이쿠운」, 선택된 운율모델데이터를「카마이쿠운」으로 한 경우의 예를 나타내고 있으며, 운율모델데이터중의 문자「카」를 입력문자열중의 문자「사」에 맞추어 변형하는 경우, 문자「카」의 평균음절길이를「22」, 문자「사」의 평균음절길이를「25」라 하면 변형후의「사」의 음절길이는「사」의 음절길이 = 「사」의 평균 ×(「카」의 음절길이/「카」의 평균)

= 25 ×(20/22)

≒ 23

이 된다.

마찬가지로 운율모델데이터중의 문자「사」를 입력문자열중의 문자「카」에 맞추어 변형하는 경우, 변형후의「카」의 음절길이는,

「카」의 음절길이 =「카」의 평균 ×(「사」의 음절길이/「사」의 평균)

= 22 ×(30/25)

≒ 26

이 된다. 또한 볼륨에 대해서는 음절길이의 경우와 동일한 계산에 의해 구하여 변형하여도 되고, 또는 운율모델데이터중의 값을 그대로 사용하여도 된다.

이상의 처리를 운율모델데이터중의 모든 문자에 대하여 반복하여 행한 후, 음소(VCV)정보로 변환하여(s306), 각 음소의 접속정보를 작성한다(s307).

또한 상기한 입력문자열이「사카이쿠운」이고, 선택된 운율모델데이터「카마이쿠운」인 경우, 「이」, 「쿠」, 「운」의 3개의 문자에 대해서는 그 위치 및 음소가 일치하기 때문에 이들은 그대로 이용가능한 음소(복원음소)가 된다.

다음에 파형선택처리의 상세에 관하여 설명한다.

도 7은 파형선택처리의 상세 플로우차트를 나타내는 것으로, 이하 상세하게 설명한다.

먼저, 입력문자열을 구성하는 음소를 선두로부터 1개씩 선택하고(s401), 이것이 상기한 복원음소이면(s402), 상기한 바와 같이 하여 선택·변형한 운율모델데이터중의 해당하는 음소의 파형데이터를 파형사전으로부터 선택한다(s403).

또 복원음소가 아니면 파형사전중의 동일 구절기호를 가지는 음소를 후보로서 선택하고(s404), 변형후의 운율모델데이터에 있어서의 해당 음소와의 주파수의 차이를 산출한다(s405). 이때 음소의 V 구간이 2개있는 것에 관해서는 액센트형도 고려하여 각각의 V 구간마다의 주파수의 차이의 합을 산출한다. 이것을 모든 후보에 대하여 반복하여(s406), 차이(또는 차이의 합)가 가장 작은 후보의 음소의 파형데이터를 파형사전으로부터 선택한다(s407). 또한 이때 음소후보의 볼륨에 대해서도 보조적으로 참조하여 극단적으로 값이 작은 것을 제외하는 등의 처리를 행하여도 좋다.

이상의 처리를 입력문자열을 구성하는 모든 음소에 대하여 반복하여 행한다 (s408).

도 8, 도 9는 구체적인 파형선택처리의 상태의 일례를 나타내는 것으로, 여기서는 입력문자열「사카이쿠운」을 구성하는 VCV 음소「sa aka ai iku un」중에서 복원음소가 아닌「sa」, 「aka」의 각각에 대하여 변형후의 운율모델데이터에 있어서의 해당 음소의 주파수 및 볼륨치와 음소후보의 주파수 및 볼륨치을 표시하고 있다.

구체적으로는 도 8에서는 변형후의 운율모델데이터에 있어서의 음소「sa」의 주파수「450」및 볼륨치「1000」과, 음소후보, 여기서는 3개 음소후보「sa-001」, 「sa-002」, 「sa-003」의 주파수「440」, 「500」, 「400」및 볼륨치「800」, 「1050」, 「950」을 표시하고 있으며, 이 경우 주파수가「440」에서 가장 가까운 음소후보「sa-OO1」이 선택된다.

또 도 9에서는 변형후의 운율모델데이터에 있어서의 음소「aka」의 V 구간 (1)의 주파수「450」및 볼륨치「1000」및 V 구간(2)의 주파수「400」및 볼륨치「800」과 음소후보, 여기서는 2개의 음소후보「aka-001」, 「aka-002」의 V 구간(1)의 주파수「400」, 「460」및 볼륨치「1000」,「800」및 V 구간(2)의 주파수「450」, 「410」및 볼륨치「800」, 「1000」을 표시하고 있으며, 이 경우 V 구간(1) 및 V 구간(2)마다의 주파수의 차이의 합(음소후보「aka-001」에서는｜450-400｜+｜400-450｜= 100, 음소후보「aka-002」에서는 ｜450-460｜+｜400-410｜= 20)이 가장 작은 음소후보「aka-002」가 선택된다.

도 10은 파형접속처리의 상세 플로우차트를 나타내는 것으로, 이하 상세하게 설명한다.

먼저, 상기한 바와 같이 하여 선택한 음소의 파형데이터를 선두로부터 1개씩 선택하여(s501), 접속후보위치를 설정하고(s502), 이때 접속이 복원가능하면 (s503), 복원접속정보를 기초로 접속한다(s504).

또 복원할 수 없으면 음절길이를 판정하고(s505), 이것에 따라 각종 접속방법(모음구간접속, 장음접속, 무성화 음절접속, 소쿠옹접속, 하츠옹접속 등)에 따라접속한다(s506).

이상의 처리를 모든 음소의 파형데이터에 대하여 반복하여 행하고(s507), 합성음성데이터를 작성한다.

도 11은 본 발명의 음성합성장치의 기능블록도를 나타내는 것으로, 도면에 있어서 11은 단어사전, 12는 운율사전, 13은 파형사전, 14는 액센트형 결정수단, 15는 운율모델 선택수단, 16은 운율변형수단, 17은 파형선택수단, 18은 파형접속수단이다.

단어사전(11)은 적어도 1개의 문자를 포함하는 문자열(단어)을 그 액센트형과 함께 다수 수록하여 이루어져 있다. 또 운율사전(12)은 문자열, 모라의 수, 액센트형 및 음절정보를 포함하는 운율모델데이터를 복수, 단어사전에 수록된 다수의 문자열에 대한 대표적인 복수의 운율모델데이터를 수록하여 이루어져 있다. 또 파형사전(13)은 수록음성을 합성단위의 음성파형데이터로서 수록하여 이루어져 있다.

액센트형 결정수단(14)은 입력수단이나 게임시스템 등에 의해 입력된 문자열과 단어사전(11)에 수록된 단어를 비교하여 동일한 단어가 있으면 그 액센트형을 상기 문자열의 액센트형으로 결정하고, 없으면 모라의 수가 동일한 단어중에서 유사한 문자열을 가지는 단어의 액센트형을 상기 문자열의 액센트형으로 결정하는 처리 등을 행한다.

운율모델 선택수단(15)은 입력문자열의 음절정보를 작성하여 운율사전(12)중에서 입력문자열과 모라의 수 및 액센트형이 일치하는 운율모델데이터를 추출하여 운율모델데이터후보로 하고, 각 운율모델데이터후보에 대하여 그 음절정보와 입력문자열의 음절정보를 비교하여 각각 운율복원정보를 작성하여 각 운율모델데이터후보의 문자열 및 운율복원정보에 의거하여 최적의 운율모델데이터를 선택하는 처리를 행한다.

운율변형수단(16)은 선택한 운율모델데이터의 문자열이 입력문자열과 일치하지 않는 경우, 상기 운율모델데이터중의 일치하지 않는 문자마다 음성합성에 사용하는 모든 문자에 대하여 미리 구하여 둔 평균음절길이와, 상기 운율모델데이터에 있어서의 음절길이로부터 변형후의 음절길이를 구하는 처리를 행한다.

파형선택수단(17)은 입력문자열을 구성하는 각 음소중에서 복원음소에 대해서는 변형후의 운율모델데이터중에서 해당하는 음소의 파형데이터를 파형사전으로부터 선택하고, 그외의 음소에 대해서는 대응하는 음소중에서 변형후의 운율모델데이터와 주파수가 가장 가까운 음소의 파형데이터를 파형사전으로부터 선택하는 처리를 행한다.

파형접속수단(18)은 선택한 파형데이터끼리를 접속하여 합성음성데이터를 작성하는 처리를 행한다.

명세서에 기재한 바람직한 형태는 예시적인 것으로, 한정적인 것이 아니다. 발명의 범위는 첨부하는 클레임에 의해 나타나 있고, 이들 클레임의 의미중에 들어 가는 모든 변형예는 본 발명에 포함되는 것이다.

Claims

입력된 문자열에 대응하는 음성메시지데이터를 작성하는 음성합성방법으로서,

적어도 1개의 문자를 포함하는 문자열을 그 액센트형과 함께 다수 수록한 단어사전과,

이 단어사전에 수록된 문자열에 대한 운율정보를 나타내는 운율모델데이터중에서 대표적인 운율모델데이터를 수록한 운율사전과,

수록음성을 합성단위의 음성파형데이터로서 수록한 파형사전을 사용하여 입력문자열의 액센트형을 결정하고,

입력문자열과 액센트형에 의거하여 운율사전으로부터 운율모델데이터를 선택하고,

이 선택한 운율모델데이터의 문자열이 입력문자열과 일치하지 않는 경우는 상기 운율모델데이터의 운율정보를 입력문자열에 맞추어 변형하고,

운율모델데이터에 의거하여 입력문자열의 각 문자에 대응하는 파형데이터를 파형사전으로부터 선택하고,

상기 선택한 파형데이터끼리를 접속하는 것을 특징으로 하는 음성합성방법.
제 1항에 있어서,

문자열, 모라의 수, 액센트형 및 음절정보를 포함하는 운율모델데이터를 수록한 운율사전을 사용하여 입력문자열의 음절정보를 작성하고,

운율사전중에서 입력문자열과 모라의 수 및 액센트형이 일치하는 운율모델데이터를 추출하여 운율모델데이터후보로 하고,

각 운율모델데이터후보에 대하여 그 음절정보와 입력문자열의 음절정보를 비교하여 각각 운율복원정보를 작성하고,

각 운율모델데이터후보의 문자열 및 운율복원정보에 의거하여 최적의 운율모델데이터를 선택하는 것을 특징으로 하는 음성합성방법.
제 2항에 있어서,

운율모델데이터후보중에서 그 모든 음소가 입력문자열의 음소와 일치하는 후보가 있으면 이것을 최적운율모델데이터로 하고,

모든 음소가 일치하는 후보가 없으면 운율모델데이터후보중에서 입력문자열의 음소와 일치하는 음소의 수가 최대인 후보를 최적운율모델데이터로 하고,

일치하는 음소의 수가 최대인 후보가 복수개 있는 경우는 그중 연속하여 일치하는 음소의 수가 최대인 후보를 최적운율모델데이터로 하는 것을 특징으로 하는 음성합성방법.
제 1항에 있어서,

상기 선택한 운율모델데이터의 문자열이 입력문자열과 일치하지 않는 경우, 상기 운율모델데이터중에서 일치하지 않는 문자마다 음성합성에 사용하는 모든 문자에 대하여 미리 구하여 둔 평균음절길이와, 상기 운율모델데이터에 있어서의 음절길이로부터 변형후의 음절길이를 구하는 것을 특징으로 하는 음성합성방법.
제 1항에 있어서,

입력문자열을 구성하는 각 음소중에서 운율모델데이터와 위치 및 음소가 일치하는 음소에 대해서는 운율모델데이터중에서 해당하는 음소의 파형데이터를 파형사전으로부터 선택하고, 그외의 음소에 대해서는 대응하는 음소중에서 운율모델데이터와 주파수가 가장 가까운 음소의 파형데이터를 파형사전으로부터 선택하는 것을 특징으로 하는 음성합성방법.
입력된 문자열에 대응하는 음성메시지데이터를 작성하는 음성합성장치로서,

적어도 1개의 문자를 포함하는 문자열을 그 액센트형과 함께 다수 수록한 단어사전과, 이 단어사전에 수록된 문자열에 대한 운율정보를 나타내는 운율모델데이터중에서 대표적인 운율모델데이터를 수록한 운율사전과, 수록음성을 합성단위의 음성파형데이터로서 수록한 파형사전과,

입력문자열의 액센트형을 결정하는 액센트형결정수단과,

입력문자열과 액센트형에 의거하여 운율사전으로부터 운율모델데이터를 선택하는 운율모델선택수단과,

상기 선택한 운율모델데이터의 문자열이 입력문자열과 일치하지 않는 경우에 상기 운율모델데이터의 운율정보를 입력문자열에 맞추어 변형하는 운율변형수단과,

운율모델데이터에 의거하여 입력문자열의 각 문자에 대응하는 파형데이터를 파형사전으로부터 선택하는 파형선택수단과,

상기 선택한 파형데이터끼리를 접속하는 파형접속수단을 구비한 것을 특징으로 하는 음성합성장치.
제 6항에 있어서,

문자열, 모라의 수, 액센트형 및 음절정보를 포함하는 운율모델데이터를 수록한 운율사전과,

입력문자열의 음절정보를 작성하여 운율사전중에서 입력문자열과 모라의 수 및 액센트형이 일치하는 운율모델데이터를 추출하여 운율모델데이터후보로 하고, 각 운율모델데이터후보에 대하여 그 음절정보와 입력문자열의 음절정보를 비교하여 각각 운율복원정보를 작성하고 각 운율모델데이터후보의 문자열 및 운율복원정보에 의거하여 최적의 운율모델데이터를 선택하는 운율모델선택수단을 구비한 것을 특징으로 하는 음성합성장치.
제 7항에 있어서,

운율모델데이터후보중에서 그 모든 음소가 입력문자열의 음소와 일치하는 후보가 있으면 이것을 최적운율모델데이터로 하고,

모든 음소가 일치하는 후보가 없으면 운율모델데이터후보중에서 입력문자열의 음소와 일치하는 음소의 수가 최대인 후보를 최적운율모델데이터로 하고,

일치하는 음소의 수가 최대인 후보가 복수개 있는 경우는 그중 연속하여 일치하는 음소의 수가 최대인 후보를 최적운율모델데이터로 하는 것을 특징으로 하는 음성합성장치.
제 6항에 있어서,

상기 선택한 운율모델데이터의 문자열이 입력문자열과 일치하지 않는 경우, 상기 운율모델데이터중에서 일치하지 않는 문자마다 음성합성에 사용하는 모든 문자에 대하여 미리 구하여 둔 평균음절길이와, 상기 운율모델데이터에 있어서의 음절길이로부터 변형후의 음절길이를 구하는 운율변형수단을 구비한 것을 특징으로 하는 음성합성장치.
제 6항에 있어서,

입력문자열을 구성하는 각 음소중에서 운율모델데이터와 위치 및 음소가 일치하는 음소에 대해서는 운율모델데이터중에서 해당하는 음소의 파형데이터를 파형사전으로부터 선택하고, 그외의 음소에 대해서는 대응하는 음소중에서 운율모델데이터와 주파수가 가장 가까운 음소의 파형데이터를 파형사전으로부터 선택하는 파형선택수단을 구비한 것을 특징으로 하는 음성합성장치.
음성합성프로그램을 기록한 컴퓨터판독 가능한 매체에 있어서,

상기 프로그램은 컴퓨터에 판독되었을 때, 이 컴퓨터를,

적어도 1개의 문자를 포함하는 문자열을 그 액센트형과 함께 다수 수록한 단어사전과, 이 단어사전에 수록된 문자열에 대한 운율정보를 나타내는 운율모델데이터중에서 대표적인 운율모델데이터를 수록한 운율사전과, 수록음성을 합성단위의 음성파형데이터로서 수록한 파형사전과,

입력문자열의 액센트형을 결정하는 액센트형 결정수단과,

입력문자열과 액센트형에 의거하여 운율사전으로부터 운율모델데이터를 선택하는 운율모델선택수단과,

상기 선택한 운율모델데이터의 문자열이 입력문자열과 일치하지 않는 경우에 상기 운율모델데이터의 운율정보를 입력문자열에 맞추어 변형하는 운율변형수단과,

운율모델데이터에 의거하여 입력문자열의 각 문자에 대응하는 파형데이터를 파형사전으로부터 선택하는 파형선택수단과,

상기 선택한 파형데이터끼리를 접속하는 파형접속수단으로서 기능시키는 것을 특징으로 하는 음성합성프로그램을 기록한 컴퓨터판독 가능한 매체.
제 11항에 있어서,

문자열, 모라의 수, 액센트형 및 음절정보를 포함하는 운율모델데이터를 수록한 운율사전과,

입력문자열의 음절정보를 작성하여 운율사전중에서 입력문자열과 모라의 수 및 액센트형이 일치하는 운율모델데이터를 추출하여 운율모델데이터후보로 하고, 각 운율모델데이터후보에 대하여 그 음절정보와 입력문자열의 음절정보를 비교하여각각 운율복원정보를 작성하여 각 운율모델데이터후보의 문자열 및 운율복원정보에 의거하여 최적의 운율모델데이터를 선택하는 운율모델선택수단으로서 기능시키는 것을 특징으로 하는 음성합성프로그램을 기록한 컴퓨터판독 가능한 매체.
제 12항에 있어서,

운율모델데이터후보중에서 그 모든 음소가 입력문자열의 음소와 일치하는 후보가 있으면 이것을 최적운율모델데이터로 하고,

모든 음소가 일치하는 후보가 없으면, 운율모델데이터후보중에서 입력문자열의 음소와 일치하는 음소의 수가 최대인 후보를 최적운율모델데이터로 하고,

일치하는 음소의 수가 최대인 후보가 복수개 있는 경우는 그중 연속하여 일치하는 음소의 수가 최대인 후보를 최적운율모델데이터로 하는 것을 특징으로 하는 음성합성프로그램을 기록한 컴퓨터판독 가능한 매체.
제 11항에 있어서,

상기 선택한 운율모델데이터의 문자열이 입력문자열과 일치하지 않는 경우, 상기 운율모델데이터중에서 일치하지 않는 문자마다 음성합성에 사용하는 모든 문자에 대하여 미리 구하여 둔 평균음절길이와, 상기 운율모델데이터에 있어서의 음절길이로부터 변형후의 음절길이를 구하는 운율변형수단으로서 기능시키는 것을 특징으로 하는 음성합성프로그램을 기록한 컴퓨터판독 가능한 매체.
제 11항에 있어서,

입력문자열을 구성하는 각 음소중에서 운율모델데이터와 위치 및 음소가 일치하는 음소에 대해서는 운율모델데이터중에서 해당하는 음소의 파형데이터를 파형사전으로부터 선택하고, 그외의 음소에 대해서는 대응하는 음소중에서 운율모델데이터와 주파수가 가장 가까운 음소의 파형데이터를 파형사전으로부터 선택하는 파형선택수단을 구비한 것을 특징으로 하는 음성합성프로그램을 기록한 컴퓨터판독 가능한 매체.