KR100403293B1 - 음성합성방법, 음성합성장치 및 음성합성프로그램을기록한 컴퓨터판독 가능한 매체 - Google Patents

음성합성방법, 음성합성장치 및 음성합성프로그램을기록한 컴퓨터판독 가능한 매체 Download PDF

Info

Publication number
KR100403293B1
KR100403293B1 KR10-2000-0041363A KR20000041363A KR100403293B1 KR 100403293 B1 KR100403293 B1 KR 100403293B1 KR 20000041363 A KR20000041363 A KR 20000041363A KR 100403293 B1 KR100403293 B1 KR 100403293B1
Authority
KR
South Korea
Prior art keywords
rhyme
model data
waveform
input string
phonemes
Prior art date
Application number
KR10-2000-0041363A
Other languages
English (en)
Other versions
KR20010021106A (ko
Inventor
가사이오사무
미조구치도시유키
Original Assignee
코나미 가부시키가이샤
가부시키가이샤 코나미 컴퓨터 엔터테인먼트 도쿄
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코나미 가부시키가이샤, 가부시키가이샤 코나미 컴퓨터 엔터테인먼트 도쿄 filed Critical 코나미 가부시키가이샤
Publication of KR20010021106A publication Critical patent/KR20010021106A/ko
Application granted granted Critical
Publication of KR100403293B1 publication Critical patent/KR100403293B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/60Methods for processing data by generating or executing the game program
    • A63F2300/6063Methods for processing data by generating or executing the game program for sound processing

Abstract

본 발명은 입력문자열의 액센트형을 결정하고(s1), 단어사전중의 문자열에 대한 운율정보를 표시하는 운율모델중의 대표적인 운율모델을 수록한 운율사전으로부터 입력문자열과 그 액센트형에 의거하여 운율모델을 선택하고(s2), 이 선택한 운율모델의 문자열이 입력문자열과 일치하지 않는 경우는 상기 운율모델의 운율정보를 변형하고(s3), 변형후의 운율모델에 의거하여 입력문자열의 각 문자에 대응하는 파형데이터를 파형사전으로부터 선택하고(s4), 이 선택한 파형데이터끼리를 접속함(s5)으로써, 임의로 입력된 문자열과 사전에 수록된 문자열과의 상위를 고도로 흡수하여 자연스러운 음성을 합성한다.

Description

음성합성방법, 음성합성장치 및 음성합성프로그램을 기록한 컴퓨터판독 가능한 매체{SPEECH SYNTHESIZING METHOD, SPEECH SYNTHESIS APPARATUS, AND COMPUTER-READABLE MEDIUM RECORDING SPEECH SYNTHESIS PROGRAM}
본 발명은 음성합성방법, 음성합성장치 및 음성합성프로그램을 기록한 컴퓨터판독 가능한 매체의 개량에 관한 것이다.
종래의 각종 음성메시지(인간이 이야기하는 말)을 기계로부터 출력시키는 방법으로서는 미리 음성메시지를 구성하는 다양한 단어에 대응하는 합성단위의 음성데이터를 기억시켜 두고, 임의로 입력된 문자열(텍스트)에 따라 상기 음성데이터를 조합시켜 출력하는 방법, 소위 음성합성방법이 있었다.
이와 같은 음성합성방법에서는, 통상 일상적으로 사용되는 다양한 단어(문자열)에 대응하는 바의 발음기호 등의 음운정보나, 액센트, 인토네이션, 진폭 등의 운율정보를 사전에 수록시켜 둔다. 그리고 입력된 문자열을 해석하여 동일한 문자열이 사전에 수록되어 있으면 그 정보에 의거하여 합성단위의 음성데이터를 조합시켜 출력하고, 사전에 수록되어 있지 않으면 입력된 문자열로부터 미리 정해진 규칙에 따라 이들 정보를 작성하고, 이것에 의거하여 합성단위의 음성데이터를 조합시켜 출력하는 바와 같이 이루어져 있다.
그러나 상기한 종래의 음성합성방법에서는 사전에 등록되어 있지 않은 문자열의 경우, 반드시 실제의 음성메시지에 대응한 정보, 특히 운율정보를 작성할 수 없고 결과적으로 부자연스러운 음성이 되거나, 의도하는 바와 인상이 다른 음성으로 된다는 문제가 있었다.
본 발명의 목적은 임의로 입력된 문자열과 사전에 수록된 문자열과의 상위를 고도로 흡수하여 자연스러운 음성을 합성할 수 있는 음성합성방법, 음성합성장치및 음성합성프로그램을 기록한 컴퓨터판독 가능한 매체를 제공하는 데에 있다.
도 1은 본 발명의 음성합성방법의 전체를 나타내는 플로우차트,
도 2는 운율사전의 일례를 나타내는 도,
도 3은 운율모델선택처리의 상세를 나타내는 플로우차트,
도 4는 구체적인 운율모델선택처리의 상태의 일례를 나타내는 도,
도 5는 운율변형처리의 상세를 나타내는 플로우차트,
도 6은 구체적인 운율변형의 상태의 일례를 나타내는 도,
도 7은 파형선택처리의 상세를 나타내는 플로우차트,
도 8은 구체적인 파형선택처리의 상태의 일례를 나타내는 도,
도 9는 구체적인 파형선택처리의 상태의 일례를 나타내는 도,
도 10은 파형접속처리의 상세를 나타내는 플로우차트,
도 11은 본 발명의 음성합성장치의 기능블록도이다.
본 발명에서는 상기 목적을 달성하기 위하여 입력된 문자열에 대응하는 음성메시지데이터를 작성하는 음성합성방법으로서, 적어도 1개의 문자를 포함하는 문자열을 그 액센트형과 함께 다수 수록한 단어사전과, 이 단어사전에 수록된 문자열에 대한 운율정보를 나타내는 운율모델데이터중의 대표적인 운율모델데이터를 수록한 운율사전과, 수록음성을 합성단위의 음성파형데이터로서 수록한 파형사전을 사용하여 입력문자열의 액센트형을 결정하고, 입력문자열과 액센트형에 의거하여 운율사전으로부터 운율모델데이터를 선택하고, 이 선택한 운율모델데이터의 문자열이 입력문자열과 일치하지 않는 경우는 상기 운율모델데이터의 운율정보를 입력문자열에 맞추어 변형하고, 운율모델데이터에 의거하여 입력문자열의 각 문자에 대응하는 파형데이터를 파형사전으로부터 선택하고, 이 선택한 파형데이터끼리를 접속하는 음성합성방법을 제안한다.
본 발명에 의하면 입력문자열이 사전에 등록되어 있지 않은 경우에도 이 문자열에 가까운 운율모델데이터를 이용할 수 있고, 또한 그 운율정보를 입력문자열에 맞추어 변형하고, 이것에 의거하여 파형데이터를 선택할 수 있으므로 자연스러운 음성을 합성할 수 있다.
여기서 운율모델데이터의 선택은 문자열, 모라(mora)의 수, 액센트형 및 음절정보를 포함하는 운율모델데이터를 수록한 운율사전을 사용하고, 입력문자열의 음절정보를 작성하여 운율사전중에서 입력문자열과 모라의 수 및 액센트형이 일치하는 운율모델데이터를 추출하여 운율모델데이터후보로 하고, 각 운율모델데이터후보에 대하여 그 음절정보와 입력문자열의 음절정보를 비교하여 각각 운율복원정보를 작성하고, 각 운율모델데이터후보의 문자열 및 운율복원정보에 의거하여 최적의 운율모델데이터를 선택함으로써 행할 수 있다.
이때, 운율모델데이터후보중에서 그 모든 음소가 입력문자열의 음소와 일치하는 후보가 있으면 이것을 최적운율모델데이터로 하고, 모든 음소가 일치하는 후보가 없으면 운율모델데이터후보중에서 입력문자열의 음소와 일치하는 음소의 수가 최대인 후보를 최적운율모델데이터로 하고, 일치하는 음소의 수가 최대인 후보가 복수개 있는 경우는 그중 연속하여 일치하는 음소의 수가 최대인 후보를 최적운율모델데이터로 함으로써, 입력문자열과 동일위치의 동일음소, 즉 그대로 이용가능한 음소(이하, 복원음소라 함)를 가장 많이 또한 연속하여 포함하는 운율모델데이터를 선택하는 것이 가능하게 되어 더욱 자연스러운 음성합성이 가능하게 된다.
또 운율모델데이터의 변형은, 선택한 운율모델데이터의 문자열이 입력문자열과 일치하지 않는 경우, 상기 운율모델데이터중에서 일치하지 않는 문자별로 음성합성에 사용하는 모든 문자에 대하여 미리 구하여 둔 평균음절길이와, 상기 운율모델데이터에 있어서의 음절길이로부터 변형후의 음절길이를 구함으로써, 선택한 운율모델데이터의 운율정보를 입력문자열에 맞추어 변형할 수 있고 더욱 자연스러운 음성합성이 가능하게 된다.
또한 파형데이터의 선택은 입력문자열을 구성하는 각 음소중에서 복원음소에 대해서는 운율모델데이터중에서 해당하는 음소의 파형데이터를 파형사전으로부터선택하고, 그외의 음소에 대해서는 대응하는 음소중에서 운율모델데이터와 주파수가 가장 가까운 음소의 파형데이터를 파형사전으로부터 선택함으로써, 변형후의 운율모델데이터에 가장 가까운 파형데이터를 선택할 수 있어 더욱 자연스럽고 의도하는 바에 가까운 음성합성이 가능하게 된다.
또 본 발명에서는 상기 목적을 달성하기 위하여 입력된 문자열에 대응하는 음성메시지데이터를 작성하는 음성합성장치로서, 적어도 1개의 문자를 포함하는 문자열을 그 액센트형과 함께 다수 수록한 단어사전과, 이 단어사전에 수록된 문자열에 대한 운율정보를 나타내는 운율모델데이터중의 대표적인 운율모델데이터를 수록한 운율사전과, 수록음성을 합성단위의 음성파형데이터로서 수록한 파형사전과, 입력문자열의 액센트형을 결정하는 액센트형 결정수단과, 입력문자열과 액센트형에 의거하여 운율사전으로부터 운율모델데이터를 선택하는 운율모델 선택수단과, 이 선택한 운율모델데이터의 문자열이 입력문자열과 일치하지 않는 경우에 상기 운율모델데이터의 운율정보를 입력문자열에 맞추어 변형하는 운율변형수단과, 운율모델데이터에 의거하여 입력문자열의 각 문자에 대응하는 파형데이터를 파형사전으로부터 선택하는 파형선택수단과, 이 선택한 파형데이터끼리를 접속하는 파형접속수단을 구비한 음성합성장치를 제안한다.
또 상기한 바와 같은 음성합성장치는, 음성합성프로그램을 기록한 컴퓨터판독 가능한 매체에 있어서, 상기 프로그램이 컴퓨터에 판독되었을 때, 이 컴퓨터를 적어도 1개의 문자를 포함하는 문자열을 그 액센트형과 함께 다수 수록한 단어사전과, 이 단어사전에 수록된 문자열에 대한 운율정보를 나타내는 운율모델데이터중의대표적인 운율모델데이터를 수록한 운율사전과, 수록음성을 합성단위의 음성파형데이터로서 수록한 파형사전과, 입력문자열의 액센트형을 결정하는 액센트형 결정수단과, 입력문자열과 액센트형에 의거하여 운율사전으로부터 운율모델데이터를 선택하는 운율모델 선택수단과, 이 선택한 운율모델데이터의 문자열이 입력문자열과 일치하지 않는 경우에 상기 운율모델데이터의 운율정보를 입력문자열에 맞춰어 변형하는 운율변형수단과, 운율모델데이터에 의거하여 입력문자열의 각 문자에 대응하는 파형데이터를 파형사전으로부터 선택하는 파형선택수단과, 이 선택한 파형데이터끼리를 접속하는 파형접속수단으로서 기능시키는 음성합성프로그램을 기록한 컴퓨터판독 가능한 매체에 의해서도 실현할 수 있다.
본 발명의 상기 목적과 그것 이외의 목적과, 특징과, 이익은 이하의 설명과 첨부도면에 의해 분명해진다.
도 1은 본 발명의 음성합성방법의 전체의 흐름을 나타내는 것이다.
먼저, 도시 생략한 입력수단이나 게임시스템 등에 의해 합성하고자 하는 문자열이 입력되면, 그 액센트형을 단어사전 등에 의거하여 결정한다(s1). 여기서 단어사전이란, 적어도 1개의 문자를 포함하는 문자열(단어)을 그 액센트형과 함께 다수 수록한 것으로, 예를 들어 입력될 것이 예상되는 플레이어캐릭터의 이름[단, 여기서는 실제의 이름뒤에「쿠운」(일본어의 경칭)을 더한 것]을 나타내는 단어를 그 액센트형과 함께 다수 수록한 것이다.
구체적인 결정은 입력문자열과 단어사전에 수록된 단어를 비교하여, 동일한 단어가 있으면 그 액센트형을 채용하고, 없으면 모라의 수가 동일한 단어중에서 유사한 문자열을 가지는 단어의 액센트형을 채용한다.
또한 동일한 단어가 없는 경우, 입력문자열과 모라의 수가 동일한 단어에 나타날 수 있는 모든 액센트형으로부터 오퍼레이터(게임플레이어) 등이 도시 생략한 입력수단에 의해 임의로 선택·결정할 수 있게 하여도 좋다.
다음에 입력문자열과 액센트형에 의거하여 운율사전으로부터 운율모델데이터를 선택한다(s2). 여기서 운율사전이란, 단어사전에 수록된 단어에 대한 운율정보를 표시하는 운율모델데이터중의 대표적인 운율모델데이터를 수록한 것이다.
다음에 선택한 운율모델데이터의 문자열이 입력문자열과 일치하지 않는 경우는, 상기 운율모델데이터의 운율정보를 입력문자열에 맞추어 변형한다(s3).
다음에 변형후의 운율모델데이터(또한, 선택한 운율모델데이터의 문자열이 입력문자열과 일치하는 경우는 변형되지 않기 때문에, 변형후의 운율모델데이터중에는 실제로는 변형되어 있지 않은 운율모델데이터도 포함하는 것으로 한다)에 의거하여 입력문자열의 각 문자에 대응하는 파형데이터를 파형사전으로부터 선택한다 (s4). 여기서 파형사전이란, 수록음성을 합성단위의 음성파형데이터로서 수록한 것으로, 본 실시형태에서는 주지의 VCV 음소방식에 의한 음성파형데이터(음소편)를 수록하고 있다.
마지막으로 선택한 파형데이터끼리를 접속하여(s5), 합성음성데이터를 작성한다.
다음에 운율모델선택처리의 상세에 대하여 설명한다.
도 2는 운율사전의 일례를 나타내는 것으로, 문자열, 모라의 수, 액센트형 및 음절정보를 포함하는 복수의 운율모델데이터, 즉 단어사전에 수록된 다수의 문자열에 대한 대표적인 복수의 운율모델데이터를 수록하여 이루어져 있다. 여기서 음절정보란, 문자열을 구성하는 각 문자가 C : 자음 + 모음, V : 모음, N' : 하츠옹(ン), Q' : 소쿠옹(ッ), L : 장음, # : 무성음중 어느것에 해당하는 지를 표시하는 음절종류와, ASJ(일본음향학회)표기법으로 표시되는 음성표기용 기호의 몇번째(A(아) : 1, I(이) : 2, U(우) : 3, E(에) : 4, O(오) : 5, KA(가) : 6, ……)인지를 표시하는 음절번호로 이루어져 있다(단, 도 2에서는 생략). 또한 운율사전은 실제로는 운율모델데이터별로 구성하는 각 음소의 주파수, 볼륨, 음절길이 등의 상세한 정보를 구비하고 있으나, 도면에서는 생략하였다.
도 3은 운율모델선택처리의 상세플로우차트, 도 4는 구체적인 운율모델선택처리 상태의 일례를 나타내는 것으로, 이하, 상세하게 설명한다.
먼저, 입력문자열의 음절정보를 작성한다(s201). 구체적으로는 히라가나로 표기된 문자열을 상기한 ASJ 표기법으로 로마자화(알파벳표기에 의한 표음문자화) 하여 상기한 음절종류 및 음절번호로 이루어지는 음절정보를 작성한다. 예를 들어 도 4에 나타내는 바와 같이 문자열「가사이쿠운」의 경우, 「kasaikun'」으로 로마자화하고, 다시 음절종류「CCVCN'」및 음절번호「6, 11, 2, 8, 98」로 이루어지는 음절정보를 작성한다.
다음에 복원음소개수를 VCV 음소단위로 보기 때문에 입력문자열에 대한 VCV 음소열을 작성한다(s202). 예를 들어 상기한「가사이쿠운」의 경우는「ka asa ai iku un」이 된다.
한편 운율사전에 수록되어 있는 운율모델데이터로부터 입력문자열과 액센트형 및 모라의 수가 일치하는 운율모델데이터만을 추출하여 운율모델데이터후보로 한다 (s203). 예를 들어 도 2, 도 4의 예에서는「카마이쿠운」, 「사사이쿠운」,「시사이쿠운」이다.
다음에 각 운율모델데이터후보마다 그 음절정보와 입력문자열의 음절정보를 비교하여 운율복원정보를 작성한다(s204). 구체적으로는 운율모델데이터후보와 입력문자열의 음절정보를 문자마다 비교하여 자음도 모음도 일치하면「11」, 자음은 다르나 모음은 일치하는 경우는「01」, 자음은 일치하나 모음은 다른 경우는「10」, 자음도 모음도 다른 경우는「00」이라는 정보를 부여하고, 다시 VCV 단위로 구분한다.
예를 들어 도 2, 도 4의 예에서는 비교정보는 「카마이쿠운」이「11 01 11 11 11」, 「사사이쿠운」이「01 11 11 11 11」, 「시사이쿠운」이「00 11 11 11 11」이 되고, 운율복원정보는「카마이쿠운」이「11 101 111 111 111」, 「사사이쿠운」이「O1 111 111 111 111」, 「시사이쿠운」이「00 011 111 111 111」이 된다.
다음에 각 운율모델데이터후보로부터 1개 선택하여(s205), 그 음소가 입력문자열의 음소와 VCV 단위에서 일치하고 있는 지의 여부, 즉 상기한 운율복원정보가 「11」또는「111」인지의 여부를 조사한다(s206). 여기서 모든 음소가 일치하고 있으면 이것을 최적 운율모델데이터로 결정한다(s207).
한편, 1개라도 불일치의 음소가 있으면 VCV 단위에서 일치하는 음소의 수, 즉 상기한 운율복원정보중「11」또는「111」의 수를 비교(초기값은 0)하여(s208),최대치이면 그 모델을 최적 운율모델데이터의 후보로 한다(s209). 또한 VCV 단위에서 일치하는 음소의 연속수, 즉 상기한 운율복원정보중「11」또는「111」의 연속수를 비교(초기값은 0)하여(s210), 최대치이면 그 모델을 최적 운율모델데이터의 후보로 한다(s211).
이상의 처리를 모든 운율모델데이터후보에 관하여 반복하여 행하고(s212), 모든 음소가 일치 또는 일치 음소수가 최대 또는 일치 음소수 최대인 모델이 복수개 있는 경우는 일치 음소연속수가 최대인 모델을 최적 운율모델데이터로 결정한다.
상기한 도 2, 도 4의 예에서 설명하면, 문자열이 입력문자열과 동일한 모델은 없고, 일치 음소수는「카마이쿠운」이 4, 「사사이쿠운」이 4, 「시사이쿠운」이 3 이나, 일치 음소연속수는 「카마이쿠운」이 3, 「사사이쿠운」이 4 이므로, 「사사이쿠운」이 최적 운율모델데이터로 결정된다.
다음에 운율변형처리의 상세에 관하여 설명한다.
도 5는 운율변형처리의 상세 플로우차트, 도 6은 구체적인 운율변형처리의 상태의 일례를 나타내는 것으로, 이하 상세하게 설명한다.
먼저, 상기한 바와 같이하여 선택된 운율모델데이터 및 입력문자열의 문자를 선두로부터 1 문자씩 선택하고(s301), 이때 문자가 일치하면(s302), 그대로 다음 문자의 선택을 반복한다(s303). 문자가 불일치할 경우, 운율모델데이터중의 문자에 대응하는 변형후의 음절길이를 이하와 같이 하여 구하고, 또 필요에 따라 변형후의 볼륨을 구하여 운율모델데이터를 재입력한다(s304, s305).
변형후의 음절길이는 모델데이터중의 음절길이를 x, 모델데이터의 문자에 대응하는 평균음절길이를 X', 변형후의 음절길이를 y, 변형후의 문자에 대응하는 평균음절길이를 y'로 하였을 때,
y = y' ×(X/X')
에 의해 구한다. 또한 평균음절길이는 미리 각 문자마다 구하여 기억해 두는 것으로 한다.
도 6은 입력문자열을「사가이쿠운」, 선택된 운율모델데이터를「카마이쿠운」으로 한 경우의 예를 나타내고 있으며, 운율모델데이터중의 문자「카」를 입력문자열중의 문자「사」에 맞추어 변형하는 경우, 문자「카」의 평균음절길이를「22」, 문자「사」의 평균음절길이를「25」라 하면 변형후의「사」의 음절길이는「사」의 음절길이 = 「사」의 평균 ×(「카」의 음절길이/「카」의 평균)
= 25 ×(20/22)
≒ 23
이 된다.
마찬가지로 운율모델데이터중의 문자「사」를 입력문자열중의 문자「카」에 맞추어 변형하는 경우, 변형후의「카」의 음절길이는,
「카」의 음절길이 =「카」의 평균 ×(「사」의 음절길이/「사」의 평균)
= 22 ×(30/25)
≒ 26
이 된다. 또한 볼륨에 대해서는 음절길이의 경우와 동일한 계산에 의해 구하여 변형하여도 되고, 또는 운율모델데이터중의 값을 그대로 사용하여도 된다.
이상의 처리를 운율모델데이터중의 모든 문자에 대하여 반복하여 행한 후, 음소(VCV)정보로 변환하여(s306), 각 음소의 접속정보를 작성한다(s307).
또한 상기한 입력문자열이「사카이쿠운」이고, 선택된 운율모델데이터「카마이쿠운」인 경우, 「이」, 「쿠」, 「운」의 3개의 문자에 대해서는 그 위치 및 음소가 일치하기 때문에 이들은 그대로 이용가능한 음소(복원음소)가 된다.
다음에 파형선택처리의 상세에 관하여 설명한다.
도 7은 파형선택처리의 상세 플로우차트를 나타내는 것으로, 이하 상세하게 설명한다.
먼저, 입력문자열을 구성하는 음소를 선두로부터 1개씩 선택하고(s401), 이것이 상기한 복원음소이면(s402), 상기한 바와 같이 하여 선택·변형한 운율모델데이터중의 해당하는 음소의 파형데이터를 파형사전으로부터 선택한다(s403).
또 복원음소가 아니면 파형사전중의 동일 구절기호를 가지는 음소를 후보로서 선택하고(s404), 변형후의 운율모델데이터에 있어서의 해당 음소와의 주파수의 차이를 산출한다(s405). 이때 음소의 V 구간이 2개있는 것에 관해서는 액센트형도 고려하여 각각의 V 구간마다의 주파수의 차이의 합을 산출한다. 이것을 모든 후보에 대하여 반복하여(s406), 차이(또는 차이의 합)가 가장 작은 후보의 음소의 파형데이터를 파형사전으로부터 선택한다(s407). 또한 이때 음소후보의 볼륨에 대해서도 보조적으로 참조하여 극단적으로 값이 작은 것을 제외하는 등의 처리를 행하여도 좋다.
이상의 처리를 입력문자열을 구성하는 모든 음소에 대하여 반복하여 행한다 (s408).
도 8, 도 9는 구체적인 파형선택처리의 상태의 일례를 나타내는 것으로, 여기서는 입력문자열「사카이쿠운」을 구성하는 VCV 음소「sa aka ai iku un」중에서 복원음소가 아닌「sa」, 「aka」의 각각에 대하여 변형후의 운율모델데이터에 있어서의 해당 음소의 주파수 및 볼륨치와 음소후보의 주파수 및 볼륨치을 표시하고 있다.
구체적으로는 도 8에서는 변형후의 운율모델데이터에 있어서의 음소「sa」의 주파수「450」및 볼륨치「1000」과, 음소후보, 여기서는 3개 음소후보「sa-001」, 「sa-002」, 「sa-003」의 주파수「440」, 「500」, 「400」및 볼륨치「800」, 「1050」, 「950」을 표시하고 있으며, 이 경우 주파수가「440」에서 가장 가까운 음소후보「sa-OO1」이 선택된다.
또 도 9에서는 변형후의 운율모델데이터에 있어서의 음소「aka」의 V 구간 (1)의 주파수「450」및 볼륨치「1000」및 V 구간(2)의 주파수「400」및 볼륨치「800」과 음소후보, 여기서는 2개의 음소후보「aka-001」, 「aka-002」의 V 구간(1)의 주파수「400」, 「460」및 볼륨치「1000」,「800」및 V 구간(2)의 주파수「450」, 「410」및 볼륨치「800」, 「1000」을 표시하고 있으며, 이 경우 V 구간(1) 및 V 구간(2)마다의 주파수의 차이의 합(음소후보「aka-001」에서는|450-400|+|400-450|= 100, 음소후보「aka-002」에서는 |450-460|+|400-410|= 20)이 가장 작은 음소후보「aka-002」가 선택된다.
도 10은 파형접속처리의 상세 플로우차트를 나타내는 것으로, 이하 상세하게 설명한다.
먼저, 상기한 바와 같이 하여 선택한 음소의 파형데이터를 선두로부터 1개씩 선택하여(s501), 접속후보위치를 설정하고(s502), 이때 접속이 복원가능하면 (s503), 복원접속정보를 기초로 접속한다(s504).
또 복원할 수 없으면 음절길이를 판정하고(s505), 이것에 따라 각종 접속방법(모음구간접속, 장음접속, 무성화 음절접속, 소쿠옹접속, 하츠옹접속 등)에 따라접속한다(s506).
이상의 처리를 모든 음소의 파형데이터에 대하여 반복하여 행하고(s507), 합성음성데이터를 작성한다.
도 11은 본 발명의 음성합성장치의 기능블록도를 나타내는 것으로, 도면에 있어서 11은 단어사전, 12는 운율사전, 13은 파형사전, 14는 액센트형 결정수단, 15는 운율모델 선택수단, 16은 운율변형수단, 17은 파형선택수단, 18은 파형접속수단이다.
단어사전(11)은 적어도 1개의 문자를 포함하는 문자열(단어)을 그 액센트형과 함께 다수 수록하여 이루어져 있다. 또 운율사전(12)은 문자열, 모라의 수, 액센트형 및 음절정보를 포함하는 운율모델데이터를 복수, 단어사전에 수록된 다수의 문자열에 대한 대표적인 복수의 운율모델데이터를 수록하여 이루어져 있다. 또 파형사전(13)은 수록음성을 합성단위의 음성파형데이터로서 수록하여 이루어져 있다.
액센트형 결정수단(14)은 입력수단이나 게임시스템 등에 의해 입력된 문자열과 단어사전(11)에 수록된 단어를 비교하여 동일한 단어가 있으면 그 액센트형을 상기 문자열의 액센트형으로 결정하고, 없으면 모라의 수가 동일한 단어중에서 유사한 문자열을 가지는 단어의 액센트형을 상기 문자열의 액센트형으로 결정하는 처리 등을 행한다.
운율모델 선택수단(15)은 입력문자열의 음절정보를 작성하여 운율사전(12)중에서 입력문자열과 모라의 수 및 액센트형이 일치하는 운율모델데이터를 추출하여 운율모델데이터후보로 하고, 각 운율모델데이터후보에 대하여 그 음절정보와 입력문자열의 음절정보를 비교하여 각각 운율복원정보를 작성하여 각 운율모델데이터후보의 문자열 및 운율복원정보에 의거하여 최적의 운율모델데이터를 선택하는 처리를 행한다.
운율변형수단(16)은 선택한 운율모델데이터의 문자열이 입력문자열과 일치하지 않는 경우, 상기 운율모델데이터중의 일치하지 않는 문자마다 음성합성에 사용하는 모든 문자에 대하여 미리 구하여 둔 평균음절길이와, 상기 운율모델데이터에 있어서의 음절길이로부터 변형후의 음절길이를 구하는 처리를 행한다.
파형선택수단(17)은 입력문자열을 구성하는 각 음소중에서 복원음소에 대해서는 변형후의 운율모델데이터중에서 해당하는 음소의 파형데이터를 파형사전으로부터 선택하고, 그외의 음소에 대해서는 대응하는 음소중에서 변형후의 운율모델데이터와 주파수가 가장 가까운 음소의 파형데이터를 파형사전으로부터 선택하는 처리를 행한다.
파형접속수단(18)은 선택한 파형데이터끼리를 접속하여 합성음성데이터를 작성하는 처리를 행한다.
명세서에 기재한 바람직한 형태는 예시적인 것으로, 한정적인 것이 아니다. 발명의 범위는 첨부하는 클레임에 의해 나타나 있고, 이들 클레임의 의미중에 들어 가는 모든 변형예는 본 발명에 포함되는 것이다.

Claims (15)

  1. 입력된 문자열에 대응하는 음성메시지데이터를 작성하는 음성합성방법으로서,
    적어도 1개의 문자를 포함하는 문자열을 그 액센트형과 함께 다수 수록한 단어사전과,
    이 단어사전에 수록된 문자열에 대한 운율정보를 나타내는 운율모델데이터중에서 대표적인 운율모델데이터를 수록한 운율사전과,
    수록음성을 합성단위의 음성파형데이터로서 수록한 파형사전을 사용하여 입력문자열의 액센트형을 결정하고,
    입력문자열과 액센트형에 의거하여 운율사전으로부터 운율모델데이터를 선택하고,
    이 선택한 운율모델데이터의 문자열이 입력문자열과 일치하지 않는 경우는 상기 운율모델데이터의 운율정보를 입력문자열에 맞추어 변형하고,
    운율모델데이터에 의거하여 입력문자열의 각 문자에 대응하는 파형데이터를 파형사전으로부터 선택하고,
    상기 선택한 파형데이터끼리를 접속하는 것을 특징으로 하는 음성합성방법.
  2. 제 1항에 있어서,
    문자열, 모라의 수, 액센트형 및 음절정보를 포함하는 운율모델데이터를 수록한 운율사전을 사용하여 입력문자열의 음절정보를 작성하고,
    운율사전중에서 입력문자열과 모라의 수 및 액센트형이 일치하는 운율모델데이터를 추출하여 운율모델데이터후보로 하고,
    각 운율모델데이터후보에 대하여 그 음절정보와 입력문자열의 음절정보를 비교하여 각각 운율복원정보를 작성하고,
    각 운율모델데이터후보의 문자열 및 운율복원정보에 의거하여 최적의 운율모델데이터를 선택하는 것을 특징으로 하는 음성합성방법.
  3. 제 2항에 있어서,
    운율모델데이터후보중에서 그 모든 음소가 입력문자열의 음소와 일치하는 후보가 있으면 이것을 최적운율모델데이터로 하고,
    모든 음소가 일치하는 후보가 없으면 운율모델데이터후보중에서 입력문자열의 음소와 일치하는 음소의 수가 최대인 후보를 최적운율모델데이터로 하고,
    일치하는 음소의 수가 최대인 후보가 복수개 있는 경우는 그중 연속하여 일치하는 음소의 수가 최대인 후보를 최적운율모델데이터로 하는 것을 특징으로 하는 음성합성방법.
  4. 제 1항에 있어서,
    상기 선택한 운율모델데이터의 문자열이 입력문자열과 일치하지 않는 경우, 상기 운율모델데이터중에서 일치하지 않는 문자마다 음성합성에 사용하는 모든 문자에 대하여 미리 구하여 둔 평균음절길이와, 상기 운율모델데이터에 있어서의 음절길이로부터 변형후의 음절길이를 구하는 것을 특징으로 하는 음성합성방법.
  5. 제 1항에 있어서,
    입력문자열을 구성하는 각 음소중에서 운율모델데이터와 위치 및 음소가 일치하는 음소에 대해서는 운율모델데이터중에서 해당하는 음소의 파형데이터를 파형사전으로부터 선택하고, 그외의 음소에 대해서는 대응하는 음소중에서 운율모델데이터와 주파수가 가장 가까운 음소의 파형데이터를 파형사전으로부터 선택하는 것을 특징으로 하는 음성합성방법.
  6. 입력된 문자열에 대응하는 음성메시지데이터를 작성하는 음성합성장치로서,
    적어도 1개의 문자를 포함하는 문자열을 그 액센트형과 함께 다수 수록한 단어사전과, 이 단어사전에 수록된 문자열에 대한 운율정보를 나타내는 운율모델데이터중에서 대표적인 운율모델데이터를 수록한 운율사전과, 수록음성을 합성단위의 음성파형데이터로서 수록한 파형사전과,
    입력문자열의 액센트형을 결정하는 액센트형결정수단과,
    입력문자열과 액센트형에 의거하여 운율사전으로부터 운율모델데이터를 선택하는 운율모델선택수단과,
    상기 선택한 운율모델데이터의 문자열이 입력문자열과 일치하지 않는 경우에 상기 운율모델데이터의 운율정보를 입력문자열에 맞추어 변형하는 운율변형수단과,
    운율모델데이터에 의거하여 입력문자열의 각 문자에 대응하는 파형데이터를 파형사전으로부터 선택하는 파형선택수단과,
    상기 선택한 파형데이터끼리를 접속하는 파형접속수단을 구비한 것을 특징으로 하는 음성합성장치.
  7. 제 6항에 있어서,
    문자열, 모라의 수, 액센트형 및 음절정보를 포함하는 운율모델데이터를 수록한 운율사전과,
    입력문자열의 음절정보를 작성하여 운율사전중에서 입력문자열과 모라의 수 및 액센트형이 일치하는 운율모델데이터를 추출하여 운율모델데이터후보로 하고, 각 운율모델데이터후보에 대하여 그 음절정보와 입력문자열의 음절정보를 비교하여 각각 운율복원정보를 작성하고 각 운율모델데이터후보의 문자열 및 운율복원정보에 의거하여 최적의 운율모델데이터를 선택하는 운율모델선택수단을 구비한 것을 특징으로 하는 음성합성장치.
  8. 제 7항에 있어서,
    운율모델데이터후보중에서 그 모든 음소가 입력문자열의 음소와 일치하는 후보가 있으면 이것을 최적운율모델데이터로 하고,
    모든 음소가 일치하는 후보가 없으면 운율모델데이터후보중에서 입력문자열의 음소와 일치하는 음소의 수가 최대인 후보를 최적운율모델데이터로 하고,
    일치하는 음소의 수가 최대인 후보가 복수개 있는 경우는 그중 연속하여 일치하는 음소의 수가 최대인 후보를 최적운율모델데이터로 하는 것을 특징으로 하는 음성합성장치.
  9. 제 6항에 있어서,
    상기 선택한 운율모델데이터의 문자열이 입력문자열과 일치하지 않는 경우, 상기 운율모델데이터중에서 일치하지 않는 문자마다 음성합성에 사용하는 모든 문자에 대하여 미리 구하여 둔 평균음절길이와, 상기 운율모델데이터에 있어서의 음절길이로부터 변형후의 음절길이를 구하는 운율변형수단을 구비한 것을 특징으로 하는 음성합성장치.
  10. 제 6항에 있어서,
    입력문자열을 구성하는 각 음소중에서 운율모델데이터와 위치 및 음소가 일치하는 음소에 대해서는 운율모델데이터중에서 해당하는 음소의 파형데이터를 파형사전으로부터 선택하고, 그외의 음소에 대해서는 대응하는 음소중에서 운율모델데이터와 주파수가 가장 가까운 음소의 파형데이터를 파형사전으로부터 선택하는 파형선택수단을 구비한 것을 특징으로 하는 음성합성장치.
  11. 음성합성프로그램을 기록한 컴퓨터판독 가능한 매체에 있어서,
    상기 프로그램은 컴퓨터에 판독되었을 때, 이 컴퓨터를,
    적어도 1개의 문자를 포함하는 문자열을 그 액센트형과 함께 다수 수록한 단어사전과, 이 단어사전에 수록된 문자열에 대한 운율정보를 나타내는 운율모델데이터중에서 대표적인 운율모델데이터를 수록한 운율사전과, 수록음성을 합성단위의 음성파형데이터로서 수록한 파형사전과,
    입력문자열의 액센트형을 결정하는 액센트형 결정수단과,
    입력문자열과 액센트형에 의거하여 운율사전으로부터 운율모델데이터를 선택하는 운율모델선택수단과,
    상기 선택한 운율모델데이터의 문자열이 입력문자열과 일치하지 않는 경우에 상기 운율모델데이터의 운율정보를 입력문자열에 맞추어 변형하는 운율변형수단과,
    운율모델데이터에 의거하여 입력문자열의 각 문자에 대응하는 파형데이터를 파형사전으로부터 선택하는 파형선택수단과,
    상기 선택한 파형데이터끼리를 접속하는 파형접속수단으로서 기능시키는 것을 특징으로 하는 음성합성프로그램을 기록한 컴퓨터판독 가능한 매체.
  12. 제 11항에 있어서,
    문자열, 모라의 수, 액센트형 및 음절정보를 포함하는 운율모델데이터를 수록한 운율사전과,
    입력문자열의 음절정보를 작성하여 운율사전중에서 입력문자열과 모라의 수 및 액센트형이 일치하는 운율모델데이터를 추출하여 운율모델데이터후보로 하고, 각 운율모델데이터후보에 대하여 그 음절정보와 입력문자열의 음절정보를 비교하여각각 운율복원정보를 작성하여 각 운율모델데이터후보의 문자열 및 운율복원정보에 의거하여 최적의 운율모델데이터를 선택하는 운율모델선택수단으로서 기능시키는 것을 특징으로 하는 음성합성프로그램을 기록한 컴퓨터판독 가능한 매체.
  13. 제 12항에 있어서,
    운율모델데이터후보중에서 그 모든 음소가 입력문자열의 음소와 일치하는 후보가 있으면 이것을 최적운율모델데이터로 하고,
    모든 음소가 일치하는 후보가 없으면, 운율모델데이터후보중에서 입력문자열의 음소와 일치하는 음소의 수가 최대인 후보를 최적운율모델데이터로 하고,
    일치하는 음소의 수가 최대인 후보가 복수개 있는 경우는 그중 연속하여 일치하는 음소의 수가 최대인 후보를 최적운율모델데이터로 하는 것을 특징으로 하는 음성합성프로그램을 기록한 컴퓨터판독 가능한 매체.
  14. 제 11항에 있어서,
    상기 선택한 운율모델데이터의 문자열이 입력문자열과 일치하지 않는 경우, 상기 운율모델데이터중에서 일치하지 않는 문자마다 음성합성에 사용하는 모든 문자에 대하여 미리 구하여 둔 평균음절길이와, 상기 운율모델데이터에 있어서의 음절길이로부터 변형후의 음절길이를 구하는 운율변형수단으로서 기능시키는 것을 특징으로 하는 음성합성프로그램을 기록한 컴퓨터판독 가능한 매체.
  15. 제 11항에 있어서,
    입력문자열을 구성하는 각 음소중에서 운율모델데이터와 위치 및 음소가 일치하는 음소에 대해서는 운율모델데이터중에서 해당하는 음소의 파형데이터를 파형사전으로부터 선택하고, 그외의 음소에 대해서는 대응하는 음소중에서 운율모델데이터와 주파수가 가장 가까운 음소의 파형데이터를 파형사전으로부터 선택하는 파형선택수단을 구비한 것을 특징으로 하는 음성합성프로그램을 기록한 컴퓨터판독 가능한 매체.
KR10-2000-0041363A 1999-07-23 2000-07-19 음성합성방법, 음성합성장치 및 음성합성프로그램을기록한 컴퓨터판독 가능한 매체 KR100403293B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP20860699A JP3361291B2 (ja) 1999-07-23 1999-07-23 音声合成方法、音声合成装置及び音声合成プログラムを記録したコンピュータ読み取り可能な媒体
JP11-208606 1999-07-23

Publications (2)

Publication Number Publication Date
KR20010021106A KR20010021106A (ko) 2001-03-15
KR100403293B1 true KR100403293B1 (ko) 2003-10-30

Family

ID=16559004

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2000-0041363A KR100403293B1 (ko) 1999-07-23 2000-07-19 음성합성방법, 음성합성장치 및 음성합성프로그램을기록한 컴퓨터판독 가능한 매체

Country Status (8)

Country Link
US (1) US6778962B1 (ko)
EP (1) EP1071074B1 (ko)
JP (1) JP3361291B2 (ko)
KR (1) KR100403293B1 (ko)
CN (1) CN1108603C (ko)
DE (1) DE60035001T2 (ko)
HK (1) HK1034130A1 (ko)
TW (1) TW523733B (ko)

Families Citing this family (179)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US20040030555A1 (en) * 2002-08-12 2004-02-12 Oregon Health & Science University System and method for concatenating acoustic contours for speech synthesis
US7353164B1 (en) 2002-09-13 2008-04-01 Apple Inc. Representation of orthography in a continuous vector space
US7047193B1 (en) * 2002-09-13 2006-05-16 Apple Computer, Inc. Unsupervised data-driven pronunciation modeling
DE04735990T1 (de) * 2003-06-05 2006-10-05 Kabushiki Kaisha Kenwood, Hachiouji Sprachsynthesevorrichtung, sprachsyntheseverfahren und programm
US20050144003A1 (en) * 2003-12-08 2005-06-30 Nokia Corporation Multi-lingual speech synthesis
JP2006309162A (ja) * 2005-03-29 2006-11-09 Toshiba Corp ピッチパターン生成方法、ピッチパターン生成装置及びプログラム
JP2007024960A (ja) * 2005-07-12 2007-02-01 Internatl Business Mach Corp <Ibm> システム、プログラムおよび制御方法
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US7912718B1 (en) 2006-08-31 2011-03-22 At&T Intellectual Property Ii, L.P. Method and system for enhancing a speech database
US8510113B1 (en) 2006-08-31 2013-08-13 At&T Intellectual Property Ii, L.P. Method and system for enhancing a speech database
US8510112B1 (en) * 2006-08-31 2013-08-13 At&T Intellectual Property Ii, L.P. Method and system for enhancing a speech database
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US7996222B2 (en) * 2006-09-29 2011-08-09 Nokia Corporation Prosody conversion
JP5119700B2 (ja) * 2007-03-20 2013-01-16 富士通株式会社 韻律修正装置、韻律修正方法、および、韻律修正プログラム
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
KR100934288B1 (ko) * 2007-07-18 2009-12-29 현덕 한글을 이용한 음원 생성 방법 및 장치
US8583438B2 (en) * 2007-09-20 2013-11-12 Microsoft Corporation Unnatural prosody detection in speech synthesis
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20100125459A1 (en) * 2008-11-18 2010-05-20 Nuance Communications, Inc. Stochastic phoneme and accent generation using accent class
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
RU2421827C2 (ru) * 2009-08-07 2011-06-20 Общество с ограниченной ответственностью "Центр речевых технологий" Способ синтеза речи
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9798653B1 (en) * 2010-05-05 2017-10-24 Nuance Communications, Inc. Methods, apparatus and data structure for cross-language speech adaptation
US8401856B2 (en) * 2010-05-17 2013-03-19 Avaya Inc. Automatic normalization of spoken syllable duration
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
JP2013003470A (ja) * 2011-06-20 2013-01-07 Toshiba Corp 音声処理装置、音声処理方法および音声処理方法により作成されたフィルタ
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
WO2013185109A2 (en) 2012-06-08 2013-12-12 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9570066B2 (en) * 2012-07-16 2017-02-14 General Motors Llc Sender-responsive text-to-speech processing
JP2014038282A (ja) * 2012-08-20 2014-02-27 Toshiba Corp 韻律編集装置、方法およびプログラム
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
US10199051B2 (en) 2013-02-07 2019-02-05 Apple Inc. Voice trigger for a digital assistant
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
CN105027197B (zh) 2013-03-15 2018-12-14 苹果公司 训练至少部分语音命令系统
KR102057795B1 (ko) 2013-03-15 2019-12-19 애플 인크. 콘텍스트-민감성 방해 처리
CN110096712B (zh) 2013-03-15 2023-06-20 苹果公司 通过智能数字助理的用户培训
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
CN110442699A (zh) 2013-06-09 2019-11-12 苹果公司 操作数字助理的方法、计算机可读介质、电子设备和系统
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101809808B1 (ko) 2013-06-13 2017-12-15 애플 인크. 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
EP3480811A1 (en) 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
JP6567372B2 (ja) * 2015-09-15 2019-08-28 株式会社東芝 編集支援装置、編集支援方法及びプログラム
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN111862954B (zh) * 2020-05-29 2024-03-01 北京捷通华声科技股份有限公司 一种语音识别模型的获取方法及装置
CN112002302A (zh) * 2020-07-27 2020-11-27 北京捷通华声科技股份有限公司 一种语音合成方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07140999A (ja) * 1993-11-15 1995-06-02 Sony Corp 音声合成装置及び音声合成方法
JPH07319497A (ja) * 1994-05-23 1995-12-08 N T T Data Tsushin Kk 音声合成装置
JPH09171396A (ja) * 1995-10-18 1997-06-30 Baisera:Kk 音声発生システム
KR970060042A (ko) * 1996-01-05 1997-08-12 구자홍 음성합성방법
US5905972A (en) * 1996-09-30 1999-05-18 Microsoft Corporation Prosodic databases holding fundamental frequency templates for use in speech synthesis

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1082230A (zh) * 1992-08-08 1994-02-16 凌阳科技股份有限公司 声音合成的程序字控制器
US5384893A (en) * 1992-09-23 1995-01-24 Emerson & Stern Associates, Inc. Method and apparatus for speech synthesis based on prosodic analysis
GB2292235A (en) * 1994-08-06 1996-02-14 Ibm Word syllabification.
AU1941697A (en) * 1996-03-25 1997-10-17 Arcadia, Inc. Sound source generator, voice synthesizer and voice synthesizing method
US6029131A (en) * 1996-06-28 2000-02-22 Digital Equipment Corporation Post processing timing of rhythm in synthetic speech
JPH1039895A (ja) * 1996-07-25 1998-02-13 Matsushita Electric Ind Co Ltd 音声合成方法および装置
JP3242331B2 (ja) 1996-09-20 2001-12-25 松下電器産業株式会社 Vcv波形接続音声のピッチ変換方法及び音声合成装置
JPH10153998A (ja) * 1996-09-24 1998-06-09 Nippon Telegr & Teleph Corp <Ntt> 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置
US6226614B1 (en) * 1997-05-21 2001-05-01 Nippon Telegraph And Telephone Corporation Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon
JP3587048B2 (ja) * 1998-03-02 2004-11-10 株式会社日立製作所 韻律制御方法及び音声合成装置
JP3180764B2 (ja) * 1998-06-05 2001-06-25 日本電気株式会社 音声合成装置
JP2002530703A (ja) * 1998-11-13 2002-09-17 ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ 音声波形の連結を用いる音声合成
US6144939A (en) * 1998-11-25 2000-11-07 Matsushita Electric Industrial Co., Ltd. Formant-based speech synthesizer employing demi-syllable concatenation with independent cross fade in the filter parameter and source domains
US6260016B1 (en) * 1998-11-25 2001-07-10 Matsushita Electric Industrial Co., Ltd. Speech synthesis employing prosody templates
EP1045372A3 (en) * 1999-04-16 2001-08-29 Matsushita Electric Industrial Co., Ltd. Speech sound communication system
JP2000305582A (ja) * 1999-04-23 2000-11-02 Oki Electric Ind Co Ltd 音声合成装置
JP2000305585A (ja) * 1999-04-23 2000-11-02 Oki Electric Ind Co Ltd 音声合成装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07140999A (ja) * 1993-11-15 1995-06-02 Sony Corp 音声合成装置及び音声合成方法
JPH07319497A (ja) * 1994-05-23 1995-12-08 N T T Data Tsushin Kk 音声合成装置
JPH09171396A (ja) * 1995-10-18 1997-06-30 Baisera:Kk 音声発生システム
KR970060042A (ko) * 1996-01-05 1997-08-12 구자홍 음성합성방법
US5905972A (en) * 1996-09-30 1999-05-18 Microsoft Corporation Prosodic databases holding fundamental frequency templates for use in speech synthesis

Also Published As

Publication number Publication date
CN1108603C (zh) 2003-05-14
TW523733B (en) 2003-03-11
JP3361291B2 (ja) 2003-01-07
EP1071074A3 (en) 2001-02-14
DE60035001T2 (de) 2008-02-07
EP1071074B1 (en) 2007-05-30
DE60035001D1 (de) 2007-07-12
KR20010021106A (ko) 2001-03-15
JP2001034283A (ja) 2001-02-09
HK1034130A1 (en) 2001-10-12
EP1071074A2 (en) 2001-01-24
US6778962B1 (en) 2004-08-17
CN1282018A (zh) 2001-01-31

Similar Documents

Publication Publication Date Title
KR100403293B1 (ko) 음성합성방법, 음성합성장치 및 음성합성프로그램을기록한 컴퓨터판독 가능한 매체
US7454345B2 (en) Word or collocation emphasizing voice synthesizer
JP3361066B2 (ja) 音声合成方法および装置
EP1668628A1 (en) Method for synthesizing speech
JP5198046B2 (ja) 音声処理装置及びそのプログラム
CN101156196A (zh) 混合语音合成器、方法和使用
US6477495B1 (en) Speech synthesis system and prosodic control method in the speech synthesis system
JPH06282290A (ja) 自然言語処理装置およびその方法
JPH08335096A (ja) テキスト音声合成装置
JPH06318094A (ja) 音声規則合成装置
JPH1115497A (ja) 氏名読み音声合成装置
JPH05134691A (ja) 音声合成方法および装置
JP2003005776A (ja) 音声合成装置
JP2004258561A (ja) 歌唱合成用データ入力プログラムおよび歌唱合成用データ入力装置
JPH11212586A (ja) 音声合成装置
JP3870583B2 (ja) 音声合成装置および記憶媒体
JP5012444B2 (ja) 韻律生成装置、韻律生成方法、および、韻律生成プログラム
KR100269215B1 (ko) 음성 합성을 위한 발화구의 기본 주파수 궤적 생성 방법
JP2000172286A (ja) 中国語音声合成のための同時調音処理装置
JP2003308084A (ja) 音声合成方法および音声合成装置
JPH06167989A (ja) 音声合成装置
JP4603290B2 (ja) 音声合成装置および音声合成プログラム
Tian et al. Modular design for Mandarin text-to-speech synthesis
JPH037994A (ja) 歌音声合成データの作成装置
JPH10124501A (ja) 日本語読み付与方法及び装置及び日本語読み付与プログラム媒体

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20111012

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20121008

Year of fee payment: 10

LAPS Lapse due to unpaid annual fee