KR20010021104A - 음성합성방법, 음성합성을 위한 사전구축방법,음성합성장치 및 음성합성 프로그램을 기록한 컴퓨터판독가능한 매체 - Google Patents
음성합성방법, 음성합성을 위한 사전구축방법,음성합성장치 및 음성합성 프로그램을 기록한 컴퓨터판독가능한 매체 Download PDFInfo
- Publication number
- KR20010021104A KR20010021104A KR1020000041301A KR20000041301A KR20010021104A KR 20010021104 A KR20010021104 A KR 20010021104A KR 1020000041301 A KR1020000041301 A KR 1020000041301A KR 20000041301 A KR20000041301 A KR 20000041301A KR 20010021104 A KR20010021104 A KR 20010021104A
- Authority
- KR
- South Korea
- Prior art keywords
- dictionary
- word
- rhyme
- waveform
- synthesized
- Prior art date
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 87
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 69
- 238000000034 method Methods 0.000 title claims description 65
- 230000002194 synthesizing effect Effects 0.000 title claims description 19
- 230000008451 emotion Effects 0.000 claims abstract description 36
- 230000033764 rhythmic process Effects 0.000 claims abstract description 11
- 230000009466 transformation Effects 0.000 claims description 111
- 230000008569 process Effects 0.000 claims description 42
- 238000001308 synthesis method Methods 0.000 claims description 23
- 238000006243 chemical reaction Methods 0.000 claims description 16
- 238000010276 construction Methods 0.000 claims description 13
- 230000001131 transforming effect Effects 0.000 claims description 9
- 230000001020 rhythmical effect Effects 0.000 claims 3
- 230000004048 modification Effects 0.000 description 7
- 238000012986 modification Methods 0.000 description 7
- 241001417093 Moridae Species 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000002996 emotional effect Effects 0.000 description 4
- 241000204801 Muraenidae Species 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F2300/00—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
- A63F2300/60—Methods for processing data by generating or executing the game program
- A63F2300/6063—Methods for processing data by generating or executing the game program for sound processing
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
본 발명은 발화자(發話者) 또는 발화시의 감정·상황 또는 발화내용중의 적어도 하나가 다른 음성합성처리의 태스크를 복수설정하고(s1), 각 태스크에 대응한단어사전, 운율사전 및 파형사전을 구축하고(s2), 게임시스템 등에 의해 합성해야 할 문자열이 태스크의 지정과 동시에 입력되었을 때, 이 지정된 태스크의 단어사전, 운율사전 및 파형사전을 사용하여 음성합성처리(s3)함으로써, 발화자의 개성이나 발화시의 감정·상황, 발화내용을 반영한 음성메시지를 작성하는 것이다.
Description
본 발명은 비디오게임 등에 사용하기 가장 적합한 음성합성방법, 음성합성을 위한 사전구축방법, 음성합성장치 및 음성합성프로그램을 기록한 컴퓨터판독 가능한 매체에 관한 것이다.
최근 전화에 의한 시보안내, 은행의 ATM 에 있어서의 음성안내 등과 같이 음성메시지(인간이 이야기하는 말)를 반복하여 출력할 필요가 있는 서비스의 보급이나, 각종 전기제품 등의 맨-머신인터페이스의 향상요구에 따라 기계로부터 음성메시지를 출력시키고자 하는 요구가 증가하고 있다.
종래의 음성메시지를 출력하는 방법으로서는, 미리 결정된 대사나 문장을 문장을 살아있는 인간에게 발성시키고 이것을 수록하여 기억장치에 기록하여 두고, 필요한 장면에서 그대로 재생하여 출력하는 방법(이하, 이것을 기록재생방법이라 함)이 있었다. 또 기억장치에 음성메시지를 구성하는 다양한 말에 대응하는 음성데이터를 기억시켜 두고 임의로 입력된 문자열(텍스트)에 따라 상기 음성데이터를 조합시켜 출력하는 방법, 소위 음성합성방법이 있었다.
상기한 기록재생방법에서는 품질이 높은 음성메시지를 출력할 수 있다. 그러나 그 반면에, 결정된 대사나 문장 이외의 음성메시지를 출력할 수는 없고, 또 출력하고자 하는 대사나 문장의 수에 비례한 용량의 기억장치가 필요하게 된다는 문제가 있었다.
한편 음성합성방법에서는 임의로 입력된 문자열, 즉 임의의 말에 대응하는 음성메시지를 출력할 수 있고, 또 필요한 기억용량도 상기 기록재생방법과 비교하여 적어도 된다. 그러나 문자열에 따라서는 부자연스러움이 남는 음성메시지가 된다는 문제가 있었다.
그런데 최근의 비디오게임에서는 게임기본체의 성능향상이나 기록매체의 기억 용량의 증가에 따라 BGM이나 효과음과 함께 게임에 등장하는 캐릭터에 의한 음성메시지의 출력을 가능하게 한 것이 증가하고 있다.
이때 비디오게임과 같은 엔터테인먼트성(오락성)이 높은 것에서는 게임캐릭터마다 음질이 다른 음성메시지를 출력하고, 또 발화시의 감정·상황을 반영한 음성메시지를 출력하고 싶다는 요망이 강하다. 또한 플레이어가 임의로 입력·설정한 플레이어캐릭터의 이름(부르는 법)을 게임캐릭터로부터 발성시키고 싶다는 요망도 나오고 있다.
이와 같은 요망에 적합한 음성메시지의 출력을 상기한 기록재생방법으로 실현하고자 하면 플레이어가 임의로 입력·설정하는 플레이어캐릭터의 이름(부르는 법)과 같은 수천 내지 수만에 이르는 말의 모두에 관하여 음성을 수록하여 재생하는 것이 필요하게 된다. 이 때문에 수록에 요하는 시간이나 비용, 필요한 기억장치의 용량이 방대한 것이 되어 사실상 실시불가능하였다.
한편, 음성합성방법에서는 임의로 입력·설정한 플레이어캐릭터의 이름을 발성시키는 것은 비교적 용이하다. 그러나 종래의 음성합성방법은 명료하고 자연스러운 음성메시지의 작성만을 목표로 하고 있었기 때문에 발화자의 개성, 발화시의 감정이나 상황에 따른 음성메시지를 합성하는 일, 즉 게임캐릭터마다 음질이 다른 음성메시지를 출력시키거나, 게임캐릭터의 감정·상황을 반영한 음성메시지를 출력시키거나 하는 것은 전혀 할 수 없었다.
본 발명의 목적은 비디오게임과 같은 엔터테인먼트성(오락성)이 높은 용도에 적합하게 발화자의 개성, 발화시의 감정이나 상황, 또는 다양한 발화내용에 따른 음성메시지를 작성할 수 있는 음성합성방법, 음성합성을 위한 사전구축방법, 음성합성장치 및 음성합성프로그램을 기록한 컴퓨터판독 가능한 매체를 제공하는 데에 있다.
도 1은 본 발명의 음성합성방법의 전체를 나타내는 플로우차트,
도 2는 태스크의 설명도,
도 3은 구체적인 태스크의 일례를 나타내는 도,
도 4는 본 발명의 음성합성을 위한 사전구축방법을 나타내는 플로우차트,
도 5는 단어변형규칙의 일례를 나타내는 도,
도 6은 선출된 문자열의 일례를 나타내는 도,
도 7은 단어사전, 단어변형규칙, 문자열선출규칙에 따라 음성수록대본을 작성하기까지의 모양의 일례를 나타내는 도,
도 8은 본 발명의 음성합성방법을 나타내는 플로우차트,
도 9는 본 발명의 음성합성장치의 기능블록도이다.
상기 목적을 달성하기 위하여 단어사전, 운율사전 및 파형사전을 사용하여 음성메시지를 작성하는 음성합성방법에 있어서, 발화자 또는 발화시의 감정·상황 또는 발화내용중의 적어도 하나가 다른 음성합성처리의 작업단위(이하, 이것을 태스크라 함)를 복수설정하고, 각 태스크에 대응하는 적어도 운율사전 및 파형사전을 구축하고, 음성합성해야 할 문자열이 태스크의 지정과 함께 입력되었을 때 해당태스크에 대응한 단어사전, 운율사전 및 파형사전을 사용하여 음성합성처리하는 것을 특징으로 한다.
본 발명에 의하면 음성합성처리를 복수의 발화자, 발화시의 복수의 감정·상황, 복수의 발화내용이라는 태스크로 나누어 태스크별로 사전을 구축하여 음성합성처리를 행하기 때문에 발화자의 개성, 발화시의 감정이나 상황, 발화내용에 따른 음성메시지를 용이하게 작성할 수 있다.
또 상기한 복수의 태스크마다의 사전은 태스크에 대응한 단어사전을 작성하고, 단어사전중의 모든 단어로부터 모델이 될 수 있는 문자열을 선출하여 음성수록대본을 작성하고, 음성수록대본에 따라 발화자의 음성을 수록하여 이 수록한 음성으로부터 운율사전 및 파형사전을 구축하고, 이들을 각 태스크에 대하여 행함으로써 구축된다.
또 상기한 복수의 태스크마다의 사전은, 태스크에 대응한 단어사전과 함께 단어변형규칙을 작성하고, 태스크에 대응한 단어사전에 포함되는 모든 단어를 이 태스크에 대응한 단어변형규칙에 따라 변형처리하고, 변형처리한 단어사전중의 모든 단어로부터 모델이 될 수 있는 문자열을 선출하여 음성수록대본을 작성하고, 음성수록대본에 따라 발화자의 음성을 수록하여 이 수록한 음성으로부터 운율사전 및 파형사전을 구축하고, 이들을 각 태스크에 대하여 행함으로써 구축된다.
또 상기한 복수의 태스크마다의 사전은, 태스크에 대응한 단어변형규칙을 작성하고, 단어사전에 포함되는 모든 단어를 태스크에 대응한 단어변형규칙에 따라 변형처리하며, 변형처리한 단어사전중의 모든 단어로부터 모델이 될 수 있는 문자열을 선출하여 음성수록대본을 작성하고, 음성수록대본에 따라 발화자의 음성을 수록하여 이 수록한 음성으로부터 운율사전 및 파형사전을 구축하고, 이들을 각 태스크에 대하여 행함으로써 구축된다.
본 발명에 의하면 태스크에 따른 음성수록대본을 간단하게 작성할 수 있고, 이 대본에 따라 음성을 수록하여 각 사전을 구축할 수 있으며, 또 문자열변형처리를 행함으로써 사전의 용량을 늘리는 일 없이 다양한 내용표현을 포함하는 음성메시지를 용이하게 작성할 수 있다.
또 이들 사전을 사용하는 음성합성방법은 합성해야 할 문자열과 함께 입력되는 태스크의 지정에 따라 단어사전, 운율사전 및 파형사전을 전환하고, 전환후의 단어사전, 운율사전 및 파형사전을 사용하여 합성해야 할 문자열에 대응하는 음성메시지를 합성처리함으로써 행하여진다.
이때 각 사전이 적어도 1개의 문자를 포함하는 단어를 그 액센트형과 함께 다수 수록한 단어사전, 이 단어사전에 수록된 단어에 대한 운율을 나타내는 운율모델데이터중의 대표적인 운율모델데이터를 수록한 운율사전, 수록음성을 합성단위의 음성데이터로서 수록한 파형사전인 경우, 음성합성처리는 합성해야 할 문자열의 액센트형을 단어사전으로부터 판정하고, 합성해야 할 문자열과 액센트형에 의거하여 운율사전으로부터 운율모델데이터를 선택하고, 선택한 운율모델데이터에 의거하여 합성해야 할 문자열의 각 문자에 대응하는 파형데이터를 파형사전으로부터 선택하고, 이 선택한 파형데이터끼리를 접속함으로써 행할 수 있다.
또 이들 사전을 사용하는 다른 음성합성방법은 합성해야 할 문자열과 함께 입력되는 태스크의 지정에 따라 단어사전, 운율사전 및 파형사전 및 단어변형규칙을 전환하고, 합성해야 할 문자열을 단어변형규칙에 따라 변형처리하며, 전환후의 단어사전, 운율사전 및 파형사전을 사용하여 변형처리후의 문자열에 대응하는 음성메시지를 합성처리함으로써 행하여진다.
또 이들 사전을 사용하는 다른 음성합성방법은 합성해야 할 문자열과 함께 입력된 태스크의 지정에 따라 운율사전 및 파형사전 및 단어변형규칙을 전환하고, 합성해야 할 문자열을 단어변형규칙에 따라 변형처리하며, 단어사전, 전환후의 운율사전 및 파형사전을 사용하여 변형처리후의 문자열에 대응한는 음성메시지를 합성처리함으로써 행하여진다.
또 이때 각 사전이 적어도 1개의 문자를 포함하는 단어를 그 액센트형과 함께 다수 수록한 단어사전, 이 단어사전에 수록된 단어에 대한 운율을 나타내는 운율모델데이터중의 대표적인 운율모델데이터를 수록한 운율사전, 수록음성을 합성단위의 음성데이터로서 수록한 파형사전이며, 단어변형규칙이 문자열의 변형규칙을 수록한 단어변형규칙인 경우 음성합성처리는 합성해야 할 문자열의 액센트형을 단어사전 또는 단어변형규칙으로부터 판정하고, 합성해야 할 문자열과 액센트형에 의거하여 운율사전으로부터 운율모델데이터를 선택하고, 선택한 운율모델데이터에 의거하여 합성해야 할 문자열의 각 문자에 대응하는 파형데이터를 파형사전으로부터 선택하고, 이 선택한 파형데이터끼리를 접속함으로써 행할 수 있다.
또 상기한 사전을 사용하는 음성합성장치는 합성해야 할 문자열과 함께 입력되는 태스크의 지정에 따라 단어사전, 운율사전 및 파형사전을 전환하는 수단과, 전환후의 단어사전, 운율사전 및 파형사전을 사용하여 합성해야 할 문자열에 대응하는 음성메시지를 합성처리하는 수단을 구비하여 이루어져 있다.
또 상기한 사전을 사용하는 다른 음성합성장치는 합성해야 할 문자열과 함께 입력되는 태스크의 지정에 따라 단어사전, 운율사전 및 파형사전 및 단어변형규칙을 전환하는 수단과, 합성해야 할 문자열을 단어변형규칙에 따라 변형처리하는 수단과, 전환후의 단어사전, 운율사전 및 파형사전을 사용하여 변형처리후의 문자열에 대응하는 음성메시지를 합성처리하는 수단을 구비하여 이루어져 있다.
또 상기한 사전을 사용하는 다른 음성합성장치는 합성해야 할 문자열과 함께 입력된 태스크의 지정에 따라 운율사전 및 파형사전 및 단어변형규칙을 전환하는 수단과, 합성해야 할 문자열을 단어변형규칙에 따라 변형처리하는 수단과, 단어사전, 전환후의 운율사전 및 파형사전을 사용하여 변형처리후의 문자열에 대응한는 음성메시지를 합성처리하는 수단을 구비하여 이루어져 있다.
또 상기한 바와 같은 음성합성장치는, 음성합성프로그램을 기록한 컴퓨터판독 가능한 매체에 있어서, 상기 프로그램은 컴퓨터에 판독되었을 때 이 컴퓨터를 발화자 또는 발화시의 감정·상황 또는 발화내용중의 적어도 하나가 다른 복수의 음성합성처리의 태스크에 각각 대응한 단어사전, 운율사전 및 파형사전과, 합성해야 할 문자열과 함께 입력되는 태스크의 지정에 따라 단어사전, 운율사전 및 파형사전을 전환하는 수단과, 전환후의 단어사전, 운율사전 및 파형사전을 사용하여 합성해야 할 문자열에 대응하는 음성메시지를 합성처리하는 수단으로서 기능시키는 음성합성프로그램을 기록한 컴퓨터판독 가능한 매체에 의해 실현된다.
또 상기한 바와 같은 음성합성장치는, 음성합성프로그램을 기록한 컴퓨터판독 가능한 매체에 있어서, 상기 프로그램은 컴퓨터에 판독되었을 때 이 컴퓨터를 발화자 또는 발화시의 감정·상황 또는 발화내용중의 적어도 하나가 다른 복수의 음성합성처리의 태스크에 각각 대응한 단어사전, 운율사전 및 파형사전 및 단어변형규칙과, 합성해야 할 문자열과 함께 입력된 태스크의 지정에 따라 단어사전, 운율사전 및 파형사전 및 단어변형규칙을 전환하는 수단과, 합성해야 할 문자열을 단어변형규칙에 따라 변형처리하는 수단과, 전환후의 단어사전, 운율사전 및 파형사전을 사용하여 변형처리후의 문자열에 대응하는 음성메시지를 합성처리하는 수단으로서 기능시키는 음성합성프로그램을 기록한 컴퓨터판독 가능한 매체에 의해 실현된다.
또 상기한 바와 같은 음성합성장치는, 음성합성프로그램을 기록한 컴퓨터판독 가능한 매체에 있어서, 상기 프로그램은 컴퓨터에 판독되었을 때 이 컴퓨터를 단어사전과 발화자 또는 발화시의 감정·상황중 어느 하나가 다른 복수의 음성합성처리의 태스크에 각각 대응한 운율사전 및 파형사전 및 단어변형규칙과, 합성해야 할 문자열과 함께 입력된 태스크의 지정에 따라 운율사전 및 파형사전 및 단어변형규칙을 전환하는 수단과, 합성해야 할 문자열을 단어변형규칙에 따라 변형처리하는 수단과, 단어사전, 전환후의 운율사전 및 파형사전을 사용하여 변형처리후의 문자열에 대응하는 음성메시지를 합성처리하는 수단으로서 기능시키는 음성합성프로그램을 기록한 컴퓨터판독 가능한 매체에 의해 실현된다.
본 발명의 상기 목적과 그 이외의 목적과, 특징과, 이익은 이하의 설명과 첨부도면에 의해 명확해진다.
도 1은 본 발명의 음성합성방법, 여기서는 음성합성을 위한 사전구축을 포함하는 광의의 음성합성방법의 전체의 흐름을 나타내는 것이다.
먼저 발화자 또는 발화시의 감정·상황 또는 발화내용중의 적어도 하나가 다른 음성합성처리의 태스크를 복수설정한다(s1). 이 작업은 음성합성의 목적에 따라 수작업으로 행하여진다.
도 2는 태스크를 설명하기 위한 것으로, 도면에 있어서 Al, A2, A3은 복수의 다른 발화자, B1, B2, B3은 복수의 다른 감정·상황, C1, C2, C3은 복수의 다른 발화내용을 표시하고 있다. 또한 여기서 말하는 발화내용이란 단일의 말을 나타내는 것이 아니고, 상대에 대한 호출단어, 기쁠때 내는 단어라는 일정한 정의에 따르는 단어의 집합을 나타내고 있다.
도 2에 있어서 발화자(A1)가 감정·상황(B1)일 때에 발화내용(C1)의 발화를 행한다는 케이스(A1-B1-C1)가 1개의 태스크가 되고, 발화자(A1)가 감정·상황(B2)일 때에 발화내용(C1)의 발화를 행한다는 케이스(Al-B2-C1)는 다른 1개의 태스크가 된다. 마찬가지로 발화자(A2)가 감정·상황(B1)일 때에 발화내용(C2)의 발화를 행한다는 케이스(A2-Bl-C2), 발화자(A2)가 감정·상황(B2)일 때에 발화내용(C3)의 발화를 행한다는 케이스(A2-B2-C3), 발화자(A3)가 감정·상황(B3)일 때에 발화내용 (C2)의 발화를 행한다는 케이스(A3-B3-C2)도 각각 모두 다른 1개의 태스크가 된다.
이때 항상 복수의 발화자, 복수의 발화시의 감정·상황, 복수의 발화내용의 모두를 망라한 태스크가 설정되는 것은 아니다. 즉 발화자(A1)에 대해서는 감정·상황(B1, B2, B3)이 설정되고, 또 감정·상황(Bl, B2, B3)의 각각에 관하여 발화내용(C1, C2, C3)이 설정되어 모두 9가지의 태스크가 설정되었다 하더라도, 발화자 (A2)에 대해서는 감정·상황(Bl, B2)만이 설정되고, 또 그 감정·상황(B1)에 대해서는 발화내용(C1, C2)만이 설정되며, 감정·상황(B2)에 대해서는 발화내용(C3)만이 설정되어 모두 3가지의 태스크밖에 설정되지 않는 일도 있고, 또한 어떠한 태스크를 설정할 지는 음성합성의 목적에 따라 임의로 결정된다.
또 여기서는 발화자, 발화시의 감정·상황, 발화내용을 모두 복수로서 설명하였으나, 음성합성의 목적에 따라서는 그중의 어느 1개 또는 2개가 한 종류에 한정된 태스크를 설정하는 일도 있다.
도 3은 구체적인 태스크의 일례를 나타내는 것으로, 여기서는 비디오게임에 있어서의 게임캐릭터의 음성메시지를 합성하는 경우의 예, 특히 발화내용을 플레이어캐릭터에 대한 호출만에 한정한 예를 나타낸다.
도 3에서는 「히카리」라는 이름의 발화자(게임캐릭터)에 대해서는「유년시에 보통의 호출」, 「고교생이 되어 보통으로 호출」, 「고교생이 되어 전화로 보통으로 호출」, 「고백·재회시에 감회어린 호출」이라는 4개의 감정·상황이 설정되고, 이들이 각각 따로따로의 태스크(1, 2, 3, 4)로서 설정되어 있다. 또 「아카네」라는 이름의 발화자에 대해서는 「보통으로 호출」, 「전화로 보통으로 호출」, 「고백·하교시에 친숙하게 호출」이라는 3가지의 감정·상황이 설정되고, 이들이 각각 따로따로의 태스크(5, 6, 7)로서 설정되어 있다.
또한 각 태스크에 있어서의 메시지예는 뒤에서 설명하는 태스크마다의 단어변형처리를 가한 예를 나타내고 있다. 또한 도면에 있어서의 「차앙」, 「쿠운」은 일본어에 있어서의 경칭이다.
그리고 이와 같이 하여 설정한 복수의 태스크마다, 음성합성에 필요한 사전, 즉 단어사전, 운율사전 및 파형사전을 구축한다(s2).
여기서 단어사전이란, 적어도 1개의 문자를 포함하는 단어를 그 액센트형과 함께 다수 수록한 것으로, 예를 들어 도 3에서 설명한 태스크로 말하면, 입력될 것이 예상되는 플레이어캐릭터의 이름을 표시하는 단어를 그 액센트형과 함께 다수 수록한 것이다. 또 운율사전이란 단어사전에 수록된 단어에 대한 운율을 나타내는 운율모델데이터중의 대표적인 운율모델데이터를 수록한 것이다. 또 파형사전이란 수록음성을 합성단위의 음성데이터(음소편)로서 수록한 것이다.
또한 단어사전에 관해서는 뒤에서 설명하는 단어변형처리를 가하면 발화자 또는 감정·상황이 다른 태스크에 있어서 공통화할 수도 있고, 특히 발화내용을 일종류에 한정하면 1개만으로 할 수도 있다.
그리고 도시 생략한 입력수단이나 게임시스템 등에 의해 합성해야 할 문자열이 태스크의 지정과 함께 입력되었을 때 해당 태스크에 대응한 단어사전, 운율사전및 파형사전을 사용하여 음성합성처리를 행한다(s3).
도 4는 본 발명의 음성합성을 위한 사전구축방법의 흐름을 나타내는 것이다.
먼저 상기 설정한 복수의 태스크의 발화자, 발화시의 감정·상황, 발화내용에 따른 단어사전을 수작업으로 작성한다(s21). 또 이때 필요에 따라 단어변형규칙을 작성한다(s22).
여기서 단어변형규칙이란, 단어사전에 수록된 단어를 발화자 또는 감정·상황이 다른 태스크에 대응한 단어로 변환처리하기 위한 규칙을 정한 것이다. 그리고 이 변환처리에 의해 상기한 바와 같이 1개의 단어사전을 가상적으로 발화자 또는 감정·상황이 다른 태스크에 대응한 복수의 단어사전으로서 취급하는 것을 가능하게 한다.
도 5는 단어변형규칙의 일례를 나타내는 것으로, 여기서는 도 3에서 설명한 「태스크 5」에 대응한 변형규칙, 즉 플레이어캐릭터에 대한 호출로서 이름(플레이어캐릭터의 이름)으로부터 2모라(mora)의 별명을 작성할 때의 규칙의 예를 나타낸다.
다음에 상기 작성한 단어사전 또는 단어사전 및 단어변형규칙으로부터 소정의 태스크에 대응한 단어사전 또는 단어사전 및 단어변형규칙을 선택한다(s23). 이때 단어변형규칙이 있으면 단어변형처리를 실행한다(s24).
단어변형처리는 태스크에 대응한 단어사전에 포함되는 모든 단어를 이 태스크에 대응한 단어변형규칙에 따라 변형처리함으로써 행한다.
도 3, 도 5의 예에 관하여 설명하면, 단어사전에 수록된 플레이어캐릭터의 이름을 1개씩 인출하여 2모라이상의 통상의 이름이면 선두 2모라에 대응하는 문자에「쿠운」을 붙이고, 또 1모라의 이름이면 이 1모라에 대응하는 문자에「-(장음)」및「쿠운」을 붙이고, 또 그외 특수한 이름이면 장음화(-), 소쿠옹화(ッ), 하츠옹화(ン)하는 등의 변형을 가하여 별명을 작성하고, 또한 별명을 작성하는 것 같은 경우에는 액센트를 두고(어두를 올림)로 하는 등의 액센트에 대한 변형도 행한다는 처리이다.
다음에 상기 단어사전에 수록된 모든 단어 또는 이것에 상기한 단어변형처리를 가한 모든 단어로부터 문자열 선출규칙에 따라 문자열을 선출하여 음성수록대본을 작성한다(s25).
문자열 선출규칙이란, 단어사전에 수록된 모든 단어 또는 이것에 상기한 단어변형처리를 가한 모든 단어로부터 모델이 될 수 있는 문자열을 선출하기 위한 규칙을 정한 것이다. 예를 들어 상기한 플레이어캐릭터의 이름을 다수 수록한 단어사전으로부터 모델이 될 수 있는 문자열, 즉 이름을 선출하는 경우에는, 1) 1모라 내지 6모라까지의 이름, 2) 각각의 모라마다 다른 액센트형의 단어를 적어도 1개 채용 등이다. 이 규칙에 따라 선출된 문자열의 일례를 도 6에 나타낸다.
그런데 단어사전에 포함되는 단어는 사전작성시의 발화내용의 정의를 좁게 할 수록 패턴이 한정되어 유사도가 큰 단어가 많아진다. 단어사전에 유사도가 큰 단어가 많이 포함되는 경우, 각 단어에 그 중요도·출현확률(빈도)를 표시하는 정보를 부여하여 두고, 이 정보를 이용한 선출기준을 상기한 모라수나 액센트형의 지정 등과 함께 문자열 선출규칙에 포함시켜 둠으로써 음성수록 대본중에 실제의 음성합성에 있어서 합성해야 할 문자열로서 입력되는 문자열 또는 이것에 유사한 문자열이 포함되는 확률을 높게 할 수 있고, 이에 의해 실제의 음성합성에 있어서의 품위를 높이는 것이 가능해진다.
다음에 상기한 바와 같이하여 작성한 태스크에 대응한 음성수록 대본에 따라발화자의 음성을 수록한다(s26). 이것은 태스크에 대응한 발화자(성우 등)를 스튜디오 등에 초대하여 대본에 따라 발성한 음성을 마이크로 수록하고 테이프레코더 등에 기록하는 통상의 공정이다.
마지막으로 수록한 음성으로부터 운율사전 및 파형사전을 구축한다(s27). 또한 이 수록음성에 의거하는 사전구축에 관한 처리의 상세에 대해서는 본원이 대상으로 하는 점이 아니고, 주지의 알고리즘이나 처리방법을 그대로 사용할 수 있으므로 생략한다.
이상의 처리를 모든 태스크분마다 반복하여 행한다(s28). 또한 상기한 바와 같이 단어변형처리에 의해 1개의 단어사전을 가상적으로 발화자 또는 감정·상황이 다른 태스크에 대응한 복수의 단어사전으로서 취급할 때에는 단어사전에 대해서는 그대로 하고, 단어변형규칙만을 다른 태스크에 대응하는 것을 선택하여 행한다. 또한 s24∼s27의 처리는 태스크마다 모두를 순서대로 행할 필요가 있는 아니고 동시에 병렬적으로 행하여도 상관없다.
도 7은 소정의 태스크에 대응한 단어사전에 수록된 단어를 이 태스크에 대응한 단어변형규칙에 따라 변형처리하고, 또한 문자열 선출규칙에 따라 선출하여 소정의 태스크에 대응한 음성수록 대본을 작성하기까지의 모양의 일례를 나타낸 것이다.
여기서 단어변형규칙은 도 3에서 설명한 「태스크 2」에 대응한 변형규칙, 즉 플레이어캐릭터에 대한 호출로서, 이름(플레이어캐릭터의 이름)에「쿠운」을 붙여 작성할 때의 규칙이다. 또 문자열 선출규칙은, 1) 변형후가 3모라 내지 8모라이내, 2) 모든 모라마다 다른 액센트형의 단어를 적어도 1개 채용, 3) 출현확률이 높은 단어를 우선, 4) 대본에 수록하는 문자열의 개수를 미리 지정(지정을 넘은 시점에서 선출종료)이다.
본 예에서는 「아키요시쿠운」, 「무츠요시쿠운」모두 6모라이고, 동일한 중고(어중을 높임)형의 액센트형(도면에 있어서 실선으로 표기)을 구비하고 있으나, 「아키요시쿠운」의 쪽이 출현확률이 높기 때문에「아키요시쿠운」이 선택되어 대본에 출력된다. 또한「사에모온자부로우쿠운」은 10모라이기 때문에 대본에 출력되지 않는다.
또한 지금까지 설명한 음성합성을 위한 사전구축방법에는 인간의 수작업에 의한 사전작성이나 음성수록 등의 현장에서의 작업이 포함되기 때문에 모든 공정을 장치 또는 프로그램에 의해 실현할 수는 없으나, 단어변형공정, 문자열선출공정에 대해서는 각각의 규칙에 따르는 처리를 실행하는 장치 또는 프로그램에 의해 실현가능하다.
도 8은 본 발명의 음성합성방법, 여기서는 상기한 바와 같이하여 작성된 태스크마다 단어사전, 운율사전 및 파형사전을 사용하여 실제의 음성합성을 행하는 협의의 음성합성방법의 흐름을 나타내는 것이다.
먼저 도시 생략한 입력수단이나 게임시스템 등에 의해 합성해야 할 문자열 및 태스크의 지정이 입력되면 이 태스크의 지정에 따라 단어사전, 운율사전 및 파형사전을, 또 사전구축의 단계에서 단어변형처리가 행하여지고 있는 경우는 이것에 더하여 단어변형규칙을 전환한다(s31).
다음에 사전구축의 단계에서 단어변형처리가 행하여지고 있는 경우는, 상기전환한 단어변형규칙에 따라 상기 합성해야 할 문자열에 대한 단어변형처리를 실행한다(s32). 또한 여기서 사용하는 단어변형규칙은 사전구축의 단계에서 사용한 규칙을 기본적으로 그대로 사용한다.
다음에 합성해야 할 문자열의 액센트형을 단어사전 또는 단어변형규칙으로부터 판정한다(s33). 구체적으로는 합성해야 할 문자열과 단어사전에 수록된 단어를 비교하여 동일한 단어가 있으면 그 액센트형을 채용하고, 없으면 동일 모라수의 단어중에서 유사한 문자열을 가지는 단어의 액센트형을 채용한다. 또한 동일한 단어가 없는 경우에는, 합성해야 할 문자열과 동일 모라수의 단어에 나타날 수 있는 모든 액센트형으로부터 오퍼레이터(게임플레이어) 등이 도시 생략한 입력수단으로 임의로 선택할 수 있게 하여도 된다.
또 이때 상기 단어변형처리의 단계에 있어서 상기한 사전구축에서 설명한 액센트에 대한 변형처리가 행하여진 경우는, 상기 단어변형규칙에 따르는 액센트형을 채용한다.
다음에 합성해야 할 문자열과 액센트형에 의거하여 운율사전으로부터 운율모델데이터를 선택하고(s34), 선택한 운율모델데이터에 의거하여 합성해야 할 문자열의 각 문자에 대응하는 파형데이터를 파형사전으로부터 선택하고(s35), 이 선택한 파형데이터끼리를 접속하여(s36) 합성음성데이터를 작성한다.
또한 s34∼36에 관한 처리의 상세에 대해서는 본원이 대상으로 하는 점이 아니고, 주지의 알고리즘이나 처리방법을 그대로 사용할 수 있으므로 생략한다.
도 9는 본 발명의 음성합성장치의 기능블록도를 나타내는 것으로, 도면에 있어서 11-1, 11-2, ……11-n은 태스크 1, 태스크 2, ……태스크 n용 사전이고, 12-1, 12-2, ……12-n은 태스크 1, 태스크 2, ……태스크 n용 변형규칙이며, 13은 사전·변형규칙 전환수단, 14는 단어변형수단, 15는 액센트형 판정수단, 16은 운율모델선택수단, 17은 파형선택수단, 18은 파형접속수단이다.
태스크 1 내지 태스크 n용 사전(11-1∼11-n)은, 각각 태스크 1 내지 태스크 n용 단어사전, 운율사전 및 파형사전(의 기억부)이다. 또 태스크 1 내지 태스크 n 용 변형규칙(12-1∼12-n)은 각각 태스크 1 내지 태스크 n용의 단어변형규칙(의 기억부)이다.
사전·변형규칙 전환수단(13)은 합성해야 할 문자열과 함께 입력되는 태스크의 지정에 따라 사용하는 태스크 1 내지 태스크 n용 사전(11-1∼11-n)중의 1개 및 태스크 1 내지 태스크 n용 변형규칙(12-1∼12-n)중의 1개를 전환선택하여 각 부에 공급한다.
단어변형수단(14)은 합성해야 할 문자열을 상기 선택된 단어변형규칙에 따라서 변형처리한다. 액센트형 판정수단(15)은 합성해야 할 문자열의 액센트형을 상기 선택된 단어사전 또는 단어변형규칙으로부터 판정한다.
운율모델선택수단(16)은 합성해야 할 문자열과 액센트형에 의거하여 상기 선택된 운율사전으로부터 운율모델데이터를 선택한다. 파형선택수단(17)은 선택한 운율모델데이터에 의거하여 합성해야 할 문자열의 각 문자에 대응하는 파형데이터를 상기 선택된 파형사전으로부터 선택한다. 파형접속수단(18)은 이 선택한 파형데이터끼리를 접속하여 합성음성데이터를 작성한다.
본 명세서에 기재한 바람직한 형태는 예시적인 것이고, 한정적인 것이 아니다. 발명의 범위는 첨부하는 클레임에 의해 나타나 있으며, 이들 클레임의 의미의 중에 들어 가는 모든 변형예는 본 발명에 포함되는 것이다.
Claims (22)
- 단어사전, 운율사전 및 파형사전을 사용하여 음성메시지를 작성하는 음성합성방법에 있어서,발화자 또는 발화시의 감정·상황 또는 발화내용중의 적어도 1개가 다른 음성합성처리의 태스크를 복수개 설정하고,각 태스크에 대응하는 적어도 운율사전 및 파형사전을 구축하고,합성해야 할 문자열이 태스크의 지정과 함께 입력되었을 때 해당 태스크에 대응한 단어사전, 운율사전 및 파형사전을 사용하여 음성합성처리하는 것을 특징으로 하는 음성합성방법.
- 발화자 또는 발화시의 감정·상황 또는 발화내용중의 적어도 1개가 다른 복수의 음성합성처리의 태스크에 각각 대응한 단어사전, 운율사전 및 파형사전을 구축하는 사전구축방법으로서,태스크에 대응한 단어사전을 작성하고,단어사전중의 모든 단어로부터 모델이 될 수 있는 문자열을 선출하여 음성수록대본을 작성하고,음성수록대본에 따라 발화자의 음성을 수록하고,이 수록한 음성으로부터 운율사전 및 파형사전을 구축하고,이들을 각 태스크에 대하여 행하는 것을 특징으로 하는 음성합성을 위한 사전구축방법.
- 발화자 또는 발화시의 감정·상황 또는 발화내용중의 적어도 하나가 다른 복수의 음성합성처리의 태스크에 각각 대응한 단어사전, 운율사전 및 파형사전을 구축하는 사전구축방법으로서,태스크에 대응한 단어사전과 함께 단어변형규칙을 작성하고,태스크에 대응한 단어사전에 포함되는 모든 단어를 이 태스크에 대응한 단어변형규칙에 따라 변형처리하고,변형처리한 단어사전중의 모든 단어로부터 모델이 될 수 있는 문자열을 선출하여 음성수록대본을 작성하고,음성수록대본에 따라 발화자의 음성을 수록하고,이 수록한 음성으로부터 운율사전 및 파형사전을 구축하고,이들을 각 태스크에 대하여 행하는 것을 특징으로 하는 음성합성을 위한 사전구축방법.
- 단어사전과, 발화자 또는 발화시의 감정·상황중 어느 하나가 다른 복수의 음성합성처리의 태스크에 각각 대응한 운율사전 및 파형사전을 구축하는 사전구축방법으로서,태스크에 대응한 단어변형규칙을 작성하고,단어사전에 포함되는 모든 단어를 태스크에 대응한 단어변형규칙에 따라 변형처리하고,변형처리한 단어사전중의 모든 단어로부터 모델이 될 수 있는 문자열을 선출하여 음성수록대본을 작성하고,음성수록대본에 따라 발화자의 음성을 수록하고,이 수록한 음성으로부터 운율사전 및 파형사전을 구축하고,이들을 각 태스크에 대하여 행하는 것을 특징으로 하는 음성합성을 위한 사전구축방법.
- 발화자 또는 발화시의 감정·상황 또는 발화내용중의 적어도 하나가 다른 복수의 음성합성처리의 태스크에 각각 대응한 단어사전, 운율사전 및 파형사전을 사용하는 음성합성방법으로서,합성해야 할 문자열과 함께 입력되는 태스크의 지정에 따라 단어사전, 운율사전 및 파형사전을 전환하고,전환후의 단어사전, 운율사전 및 파형사전을 사용하여 합성해야 할 문자열에 대응하는 음성메시지를 합성처리하는 것을 특징으로 하는 음성합성방법.
- 제 5항에 있어서,각 사전이, 적어도 1개의 문자를 포함하는 단어를 그 액센트형과 함께 다수 수록한 단어사전, 이 단어사전에 수록된 단어에 대한 운율을 나타내는 운율모델데이터중의 대표적인 운율모델데이터를 수록한 운율사전, 수록음성을 합성단위의 음성데이터로서 수록한 파형사전인 경우, 음성합성처리는,합성해야 할 문자열의 액센트형을 단어사전으로부터 판정하고,합성해야 할 문자열과 액센트형에 의거하여 운율사전으로부터 운율모델데이터를 선택하고,선택한 운율모델데이터에 의거하여 합성해야 할 문자열의 각 문자에 대응하는 파형데이터를 파형사전으로부터 선택하고,이 선택한 파형데이터끼리를 접속함으로써 행하는 것을 특징으로 하는 음성합성방법.
- 발화자 또는 발화시의 감정·상황 또는 발화내용중의 적어도 하나가 다른 복수의 음성합성처리의 태스크에 각각 대응한 단어사전, 운율사전 및 파형사전 및 단어변형규칙을 사용하는 음성합성방법으로서,합성해야 할 문자열과 함께 입력되는 태스크의 지정에 따라 단어사전, 운율사전 및 파형사전 및 단어변형규칙을 전환하고,합성해야 할 문자열을 단어변형규칙에 따라 변형처리하고,전환후의 단어사전, 운율사전 및 파형사전을 사용하여 변형처리후의 문자열에 대응하는 음성메시지를 합성처리하는 것을 특징으로 하는 음성합성방법.
- 제 7항에 있어서,각 사전이 적어도 하나의 문자를 포함하는 단어를 그 액센트형과 함께 다수 수록한 단어사전, 이 단어사전에 수록된 단어에 대한 운율을 나타내는 운율모델데이터중 대표적인 운율모델데이터를 수록한 운율사전, 수록음성을 합성단위의 음성데이터로서 수록한 파형사전이며, 단어변형규칙이 문자열의 변형규칙을 수록한 단어변형규칙인 경우 음성합성처리는,합성해야 할 문자열의 액센트형을 단어사전 또는 단어변형규칙으로부터 판정하고,합성해야 할 문자열과 액센트형에 따라 운율사전으로부터 운율모델데이터를 선택하고,선택한 운율모델데이터에 따라 합성해야 할 문자열의 각 문자에 대응하는 파형데이터를 파형사전으로부터 선택하고,상기 선택한 파형데이터끼리를 접속함으로써 행하는 것을 특징으로 하는 음성합성방법.
- 단어사전과, 발화자 또는 발화시의 감정·상황중 어느 하나가 다른 복수의 음성합성처리의 태스크에 각각 대응한 운율사전 및 파형사전 및 단어변형규칙을 사용하는 음성합성방법으로서,합성해야 할 문자열과 함께 입력된 태스크의 지정에 따라 운율사전 및 파형사전 및 단어변형규칙을 전환하고,합성해야 할 문자열을 단어변형규칙에 따라 변형처리하고,단어사전, 전환후의 운율사전 및 파형사전을 사용하여 변형처리후의 문자열에 대응하는 음성메시지를 합성처리하는 것을 특징으로 하는 음성합성방법.
- 제 9항에 있어서,각 사전이 적어도 1개의 문자를 포함하는 단어를 그 액센트형과 함께 다수 수록한 단어사전, 이 단어사전에 수록된 단어에 대한 운율을 나타내는 운율모델데이터중 대표적인 운율모델데이터를 수록한 운율사전, 수록음성을 합성단위의 음성데이터로서 수록한 파형사전이며, 단어변형규칙이 문자열의 변형규칙을 수록한 단어변형규칙인 경우 음성합성처리는,합성해야 할 문자열의 액센트형을 단어사전 또는 단어변형규칙으로부터 판정하고,합성해야 할 문자열과 액센트형에 의거하여 운율사전으로부터 운율모델데이터를 선택하고,선택한 운율모델데이터에 의거하여 합성해야 할 문자열의 각 문자에 대응하는 파형데이터를 파형사전으로부터 선택하고,상기 선택한 파형데이터끼리를 접속함으로써 행하는 것을 특징으로 하는 음성합성방법.
- 발화자 또는 발화시의 감정·상황 또는 발화내용중의 적어도 하나가 다른 복수의 음성합성처리의 태스크에 각각 대응한 단어사전, 운율사전 및 파형사전을 사용하는 음성합성장치로서,합성해야 할 문자열과 함께 입력되는 태스크의 지정에 따라 단어사전, 운율사전 및 파형사전을 전환하는 수단과,전환후의 단어사전, 운율사전 및 파형사전을 사용하여 합성해야 할 문자열에 대응하는 음성메시지를 합성처리하는 수단을 구비한 것을 특징으로 하는 음성합성장치.
- 제 11항에 있어서,각 사전이 적어도 1개의 문자를 포함하는 단어를 그 액센트형과 함께 다수 수록한 단어사전, 이 단어사전에 수록된 단어에 대한 운율을 나타내는 운율모델데이터중 대표적인 운율모델데이터를 수록한 운율사전, 수록음성을 합성단위의 음성데이터로서 수록한 파형사전인 경우 음성합성처리수단은,합성해야 할 문자열의 액센트형을 단어사전으로부터 판정하는 수단과,합성해야 할 문자열과 액센트형에 의거하여 운율사전으로부터 운율모델데이터를 선택하는 수단과,선택한 운율모델데이터에 의거하여 합성해야 할 문자열의 각 문자에 대응하는 파형데이터를 파형사전으로부터 선택하는 수단과,상기 선택한 파형데이터끼리를 접속하는 수단으로 이루어지는 것을 특징으로 하는 음성합성장치.
- 발화자 또는 발화시의 감정·상황 또는 발화내용중의 적어도 하나가 다른 복수의 음성합성처리의 태스크에 각각 대응한 단어사전, 운율사전 및 파형사전 및 단어변형규칙을 사용하는 음성합성장치로서,합성해야 할 문자열과 함께 입력되는 태스크의 지정에 따라 단어사전, 운율사전 및 파형사전 및 단어변형규칙을 전환하는 수단과,합성해야 할 문자열을 단어변형규칙에 의거하여 변형처리하는 수단과,전환후의 단어사전, 운율사전 및 파형사전을 사용하여 변형처리후의 문자열에 대응하는 음성메시지를 합성처리하는 수단을 구비한 것을 특징으로 하는 음성합성장치.
- 제 13항에 있어서,각 사전이 적어도 1개의 문자를 포함하는 단어를 그 액센트형과 함께 다수 수록한 단어사전, 이 단어사전에 수록된 단어에 대한 운율을 나타내는 운율모델데이터중 대표적인 운율모델데이터를 수록한 운율사전, 수록음성을 합성단위의 음성데이터로서 수록한 파형사전이며, 단어변형규칙이 문자열의 변형규칙을 수록한 단어변형규칙인 경우 음성합성처리수단은,합성해야 할 문자열의 액센트형을 단어사전 또는 단어변형규칙으로부터 판정하는 수단과,합성해야 할 문자열과 액센트형에 의거하여 운율사전으로부터 운율모델데이터를 선택하는 수단과,선택한 운율모델데이터에 의거하여 합성해야 할 문자열의 각 문자에 대응하는 파형데이터를 파형사전으로부터 선택하는 수단과,상기 선택한 파형데이터끼리를 접속하는 수단으로 이루어지는 것을 특징으로 하는 음성합성장치.
- 단어사전과, 발화자 또는 발화시의 감정·상황중 어느 하나가 다른 복수의 음성합성처리의 태스크에 각각 대응한 운율사전 및 파형사전 및 단어변형규칙을 사용하는 음성합성장치로서,합성해야 할 문자열과 함께 입력된 태스크의 지정에 따라 운율사전 및 파형사전 및 단어변형규칙을 전환하는 수단과,합성해야 할 문자열을 단어변형규칙에 의거하여 변형처리하는 수단과,단어사전, 전환후의 운율사전 및 파형사전을 사용하여 변형처리후의 문자열에 대응하는 음성메시지를 합성처리하는 수단을 구비한 것을 특징으로 하는 음성합성장치.
- 제 15항에 있어서,각 사전이 적어도 1개의 문자를 포함하는 단어를 그 액센트형과 함께 다수 수록한 단어사전, 이 단어사전에 수록된 단어에 대한 운율을 나타내는 운율모델데이터중의 대표적인 운율모델데이터를 수록한 운율사전, 수록음성을 합성단위의 음성데이터로서 수록한 파형사전이며, 단어변형규칙이 문자열의 변형규칙을 수록한 단어변형규칙인 경우 음성합성처리수단은,합성해야 할 문자열의 액센트형을 단어사전 또는 단어변형규칙으로부터 판정하는 수단과,합성해야 할 문자열과 액센트형에 의거하여 운율사전으로부터 운율모델데이터를 선택하는 수단과,선택한 운율모델데이터에 의거하여 합성해야 할 문자열의 각 문자에 대응하는 파형데이터를 파형사전으로부터 선택하는 수단과,상기 선택한 파형데이터끼리를 접속하는 수단으로 이루어지는 것을 특징으로 하는 음성합성장치.
- 음성합성프로그램을 기록한 컴퓨터판독 가능한 매체에 있어서,상기 프로그램은 컴퓨터에 판독되었을 때, 이 컴퓨터를,발화자 또는 발화시의 감정·상황 또는 발화내용중의 적어도 하나가 다른 복수의 음성합성처리의 태스크에 각각 대응한 단어사전, 운율사전 및 파형사전과,합성해야 할 문자열과 함께 입력되는 태스크의 지정에 따라 단어사전, 운율사전 및 파형사전을 전환하는 수단과,전환후의 단어사전, 운율사전 및 파형사전을 사용하여 합성해야 할 문자열에 대응하는 음성메시지를 합성처리하는 수단으로서 기능시키는 것을 특징으로 하는 음성합성프로그램을 기록한 컴퓨터판독 가능한 매체.
- 제 17항에 있어서,각 사전이, 적어도 1개의 문자를 포함하는 단어를 그 액센트형과 함께 다수 수록한 단어사전, 이 단어사전에 수록된 단어에 대한 운율을 나타내는 운율모델데이터중 대표적인 운율모델데이터를 수록한 운율사전, 수록음성을 합성단위의 음성데이터로서 수록한 파형사전인 경우, 음성합성처리수단은,합성해야 할 문자열의 액센트형을 단어사전으로부터 판정하는 수단과,합성해야 할 문자열과 액센트형에 의거하여 운율사전으로부터 운율모델데이터를 선택하는 수단과,선택한 운율모델데이터에 의거하여 합성해야 할 문자열의 각 문자에 대응하는 파형데이터를 파형사전으로부터 선택하는 수단과,상기 선택한 파형데이터끼리를 접속하는 수단을 포함하여 이루어지는 것을 특징으로 하는 음성합성프로그램을 기록한 컴퓨터판독 가능한 매체.
- 음성합성프로그램을 기록한 컴퓨터판독 가능한 매체에 있어서,상기 프로그램은 컴퓨터에 판독되었을 때, 상기 컴퓨터를,발화자 또는 발화시의 감정·상황 또는 발화내용중의 적어도 하나가 다른 복수의 음성합성처리의 태스크에 각각 대응한 단어사전, 운율사전 및 파형사전 및 단어변형규칙과,합성해야 할 문자열과 함께 입력된 태스크의 지정에 따라 단어사전, 운율사전 및 파형사전 및 단어변형규칙을 전환하는 수단과,합성해야 할 문자열을 단어변형규칙에 의거하여 변형처리하는 수단과,전환후의 단어사전, 운율사전 및 파형사전을 사용하여 변형처리후의 문자열에 대응하는 음성메시지를 합성처리하는 수단으로서 기능시키는 것을 특징으로 하는 음성합성프로그램을 기록한 컴퓨터판독 가능한 매체.
- 제 19항에 있어서,각 사전이, 적어도 1개의 문자를 포함하는 단어를 그 액센트형과 함께 다수 수록한 단어사전, 이 단어사전에 수록된 단어에 대한 운율을 나타내는 운율모델데이터중 대표적인 운율모델데이터를 수록한 운율사전, 수록음성을 합성단위의 음성데이터로서 수록한 파형사전이며, 단어변형규칙이 문자열의 변형규칙을 수록한 단어변형규칙인 경우, 음성합성처리수단은,합성해야 할 문자열의 액센트형을 단어사전 또는 단어변형규칙으로부터 판정하는 수단과,합성해야 할 문자열과 액센트형에 의거하여 운율사전으로부터 운율모델데이터를 선택하는 수단과,선택한 운율모델데이터에 의거하여 합성해야 할 문자열의 각 문자에 대응하는 파형데이터를 파형사전으로부터 선택하는 수단과,이 선택한 파형데이터끼리를 접속하는 수단으로 이루어지는 것을 특징으로 하는 음성합성프로그램을 기록한 컴퓨터판독 가능한 매체.
- 음성합성프로그램을 기록한 컴퓨터판독 가능한 매체에 있어서,상기 프로그램은 컴퓨터에 판독되었을 때, 이 컴퓨터를,단어사전과, 발화자 또는 발화시의 감정·상황중 어느 하나가 다른 복수의 음성합성처리의 태스크에 각각 대응한 운율사전 및 파형사전 및 단어변형규칙과,합성해야 할 문자열과 함께 입력된 태스크의 지정에 따라 운율사전 및 파형사전 및 단어변형규칙을 전환하는 수단과,합성해야 할 문자열을 단어변형규칙에 의거하여 변형처리하는 수단과,단어사전, 전환후의 운율사전 및 파형사전을 사용하여 변형처리후의 문자열에 대응하는 음성메시지를 합성처리하는 수단으로서 기능시키는 것을 특징으로 하는 음성합성프로그램을 기록한 컴퓨터판독 가능한 매체.
- 제 21항에 있어서,각 사전이, 적어도 1개의 문자를 포함하는 단어를 그 액센트형과 함께 다수 수록한 단어사전, 이 단어사전에 수록된 단어에 대한 운율을 나타내는 운율모델데이터중 대표적인 운율모델데이터를 수록한 운율사전, 수록음성을 합성단위의 음성데이터로서 수록한 파형사전이며, 단어변형규칙이 문자열의 변형규칙을 수록한 단어변형규칙인 경우, 음성합성처리수단은,합성해야 할 문자열의 액센트형을 단어사전 또는 단어변형규칙으로부터 판정하는 수단과,합성해야 할 문자열과 액센트형에 의거하여 운율사전으로부터 운율모델데이터를 선택하는 수단과,선택한 운율모델데이터에 의거하여 합성해야 할 문자열의 각 문자에 대응하는 파형데이터를 파형사전으로부터 선택하는 수단과,상기 선택한 파형데이터끼리를 접속하는 수단으로 이루어지는 것을 특징으로 하는 음성합성프로그램을 기록한 컴퓨터판독 가능한 매체.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11205945A JP2001034282A (ja) | 1999-07-21 | 1999-07-21 | 音声合成方法、音声合成のための辞書構築方法、音声合成装置、並びに音声合成プログラムを記録したコンピュータ読み取り可能な媒体 |
JP11-205945 | 1999-07-21 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20010021104A true KR20010021104A (ko) | 2001-03-15 |
KR100522889B1 KR100522889B1 (ko) | 2005-10-19 |
Family
ID=16515324
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR10-2000-0041301A KR100522889B1 (ko) | 1999-07-21 | 2000-07-19 | 음성합성방법,음성합성장치 및 음성합성 프로그램을 기록한 컴퓨터판독 가능한 매체 |
Country Status (7)
Country | Link |
---|---|
US (1) | US6826530B1 (ko) |
EP (1) | EP1071073A3 (ko) |
JP (1) | JP2001034282A (ko) |
KR (1) | KR100522889B1 (ko) |
CN (1) | CN1117344C (ko) |
HK (1) | HK1034129A1 (ko) |
TW (1) | TW523734B (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8015016B2 (en) | 2006-11-06 | 2011-09-06 | Electronics And Telecommunications Research Institute | Automatic translation method and system based on corresponding sentence pattern |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002282543A (ja) * | 2000-12-28 | 2002-10-02 | Sony Computer Entertainment Inc | オブジェクトの音声処理プログラム、オブジェクトの音声処理プログラムを記録したコンピュータ読み取り可能な記録媒体、プログラム実行装置、及びオブジェクトの音声処理方法 |
JP2002268699A (ja) * | 2001-03-09 | 2002-09-20 | Sony Corp | 音声合成装置及び音声合成方法、並びにプログラムおよび記録媒体 |
GB2380847A (en) * | 2001-10-10 | 2003-04-16 | Ncr Int Inc | Self-service terminal having a personality controller |
DE60215296T2 (de) * | 2002-03-15 | 2007-04-05 | Sony France S.A. | Verfahren und Vorrichtung zum Sprachsyntheseprogramm, Aufzeichnungsmedium, Verfahren und Vorrichtung zur Erzeugung einer Zwangsinformation und Robotereinrichtung |
CN1813285B (zh) * | 2003-06-05 | 2010-06-16 | 株式会社建伍 | 语音合成设备和方法 |
US8065157B2 (en) | 2005-05-30 | 2011-11-22 | Kyocera Corporation | Audio output apparatus, document reading method, and mobile terminal |
KR100644814B1 (ko) * | 2005-11-08 | 2006-11-14 | 한국전자통신연구원 | 발화 스타일 조절을 위한 운율모델 생성 방법 및 이를이용한 대화체 음성합성 장치 및 방법 |
US20070150281A1 (en) * | 2005-12-22 | 2007-06-28 | Hoff Todd M | Method and system for utilizing emotion to search content |
JP2007264466A (ja) | 2006-03-29 | 2007-10-11 | Canon Inc | 音声合成装置 |
KR100789223B1 (ko) * | 2006-06-02 | 2008-01-02 | 박상철 | 문자열 대응 사운드 발생 시스템 |
GB2443027B (en) | 2006-10-19 | 2009-04-01 | Sony Comp Entertainment Europe | Apparatus and method of audio processing |
GB2447263B (en) * | 2007-03-05 | 2011-10-05 | Cereproc Ltd | Emotional speech synthesis |
JP5198046B2 (ja) | 2007-12-07 | 2013-05-15 | 株式会社東芝 | 音声処理装置及びそのプログラム |
CN101727904B (zh) * | 2008-10-31 | 2013-04-24 | 国际商业机器公司 | 语音翻译方法和装置 |
US8321225B1 (en) | 2008-11-14 | 2012-11-27 | Google Inc. | Generating prosodic contours for synthesized speech |
US8498866B2 (en) * | 2009-01-15 | 2013-07-30 | K-Nfb Reading Technology, Inc. | Systems and methods for multiple language document narration |
US10375534B2 (en) | 2010-12-22 | 2019-08-06 | Seyyer, Inc. | Video transmission and sharing over ultra-low bitrate wireless communication channel |
KR101203188B1 (ko) | 2011-04-14 | 2012-11-22 | 한국과학기술원 | 개인 운율 모델에 기반하여 감정 음성을 합성하기 위한 방법 및 장치 및 기록 매체 |
EP2705515A4 (en) * | 2011-05-06 | 2015-04-29 | Seyyer Inc | GENERATING VIDEO BASED ON TEXT |
JP2013072903A (ja) * | 2011-09-26 | 2013-04-22 | Toshiba Corp | 合成辞書作成装置および合成辞書作成方法 |
GB2501067B (en) | 2012-03-30 | 2014-12-03 | Toshiba Kk | A text to speech system |
US9368104B2 (en) * | 2012-04-30 | 2016-06-14 | Src, Inc. | System and method for synthesizing human speech using multiple speakers and context |
US9311913B2 (en) * | 2013-02-05 | 2016-04-12 | Nuance Communications, Inc. | Accuracy of text-to-speech synthesis |
GB2516965B (en) | 2013-08-08 | 2018-01-31 | Toshiba Res Europe Limited | Synthetic audiovisual storyteller |
KR102222122B1 (ko) * | 2014-01-21 | 2021-03-03 | 엘지전자 주식회사 | 감성음성 합성장치, 감성음성 합성장치의 동작방법, 및 이를 포함하는 이동 단말기 |
US10803850B2 (en) * | 2014-09-08 | 2020-10-13 | Microsoft Technology Licensing, Llc | Voice generation with predetermined emotion type |
JP2018155774A (ja) * | 2017-03-15 | 2018-10-04 | 株式会社東芝 | 音声合成装置、音声合成方法およびプログラム |
US11443646B2 (en) | 2017-12-22 | 2022-09-13 | Fathom Technologies, LLC | E-Reader interface system with audio and highlighting synchronization for digital books |
US10671251B2 (en) | 2017-12-22 | 2020-06-02 | Arbordale Publishing, LLC | Interactive eReader interface generation based on synchronization of textual and audial descriptors |
CN113920983A (zh) * | 2021-10-25 | 2022-01-11 | 网易(杭州)网络有限公司 | 数据处理方法、装置、存储介质和电子装置 |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4692941A (en) * | 1984-04-10 | 1987-09-08 | First Byte | Real-time text-to-speech conversion system |
FR2636163B1 (fr) * | 1988-09-02 | 1991-07-05 | Hamon Christian | Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde |
JPH04350699A (ja) * | 1991-05-28 | 1992-12-04 | Sharp Corp | テキスト音声合成装置 |
US5384893A (en) * | 1992-09-23 | 1995-01-24 | Emerson & Stern Associates, Inc. | Method and apparatus for speech synthesis based on prosodic analysis |
SE500277C2 (sv) * | 1993-05-10 | 1994-05-24 | Televerket | Anordning för att öka talförståelsen vid översätttning av tal från ett första språk till ett andra språk |
US5860064A (en) * | 1993-05-13 | 1999-01-12 | Apple Computer, Inc. | Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system |
JP3397406B2 (ja) * | 1993-11-15 | 2003-04-14 | ソニー株式会社 | 音声合成装置及び音声合成方法 |
JP2770747B2 (ja) * | 1994-08-18 | 1998-07-02 | 日本電気株式会社 | 音声合成装置 |
JPH08328590A (ja) * | 1995-05-29 | 1996-12-13 | Sanyo Electric Co Ltd | 音声合成装置 |
JPH09171396A (ja) * | 1995-10-18 | 1997-06-30 | Baisera:Kk | 音声発生システム |
US5913193A (en) * | 1996-04-30 | 1999-06-15 | Microsoft Corporation | Method and system of runtime acoustic unit selection for speech synthesis |
JPH1097290A (ja) * | 1996-09-24 | 1998-04-14 | Sanyo Electric Co Ltd | 音声合成装置 |
JPH10153998A (ja) * | 1996-09-24 | 1998-06-09 | Nippon Telegr & Teleph Corp <Ntt> | 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置 |
US5905972A (en) | 1996-09-30 | 1999-05-18 | Microsoft Corporation | Prosodic databases holding fundamental frequency templates for use in speech synthesis |
US5966691A (en) * | 1997-04-29 | 1999-10-12 | Matsushita Electric Industrial Co., Ltd. | Message assembler using pseudo randomly chosen words in finite state slots |
JP3667950B2 (ja) * | 1997-09-16 | 2005-07-06 | 株式会社東芝 | ピッチパターン生成方法 |
JPH11231885A (ja) * | 1998-02-19 | 1999-08-27 | Fujitsu Ten Ltd | 音声合成装置 |
US6101470A (en) * | 1998-05-26 | 2000-08-08 | International Business Machines Corporation | Methods for generating pitch and duration contours in a text to speech system |
EP1138038B1 (en) * | 1998-11-13 | 2005-06-22 | Lernout & Hauspie Speech Products N.V. | Speech synthesis using concatenation of speech waveforms |
JP2000155594A (ja) * | 1998-11-19 | 2000-06-06 | Fujitsu Ten Ltd | 音声案内装置 |
US6144939A (en) * | 1998-11-25 | 2000-11-07 | Matsushita Electric Industrial Co., Ltd. | Formant-based speech synthesizer employing demi-syllable concatenation with independent cross fade in the filter parameter and source domains |
JP2000206982A (ja) * | 1999-01-12 | 2000-07-28 | Toshiba Corp | 音声合成装置及び文音声変換プログラムを記録した機械読み取り可能な記録媒体 |
US6202049B1 (en) * | 1999-03-09 | 2001-03-13 | Matsushita Electric Industrial Co., Ltd. | Identification of unit overlap regions for concatenative speech synthesis system |
US6185533B1 (en) * | 1999-03-15 | 2001-02-06 | Matsushita Electric Industrial Co., Ltd. | Generation and synthesis of prosody templates |
US6697780B1 (en) * | 1999-04-30 | 2004-02-24 | At&T Corp. | Method and apparatus for rapid acoustic unit selection from a large speech corpus |
US6505152B1 (en) * | 1999-09-03 | 2003-01-07 | Microsoft Corporation | Method and apparatus for using formant models in speech systems |
GB2376394B (en) * | 2001-06-04 | 2005-10-26 | Hewlett Packard Co | Speech synthesis apparatus and selection method |
-
1999
- 1999-07-21 JP JP11205945A patent/JP2001034282A/ja active Pending
-
2000
- 2000-06-30 TW TW089113028A patent/TW523734B/zh not_active IP Right Cessation
- 2000-07-19 KR KR10-2000-0041301A patent/KR100522889B1/ko not_active IP Right Cessation
- 2000-07-19 EP EP00115589A patent/EP1071073A3/en not_active Withdrawn
- 2000-07-21 CN CN00120198A patent/CN1117344C/zh not_active Expired - Fee Related
- 2000-07-21 US US09/621,544 patent/US6826530B1/en not_active Expired - Fee Related
-
2001
- 2001-06-29 HK HK01104509A patent/HK1034129A1/xx not_active IP Right Cessation
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8015016B2 (en) | 2006-11-06 | 2011-09-06 | Electronics And Telecommunications Research Institute | Automatic translation method and system based on corresponding sentence pattern |
Also Published As
Publication number | Publication date |
---|---|
CN1282017A (zh) | 2001-01-31 |
CN1117344C (zh) | 2003-08-06 |
EP1071073A3 (en) | 2001-02-14 |
KR100522889B1 (ko) | 2005-10-19 |
HK1034129A1 (en) | 2001-11-09 |
US6826530B1 (en) | 2004-11-30 |
TW523734B (en) | 2003-03-11 |
JP2001034282A (ja) | 2001-02-09 |
EP1071073A2 (en) | 2001-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100522889B1 (ko) | 음성합성방법,음성합성장치 및 음성합성 프로그램을 기록한 컴퓨터판독 가능한 매체 | |
CN101578659B (zh) | 音质转换装置及音质转换方法 | |
JP4125362B2 (ja) | 音声合成装置 | |
US5774854A (en) | Text to speech system | |
US5704007A (en) | Utilization of multiple voice sources in a speech synthesizer | |
US5930755A (en) | Utilization of a recorded sound sample as a voice source in a speech synthesizer | |
US6988069B2 (en) | Reduced unit database generation based on cost information | |
JP2001034283A (ja) | 音声合成方法、音声合成装置及び音声合成プログラムを記録したコンピュータ読み取り可能な媒体 | |
US20090024393A1 (en) | Speech synthesizer and speech synthesis system | |
KR20220070979A (ko) | 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치 및 음성 합성 방법 | |
JP2001242882A (ja) | 音声合成方法及び音声合成装置 | |
JP6569588B2 (ja) | 音声対話装置およびプログラム | |
JPH08335096A (ja) | テキスト音声合成装置 | |
CN113192484A (zh) | 基于文本生成音频的方法、设备和存储介质 | |
JP2894447B2 (ja) | 複合音声単位を用いた音声合成装置 | |
CN115547296B (zh) | 一种语音合成方法、装置、电子设备及存储介质 | |
JP6163454B2 (ja) | 音声合成装置、その方法及びプログラム | |
JPH06266382A (ja) | 音声制御方式 | |
JP6911398B2 (ja) | 音声対話方法、音声対話装置およびプログラム | |
JP2018159777A (ja) | 音声再生装置、および音声再生プログラム | |
KR20240100869A (ko) | 상대 음성 및 대화 발화 정보 기반 대화형 감성 음성합성 방법 | |
KR20230099934A (ko) | 복수의 화자음성을 이용한 음성 변환 장치 및 그 방법 | |
KR20220125005A (ko) | 화자 적합성이 향상된 음성합성 모델 생성방법 | |
JP3588266B2 (ja) | 音声合成方法、音声合成装置及び記録媒体 | |
WO2017098940A1 (ja) | 音声対話装置および音声対話方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
AMND | Amendment | ||
E902 | Notification of reason for refusal | ||
AMND | Amendment | ||
E601 | Decision to refuse application | ||
J201 | Request for trial against refusal decision | ||
AMND | Amendment | ||
B601 | Maintenance of original decision after re-examination before a trial | ||
J301 | Trial decision |
Free format text: TRIAL DECISION FOR APPEAL AGAINST DECISION TO DECLINE REFUSAL REQUESTED 20040621 Effective date: 20050830 |
|
S901 | Examination by remand of revocation | ||
GRNO | Decision to grant (after opposition) | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20111005 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20121008 Year of fee payment: 8 |
|
LAPS | Lapse due to unpaid annual fee |