WO2005093713A1 - 音声合成装置 - Google Patents

音声合成装置 Download PDF

Info

Publication number
WO2005093713A1
WO2005093713A1 PCT/JP2005/005815 JP2005005815W WO2005093713A1 WO 2005093713 A1 WO2005093713 A1 WO 2005093713A1 JP 2005005815 W JP2005005815 W JP 2005005815W WO 2005093713 A1 WO2005093713 A1 WO 2005093713A1
Authority
WO
WIPO (PCT)
Prior art keywords
unit
speech
data
voice
waveform
Prior art date
Application number
PCT/JP2005/005815
Other languages
English (en)
French (fr)
Inventor
Daisuke Yoshida
Original Assignee
Ai, Inc.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ai, Inc. filed Critical Ai, Inc.
Priority to US10/592,071 priority Critical patent/US20070203703A1/en
Priority to JP2006511572A priority patent/JP4884212B2/ja
Publication of WO2005093713A1 publication Critical patent/WO2005093713A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules

Definitions

  • the present invention relates to a speech synthesizing apparatus, and more particularly, to a speech synthesizing apparatus, which is provided with a speech database in which a plurality of speech data of a predetermined sentence recorded in advance are stored in a predetermined speech unit.
  • the present invention relates to a speech synthesizer including a built-in microcomputer card incorporated in another device for performing corpus-based speech synthesis based on a speech database.
  • predetermined words and phrases to be used are recorded in advance as sound sources, and by combining these, a sentence by a machine can be obtained.
  • sound data similar to the voice waveform is stored in advance for each character, such as used for automatic telephone guidance, etc.
  • the rule synthesis method that outputs as a sound similar to that of the voice waveform is required.
  • the rule synthesis method ignores differences in contexts and words, and connects sound data by signal processing one character at a time so that each single sound is successively continued, thereby producing a real voice sound. Since the sound that is close to the waveform is synthesized, the output sound is a mechanical sound, and the sound quality is inevitably degraded, and the mechanical sound is not as natural as utterance. Listening for the distance, it became something uncomfortable.
  • Patent Document 1 Japanese Patent No. 2894447
  • Patent Document 2 Japanese Patent No. 2975586
  • the device becomes large, it is difficult to incorporate it into a small product, for example, a welfare-related device for the hearing impaired, a toy, a home appliance, or the like.
  • a welfare-related device for the hearing impaired for example, a toy, a home appliance, or the like.
  • it was limited to call centers and the like, and its introduction was limited only to companies with large-scale facilities.
  • a first object of the present invention is to reduce the size of an apparatus for performing corpus-based speech synthesis, and to provide a speech synthesis apparatus that can be incorporated and installed in another device.
  • a second object of the present invention is to provide a speech database which is used for corpus-based speech synthesis, and which is provided with a speech synthesis apparatus which is capable of recording speech data selectively recorded for each application and detachably attaching the speech data. It is.
  • the device of the present invention is a voice synthesizer including a built-in microcomputer that is built in another device, analyzes an arbitrary sentence in text data, and generates a phonetic symbol corresponding to the sentence.
  • the text analysis unit that generates the data and the phonetic symbol data of the text analyzed by the text analysis unit according to the prosody knowledge base set in advance for accent and intonation!
  • a prosody prediction unit that generates prosody parameters indicating accent and intonation, and a speech database that stores only a plurality of predetermined speech data that have been selected and recorded in advance so as to have only the required speech units according to the application of the speech synthesis device.
  • the corresponding predetermined sound From the sound data having a predetermined sound unit closest to each of the prosody parameters generated by the prosody prediction unit, the corresponding predetermined sound
  • a speech unit extraction unit that extracts all of the speech unit waveform data of the unit, and a speech unit waveform data group extracted by the speech unit extraction unit, and a speech indicated by the speech unit waveform data group in text order
  • a waveform connecting unit that generates synthesized voice data by sequentially connecting the waveforms so that the waveforms are continuous.
  • the object of the present invention is to solve the above-mentioned object by adopting new characteristic configuration means ranging from the upper-level concept to the lower-level concept listed below. It is done to achieve.
  • the first feature of the present invention device is that it has a voice database that stores a plurality of voice data of a predetermined sentence recorded in advance so that it can be extracted as voice unit waveform data for each predetermined voice unit.
  • a speech input device for performing corpus-based speech synthesis on arbitrary text data based on the speech database; a data input unit for acquiring serial data text data; Text that generates and processes phonograms that represent the sound corresponding to the sentence in vowels and consonants as phonogram data And an accent corresponding to each of the phonetic symbol data corresponding to an arbitrary sentence in the text data analyzed in advance according to a prosodic knowledge base set in advance for accent and intonation.
  • a prosody prediction unit for generating the prosody parameter indicating the intonation; and storing only a plurality of the predetermined voice data selected and recorded in advance so as to have only the required voice unit corresponding to the use of the voice synthesizer.
  • a voice unit extraction unit that extracts all of the voice unit waveform data, and the voice unit waveform data group extracted by the voice unit extraction unit,
  • a waveform connection unit that generates synthesized voice data by connecting the sequential waveforms so that the voice waveform indicated by the voice segment waveform data group is continuous in the written order, and converts and outputs the synthesized voice data to analog voice
  • a voice conversion processing unit that performs the above.
  • a second feature of the device of the present invention is that the voice database in the first feature of the above device of the present invention is constructed on a memory card that is removable from the voice synthesizing device.
  • the present invention resides in the configuration of a voice synthesizing device which is configured to be readable when the memory card is inserted.
  • a third feature of the device of the present invention is that the data input unit in the first feature of the device of the present invention is connected to another device in which the speech synthesizer is incorporated and mounted, and the device power is also reduced.
  • the present invention resides in adopting a configuration of a speech synthesizer that receives serial data.
  • a fourth feature of the device of the present invention is that the speech synthesis device according to the first feature of the device of the present invention generates, from the waveform connection unit, a velocity parameter acquired together with the arbitrary sentence by the data input unit.
  • the speech synthesis device is configured such that a speech speed conversion unit for adjusting the reading speed of the synthesized speech data to be reflected on the synthesized speech data thus obtained is provided in front of the speech conversion processing unit.
  • a fifth feature of the device of the present invention is that the data input unit, the text analysis unit, the prosody prediction unit, the speech database, and the speech unit extraction unit in the first feature of the above-described device of the present invention.
  • the waveform connection unit and the voice conversion processing unit are integrally provided in one case.
  • the present invention is to adopt a configuration of a speech synthesizer.
  • a sixth feature of the device of the present invention is that the data input unit, the waveform connection unit, and the voice conversion processing unit in the first feature of the above-described device of the present invention are incorporated in another device.
  • the computer is separately installed on the same network, and the personal computer in the center passes through the data input unit, the text analysis unit, the prosody prediction unit, and the voice unit extraction unit directly connected to the voice database.
  • the speech unit waveform data converted from the text data is transmitted to the embedded microcomputer via the network. And can be transmitted to the serial waveform connection section is constructed to the sound conversion processing section of the built-in microcomputer from the waveform connecting unit to a system for delivering the synthesized speech comprising, in the configuration adopting the speech synthesizer.
  • a seventh feature of the device of the present invention is that the data input unit is connected to an arbitrary personal computer separately arranged in the first aspect of the device of the present invention, and the text input device is connected to the personal computer.
  • the text data to be analyzed by the analysis unit is configured to be acquirable by the personal computer, and connected to an arbitrary speaker separately arranged as the audio conversion processing unit, and generated by the waveform connection unit.
  • Another aspect of the present invention resides in a configuration of a voice synthesizing device configured to output the synthesized voice data through the speaker.
  • An eighth feature of the device of the present invention is that the predetermined voice unit in the first feature of the above device of the present invention is one or more of a phoneme, a word, a phrase, and a syllable. In configuration adoption.
  • a ninth feature of the device of the present invention is that the data input unit and the text analysis unit in the first feature of the above device of the present invention are provided in a personal computer that is used only at the time of initial setting, and are provided with serial data. And an initial setting function for outputting phonetic symbol data.
  • the prosody prediction unit, the speech database, the speech unit extraction unit, the waveform connection unit, and the speech conversion processing unit are incorporated in other devices. Embedded maiko to be installed
  • the personal computer is connected to the built-in microcomputer only at the time of initial setting, and the phonetic symbol data output from the personal computer is input to the prosody prediction unit of the built-in microcomputer, and the voice database is connected.
  • the serial data input to the built-in microcomputer is analog-output sequentially through the prosody prediction unit, the audio unit extraction unit directly connected to the audio database, the waveform connection unit, and the audio conversion processing unit.
  • a tenth feature of the device of the present invention is that, in the first feature of the device of the present invention, the data input unit, the waveform connection unit, and the voice conversion processing unit are used for an emergency alert or a guidance / communication output.
  • the data input unit, the text analysis unit, the prosody prediction unit, the speech database, and the speech unit extraction unit are incorporated as a built-in microcomputer in the terminal. It is in the configuration and adoption of a speech synthesizer constructed by a system capable of one-way transmission via a microcomputer and a network.
  • An eleventh feature of the device of the present invention is that the prosody prediction unit, the speech database, the speech unit extraction unit, the waveform connection unit, and the speech conversion processing unit in the first feature of the above-described device of the present invention.
  • Another object of the present invention is to adopt a configuration of a speech synthesizer that is separated from the data input unit and the text analysis unit after initial setting and is incorporated as a microcomputer in a toy or other device.
  • a speech synthesizer employing a corpus-based speech technology which has been inevitable to increase in size, is conventionally configured with an embedded microcomputer, and can be significantly reduced in size as compared with the related art. Since it can be incorporated into other devices, it can be used as a communication tool that enables voice transmission by being incorporated into welfare-related devices, such as dolls that can output the voice of a character. It can be used for various products such as toys and home appliances that can transmit information by voice.
  • the voice database is constructed on a removable memory card and can be replaced according to the application, the size of the voice synthesizer can be reduced, and the voice database suitable for the application can be used.
  • recording data it is possible to output a more natural voice by improving the reading correct rate and accent correct rate of speech synthesis, and to switch the output voice quality to the user's preference. Becomes possible.
  • a medium-to-high speed line has conventionally been used for transmitting voice, but in the present invention, text data is received by a receiving side device and converted into voice. Audio broadcasting using a low-speed line is possible, and when applied to push-type services, only text data can be delivered and output as audio on the receiving device, saving labor. In addition, prompt services can be provided even in emergency situations such as disaster prevention radio.
  • FIG. 1 is a functional configuration diagram of a speech synthesizer according to an embodiment of the present invention.
  • FIG. 2 is a functional configuration diagram of the speech synthesizer obtained by adding a function of a speech speed conversion unit to the speech synthesizer described above.
  • FIG. 3 is a schematic diagram showing an example of a hardware configuration of the above-described speech synthesizer.
  • FIG. 4 is a diagram for explaining the data configuration of the above speech synthesizer, wherein FIG. 4 (a) shows text data, FIG. 4 (b) shows phonetic symbol data, and FIG. FIG. 3D is a diagram for explaining a prosody knowledge base, FIG. 3D is a diagram for explaining a prosody parameter, and FIG.
  • FIG. 5 is a functional configuration diagram of a speech synthesis device according to a functional configuration example 2 of the present invention.
  • FIG. 6 is a functional configuration diagram of a speech synthesis device according to a third functional configuration example of the present invention.
  • FIG. 7 is a schematic diagram showing an example of a hardware configuration in which a speech synthesizer according to an embodiment of the present invention is mounted on a personal computer.
  • FIG. 1 is a functional configuration diagram of a speech synthesizer according to an embodiment of the present invention.
  • the speech synthesizer ex converts speech data of a predetermined sentence recorded in advance into predetermined speech units such as phonemes, words, phrases, and syllables, for example.
  • predetermined speech units such as phonemes, words, phrases, and syllables
  • microcomputer it is not necessary that the microcomputer be limited to all the above functional units.
  • the microcomputer may be provided with a plurality of predetermined function units according to the scale thereof, and the other function units may be executed by a personal computer.
  • the speech database 1 is a corpus for performing corpus-based speech synthesis, and is a predetermined corpus that is selected and recorded in advance so as to have only a predetermined speech unit corresponding to the use of the speech synthesizer OC.
  • the voice synthesizer ⁇ is stored in a plurality of pieces, and is divided and constructed according to the use of the voice synthesizer ⁇ .
  • the text analysis unit 2 is configured to analyze an arbitrary sentence in the input text data and generate phonetic symbol data corresponding to the sentence, and the prosody prediction unit 3 is internally provided. It has a prosodic knowledge base 3 ⁇ which is preset with regard to the recognition rules for accent and intonation of phonetic symbol data, and supports each of the phonetic symbol data generated by the text analysis unit 2 according to the prosodic knowledge base 3 ⁇ . It is configured to generate prosodic parameters that indicate the accent and inflection that occur.
  • the speech unit extraction unit 4 converts speech data including a phoneme with an accent and intonation closest to each of the prosody parameters generated by the prosody prediction unit 3 into, for example, human auditory characteristics. Extracted from the speech database 1 using an evaluation function that is close to the above, and from each of the extracted speech data, only the speech unit waveform data of a predetermined speech unit such as a phoneme corresponding to this prosodic parameter is extracted. It is configured to
  • the waveform connection unit 5 converts the plurality of speech unit waveform data groups extracted by the speech unit extraction unit 4 into a smooth and natural speech waveform of the speech unit waveform data group in the order of sentences. It is configured to generate synthesized speech data with natural prosody by successively connecting waveforms successively so as to produce speech.
  • the built-in microcomputer of the voice synthesizer a is further connected to another device in which the voice synthesizer a is mounted, and input means such as a keyboard and a mouse in this device, It has a data input section 6 configured to receive serial data of a recording medium for recording data transmitted and received via a network, acquire the serial data, and input the text data to the text analysis section 2. It does not matter.
  • the speech synthesizer ex can perform not only speech synthesis of text data set in advance, but also, for example, a user of the speech synthesizer ⁇ . Speech synthesis of any input sentence is possible, and it is possible to respond to the input of any text data that the user can input, and secure real-time properties such as receiving a desired sentence as needed and immediately outputting it as synthesized speech. It becomes possible.
  • the synthesized voice data generated by the waveform connection unit 5 is converted to an analog signal, and the analog-converted synthesized voice data is output to a separately connected speaker or the like.
  • a speech conversion processing unit 7 that outputs synthesized speech data as speech may be provided.
  • the voice synthesis is performed.
  • the device ⁇ can acquire text data and output synthesized speech data as speech without mounting the data input unit 6 and the speech conversion processing unit 7 in the speech synthesis device ⁇ . You can do it! /
  • FIG. 2 is a block diagram of the speech synthesizer oc of FIG. 1 with the function of adjusting the reading speed of the synthesized speech.
  • the speed parameter input together with the text data from the other equipment including the voice synthesizer ex 1 is mounted on the synthesized voice data generated by the waveform connection unit 5.
  • the speech speed conversion unit 8 for adjusting the reading speed of the synthesized speech by reflecting the speech speed on the speech synthesizer 1 may be provided on the microcomputer of the speech synthesis device 1.
  • FIG. 3 is a schematic diagram showing a hardware configuration example of the speech synthesizer ex shown in the present embodiment.
  • the speech synthesizer ex includes a CPU (Central Processing Unit) 11 that sequentially controls each functional unit of the speech synthesizer ex, and a ROM (Read) accessible from the CPU 11. Only Memory) 12 and RAM (Randam Access
  • the ROM 12 has a real-time OS (Operating System) and the voice analysis unit 2, the prosody prediction unit 3, the speech unit extraction unit 4, and the waveform connection unit 5. It is said that a processing program or the like to be executed by the CPU 11 of the device a is recorded.
  • OS Operating System
  • the speech synthesizer oc is constituted by, for example, a flash memory or the like, and is detachably attached to the memory card 14 detachably mountable to a, by constructing the voice database 1 into the memory card 14, Ya application equipment speech synthesizer a is incorporated
  • the voice unit extraction unit 4 functions based on the voice database 1 in the inserted memory card 14. It is good to be constituted as follows.
  • serial interface 15 functioning as the data input unit 6 and a DZA converter 16 (D / A: Digital to Analog) functioning as the audio conversion processing unit 7 may be mounted.
  • D / A Digital to Analog
  • FIG. 4 is a diagram for explaining the data configuration of the speech synthesizer ex shown in the present embodiment, where FIG. 4A shows text data, and FIG. Figure (c) illustrates the prosody knowledge base, Figure (d) illustrates the prosody parameters, and Figure (e) illustrates the speech database. This is schematically shown for this purpose.
  • the text data input to the text analysis unit 2 includes, for example, an arbitrary “cross bridge” in the serial data acquired by the data input unit 6.
  • this text data may be a mixture of kana and kanji characters, and if it can be converted into voice, the characters used in the text data are limited. It is not.
  • the text data is not limited to a text format data file, but may be HTML (Hyper
  • Text Markup Language Text Markup Language
  • It may be extracted by removing HTML tags from the data file of Text Markup Language (Text Markup Language) format, and it is generated by directly inputting the user's power from the Internet homepage, e-mail, or input means such as keyboard and mouse. It can be text data! / ,.
  • the phonetic symbol data generated by the text analysis unit 2 adopts, for example, phonetic symbols that indicate the sound of the text data by vowels and consonants.
  • the phonetic symbol data generated based on the text data shown in FIG. 3A is, for example, “ha shi wo wa ta ru”.
  • the prosodic knowledge base 3A determines the accent and intonation of phonetic symbol data. For example, for the "ha shi" of the phonetic symbol data shown in FIG. ”,“ Chopsticks ”,... are determined by their contextual power, and an algorithm that can determine the accent and inflection of these phonetic symbol data is provided.
  • the prosody prediction unit 3 uses, for example, “11 &” and “11 &” for each predetermined voice unit of “ha shij” in the phonetic symbol data corresponding to “bridge” based on the prosody knowledge base 3A. 31 ⁇ "can be generated for each of the prosodic parameters. According to the prosodic knowledge base 3A, all of the phonetic symbol data can be accented or inflected. , Speed, etc. can be determined.
  • accents and inflections are schematically illustrated for explanation by underlining or overlining superimposed on phonograms, accents and inflections and the like are described in the speech synthesizer ⁇ . Any form may be used as long as information necessary for the voice is recorded so as to be identifiable.
  • the prosody parameter generated according to the prosody knowledge base 3A described in FIG. 5D For example, between the accent, inflection, and voice, which correspond to the context of the text data, are shown as parameters, and the underline between the accents of "wo" and "wa” shown in the figure are shown.
  • the break indicates a predetermined interval between the phonetic symbols.
  • the voice database 1 accessed from the voice unit extraction unit 4 is based on a prosodic knowledge base such as accents and inflections.
  • a prosodic knowledge base such as accents and inflections.
  • it is stored so as to be extractable as audio unit waveform data for each predetermined audio unit such as a phoneme.
  • the speech unit extraction unit 4 receives a prosody parameter as shown in FIG. 4D from the prosody prediction unit 3, the speech unit extraction unit 4 has a unique accent and intonation indicated by the prosody parameter. Search the voice database 1 for voice data that has the closest accent and intonation that corresponds to each of the phonetic symbols, “ha”, “shi”, “wo”, “wa”, “ta”, and “ru”. .
  • the voice unit extraction unit 4 extracts the "spring has come", “use”, and “movie”. That ",” I “, ... from the voice data, such as, consistent with the prosodic parameters" ha “,” shi “,” wo “,” wa “, r t aj, only speech unit waveform data of" ru " By cutting out and extracting, it is possible to generate synthesized speech data by smoothly connecting the speech unit waveform data in the waveform connection unit 5.
  • a phoneme is employed as an example of a predetermined speech unit.
  • input text data includes words or phrases previously stored in the speech database 1 in advance.
  • the voice unit extraction unit 4 can extract the word or phrase stored in the voice database 1 without dividing it, By outputting these words or phrases as they are or in combination, more natural speech can be synthesized.
  • the speech synthesis apparatus oc in which all the functional units 1 to 7 shown in the functional configuration diagram of FIG.
  • all of the functional units 1 to 7 are integrally provided in a single case, and a voice synthesizer O that can execute voice synthesis alone without distributing functions to other equipment, devices, and the like. This makes it possible to execute a series of functional units 1 to 7 from serial data input to analog output in the case of one individual.
  • the function configuration is not limited as long as all of the above functional units can be executed in a single case.
  • the voice conversion output unit 7 and the data input unit 6 have speed and data (not shown).
  • An input device or the like may be incorporated and mounted.
  • a speech speed conversion unit 8 which is a function for adjusting the reading speed of the synthesized speech, is added to the speech synthesizer ⁇ of the configuration example 1, and all the functional units 1 to 8 described in FIG. Speech synthesizer ⁇ 2, which is integrated into the case, is assumed to be functional configuration example 2.
  • the speech speed conversion unit 8 adjusts the speed of the synthesized speech by reflecting the speed parameter in the synthesized speech data.
  • the speed parameter is input to the data input section as serial data together with the text data.
  • the speed parameter is passed from the data input unit 6 to the waveform connection unit 5 in a state where it is added to each conversion data and parameter, and is recognized by the speech speed conversion unit 8 for the first time.
  • the speech speed conversion unit 8 applies the value of the speed parameter to the synthesized speech data received together with the speed parameter from the waveform connection unit 5, and changes the reading speed of the synthesized speech.
  • Configuration example 2 aims to change the speed according to the use situation and to accurately transmit the synthesized speech to the user by performing the speech speed conversion. By setting it to be late, it is easy to hear and it is effective in situations where the ability to judge calmly tends to be lacking, such as in an emergency.
  • Fig. 5 shows the waveform connection unit 5 and the speech conversion processing unit 7 in the speech synthesizer ⁇ shown in Fig. 1 extracted and selected, mounted on the built-in microcomputer 2, and installed on a personal computer with other functional units installed separately.
  • FIG. 5 is a functional block diagram showing an example of the configuration of the speech synthesis system ⁇ to perform a series of speech synthesis by incorporation.
  • the speech synthesis system ⁇ converts the text data input in the event of a disaster such as a fire or an earthquake into synthesized speech as an embedded microcomputer 2 and generates an emergency alert.
  • a speech synthesis system intended for an output terminal used when used.
  • the speech synthesis system ⁇ includes a built-in microcomputer ⁇ 2 having a waveform connection unit 5 and a speech conversion processing unit 7, and a speech as each functional unit other than the above shown in FIG.
  • a database 1 and a machine such as a personal computer having each function unit from the data input unit 6 to the voice unit extraction unit 4 are connected to a network and used.
  • the built-in microcomputer ⁇ 2 may be connected to a network as a single unit or may be used by incorporating the built-in microcomputer ⁇ 2 into another device.
  • the above-mentioned network connection method generally includes an Internet line and a telephone line that can be easily connected even at home or in small-scale facilities.
  • the connection means is not limited as long as it can communicate data with separately installed equipment such as a dedicated line.
  • the emergency alert may be used not only for guidance but also for guidance and communication.
  • the speech speed conversion unit 8 shown in configuration example 2 in this configuration example It is also possible to change the reading speed according to.
  • FIG. 6 is a functional configuration diagram of the built-in microcomputer ex3 in which a part of the functional units 1 and 3 to 5 and 7 of the speech synthesizer ⁇ shown in FIG.
  • the embedded microcomputer ⁇ 3 outputs phonetic symbol data from an arbitrary personal computer 33 incorporating the data input unit 6 and the text analysis unit 2.
  • This is a microcomputer that has a configuration that can be acquired and incorporates a speech database 1 and a series of functional units from the prosody prediction unit 3 to the speech conversion processing unit 7 that output synthesized speech. Note that the personal computer ⁇ 3 is disconnected after the initial setting.
  • the embedded microcomputer a3 is intended to be mounted on other devices such as small devices such as toys, and examples of the devices to be mounted include toys, mobile phones, welfare-related devices such as hearing aids, and other devices. Is mentioned.
  • these are not limited to only the small devices as described above, and include devices in which the content of the output synthesized voice is limited, such as vending machines, car navigation systems, unmanned reception facilities, and the like. If you use it, you can install embedded Simply adding a con oc 3 enables the synthesis voice function to be incorporated into these devices.
  • FIG. 7 is a schematic diagram showing an example of a hardware configuration in which the speech synthesizer ex shown in the present embodiment is mounted on a personal computer ⁇ as another device.
  • the speech synthesizer ex is mounted on and connected to an arbitrary personal computer ⁇ arranged separately, for example, data is input from the input means 21 mounted on the personal computer ⁇ . While the input unit 6 is configured to receive serial data, the synthesized voice data generated based on the serial data by the voice synthesizer ⁇ is transmitted from the voice conversion processing unit 7 to the voice built into the personal computer / 3 separately. By outputting an analog signal to the outputtable power 22, sound can be output from the speaker 22.
  • the voice synthesizer ex includes a memory card 14 for recording the voice data base 1 in advance in the voice synthesizer ex. Even if the memory card 14 is fixedly and exclusively mounted in advance, the memory card 14 may be arbitrarily replaced with another memory card 14 by a user using a personal computer.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

 テキストデータ中の任意の文章を解析し対応する表音記号データを生成するテキスト解析部と、アクセントと抑揚について事前に設定された韻律知識ベースに従い、表音記号データのそれぞれに対応するアクセントと抑揚を示す韻律パラメータを生成する韻律予測部と、音声合成装置の用途に応じた所要の音声単位のみを有するよう事前に選択収録された所定の音声データのみを複数蓄積する音声データベースに基づき、韻律パラメータのそれぞれに最も近い音声単位部分を有した音声データのそれぞれから、所定の音声単位部分の音声素片波形データの全てを抽出する音声単位抽出部と、これら音声素片波形データ群を音声波形が連続となるよう順次波形接続することで合成音声データを生成する波形接続部と、データ入力部、音声変換処理部及び話速変換部も含め前記各機能部を使用用途及び装置の規模に応じて適宜具備又は切離すコーパスベース音声合成装置。

Description

明 細 書
音声合成装置
技術分野
[0001] 本発明は、音声合成装置に関し、詳しくは、事前に収録された所定文章の音声デ ータを所定の音声単位で複数蓄積した音声データベースを搭載し、任意のテキスト データに対して前記音声データベースに基づきコーパスベース音声合成を行うため の、他の機器に組込み搭載される組込みマイコンカゝらなる音声合成装置に係わる。 背景技術
[0002] 従来、音声合成技術として、駅の案内放送等に利用されるような、予め、使用される 所定の単語やフレーズを音源として収録しておき、これらを組み合わせることで、機 械による文章の音声出力を行う録音編集方式と、電話の自動案内等に利用されるよ うな、事前に一文字ずつ音声波形に近い音データを蓄積し、これらの音データを信 号処理により単音接続し、肉声の音声波形に近い音として出力する規則合成方式が めつに。
[0003] ここで、録音編集方式では、事前に収録された決められたフレーズによる録音デー タの組み合わせのみが可能であることから、合成可能な文章数が限定されてしまい、 また、新たな文章を追加して合成させたいときには、この追加文章に使用される単語 やフレーズの音源の再録音が必要となるために、再録音のための費用がかかるという 問題があり、随時様々な文章を読上げさせるには、読上げ対応能力の低いものとな つていた。
[0004] 一方、規則合成方式では、文脈や単語の差異を無視して、信号処理による音デー タを一文字ずつ対応させた繋ぎ合わせによって、それぞれ単音を順次連続されるこ とで、肉声の音声波形に近い音を合成するようにしているために、出力される音は、 機械的な音となってしまい、音質の低下は避けられず、その機械的な音は、自然な 発声とは程遠 、ために聞 ヽて 、て違和感の残るものとなって 、た。
[0005] そこで、近年、人の肉声を文章として数多く収録したものが事前にデータベース化 されて、これら膨大な音声データのデータベース (コーノス)を音源として音声を合成 する、例えば、以下に示す特許文献 1及び 2に開示されたコーパスベース音声合成 技術が知られている。
[0006] 特許文献 1:特許第 2894447号公報
特許文献 2:特許第 2975586号公報
[0007] これら特許文献 1及び 2に開示されたコーパスベース音声合成技術では、データべ ース中に収録された多くの文章力 必要な音素を抽出し、それら音素の組み合わせ により数多くの文章の合成が可能であることから、出力可能な合成文章数は膨大なも のとなり、また、人間の肉声を音源に採用しているため、機械音による合成音声と比 ベて、より人間の肉声に近い自然な音声を出力することができる。
[0008] さらに、これら特許文献 1あるいは特許文献 2に開示されたコーパスベース音声合 成技術によれば、新たに文章を追加して合成させる場合においても、既に収録され て 、る音源中の音素を利用して合成が可能なために、データベースの追加録音も不 要であり、したがって、追加コストは力からないことから、現在、コールセンター等への 導入が進められている。
発明の開示
発明が解決しょうとする課題
[0009] し力しながら、従来のコーパスベース音声合成技術では、任意の文章の合成に対 応させるために、多数の音素を含む文章を収録するそのデータベースは膨大なもの となってしまい、装置の大型化が避けられず、例えば、コールセンター等に導入され る場合には、業務内容対応用や、カタログ請求対応用、担当部署対応用等の、応対 内容ごとのそれぞれ専用のデータベースを構築する必要があった。
[0010] また、装置が大型なものとなるために、小型製品の、例えば、聴覚障害者用の福祉 関連機器や、玩具、家電等に内蔵することは困難なものであり、その用途は、例えば 、コールセンター等に限定されてしまい、その導入は大規模な設備を備えた企業等 のみに限定されたものとなっていた。
[0011] ここにおいて、本発明の解決すべき主要な目的は、次のとおりである。
[0012] 即ち、本発明の第 1の目的は、コーパスベース音声合成を行う装置を小型化して、 他の機器に組込み搭載可能な音声合成装置を提供せんとするものである。 [0013] 本発明の第 2の目的は、コーパスベース音声合成に採用される音声データベース を、用途ごとに選択収録された音声データを収録してそれぞれ着脱可能な音声合成 装置を提供せんとするものである。
[0014] 本発明の他の目的は、明細書、図面、特に、特許請求の範囲の各請求項の記載か ら、自ずと明らかになろう。
課題を解決するための手段
[0015] 本発明装置においては、他の機器に組込み搭載される組込みマイコンカゝらなる音 声合成装置であって、テキストデータ中の任意の文章を解析し、当該文章に対応す る表音記号データを生成するテキスト解析部と、アクセントと抑揚にっ 、て事前に設 定された韻律知識ベースに従!ヽ、当該テキスト解析部で解析した文章の表音記号デ ータのそれぞれに対応するアクセントと抑揚を示す韻律パラメータを生成する韻律予 測部と、当該音声合成装置の用途に応じた所要の音声単位のみを有するよう事前に 選択収録された所定の音声データのみを複数蓄積する音声データベースに基づき 、当該韻律予測部にて生成した韻律パラメータのそれぞれに最も近い所定の音声単 位部分を有した音声データのそれぞれから、該当する当該所定の音声単位部分の 音声素片波形データの全てを抽出する音声単位抽出部と、当該音声単位抽出部に て抽出した音声素片波形データ群を、文章順に、当該音声素片波形データ群の示 す音声波形が連続となるよう順次波形接続することで合成音声データを生成する波 形接続部と、を具備させる、という特徴的構成手段を講じる。
[0016] さらに、具体的詳細に述べると、当該課題の解決では、本発明が次に列挙する上 位概念カゝら下位概念に亙る新規な特徴的構成手段を採用することにより、前記目的 を達成するよう為される。
[0017] 即ち、本発明装置の第 1の特徴は、事前に収録された所定文章の音声データを所 定の音声単位毎に音声素片波形データとして抽出可能に複数蓄積した音声データ ベースを搭載し、任意のテキストデータに対して前記音声データベースに基づきコー パスベース音声合成を行うための音声合成装置であって、シリアルデータ力 テキス トデータを取得するデータ入力部と、当該テキストデータ中の前記任意の文章に対 応する音を母音と子音で示す表音記号を表音記号データとして生成処理するテキス ト解析部と、アクセントと抑揚について事前に設定された韻律知識ベースに従い、事 前に解析された前記テキストデータ中の任意の文章に対応する前記表音記号デー タのそれぞれに対応する前記アクセントと前記抑揚を示す韻律パラメータを生成する 韻律予測部と、当該音声合成装置の用途に応じた所要の前記音声単位のみを有す るよう事前に選択収録された所定の前記音声データのみを複数蓄積する前記音声 データベースに基づき、当該韻律予測部にて生成した前記韻昝パラメータのそれぞ れに最も近い前記所定の音声単位部分を有した前記音声データのそれぞれから、 該当する当該所定の音声単位部分の前記音声素片波形データの全てを抽出する 音声単位抽出部と、当該音声単位抽出部にて抽出した前記音声素片波形データ群 を、前記文章順に、当該音声素片波形データ群の示す音声波形が連続となるよう順 次波形接続することで合成音声データを生成する波形接続部と、当該合成音声デ ータをアナログ音声に変換出力する音声変換処理部と、を具備してなる、音声合成 装置の構成採用にある。
[0018] 本発明装置の第 2の特徴は、上記本発明装置の第 1の特徴における前記音声デ ータベースが、前記音声合成装置に着脱可能なメモリカード上に構築されて、当該 音声合成装置に当該メモリカードが装着されたときに、前記音声単位抽出部力 読 み取り可能に構成されてなる、音声合成装置の構成採用にある。
[0019] 本発明装置の第 3の特徴は、上記本発明装置の第 1の特徴における前記データ入 力部が、当該音声合成装置が組込み搭載された他の機器と接続されて、当該機器 力もシリアルデータを受信してなる、音声合成装置の構成採用にある。
[0020] 本発明装置の第 4の特徴は、上記本発明装置の第 1の特徴における前記音声合 成装置が、前記データ入力部により前記任意文章とともに取得した速度パラメータを 前記波形接続部より生成された前記合成音声データに反映させ、当該合成音声デ ータの読み上げ速度を調整する話速変換部を前記音声変換処理部に前置してなる 、音声合成装置の構成採用にある。
[0021] 本発明装置の第 5の特徴は、上記本発明装置の第 1の特徴における前記データ入 力部と前記テキスト解析部と前記韻律予測部と前記音声データベースと前記音声単 位抽出部と前記波形接続部と前記音声変換処理部が、一個のケース内に一体装備 されてなる、音声合成装置の構成採用にある。
[0022] 本発明装置の第 6の特徴は、上記本発明装置の第 1の特徴における前記データ入 力部と前記波形接続部と前記音声変換処理部が、他の機器に組込み搭載される組 込みマイコンに一体装備し、前記データ入力部と前記テキスト解析部と前記韻律予 測部と前記音声データベースと前記音声単位抽出部力 センター内パーソナルコン ピュータに装備され、前記組込みマイコンと当該センター内パーソナルコンピュータ は、同一ネットワーク上に別途設置され、当該センター内パーソナルコンピューター 内で前記データ入力部、前記テキスト解析部、前記韻律予測部、前記音声データべ ースに直結した前記音声単位抽出部を経て前記テキストデータから変換された前記 音声素片波形データを、前記ネットワークを介して前記組込みマイコンの前記波形接 続部に送信可能とし、当該組込みマイコンの前記音声変換処理部へ当該波形接続 部から合成音声を受渡しするシステムに構築されてなる、音声合成装置の構成採用 にある。
[0023] 本発明装置の第 7の特徴は、上記本発明装置の第 1の特徴における前記音声合 成装置力 別途配置された任意のパーソナルコンピュータに前記データ入力部が接 続されて、前記テキスト解析部にて解析する前記テキストデータを当該パーソナルコ ンピュータカ 取得可能に構成される一方、前記音声変換処理部として別途配置さ れた任意のスピーカに接続されて、前記波形接続部にて生成した前記合成音声デ ータを当該スピーカにて音声出力可能に構成されてなる、音声合成装置の構成採用 にある。
[0024] 本発明装置の第 8の特徴は、上記本発明装置の第 1の特徴における前記所定の音 声単位が、音素、単語、フレーズ、シラブルのうちの 1以上である、音声合成装置の 構成採用にある。
[0025] 本発明装置の第 9の特徴は、上記本発明装置の第 1の特徴における前記データ入 力部と前記テキスト解析部が、初期設定時のみ使用のパーソナルコンピュータに装 備してシリアルデータを入力し表音記号データを出力する初期設定機能をそれぞれ 有し、前記韻律予測部と前記音声データベースと前記音声単位抽出部と前記波形 接続部と前記音声変換処理部が、その他の機器に組込み搭載される組込みマイコ ンに装備し、前記パーソナルコンピュータを当該組込みマイコンに初期設定時のみ 接続して、当該パーソナルコンピュータから出力した前記表音記号データを当該組 込みマイコンの前記韻律予測部に入力するとともに、前記音声データベースに予め 設定記録しておき、当該組込みマイコンに入力したシリアルデータを当該韻律予測 部と当該音声データベースに直結する前記音声単位抽出部と前記波形接続部と前 記音声変換処理部を順次経てアナログ出力する機能を有してなる、音声合成装置の 構成採用にある。
[0026] 本発明装置の第 10の特徴は、上記本発明装置の第 1の特徴における前記データ 入力部と前記波形接続部と前記音声変換処理部が、緊急警報用又は、案内、連絡 用出力端末に組込みマイコンとして組込まれるとともに、前記データ入力部と前記テ キスト解析部と前記韻律予測部と前記音声データベースと前記音声単位抽出部は、 これら等を内蔵装備したセンター内パーソナルコンピュータとして、前記組込みマイコ ンとネットワークを介し一方向送信可能にシステム構築してなる、音声合成装置の構 成採用にある。
[0027] 本発明装置の第 11の特徴は、上記本発明装置の第 1の特徴における前記韻律予 測部と前記音声データベースと前記音声単位抽出部と前記波形接続部と前記音声 変換処理部が、前記データ入力部及び前記テキスト解析部と初期設定後切り離して 玩具やその他の機器に組込みマイコンとして組み込まれてなる、音声合成装置の構 成採用にある。
発明の効果
[0028] 本発明によれば、従来、大型化が避けられな力つたコーパスベース音声技術を採 用した音声合成装置を組込みマイコンにて構成し、従来と比較して大幅に小型化す ることが可能となり、他の機器に組込み可能となることから、例えば、福祉関連機器に 組み込まれることで音声伝達を可能とするコミュニケーションツールとして活用するこ とができ、キャラクターの声を出力可能な人形等の玩具や、音声による情報伝達が可 能な家電等、さまざまな製品に活用することが可能となる。
[0029] また、音声データベースを着脱可能なメモリカード上に構築し用途に応じて交換可 能にしたことで、音声合成装置の小型化が可能となると共に、用途に合った音声デ ータを収録することで、音声合成の読み正解率やアクセント正解率の向上させてより 自然な音声を出力させることが可能になり、また、出力する声質をユーザの好みのも のに切り替えることが可能となる。
[0030] さらに、ネットワークを利用して音声合成を行う場合、従来音声の送信には中高速 回線を利用していたが、本発明では、テキストデータを受信側装置で受信して音声 に変換すればよいため、低速回線を利用した音声放送が可能となり、また、プッシュ 型のサービスに適用された場合、テキストデータのみを配信することで受信側装置に て音声として出力させることができ、省力化や、防災無線等の緊急を要する場合にも 迅速なサービスの提供が可能となる。
図面の簡単な説明
[0031] [図 1]本発明の一形態例に係る音声合成装置の機能構成図である。
[図 2]同上した音声合成装置に話速変換部を機能追加した音声合成装置の機能構 成図である。
[図 3]同上した音声合成装置のハードウ ア構成例を示す模式図である。
[図 4]同上した音声合成装置のデータ構成を説明するための図であり、同図 (a)はテ キストデータを、同図(b)は表音記号データを、同図(c)は韻律知識ベースを、同図( d)は韻律パラメータを、同図(e)は音声データベースを説明するための図である。
[図 5]本発明の機能構成例 2に係る音声合成装置の機能構成図である。
[図 6]本発明の機能構成例 3に係る音声合成装置の機能構成図である。
[図 7]本発明の形態例に係る音声合成装置をパーソナルコンピュータに搭載させた ハードウェア構成例を示す模式図である。
符号の説明
[0032] α、 α 1…音声合成装置
α 2、 α 3…組込みマイコン
13、 β 2、 j8 3…パーソナルコンピュータ
γ…音声合成システム
1…音声データベース
2· · ·テキスト解析部 3…韻律予測部
3A…韻律知識ベース
4…音声単位抽出部
5…波形接続部
6…データ入力部
7…音声変換処理部
8…話速変換部
11- --CPU
12- --ROM
13- --RAM
14· ··メモリカード
15· ··シリアルインタフェース
16 .DZAコンバータ
21· ··入力手段
22· "スピーカ
発明を実施するための最良の形態
[0033] 以下、本発明の実施の形態につき、添付図面を参照しつつ、音声合成装置の形態 例を説明する。
[0034] (形態例)
まず、図 1は、本発明の一形態例に係る音声合成装置の機能構成図である。
[0035] 同図に示すように、本形態例にかかる音声合成装置 exは、事前に収録された所定 文章の音声データを、例えば、音素や単語、フレーズ、シラブル等の所定の音声単 位毎に音声素片波形データとして抽出可能に複数蓄積した音声データベース 1を搭 載し、任意のテキストデータに対して音声データベース 1に基づきコーパスベース音 声合成を行うための装置であり、少なくともテキスト解析部 2と、韻律予測部 3と、音声 単位抽出部 4と、波形接続部 5からなり、必要に応じ他の機器に組込み搭載される組 込みマイコンとして構成する。
[0036] なお、上記機能部全てをマイコンが具備するよう限定される必要はなぐ使用用途 及びその規模に応じて複数の所定機能部をマイコンに具備させ、その他の各機能部 をパーソナルコンピュータに実行させるなどして構成することもできる。
[0037] ここで、音声データベース 1は、コーパスベース音声合成を行うためのコーパスであ つて、音声合成装置 OCの用途に応じた所定の音声単位のみを有するように事前に選 択収録された所定の音声データのみを複数蓄積し、音声合成装置 αの用途に応じ て細分化されて構築される。
[0038] 一方、テキスト解析部 2は、入力されたテキストデータ中の任意の文章を解析し、こ の文章に対応する表音記号データを生成可能に構成されて、韻律予測部 3は内部 に、表音記号データのアクセントと抑揚についての認識規則について事前に設定さ れた韻律知識ベース 3Αを搭載し、この韻律知識ベース 3Αに従い、テキスト解析部 2 が生成した表音記号データのそれぞれに対応するアクセントと抑揚を示す韻律パラメ ータを生成するよう構成される。
[0039] 他方、音声単位抽出部 4は、韻律予測部 3にて生成された韻律パラメータのそれぞ れに最も近いアクセントと抑揚を備えた音素を含む音声データを、例えば、人間の聴 覚特性に近づけた評価関数等を用いて、音声データベース 1から抽出し、ここで抽 出した音声データのそれぞれから、この韻律パラメータに該当する音素等の所定の 音声単位の音声素片波形データのみを抽出するよう構成される。
[0040] さらに、波形接続部 5は、音声単位抽出部 4にて抽出した複数の音声素片波形デ ータ群を、文章順に、この音声素片波形データ群の音声波形が滑らかで自然な音声 となるよう、連続させて順次波形接続を行うことで、自然な韻律の合成音声データを 生成するよう構成される。
[0041] なお、音声合成装置 aの組込みマイコン上に、さらに、音声合成装置 aが組込み 搭載される他の機器と接続されて、この機器中の、例えば、キーボードやマウス等の 入力手段や、ネットワークを介して送受信されたデータを記録する記録媒体等力 シ リアルデータを受信し、このシリアルデータ力 テキストデータを取得してテキスト解析 部 2に入力可能に構成されたデータ入力部 6を具備するようにしても構わない。
[0042] このデータ入力部 6を具備することにより、音声合成装置 exは、事前に設定された テキストデータの音声合成のみならず、例えば、音声合成装置 αのユーザにより入 力された任意の文章の音声合成が可能となり、ユーザ力もの任意のテキストデータの 入力に対応可能となるとともに、所望の文章を随時受付けて即座に合成音声として 出力する等のリアルタイム性を確保することが可能となる。
[0043] また、音声合成装置 exの組込みマイコン上に、波形接続部 5にて生成した合成音 声データをアナログ変換し、このアナログ変換した合成音声データを別途接続された スピーカ等にアナログ出力することで、合成音声データを音声出力する音声変換処 理部 7を具備するようにしても構わな 、。
[0044] なお、音声合成装置 exが組み込まれる他の機器に、データ入力部 6と音声変換処 理部 7とに代わる同様の機能を備えたインタフェースやコンバータ等が搭載された場 合、音声合成装置 αは、音声合成装置 α内にデータ入力部 6と音声変換処理部 7と を搭載させずに、テキストデータを取得可能とするとともに、合成音声データを音声 出力することが可能となるようにしても構わな!/、。
[0045] さらに、図 2は図 1の音声合成装置 ocに合成音声の読み上げ速度の調節機能を加 えた構成図である。
[0046] 同図に示すように、音声合成装置 ex 1が組込み搭載される他の機器カゝらテキストデ ータとともに入力された速度パラメータを、波形接続部 5により生成された合成音声デ ータに反映させ、合成音声の読み上げ速度を調節する話速変換部 8を音声合成装 置ひ 1のマイコン上に具備してもよい。
[0047] 次に、図 3は、本形態例に示した音声合成装置 exのハードウェア構成例を示す模 式図である。
[0048] 同図に示すように、音声合成装置 exは、音声合成装置 exにおける各機能部をそれ ぞれ一連に制御する CPU (Central Processing Unit) 11と、 CPU11からアクセス可 能な ROM (Read Only Memory) 12と、 RAM (Randam Access
Memory) 13とを搭載して構成されて、例えば、 ROM12にリアルタイム OS (Operating System)と、テキスト解析部 2、韻律予測部 3、音声単位抽出部 4、波形接続部 5の各 機能を音声合成装置 aの CPU11に実行させるための処理プログラム等が記録され るとよ 、。
[0049] さらに、音声合成装置 ocは、例えば、フラッシュメモリ等で構成されて音声合成装置 aに着脱可能なメモリカード 14を着脱可能に構成されて、このメモリカード 14に音声 データベース 1を構築することにより、音声合成装置 aが組み込まれる機器の用途や
、音声合成装置 αを利用するユーザの好みにより、所要のメモリカード 14への差換 えが可能になり、装着されたメモリカード 14内の音声データベース 1に基づき音声単 位抽出部 4が機能するように構成されるとよい。
[0050] また、データ入力部 6として機能するシリアルインタフェース 15や、音声変換処理部 7として機能する DZAコンバータ 16 (D/A : Digital to Analog)を搭載するようにして も構わない。
[0051] 続いて、図 4は、本形態例に示した音声合成装置 exのデータ構成を説明するため の図であり、同図(a)はテキストデータを、同図(b)は表音記号データを、同図(c)は 韻律知識ベースを、同図(d)は韻律パラメータを、同図(e)は音声データベースを説 明するための図であり、アクセントや抑揚については説明のために模式的に示してい る。
[0052] 同図(a)に示すように、テキスト解析部 2に入力されるテキストデータは、例えば、デ ータ入力部 6にて取得したシリアルデータ中の「橋を渡る」のような任意の文章であり 、ここで、このテキストデータは、かな.漢字等の混合であっても構わず、音声にするこ とが可能なものであれば、そのテキストデータに使用される文字は限定されるもので はない。
[0053] なお、テキストデータは、テキスト形式のデータファイルに限らず、 HTML (Hyper
Text Markup Language)形式のデータファイルから HTMLタグを取り除いて抽出され たものでも構わず、インターネット上のホームページや、電子メール、あるいは、キー ボードやマウス等の入力手段によってユーザ力も直接入力されて生成されたテキスト データであっても構わな!/、。
[0054] 一方、同図(b)に示すように、テキスト解析部 2で生成する表音記号データは、例え ば、テキストデータの音を母音と子音で示すような表音記号を採用して、同図(a)に て示したテキストデータに基づき生成される表音記号データは、例えば、「ha shi wo wa ta ru」となる。
[0055] また、韻律知識ベース 3Aは、表音記号データのアクセントや抑揚等を決定するた めに韻律予測部 3にて利用される予め設定された規則であって、例えば、同図(b)に 示した表音記号データの「ha shi」について、日本語の「橋」、「端」、「箸」、…のいず れに対応するものであるかを文脈力 決定し、これら表音記号データのアクセントや 抑揚につ!、て決定可能なアルゴリズムを備える。
[0056] そこで、韻律予測部 3は、例えば、韻律知識ベース 3Aに基づき「橋」に対応する表 音記号データ中の「ha shijについて所定の音声単位毎の、ここでは、「11&」と「31^」に 対してそれぞれ韻律パラメータを生成可能に構成されて、韻律知識ベース 3Aに従 い、表音記号データの全てについて、アクセントや抑揚、さらには、音声と音声との間 、音声のリズム、スピード等を決定することができる。
[0057] なお、ここでは、アクセントと抑揚を説明のために模式的に、表音記号に重ねて下 線や上線等で示して説明するものの、音声合成装置 α内にてアクセントや抑揚等の 音声に必要な情報を識別可能に記録されれば、どのような形態であっても構わない。
[0058] 他方、同図(d)に示すように、韻律予測部 3にて同図(c)で説明した韻律知識べ一 ス 3Aに従 、生成される韻律パラメータは、各表音記号に対応させてテキストデータ の文脈に合った、例えば、アクセント、抑揚及び音声間の間についてそれぞれパラメ ータとして示すものであり、図に示した「wo」と「wa」のアクセントを示す下線間の切れ 目は、その表音記号間に所定間隔の間を示すものである。
[0059] 続いて、同図(e)に示すように、音声単位抽出部 4からアクセスされる音声データべ ース 1は、予め複数の所定文章の肉声がそのアクセントと抑揚等の韻律知識ベース 3 Aに対応させた音声データとともに、例えば、音素等の所定の音声単位毎に音声素 片波形データとして抽出可能に蓄積されて、ここでは、「春が来た」, 「使用する」, 「 映画を見る」, 「私は」,…等の音声データが蓄積されていることを示している。
[0060] したがって、音声単位抽出部 4は、韻律予測部 3から同図(d)に示すような韻律パラ メータを受信したときには、この韻律パラメータが示すそれぞれ固有のアクセントと抑 揚を有した「ha」, 「shi」, 「wo」, 「wa」, 「ta」, 「ru」のそれぞれと、表音記号が対応する とともに最も近いアクセントと抑揚を有した音声データを音声データベース 1から検索 する。
[0061] 引続き、音声単位抽出部 4は、ここで抽出した「春が来た」, 「使用する」, 「映画を見 る」, 「私は」,…等の音声データから、韻律パラメータに合致する「ha」, 「shi」, 「wo」, 「wa」, rtaj , 「ru」の音声素片波形データのみを切り取り、抽出するようにすることで、 波形接続部 5にてこの音声素片波形データを滑らかに接続して、合成音声データを 生成することが可能となる。
[0062] なお、ここでは、所定の音声単位の一例として音素を採用した場合について説明し たが、入力されたテキストデータ中に事前に音声データベース 1中に蓄積された単語 やフレーズを含む場合には、所定の音声単位をこの単語やフレーズとすることで、音 声単位抽出部 4において、音声データベース 1中に蓄積された単語やフレーズ等を 分割せずにそのまま抽出することが可能であり、この単語あるいはフレーズをそのま ま、あるいは、組み合わせて出力することで、より自然な音声を合成することが可能と なる。
実施例
[0063] 続いて、実施例として図 1、 2の機能構成図及び図 5、 6に示す本発明における合成 音声装置 Oの実施構成図を用いて機能構成例を説明する。
[0064] (構成例 1)
まず、構成例 1としては上記形態例にて説明した、図 1の機能構成図に示す各機能 部 1〜7全てをマイコンに組込んだ音声合成装置 ocを機能構成例 1とする。
[0065] この場合、全機能部 1〜7は一個のケース内に一体装備され、他の設備、機器等に 機能を分散しなくても単体のみで音声の合成が実行可能な音声合成装置 Oであり、 シリアルデータ入力からアナログ出力までの一連の機能部 1〜7を一個体のケースで 実行させることを可能とする。
[0066] また、上記全機能部がケース単体で実行可能であればその機能構成は限定され ず、例えば、同一ケース内に音声変換出力部 7、データ入力部 6として図示しないス ピー力やデータ入力装置等を組込み搭載してもよ 、。
[0067] (構成例 2)
さらに、構成例 1の音声合成装置 αに合成音声の読み上げ速度調節機能である話 速変換部 8を付加し、構成例 1と同様に図 2に記載される全機能部 1〜8を一個のケ ースに一体装備した音声合成装置 α 2を機能構成例 2とする。 [0068] ここで話速変換部 8は、合成音声データに速度パラメータを反映させることにより合 成音声の速度調節を行う。この場合、データ入力部にはシリアルデータとして、テキ ストデータとともに速度パラメータを入力する。
[0069] 速度パラメータはデータ入力部 6から波形接続部 5までの機能部を各変換データ及 びパラメータに付加された状態で受け渡され、話速変換部 8ではじめて認識される。 話速変換部 8は、波形接続部 5から速度パラメータとともに受け取った合成音声デー タに対し速度パラメータの値をあてはめ、合成音声の読み上げ速度の変更を行う。
[0070] 構成例 2は話速変換を行うことにより、利用状況に応じて速度の変更を行い利用者 に対し正確に合成音声を伝達することを目的としており、例えば、読み上げ速度を通 常よりも遅く設定することにより、聞き取り易くして緊急時など冷静な判断能力が欠如 しがちな状態において効果的である。
[0071] (構成例 3)
次に図 5は、図 1に示す音声合成装置 αにおける波形接続部 5、音声変換処理部 7を抽出選択し組込みマイコンひ 2に搭載し、他の各機能部を別途設置したパーソナ ルコンピュータに組み込むことにより一連の音声合成処理を実行する音声合成シス テム Ίの構成例を示す機能構成図である。
[0072] 同図に示すように、本構成例 3にかかる音声合成システム γは、組込みマイコンひ 2として火災、地震などの災害時等に入力されたテキストデータを合成音声に変換し 緊急警報として使用する場合に用いられる出力端末を目的とする音声合成システム の一例である。
[0073] 図 5に示すように、音声合成システム γは、波形接続部 5、音声変換処理部 7を具 備する組込みマイコン α 2と、図 1に図示する上記以外の各機能部である音声データ ベース 1とデータ入力部 6から音声単位抽出部 4までの各機能部を具備したパーソナ ルコンピュータ等のマシンとをネットワーク接続して使用する。
[0074] 組込みマイコン α 2は単体としてネットワークに接続する力 又は、他の機器に組込 みマイコン α 2を組込み搭載して利用するとよい。
[0075] 上記ネットワークの接続方法は、一般的に家庭内や小規模な設備などでも容易に 接続可能なインターネット回線や電話回線などが候補として挙げられる力 他に無線 、専用回線など、別途設置してある設備とのデータの通信が可能なものであれば、そ の接続手段は限定されない。
[0076] 図 1に示す音声合成装置 exに記載される各機能部の中で、負荷が高くデータ処理 時間を要するデータ入力部 6から音声単位抽出部 4までの機能を、別途設置する高 速処理可能な大容量のパーソナルコンピュータ j8 2のマシンに実行させ、ネットヮー クを介して組込みマイコン (X 2がパーソナルコンピュータ 13 2から受信した音声素片 波形データを合成音声データへの変換処理のみを実行することにより、緊急を要す る状態においても高速な音声合成処理が可能となるという優れた効果を奏する。
[0077] 本構成例 2は緊急警報用ばカゝりでなく案内、連絡用として利用してもよぐまた構成 例 2で示す話速変換部 8を本構成例に具備させることにより、状況に応じて読み上げ 速度の変更を行うことも可能である。
[0078] (構成例 4)
次に、図 6は、図 5と同様に図 1に示す音声合成装置 αの機能部 1と 3〜5、 7を一 部抽出選択した組込みマイコン ex 3の機能構成図である。
[0079] 同図に示すように、本構成例 4にかかる組込みマイコン α 3は、データ入力部 6及び テキスト解析部 2を組み込んだ任意のパーソナルコンピュータ /3 3にから表音記号デ ータを取得可能な構成にし、音声データベース 1と、合成音声として出力する韻律予 測部 3から音声変換処理部 7までの一連の機能部とを組み込んだマイコンである。な お、パーソナルコンピュータ β 3は初期設定後は切り離される。
[0080] 組込みマイコン a 3は、玩具のような小型の装置等その他の機器に搭載されること を目的とし、搭載する装置の例としては、玩具、携帯電話、補聴器等の福祉関連機 器その他が挙げられる。
[0081] これらの装置は、利用者に対し合成音声の提供を実現するものであるが、入力され るシリアルデータの内容はある程度定まっているため、予めテキスト解析を行うことに より処理効率の向上を図ることができる。
[0082] また、これらは上述したような小型装置のみに限定されず、例えば自動販売機や、 カーナビゲーシヨンシステム、無人受付設備など、出力される合成音声の内容が限 定されている装置に利用すれば、新たに大きな設備を設置することなぐ組込みマイ コン oc 3を追加搭載させるだけで合成音声機能をこれらの装置に組み込むことが可 能となる。
[0083] 続いて、図 7は、本形態例に示した音声合成装置 exを、他の機器としてのパーソナ ルコンピュータ βに搭載させたノヽードウエア構成例を示す模式図である。
[0084] 同図に示すように、音声合成装置 exは、別途配置された任意のパーソナルコンビュ ータ βに搭載されて接続された場合、例えば、パーソナルコンピュータ βに搭載され た入力手段 21からデータ入力部 6にてシリアルデータを受信可能に構成される一方 、音声合成装置 αにてシリアルデータに基づき生成した合成音声データを、音声変 換処理部 7から別途パーソナルコンピュータ /3に内蔵された音声出力可能なスピー 力 22にアナログ出力することで、このスピーカ 22にて音声出力させることが可能とな る。
[0085] このとき、音声合成装置 exは、この音声合成装置 ex内に、事前に音声データべ一 ス 1を記録するメモリカード 14が装着されるとよぐメモリカード 14は、音声合成装置 aに事前に固定的かつ専用に搭載されたものであっても、パーソナルコンピュータ を利用するユーザにより任意に他のメモリカード 14と差換え可能とするようにしても構 わない。
[0086] 以上、本発明の実施の形態につき、その音声合成装置 exの一形態例及び機能構 成例を挙げて説明したが、本発明は、必ずしも上述した手段にのみ限定されるもので はなぐ前述した効果を有する範囲内において、適宜、変更実施することが可能なも のである。
[0087] また、音声合成装置 aを、別途構成された他の音声認識装置と接続することにより 、自然な発声の対話を可能とする対話型の音声合成装置を構築することも可能であ る。

Claims

請求の範囲
[1] 事前に収録された所定文章の音声データを所定の音声単位毎に音声素片波形デ ータとして抽出可能に複数蓄積した音声データベースを搭載し、任意のテキストデー タに対して前記音声データベースに基づきコーパスベース音声合成を行うための音 声合成装置であって、
シリアルデータ力 テキストデータを取得するデータ入力部と、
当該テキストデータ中の前記任意の文章に対応する音を母音と子音で示す表音記 号を表音記号データとして生成処理するテキスト解析部と、
アクセントと抑揚にっ 、て事前に設定された韻律知識ベースに従 、、事前に解析さ れた前記テキストデータ中の任意の文章に対応する前記表音記号データのそれぞ れに対応する前記アクセントと前記抑揚を示す韻律パラメータを生成する韻律予測 部と、
当該音声合成装置の用途に応じた所要の前記音声単位のみを有するよう事前に 選択収録された所定の前記音声データのみを複数蓄積する前記音声データベース に基づき、当該韻律予測部にて生成した前記韻律パラメータのそれぞれに最も近い 前記所定の音声単位部分を有した前記音声データのそれぞれから、該当する当該 所定の音声単位部分の前記音声素片波形データの全てを抽出する音声単位抽出 部と、
当該音声単位抽出部にて抽出した前記音声素片波形データ群を、前記文章順に 、当該音声素片波形データ群の示す音声波形が連続となるよう順次波形接続するこ とで合成音声データを生成する波形接続部と、
当該合成音声データをアナログ音声に変換出力する音声変換処理部と、を具備す る、
ことを特徴とする音声合成装置。
[2] 前記音声データベースは、
前記音声合成装置に着脱可能なメモリカード上に構築されて、
当該音声合成装置に当該メモリカードが装着されたときに、前記音声単位抽出部 力 読み取り可能に構成される、 ことを特徴とする請求項 1に記載の音声合成装置。
[3] 前記データ入力部は、
当該音声合成装置が組込み搭載された他の機器と接続されて、当該機器カゝらシリ アルデータを受信する、
ことを特徴とする請求項 1に記載の音声合成装置。
[4] 前記音声合成装置は、
前記データ入力部により前記任意文章とともに取得した速度パラメータを前記波形 接続部より生成された前記合成音声データに反映させ、当該合成音声データの読み 上げ速度を調整する話速変換部を前記音声変換処理部に前置する、
ことを特徴とする請求項 1に記載の音声合成装置。
[5] 前記データ入力部と前記テキスト解析部と前記韻律予測部と前記音声データべ一 スと前記音声単位抽出部と前記波形接続部と前記音声変換処理部は、
一個のケース内に一体装備される、
ことを特徴とする請求項 1に記載の音声合成装置。
[6] 前記波形接続部と前記音声変換処理部は、
他の機器に組込み搭載される組込みマイコンに一体装備し、
前記データ入力部と前記テキスト解析部と前記韻律予測部と前記音声データべ一 スと前記音声単位抽出部は、
センター内パーソナルコンピュータに装備され、
前記組込みマイコンと当該センター内パーソナルコンピュータは、
同一ネットワーク上に別途設置され、
当該センター内パーソナルコンピューター内で前記データ入力部、前記テキスト解 析部、前記韻律予測部、前記音声データベースに直結した前記音声単位抽出部を 経て前記テキストデータ力 変換された前記音声素片波形データを、前記ネットヮー クを介して前記組込みマイコンの前記波形接続部に送信可能とし、当該組込みマイ コンの前記音声変換処理部へ当該波形接続部から合成音声を受渡しするシステム に構築される、
ことを特徴とする請求項 1に記載の音声合成装置。
[7] 前記音声合成装置は、
別途配置された任意のパーソナルコンピュータに前記データ入力部が接続されて 、前記テキスト解析部にて解析する前記テキストデータを当該パーソナルコンビユー タカ 取得可能に構成される一方、
前記音声変換処理部として別途配置された任意のスピーカに接続されて、前記波 形接続部にて生成した前記合成音声データを当該スピーカにて音声出力可能に構 成される、
ことを特徴とする請求項 1に記載の音声合成装置。
[8] 前記所定の音声単位は、
音素、単語、フレーズ、シラブルのうちの 1以上である、
ことを特徴とする請求項 1に記載の音声合成装置。
[9] 前記データ入力部と前記テキスト解析部は、
初期設定時のみ使用のパーソナルコンピュータに装備してシリアルデータを入力し 表音記号データを出力する初期設定機能をそれぞれ有し、
前記韻律予測部と前記音声データベースと前記音声単位抽出部と前記波形接続 部と前記音声変換処理部は、
その他の機器に組込み搭載される組込みマイコンに装備し、
前記パーソナルコンピュータを当該組込みマイコンに初期設定時のみ接続して、当 該パーソナルコンピュータから出力した前記表音記号データを当該組込みマイコン の前記韻律予測部に入力するとともに、前記音声データベースに予め設定記録して おき、当該組込みマイコンに入力したシリアルデータを当該韻律予測部と当該音声 データベースに直結する前記音声単位抽出部と前記波形接続部と前記音声変換処 理部を順次経てアナログ出力する機能を有する、
ことを特徴とする請求項 1に記載の音声合成装置。
[10] 前記波形接続部と前記音声変換処理部は、
緊急警報用又は、案内、連絡用出力端末に組込みマイコンとして組込まれるととも に、
前記データ入力部と前記テキスト解析部と前記韻律予測部と前記音声データべ一 スと前記音声単位抽出部は、
これら等を内蔵装備したセンター内パーソナルコンピュータとして、前記組込みマイ コンとネットワークを介し一方向送信可能にシステム構築してなる、
ことを特徴とする請求項 1に記載の音声合成装置。
前記韻律予測部と前記音声データベースと前記音声単位抽出部と前記波形接続 部と前記音声変換処理部は、
前記データ入力部及び前記テキスト解析部と初期設定後切り離して玩具やその他 の機器に組込みマイコンとして組み込まれてなる、
ことを特徴とする請求項 1に記載の音声合成装置。
PCT/JP2005/005815 2004-03-29 2005-03-29 音声合成装置 WO2005093713A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US10/592,071 US20070203703A1 (en) 2004-03-29 2005-03-29 Speech Synthesizing Apparatus
JP2006511572A JP4884212B2 (ja) 2004-03-29 2005-03-29 音声合成装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004-094071 2004-03-29
JP2004094071 2004-03-29

Publications (1)

Publication Number Publication Date
WO2005093713A1 true WO2005093713A1 (ja) 2005-10-06

Family

ID=35056415

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/005815 WO2005093713A1 (ja) 2004-03-29 2005-03-29 音声合成装置

Country Status (3)

Country Link
US (1) US20070203703A1 (ja)
JP (1) JP4884212B2 (ja)
WO (1) WO2005093713A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007240988A (ja) * 2006-03-09 2007-09-20 Kenwood Corp 音声合成装置、データベース、音声合成方法及びプログラム
JP2007240987A (ja) * 2006-03-09 2007-09-20 Kenwood Corp 音声合成装置、音声合成方法及びプログラム
JP2007240989A (ja) * 2006-03-09 2007-09-20 Kenwood Corp 音声合成装置、音声合成方法及びプログラム
JP2007240990A (ja) * 2006-03-09 2007-09-20 Kenwood Corp 音声合成装置、音声合成方法及びプログラム
JP2015172658A (ja) * 2014-03-12 2015-10-01 東京テレメッセージ株式会社 地域に設置された複数の屋外拡声器により音声メッセージを同報するシステムにおける聴き取りやすさの改善

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070203705A1 (en) * 2005-12-30 2007-08-30 Inci Ozkaragoz Database storing syllables and sound units for use in text to speech synthesis system
US8510113B1 (en) 2006-08-31 2013-08-13 At&T Intellectual Property Ii, L.P. Method and system for enhancing a speech database
EP2188729A1 (en) * 2007-08-08 2010-05-26 Lessac Technologies, Inc. System-effected text annotation for expressive prosody in speech synthesis and recognition
RU2421827C2 (ru) * 2009-08-07 2011-06-20 Общество с ограниченной ответственностью "Центр речевых технологий" Способ синтеза речи
TWI413105B (zh) * 2010-12-30 2013-10-21 Ind Tech Res Inst 多語言之文字轉語音合成系統與方法
US10469623B2 (en) * 2012-01-26 2019-11-05 ZOOM International a.s. Phrase labeling within spoken audio recordings
US10192541B2 (en) * 2014-06-05 2019-01-29 Nuance Communications, Inc. Systems and methods for generating speech of multiple styles from text
JP6695069B2 (ja) * 2016-05-31 2020-05-20 パナソニックIpマネジメント株式会社 電話装置
CN110782871B (zh) 2019-10-30 2020-10-30 百度在线网络技术(北京)有限公司 一种韵律停顿预测方法、装置以及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11143483A (ja) * 1997-08-15 1999-05-28 Hiroshi Kurita 音声発生システム
JP2000231395A (ja) * 1999-02-08 2000-08-22 Nippon Telegr & Teleph Corp <Ntt> 音声合成方法及び装置
JP2001296878A (ja) * 2000-04-14 2001-10-26 Fujitsu Ltd 音声合成用辞書作成装置及び方法
JP2003036089A (ja) * 2001-07-24 2003-02-07 Matsushita Electric Ind Co Ltd テキスト音声合成方法とテキスト音声合成装置
JP2003114692A (ja) * 2001-10-05 2003-04-18 Toyota Motor Corp 音源データの提供システム、端末、玩具、提供方法、プログラム、および媒体
JP2003186489A (ja) * 2001-12-14 2003-07-04 Omron Corp 音声情報データベース作成システム,録音原稿作成装置および方法,録音管理装置および方法,ならびにラベリング装置および方法
JP2003271200A (ja) * 2002-03-18 2003-09-25 Matsushita Electric Ind Co Ltd 音声合成方法および音声合成装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1138989A (ja) * 1997-07-14 1999-02-12 Toshiba Corp 音声合成装置及び方法
JP3450237B2 (ja) * 1999-10-06 2003-09-22 株式会社アルカディア 音声合成装置および方法
JP3728172B2 (ja) * 2000-03-31 2005-12-21 キヤノン株式会社 音声合成方法および装置
US6865533B2 (en) * 2000-04-21 2005-03-08 Lessac Technology Inc. Text to speech
JP2002328694A (ja) * 2001-03-02 2002-11-15 Matsushita Electric Ind Co Ltd 携帯端末装置及び読み上げシステム
US20020156630A1 (en) * 2001-03-02 2002-10-24 Kazunori Hayashi Reading system and information terminal
JP2003223181A (ja) * 2002-01-29 2003-08-08 Yamaha Corp 文字−音声変換装置およびそれを用いた携帯端末装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11143483A (ja) * 1997-08-15 1999-05-28 Hiroshi Kurita 音声発生システム
JP2000231395A (ja) * 1999-02-08 2000-08-22 Nippon Telegr & Teleph Corp <Ntt> 音声合成方法及び装置
JP2001296878A (ja) * 2000-04-14 2001-10-26 Fujitsu Ltd 音声合成用辞書作成装置及び方法
JP2003036089A (ja) * 2001-07-24 2003-02-07 Matsushita Electric Ind Co Ltd テキスト音声合成方法とテキスト音声合成装置
JP2003114692A (ja) * 2001-10-05 2003-04-18 Toyota Motor Corp 音源データの提供システム、端末、玩具、提供方法、プログラム、および媒体
JP2003186489A (ja) * 2001-12-14 2003-07-04 Omron Corp 音声情報データベース作成システム,録音原稿作成装置および方法,録音管理装置および方法,ならびにラベリング装置および方法
JP2003271200A (ja) * 2002-03-18 2003-09-25 Matsushita Electric Ind Co Ltd 音声合成方法および音声合成装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007240988A (ja) * 2006-03-09 2007-09-20 Kenwood Corp 音声合成装置、データベース、音声合成方法及びプログラム
JP2007240987A (ja) * 2006-03-09 2007-09-20 Kenwood Corp 音声合成装置、音声合成方法及びプログラム
JP2007240989A (ja) * 2006-03-09 2007-09-20 Kenwood Corp 音声合成装置、音声合成方法及びプログラム
JP2007240990A (ja) * 2006-03-09 2007-09-20 Kenwood Corp 音声合成装置、音声合成方法及びプログラム
JP2015172658A (ja) * 2014-03-12 2015-10-01 東京テレメッセージ株式会社 地域に設置された複数の屋外拡声器により音声メッセージを同報するシステムにおける聴き取りやすさの改善

Also Published As

Publication number Publication date
JPWO2005093713A1 (ja) 2008-07-31
JP4884212B2 (ja) 2012-02-29
US20070203703A1 (en) 2007-08-30

Similar Documents

Publication Publication Date Title
WO2005093713A1 (ja) 音声合成装置
US7483832B2 (en) Method and system for customizing voice translation of text to speech
US5774854A (en) Text to speech system
Prahallad et al. The IIIT-H Indic speech databases.
Eide et al. A corpus-based approach to< ahem/> expressive speech synthesis
EP2704092A2 (en) System for creating musical content using a client terminal
JP3270356B2 (ja) 発話文書作成装置,発話文書作成方法および発話文書作成手順をコンピュータに実行させるプログラムを格納したコンピュータ読み取り可能な記録媒体
AU769036B2 (en) Device and method for digital voice processing
Burkhardt et al. Emotional speech synthesis: Applications, history and possible future
JP4409279B2 (ja) 音声合成装置及び音声合成プログラム
JPH08335096A (ja) テキスト音声合成装置
Henton Challenges and rewards in using parametric or concatenative speech synthesis
JP3578961B2 (ja) 音声合成方法及び装置
JP2003029774A (ja) 音声波形辞書配信システム、音声波形辞書作成装置、及び音声合成端末装置
JP2894447B2 (ja) 複合音声単位を用いた音声合成装置
KR0134707B1 (ko) 다이폰 단위를 이용한 엘에스피(lsp)방식의 음성 합성 방법
JP4056647B2 (ja) 波形接続型音声合成装置および方法
Ojala Auditory quality evaluation of present Finnish text-to-speech systems
Hande A review on speech synthesis an artificial voice production
Khudoyberdiev The Algorithms of Tajik Speech Synthesis by Syllable
KR100269215B1 (ko) 음성 합성을 위한 발화구의 기본 주파수 궤적 생성 방법
KR20230099934A (ko) 복수의 화자음성을 이용한 음성 변환 장치 및 그 방법
JPH03214197A (ja) 音声合成装置
JP3192981B2 (ja) テキスト音声合成装置
Venkatagiri Digital speech technology: An overview

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
DPEN Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed from 20040101)
WWE Wipo information: entry into national phase

Ref document number: 10592071

Country of ref document: US

Ref document number: 2007203703

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2006511572

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Ref document number: DE

122 Ep: pct application non-entry in european phase
WWP Wipo information: published in national office

Ref document number: 10592071

Country of ref document: US