WO2005071664A1 - 音声合成装置 - Google Patents

音声合成装置 Download PDF

Info

Publication number
WO2005071664A1
WO2005071664A1 PCT/JP2005/000505 JP2005000505W WO2005071664A1 WO 2005071664 A1 WO2005071664 A1 WO 2005071664A1 JP 2005000505 W JP2005000505 W JP 2005000505W WO 2005071664 A1 WO2005071664 A1 WO 2005071664A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
information
speech
synthesized
voice quality
Prior art date
Application number
PCT/JP2005/000505
Other languages
English (en)
French (fr)
Inventor
Natsuki Saito
Takahiro Kamai
Yumiko Kato
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to US10/587,241 priority Critical patent/US7571099B2/en
Priority to JP2005517233A priority patent/JP3895758B2/ja
Priority to CN2005800033678A priority patent/CN1914666B/zh
Publication of WO2005071664A1 publication Critical patent/WO2005071664A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers

Definitions

  • the present invention relates to a speech synthesis device that generates and outputs synthesized speech.
  • the speech synthesis device of Patent Document 1 includes a plurality of speech unit databases having different voice qualities, and switches between these speech unit databases to generate a desired synthesized speech. Output.
  • the speech synthesis device (speech deformation device) of Patent Document 2 generates and outputs a desired synthesized speech by converting the spectrum of the speech analysis result.
  • the speech synthesis device of Patent Document 3 generates and outputs a desired synthesized speech by performing morphing processing on a plurality of waveform data.
  • Patent Document 1 JP-A-7-319495
  • Patent Document 2 Japanese Patent Application Laid-Open No. 2000-330582
  • Patent Document 3 JP-A-9-50295
  • Patent Document 1 That is, in Patent Document 1, the voice quality of synthesized speech is limited to a predetermined voice quality, and a continuous change between the predetermined voice qualities cannot be expressed.
  • Patent Document 2 if the dynamic range of the spectrum is increased, the sound quality is broken, and it is difficult to maintain good sound quality.
  • Patent Document 3 portions of a plurality of waveform data corresponding to each other (for example, The peak is specified, and the morphing process is performed based on that part.
  • the part may be specified by mistake.
  • the sound quality of the generated synthesized speech is degraded. Therefore, the present invention has been made in view of such a problem, and has a wide degree of freedom in voice quality. It is an object of the present invention to provide a speech synthesizer for generating color.
  • a speech synthesis apparatus provides a first speech unit information relating to a plurality of speech units belonging to a first speech quality, and a second speech unit information different from the first speech quality.
  • a storage unit that stores in advance the second speech unit information relating to a plurality of speech units belonging to the same voice quality, and text data, and obtains the text from the first speech unit information in the storage unit.
  • first synthesized speech information indicating synthesized speech of the first voice quality corresponding to characters included in the data, and extracting, from the second speech unit information in the storage means, characters included in the text data;
  • Voice information generating means for generating second synthesized voice information indicating the synthesized voice of the second voice quality corresponding to the first voice information, and the first and second synthesized voice information generated by the voice information generating means.
  • Characters included in the text data Morphing means for generating intermediate synthesized voice information indicating synthesized voice of an intermediate voice quality between the first and second voice qualities, and converting the intermediate synthesized voice information generated by the morphing means to the intermediate voice quality.
  • Voice output means for converting and outputting the synthesized voice information as a sequence of a plurality of characteristic parameters, and the morphing means.
  • the intermediate synthesized speech information is generated by calculating an intermediate value of a characteristic parameter corresponding to each of the first and second synthesized speech information.
  • the first and second speech unit information can be obtained. Since the synthesized voice of the intermediate voice quality is output, the degree of freedom of the voice quality can be expanded without being limited to the voice quality previously stored in the storage means. In addition, since the intermediate synthesized speech information is generated based on the first and second synthesized speech information having the first and second voice qualities, the processing that makes the dynamic range of the spectrum too large as in the conventional example is performed. Ganasa Therefore, the sound quality of the synthesized voice can be maintained in a good state.
  • the speech synthesizer according to the present invention acquires text data and outputs a synthesized speech corresponding to a character string included therein, so that usability for a user can be improved. Further, the speech synthesizer according to the present invention calculates intermediate values of the mutually corresponding feature parameters of the first and second synthesized speech information to generate intermediate synthesized speech information. ⁇ ⁇ Compared to the case of morphing the tuttle, the sound quality of the synthesized speech can be improved without erroneously specifying the reference part, and the calculation amount can be reduced.
  • the morphing means is configured to change the first and second synthesized voice information so that the voice quality of the synthesized voice output from the voice output means changes continuously during the output. It may be characterized in that the rate of contribution to the intermediate synthesized speech information is changed.
  • the storage means stores the characteristic information of the content indicating the reference in each of the speech units indicated by the first and second speech unit information, respectively, in the first and second speech units.
  • the voice information generating unit generates the first and second synthesized voice information including the characteristic information, respectively, and the morphing unit stores the first and second synthesized voice information.
  • the method may be characterized in that the intermediate synthesized speech information is generated after matching the first and second synthesized speech information using a criterion indicated by the feature information included in each piece.
  • the criterion is a change point of an acoustic feature of each speech unit indicated by each of the first and second speech unit information.
  • the change point of the acoustic feature is a state transition point on the maximum likelihood path in which each speech unit indicated in each of the first and second speech unit information is represented by an HMM (Hidden Markov Model).
  • the morphing unit generates the intermediate synthesized speech information after matching the first and second synthesized speech information on the time axis using the state transition point.
  • the first and second synthesized speech information are matched using the above criterion to generate the intermediate synthesized speech information by the morphing means, for example, the first and second synthesized speech information are generated.
  • the criterion as the state transition point on the maximum likelihood path represented by the HMM (Hidden Markov Model), it is possible to accurately match the first and second synthesized speech information on the time axis. .
  • the voice synthesizing apparatus further stores in advance first image information indicating an image corresponding to the first voice quality and second image information indicating an image corresponding to the second voice quality. And intermediate image information indicating an image intermediate between the images indicated by the first and second image information and corresponding to the voice quality of the intermediate synthesized speech information.
  • Image morphing means for generating from the first and second image information, acquiring intermediate image information generated by the image morphing means, and outputting an image indicated by the intermediate image information to the audio output means.
  • Display means for displaying the synthesized speech in synchronization with the synthesized speech.
  • the first image information indicates a face image corresponding to the first voice quality
  • the second image information indicates a face image corresponding to the second voice quality.
  • the face image corresponding to the intermediate voice quality of the first and second voice qualities is displayed in synchronization with the output of the synthesized voice of the intermediate voice quality, so that the voice quality of the synthesized voice is changed to the face.
  • the expression can be conveyed to the user from the expression of the image, and the expression power can be improved.
  • the voice information generating means may sequentially generate each of the first and second synthesized voice information.
  • the voice information generating means may generate each of the first and second synthesized voice information in parallel.
  • the first and second synthesized speech information can be quickly generated, and as a result, the ability to acquire text data can also shorten the time until output of the synthesized speech.
  • the present invention relates to a method and a method for generating and outputting synthesized speech by the above-described speech synthesizer. And a storage medium for storing the program.
  • the speech synthesizing apparatus of the present invention has an effect that a synthesized speech having a high degree of freedom in voice quality and good voice quality can be generated as text data.
  • FIG. 1 is a configuration diagram showing a configuration of a speech synthesis device according to Embodiment 1 of the present invention.
  • FIG. 2 is an explanatory diagram for explaining an operation of the voice synthesizing unit of the above.
  • FIG. 3 is a screen display diagram showing an example of a screen displayed by a display of the voice quality designating unit of the above.
  • FIG. 4 is a screen display diagram showing an example of another screen displayed on the display of the voice quality designating section of the above.
  • FIG. 5 is an explanatory diagram for explaining a processing operation of the voice morphing unit according to the first embodiment
  • FIG. 6 is an exemplary diagram showing an example of the above speech unit and an HMM phoneme model.
  • FIG. 7 is a configuration diagram showing a configuration of a speech synthesizer according to a modification of the above.
  • FIG. 8 is a configuration diagram showing a configuration of a speech synthesis device according to Embodiment 2 of the present invention.
  • FIG. 9 is an explanatory diagram for describing a processing operation of the voice morphing unit according to the embodiment.
  • FIG. 10 is a diagram showing synthesized sound spectra of voice quality A and voice quality Z, and their corresponding short-time Fourier spectra.
  • FIG. 11 is an explanatory diagram for explaining how the spectrum morphing unit expands and contracts both short-time Fourier spectra on the frequency axis.
  • FIG. 12 is an explanatory diagram for explaining a state in which two short-time Fourier spectra whose powers have been converted are superimposed on each other.
  • FIG. 13 is a configuration diagram showing a configuration of a speech synthesis device according to Embodiment 3 of the present invention.
  • FIG. 14 is an explanatory diagram for describing a processing operation of the voice morphing unit of the above.
  • FIG. 15 is a configuration diagram showing a configuration of a speech synthesis device according to Embodiment 4 of the present invention.
  • FIG. 16 is an explanatory diagram for explaining an operation of the speech synthesizer of the above.
  • FIG. 1 is a configuration diagram showing a configuration of a speech synthesis device according to Embodiment 1 of the present invention.
  • the speech synthesis apparatus is for generating a synthesized speech having a high degree of freedom in voice quality and a good sound quality by text data power, and generates speech unit data relating to a plurality of speech units (phonemes).
  • a plurality of speech synthesis parameter values 11 corresponding to the character string shown in the text 10 is generated by using a plurality of speech synthesis DBlOla- ⁇ to be stored and the speech segment data stored in one speech synthesis DB.
  • Speech synthesis DBlOla- ⁇ has different voice qualities indicated by the speech unit data accumulated.
  • speech synthesis DBlOla stores speech unit data of a laughing voice quality
  • speech synthesis DBlOlz stores speech unit data of an angry voice quality.
  • the speech unit data in the present embodiment is represented in the form of a characteristic parameter value sequence of the speech generation model.
  • each piece of speech unit data to be stored is provided with label information indicating a start and end time of each speech unit indicated by these data and a time of a change point of the acoustic feature. .
  • the plurality of speech synthesis units 103 are respectively associated with the above-described speech synthesis DB in a one-to-one correspondence. The operation of the speech synthesizer 103 will be described with reference to FIG.
  • FIG. 2 is an explanatory diagram for explaining the operation of the speech synthesis unit 103.
  • the speech synthesis section 103 includes a language processing section 103a and a segment connection section 103b.
  • the language processing unit 103a acquires the text 10, and converts the character string indicated in the text 10 into phoneme information 10a.
  • the phoneme information 10a is a representation of the character string shown in the text 10 in the form of a phoneme string, and also includes information necessary for unit selection, combining, and transformation, such as accent position information and phoneme duration information. But.
  • the unit combining unit 103b extracts a portion relating to an appropriate speech unit from the associated speech unit data of the speech synthesis DB, and combines and extracts the extracted portion, thereby forming the language processing unit 103a. Then, a speech synthesis parameter value sequence 11 corresponding to the phoneme information 10a output by is generated.
  • the speech synthesis parameter value sequence 11 is an array of a plurality of feature parameter values including sufficient information necessary to generate an actual speech waveform.
  • the speech synthesis parameter value sequence 11 is configured to include five feature parameters as shown in FIG. 2 for each speech analysis / synthesis frame along the time series.
  • the five characteristic parameters are the fundamental frequency F0 of the speech, the first formant F1, the second formant F2, the duration of the speech analysis / synthesis frame FR, and the sound source strength PW. Also, as described above, speech unit data Since the label information is added, the label information is also added to the speech synthesis parameter value sequence 11 generated in this way.
  • the voice quality specifying unit 104 determines which voice synthesis parameter value sequence 11 is to be used and at what rate the voice morphing process is to be performed on the voice synthesis parameter value sequence 11 based on a user operation. Instruct the morphing unit 105. Further, voice quality designating section 104 changes the ratio along a time series.
  • the voice quality specifying unit 104 is also configured with a power such as a personal computer, and has a display for displaying a result of an operation performed by a user.
  • FIG. 3 is a screen display diagram showing an example of a screen displayed on the display of voice quality designating section 104.
  • FIG. 3 shows a voice quality icon 104A of voice quality A, a voice quality icon 104B of voice quality B, and a voice quality icon 104Z of voice quality Z among a plurality of voice quality icons.
  • Such a plurality of voice-quality icons are arranged such that the voice qualities indicated by the voices are similar to each other and closer to each other, and are further away from each other by similar voices.
  • the voice quality specification unit 104 displays a specification icon 104i that can be moved according to a user operation on such a display.
  • the voice-quality specifying unit 104 checks a voice-quality icon close to the specified icon 104i arranged by the user, and specifies, for example, the voice-quality icons 104A, 104B, and 104Z.
  • the voice morphing unit 105 is instructed to use the voice synthesis parameter value sequence 11 of B and the voice synthesis parameter value sequence 11 of voice quality Z. Further, the voice quality specifying unit 104 instructs the voice morphing unit 105 on a ratio corresponding to the relative arrangement of each voice quality icon 104A, 104B, 104Z and the specified icon 104i.
  • the voice quality specifying unit 104 checks the distance from the specified icon 10 ⁇ to each of the voice quality icons 104A, 104B, and 104Z, and specifies a ratio according to the distance.
  • voice quality specifying section 104 first obtains a ratio for generating an intermediate voice quality (temporary voice quality) between voice quality A and voice quality Z, and then specifies the designated icon from the temporary voice quality and voice quality B. The ratios for generating the voice quality indicated by the button 104i are obtained, and these ratios are indicated.
  • the voice quality specifying unit 104 calculates a straight line connecting the voice quality icon 104A and the voice quality icon 104Z and a straight line connecting the voice quality icon 104B and the specified icon 104i, and specifies the position 104t of the intersection of these straight lines. The voice quality indicated by this position 104t is the above-mentioned temporary voice quality.
  • the voice quality specifying unit 104 obtains the ratio of the distance from the position 104t to each voice quality icon 104A, 104Z.
  • the voice quality specifying unit 104 calculates the ratio of the distance from the specified icon 104i to the voice quality icon 104B and the position 104t, and indicates the two ratios thus obtained.
  • the user can easily input the similarity between the voice quality of the synthesized voice to be output from the speaker 107 and the preset voice quality. . Therefore, for example, when the user wants to output a synthesized voice close to the voice quality A by the speaker 107, the user operates the voice quality specifying unit 104 so that the specified icon 104i approaches the voice quality icon 104A.
  • the voice quality specification unit 104 continuously changes the above-described ratio in a time series according to an operation from the user.
  • FIG. 4 is a screen display diagram showing an example of another screen displayed on the display of voice quality specifying section 104.
  • the voice quality specifying unit 104 arranges three icons 21, 22, and 23 on the display in accordance with the operation by the user, and changes the icon 21 to the icon 23 through the icon 22. Identify the trajectory that will arrive. Then, the voice quality specifying unit 104 continuously changes the above-described ratio in a time series so that the specified icon 104i moves along the locus. For example, assuming that the length of the locus is L, the voice quality specifying unit 104 changes the ratio so that the specified icon 104i moves at a speed of 0.01 ⁇ L per second.
  • the voice morphing unit 105 performs voice morphing processing based on the voice synthesis parameter value sequence 11 specified by the voice quality specification unit 104 and the ratio.
  • FIG. 5 is an explanatory diagram for explaining the processing operation of the voice morphing unit 105.
  • the voice morphing unit 105 includes a parameter intermediate value calculation unit 105a and a waveform generation unit 105b, as shown in FIG.
  • the parameter intermediate value calculation unit 105a includes at least two parameters specified by the voice quality specification unit 104.
  • the speech synthesis parameter value sequence 11 and the ratio are specified, and an intermediate speech synthesis parameter value sequence 13 corresponding to the ratio is generated from the speech synthesis parameter value sequence 11 for each corresponding speech analysis / synthesis frame. .
  • the parameter intermediate value calculation unit 105a based on the specification of the voice quality specification unit 104, generates a voice synthesis parameter value sequence 11 of voice quality A, a voice synthesis parameter value sequence 11 of voice quality Z, and a ratio of 50:50.
  • the voice synthesis parameter value sequence 11 of the voice quality A and the voice synthesis parameter value sequence 11 of the voice quality Z are acquired from the voice synthesis unit 103 corresponding to each.
  • the parameter intermediate value calculation unit 105a includes, in the speech analysis / synthesis frames corresponding to each other, each feature parameter included in the speech synthesis parameter value sequence 11 of the voice quality A and the feature parameter included in the speech synthesis parameter value sequence 11 of the voice quality Z.
  • An intermediate value with each feature parameter is calculated at a ratio of 50:50, and the calculation result is generated as an intermediate voice synthesis parameter value sequence 13.
  • the value of the fundamental frequency F 0 of the speech synthesis parameter value sequence 11 for voice quality A is 300
  • the value of the fundamental frequency FO of the speech synthesis parameter value sequence 11 for voice quality Z is 300. If it is 280, the parameter intermediate value calculation unit 105a generates an intermediate speech synthesis parameter value sequence 13 in which the fundamental frequency F0 in the speech analysis / synthesis frame is 290.
  • the voice-designating unit 104 controls the voice-synthesis parameter value sequence 11 for the voice-quality A, the voice-synthesis parameter value sequence 11 for the voice-quality B, and the voice-synthesis parameter for the voice-quality Z.
  • a value sequence 11 is specified, and a ratio (eg, 3: 7) for generating a temporary voice quality intermediate between voice quality A and voice quality Z, and the temporary voice quality and voice quality B are indicated by the specified icon 104i.
  • the voice morphing unit 105 firstly converts the voice synthesis parameter value sequence 11 of the voice quality A and the voice synthesis parameter value sequence 11 of the voice quality Z into To perform voice morphing processing according to the ratio of 3: 7. Thereby, a speech synthesis parameter value sequence corresponding to the temporary voice quality is generated. Further, the voice morphing unit 105 performs a voice morphing process according to the ratio of 9: 1 using the previously generated voice synthesis parameter value sequence and the voice synthesis parameter value sequence 11 of voice quality B. As a result, an intermediate speech synthesis parameter value sequence 13 corresponding to the designated icon 104i is generated.
  • the voice morphing process according to the ratio of 3: 7 described above is a process of bringing the voice synthesis parameter value sequence 11 of voice quality A closer to the voice synthesis parameter value sequence 11 of voice quality Z by 3 Z (3 + 7).
  • voice quality This is the process of bringing the speech synthesis parameter value sequence 11 of Z closer to the speech synthesis parameter value sequence 11 of voice quality A by 7Z (3 + 7).
  • the generated speech synthesis parameter value sequence is more similar to the speech synthesis parameter value sequence 11 for voice quality A than the speech synthesis parameter value sequence 11 for voice quality Z.
  • the waveform generation unit 105b acquires the intermediate speech synthesis parameter value sequence 13 generated by the parameter intermediate value calculation unit 105a, and generates an intermediate synthesized sound waveform corresponding to the intermediate speech synthesis parameter value sequence 13.
  • the data 12 is generated and output to the speaker 107.
  • a synthesized voice corresponding to the intermediate voice synthesis parameter value sequence 13 is output from the speaker 107. That is, a synthesized voice of a voice quality intermediate between a plurality of voice qualities set in advance is output from the speed 107.
  • the parameter intermediate value calculation unit 105a performs the speech synthesis parameter value sequence of different voice qualities as described above.
  • a time axis alignment is performed in order to associate the voice analysis / synthesis frames.
  • the parameter intermediate value calculation unit 105a attempts to match the speech synthesis parameter value sequence 11 on the time axis based on the label information attached to the speech synthesis parameter value sequence 11.
  • the label information indicates the start and end times of each speech unit and the time of the change point of the acoustic feature as described above.
  • the change point of the acoustic feature is, for example, the state transition point of the maximum likelihood path indicated by the unspecified speaker HMM phoneme model corresponding to the speech unit.
  • FIG. 6 is an exemplary diagram showing an example of a speech unit and an HMM phoneme model.
  • a predetermined speech unit 30 is recognized by an unspecified speaker HMM phoneme model (hereinafter abbreviated as a phoneme model) 31, the phoneme model 31 is set to a start state (S
  • the shape 32 has a state transition from the state S1 to the state S2 from time 4 to time 5.
  • the part corresponding to the speech unit 30 of the speech unit data stored in the speech synthesis DBlOla- ⁇ includes the start time 1, the end time N of the speech unit 30, and the change point of the acoustic feature.
  • the label information indicating the time 5 is attached.
  • the parameter intermediate value calculation unit 105a performs expansion / contraction processing of the time axis based on the start time 1 and the end time N indicated in the label information and the time 5 of the conversion point of the acoustic feature. Do. That is, the parameter intermediate value calculation unit 105a linearly expands and contracts the time between the obtained speech synthesis parameter value sequences 11 so that the times indicated by the label information coincide with each other.
  • the metadata intermediate value calculation unit 105a can associate each speech analysis parameter synthesis sequence with each speech synthesis parameter value sequence 11. That is, time axis alignment can be performed. Also, in this embodiment, the time axis alignment is performed using the label information, so that the time axis alignment is performed more quickly than in the case where the time axis alignment is performed, for example, by pattern matching of each voice synthesis parameter value sequence 11. Axis alignment can be performed.
  • the parameter intermediate value calculating unit 105a outputs the ratio specified by the voice quality specifying unit 104 to the plurality of voice synthesis parameter value sequences 11 specified by the voice quality specifying unit 104. Since the voice morphing process is performed according to, the degree of freedom of the voice quality of the synthesized voice can be increased.
  • the voice morphing unit 105 is generated by the voice synthesis unit 103 based on the voice synthesis parameter value sequence 11 generated by the voice synthesis unit 103 based on the voice synthesis DB 101a of voice quality A and the voice synthesis DBlOlb of voice quality B.
  • the synthesized voice output from the speaker 107 can have a voice quality intermediate between the voice quality A, the voice quality B, and the voice quality C. Further, if the user operates the voice quality specifying unit 104 to bring the designated icon 104i closer to the voice quality icon 104A, the voice quality of the synthesized voice from which the output of the speaker 107 is output can be closer to voice quality A.
  • voice quality specifying section 104 of the present embodiment changes the voice quality of the synthesized voice output from speaker 107 along the time series in order to change the ratio along the time series according to the operation by the user. It can be changed smoothly.
  • the voice quality specifying unit 104 causes the specified icon 104i to move on the locus at a speed of 0.01 XL per second.
  • the synthesized voice is output from the speaker 107 such that the voice quality keeps changing smoothly for 100 seconds.
  • the quality of the synthesized voice can be maintained without breaking the voice as in the conventional example.
  • the intermediate value of the characteristic parameter corresponding to each of the speech synthesis parameter value sequences 11 having different voice qualities is calculated to generate the intermediate speech synthesis parameter value sequence 13. Compared with the case where two spectra are morphed, the sound quality of synthesized speech can be improved without erroneously specifying a reference portion, and the amount of calculation can be reduced. Further, in the present embodiment, by using the state transition point of the HMM, a plurality of speech synthesis parameter value strings 11 can be accurately matched on the time axis.
  • the acoustic characteristics are different between the first half and the second half based on the state transition point
  • the acoustic characteristics of the phonemes of voice quality B are different between the first half and the second half based on the state transition point.
  • phoneme information corresponding to voice quality required for force speech morphing processing in which each of a plurality of speech synthesis units 103 generates phoneme information 10a and speech synthesis parameter value sequence 11 is generated.
  • the process of causing only the language processing unit 103a of one speech synthesis unit 103 to generate phoneme information 10a and generating the speech synthesis The unit combining unit 103b of the combining unit 103 may be used.
  • FIG. 7 is a configuration diagram showing a configuration of a speech synthesizer according to the present modification.
  • the voice synthesizing device includes one voice synthesis unit 103c that generates a voice synthesis parameter value sequence 11 having different voice qualities.
  • the speech synthesis unit 103c acquires the text 10, converts the character string indicated in the text 10 into phoneme information 10a, and sequentially switches and refers to a plurality of speech synthesis DBlOla-—. Then, a speech synthesis parameter value sequence 11 of a plurality of voice qualities corresponding to the phoneme information 10a is sequentially generated.
  • the voice morphing unit 105 waits until the necessary voice synthesis parameter value sequence 11 is generated, and then generates the intermediate synthesized sound waveform data 12 by the same method as described above.
  • the voice quality specifying unit 104 instructs the voice synthesizing unit 103c to generate only the voice synthesis parameter value sequence 11 required by the voice morphing unit 105.
  • the waiting time of 105 can be shortened.
  • FIG. 8 is a configuration diagram showing a configuration of a speech synthesis device according to Embodiment 2 of the present invention.
  • the speech synthesis device of the present embodiment uses a frequency spectrum instead of speech synthesis parameter value sequence 11 of the first embodiment, and performs speech morphing processing using this frequency spectrum.
  • Such a speech synthesis apparatus uses a plurality of speech synthesis DBs 201a to 201z for storing speech unit data relating to a plurality of speech units, and speech unit data stored in one speech synthesis DB.
  • V a plurality of speech synthesis units 203 that generate a synthesized sound spectrum 41 corresponding to the character string shown in the text 10
  • a voice quality specification unit 104 that specifies the voice quality based on the operation by the user
  • the speech morphing unit 205 performs speech morphing processing using the synthesized speech spectrum 41 generated by the plurality of speech synthesis units 203 and outputs intermediate synthesized sound waveform data 12, based on the intermediate synthesized sound waveform data 12.
  • a speaker 107 for outputting a synthesized voice is provided.
  • the voice quality indicated by the speech unit data stored in each of the plurality of speech synthesis DBs 201a to 201z is different from the speech synthesis DBlOla in the first embodiment.
  • the speech unit data in the present embodiment is represented in the form of a frequency spectrum.
  • the plurality of speech synthesis units 203 are respectively associated one-to-one with the speech synthesis DB. Then, each speech synthesis unit 203 acquires the text 10 and converts the character string indicated in the text 10 into phoneme information. Further, the speech synthesis unit 203 extracts a portion related to the speech unit data of the associated speech synthesis DB, and combines and transforms the extracted portion to obtain the previously generated phoneme.
  • a synthesized sound spectrum 41 which is a frequency spectrum corresponding to the information, is generated.
  • Such a synthesized sound spectrum 41 may be in the form of a Fourier analysis result of speech or in a form in which cepstrum parameter values of speech are arranged in time series.
  • voice quality specifying section 104 uses any synthesized voice spectrum 41 and performs voice morphing processing on synthesized voice spectrum 41 at any ratio based on a user operation. Is instructed to the voice morphing unit 205. In addition, voice quality designation section 10
  • Speech morphing section 205 in the present embodiment obtains synthesized speech spectrum 41 output from a plurality of speech synthesis sections 203, generates a synthesized speech spectrum having intermediate properties thereof, Then, the synthesized sound spectrum having the intermediate property is transformed into intermediate synthesized sound waveform data 12 and output.
  • FIG. 9 is an explanatory diagram for describing a processing operation of audio morphing section 205 in the present embodiment.
  • the voice morphing unit 205 includes a spectrum morphing unit 205a and a waveform generation unit 205b.
  • Spectrum morphing section 205a specifies at least two synthesized sound spectrums 41 and the ratio specified by voice quality specifying section 104, and uses the synthesized sound spectrum 41 to perform intermediate synthesis according to the ratio. Generate the sound spectrum 42.
  • the spectrum morphing unit 205a selects two or more synthesized sound spectra 41 specified by the voice quality specifying unit 104 from the plurality of synthesized sound spectra 41. And, The vector morphing unit 205a extracts a formant shape 50 indicating the characteristics of the shape of the synthesized sound spectrum 41, and converts the formant shape 50 as closely as possible to each synthesized sound spectrum 41. After the addition, each synthesized sound spectrum 41 is superimposed.
  • the characteristic of the shape of the synthesized sound spectrum 41 described above does not have to be a formant shape, and may be, for example, a character that appears to be stronger than a certain extent and that can trace its trajectory continuously.
  • the formant shape 50 schematically represents the characteristics of the spectrum shape of each of the synthesized sound spectrum 41 of the voice quality A and the synthesized sound spectrum 41 of the voice quality Z.
  • the spectrum morphing unit 205a specifies the synthesized sound spectrum 41 of the voice quality A and the voice quality Z and the ratio of 4: 6 based on the specification from the voice quality specification unit 104, A synthesized sound spectrum 41 of A and a synthesized sound spectrum 41 of voice quality Z are acquired, and a formant shape 50 is extracted from the synthesized sound spectrum 41.
  • the spectrum morphing unit 205a performs the synthesized sound start of voice A so that the formant shape 50 of the synthesized sound spectrum 41 of voice A approaches 40% of the formant shape 50 of the synthesized sound vector 41 of voice Z. Is expanded and contracted on the frequency axis and the time axis.
  • the spectrum morphing unit 205a performs the synthesized sound spectrum of the voice quality Z such that the formant shape 50 of the synthesized sound spectrum 41 of the voice quality Z approaches the formant shape 50 of the synthesized sound spectrum 41 of the voice quality A by 60%. 41 is expanded and contracted on the frequency axis and the time axis. Finally, the spectrum morphing unit 205a sets the power of the synthesized voice spectrum 41 of the voice quality A that has undergone expansion / contraction processing to 60% and the power of the synthesized voice spectrum 41 of the voice quality Z that has undergone expansion processing to 40%. Then, the synthesized speech vectors 41 are superimposed. As a result, the voice morphing process of the synthesized voice spectrum 41 of the voice quality A and the synthesized voice spectrum 41 of the voice quality Z is performed at a ratio of 4: 6, and an intermediate synthesized voice vector 42 is generated.
  • FIG. 10 is a diagram showing a synthesized sound spectrum 41 of voice quality A and voice quality Z, and a corresponding short-time Fourier spectrum.
  • Spectrum morphing section 205a is composed of synthesized sound spectrum 41 of voice quality A and synthesized sound of voice quality Z.
  • the voice morphing process with the spectrum 41 at a ratio of 4: 6, first, as described above, in order to bring the formant shapes 50 of these synthesized sound spectra 41 closer to each other, the time axis alignment of each synthesized sound spectrum 41 is made. Do.
  • Such a time axis alignment is realized by performing pattern matching between the formant shapes 50 of each synthesized sound spectrum 41. It should be noted that pattern matching may be performed using other characteristic amounts relating to each synthesized sound spectrum 41 or the formant shape 50.
  • the spectrum morphing unit 205a has the formant shape 50 of both synthesized sound spectra 41!
  • the two synthesized sound spectra 41 are expanded and contracted on the time axis so that the times coincide with each other. This implements a time axis alignment.
  • the frequencies 50a and 50b of the formant shape 50 are displayed so as to be different from each other.
  • spectrum morphing section 205a performs expansion / contraction processing on the frequency axis based on formant shape 50 at each time of the aligned voice. That is, the spectrum morphing unit 205a expands and contracts both short-time Fourier spectra 41a on the frequency axis so that the short-time Fourier spectra 41a of the voice quality A and the voice quality B at each time match the frequencies 50a and 50b.
  • FIG. 11 is an explanatory diagram for explaining how the spectrum morphing unit 205a expands and contracts both short-time Fourier spectra 41a on the frequency axis.
  • the spectrum morphing unit 205a is configured to approach the frequencies 50a and 50b on the short-time Fourier spectrum 41a of the voice quality Z by 0% in frequency 50a and 50b on the short-time Fourier spectrum 41a of the voice quality A. Then, the short-time Fourier spectrum 41a of the voice quality A is expanded and contracted on the frequency axis to generate an intermediate short-time Fourier spectrum 41b. Similarly, the spectrum morphing section 205a approaches the frequencies 50a and 50b on the short-time Fourier spectrum 41a of the voice quality A by 60% at the frequencies 50a and 50b on the short-time Fourier spectrum 41a of the voice quality Z.
  • the short-time Fourier spectrum 41a of the voice quality Z is expanded and contracted on the frequency axis to generate an intermediate short-time Fourier spectrum 41b.
  • the result is an intermediate short-time Fourier spectrum In 41b, the frequencies of the formant shape 50 are aligned with the frequencies fl and f2.
  • the frequencies 50a, 50b of the formant shape 50 on the short-time Fourier spectrum 41a of the voice quality A are 00Hz and 3000Hz, and the frequencies 50a, 50b of the short-form shape 50 on the short-time Fourier spectrum 41a of the voice quality Z.
  • the explanation is based on the assumption that the force is 400 Hz and 4000 Hz, and the Nyquist frequency of each composite sound is 11025 Hz.
  • 500-3000Hz force S 500 + (400-500) X 0.4
  • the frequencies of the formant shape 50 are aligned with the frequencies fl and f2.
  • spectrum morphing section 205a deforms the power of both short-time Fourier spectra 41b subjected to such deformation on the frequency axis. That is, the spectrum morphing unit 205a converts the power of the short-time Fourier spectrum 41b of the voice quality A to 60%, and converts the power of the short-time Fourier spectrum 41b of the voice quality Z to 40%. Then, the spectrum morphing unit 205a superimposes these power-converted short-time Fourier vectors as described above.
  • FIG. 12 is an explanatory diagram for explaining a state in which two short-time Fourier spectra whose power has been converted are superimposed.
  • the spectrum morphing section 205a outputs the voice whose power has been converted.
  • the short-time Fourier spectrum 41c of the quality A and the short-time Fourier spectrum 41c of the voice quality B whose power has been similarly converted are overlapped to generate a new short-time Fourier spectrum 41d.
  • the spectrum morphing unit 205a superimposes the short-time Fourier spectra 41c in a state where the above-mentioned frequencies fl and f2 of the short-time Fourier spectra 41c match each other.
  • spectrum morphing section 205a generates short-time Fourier spectrum 4Id as described above at each time when the time axes of both synthesized sound spectra 41 are aligned.
  • the voice morphing process of the synthesized voice spectrum 41 of voice quality A and the synthesized voice spectrum 41 of voice quality Z is performed at a ratio of 4: 6, and an intermediate synthesized voice spectrum 42 is generated.
  • the waveform generation unit 205b of the voice morphing unit 205 converts the intermediate synthesized sound spectrum 42 generated by the spectrum morphing unit 205a into the intermediate synthesized sound waveform data 12 as described above. Is output to the speaker 107. As a result, a synthesized speech corresponding to the intermediate synthesized sound spectrum 42 is output from the speaker 107.
  • the spectrum morphing unit extracts a formant shape 50 indicating the feature of the shape from the synthesized sound spectrum 41 and uses the formant shape 50 stored in the speech synthesis DB in advance. The position of the control point is read out, and the spline curve is used instead of the formant shape 50.
  • the formant shape 50 corresponding to each speech unit is regarded as a plurality of spline curves on a two-dimensional plane of frequency versus time, and the positions of the control points of the spline curves are stored in advance in the speech synthesis DB. deep.
  • the spectrum morphing unit according to the present modification does not bother to extract the formant shape 50 from the synthesized sound spectrum 41, but rather stores the formant shape 50 in advance in the speech synthesis DB. V. Since the conversion processing on the time axis and the frequency axis is performed using the spline curve indicated by the position of the control point, the conversion processing can be performed quickly.
  • FIG. 13 is a configuration diagram showing a configuration of a speech synthesis device according to Embodiment 3 of the present invention.
  • the speech synthesis device of the present embodiment uses a speech waveform instead of speech synthesis parameter value sequence 11 of the first embodiment and synthesized speech spectrum 41 of the second embodiment, and uses this speech waveform for speech morphing. Perform processing.
  • Such a speech synthesis device uses a plurality of speech synthesis DBs 301a to 301z for storing speech unit data relating to a plurality of speech units, and speech unit data stored in one speech synthesis DB.
  • a plurality of speech synthesizers 303 that generate synthesized sound waveform data 61 corresponding to the character string shown in the text 10
  • a voice quality specifying unit 104 that specifies voice quality based on a user operation
  • the voice morphing unit 305 that performs voice morphing processing using the synthesized sound waveform data 61 generated by the plurality of voice synthesis units 303 and outputs intermediate synthesized sound waveform data 12 and the intermediate synthesized sound waveform data 12
  • a speaker 107 for outputting synthesized speech.
  • the voice quality indicated by the speech unit data stored in each of the plurality of speech synthesis DBs 301a to 301z is different from the speech synthesis DBlOla in the first embodiment.
  • the speech unit data in the present embodiment is represented in the form of a speech waveform.
  • the plurality of speech synthesis units 303 are respectively associated with the above-described speech synthesis DB on a one-to-one basis. Then, each speech synthesis unit 303 acquires the text 10 and converts the character string indicated in the text 10 into phoneme information. Furthermore, the speech synthesis unit 303 extracts a portion related to the speech unit data of the associated speech synthesis DB and combines and extracts the extracted portion to obtain the phoneme generated earlier. Generate synthetic waveform data 61 as a voice waveform corresponding to the information.
  • voice quality specifying section 104 uses any synthesized sound waveform data 61 based on a user's operation, and determines what proportion of the synthesized sound waveform data 61 The voice morphing unit 305 is instructed whether to perform the morphing process. Further, voice quality designating section 104 changes the ratio along a time series.
  • Speech morphing section 305 in the present embodiment acquires synthesized sound waveform data 61 output from a plurality of speech synthesis sections 303, and generates intermediate synthesized sound waveform data 12 having intermediate properties. And output.
  • FIG. 14 is an explanatory diagram for describing a processing operation of voice morphing section 305 in the present embodiment.
  • the voice morphing unit 305 includes a waveform editing unit 305a.
  • the waveform editing unit 305a specifies at least two synthesized sound waveform data 61 specified by the voice quality specifying unit 104 and a ratio, and, based on the synthesized sound waveform data 61, an intermediate synthesized sound waveform corresponding to the ratio. Generate data 12.
  • the waveform editing unit 305a selects two or more synthesized sound waveform data 61 specified by the voice quality specification unit 104 from the plurality of synthesized sound waveform data 61. Then, in accordance with the ratio specified by the voice quality specifying unit 104, the waveform editing unit 305a applies, for example, the pitch frequency, amplitude, The duration of each voiced section in each voice is modified.
  • the waveform editing unit 304a generates the intermediate synthesized sound waveform data 12 by superimposing the synthesized sound waveform data 61 thus deformed.
  • the speaker 107 acquires the intermediate synthesized sound waveform data 12 generated in this manner from the waveform editing unit 304a, and outputs a synthesized voice corresponding to the intermediate synthesized sound waveform data 12.
  • FIG. 15 is a configuration diagram showing a configuration of a speech synthesis device according to Embodiment 4 of the present invention.
  • the voice synthesizing apparatus displays a face image according to the voice quality of a synthesized voice to be output, and includes components included in the first embodiment and images related to a plurality of face images.
  • the image morphing process is performed using the information of the stored face images, the image morphing unit 405 that outputs the intermediate face image data 12p, and the intermediate face image data 12p is obtained from the image morphing unit 405, and the A display unit 407 for displaying a face image corresponding to the intermediate face image data 12p is provided.
  • the facial expressions of the facial images indicated by the image information stored in each of the image DBs 401a to 401z are different.
  • image information on a face image of an angry expression is accumulated.
  • the image information of the face image stored in the image DB 401a-401z includes image information for controlling the impression of the facial expression represented by the face image, such as the eyebrows, the ends of the mouth, the center, and the center of the eyes.
  • the image morphing unit 405 acquires image information from the image DB associated with each voice quality of each synthesized voice parameter value sequence 102 specified by the voice quality specifying unit 104. Then, the image morphing unit 405 performs an image morphing process in accordance with the ratio specified by the voice quality specifying unit 104 using the obtained image information.
  • the image morphing unit 405 indicates the position of the feature point of the face image indicated by the acquired one image information by the other acquired image information by the ratio designated by the voice quality designation unit 104. Similarly, one of the face images is probed so as to be displaced to the position of the feature point of the face image to be moved. Similarly, the position of the feature point of the other face image is determined by the ratio specified by the voice quality specifying unit 104. However, the other face image is probed so as to be displaced to the position of the feature point of one face image. Then, the image morphing unit 405 cross-dissolves each of the singed face images in accordance with the ratio specified by the voice quality specifying unit 104, thereby generating intermediate face image data 12p.
  • the speech synthesizer performs the voice morphing between the normal voice and the angry voice of the agent, and generates the synthesized voice with a slightly angry voice quality at the same ratio as the voice morphing.
  • the image morphing between the normal face image and the angry face image is performed, and a slightly angry face image suitable for the synthesized voice of the agent is displayed.
  • a slightly angry face image suitable for the synthesized voice of the agent is displayed.
  • FIG. 16 is an explanatory diagram for describing the operation of the speech synthesis device according to the present embodiment.
  • the specified icon 104i on the display shown in FIG. 3 is arranged at a position where the line segment connecting the voice quality icons 1048 and 104 ⁇ is divided into 4: 6.
  • the voice synthesizer performs voice morphing processing according to the ratio of 4: 6 of the voice quality A and voice quality Z so that the synthesized voice output from the speaker 107 is closer to voice quality A by 10%.
  • a synthesized voice of voice quality X which is intermediate between voice quality A and voice quality B, is output.
  • the speech synthesizer performs the image morphing process according to the same ratio of 4: 6 as the above-mentioned ratio, by using the face image P1 associated with the voice quality A and the face image P2 associated with the voice quality Z. To generate and display an intermediate face image P3 of these images.
  • the speech synthesizer determines the positions of the feature points such as the eyebrows and the mouth edges of the face image P1 by using the feature points such as the eyebrows and the mouth edges of the face image P2.
  • the face image P1 is probed so as to change at a rate of 40% toward the position of the face image P2, and similarly, the position of the feature point of the face image P2 is shifted to the position of the feature point of the face image P1.
  • the face image P2 so that it changes at a rate of 60%.
  • the image morphing unit 405 cross-dissolves the rubbed face image P1 at a rate of 60% and the rubbed face image P2 at a rate of 40%, and as a result, converts the face image P3. Generate.
  • the voice synthesizing apparatus of the present embodiment displays a face image of "angry” on display unit 407.
  • a face image of “crying” is displayed on the display unit 407.
  • the voice synthesis device of the present embodiment is intermediate between its voice quality ⁇ angry 'and' crying ', the face image' angry!
  • the voice quality changes from“ angry! /, ”To“ crying! /
  • An intermediate face image is changed with time according to its voice quality.
  • image morphing can be performed by various other methods. Any method can be used as long as the target image can be specified by specifying the ratio between.
  • the present invention has an effect that a synthetic voice having a high degree of freedom in voice quality and a good sound quality can be generated as text data, and is applied to a voice synthesizer or the like that outputs a synthetic voice expressing emotion to a user. can do.

Abstract

 声質の自由度が広く良い音質の合成音声をテキストデータから生成する音声合成装置を提供する。  音声合成装置は、音声合成DB(101a,101z)と、テキスト(10)を取得するとともに、音声合成DB(101a)から、テキスト(10)に含まれる文字に対応した声質Aの音声合成パラメタ値列(11)を生成する音声合成部(103)と、音声合成DB(101z)から、テキスト(10)に含まれる文字に対応した声質Zの音声合成パラメタ値列(11)を生成する音声合成部(103)と、声質A及び声質Zの音声合成パラメタ値列(11)から、テキスト(10)に含まれる文字に対応した、声質A及び声質Zの中間的な声質の合成音声を示す中間的音声合成パラメタ値列(13)を生成する音声モーフィング部(105)と、生成された中間的音声合成パラメタ値列(13)をその合成音声に変換して出力するスピーカ(107)とを備える。  

Description

明 細 書
音声合成装置
技術分野
[0001] 本発明は、合成音声を生成して出力する音声合成装置に関する。
背景技術
[0002] 従来より、所望の合成音声を生成して出力する音声合成装置が提供されている (例 えば、特許文献 1、特許文献 2、及び特許文献 3参照。 )0
[0003] 特許文献 1の音声合成装置は、それぞれ声質の異なる複数の音声素片データべ ースを備え、これらの音声素片データベースを切り替えて用いることにより、所望の合 成音声を生成して出力する。
[0004] また、特許文献 2の音声合成装置 (音声変形装置)は、音声分析結果のスペクトル を変換することにより、所望の合成音声を生成して出力する。
[0005] また、特許文献 3の音声合成装置は、複数の波形データをモーフイング処理するこ とにより、所望の合成音声を生成して出力する。
特許文献 1:特開平 7-319495号公報
特許文献 2:特開 2000— 330582号公報
特許文献 3:特開平 9- 50295号公報
発明の開示
発明が解決しょうとする課題
[0006] しかしながら、上記特許文献 1及び特許文献 2並びに特許文献 3の音声合成装置 では、声質変換の自由度が狭力つたり、音質の調整が非常に困難であるという問題 がある。
[0007] 即ち、特許文献 1では、合成音声の声質が予め設定された声質に限られ、その予 め設定された声質間の連続的な変化を表現することができない。
[0008] また、特許文献 2では、スペクトルのダイナミックレンジを大きくしてしまうと音質に破 綻が生じてしまい、良い音質を維持するのが困難となる。
[0009] さらに、特許文献 3では、複数の波形データの互いに対応する部位 (例えば波形の ピーク)を特定して、その部位を基準にモーフイング処理を行うが、その部位を誤って 特定してしまうことがある。その結果、生成された合成音声の音質が悪くなつてしまう そこで、本発明は、このような問題に鑑みてなされたものであって、声質の自由度が 広く良 ヽ音質の合成音声をテキストデータカゝら生成する音声合成装置を提供するこ とを目的とする。
課題を解決するための手段
[0010] 上記目的を達成するために、本発明に係る音声合成装置は、第 1の声質に属する 複数の音声素片に関する第 1の音声素片情報、及び前記第 1の声質と異なる第 2の 声質に属する複数の音声素片に関する第 2の音声素片情報を予め記憶している記 憶手段と、テキストデータを取得するとともに、前記記憶手段の第 1の音声素片情報 から、前記テキストデータに含まれる文字に対応した前記第 1の声質の合成音声を示 す第 1の合成音声情報を生成し、前記記憶手段の第 2の音声素片情報から、前記テ キストデータに含まれる文字に対応した前記第 2の声質の合成音声を示す第 2の合 成音声情報を生成する音声情報生成手段と、前記音声情報生成手段により生成さ れた前記第 1及び第 2の合成音声情報から、前記テキストデータに含まれる文字に対 応した、前記第 1及び第 2の声質の中間的な声質の合成音声を示す中間合成音声 情報を生成するモーフイング手段と、前記モーフイング手段によって生成された前記 中間合成音声情報を前記中間的な声質の合成音声に変換して出力する音声出力 手段とを備え、前記音声情報生成手段は、前記第 1及び第 2の合成音声情報をそれ ぞれ複数の特徴パラメタの列として生成し、前記モーフイング手段は、前記第 1及び 第 2の合成音声情報の互 、に対応する特徴パラメタの中間値を計算することで、前 記中間合成音声情報を生成することを特徴とする。
[0011] これにより、第 1の声質に対する第 1の音声素片情報、及び第 2の声質に対する第 2 の音声素片情報だけを記憶手段に予め記憶させておけば、第 1及び第 2の声質の中 間的な声質の合成音声が出力されるため、記憶手段に予め記憶させておく内容の 声質に限定されずに声質の自由度を広めることができる。また、第 1及び第 2の声質 を有する第 1及び第 2の合成音声情報を基礎に中間合成音声情報が生成されるた め、従来例のようにスペクトルのダイナミックレンジを大きくしすぎるような処理がなさ れず、合成音声の音質を良い状態に維持することができる。また、本発明に係る音声 合成装置は、テキストデータを取得して、そこに含まれる文字列に応じた合成音声を 出力するため、ユーザに対する使い勝手を向上することができる。さらに、本発明に 係る音声合成装置は、第 1及び第 2の合成音声情報の互いに対応する特徴パラメタ の中間値を計算して中間合成音声情報を生成するため、従来例のように 2つのスぺ タトルをモーフイング処理する場合と比べて、基準とする部位を誤って特定してしまう ことなぐ合成音声の音質を良くすることができ、さらに、計算量を軽減することができ る。
[0012] ここで、前記モーフイング手段は、前記音声出力手段から出力される合成音声の声 質がその出力中に連続的に変化するように、前記第 1及び第 2の合成音声情報の前 記中間合成音声情報に対して寄与する割合を変化させることを特徴としても良い。
[0013] これにより、合成音声の出力中にその合成音声の声質が連続的に変化するため、 例えば、平常声力 怒り声に連続的に変化するような合成音声を出力することができ る。
[0014] また、前記記憶手段は、前記第 1及び第 2の音声素片情報のそれぞれにより示され る各音声素片における基準を示す内容の特徴情報を、前記第 1及び第 2の音声素 片情報のそれぞれに含めて記憶しており、前記音声情報生成手段は、前記第 1及び 第 2の合成音声情報を、それぞれに前記特徴情報を含めて生成し、前記モーフイン グ手段は、前記第 1及び第 2の合成音声情報を、それぞれに含まれる前記特徴情報 によって示される基準を用いて整合した上で前記中間合成音声情報を生成すること を特徴としても良い。例えば、前記基準は、前記第 1及び第 2の音声素片情報のそれ ぞれにより示される各音声素片の音響的特徴の変化点である。また、前記音響的特 徴の変化点は、前記第 1及び第 2の音声素片情報のそれぞれに示される各音声素 片を HMM (Hidden Markov Model)で表した最尤経路上の状態遷移点であって、前 記モーフイング手段は、前記第 1及び第 2の合成音声情報を、前記状態遷移点を用 V、て時間軸上で整合した上で前記中間合成音声情報を生成する。
[0015] これにより、モーフイング手段による中間合成音声情報の生成に、第 1及び第 2の合 成音声情報が上述の基準を用いて整合されるため、例えば第 1及び第 2の合成音声 情報をパターンマッチングなどによって整合するような場合と比べ、迅速に整合を図 つて中間合成音声情報を生成することができ、その結果、処理速度を向上することが できる。また、その基準を HMM (Hidden Markov Model)で表した最尤経路上の状態 遷移点とすることで、第 1及び第 2の合成音声情報を時間軸上で正確に整合させるこ とがでさる。
[0016] また、前記音声合成装置は、さらに、前記第 1の声質に対応する画像を示す第 1の 画像情報、及び前記第 2の声質に対応する画像を示す第 2の画像情報を予め記憶 している画像記憶手段と、前記第 1及び第 2の画像情報のそれぞれにより示される画 像の中間的な画像であって、前記中間合成音声情報の声質に対応する画像を示す 中間画像情報を、前記第 1及び第 2の画像情報から生成する画像モーフイング手段 と、前記画像モーフイング手段により生成された中間画像情報を取得して、前記中間 画像情報により示される画像を、前記音声出力手段力も出力される合成音声に同期 させて表示する表示手段とを備えることを特徴としても良い。例えば、前記第 1の画像 情報は前記第 1の声質に対応する顔画像を示し、前記第 2の画像情報は前記第 2の 声質に対応する顔画像を示す。
[0017] これにより、第 1及び第 2の声質の中間的な声質に対応する顔画像が、その中間的 な声質の合成音声の出力と同期して表示されるため、合成音声の声質を顔画像の 表情からもユーザに伝えることができ、表現力の向上を図ることができる。
[0018] ここで、前記音声情報生成手段は、前記第 1及び第 2の合成音声情報のそれぞれ を順次生成することを特徴としても良い。
[0019] これにより、音声情報生成手段の単位時間あたりの処理負担を軽減することができ 、音声情報生成手段の構成を簡単にすることができる。その結果、装置全体を小型 化することができるとともに、コスト低減を図ることができる。
[0020] また、前記音声情報生成手段は、前記第 1及び第 2の合成音声情報のそれぞれを 並列に生成することを特徴としても良 、。
[0021] これにより、第 1及び第 2の合成音声情報を迅速に生成することができ、その結果、 テキストデータの取得力も合成音声の出力までの時間を短縮することができる。
[0022] なお、本発明は、上述の音声合成装置の合成音声を生成して出力する方法やプロ グラム、そのプログラムを格納する記憶媒体としても実現することができる。
発明の効果
[0023] 本発明の音声合成装置では、声質の自由度が広く良い音質の合成音声をテキスト データ力 生成することができるという効果を奏する。
図面の簡単な説明
[0024] [図 1]図 1は、本発明の実施の形態 1に係る音声合成装置の構成を示す構成図であ る。
[図 2]図 2は、同上の音声合成部の動作を説明するための説明図である。
[図 3]図 3は、同上の声質指定部のディスプレイが表示する画面の一例を示す画面表 示図である。
[図 4]図 4は、同上の声質指定部のディスプレイが表示する他の画面の一例を示す画 面表示図である。
[図 5]図 5は、同上の音声モーフイング部の処理動作を説明するための説明図である
[図 6]図 6は、同上の音声素片と HMM音素モデルの一例を示す例示図である。
[図 7]図 7は、同上の変形例に係る音声合成装置の構成を示す構成図である。
[図 8]図 8は、本発明の実施の形態 2に係る音声合成装置の構成を示す構成図であ る。
[図 9]図 9は、同上の音声モーフイング部の処理動作を説明するための説明図である
[図 10]図 10は、同上の声質 A及び声質 Zの合成音スペクトルと、それらに対応する短 時間フーリエスペクトルとを示す図である。
[図 11]図 11は、同上のスペクトルモーフイング部が両短時間フーリエスペクトルを周 波数軸上で伸縮する様子を説明するための説明図である。
[図 12]図 12は、同上のパワーが変換された 2つの短時間フーリエスペクトルを重ね合 わせる様子を説明するための説明図である。
[図 13]図 13は、本発明の実施の形態 3に係る音声合成装置の構成を示す構成図で ある。 [図 14]図 14は、同上の音声モーフイング部の処理動作を説明するための説明図であ る。
[図 15]図 15は、本発明の実施の形態 4に係る音声合成装置の構成を示す構成図で ある。
[図 16]図 16は、同上の音声合成装置の動作を説明するための説明図である。
符号の説明
10 テキスト
10a 音素情報
11 音声合成パラメタ値列
12 中間的合成音波形データ
12p 中間的顔画像データ
13 中間的音声合成パラメタ値列
30 音声素片
31 音素モデル
32 最尤パスの形状
41 合成音スぺ外ル
42 中間的合成音スペクトル
50 フォルマント形状
50a, 50b 周波数
51 フーリエスペクトル分析窓
61 合成音波形データ
101a一 ΙΟΙζ 音声合成 DB
103 音声合成部
103a 言語処理部
103b 素片結合部
104 声質指定部
104A, 104B, 104Z 声質アイコン
1041 指定アイコン 105 音声モーフイング部
105a パラメタ中間値計算部
105b 波形生成部
106 中間的合成音波形データ
107 スピーカ
203 音声合成部
201a— 201z 音声合成 DB
205 音声モーフイング部
205a スペクトルモーフイング部
205b 波形生成部
303 音声合成部
301a— 301z 音声合成 DB
305 音声モーフイング部
305a 波形編集部
40 la— 401 z 画像 DB
405 画像モーフイング部
407 表示部
P1— P3 顔画像
発明を実施するための最良の形態
[0026] 以下、本発明の実施の形態について図面を用いて詳細に説明する。
(実施の形態 1)
図 1は、本発明の実施の形態 1に係る音声合成装置の構成を示す構成図である。
[0027] 本実施の形態の音声合成装置は、声質の自由度が広く良い音質の合成音声をテ キストデータ力 生成するものであって、複数の音声素片 (音素)に関する音声素片 データを蓄積する複数の音声合成 DBlOla— ΙΟΙζと、 1つの音声合成 DBに蓄積さ れた音声素片データを用いることにより、テキスト 10に示される文字列に対応する音 声合成パラメタ値列 11を生成する複数の音声合成部 (音声情報生成手段) 103と、 ユーザによる操作に基づいて声質を指定する声質指定部 104と、複数の音声合成 部 103により生成された音声合成パラメタ値列 11を用いて音声モーフイング処理を 行い、中間的合成音波形データ 12を出力する音声モーフイング部 105と、中間的合 成音波形データ 12に基づいて合成音声を出力するスピーカ 107とを備えている。
[0028] 音声合成 DBlOla— ΙΟΙζのそれぞれが蓄積する音声素片データの示す声質は 異なっている。例えば、音声合成 DBlOlaには、笑っている声質の音声素片データ が蓄積され、音声合成 DBlOlzには、怒っている声質の音声素片データが蓄積され ている。また、本実施の形態における音声素片データは、音声生成モデルの特徴パ ラメタ値列の形式で表現されている。さらに、蓄積される各音声素片データには、これ らのデータにより示される各音声素片の開始及び終了の時刻と、音響的特徴の変化 点の時刻とを示すラベル情報が付されている。
[0029] 複数の音声合成部 103は、それぞれ上述の音声合成 DBと一対一に対応付けられ ている。このような音声合成部 103の動作について図 2を参照して説明する。
[0030] 図 2は、音声合成部 103の動作を説明するための説明図である。
音声合成部 103は、図 2に示すように、言語処理部 103aと素片結合部 103bとを備 えている。
[0031] 言語処理部 103aは、テキスト 10を取得して、テキスト 10に示される文字列を音素 情報 10aに変換する。音素情報 10aは、テキスト 10に示される文字列が音素列の形 で表現されたもので、他にアクセント位置情報や音素継続長情報など、素片選択'結 合 ·変形に必要な情報を含んでもょ 、。
[0032] 素片結合部 103bは、対応付けられた音声合成 DBの音声素片データから適切な 音声素片に関する部分を抜き出して、抜き出した部分の結合と変形を行うことにより、 言語処理部 103aにより出力される音素情報 10aに対応する音声合成パラメタ値列 1 1を生成する。音声合成パラメタ値列 11は、実際の音声波形を生成するために必要 となる十分な情報を含んだ複数の特徴パラメタの値が配列されたものである。例えば 、音声合成パラメタ値列 11は、時系列に沿った各音声分析合成フレームごとに、図 2 に示すような、 5つの特徴パラメタを含んで構成される。 5つの特徴パラメタとは、音声 の基本周波数 F0と、第一フォルマント F1と、第二フォルマント F2と、音声分析合成フ レーム継続長 FRと、音源強度 PWとである。また、上述のように音声素片データには ラベル情報が付されて ヽるので、このように生成される音声合成パラメタ値列 11にも ラベル情報が付されている。
[0033] 声質指定部 104は、ユーザによる操作に基づき、何れの音声合成パラメタ値列 11 を用い、その音声合成パラメタ値列 11に対してどのような割合で音声モーフイング処 理を行うかを音声モーフイング部 105に指示する。さらに、声質指定部 104はその割 合を時系列に沿って変化させる。このような声質指定部 104は、例えばパーソナルコ ンピュータなど力も構成され、ユーザにより操作された結果を表示するディスプレイを 備えている。
[0034] 図 3は、声質指定部 104のディスプレイが表示する画面の一例を示す画面表示図 である。
[0035] ディスプレイには、音声合成 DB10 la— 10 lzの声質を示す複数の声質アイコンが 表示されている。なお図 3では、複数の声質アイコンのうち、声質 Aの声質アイコン 10 4Aと、声質 Bの声質アイコン 104Bと、声質 Zの声質アイコン 104Zとを示す。このよう な複数の声質アイコンは、それぞれの示す声質が似て!、るものほど互いに近寄るよう に配置され、似て 、な 、ものほど互 、に離れるように配置される。
[0036] ここで、声質指定部 104は、このようなディスプレイ上に、ユーザによる操作に応じ て移動可能な指定アイコン 104iを表示する。
[0037] 声質指定部 104は、ユーザによって配置された指定アイコン 104iから近い声質ァ イコンを調べ、例えば声質アイコン 104A, 104B, 104Zを特定すると、声質 Aの音 声合成パラメタ値列 11と、声質 Bの音声合成パラメタ値列 11と、声質 Zの音声合成パ ラメタ値列 11とを用いることを、音声モーフイング部 105に指示する。さらに、声質指 定部 104は、各声質アイコン 104A, 104B, 104Z及び指定アイコン 104iの相対的 な配置に対応する割合を、音声モーフイング部 105に指示する。
[0038] 即ち、声質指定部 104は、指定アイコン 10^から各声質アイコン 104A, 104B, 1 04Zまでの距離を調べ、それらの距離に応じた割合を指示する。
[0039] 又は、声質指定部 104は、まず、声質 Aと声質 Zの中間的な声質 (テンポラリ声質) を生成するための割合を求め、次に、そのテンポラリ声質と声質 Bとから、指定アイコ ン 104iで示される声質を生成するための割合を求め、これらの割合を指示する。具 体的に、声質指定部 104は、声質アイコン 104A及び声質アイコン 104Zを結ぶ直線 と、声質アイコン 104B及び指定アイコン 104iを結ぶ直線とを算出し、これらの直線 の交点の位置 104tを特定する。この位置 104tにより示される声質が上述のテンポラ リ声質である。そして、声質指定部 104は、位置 104tから各声質アイコン 104A, 10 4Zまでの距離の割合を求める。次に、声質指定部 104は、指定アイコン 104iから声 質アイコン 104B及び位置 104tまでの距離の割合を求め、このように求めた 2つの割 合を指示する。
[0040] このような声質指定部 104を操作することにより、ユーザは、スピーカ 107から出力 させようとする合成音声の声質の、予め設定された声質に対する類似度を容易に入 力することができる。そこでユーザは、例えば声質 Aに近い合成音声をスピーカ 107 力も出力させたいときには、指定アイコン 104iが声質アイコン 104Aに近づくように声 質指定部 104を操作する。
[0041] また、声質指定部 104は、ユーザからの操作に応じて、上述のような割合を時系列 に沿って連続的に変化させる。
[0042] 図 4は、声質指定部 104のディスプレイが表示する他の画面の一例を示す画面表 示図である。
[0043] 声質指定部 104は、図 4に示すように、ユーザによる操作に応じて、ディスプレイ上 に 3つのアイコン 21, 22, 23を配置し、アイコン 21からアイコン 22を通ってアイコン 2 3に到達するような軌跡を特定する。そして、声質指定部 104は、その軌跡に沿って 指定アイコン 104iが移動するように、上述の割合を時系列に沿って連続的に変化さ せる。例えば、声質指定部 104は、その軌跡の長さを Lとすると、毎秒 0.01 X Lの速 度で指定アイコン 104iが移動するように、その割合を変化させる。
[0044] 音声モーフイング部 105は、上述のような声質指定部 104により指定された音声合 成パラメタ値列 11と割合とから、音声モーフイング処理を行う。
[0045] 図 5は、音声モーフイング部 105の処理動作を説明するための説明図である。
音声モーフイング部 105は、図 5に示すように、パラメタ中間値計算部 105aと、波形 生成部 105bとを備えている。
[0046] パラメタ中間値計算部 105aは、声質指定部 104により指定された少なくとも 2つの 音声合成パラメタ値列 11と割合とを特定し、それらの音声合成パラメタ値列 11から、 互いに対応する音声分析合成フレーム間ごとに、その割合に応じた中間的音声合成 パラメタ値列 13を生成する。
[0047] 例えば、パラメタ中間値計算部 105aは、声質指定部 104の指定に基づいて、声質 Aの音声合成パラメタ値列 11と、声質 Zの音声合成パラメタ値列 11と、割合 50 : 50と を特定すると、まず、その声質 Aの音声合成パラメタ値列 11と、声質 Zの音声合成パ ラメタ値列 11とを、それぞれに対応する音声合成部 103から取得する。そして、パラ メタ中間値計算部 105aは、互いに対応する音声分析合成フレームにおいて、声質 Aの音声合成パラメタ値列 11に含まれる各特徴パラメタと、声質 Zの音声合成パラメ タ値列 11に含まれる各特徴パラメタとの中間値を 50: 50の割合で算出し、その算出 結果を中間的音声合成パラメタ値列 13として生成する。具体的に、互いに対応する 音声分析合成フレームにおいて、声質 Aの音声合成パラメタ値列 11の基本周波数 F 0の値が 300であり、声質 Zの音声合成パラメタ値列 11の基本周波数 FOの値が 280 である場合には、パラメタ中間値計算部 105aは、当該音声分析合成フレームでの基 本周波数 F0が 290となる中間的音声合成パラメタ値列 13を生成する。
[0048] また、図 3を用いて説明したように、声質指定部 104により、声質 Aの音声合成パラ メタ値列 11と、声質 Bの音声合成パラメタ値列 11と、声質 Zの音声合成パラメタ値列 11とが指定され、さらに、声質 Aと声質 Zの中間的なテンポラリ声質を生成するための 割合 (例えば 3: 7)と、そのテンポラリ声質と声質 Bとから指定アイコン 104iで示される 声質を生成するための割合 (例えば 9: 1)とが指定され場合には、音声モーフイング 部 105は、まず、声質 Aの音声合成パラメタ値列 11と、声質 Zの音声合成パラメタ値 列 11とを用いて、 3 : 7の割合に応じた音声モーフイング処理を行う。これにより、テン ポラリ声質に対応する音声合成パラメタ値列が生成される。さらに、音声モーフイング 部 105は、先に生成した音声合成パラメタ値列と、声質 Bの音声合成パラメタ値列 11 とを用いて、 9 : 1の割合に応じた音声モーフイング処理を行う。これにより、指定アイ コン 104iに対応する中間的音声合成パラメタ値列 13が生成される。ここで、上述の 3 : 7の割合に応じた音声モーフイング処理とは、声質 Aの音声合成パラメタ値列 11を 3 Z (3 + 7)だけ声質 Zの音声合成パラメタ値列 11に近づける処理であり、逆に、声質 Zの音声合成パラメタ値列 11を 7Z (3 + 7)だけ声質 Aの音声合成パラメタ値列 11に 近づける処理をいう。この結果、生成される音声合成パラメタ値列は、声質 Zの音声 合成パラメタ値列 11よりも、声質 Aの音声合成パラメタ値列 11に類似することとなる。
[0049] 波形生成部 105bは、パラメタ中間値計算部 105aにより生成された中間的音声合 成パラメタ値列 13を取得して、その中間的音声合成パラメタ値列 13に応じた中間的 合成音波形データ 12を生成し、スピーカ 107に対して出力する。
[0050] これにより、スピーカ 107からは、中間的音声合成パラメタ値列 13に応じた合成音 声が出力される。即ち、予め設定された複数の声質の中間的な声質の合成音声がス ピー力 107から出力される。
[0051] ここで、一般に複数の音声合成パラメタ値列 11に含まれる音声分析合成フレーム の総数はそれぞれ異なるため、パラメタ中間値計算部 105aは、上述のように互いに 異なる声質の音声合成パラメタ値列 11を用 、て音声モーフイング処理を行うときには 、音声分析合成フレーム間の対応付けを行うために時間軸ァライメントを行う。
[0052] 即ちパラメタ中間値計算部 105aは、音声合成パラメタ値列 11に付されたラベル情 報に基づいて、これらの音声合成パラメタ値列 11の時間軸上の整合を図る。
[0053] ラベル情報は、前述のように各音声素片の開始及び終了の時刻と、音響的特徴の 変化点の時刻とを示す。音響的特徴の変化点は、例えば、音声素片に対応する不 特定話者 HMM音素モデルにより示される最尤パスの状態遷移点である。
[0054] 図 6は、音声素片と HMM音素モデルの一例を示す例示図である。
例えば、図 6に示すように、所定の音声素片 30を不特定話者 HMM音素モデル( 以下、音素モデルと略す) 31で認識した場合、その音素モデル 31は、開始状態 (S
0
)と終了状態 (S )を含めて 4つの状態 (S , S , S , S )で構成される。ここで、最尤パ
E 0 1 2 E
スの形状 32は、時刻 4から 5において、状態 S1から状態 S2への状態遷移を有する。 つまり、音声合成 DBlOla— ΙΟΙζに格納されている音声素片データの音声素片 30 に対応する部分には、この音声素片 30の開始時刻 1、終了時刻 N、及び音響的特 徴の変化点の時刻 5を示すラベル情報が付されている。
[0055] したがって、パラメタ中間値計算部 105aは、そのラベル情報に示される開始時刻 1 、終了時刻 N、及び音響的特徴の変換点の時刻 5に基づいて、時間軸の伸縮処理を 行う。即ち、パラメタ中間値計算部 105aは、取得した各音声合成パラメタ値列 11に 対して、ラベル情報により示される時刻が一致するように、その時刻間を線形に伸縮 する。
[0056] これにより、ノ メタ中間値計算部 105aは、各音声合成パラメタ値列 11に対して、 それぞれの音声分析合成フレームの対応付けを行うことができる。つまり、時間軸ァ ライメントを行うことができる。また、このように本実施の形態ではラベル情報を用いて 時間軸ァライメントを行うことにより、例えば各音声合成パラメタ値列 11のパターンマ ツチングなどにより時間軸ァライメントを行う場合と比べて、迅速に時間軸ァライメント を実行することができる。
[0057] 以上のように本実施の形態では、パラメタ中間値計算部 105aが、声質指定部 104 力 指示された複数の音声合成パラメタ値列 11に対して、声質指定部 104から指定 された割合に応じた音声モーフイング処理を実行するため、合成音声の声質の自由 度を広めることができる。
[0058] 例えば、図 3に示す声質指定部 104のディスプレイ上で、ユーザが声質指定部 10 4を操作することにより指定アイコン 104iを声質アイコン 104A、声質アイコン 104B 及び声質アイコン 104Zに近づければ、音声モーフイング部 105は、声質 Aの音声合 成 DB 101aに基づ 、て音声合成部 103により生成された音声合成パラメタ値列 11と 、声質 Bの音声合成 DBlOlbに基づいて音声合成部 103により生成された音声合 成パラメタ値列 11と、声質 Zの音声合成 DBlOlzに基づ 、て音声合成部 103により 生成された音声合成パラメタ値列 11とを用いて、それぞれを同じ割合で音声モーフ イング処理する。その結果、スピーカ 107から出力される合成音声を、声質 Aと声質 B と声質 Cとの中間的な声質にすることができる。また、ユーザが声質指定部 104を操 作することにより指定アイコン 104iを声質アイコン 104Aに近づければ、スピーカ 107 力も出力される合成音声の声質を声質 Aに近づけることができる。
[0059] また、本実施の形態の声質指定部 104は、ユーザによる操作に応じてその割合を 時系列に沿って変化させるため、スピーカ 107から出力される合成音声の声質を時 系列に沿ってなめらかに変化させることができる。例えば、図 4で説明したように、声 質指定部 104が、毎秒 0.01 X Lの速度で軌跡上を指定アイコン 104iが移動するよう に割合を変化させた場合には、 100秒間声質がなめらかに変化し続けるような合成 音声がスピーカ 107から出力される。
[0060] これによつて、例えば「喋り始めは冷静だ力 喋りながら段々怒っていく」というような 、従来は不可能だった、表現力の高い音声合成装置が実現できる。また、合成音声 の声質を 1発声の中で連続的に変化させることもできる。
[0061] さらに、本実施の形態では、音声モーフイング処理を行うため、従来例のように声質 に破錠が起こることがなく合成音声の品質を維持することができる。また、本実施の形 態では、声質の異なる音声合成パラメタ値列 11の互 、に対応する特徴パラメタの中 間値を計算して中間的音声合成パラメタ値列 13を生成するため、従来例のように 2 つのスペクトルをモーフイング処理する場合と比べて、基準とする部位を誤って特定 してしまうことなぐ合成音声の音質を良くすることができ、さらに、計算量を軽減する ことができる。また、本実施の形態では、 HMMの状態遷移点を用いることで、複数の 音声合成パラメタ値列 11を時間軸上で正確に整合させることができる。即ち、声質 A の音素の中でも、状態遷移点を基準に前半と後半とで音響的特徴が異なり、声質 B の音素の中でも、状態遷移点を基準に前半と後半とで音響的特徴が異なる場合があ る。このような場合に、声質 Aの音素と声質 Bの音素とをそれぞれ単純に時間軸に伸 縮して、それぞれの発声時間を合わせても、つまり時間軸ァライメントを行っても、両 音素からモーフイング処理された音素には、各音素の前半と後半とが入り乱れてしま う。しかし、上述のように HMMの状態遷移点を用いると、各音素の前半と後半とが入 り乱れてしまうのを防ぐことができる。その結果、モーフイング処理された音素の音質 を良くして、所望の中間的な声質の合成音声を出力することができる。
[0062] なお、本実施の形態では、複数の音声合成部 103のそれぞれに音素情報 10a及 び音声合成パラメタ値列 11を生成させた力 音声モーフイング処理に必要となる声 質に対応する音素情報 10aが何れも同じであるときには、 1つの音声合成部 103の 言語処理部 103aにのみ音素情報 10aを生成させ、その音素情報 10aから音声合成 ノ メタ値列 11を生成する処理を、複数の音声合成部 103の素片結合部 103bにさ せても良い。
[0063] (変形例) ここで、本実施の形態における音声合成部に関する変形例について説明する。
[0064] 図 7は、本変形例に係る音声合成装置の構成を示す構成図である。
本変形例に係る音声合成装置は、互いに異なる声質の音声合成パラメタ値列 11を 生成する 1つの音声合成部 103cを備える。
[0065] この音声合成部 103cは、テキスト 10を取得して、テキスト 10に示される文字列を音 素情報 10aに変換した後、複数の音声合成 DBlOla— ΙΟΙζを順番に切り替えて参 照ことで、その音素情報 10aに対応する複数の声質の音声合成パラメタ値列 11を順 次生成する。
[0066] 音声モーフイング部 105は、必要な音声合成パラメタ値列 11が生成されるまで待機 し、その後、上述と同様の方法で中間的合成音波形データ 12を生成する。
[0067] なお、上述のような場合、声質指定部 104は、音声合成部 103cに指示して、音声 モーフイング部 105が必要とする音声合成パラメタ値列 11のみを生成させることで、 音声モーフイング部 105の待機時間を短くすることができる。
[0068] このように本変形例では、音声合成部 103cを 1つだけ備えることにより、音声合成 装置全体の小型化並びにコスト低減を図ることができる。
[0069] (実施の形態 2)
図 8は、本発明の実施の形態 2に係る音声合成装置の構成を示す構成図である。
[0070] 本実施の形態の音声合成装置は、実施の形態 1の音声合成パラメタ値列 11の代 わりに周波数スペクトルを用い、この周波数スペクトルによる音声モーフイング処理を 行う。
[0071] このような音声合成装置は、複数の音声素片に関する音声素片データを蓄積する 複数の音声合成 DB201a— 201zと、 1つの音声合成 DBに蓄積された音声素片デ 一タを用 V、ることにより、テキスト 10に示される文字列に対応する合成音スペクトル 41 を生成する複数の音声合成部 203と、ユーザによる操作に基づ!/、て声質を指定する 声質指定部 104と、複数の音声合成部 203により生成された合成音スペクトル 41を 用いて音声モーフイング処理を行い、中間的合成音波形データ 12を出力する音声 モーフイング部 205と、中間的合成音波形データ 12に基づいて合成音声を出力する スピーカ 107とを備えて ヽる。 [0072] 複数の音声合成 DB201a— 201zのそれぞれが蓄積する音声素片データの示す 声質は、実施の形態 1の音声合成 DBlOla— ΙΟΙζと同様、異つている。また、本実 施の形態における音声素片データは、周波数スペクトルの形式で表現されている。
[0073] 複数の音声合成部 203は、それぞれ上述の音声合成 DBと一対一に対応付けられ ている。そして、各音声合成部 203は、テキスト 10を取得して、テキスト 10に示される 文字列を音素情報に変換する。さらに、音声合成部 203は、対応付けられた音声合 成 DBの音声素片データ力 適切な音声素片に関する部分を抜き出して、抜き出し た部分の結合と変形を行うことにより、先に生成した音素情報に対応する周波数スぺ タトルたる合成音スペクトル 41を生成する。このような合成音スペクトル 41は、音声の フーリエ解析結果の形式であっても良ぐ音声のケプストラムパラメタ値を時系列的に 並べた形式であっても良 、。
[0074] 声質指定部 104は、実施の形態 1と同様、ユーザによる操作に基づき、何れの合成 音スペクトル 41を用い、その合成音スペクトル 41に対してどのような割合で音声モー フイング処理を行うかを音声モーフイング部 205に指示する。さらに、声質指定部 10
4はその割合を時系列に沿って変化させる。
[0075] 本実施の形態における音声モーフイング部 205は、複数の音声合成部 203から出 力される合成音スペクトル 41を取得して、その中間的性質を持つ合成音スぺクトルを 生成し、さらに、その中間的性質の合成音スペクトルを中間的合成音波形データ 12 に変形して出力する。
[0076] 図 9は、本実施の形態における音声モーフイング部 205の処理動作を説明するた めの説明図である。
[0077] 音声モーフイング部 205は、図 9に示すように、スペクトルモーフイング部 205aと、 波形生成部 205bとを備えて 、る。
[0078] スペクトルモーフイング部 205aは、声質指定部 104により指定された少なくとも 2つ の合成音スペクトル 41と割合とを特定し、それらの合成音スペクトル 41から、その割 合に応じた中間的合成音スペクトル 42を生成する。
[0079] 即ち、スペクトルモーフイング部 205aは、複数の合成音スペクトル 41から、声質指 定部 104により指定された 2つ以上の合成音スペクトル 41を選択する。そして、スぺ クトルモーフイング部 205aは、それら合成音スぺクトル 41の形状の特徴を示すフォ ルマント形状 50を抽出して、そのフォルマント形状 50ができるだけ一致するような変 形を各合成音スぺクトル 41に加えた後、各合成音スペクトル 41の重ね合わせを行う 。なお、上述の合成音スペクトル 41の形状の特徴は、フォルマント形状でなくても良く 、例えばある程度以上強く現れていて、かつその軌跡が連続的に追えるものであれ ば良い。図 9に示されるように、フォルマント形状 50は、声質 Aの合成音スペクトル 41 及び声質 Zの合成音スペクトル 41のそれぞれについてスペクトル形状の特徴を模式 的に表すものである。
[0080] 具体的に、スペクトルモーフイング部 205aは、声質指定部 104からの指定に基づき 、声質 A及び声質 Zの合成音スペクトル 41と 4 : 6の割合とを特定すると、まず、その声 質 Aの合成音スペクトル 41と声質 Zの合成音スペクトル 41とを取得して、それらの合 成音スペクトル 41からフォルマント形状 50を抽出する。次に、スペクトルモーフイング 部 205aは、声質 Aの合成音スペクトル 41のフォルマント形状 50が声質 Zの合成音ス ベクトル 41のフォルマント形状 50に 40%だけ近づくように、声質 Aの合成音スぺタト ル 41を周波数軸及び時間軸上で伸縮処理する。さらに、スペクトルモーフイング部 2 05aは、声質 Zの合成音スペクトル 41のフォルマント形状 50が声質 Aの合成音スぺク トル 41のフォルマント形状 50に 60%だけ近づくように、声質 Zの合成音スペクトル 41 を周波数軸及び時間軸上で伸縮処理する。最後に、スペクトルモーフイング部 205a は、伸縮処理された声質 Aの合成音スペクトル 41のパワーを 60%にするとともに、伸 縮処理された声質 Zの合成音スペクトル 41のパワーを 40%にした上で、両合成音ス ベクトル 41を重ね合わせる。その結果、声質 Aの合成音スペクトル 41と声質 Zの合成 音スペクトル 41との音声モーフイング処理が 4 : 6の割合で行われ、中間的合成音ス ベクトル 42が生成される。
[0081] このような、中間的合成音スペクトル 42を生成する音声モーフイング処理について 、図 10—図 12を用いてより詳細に説明する。
[0082] 図 10は、声質 A及び声質 Zの合成音スペクトル 41と、それらに対応する短時間フー リエスペクトルとを示す図である。
[0083] スペクトルモーフイング部 205aは、声質 Aの合成音スペクトル 41と声質 Zの合成音 スペクトル 41との音声モーフイング処理を 4 : 6の割合で行うときには、まず、上述のよ うにこれらの合成音スペクトル 41のフォルマント形状 50を互いに近づけるため、各合 成音スペクトル 41同士の時間軸ァライメントを行う。このような時間軸ァライメントは、 各合成音スペクトル 41のフォルマント形状 50同士のパターンマッチングを行うことに より実現される。なお、各合成音スペクトル 41もしくはフォルマント形状 50に関する他 の特徴量を用いてパターンマッチングを行ってもょ 、。
[0084] 即ち、スペクトルモーフイング部 205aは、図 10に示すように、両合成音スペクトル 4 1のそれぞれのフォルマント形状 50にお!/、て、パターンが一致するフーリエスぺタト ル分析窓 51の部位で時刻が一致するように、両合成音スペクトル 41に対して時間軸 上の伸縮を行う。これにより時間軸ァライメントが実現される。
[0085] また、図 10に示すように、互いにパターンが一致するフーリエスペクトル分析窓 51 のそれぞれの短時間フーリエスペクトル 41aには、フォルマント形状 50の周波数 50a , 50bが互いに異なるように表示される。
[0086] そこで、時間軸ァライメントの完了後、スペクトルモーフイング部 205aは、ァライメン トされた音声の各時刻において、フォルマント形状 50を基に、周波数軸上の伸縮処 理を行う。即ち、スペクトルモーフイング部 205aは、各時刻における声質 A及び声質 Bの短時間フーリエスペクトル 41aにおいて周波数 50a, 50b力 S—致するように、両短 時間フーリエスペクトル 41aを周波数軸上で伸縮する。
[0087] 図 11は、スペクトルモーフイング部 205aが両短時間フーリエスペクトル 41aを周波 数軸上で伸縮する様子を説明するための説明図である。
[0088] スペクトルモーフイング部 205aは、声質 Aの短時間フーリエスペクトル 41a上の周 波数 50a, 50b力 0%だけ、声質 Zの短時間フーリエスペクトル 41a上の周波数 50a , 50b〖こ近付くよう〖こ、声質 Aの短時間フーリエスペクトル 41aを周波数軸上で伸縮し 、中間的な短時間フーリエスペクトル 41bを生成する。これと同様に、スペクトルモー フイング部 205aは、声質 Zの短時間フーリエスペクトル 41a上の周波数 50a, 50b力 6 0%だけ、声質 Aの短時間フーリエスペクトル 41a上の周波数 50a, 50bに近付くよう に、声質 Zの短時間フーリエスペクトル 41aを周波数軸上で伸縮し、中間的な短時間 フーリエスペクトル 41bを生成する。その結果、中間的な両短時間フーリエスペクトル 41bにおいて、フォルマント形状 50の周波数は周波数 fl, f2に揃えられた状態とな る。
[0089] 例えば、声質 Aの短時間フーリエスペクトル 41a上でフォルマント形状 50の周波数 50a, 50b力 00Hz及び 3000Hzであり、声質 Zの短時間フーリエスペクトル 41a上 でフ才ノレマント形状 50の周波数 50a, 50b力 S400Hz及び 4000Hzであり、力つ各合 成音のナイキスト周波数が 11025Hzである場合を想定して説明する。スペクトルモ ーフイング部 205aは、まず、声質 Aの短時間フーリエスペクトル 41aの帯域 f=0— 5 00Hz力 0—(500+ (400-500) X 0. 4) Hzとなるように、帯域 f= 500— 3000Hz 力 S (500 + (400—500) X 0. 4)一(3000+ (4000— 3000) X 0. 4) Hzとなるように、 帯域 f = 3000— 11025Hz力 S (3000+ (4000—3000) X 0. 4)一 11025Hzとなるよ うに、声質 Aの短時間フーリエスペクトル 41aに対して周波数軸上の伸縮 ·移動を行う 。これと同様に、スペクトルモーフイング部 205aは、声質 Zの短時間フーリエスぺタト ノレ 4 laの帯域 f=0— 400Hz力 0—(400+ (500—400) X 0. 6) Hzとなるように、帯 域 f= 400— 4000Hzカ 400+ (500—400) X 0. 6)—(4000+ (3000—4000) X 0. 6) Hzとなるように、帯域 f =4000— 11025Hz力 S (4000+ (3000—4000) X 0. 6)— 11025Hzとなるように、声質 Zの短時間フーリエスペクトル 41aに対して周波数 軸上の伸縮'移動を行う。その伸縮'移動の結果により生成された 2つの短時間フーリ ェスペクトル 41bにおいて、フォルマント形状 50の周波数は周波数 fl, f2に揃えられ た状態となる。
[0090] 次に、スペクトルモーフイング部 205aは、このような周波数軸上の変形が行われた 両短時間フーリエスペクトル 41bのパワーを変形する。即ち、スペクトルモーフイング 部 205aは、声質 Aの短時間フーリエスペクトル 41bのパワーを 60%に変換し、声質 Zの短時間フーリエスペクトル 41bのパワーを 40%に変換する。そして、スペクトルモ ーフイング部 205aは、上述のように、パワーが変換されたこれらの短時間フーリエス ベクトルを重ね合わせる。
[0091] 図 12は、パワーが変換された 2つの短時間フーリエスペクトルを重ね合わせる様子 を説明するための説明図である。
[0092] この図 12に示すように、スペクトルモーフイング部 205aは、パワーが変換された声 質 Aの短時間フーリエスペクトル 41cと、同じくパワーが変換された声質 Bの短時間フ 一リエスペクトル 41cとを重ね合わせ、新たな短時間フーリエスペクトル 41dを生成す る。このとき、スペクトルモーフイング部 205aは、互いの短時間フーリエスペクトル 41c の上記周波数 fl, f2を一致させた状態で、両短時間フーリエスペクトル 41cを重ね合 わせる。
[0093] そして、スペクトルモーフイング部 205aは、上述のような短時間フーリエスペクトル 4 Idの生成を、両合成音スペクトル 41の時間軸ァライメントされた時刻ごとに行う。その 結果、声質 Aの合成音スぺクトル 41と声質 Zの合成音スペクトル 41との音声モーフィ ング処理が 4 : 6の割合で行われ、中間的合成音スペクトル 42が生成されるのである
[0094] 音声モーフイング部 205の波形生成部 205bは、上述のようにスペクトルモーフイン グ部 205aにより生成された中間的合成音スペクトル 42を、中間的合成音波形デー タ 12に変換して、これをスピーカ 107に出力する。その結果、スピーカ 107から、中 間的合成音スペクトル 42に対応する合成音声が出力される。
[0095] このように、本実施の形態においても、実施の形態 1と同様、声質の自由度が広く 良い音質の合成音声をテキスト 10から生成することができる。
[0096] (変形例)
ここで、本実施の形態におけるスペクトルモーフイング部の動作に関する変形例に ついて説明する。
[0097] 本変形例に係るスペクトルモーフイング部は、上述のように合成音スペクトル 41から その形状の特徴を示すフォルマント形状 50を抽出して用いることなぐ音声合成 DB に予め格納されたスプライン曲線の制御点の位置を読み出して、そのスプライン曲線 をフォルマント形状 50の代わりに用いる。
[0098] 即ち、各音声素片に対応するフォルマント形状 50を、周波数対時間の 2次元平面 上の複数のスプライン曲線と見なし、そのスプライン曲線の制御点の位置を予め音声 合成 DBに格納しておく。
[0099] このように、本変形例に係るスペクトルモーフイング部は、合成音スペクトル 41から わざわざフォルマント形状 50を抽出することをせず、音声合成 DBに予め格納されて V、る制御点の位置が示すスプライン曲線を用いて時間軸及び周波数軸上の変換処 理を行うため、上記変換処理を迅速に行うことができる。
[0100] なお、上述のようなスプライン曲線の制御点の位置ではなくフォルマント形状 50そ のものを、予め音声合成 DB201a— 201zに格納してお!、ても良!、。
[0101] (実施の形態 3)
図 13は、本発明の実施の形態 3に係る音声合成装置の構成を示す構成図である。
[0102] 本実施の形態の音声合成装置は、実施の形態 1の音声合成パラメタ値列 11や、実 施の形態 2の合成音スペクトル 41の代わりに音声波形を用い、この音声波形による 音声モーフイング処理を行う。
[0103] このような音声合成装置は、複数の音声素片に関する音声素片データを蓄積する 複数の音声合成 DB301a— 301zと、 1つの音声合成 DBに蓄積された音声素片デ 一タを用 Vヽることにより、テキスト 10に示される文字列に対応する合成音波形データ 6 1を生成する複数の音声合成部 303と、ユーザによる操作に基づいて声質を指定す る声質指定部 104と、複数の音声合成部 303により生成された合成音波形データ 61 を用いて音声モーフイング処理を行い、中間的合成音波形データ 12を出力する音 声モーフイング部 305と、中間的合成音波形データ 12に基づいて合成音声を出力 するスピーカ 107とを備えて 、る。
[0104] 複数の音声合成 DB301a— 301zのそれぞれが蓄積する音声素片データの示す 声質は、実施の形態 1の音声合成 DBlOla— ΙΟΙζと同様、異なっている。また、本 実施の形態における音声素片データは、音声波形の形式で表現されている。
[0105] 複数の音声合成部 303は、それぞれ上述の音声合成 DBと一対一に対応付けられ ている。そして、各音声合成部 303は、テキスト 10を取得して、テキスト 10に示される 文字列を音素情報に変換する。さらに、音声合成部 303は、対応付けられた音声合 成 DBの音声素片データ力 適切な音声素片に関する部分を抜き出して、抜き出し た部分の結合と変形を行うことにより、先に生成した音素情報に対応する音声波形た る合成音波形データ 61を生成する。
[0106] 声質指定部 104は、実施の形態 1と同様、ユーザによる操作に基づき、何れの合成 音波形データ 61を用い、その合成音波形データ 61に対してどのような割合で音声 モーフイング処理を行うかを音声モーフイング部 305に指示する。さらに、声質指定 部 104はその割合を時系列に沿って変化させる。
[0107] 本実施の形態における音声モーフイング部 305は、複数の音声合成部 303から出 力される合成音波形データ 61を取得して、その中間的性質を持つ中間的合成音波 形データ 12を生成して出力する。
[0108] 図 14は、本実施の形態における音声モーフイング部 305の処理動作を説明するた めの説明図である。
[0109] 本実施の形態における音声モーフイング部 305は波形編集部 305aを備えている。
この波形編集部 305aは、声質指定部 104により指定された少なくとも 2つの合成音 波形データ 61と割合とを特定し、それらの合成音波形データ 61から、その割合に応 じた中間的合成音波形データ 12を生成する。
[0110] 即ち、波形編集部 305aは、複数の合成音波形データ 61から、声質指定部 104〖こ より指定された 2つ以上の合成音波形データ 61を選択する。そして、波形編集部 30 5aは、声質指定部 104により指定された割合に応じ、その選択した合成音波形デー タ 61のそれぞれに対して、例えば各音声の各サンプリング時点におけるピッチ周波 数や振幅、各音声における各有声区間の継続時間長などを変形する。波形編集部 3 05aは、そのように変形された合成音波形データ 61を重ね合わせることで、中間的合 成音波形データ 12を生成する。
[0111] スピーカ 107は、このように生成された中間的合成音波形データ 12を波形編集部 3 05aから取得して、その中間的合成音波形データ 12に対応する合成音声を出力す る。
[0112] このように、本実施の形態においても、実施の形態 1又は 2と同様、声質の自由度 が広く良 、音質の合成音声をテキスト 10から生成することができる。
[0113] (実施の形態 4)
図 15は、本発明の実施の形態 4に係る音声合成装置の構成を示す構成図である。
[0114] 本実施の形態の音声合成装置は、出力する合成音声の声質に応じた顔画像を表 示するものであって、実施の形態 1に含まれる構成要素と、複数の顔画像に関する画 像情報を蓄積する複数の画像 DB401a— 401zと、これらの画像 DB401a— 401zに 蓄積される顔画像の情報を用いて画像モーフイング処理を行 ヽ、中間的顔画像デー タ 12pを出力する画像モーフイング部 405と、画像モーフイング部 405から中間的顔 画像データ 12pを取得して、その中間的顔画像データ 12pに応じた顔画像を表示す る表示部 407とを備えて 、る。
[0115] 画像 DB401a— 401zのそれぞれが蓄積する画像情報の示す顔画像の表情は異 なっている。例えば、怒っている声質の音声合成 DBlOlaに対応する画像 DB401a には、怒っている表情の顔画像に関する画像情報が蓄積されている。また、画像 DB 401a— 401zに蓄積されている顔画像の画像情報には、顔画像の眉及び口の端や 中央、目の中心点など、この顔画像の表す表情の印象をコントロールするための特 徴点が付加されている。
[0116] 画像モーフイング部 405は、声質指定部 104により指定された各合成音声パラメタ 値列 102のそれぞれの声質に対応付けされた画像 DBから画像情報を取得する。そ して、画像モーフイング部 405は、取得した画像情報を用いて、声質指定部 104によ り指定された割合に応じた画像モーフイング処理を行う。
[0117] 具体的に、画像モーフイング部 405は、取得した一方の画像情報により示される顔 画像の特徴点の位置が、声質指定部 104により指定された割合だけ、取得した他方 の画像情報により示される顔画像の特徴点の位置に変位するように、その一方の顔 画像をヮービングし、これと同様に、その他方の顔画像の特徴点の位置を、声質指 定部 104により指定された割合だけ、その一方の顔画像の特徴点の位置に変位する ように、その他方の顔画像をヮービングする。そして、画像モーフイング部 405は、ヮ 一ビングされたそれぞれの顔画像を、声質指定部 104により指定された割合に応じ てクロスディゾルブすることで、中間的顔画像データ 12pを生成する。
[0118] これにより本実施の形態では、例えばエージェントの顔画像と合成音声の声質の印 象を常に一致させることができる。即ち、本実施の形態の音声合成装置は、エージ ントの平常声と怒り声の間の音声モーフイングを行って、少しだけ怒った声質の合成 音声を生成するときには、音声モーフイングと同様の比率でエージェントの平常顔画 像と怒り顔画像の間の画像モーフイングを行い、エージェントのその合成音声に適し た少しだけ怒った顔画像を表示する。言い換えれば、感情を持つエージェントに対し てユーザが感じる聴覚的印象と、視覚的印象を一致させることができ、エージェントの 提示する情報の自然性を高めることができる。
[0119] 図 16は、本実施の形態の音声合成装置の動作を説明するための説明図である。
例えば、ユーザが声質指定部 104を操作することにより、図 3に示すディスプレイ上 の指定アイコン 104iを、声質ァィコン104八と声質ァィコン104∑を結ぶ線分を4 : 6に 分割する位置に配置すると、音声合成装置は、スピーカ 107から出力される合成音 声が 10%だけ声質 A寄りになるように、その 4: 6の割合に応じた音声モーフイング処 理を声質 A及び声質 Zの音声合成パラメタ値列 11を用いて行 ヽ、声質 A及び声質 B の中間的な声質 Xの合成音声を出力する。これと同時に、音声合成装置は、上記割 合と同じ 4: 6の割合に応じた画像モーフイング処理を、声質 Aに対応付けられた顔画 像 P1と、声質 Zに対応付けられた顔画像 P2とを用いて行い、これらの画像の中間的 な顔画像 P3を生成して表示する。ここで、音声合成装置は、画像モーフイングすると きには、上述のように、顔画像 P1の眉や口の端などの特徴点の位置を、顔画像 P2の 眉や口の端などの特徴点の位置に向けて 40%の割合で変化するように、その顔画 像 P1をヮービングし、これと同様に、顔画像 P2の特徴点の位置を、顔画像 P1の特 徴点の位置に向けて 60%の割合で変化するように、その顔画像 P2をヮービングする 。そして、画像モーフイング部 405は、ヮービングされた顔画像 P1に対して 60%の割 合で、ヮービングされた顔画像 P2に対して 40%の割合でクロスディゾルブし、その結 果、顔画像 P3を生成する。
[0120] このように、本実施の形態の音声合成装置は、スピーカ 107から出力する合成音声 の声質力 ^怒っている」ときには、「怒っている」様子の顔画像を表示部 407に表示し 、声質力 ^泣いている」ときには、「泣いている」様子の顔画像を表示部 407に表示す る。さらに、本実施形態の音声合成装置は、その声質力 ^怒っている」ものと「泣いて いる」ものとの中間的なものであるときには、「怒って!/、る」顔画像と「泣 、て 、る」顔画 像の中間的な顔画像を表示するとともに、その声質が「怒って!/、る」ものから「泣!/ヽて いる」ものへと時間的に変化するときには、中間的な顔画像をその声質に一致させて 時間的に変化させる。
[0121] なお、画像モーフイングは他にも様々な方法によって可能である力 元となる画像 の間の比率を指定することで目的の画像が指定できる方法であれば、どんなものを 用いてもよい。
産業上の利用可能性
本発明は、声質の自由度が広く良い音質の合成音声をテキストデータ力 生成す ることができるという効果を有し、ユーザに対して感情を表す合成音声を出力する音 声合成装置などに適用することができる。

Claims

請求の範囲
[1] 第 1の声質に属する複数の音声素片に関する第 1の音声素片情報、及び前記第 1 の声質と異なる第 2の声質に属する複数の音声素片に関する第 2の音声素片情報を 予め記憶して!/、る記憶手段と、
テキストデータを取得するとともに、前記記憶手段の第 1の音声素片情報から、前 記テキストデータに含まれる文字に対応した前記第 1の声質の合成音声を示す第 1 の合成音声情報を生成し、前記記憶手段の第 2の音声素片情報から、前記テキスト データに含まれる文字に対応した前記第 2の声質の合成音声を示す第 2の合成音声 情報を生成する音声情報生成手段と、
前記音声情報生成手段により生成された前記第 1及び第 2の合成音声情報から、 前記テキストデータに含まれる文字に対応した、前記第 1及び第 2の声質の中間的な 声質の合成音声を示す中間合成音声情報を生成するモーフイング手段と、
前記モーフイング手段によって生成された前記中間合成音声情報を前記中間的な 声質の合成音声に変換して出力する音声出力手段と
を備え、
前記音声情報生成手段は、前記第 1及び第 2の合成音声情報をそれぞれ複数の 特徴パラメタの列として生成し、
前記モーフイング手段は、前記第 1及び第 2の合成音声情報の互いに対応する特 徴パラメタの中間値を計算することで、前記中間合成音声情報を生成する
ことを特徴とする音声合成装置。
[2] 前記モーフイング手段は、前記音声出力手段から出力される合成音声の声質がそ の出力中に連続的に変化するように、前記第 1及び第 2の合成音声情報の前記中間 合成音声情報に対して寄与する割合を変化させる
ことを特徴とする請求項 1記載の音声合成装置。
[3] 前記記憶手段は、前記第 1及び第 2の音声素片情報のそれぞれにより示される各 音声素片における基準を示す内容の特徴情報を、前記第 1及び第 2の音声素片情 報のそれぞれに含めて記憶しており、
前記音声情報生成手段は、前記第 1及び第 2の合成音声情報を、それぞれに前記 特徴情報を含めて生成し、
前記モーフイング手段は、前記第 1及び第 2の合成音声情報を、それぞれに含まれ る前記特徴情報によって示される基準を用いて整合した上で前記中間合成音声情 報を生成する
ことを特徴とする請求項 1記載の音声合成装置。
[4] 前記基準は、前記第 1及び第 2の音声素片情報のそれぞれにより示される各音声 素片の音響的特徴の変化点である
ことを特徴とする請求項 3記載の音声合成装置。
[5] 前記音響的特徴の変化点は、前記第 1及び第 2の音声素片情報のそれぞれに示さ れる各音声素片を HMM (Hidden Markov Model)で表した最尤経路上の状態遷移 点であって、
前記モーフイング手段は、前記第 1及び第 2の合成音声情報を、前記状態遷移点 を用いて時間軸上で整合した上で前記中間合成音声情報を生成する
ことを特徴とする請求項 4記載の音声合成装置。
[6] 前記音声合成装置は、さらに、
前記第 1の声質に対応する画像を示す第 1の画像情報、及び前記第 2の声質に対 応する画像を示す第 2の画像情報を予め記憶している画像記憶手段と、
前記第 1及び第 2の画像情報のそれぞれにより示される画像の中間的な画像であ つて、前記中間合成音声情報の声質に対応する画像を示す中間画像情報を、前記 第 1及び第 2の画像情報から生成する画像モーフイング手段と、
前記画像モーフイング手段により生成された中間画像情報を取得して、前記中間 画像情報により示される画像を、前記音声出力手段力も出力される合成音声に同期 させて表示する表示手段と
を備えることを特徴とする請求項 1記載の音声合成装置。
[7] 前記第 1の画像情報は前記第 1の声質に対応する顔画像を示し、前記第 2の画像 情報は前記第 2の声質に対応する顔画像を示す
ことを特徴とする請求項 6記載の音声合成装置。
[8] 前記音声合成装置は、さらに、 前記第 1及び第 2の声質を示す固定点、及びユーザの操作に基づいて移動する移 動点をそれぞれ N次元 (Nは自然数)の座標上に配置して表し、前記固定点及び移 動点の配置に基づいて、前記第 1及び第 2の合成音声情報の前記中間合成音声情 報に対して寄与する割合を導出し、導出した割合を前記モーフイング手段に指示す る指定手段を備え、
前記モーフイング手段は、前記指定手段により指定された割合に応じて、前記中間 合成音声情報を生成する
ことを特徴とする請求項 1記載の音声合成装置。
[9] 前記音声情報生成手段は、
前記第 1及び第 2の合成音声情報のそれぞれを順次生成する
ことを特徴とする請求項 1記載の音声合成装置。
[10] 前記音声情報生成手段は、
前記第 1及び第 2の合成音声情報のそれぞれを並列に生成する
ことを特徴とする請求項 1記載の音声合成装置。
[11] 第 1の声質に属する複数の音声素片に関する第 1の音声素片情報、及び前記第 1 の声質と異なる第 2の声質に属する複数の音声素片に関する第 2の音声素片情報を 予め記憶しているメモリを用いることで、合成音声を生成して出力する音声合成方法 であって、
テキストデータを取得するテキスト取得ステップと、
前記メモリの第 1の音声素片情報から、前記テキストデータに含まれる文字に対応 した前記第 1の声質の合成音声を示す第 1の合成音声情報を生成し、前記メモリの 第 2の音声素片情報から、前記テキストデータに含まれる文字に対応した前記第 2の 声質の合成音声を示す第 2の合成音声情報を生成する音声情報生成ステップと、 前記音声情報生成ステップで生成された前記第 1及び第 2の合成音声情報から、 前記テキストデータに含まれる文字に対応した、前記第 1及び第 2の声質の中間的な 声質の合成音声を示す中間合成音声情報を生成するモーフイングステップと、 前記モーフイングステップで生成された前記中間合成音声情報を前記中間的な声 質の合成音声に変換して出力する音声出力ステップと を含み、
前記音声情報生成ステップでは、前記第 1及び第 2の合成音声情報をそれぞれ複 数の特徴パラメタの列として生成し、
前記モーフイングステップでは、前記第 1及び第 2の合成音声情報の互いに対応す る特徴パラメタの中間値を計算することで、前記中間合成音声情報を生成する ことを特徴とする音声合成方法。
[12] 前記モーフイングステップでは、前記音声出力ステップで出力される合成音声の声 質がその出力中に連続的に変化するように、前記第 1及び第 2の合成音声情報の前 記中間合成音声情報に対して寄与する割合を変化させる
ことを特徴とする請求項 11記載の音声合成方法。
[13] 前記メモリは、前記第 1及び第 2の音声素片情報のそれぞれにより示される各音声 素片における基準を示す内容の特徴情報を、前記第 1及び第 2の音声素片情報の それぞれに含めて記憶しており、
前記音声情報生成ステップでは、前記第 1及び第 2の合成音声情報を、それぞれ に前記特徴情報を含めて生成し、
前記モーフイングステップでは、前記第 1及び第 2の合成音声情報を、それぞれに 含まれる前記特徴情報によって示される基準を用いて整合した上で前記中間合成音 声情報を生成する
ことを特徴とする請求項 11記載の音声合成方法。
[14] 前記基準は、前記第 1及び第 2の音声素片情報のそれぞれにより示される各音声 素片の音響的特徴の変化点である
ことを特徴とする請求項 13記載の音声合成方法。
[15] 前記音響的特徴の変化点は、前記第 1及び第 2の音声素片情報のそれぞれに示さ れる各音声素片を HMM (Hidden Markov Model)で表した最尤経路上の状態遷移 点であって、
前記モーフイングステップでは、前記第 1及び第 2の合成音声情報を、前記状態遷 移点を用いて時間軸上で整合した上で前記中間合成音声情報を生成する
ことを特徴とする請求項 14記載の音声合成方法。
[16] 前記音声合成方法は、さらに、
前記第 1の声質に対応する画像を示す第 1の画像情報、及び前記第 2の声質に対 応する画像を示す第 2の画像情報を予め記憶して 、る画像メモリを用い、
前記第 1及び第 2の画像情報のそれぞれにより示される画像の中間的な画像であ つて、前記中間合成音声情報の声質に対応する画像を示す中間画像情報を、前記 画像メモリの第 1及び第 2の画像情報力 生成する画像モーフイングステップと、 前記画像モーフイングステップで生成された中間画像情報により示される画像を、 前記音声出力ステップで出力される合成音声に同期させて表示する表示ステップと を含むことを特徴とする請求項 11記載の音声合成方法。
[17] 前記第 1の画像情報は前記第 1の声質に対応する顔画像を示し、前記第 2の画像 情報は前記第 2の声質に対応する顔画像を示す
ことを特徴とする請求項 16記載の音声合成方法。
[18] 第 1の声質に属する複数の音声素片に関する第 1の音声素片情報、及び前記第 1 の声質と異なる第 2の声質に属する複数の音声素片に関する第 2の音声素片情報を 予め記憶しているメモリを用いることで、合成音声を生成して出力するためのプロダラ ムであって、
テキストデータを取得するテキスト取得ステップと、
前記メモリの第 1の音声素片情報から、前記テキストデータに含まれる文字に対応 した前記第 1の声質の合成音声を示す第 1の合成音声情報を生成し、前記メモリの 第 2の音声素片情報から、前記テキストデータに含まれる文字に対応した前記第 2の 声質の合成音声を示す第 2の合成音声情報を生成する音声情報生成ステップと、 前記音声情報生成ステップで生成された前記第 1及び第 2の合成音声情報から、 前記テキストデータに含まれる文字に対応した、前記第 1及び第 2の声質の中間的な 声質の合成音声を示す中間合成音声情報を生成するモーフイングステップと、 前記モーフイングステップで生成された前記中間合成音声情報を前記中間的な声 質の合成音声に変換して出力する音声出力ステップと
をコンピュータに実行させ、
前記音声情報生成ステップでは、前記第 1及び第 2の合成音声情報をそれぞれ複 数の特徴パラメタの列として生成し、
前記モーフイングステップでは、前記第 1及び第 2の合成音声情報の互いに対応す る特徴パラメタの中間値を計算することで、前記中間合成音声情報を生成する ことを特徴とするプログラム。
PCT/JP2005/000505 2004-01-27 2005-01-17 音声合成装置 WO2005071664A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US10/587,241 US7571099B2 (en) 2004-01-27 2005-01-17 Voice synthesis device
JP2005517233A JP3895758B2 (ja) 2004-01-27 2005-01-17 音声合成装置
CN2005800033678A CN1914666B (zh) 2004-01-27 2005-01-17 声音合成装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004-018715 2004-01-27
JP2004018715 2004-01-27

Publications (1)

Publication Number Publication Date
WO2005071664A1 true WO2005071664A1 (ja) 2005-08-04

Family

ID=34805576

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/000505 WO2005071664A1 (ja) 2004-01-27 2005-01-17 音声合成装置

Country Status (4)

Country Link
US (1) US7571099B2 (ja)
JP (1) JP3895758B2 (ja)
CN (1) CN1914666B (ja)
WO (1) WO2005071664A1 (ja)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009237747A (ja) * 2008-03-26 2009-10-15 Denso Corp データポリモーフィング方法及びデータポリモーフィング装置
JP2009258292A (ja) * 2008-04-15 2009-11-05 Yamaha Corp 音声データ処理装置およびプログラム
JP2013190792A (ja) * 2012-03-14 2013-09-26 Toshiba Corp テキスト音声合成方法及びシステム
JP2014038282A (ja) * 2012-08-20 2014-02-27 Toshiba Corp 韻律編集装置、方法およびプログラム
JP2015049252A (ja) * 2013-08-29 2015-03-16 ヤマハ株式会社 音声合成装置
JP2015049253A (ja) * 2013-08-29 2015-03-16 ヤマハ株式会社 音声合成管理装置
JP2015148750A (ja) * 2014-02-07 2015-08-20 ヤマハ株式会社 歌唱合成装置
JP2015152630A (ja) * 2014-02-10 2015-08-24 株式会社東芝 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム
JP2015219430A (ja) * 2014-05-20 2015-12-07 日本電信電話株式会社 音声合成装置、その方法及びプログラム
US9361722B2 (en) 2013-08-08 2016-06-07 Kabushiki Kaisha Toshiba Synthetic audiovisual storyteller
JP2018041116A (ja) * 2017-12-18 2018-03-15 株式会社東芝 音声合成装置、音声合成方法およびプログラム
JP2018077281A (ja) * 2016-11-07 2018-05-17 ヤマハ株式会社 音声合成方法
JP2018136545A (ja) * 2012-06-18 2018-08-30 エイディシーテクノロジー株式会社 音声応答装置

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1288219C (zh) * 2002-11-29 2006-12-06 日立化成工业株式会社 粘合剂组合物、电路连接用粘合剂组合物、连接体及半导体装置
US7571099B2 (en) * 2004-01-27 2009-08-04 Panasonic Corporation Voice synthesis device
CN101622659B (zh) * 2007-06-06 2012-02-22 松下电器产业株式会社 音质编辑装置及音质编辑方法
CN101359473A (zh) 2007-07-30 2009-02-04 国际商业机器公司 自动进行语音转换的方法和装置
US8321225B1 (en) 2008-11-14 2012-11-27 Google Inc. Generating prosodic contours for synthesized speech
CN103403797A (zh) * 2011-08-01 2013-11-20 松下电器产业株式会社 语音合成装置以及语音合成方法
US9711134B2 (en) * 2011-11-21 2017-07-18 Empire Technology Development Llc Audio interface
CN105679331B (zh) * 2015-12-30 2019-09-06 广东工业大学 一种声气信号分离与合成的方法及系统
EP3392884A1 (en) * 2017-04-21 2018-10-24 audEERING GmbH A method for automatic affective state inference and an automated affective state inference system
KR102473447B1 (ko) 2018-03-22 2022-12-05 삼성전자주식회사 인공지능 모델을 이용하여 사용자 음성을 변조하기 위한 전자 장치 및 이의 제어 방법
TW202009924A (zh) * 2018-08-16 2020-03-01 國立臺灣科技大學 音色可選之人聲播放系統、其播放方法及電腦可讀取記錄媒體

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04158397A (ja) * 1990-10-22 1992-06-01 A T R Jido Honyaku Denwa Kenkyusho:Kk 声質変換方式
JPH07104791A (ja) * 1993-10-04 1995-04-21 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 声質制御型音声合成装置
JPH0950295A (ja) * 1995-08-09 1997-02-18 Fujitsu Ltd 音声合成方法およびそのための装置
JPH09152892A (ja) * 1995-09-26 1997-06-10 Nippon Telegr & Teleph Corp <Ntt> 音声信号変形接続方法
JPH09244693A (ja) * 1996-03-07 1997-09-19 N T T Data Tsushin Kk 音声合成方法及び装置
JP2001117597A (ja) * 1999-10-21 2001-04-27 Yamaha Corp 音声変換装置、音声変換方法及び音声変換用辞書の生成方法
JP2002351489A (ja) * 2001-05-29 2002-12-06 Namco Ltd ゲーム情報、情報記憶媒体、及びゲーム装置

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2553555B1 (fr) * 1983-10-14 1986-04-11 Texas Instruments France Procede de codage de la parole et dispositif pour sa mise en oeuvre
US5878396A (en) * 1993-01-21 1999-03-02 Apple Computer, Inc. Method and apparatus for synthetic speech in facial animation
JPH07319495A (ja) 1994-05-26 1995-12-08 N T T Data Tsushin Kk 音声合成装置のための合成単位データ生成方式及び方法
JPH08152900A (ja) 1994-11-28 1996-06-11 Sony Corp 音声合成方法及び音声合成装置
CN1178022A (zh) * 1995-03-07 1998-04-01 英国电讯有限公司 语音合成器
US6591240B1 (en) * 1995-09-26 2003-07-08 Nippon Telegraph And Telephone Corporation Speech signal modification and concatenation method by gradually changing speech parameters
JP3240908B2 (ja) 1996-03-05 2001-12-25 日本電信電話株式会社 声質変換方法
JPH10257435A (ja) * 1997-03-10 1998-09-25 Sony Corp 映像信号再生装置及び映像信号再生方法
US6101470A (en) * 1998-05-26 2000-08-08 International Business Machines Corporation Methods for generating pitch and duration contours in a text to speech system
US6199042B1 (en) * 1998-06-19 2001-03-06 L&H Applications Usa, Inc. Reading system
US6249758B1 (en) * 1998-06-30 2001-06-19 Nortel Networks Limited Apparatus and method for coding speech signals by making use of voice/unvoiced characteristics of the speech signals
US6151576A (en) * 1998-08-11 2000-11-21 Adobe Systems Incorporated Mixing digitized speech and text using reliability indices
EP1045372A3 (en) * 1999-04-16 2001-08-29 Matsushita Electric Industrial Co., Ltd. Speech sound communication system
JP3557124B2 (ja) 1999-05-18 2004-08-25 日本電信電話株式会社 音声変形方法、その装置、及びプログラム記録媒体
JP4054507B2 (ja) * 2000-03-31 2008-02-27 キヤノン株式会社 音声情報処理方法および装置および記憶媒体
US7039588B2 (en) * 2000-03-31 2006-05-02 Canon Kabushiki Kaisha Synthesis unit selection apparatus and method, and storage medium
JP3673471B2 (ja) * 2000-12-28 2005-07-20 シャープ株式会社 テキスト音声合成装置およびプログラム記録媒体
JP2003295882A (ja) * 2002-04-02 2003-10-15 Canon Inc 音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラム
JP4130190B2 (ja) * 2003-04-28 2008-08-06 富士通株式会社 音声合成システム
US7571099B2 (en) * 2004-01-27 2009-08-04 Panasonic Corporation Voice synthesis device

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04158397A (ja) * 1990-10-22 1992-06-01 A T R Jido Honyaku Denwa Kenkyusho:Kk 声質変換方式
JPH07104791A (ja) * 1993-10-04 1995-04-21 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 声質制御型音声合成装置
JPH0950295A (ja) * 1995-08-09 1997-02-18 Fujitsu Ltd 音声合成方法およびそのための装置
JPH09152892A (ja) * 1995-09-26 1997-06-10 Nippon Telegr & Teleph Corp <Ntt> 音声信号変形接続方法
JPH09244693A (ja) * 1996-03-07 1997-09-19 N T T Data Tsushin Kk 音声合成方法及び装置
JP2001117597A (ja) * 1999-10-21 2001-04-27 Yamaha Corp 音声変換装置、音声変換方法及び音声変換用辞書の生成方法
JP2002351489A (ja) * 2001-05-29 2002-12-06 Namco Ltd ゲーム情報、情報記憶媒体、及びゲーム装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SAWAMURA A. ET AL: "HMM Onsei Gosei ni okeru Spectrum. Pitch eno Koyusei Shuho no Tekiyo.", THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS GIJUTSU KENKYU HOKOKU, SP2001-72., 21 September 2001 (2001-09-21), pages 65 - 72, XP002992129 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009237747A (ja) * 2008-03-26 2009-10-15 Denso Corp データポリモーフィング方法及びデータポリモーフィング装置
JP2009258292A (ja) * 2008-04-15 2009-11-05 Yamaha Corp 音声データ処理装置およびプログラム
JP2015072490A (ja) * 2012-03-14 2015-04-16 株式会社東芝 テキスト音声合成方法及びシステム
JP2013190792A (ja) * 2012-03-14 2013-09-26 Toshiba Corp テキスト音声合成方法及びシステム
US9454963B2 (en) 2012-03-14 2016-09-27 Kabushiki Kaisha Toshiba Text to speech method and system using voice characteristic dependent weighting
JP2018136545A (ja) * 2012-06-18 2018-08-30 エイディシーテクノロジー株式会社 音声応答装置
JP2014038282A (ja) * 2012-08-20 2014-02-27 Toshiba Corp 韻律編集装置、方法およびプログラム
US9361722B2 (en) 2013-08-08 2016-06-07 Kabushiki Kaisha Toshiba Synthetic audiovisual storyteller
JP2015049253A (ja) * 2013-08-29 2015-03-16 ヤマハ株式会社 音声合成管理装置
JP2015049252A (ja) * 2013-08-29 2015-03-16 ヤマハ株式会社 音声合成装置
JP2015148750A (ja) * 2014-02-07 2015-08-20 ヤマハ株式会社 歌唱合成装置
JP2015152630A (ja) * 2014-02-10 2015-08-24 株式会社東芝 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム
JP2015219430A (ja) * 2014-05-20 2015-12-07 日本電信電話株式会社 音声合成装置、その方法及びプログラム
JP2018077281A (ja) * 2016-11-07 2018-05-17 ヤマハ株式会社 音声合成方法
JP2018041116A (ja) * 2017-12-18 2018-03-15 株式会社東芝 音声合成装置、音声合成方法およびプログラム

Also Published As

Publication number Publication date
CN1914666B (zh) 2012-04-04
US20070156408A1 (en) 2007-07-05
CN1914666A (zh) 2007-02-14
JP3895758B2 (ja) 2007-03-22
JPWO2005071664A1 (ja) 2007-12-27
US7571099B2 (en) 2009-08-04

Similar Documents

Publication Publication Date Title
JP3895758B2 (ja) 音声合成装置
JP4355772B2 (ja) 力み変換装置、音声変換装置、音声合成装置、音声変換方法、音声合成方法およびプログラム
US7739113B2 (en) Voice synthesizer, voice synthesizing method, and computer program
JP5159325B2 (ja) 音声処理装置及びそのプログラム
JP2006227589A (ja) 音声合成装置および音声合成方法
JPH0887296A (ja) 音声合成装置
Brooke et al. Two-and three-dimensional audio-visual speech synthesis
WO2023276539A1 (ja) 音声変換装置、音声変換方法、プログラム、および記録媒体
JP5055486B2 (ja) 遠隔操作アンドロイドの発話動作制御システム
KR100754430B1 (ko) 음성 기반 자동 립싱크 애니메이션 장치와 방법 및 기록매체
JPH01284898A (ja) 音声合成方法
JP3437064B2 (ja) 音声合成装置
JP2006030609A (ja) 音声合成データ生成装置、音声合成装置、音声合成データ生成プログラム及び音声合成プログラム
JPH08335096A (ja) テキスト音声合成装置
JPH07140996A (ja) 音声規則合成装置
JP2001125599A (ja) 音声データ同期装置及び音声データ作成装置
JP3785892B2 (ja) 音声合成装置及び記録媒体
JP2011141470A (ja) 素片情報生成装置、音声合成システム、音声合成方法、及び、プログラム
JP3883780B2 (ja) 音声合成装置
JP3368948B2 (ja) 音声規則合成装置
JPH0836397A (ja) 音声合成装置
Govokhina et al. A new trainable trajectory formation system for facial animation
JPH01244499A (ja) 音声素片ファイル作成装置
JPH0954599A (ja) 規則音声合成における抑揚制御方法および規則音声合成装置
JPH01118200A (ja) 音声合成方式

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
DPEN Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed from 20040101)
WWE Wipo information: entry into national phase

Ref document number: 2005517233

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 10587241

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 200580003367.8

Country of ref document: CN

122 Ep: pct application non-entry in european phase
WWP Wipo information: published in national office

Ref document number: 10587241

Country of ref document: US