WO2021090381A1 - ピッチパターン補正装置、プログラム及びピッチパターン補正方法 - Google Patents

ピッチパターン補正装置、プログラム及びピッチパターン補正方法 Download PDF

Info

Publication number
WO2021090381A1
WO2021090381A1 PCT/JP2019/043388 JP2019043388W WO2021090381A1 WO 2021090381 A1 WO2021090381 A1 WO 2021090381A1 JP 2019043388 W JP2019043388 W JP 2019043388W WO 2021090381 A1 WO2021090381 A1 WO 2021090381A1
Authority
WO
WIPO (PCT)
Prior art keywords
pitch
pitch pattern
section
correction
voice
Prior art date
Application number
PCT/JP2019/043388
Other languages
English (en)
French (fr)
Inventor
啓吾 川島
村山 修
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to JP2020516498A priority Critical patent/JP6727477B1/ja
Priority to PCT/JP2019/043388 priority patent/WO2021090381A1/ja
Publication of WO2021090381A1 publication Critical patent/WO2021090381A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Definitions

  • the present invention relates to a pitch pattern correction device, a program, and a pitch pattern correction method.
  • the conventional prosody correction method has a structure in which a pitch smaller than the maximum value always occurs at the end of the sentence, and when the flat accent phrase is at the end of the sentence, a speech style in which the pitch such as a question tone continues to rise is generated. There is a problem that the pitch pattern becomes unnatural.
  • an object of the present invention is to correct the pitch pattern so that the utterance style can be easily perceived naturally.
  • the pitch pattern correction device includes a maximum pitch specifying unit that specifies the maximum value of the pitch included in the sentence ending phrase in the voice in the voice pitch pattern, and the pitch pattern.
  • a maximum pitch specifying unit that specifies the maximum value of the pitch included in the sentence ending phrase in the voice in the voice pitch pattern
  • the pitch pattern Depending on at least one of the sentence end pitch section specifying part that specifies the sentence end pitch section that corresponds to the prosody of the end sentence of the voice, the specified maximum value, and the pitch included in the specified sentence end pitch section.
  • a pitch pattern correction unit that changes the speech style of the voice by correcting the pitch pattern, and the pitch pattern correction unit corrects the pitch pattern according to the prosody of the voice. It is characterized by changing.
  • the pitch pattern correction device is a partial pitch correction unit that corrects a specific section in a voice pitch pattern, and a sentence end in the voice in a pitch pattern including the corrected specific section.
  • a pitch pattern correction unit that changes the speech style of the voice by correcting the pitch pattern including the corrected specific section according to at least one of the pitches included in the sentence end pitch section.
  • the pitch pattern correction unit is characterized in that the correction amount for correcting the pitch pattern including the corrected specific section is changed according to the prosody of the voice.
  • the computer is used as a maximum pitch specifying unit for specifying the maximum value of the pitch included in the sentence ending phrase in the voice in the voice pitch pattern, and the voice in the pitch pattern.
  • the sentence-end pitch section specifying part specifies the sentence-end pitch section, which is the section corresponding to the end-of-speech utterance, and at least one of the specified maximum value and the pitch included in the specified sentence-end pitch section.
  • the pitch pattern correction unit functions as a pitch pattern correction unit that changes the utterance style of the voice, and the pitch pattern correction unit corrects the pitch pattern according to the prosody of the voice. It is characterized by changing.
  • a program uses a computer as a partial pitch correction unit for correcting a specific section in a voice pitch pattern, and a sentence ending phrase in the voice in a pitch pattern including the corrected specific section.
  • the maximum pitch specifying part that specifies the maximum value of the pitch included in the above, and the section corresponding to the prosody at the end of the sentence in the pitch pattern including the specified maximum value and the corrected specific section. It functions as a pitch pattern correction unit that changes the speech style of the voice by correcting the pitch pattern including the corrected specific section according to at least one of the pitches included in the sentence end pitch section.
  • the pitch pattern correction unit is characterized in that the correction amount for correcting the pitch pattern including the corrected specific section is changed according to the prosody of the voice.
  • the pitch pattern correction method specifies the maximum value of the pitch included in the sentence end phrase in the voice in the voice pitch pattern, and in the pitch pattern, the sentence end of the voice.
  • the sentence end pitch section which is a section corresponding to the phonology, is specified, and the pitch pattern is corrected according to at least one of the specified maximum value and the pitch included in the specified sentence end pitch section.
  • It is a pitch pattern correction method for changing the speech style of the voice, and is characterized in that when the pitch pattern is corrected, the correction amount for correcting the pitch pattern is changed according to the prosody of the voice. To do.
  • the pitch pattern correction method corrects a specific section in a voice pitch pattern, and is included in a sentence ending phrase in the voice in a pitch pattern including the corrected specific section.
  • the maximum value of the pitch is specified, and the pitch pattern including the specified maximum value and the corrected specific section is included in the sentence end pitch section which is a section corresponding to the prosody at the end of the sentence of the voice.
  • the correction amount for correcting the pitch pattern including the corrected specific section is changed according to the prosody of the voice.
  • the pitch pattern can be corrected so that the utterance style can be easily perceived naturally.
  • FIG. It is a block diagram which shows schematic structure of the pitch pattern correction apparatus which concerns on Embodiment 1.
  • FIG. It is a block diagram which shows the hardware configuration example of the pitch pattern correction apparatus. It is a flowchart which shows the operation of the pitch pattern correction apparatus which concerns on Embodiment 1.
  • FIG. It is the schematic which shows the 1st operation example of the pitch pattern correction part in Embodiment 1.
  • FIG. It is the schematic which shows the 2nd operation example of the pitch pattern correction part in Embodiment 1.
  • FIG. It is a block diagram which shows schematic structure of the pitch pattern correction apparatus which concerns on Embodiment 2.
  • FIG. It is a block diagram which shows schematic structure of the pitch pattern correction apparatus which concerns on Embodiment 2.
  • FIG. 3 It is the schematic which shows the operation example of the pitch pattern correction part in Embodiment 3.
  • FIG. It is a block diagram which shows schematic structure of the pitch pattern correction apparatus which concerns on Embodiment 4.
  • FIG. It is a flowchart which shows the operation of the pitch pattern correction apparatus which concerns on Embodiment 4.
  • FIG. 1 is a block diagram schematically showing the configuration of the pitch pattern correction device 100 according to the first embodiment.
  • the pitch pattern correction device 100 includes a voice information input unit 101, a pitch pattern acquisition unit 102, a maximum pitch identification unit 103, a sentence end pitch section identification unit 104, a language information input unit 105, and a language attribute information acquisition unit 106.
  • the pitch correction coefficient input unit 107, the pitch pattern correction method storage unit 108, and the pitch pattern correction unit 109 are provided.
  • the voice information input unit 101 accepts input of voice information capable of at least specifying a pitch pattern of voice.
  • the voice information input unit 101 gives the input voice information to the pitch pattern acquisition unit 102.
  • the voice information it suffices if the pitch pattern can be specified.
  • the voice information may be voice data indicating a voice spoken by a person, intermediate data for prosody control in a voice synthesizer, or a pitch pattern itself.
  • the pitch pattern acquisition unit 102 acquires the pitch pattern specified by the voice information given from the voice information input unit 101.
  • the pitch pattern acquisition unit 102 gives the acquired pitch pattern to the maximum pitch identification unit 103, the sentence end pitch section identification unit 104, and the pitch pattern correction unit 109.
  • the pitch indicates the pitch of the sound
  • the pitch pattern is a pattern indicating the change in the pitch of the sound.
  • the pitch pattern is, for example, a pitch sampled at regular time intervals, a series combining time information and pitch, and a pitch of control points in a speech element unit (syllabic, consonant-vowel or vowel-consonant, etc.) in speech synthesis. It may be as shown.
  • the maximum pitch specifying unit 103 specifies the maximum value of the pitch included in the end-of-speech phrase of the voice in the pitch pattern given by the pitch pattern acquisition unit 102, and generates the maximum pitch information indicating the specified maximum value. Then, the maximum pitch specifying unit 103 gives the maximum pitch information to the pitch pattern correction unit 109.
  • the maximum pitch specifying unit 103 can specify the sentence ending phrase as follows. In the standard language, the pitch that has started to fall does not rise again in one phrase, so the maximum pitch identification unit 103 guesses the phrase break at the position of the peak and valley of the pitch pattern transition, and thus ends the sentence. You can identify the phrase. Further, for example, when it is guaranteed that the last utterance is only one phrase like a simple word, the maximum pitch specifying unit 103 sets the end phrase after the section (pause section) where there is no pitch for a certain period of time or more. Can be regarded as. Further, when the pitch pattern is associated with the linguistic information, the phrase delimiter can be known from the linguistic information, so that the maximum pitch specifying unit 103 can specify the sentence ending phrase by referring to the linguistic information. ..
  • the maximum pitch specifying unit 103 can consider the section (for example, the pause section) or later where there is no pitch for a certain period of time or more as the sentence ending phrase. ..
  • the maximum pitch information may be any information indicating the maximum value of the pitch in the phrase at the end of the sentence.
  • the maximum pitch information may be the frequency information itself, or may be discretized or symbolized information.
  • the maximum pitch information may be not only one sample of the maximum value but also a value of a plurality of samples such as a pitch pattern of a phoneme including the maximum value, or a statistical value such as an average value of a plurality of samples.
  • the sentence end pitch section specifying unit 104 specifies a sentence end pitch section which is a section corresponding to the phoneme of the end of a voice in the pitch pattern given by the pitch pattern acquisition unit 102, and provides sentence end pitch information indicating the specified sentence end pitch section. Generate.
  • the sentence end pitch information may be any information that can identify the section in which the characteristic of the utterance style appears.
  • the language information input unit 105 accepts input of language information that can at least specify the language attribute information related to the pitch pattern.
  • the language information input unit 105 gives the input language information to the language attribute information acquisition unit 106.
  • the language information may be any information that can specify the language attribute information.
  • the linguistic information may be the linguistic attribute information itself, in the case of Japanese, it may be a sentence mixed with kanji and kana, or in the case of English, it may be information extracted by linguistic analysis from a notation such as an alphabet string. ..
  • the language attribute information acquisition unit 106 acquires the language attribute information specified by the language information given by the language information input unit 105.
  • the language attribute information acquisition unit 106 gives the acquired language attribute information to the pitch pattern correction unit 109.
  • the language attribute information may include information indicating a language attribute, which is a language attribute used to switch control when correcting a pitch pattern.
  • the linguistic attribute information may be a type of consonant with a final phonology such as accent position, voiced or unvoiced information, plosive, affricate, fricative or no consonant, and is the phonological information itself indicating a phonological symbol string. May be good.
  • the pitch correction coefficient input unit 107 accepts the input of the pitch correction coefficient for correcting the pitch pattern to make the voice of another utterance style.
  • the pitch correction coefficient is information corresponding to the weight of the pitch correction amount, which is the correction amount for correcting the pitch, and may be one or more numerical information.
  • the pitch correction coefficient input unit 107 gives the input pitch correction coefficient to the pitch pattern correction unit 109.
  • the pitch pattern correction method storage unit 108 stores pitch pattern correction method information indicating a pitch pattern correction method which is a pitch pattern correction method. It is assumed that the pitch pattern correction method information indicates the pitch pattern correction method for each language attribute. In other words, the pitch pattern correction method information indicates a plurality of language attributes and a plurality of pitch pattern correction methods each associated with each of the plurality of language attributes. It should be noted that the pitch pattern correction method information indicates a plurality of language attributes and a plurality of pitch pattern correction methods each associated with each of the plurality of language attributes for each utterance style to be changed. ..
  • the pitch pattern correction method may be, for example, the correction formula itself or a method indicating conditional branching in the program.
  • the pitch pattern correction unit 109 includes the maximum value indicated by the maximum pitch information given by the maximum pitch specifying unit 103 and the pitch included in the sentence end pitch section indicated by the sentence end pitch section information given by the sentence end pitch section specifying unit 104.
  • the pitch pattern correction unit switches the pitch pattern correction method according to the language attribute indicated by the language attribute information given by the language attribute information acquisition unit 106.
  • the pitch pattern correction unit 109 corrects a correction target section, which is a predetermined section of the pitch pattern, according to the utterance style to be changed.
  • the correction target section is the sentence end pitch section indicated by the sentence end pitch section information given from the sentence end pitch section identification unit 104, but the first embodiment is not limited to such an example.
  • the pitch pattern correction unit 109 stores, for example, a pitch pattern correction method corresponding to the language attribute indicated by the language attribute information given by the language attribute information acquisition unit 106 in the pitch pattern correction method storage unit 108. Select from the correction method information. Then, the pitch pattern correction unit 109 indicates the maximum value indicated by the maximum pitch information given by the maximum pitch specifying unit 103 and the sentence end pitch section information given by the sentence end pitch section specifying unit 104 according to the selected pitch pattern correction method.
  • the pitch correction coefficient given by the pitch correction coefficient input unit 107 is used as necessary according to at least one of the pitches included in the end-of-sentence pitch section, and in the pitch pattern given by the pitch pattern acquisition unit 102, the end of the sentence
  • the sentence end pitch section indicated by the sentence end pitch section information given by the pitch section identification unit 104 is corrected.
  • the corrected pitch pattern is output as a corrected pitch pattern.
  • FIG. 2 is a block diagram showing a hardware configuration example of the pitch pattern correction device 100 according to the first embodiment.
  • the pitch pattern correction device 100 includes a memory 131, a processor 132, a network interface (hereinafter referred to as a network I / F) 133, and a text input interface (hereinafter referred to as a text input I / F). It can be realized by a computer 130 including an image input interface (hereinafter referred to as an image input I / F) 135 and an acoustic input interface (hereinafter referred to as an acoustic input I / F) 136.
  • an image input interface hereinafter referred to as an image input I / F
  • an acoustic input I / F acoustic input I / F
  • the memory 131 stores a program that causes the processor 132 to function as a pitch pattern acquisition unit 102, a maximum pitch identification unit 103, a sentence end pitch section identification unit 104, a language attribute information acquisition unit 106, and a pitch pattern correction unit 109.
  • a program may be provided through a network, or may be recorded and provided on a recording medium. That is, such a program may be provided as, for example, a program product.
  • the memory 131 functions as a pitch pattern correction method storage unit 108 that stores pitch pattern correction method information. Further, the memory 131 stores intermediate data such as pitch pattern, voice information, language attribute information, language information, maximum pitch information, sentence end pitch section information, pitch correction coefficient, and correction pitch pattern.
  • the memory 131, the non-volatile memory, or the volatile memory may be used.
  • the processor 132 is a circuit such as a CPU (Central Processing Unit) or a DSP (Digital Signal Processor) that reads a necessary program from the memory 131 and executes the program.
  • CPU Central Processing Unit
  • DSP Digital Signal Processor
  • the network I / F 133 is an interface for communicating when referring to voice information, language information or pitch correction coefficient from data on the network or when inputting stream data, and is a voice information input unit 101 and a language information input unit. It can function as 105 or the pitch correction coefficient input unit 107.
  • the network I / F 133 is unnecessary if it has a configuration that does not require communication.
  • the text input I / F 134 is an interface for inputting data on a PC or a network as a text string as an input means for voice information, language information, or pitch correction coefficient by using a keyboard, a mouse, or the like. It can function as an input unit 101, a language information input unit 105, or a pitch correction coefficient input unit 107.
  • the text input I / F 134 is unnecessary if it has a configuration that does not require input by a keyboard, mouse, or the like.
  • the image input I / F135 is a display interface for designating data on a PC (Personal Computer) or a network as a means for inputting voice information, linguistic information, or pitch correction coefficient by GUI (Graphical User Interface). It can function as a voice information input unit 101, a language information input unit 105, or a pitch correction coefficient input unit 107.
  • the image input I / F 135 is unnecessary if it has a configuration that does not require display on the display.
  • the acoustic input I / F 136 is an interface for inputting acoustics such as a microphone.
  • the acoustic input I / F 136 can function as a voice information input unit.
  • the acoustic input I / F 136 is unnecessary if the pitch pattern correction device 100 does not require recording by the microphone.
  • the memory 131 is arranged inside the computer 130, but the embodiment is not limited to such an example.
  • it may be an external memory such as a USB (Universal Serial Bus) memory, or it may be a storage device connected to a network.
  • the memory 131 may be composed of both the internal memory of the computer 130 and the external memory of the computer 130.
  • FIG. 3 is a flowchart showing the operation of the pitch pattern correction device 100.
  • the pitch pattern acquisition unit 102 receives at least voice information capable of specifying the pitch pattern from the voice information input unit 101, and acquires the pitch pattern specified by the voice information (S10).
  • the acquired pitch pattern is given to the maximum pitch specifying unit 103, the sentence end pitch section specifying unit 104, and the pitch pattern correcting unit 109.
  • the voice information input unit 101 may receive voice information input from a device such as a microphone or a camera that can acquire an acoustic signal. Further, the voice information input unit 101 may read the voice information by selecting the data on the memory or the network by the user using a device such as a keyboard or a mouse. Further, the voice information input unit 101 may receive input as voice information of stream data acquired from another device or intermediate data of voice synthesis by performing communication.
  • a device such as a microphone or a camera that can acquire an acoustic signal.
  • the voice information input unit 101 may read the voice information by selecting the data on the memory or the network by the user using a device such as a keyboard or a mouse. Further, the voice information input unit 101 may receive input as voice information of stream data acquired from another device or intermediate data of voice synthesis by performing communication.
  • a known method such as the cepstrum method may be used.
  • Known methods such as the cepstrum method are described in the following documents. Sadaoki Furui, “Voice Information Processing", 1st Edition, Morikita Publishing Co., Ltd., June 30, 1998, p. 22-26
  • the language attribute information acquisition unit 106 receives the language information capable of specifying the necessary attributes of the language from the language information input unit 105, and acquires the language attribute information indicating the language attribute specified by the language information. (S11).
  • the language attribute information acquisition unit 106 analyzes information such as reading or accent by a known natural language processing technique, identifies the language attribute, and identifies the specified language attribute. It suffices to generate language attribute information indicating.
  • a known natural language processing technique For example, the following documents describe known natural language processing techniques. Yoshinori Kazaka, "Natural Language Processing in Speech Synthesis," Information Processing, Vol. 34, No. 10, 1993
  • the language attribute information acquisition unit 106 acquires the voice data from the language information input unit 105 or the voice information input unit 101, and uses a known voice recognition technique or the like to language the language.
  • the information may be extracted and the language attribute information may be acquired from the extracted language information.
  • a known speech recognition technique there is a technique described in the following documents. Sadaoki Furui, "Voice Information Processing", 1st Edition, Morikita Publishing Co., Ltd., June 30, 1998, p. 96-105
  • the maximum pitch specifying unit 103 identifies the maximum value of the pitch in the trailing phrase from the pitch pattern, and generates maximum pitch information indicating the specified maximum value (S12). Then, the generated maximum pitch information is given to the pitch pattern correction unit 109.
  • the maximum pitch specifying unit 103 may search for the maximum value among the pitch values included in the last frame of the pitch pattern and generate maximum pitch information indicating the value. At this time, the maximum pitch specifying unit 103 may search by narrowing down to the vicinity of the accent position by receiving the language attribute information from the language attribute information acquisition unit 106.
  • the sentence end pitch section specifying unit 104 identifies the section of the sentence end portion from the pitch pattern and generates sentence end pitch section information indicating the section of the specified pitch pattern (S13).
  • the generated sentence end pitch section information is given to the pitch pattern correction unit 109.
  • the sentence end pitch section specifying unit 104 may specify the last phonological section of the pitch pattern. Specifically, if the voice information includes the last phonological section information, or if the last phonological section can be estimated from the language attribute information acquired by the language attribute information acquisition unit 106, the sentence end pitch section The specific unit 104 may specify the section. For example, in Japanese, when the consonant of the last phonology is unvoiced, the pitch pattern continuous from the end can be the pitch pattern of the last vowel.
  • the sentence end pitch section specifying unit 104 traces back from the end in the pitch pattern, and the amount of change in the pitch with respect to the last pitch exceeds a certain threshold value.
  • Information indicating the section up to, or the section from the end to the point where the pitch cannot be extracted may be used as the end-of-sentence pitch section information.
  • the pitch correction coefficient input unit 107 gives the input pitch correction coefficient to the pitch pattern correction unit 109 (S14).
  • the pitch correction coefficient is input in the first embodiment, the first embodiment is not limited to such an example.
  • the pitch correction coefficient is a fixed value, the value may be included in the program functioning as the pitch pattern correction unit 109. In this case, the pitch correction coefficient input unit 107 may not be provided.
  • the pitch pattern correction unit 109 corrects the pitch pattern (S15). Specifically, it is as follows.
  • the pitch pattern correction unit 109 refers to the pitch pattern correction method information and selects a pitch pattern correction method corresponding to the language attribute indicated by the language attribute information. Then, the pitch pattern correction unit 109 indicates the maximum value indicated by the maximum pitch information given by the maximum pitch specifying unit 103 and the sentence end pitch section information given by the sentence end pitch section specifying unit 104 according to the selected pitch pattern correction method.
  • the pitch correction coefficient given by the pitch correction coefficient input unit 107 is used as necessary, and among the pitch patterns given by the pitch pattern acquisition unit 102, The sentence end pitch section indicated by the sentence end pitch section information given by the sentence end pitch section identification unit 104 is corrected. The corrected pitch pattern is output as a corrected pitch pattern.
  • steps S11 to S13 can be performed in parallel, and may be performed from any step.
  • step S11 by receiving the language attribute information acquired in S11, it may be possible to improve the extraction accuracy or reduce the processing amount in the maximum pitch specifying unit 103. In that case, after the processing in step S11, step S12 is performed. It should be done. In this case, the language attribute information is given to the maximum pitch specifying unit 103 from the language attribute information acquisition unit 106.
  • FIG. 4 and 5 are schematic views showing an operation example of the pitch pattern correction unit 109.
  • FIG. 6 is a schematic view showing an example of pitch pattern correction method information stored in the pitch pattern correction method storage unit 108.
  • a language attribute an example of selecting a pitch pattern correction method according to an accent position, which is an accent position in speech, is shown.
  • the pitch pattern correction method information 108a is table-type information including a control target row 108b, a flat plate row 108c, and a non-flat plate row 108d.
  • the control target column 108b indicates a target to be corrected.
  • start end indicates the pitch at the beginning of the sentence end pitch section
  • end indicates the pitch at the end of the sentence end pitch section.
  • Interpolation indicates the pitch between the starting pitch and the ending pitch in the sentence ending pitch section.
  • the flat plate sequence 108c indicates a pitch pattern correction method selected when the language attribute information indicates “flat plate”.
  • "-”, "maximum pitch x pitch correction coefficient", and “linear interpolation” are shown as the pitch pattern correction method for the "flat plate”.
  • "-" Indicates that the control target in the same line is not corrected.
  • the "maximum pitch x pitch correction coefficient” is a value obtained by multiplying the maximum value of the pitch specified by the maximum pitch specifying unit 103 by the pitch correction coefficient given by the pitch correction coefficient input unit 107, and added to the control target of the same line. Indicates to do.
  • Linear interpolation indicates that the pitch value between the starting pitch of the sentence ending pitch section and the ending pitch is obtained by linear interpolation based on the starting pitch value and the ending pitch value.
  • the value of the starting pitch and the value of the ending pitch when performing interpolation are the corrected values when correction is performed.
  • the non-plate sequence 108d indicates a pitch pattern correction method selected when the language attribute information indicates “non-plate”.
  • end pitch-start pitch indicates that the value obtained by subtracting the value of the start pitch from the value of the end pitch of the sentence end pitch section is added to the control target of the same line.
  • (Maximum pitch-terminal pitch) x pitch correction coefficient” is given by the pitch correction coefficient input unit 107 to a value obtained by subtracting the value of the terminal pitch from the maximum value of the pitch specified by the maximum pitch specifying unit 103.
  • FIGS. 4 (A) and 4 (B) are examples of correcting the pitch pattern of the word "hantai", which has a flat accent and has linguistic attribute information of 4 mora, to a question-like pitch pattern.
  • FIG. 4A shows the pitch pattern before correction.
  • the pitch pattern correction unit 109 selects, for example, the pitch pattern correction method of the flat plate from the pitch pattern correction method information 108a shown in FIG.
  • the pitch pattern correction unit 109 uses the value obtained by integrating the given pitch correction coefficient into the maximum value of the pitch as the value of the pitch at the end of the sentence end pitch section. Correction is performed by adding. Further, the pitch pattern correction unit 109 uses the value of the end pitch and the value of the start pitch with respect to the value of the pitch between the start pitch and the end pitch in the pitch pattern of the sentence end pitch section. Linear interpolation is performed.
  • the pitch pattern of the non-flat word "Sogune”, which has an accent in the first character and has linguistic attribute information of the number 3 mora, is corrected to a question-like pitch pattern. This is an example.
  • FIG. 5A shows a pitch pattern before correction.
  • the pitch pattern correction unit 109 selects, for example, the non-flat plate pitch pattern correction method from the pitch pattern correction method information 108a shown in FIG. To do.
  • the pitch pattern correction unit 109 subtracts the value of the pitch at the beginning of the sentence end pitch section from the value of the pitch at the end of the sentence end pitch section, and sets the value at the start.
  • the correction is performed by adding to the value of the pitch of.
  • the value of the pitch at the beginning of the pitch section at the end of the sentence is converted to the value of the pitch at the end before correction.
  • the pitch pattern correction unit 109 adds the value obtained by integrating the given pitch correction coefficient to the difference between the maximum value of the pitch and the value of the pitch at the end of the sentence end pitch section to the value of the end pitch. Is making corrections.
  • the pitch pattern correction unit 109 performs spline interpolation from the corrected value for the pitch value between the start pitch and the end pitch in the sentence end pitch section pitch pattern.
  • FIGS. 4 and 5 show a case where the pitch pattern correction method is selected between the flat plate type accent and the non-flat plate type accent, but other language attribute information such as the type of consonant or the number of mora can be obtained. It may be used to select a pitch pattern correction method. For example, the length of the pitch pattern that continues from the end differs depending on whether the consonant of the last phoneme is a voiced sound or an unvoiced sound. Therefore, for example, the pitch pattern correction method can be selected so that a voiced sound having a long pitch pattern has a gradual change and a voiced sound having a short pitch pattern has a sudden change.
  • the pitch pattern correction method can be selected so that the change is gradual when the number of mora is short (when the number of phonemes is small) and suddenly when the number of mora is long.
  • the phonological information includes voiced information, unvoiced information, or information indicating the type of consonant, and the pitch pattern correction method may be selected using such information.
  • the pitch between the starting pitch and the ending pitch is interpolated by the selected pitch pattern correction method, but the first embodiment is limited to such an example. Not done. For example, interpolation may be performed by a fixed method regardless of the pitch pattern correction method.
  • the pitch pattern of the sentence end pitch section is corrected, but the correction may be performed not only for the sentence end pitch section but also for all the pitch patterns.
  • the pitch pattern correction method is selected according to the language attribute information. This makes it possible to select a pitch pattern correction method according to the linguistic attribute information even when the difference in the pitch pattern between the declarative voice and the utterance style greatly differs depending on the linguistic attribute information such as the accent position, and the prosody. The accuracy of correction is improved, and a natural pitch pattern in which the utterance style is easily perceived can be realized.
  • FIG. 7 is a block diagram schematically showing the configuration of the pitch pattern correction device 200 according to the second embodiment.
  • the pitch pattern correction device 200 includes a voice information input unit 101, a pitch pattern acquisition unit 102, a maximum pitch identification unit 203, a pitch correction coefficient input unit 107, a pitch pattern correction method storage unit 208, and a pitch pattern correction unit 209. And a partial pitch correction unit 210.
  • the voice information input unit 101, pitch pattern acquisition unit 102, and pitch correction coefficient input unit 107 of the pitch pattern correction device 200 according to the second embodiment are the voice information input unit 101, pitch pattern of the pitch pattern correction device 100 according to the first embodiment. This is the same as the acquisition unit 102 and the pitch correction coefficient input unit 107.
  • the pitch pattern acquisition unit 102 gives the acquired pitch pattern to the partial pitch correction unit 210 and the pitch pattern correction unit 209.
  • the partial pitch correction unit 210 corrects at least one specific section in the pitch pattern.
  • the partial pitch correction unit 210 includes a maximum pitch section extraction unit 211, a maximum pitch section correction method storage unit 212, a maximum pitch section correction unit 213, a sentence end pitch section extraction unit 214, and a sentence end pitch section correction method storage unit 216.
  • the sentence end pitch section correction unit 215 is provided.
  • the maximum pitch section extraction unit 211 extracts and extracts the pitch pattern of the maximum pitch section, which is a section corresponding to the phoneme including the maximum value of the pitch in the sentence ending phrase, in the pitch pattern given by the pitch pattern acquisition unit 102. Generates maximum pitch interval extraction information indicating the pitch pattern.
  • the generated maximum pitch section extraction information is given to the maximum pitch section correction unit 213.
  • the maximum pitch interval extraction information may be a pitch pattern of a phoneme corresponding to the maximum value of the pitch, or a pitch pattern of a phoneme corresponding to the maximum value of the pitch and a phoneme in the vicinity thereof.
  • the maximum pitch interval extraction information may be the frequency itself, or may be discretized or symbolized information.
  • the maximum pitch section correction method storage unit 212 stores the maximum pitch section correction method information indicating the maximum pitch section correction method which is a correction method of the pitch pattern of the maximum pitch section.
  • the maximum pitch section correction method may be, for example, the correction formula itself or may indicate a conditional branch in the program.
  • the maximum pitch section correction unit 213 indicates the maximum pitch section indicated by the maximum pitch section information given from the maximum pitch section extraction unit 211 by the maximum pitch section correction method information stored in the maximum pitch section correction method storage unit 212. Correct according to the maximum pitch section correction method. Then, the maximum pitch section correction unit 213 generates correction maximum pitch section information indicating the corrected pitch pattern, and gives the correction maximum pitch section information to the maximum pitch specific unit 203 and the pitch pattern correction unit 209.
  • the sentence end pitch section extraction unit 214 extracts the pitch pattern of the sentence end pitch section, which is a section corresponding to the phoneme at the end of the sentence, in the pitch pattern given by the pitch pattern acquisition unit 102, and indicates the extracted pitch pattern. Generate interval extraction information. The generated sentence end pitch section information is given to the sentence end pitch section correction unit 215.
  • the sentence end pitch section extraction information may be any information including the pitch pattern of the section in which the characteristic of the utterance style appears.
  • the sentence end pitch section extraction information may be a pitch pattern of the last phoneme, or a pitch pattern of the last phoneme and its vicinity.
  • the sentence end pitch section extraction information may be the frequency itself, or may be discretized or symbolized information.
  • the sentence end pitch section correction method storage unit 216 stores sentence end pitch section correction method information indicating a sentence end pitch section correction method which is a method for correcting the pitch pattern of the sentence end pitch section.
  • the sentence end pitch interval correction method may be, for example, the correction formula itself or may indicate a conditional branch in the program.
  • the sentence end pitch section correction unit 215 indicates the sentence end section indicated by the sentence end pitch section information given from the sentence end pitch section extraction unit 214 by the sentence end pitch section correction method information stored in the sentence end pitch section correction method storage unit 216. Correct according to the sentence end pitch section correction method. Then, the sentence end pitch section correction unit 215 generates correction sentence end pitch section information indicating the corrected pitch pattern, and gives the correction sentence end pitch section information to the pitch pattern correction unit 209.
  • the maximum pitch specifying unit 203 specifies the maximum value of the pitch included in the sentence ending phrase in the voice in the pitch pattern including the specific section corrected by the partial pitch correction unit 210. Specifically, the maximum pitch specifying unit 203 specifies the maximum value of the pitch from the pitch pattern indicated by the corrected maximum pitch section information given by the maximum pitch section correction unit 213, and the maximum pitch indicating the specified maximum value. Generate information. Then, the maximum pitch specifying unit 203 gives the maximum pitch information to the pitch pattern correction unit 209.
  • the pitch pattern correction method storage unit 208 stores pitch pattern correction method information indicating a pitch pattern correction method.
  • the pitch pattern correction method information does not need to indicate the pitch pattern correction method for each language attribute, and the pitch pattern correction method may be defined for each utterance style to be changed.
  • the pitch pattern correction method may be, for example, the correction formula itself or a method indicating conditional branching in the program.
  • the pitch pattern correction unit 209 is corrected by the partial pitch correction unit 210 according to at least one of the maximum value indicated by the maximum pitch information given by the maximum pitch specific unit 203 and the pitch included in the end-of-sentence pitch section.
  • the pitch pattern that includes a specific section By correcting the pitch pattern that includes a specific section, the utterance style of the voice is changed.
  • the sentence end pitch section is corrected by the sentence end pitch section correction unit 215, the corrected pitch value is used.
  • the pitch pattern correction unit 209 is indicated by the pitch pattern indicated by the correction maximum pitch section information given by the maximum pitch section correction unit 213 and the correction sentence end pitch section information given by the sentence end pitch section correction unit 215.
  • a partially corrected pitch pattern is generated by synthesizing the pitch pattern with the pitch pattern given by the pitch pattern acquisition unit 102.
  • the pitch pattern correction unit 209 acquires a pitch pattern correction method according to the utterance style for correcting the partial correction pitch pattern from the pitch pattern correction method information stored in the pitch pattern correction method storage unit 108. Then, the pitch pattern correction unit 209 responds to at least one of the maximum value indicated by the maximum pitch information given by the maximum pitch specific unit 203 and the pitch included in the sentence end pitch section by the acquired pitch pattern correction method. , Pitch correction coefficient The pitch correction coefficient given by the input unit 107 is used as necessary, and the section corresponding to the pitch pattern indicated by the correction sentence end pitch section information given by the sentence end pitch section correction unit 215 (that is, the sentence end pitch section). ) Partial correction Pitch pattern is corrected. The corrected partial correction pitch pattern is output as a correction pitch pattern.
  • the pitch pattern correction device 200 can also be realized by the computer 130 shown in FIG.
  • the memory 131 stores a program that causes the processor 132 to function as a pitch pattern acquisition unit 102, a maximum pitch identification unit 203, a pitch pattern correction unit 109, and a partial pitch correction unit 210.
  • the memory 131 includes a pitch pattern correction method storage unit 108 that stores pitch pattern correction method information, a maximum pitch section correction method storage unit 212 that stores maximum pitch section correction method information, and a sentence end that stores sentence end pitch section correction method information. It functions as a pitch section correction method storage unit 216.
  • FIG. 8 is a flowchart showing the operation of the pitch pattern correction device 200.
  • the pitch pattern acquisition unit 102 receives at least voice information capable of specifying the pitch pattern from the voice information input unit 101, and acquires the pitch pattern specified by the voice information (S20).
  • the processing here is the same as the processing in step S10 shown in FIG.
  • the acquired pitch pattern is given to the maximum pitch section extraction unit 211, the sentence end pitch section extraction unit 214, and the pitch pattern correction unit 209.
  • the maximum pitch section extraction unit 211 extracts the pitch pattern of the maximum pitch section, which is the section corresponding to the phoneme including the maximum value of the pitch in the sentence ending phrase, from the given pitch pattern, and the extracted pitch pattern.
  • the maximum pitch interval extraction information indicating is generated (S21).
  • the generated maximum pitch section extraction information is given to the maximum pitch section correction unit 213.
  • the sentence end pitch section extraction unit 214 extracts the pitch pattern of the sentence end pitch section including the sentence end pitch from the given pitch pattern, and generates sentence end pitch section extraction information indicating the extracted pitch pattern (S22). ).
  • the generated sentence end pitch section information is given to the sentence end pitch section correction unit 215.
  • the method of specifying the end-of-sentence pitch section is the same as in step S13 shown in FIG.
  • step S23 the pitch correction coefficient input unit 107 gives the input pitch correction coefficient to the pitch pattern correction unit 209 (S23).
  • the processing here is the same as in step S14 shown in FIG.
  • the maximum pitch section correction unit 213 corrects the pitch pattern of the maximum pitch section indicated by the given maximum pitch section information according to the maximum pitch section correction method (S24). Then, the maximum pitch section correction unit 213 generates correction maximum pitch section information indicating the corrected pitch pattern, and gives the correction maximum pitch section information to the maximum pitch specific unit 203 and the pitch pattern correction unit 209.
  • the sentence end pitch section correction unit 215 corrects the pitch pattern of the sentence end section indicated by the given sentence end pitch section information according to the sentence end pitch section correction method (S25). Then, the sentence end pitch section correction unit 215 generates correction sentence end pitch section information indicating the corrected pitch pattern, and gives the correction sentence end pitch section information to the pitch pattern correction unit 209.
  • the maximum pitch specifying unit 203 specifies the maximum value of the pitch in the pitch pattern indicated by the given corrected maximum pitch section information, and generates the maximum pitch information indicating the specified maximum value (S26). Then, the maximum pitch specifying unit 203 gives the maximum pitch information to the pitch pattern correction unit 209.
  • the pitch pattern correction unit 209 corrects the pitch pattern (S27). Specifically, it is as follows. First, the pitch pattern correction unit 209 combines the pitch pattern indicated by the given correction maximum pitch section information and the pitch pattern indicated by the given correction sentence end pitch section information into the given pitch pattern. , Generate a partial correction pitch pattern. Next, the pitch pattern correction unit 209 acquires a pitch pattern correction method corresponding to the utterance style for correcting the partial correction pitch pattern from the pitch pattern correction method information stored in the pitch pattern correction method storage unit 208. Then, the pitch pattern correction unit 209 is a pitch correction coefficient input unit according to at least one of the maximum value indicated by the given maximum pitch information and the pitch included in the sentence end pitch section by the acquired pitch pattern correction method. The pitch correction coefficient given from 107 is used as necessary to correct the partial correction pitch pattern of the section corresponding to the pitch pattern indicated by the given correction sentence end pitch section information (S27).
  • steps S21 to S23 can be performed in parallel, and may be performed from any step.
  • FIG. 9 is a schematic view showing an operation example of the maximum pitch section correction unit 213.
  • FIG. 10 is a schematic view showing an example of the maximum pitch section correction method information stored in the maximum pitch section correction method storage unit 212.
  • the maximum pitch section correction method information 212a is table-type information including the utterance style sequence 212b and the maximum pitch section correction method row 212c.
  • the utterance style sequence 212b shows the utterance style generated by performing correction by the pitch pattern correction unit 209.
  • “declaration”, “question”, and “confirmation” are shown as the utterance styles.
  • “Flat” indicates that a flat pitch pattern is generated by performing correction in the pitch pattern correction unit 209.
  • the “question” indicates that a question-like pitch pattern is generated by performing correction in the pitch pattern correction unit 209.
  • Confirmation indicates that a confirmation-like pitch pattern is generated by performing correction in the pitch pattern correction unit 209.
  • Maximum pitch section correction method Column 212c shows a maximum pitch section correction method which is a correction method for correcting the pitch included in the maximum pitch section according to the utterance style of the same row.
  • the pitch pattern of the non-flat word "Sogune”, which has an accent in the first character and has linguistic attribute information of the number 3 mora, is corrected to a question-like pitch pattern.
  • FIG. 9A shows the pitch pattern before correction.
  • the maximum pitch section correction unit 213 selects the maximum pitch section correction method corresponding to the question tone from the maximum pitch section correction method information 212a shown in FIG. 10, and as shown in FIG. 9B, Correct the pitch in the maximum pitch section.
  • the maximum pitch section correction unit 213 multiplied the value by 1.2.
  • the maximum pitch section is the pitch of two samples of the phoneme "o", and each value is multiplied by 1.2.
  • FIG. 11 is a schematic view showing an operation example of the sentence end pitch section correction unit 215.
  • FIG. 12 is a schematic diagram showing an example of sentence end pitch section correction method information stored in the sentence end pitch section correction method storage unit 216.
  • the sentence end pitch section correction method information 216a is table-type information including the utterance style sequence 216b and the sentence end pitch section correction method sequence 216c.
  • the utterance style sequence 216b shows the utterance style generated by performing correction by the pitch pattern correction unit 209.
  • "declaration”, “question”, and “confirmation” are shown as the utterance styles.
  • Sentence end pitch section correction method Column 216c shows a sentence end pitch section correction method which is a correction method for correcting the pitch included in the sentence end pitch section according to the utterance style of the same line.
  • the pitch pattern of the non-flat word "Sogune”, which has an accent in the first character and has linguistic attribute information of the number 3 mora, is corrected to a question-like pitch pattern.
  • FIG. 11A shows the pitch pattern before correction.
  • the sentence end pitch section correction unit 215 selects the sentence end pitch section correction method corresponding to the question tone from the sentence end pitch section correction method information 216a shown in FIG. 12, and as shown in FIG. 11 (B), the sentence end pitch section correction unit 215 selects the sentence end pitch section correction method. Correct the pitch in the end-of-sentence pitch section.
  • the sentence end pitch section correction unit 215 multiplies the value by 0.9.
  • the sentence end pitch section is the pitch of two samples of the phoneme "e", and each value is multiplied by 0.9.
  • the correction target of the maximum pitch section correction unit 213 or the sentence end pitch section correction unit 215 is a plurality of samples, it is not necessary to set a uniform correction value, and a correction method may be set according to the sample position. .. Further, after correcting the starting pitch and the ending pitch included in the maximum pitch section or the sentence ending pitch section, the pitch between them may be interpolated. Further, if the value included in the maximum pitch section or the sentence end pitch section to be corrected is a statistical value, each sample may be corrected so that the statistical value follows the correction method.
  • FIG. 13 is a schematic view showing an operation example of the pitch pattern correction unit 209 according to the second embodiment. Further, FIG. 14 is a schematic view showing an example of pitch pattern correction method information stored in the pitch pattern correction method storage unit 208.
  • the pitch pattern correction method information 208a is table-type information including the utterance style sequence 208b and the pitch pattern correction method sequence 208c.
  • the utterance style sequence 208b shows the utterance style generated by performing correction by the pitch pattern correction unit 209.
  • "declaration”, “question”, and “confirmation” are shown as the utterance styles.
  • Pitch pattern correction method Column 208c shows a pitch pattern correction method which is a correction method for correcting the pitch included in the partial correction pitch pattern according to the utterance style of the same row.
  • FIG. 13A shows a partially corrected pitch pattern generated by synthesizing the pitch pattern indicated by the corrected maximum pitch section information and the pitch pattern indicated by the corrected sentence end pitch section information into the pitch pattern.
  • the pitch pattern correction unit 209 selects a pitch pattern correction method corresponding to the question tone from the pitch pattern correction method information 208a shown in FIG. 14, and as shown in FIG. 13 (B), the end-of-sentence pitch section. Correct the pitch of.
  • the pitch pattern correction unit 209 performs pitch correction given by the pitch correction coefficient input unit 107 to a value obtained by subtracting the value of the pitch at the end of the sentence end pitch section from the maximum value of the pitch given by the maximum pitch identification unit 203. The value obtained by multiplying the coefficient is added to the value of the pitch at the end of the pitch section at the end of the sentence.
  • both the correction of the maximum pitch section and the correction of the sentence end pitch section are carried out, but the second embodiment is not limited to such an example.
  • either the correction of the maximum pitch section or the correction of the sentence end pitch section may be performed.
  • the maximum pitch section extraction unit 211, the maximum pitch section correction method storage unit 212, and the maximum pitch section correction unit 213 can be omitted.
  • the maximum pitch specifying unit 203 may specify the maximum value of the sentence end phrase in the pitch pattern given by the pitch pattern acquisition unit 102, as in the case of the maximum pitch specifying unit 103 in the first embodiment.
  • the pitches of the maximum pitch section and the sentence end pitch section are corrected, but the section corresponding to the pitch at the beginning of the sentence end phrase or the section corresponding to the minimum value of the pitch of the sentence end phrase is corrected. May be done. It suffices to make it possible to select the section for correcting the pitch according to the utterance style to be changed.
  • the maximum pitch correction method, the sentence end pitch correction method, or the pitch pattern correction method is selected to correct the pitch, but the second embodiment is based on such an example. Not limited. For example, when the utterance style to be corrected is decided, those correction methods can be fixed. In such a case, the maximum pitch section correction method storage unit 212, the sentence end pitch section correction method storage unit 216, and the pitch pattern correction method storage unit 208 can be omitted.
  • At least one of the maximum pitch section correction unit 213 and the sentence end pitch section correction unit 215 is provided and is configured to correct the pitch value. Correction including changing intonation is possible, and there is an effect that the perceptual accuracy of the utterance style of the generated pitch pattern can be improved.
  • the intonation in the maximum pitch section or the sentence ending pitch section is performed.
  • the pitch pattern correction device 200 includes a language information input unit 105, a language attribute information acquisition unit 106, and a pitch pattern correction method storage unit 108 of the pitch pattern correction device 100 according to the first embodiment.
  • the correction unit 209 may switch the pitch pattern correction method according to the language attribute, as in the first embodiment.
  • FIG. 15 is a block diagram schematically showing the configuration of the pitch pattern correction device 300 according to the third embodiment.
  • the pitch pattern correction device 300 includes an audio information input unit 101, a pitch pattern acquisition unit 102, a maximum pitch identification unit 103, a sentence end pitch section identification unit 104, a pitch correction coefficient input unit 107, and a pitch pattern correction method storage unit. It includes 208, a pitch pattern correction unit 309, a continuation length information input unit 320, and a pitch correction coefficient correction unit 321.
  • the voice information input unit 101, the pitch pattern acquisition unit 102, the maximum pitch identification unit 103, the sentence end pitch section identification unit 104, and the pitch correction coefficient input unit 107 of the pitch pattern correction device 300 according to the third embodiment are described in the first embodiment. This is the same as the voice information input unit 101, the pitch pattern acquisition unit 102, the maximum pitch identification unit 103, the sentence end pitch section identification unit 104, and the pitch correction coefficient input unit 107 of the pitch pattern correction device 100. Further, the pitch pattern correction method storage unit 208 of the pitch pattern correction device 300 according to the third embodiment is the same as the pitch pattern correction method storage unit 208 of the pitch pattern correction device 200 according to the second embodiment. However, the pitch correction coefficient input unit 107 gives the input pitch correction coefficient to the pitch correction coefficient correction unit 321.
  • the continuation length information input unit 320 inputs the continuation length, which is the length of the voice corresponding to the section for which the pitch pattern is corrected, in other words, the continuation length information indicating the continuation length of the section to be corrected for the prosody. receive.
  • the section to be corrected of the prosody is the sentence end pitch section.
  • the continuation length information is given to the pitch correction coefficient correction unit 321.
  • the pitch correction coefficient correction unit 321 generates a correction pitch correction coefficient by correcting the pitch correction coefficient given by the pitch correction coefficient input unit 107 according to the continuation length information given by the continuation length information input unit 320. Then, the generated correction pitch correction coefficient is given to the pitch pattern correction unit 309. As a result, the pitch pattern correction unit 309 can change the correction amount for correcting the pitch pattern according to the prosody of the voice.
  • the pitch pattern correction unit 309 includes the maximum value indicated by the maximum pitch information given by the maximum pitch specifying unit 103 and the pitch included in the sentence end pitch section indicated by the sentence end pitch section information given by the sentence end pitch section specifying unit 104.
  • the pitch pattern correction unit changes the correction amount for correcting the pitch pattern according to the prosody of the voice.
  • the pitch pattern correction unit 309 stores the pitch pattern correction method corresponding to the utterance style for correcting the pitch pattern given by the pitch pattern acquisition unit 102 in the pitch pattern correction method storage unit 208. Select from. Then, the pitch pattern correction unit 309 indicates the maximum value indicated by the maximum pitch information given by the maximum pitch specifying unit 103 and the sentence end pitch section information given by the sentence end pitch section specifying unit 104 by the selected pitch pattern correction method. In the pitch pattern given by the pitch pattern acquisition unit 102, the correction pitch correction coefficient given by the pitch correction coefficient correction unit 321 is used as necessary according to at least one of the pitches included in the end-of-sentence pitch section. The sentence end pitch section indicated by the sentence end pitch section information given by the sentence end pitch section identification unit 104 is corrected. The corrected pitch pattern is output as a corrected pitch pattern.
  • the pitch pattern correction device 300 can also be realized by the computer 130 shown in FIG.
  • the memory 131 stores a program that causes the processor 132 to function as a pitch pattern acquisition unit 102, a maximum pitch identification unit 103, a sentence end pitch section identification unit 104, a pitch correction coefficient correction unit 321 and a pitch pattern correction unit 309.
  • the pitch correction coefficient correction unit 321 can be realized by the network I / F133, the text input I / F134, or the image input I / F135.
  • FIG. 16 is a flowchart showing the operation of the pitch pattern correction device 300.
  • the pitch pattern acquisition unit 102 receives at least voice information capable of specifying the pitch pattern from the voice information input unit 101, and acquires the pitch pattern specified by the voice information (S30).
  • the processing here is the same as the processing in step S10 in FIG.
  • the acquired pitch pattern is given to the maximum pitch specifying unit 103, the sentence end pitch section specifying unit 104, and the pitch pattern correction unit 309.
  • the maximum pitch specifying unit 103 identifies the maximum value of the pitch in the trailing phrase from the pitch pattern, and generates maximum pitch information indicating the specified maximum value (S31).
  • the processing here is the same as the processing in step S12 in FIG.
  • the generated maximum pitch information is given to the pitch pattern correction unit 309.
  • the sentence end pitch section specifying unit 104 identifies the pitch pattern section of the sentence end portion from the pitch pattern, and generates sentence end pitch section information indicating the specified pitch pattern section (S32).
  • the processing here is the same as the processing in step S13 in FIG.
  • the generated sentence end pitch section information is given to the pitch pattern correction unit 309.
  • the pitch correction coefficient input unit 107 gives the input pitch correction coefficient to the pitch correction coefficient correction unit 321 (S33).
  • the pitch correction coefficient is input in the third embodiment, the third embodiment is not limited to such an example.
  • the pitch correction coefficient is a fixed value, the value may be included in the program functioning as the pitch correction coefficient correction unit 321. In this case, the pitch correction coefficient input unit 107 may not be provided.
  • the continuation length information input unit 320 accepts the input of the continuation length information (S34).
  • the input continuation length information is given to the pitch correction coefficient correction unit 321.
  • the continuous length information input unit 320 directly accepts the input of the continuous length information.
  • the pitch correction coefficient correction unit 321 receives the voice information input to the voice information input unit 101. Therefore, the continuation length may be specified.
  • the pitch correction coefficient correction unit 321 may use a known speech recognition method to estimate the time information of the phoneme and specify the continuation length of the pitch section at the end of the sentence.
  • Known speech recognition methods are described, for example, in the following documents. Sadaoki Furui, "Voice Information Processing", 1st Edition, Morikita Publishing Co., Ltd., June 30, 1998, p. 96-105
  • the pitch correction coefficient correction unit 321 generates a correction pitch correction coefficient by correcting the pitch correction coefficient according to the continuation length information (S35).
  • the generated correction pitch correction coefficient is given to the pitch pattern correction unit 309.
  • the pitch correction coefficient correction unit 321 may correct the pitch correction coefficient by linear conversion as shown in the following equation (1).
  • O w I Dur x I w ⁇ Def Dur (1)
  • I w indicates a pitch correction coefficient
  • I Dur indicates a continuation length
  • Def Dur indicates a preset reference pitch continuation length
  • O w indicates a correction pitch correction coefficient
  • a discrete correction pitch correction coefficient is preset in the pitch correction coefficient correction unit 321 according to the continuation length, and the pitch correction coefficient correction unit 321 replaces the pitch correction coefficient with the set correction pitch correction coefficient. You may do so.
  • the pitch pattern correction unit 309 corrects the pitch pattern (S36). Specifically, it is as follows. First, the pitch pattern correction unit 309 acquires a pitch pattern correction method corresponding to the utterance style generated by the correction. Then, the pitch pattern correction unit 309 indicates the maximum value indicated by the maximum pitch information given by the maximum pitch specifying unit 103 and the sentence end pitch section information given by the sentence end pitch section specifying unit 104 by the acquired pitch pattern correction method. The correction pitch correction coefficient given by the pitch correction coefficient correction unit 321 is used as necessary according to at least one of the pitches included in the end-of-sentence pitch section, and the pitch pattern given by the pitch pattern acquisition unit 102 is used. Of these, the sentence end pitch section indicated by the sentence end pitch section information given by the sentence end pitch section identification unit 104 is corrected. The corrected pitch pattern is output as a corrected pitch pattern.
  • steps S31 to S33 can be performed in parallel, and may be performed from any step.
  • FIG. 17 shows an operation example of the pitch pattern correction unit 309 according to the third embodiment. It is assumed that the pitch pattern correction method storage unit 208 in the third embodiment stores the pitch pattern correction method information 208a as shown in FIG.
  • FIGS. 17A and 17B the pitch pattern of the non-flat word "Sogune", which has an accent in the first character and has linguistic attribute information of the number 3 mora, is corrected to a question-like pitch pattern.
  • FIG. 17A shows the pitch pattern before correction.
  • the pitch pattern correction unit 309 corrects the value of the pitch at the rear end in the sentence end pitch section, as shown in FIG. 17B, based on the pitch pattern correction method in which the utterance style is questioned.
  • the correction pitch correction coefficient is "0.8"
  • the value of the pitch at the rear end is corrected so that the value is lower than the maximum value of the pitch.
  • the pitch correction coefficient is corrected based on the continuation length indicated by the continuation length information, but the third embodiment is not limited to such an example.
  • the pitch correction coefficient may be modified by using the prosody of the spoken voice other than the continuation length of the pitch section at the end of the sentence.
  • the pitch correction coefficient may be modified based on prosody such as the duration or speed of the entire utterance.
  • the pitch correction coefficient may be modified based on the prosody such as the magnitude of intonation.
  • the pitch correction coefficient may be modified according to the continuation length or pitch statistics (for example, mean, variance, median, etc.). The pitch correction coefficient may be modified based on the information obtained by combining these.
  • the pitch correction coefficient that affects the correction amount can be corrected according to the continuation length. Since the correction amount sufficient for perceiving the utterance style differs depending on the continuation length, the correction amount can be set according to the continuation length, and a natural pitch pattern in which the utterance style is easily perceived can be realized.
  • the pitch pattern correction device 300 includes a language information input unit 105, a language attribute information acquisition unit 106, and a pitch pattern correction method storage unit 108 of the pitch pattern correction device 100 according to the first embodiment.
  • the correction unit 309 may switch the pitch pattern correction method according to the language attribute, as in the first embodiment.
  • the pitch pattern correction device 300 includes a partial pitch correction unit 210 and a maximum pitch identification unit 203 of the pitch pattern correction device 200 according to the second embodiment, and the pitch pattern correction unit 309 is a partial pitch correction unit.
  • the pitch pattern including the specific section corrected by 210 may be corrected.
  • FIG. 18 is a block diagram schematically showing the configuration of the pitch pattern correction device 400 according to the fourth embodiment.
  • the pitch pattern correction device 400 includes a voice information input unit 101, a pitch pattern acquisition unit 102, a maximum pitch identification unit 203, a language information input unit 105, a language attribute information acquisition unit 106, and a pitch correction coefficient input unit 107.
  • a pitch pattern correction method storage unit 108, a pitch pattern correction unit 409, a partial pitch correction unit 210, a continuous length information input unit 320, and a pitch correction coefficient correction unit 321 are provided.
  • Reference numeral 108 denotes a voice information input unit 101, a pitch pattern acquisition unit 102, a language information input unit 105, a language attribute information acquisition unit 106, a pitch correction coefficient input unit 107, and a pitch pattern correction unit of the pitch pattern correction device 100 according to the first embodiment. This is the same as the method storage unit 108.
  • the maximum pitch specifying unit 203 and the partial pitch correction unit 210 of the pitch pattern correction device 400 according to the fourth embodiment are the maximum pitch specifying unit 203 and the partial pitch correction unit 210 of the pitch pattern correction device 200 according to the second embodiment. Is similar to. Therefore, as shown in FIG. 7, the partial pitch correction unit 210 includes the maximum pitch section extraction unit 211, the maximum pitch section correction method storage unit 212, the maximum pitch section correction unit 213, and the sentence end pitch section extraction. A sentence end pitch section correction method storage unit 216 and a sentence end pitch section correction unit 215 are provided.
  • the continuous length information input unit 320 and the pitch correction coefficient correction unit 321 of the pitch pattern correction device 400 according to the fourth embodiment are the continuous length information input unit 320 and the pitch correction unit 320 of the pitch pattern correction device 300 according to the third embodiment. This is the same as the coefficient correction unit 321.
  • the pitch pattern correction unit 409 corresponds to the phonology at the end of the sentence in the pitch pattern including the maximum value indicated by the maximum pitch information given by the maximum pitch identification unit 203 and the specific section corrected by the partial pitch correction unit 210.
  • the voice utterance style is changed by correcting the pitch pattern including the specific section corrected by the partial pitch correction unit 210 according to at least one of the pitches included in the sentence end pitch section which is the section to be performed.
  • the pitch pattern correction unit 409 includes a pitch pattern indicated by the correction maximum pitch section information given by the maximum pitch section correction unit 213 and a pitch pattern indicated by the correction sentence end pitch section information given by the sentence end pitch section correction unit 215. Is combined with the pitch pattern given by the pitch pattern acquisition unit 102 to generate a partially corrected pitch pattern.
  • the pitch pattern correction unit 409 stores a pitch pattern correction method corresponding to the language attribute indicated by the language attribute information given by the language attribute information acquisition unit 106 in the pitch pattern correction method storage unit 108. Select from the correction method information. Then, the pitch pattern correction unit 409 uses the selected pitch pattern correction method to set at least one of the maximum value indicated by the maximum pitch information given by the maximum pitch identification unit 103 and the pitch included in the sentence end pitch section. Accordingly, the correction pitch correction coefficient given by the pitch correction coefficient correction unit 321 is used as necessary to correct the partial correction pitch pattern of the section corresponding to the pitch pattern indicated by the given correction sentence end pitch section information. The corrected partial correction pitch pattern is output as a correction pitch pattern.
  • the pitch pattern correction device 400 can also be realized by the computer 130 shown in FIG.
  • the memory 131 also stores a program that causes the processor 132 to function as the pitch pattern correction unit 409.
  • FIG. 19 is a flowchart showing the operation of the pitch pattern correction device 400.
  • the pitch pattern acquisition unit 102 receives at least voice information capable of specifying the pitch pattern from the voice information input unit 101, and acquires the pitch pattern specified by the voice information (S40).
  • the processing here is the same as the processing in step S10 shown in FIG.
  • the acquired pitch pattern is given to the maximum pitch section extraction unit 211, the sentence end pitch section extraction unit 214, and the pitch pattern correction unit 409.
  • the language attribute information acquisition unit 106 receives the language information capable of specifying the language attribute from the language information input unit 105, and acquires the language attribute information indicating the language attribute specified by the language information (S41). ).
  • the processing here is the same as the processing in step S11 of FIG.
  • the acquired language attribute information is given to the pitch pattern correction unit 409.
  • the maximum pitch section extraction unit 211 extracts the pitch pattern of the maximum pitch section, which is a section corresponding to the phoneme including the maximum value of the pitch in the sentence ending phrase, in the given pitch pattern, and the extracted pitch pattern.
  • the maximum pitch interval extraction information indicating is generated (S42).
  • the processing here is the same as the processing in step S21 of FIG.
  • the generated maximum pitch section extraction information is given to the maximum pitch section correction unit 213.
  • the sentence end pitch section extraction unit 214 extracts the pitch pattern of the sentence end pitch section including the sentence end pitch in the given pitch pattern, and generates the sentence end pitch section extraction information indicating the extracted pitch pattern (S43). ).
  • the processing here is the same as the processing in step S22 of FIG.
  • the generated sentence end pitch section information is given to the sentence end pitch section correction unit 215.
  • the pitch correction coefficient input unit 107 gives the input pitch correction coefficient to the pitch correction coefficient correction unit 321 (S44).
  • the processing here is the same as the processing in step S33 of FIG.
  • the maximum pitch section correction unit 213 corrects the pitch pattern of the maximum section indicated by the given maximum pitch section information according to the maximum pitch section correction method (S45).
  • the processing here is the same as the processing in step S24 of FIG.
  • the maximum pitch section correction unit 213 generates correction maximum pitch section information indicating the corrected pitch pattern, and gives the correction maximum pitch section information to the maximum pitch identification unit 203 and the pitch pattern correction unit 409.
  • the sentence end pitch section correction unit 215 corrects the pitch pattern of the sentence end section indicated by the given sentence end pitch section information according to the sentence end pitch section correction method (S46).
  • the processing here is the same as the processing in step S25 of FIG.
  • the sentence end pitch section correction unit 215 generates correction sentence end pitch section information indicating the corrected pitch pattern, and gives the correction sentence end pitch section information to the pitch pattern correction unit 409.
  • the maximum pitch specifying unit 203 specifies the maximum value of the pitch in the pitch pattern indicated by the given corrected maximum pitch section information, and generates the maximum pitch information indicating the specified maximum value (S47).
  • the processing here is the same as the processing in step S26 of FIG.
  • the maximum pitch specifying unit 203 gives the maximum pitch information to the pitch pattern correction unit 409.
  • the continuation length information input unit 320 accepts the input of the continuation length information (S48).
  • the processing here is the same as the processing in step S34 of FIG.
  • the input continuation length information is given to the pitch correction coefficient correction unit 321.
  • the pitch correction coefficient correction unit 321 generates a correction pitch correction coefficient by correcting the pitch correction coefficient according to the continuation length information (S49).
  • the processing here is the same as the processing in step S35 of FIG.
  • the generated correction pitch correction coefficient is given to the pitch pattern correction unit 409.
  • the pitch pattern correction unit 409 corrects the pitch pattern (S50). Specifically, it is as follows. First, the pitch pattern correction unit 409 combines the pitch pattern indicated by the correction maximum pitch section information and the pitch pattern indicated by the correction sentence end pitch section information with the pitch pattern given by the pitch pattern acquisition unit 102. Generate a partial correction pitch pattern. Next, the pitch pattern correction unit 409 selects a pitch pattern correction method corresponding to the language attribute indicated by the language attribute information from the pitch pattern correction method information stored in the pitch pattern correction method storage unit 108. Then, the pitch pattern correction unit 409 responds to at least one of the maximum value indicated by the maximum pitch information given by the maximum pitch identification unit 103 and the pitch included in the sentence end pitch section by the selected pitch pattern correction method. , The correction pitch correction coefficient given by the pitch correction coefficient correction unit 321 is used as necessary to correct the partial correction pitch pattern of the section corresponding to the pitch pattern indicated by the given correction sentence end pitch section information.
  • FIG. 20 shows an operation example of the pitch pattern correction unit 409 according to the fourth embodiment. It is assumed that the pitch pattern correction method storage unit 108 in the fourth embodiment stores the pitch pattern correction method information 108a as shown in FIG.
  • the pitch pattern of the non-flat word "Sogune" which has an accent in the first character and has linguistic attribute information of the number 3 mora, is corrected to a question-like pitch pattern.
  • FIG. 20A shows a partially corrected pitch pattern generated by synthesizing the pitch pattern indicated by the corrected maximum pitch section information and the pitch pattern indicated by the corrected sentence end pitch section information into the pitch pattern. ..
  • the pitch pattern correction unit 409 selects, for example, the non-flat plate pitch pattern correction method from the pitch pattern correction method information 108a shown in FIG. To do.
  • the pitch pattern correction unit 409 subtracts the value of the pitch at the beginning of the sentence end pitch section from the value of the pitch at the end of the sentence end pitch section, and sets the starting end.
  • the correction is performed by adding to the value of the pitch of.
  • the value of the pitch at the beginning of the pitch section at the end of the sentence is converted to the value of the pitch at the end before correction.
  • the terminal pitch value here is a value obtained by multiplying the terminal pitch value in the pitch pattern given by the pitch pattern acquisition unit 102 by the sentence end pitch section correction unit 215 by "0.9". ing.
  • the pitch pattern correction unit 409 adds a value obtained by integrating the given correction pitch correction coefficient to the difference between the maximum pitch value and the end pitch value of the sentence end pitch section to the end pitch value. It is corrected by that.
  • the maximum value of the pitch is a value obtained by multiplying the maximum value in the pitch pattern given by the pitch pattern acquisition unit 102 by the maximum pitch section correction unit 213 by "1.2".
  • the correction pitch correction coefficient is "0.8".
  • the correction method according to the language attribute information As described above, according to the fourth embodiment, even when the difference in the pitch pattern between the declarative voice and the utterance style differs greatly depending on the language attribute information such as the accent position, the correction method according to the language attribute information. It is possible to correct the intonation that is emphasized or changed depending on the utterance style, and the amount of correction sufficient for perceiving the utterance style differs depending on the continuation length of the speech, whereas the correction according to the continuation length. You will be able to set the amount. Therefore, there is an effect that the accuracy of prosody correction is improved and a natural pitch pattern in which the utterance style is easily perceived can be realized.
  • step S43 when the change in the pitch pattern due to the utterance style affects the phoneme near the last phoneme, the sentence end pitch section extraction unit 214 extracts the pitch pattern of the section extended to the affected phoneme as the sentence end pitch section information. Then, it is possible to correct the pitch pattern in a flexible range according to the utterance style, and there is an effect that the perceptual accuracy of the utterance style can be improved.
  • step S45 when the pitch pattern correction unit 409 uses statistical values such as the average value or variance of utterances to correct the pitch, the correction is performed in consideration of the tendency of the pitch pattern of the entire sentence ending phrase. This has the effect of improving the perceptual accuracy of the utterance style.
  • step S45 when the pitch pattern correction unit 409 newly prepares a means for extracting the minimum pitch in the phrase and is configured to perform correction in consideration of the minimum pitch, the maximum pitch and the end pitch are close to each other. Even in the case of flat-type utterances, it is possible to make corrections in consideration of the magnitude of intonation, and there is an effect that the perceptual accuracy of the utterance style of the generated pitch pattern can be improved.
  • the maximum pitch is partially corrected by at least one of the maximum pitch section and the end-of-sentence pitch section of the pitch pattern, and the correction amount for correcting the pitch pattern is changed according to the prosody of the voice. It is possible to correct the pitch correction coefficient in consideration of the change in intonation due to the correction of the section and the end-of-sentence pitch section, improve the accuracy of prosody correction, and realize a natural pitch pattern in which the utterance style is easily perceived.
  • pitch pattern correction device 101 voice information input unit, 102 pitch pattern acquisition unit, 103, 203 maximum pitch identification unit, 104 sentence end pitch section identification unit, 105 language information input unit, 106 language attribute information acquisition Unit, 107 pitch correction coefficient input unit, 108,208 pitch pattern correction method storage unit, 109,209,309,409 pitch pattern correction unit, 210 partial pitch correction unit, 211 maximum pitch section extraction unit, 212 maximum pitch section correction method Storage unit, 213 maximum pitch section correction unit, 214 sentence end pitch section extraction unit, 215 sentence end pitch section correction unit, 216 sentence end pitch section correction method storage unit, 320 continuous length information input unit, 321 pitch correction coefficient correction unit.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

音声のピッチパターンにおいて、音声における文末フレーズに含まれているピッチの最大値を特定する最大ピッチ特定部(103)と、ピッチパターンにおいて、音声の文末の音韻に対応する区間である文末ピッチ区間を特定する文末ピッチ区間特定部(104)と、特定された最大値及び特定された文末ピッチ区間に含まれるピッチの少なくとも何れか一方に応じて、ピッチパターンを補正することで、音声の発話様式を変更するピッチパターン補正部(309)と、を備え、ピッチパターン補正部(309)は、音声の韻律に応じて、ピッチパターンを補正する補正量を変更することを特徴とする。

Description

ピッチパターン補正装置、プログラム及びピッチパターン補正方法
 本発明は、ピッチパターン補正装置、プログラム及びピッチパターン補正方法に関する。
 従来、平叙音声のピッチパターンを補正し、例えば、質問調、念押し又は個人性を含むイントネーション等の別の発話様式の音声を生成する技術が多く開発されている。
 特許文献1には、ピッチパターンの文末から最大値を抽出し、最大値と終端音韻のピッチとの間の値に相当する基準ピッチを算出し、基準ピッチより小さい値と基準ピッチより大きい値を算出し文末のピッチとすることで、韻律を補正する韻律補正方法が開示されている。
特開2008-15362号公報
 従来の韻律補正方法は、最大値より小さいピッチが必ず文末に発生する構成となっており、平板型のアクセント句が文末である場合に、質問調等のピッチが上昇を継続する発話様式を生成する上で、不自然なピッチパターンになるという課題がある。
 そこで、本発明は、自然で発話様式を容易に知覚することができるように、ピッチパターンを補正することを目的とする。
 本発明の第1の態様に係るピッチパターン補正装置は、音声のピッチパターンにおいて、前記音声における文末フレーズに含まれているピッチの最大値を特定する最大ピッチ特定部と、前記ピッチパターンにおいて、前記音声の文末の音韻に対応する区間である文末ピッチ区間を特定する文末ピッチ区間特定部と、前記特定された最大値及び前記特定された文末ピッチ区間に含まれるピッチの少なくとも何れか一方に応じて、前記ピッチパターンを補正することで、前記音声の発話様式を変更するピッチパターン補正部と、を備え、前記ピッチパターン補正部は、前記音声の韻律に応じて、前記ピッチパターンを補正する補正量を変更することを特徴とする。
 本発明の第2の態様に係るピッチパターン補正装置は、音声のピッチパターンにおいて、特定の区間を補正する部分ピッチ補正部と、前記補正された特定の区間を含むピッチパターンにおいて、前記音声における文末フレーズに含まれているピッチの最大値を特定する最大ピッチ特定部と、前記特定された最大値、及び、前記補正された特定の区間を含むピッチパターンにおいて前記音声の文末の音韻に対応する区間である文末ピッチ区間に含まれるピッチの少なくとも何れか一方に応じて、前記補正された特定の区間を含むピッチパターンを補正することで、前記音声の発話様式を変更するピッチパターン補正部と、を備え、前記ピッチパターン補正部は、前記音声の韻律に応じて、前記補正された特定の区間を含むピッチパターンを補正する補正量を変更することを特徴とする。
 本発明の第1の態様に係るプログラムは、コンピュータを、音声のピッチパターンにおいて、前記音声における文末フレーズに含まれているピッチの最大値を特定する最大ピッチ特定部、前記ピッチパターンにおいて、前記音声の文末の音韻に対応する区間である文末ピッチ区間を特定する文末ピッチ区間特定部、並びに、前記特定された最大値及び前記特定された文末ピッチ区間に含まれるピッチの少なくとも何れか一方に応じて、前記ピッチパターンを補正することで、前記音声の発話様式を変更するピッチパターン補正部、として機能させ、前記ピッチパターン補正部は、前記音声の韻律に応じて、前記ピッチパターンを補正する補正量を変更することを特徴とする。
 本発明の第2の態様に係るプログラムは、コンピュータを、音声のピッチパターンにおいて、特定の区間を補正する部分ピッチ補正部、前記補正された特定の区間を含むピッチパターンにおいて、前記音声における文末フレーズに含まれているピッチの最大値を特定する最大ピッチ特定部、並びに、前記特定された最大値、及び、前記補正された特定の区間を含むピッチパターンにおいて前記音声の文末の音韻に対応する区間である文末ピッチ区間に含まれるピッチの少なくとも何れか一方に応じて、前記補正された特定の区間を含むピッチパターンを補正することで、前記音声の発話様式を変更するピッチパターン補正部、として機能させ、前記ピッチパターン補正部は、前記音声の韻律に応じて、前記補正された特定の区間を含むピッチパターンを補正する補正量を変更することを特徴とする。
 本発明の第1の一態様に係るピッチパターン補正方法は、音声のピッチパターンにおいて、前記音声における文末フレーズに含まれているピッチの最大値を特定し、前記ピッチパターンにおいて、前記音声の文末の音韻に対応する区間である文末ピッチ区間を特定し、並びに、前記特定された最大値及び前記特定された文末ピッチ区間に含まれるピッチの少なくとも何れか一方に応じて、前記ピッチパターンを補正することで、前記音声の発話様式を変更するピッチパターン補正方法であって、前記ピッチパターンを補正する際に、前記音声の韻律に応じて、前記ピッチパターンを補正する補正量を変更することを特徴とする。
 本発明の第2の態様に係るピッチパターン補正方法は、音声のピッチパターンにおいて、特定の区間を補正し、前記補正された特定の区間を含むピッチパターンにおいて、前記音声における文末フレーズに含まれているピッチの最大値を特定し、並びに、前記特定された最大値、及び、前記補正された特定の区間を含むピッチパターンにおいて前記音声の文末の音韻に対応する区間である文末ピッチ区間に含まれるピッチの少なくとも何れか一方に応じて、前記補正された特定の区間を含むピッチパターンを補正することで、前記音声の発話様式を変更するピッチパターン補正方法であって、前記補正された特定の区間を含むピッチパターンを補正する際に、前記音声の韻律に応じて、前記補正された特定の区間を含むピッチパターンを補正する補正量を変更することを特徴とする。
 本発明の一又は複数の態様によれば、自然で発話様式を容易に知覚することができるように、ピッチパターンを補正することができる。
実施の形態1に係るピッチパターン補正装置の構成を概略的に示すブロック図である。 ピッチパターン補正装置のハードウェア構成例を示すブロック図である。 実施の形態1に係るピッチパターン補正装置の動作を示すフローチャートである。 実施の形態1におけるピッチパターン補正部の第1の動作例を示す概略図である。 実施の形態1におけるピッチパターン補正部の第2の動作例を示す概略図である。 実施の形態1におけるピッチパターン補正方法情報の一例を示す概略図である。 実施の形態2に係るピッチパターン補正装置の構成を概略的に示すブロック図である。 実施の形態2に係るピッチパターン補正装置の動作を示すフローチャートである。 最大ピッチ区間補正部の動作例を示す概略図である。 最大ピッチ区間補正方法情報の一例を示す概略図である。 文末ピッチ区間補正部の動作例を示す概略図である。 文末ピッチ区間補正方法情報の一例を示す概略図である。 実施の形態2におけるピッチパターン補正部の動作例を示す概略図である。 実施の形態2におけるピッチパターン補正方法情報の一例を示す概略図である。 実施の形態3に係るピッチパターン補正装置の構成を概略的に示すブロック図である。 実施の形態3におけるピッチパターン補正装置の動作を示すフローチャートである。 実施の形態3におけるピッチパターン補正部の動作例を示す概略図である。 実施の形態4に係るピッチパターン補正装置の構成を概略的に示すブロック図である。 実施の形態4に係るピッチパターン補正装置の動作を示すフローチャートである。 実施の形態4におけるピッチパターン補正部の動作例を示す概略図である。
実施の形態1.
 図1は、実施の形態1に係るピッチパターン補正装置100の構成を概略的に示すブロック図である。
 ピッチパターン補正装置100は、音声情報入力部101と、ピッチパターン取得部102と、最大ピッチ特定部103と、文末ピッチ区間特定部104と、言語情報入力部105と、言語属性情報取得部106と、ピッチ補正係数入力部107と、ピッチパターン補正方法記憶部108と、ピッチパターン補正部109とを備える。
 音声情報入力部101は、音声のピッチパターンを少なくとも特定することのできる音声情報の入力を受け付ける。音声情報入力部101は、入力された音声情報をピッチパターン取得部102に与える。
 音声情報は、ピッチパターンを特定することができればよい。例えば、音声情報は、人が発話した音声を示す音声データであってもよく、音声合成装置における韻律制御のための中間データであってもよく、ピッチパターンそのものであってもよい。
 ピッチパターン取得部102は、音声情報入力部101から与えられる音声情報で特定されるピッチパターンを取得する。ピッチパターン取得部102は、取得されたピッチパターンを最大ピッチ特定部103、文末ピッチ区間特定部104及びピッチパターン補正部109に与える。
 ピッチは、音の高さを示し、ピッチパターンは、音の高さの変化を示すパターンである。ピッチパターンは、例えば、一定時間毎にサンプリングされたピッチ、時間情報とピッチとを組み合わせた系列、音声合成における音声素片単位(音節、子音-母音又は母音-子音等)における制御点のピッチを示すものであればよい。
 最大ピッチ特定部103は、ピッチパターン取得部102から与えられるピッチパターンにおいて、音声の文末フレーズに含まれているピッチの最大値を特定し、特定された最大値を示す最大ピッチ情報を生成する。そして、最大ピッチ特定部103は、その最大ピッチ情報をピッチパターン補正部109に与える。
 文末フレーズが、アクセントフレーズである場合には、最大ピッチ特定部103は、以下のようにして、文末フレーズを特定することができる。
 標準語において、1つのフレーズ内では、一度下がり始めたピッチが再度上昇することはないため、最大ピッチ特定部103は、ピッチパターンの遷移の山谷の位置でフレーズの区切りを推測することで、文末フレーズを特定することができる。また、例えば、単純な単語のように、末尾の発声が1フレーズのみであると保証される場合には、最大ピッチ特定部103は、一定時間以上ピッチが無い区間(ポーズ区間)以降を文末フレーズとみなすことができる。さらに、ピッチパターンが言語情報と紐付けられている場合には、言語情報からフレーズの区切りが分かるため、最大ピッチ特定部103は、言語情報を参照することで、文末フレーズを特定することができる。
 また、文末フレーズが、呼吸に伴うポーズと文末の間の呼気フレーズである場合、最大ピッチ特定部103は、一定時間以上ピッチがない区間(例えば、ポーズ区間)以降を文末フレーズとみなすことができる。
 最大ピッチ情報は、文末フレーズ内のピッチの最大値を示すものであればよい。例えば、最大ピッチ情報は、周波数情報そのものであってもよく、離散化又はシンボル化された情報であってもよい。また、最大ピッチ情報は、最大値の1サンプルだけではなく最大値を含む音韻のピッチパターン等の複数サンプルの値でもよく、複数サンプルの平均値等の統計値であってもよい。
 文末ピッチ区間特定部104は、ピッチパターン取得部102から与えられるピッチパターンにおいて、音声の文末の音韻に対応する区間である文末ピッチ区間を特定し、特定された文末ピッチ区間を示す文末ピッチ情報を生成する。
 文末ピッチ情報は、発話様式の特徴が出現する区間を特定できる情報であればよい。
 言語情報入力部105は、ピッチパターンに関する言語属性情報を少なくとも特定することのできる言語情報の入力を受け付ける。言語情報入力部105は、入力された言語情報を言語属性情報取得部106に与える。
 言語情報は、言語属性情報を特定することができる情報であればよい。例えば、言語情報は、言語属性情報そのものであってもよく、日本語であれば漢字仮名混じり文、又は、英語であればアルファベット列等の表記から言語解析により抽出された情報であってもよい。
 言語属性情報取得部106は、言語情報入力部105から与えられた言語情報で特定される言語属性情報を取得する。言語属性情報取得部106は、取得された言語属性情報をピッチパターン補正部109に与える。
 言語属性情報は、ピッチパターンの補正時に制御を切り替えるために使用される言語の属性である言語属性を示す情報を含んでいればよい。例えば、言語属性情報は、アクセント位置、有声又は無声情報、破裂音、破擦音、摩擦音又は子音なし等末尾音韻の子音の種類であってもよく、音韻記号列を示す音韻情報そのものであってもよい。
 ピッチ補正係数入力部107は、ピッチパターンを補正して、別の発話様式の音声にするためのピッチ補正係数の入力を受け付ける。ピッチ補正係数は、ピッチを補正する補正量であるピッチ補正量の重みに相当する情報であり、1つ以上の数値情報であればよい。ピッチ補正係数入力部107は、入力されたピッチ補正係数をピッチパターン補正部109に与える。
 ピッチパターン補正方法記憶部108は、ピッチパターンの補正方法であるピッチパターン補正方法を示すピッチパターン補正方法情報を記憶する。ピッチパターン補正方法情報は、言語属性毎に、ピッチパターン補正方法を示しているものとする。言い換えると、ピッチパターン補正方法情報は、複数の言語属性と、複数の言語属性の各々に各々が対応付けられている複数のピッチパターン補正方法とを示す。なお、ピッチパターン補正方法情報は、変更する発話様式毎に、複数の言語属性と、複数の言語属性の各々に各々が対応付けられている複数のピッチパターン補正方法とを示しているものとする。
 ピッチパターン補正方法は、例えば、補正式そのものであってもよく、プログラム内の条件分岐を示したものであってもよい。
 ピッチパターン補正部109は、最大ピッチ特定部103から与えられる最大ピッチ情報で示される最大値、及び、文末ピッチ区間特定部104から与えられる文末ピッチ区間情報で示される文末ピッチ区間に含まれるピッチの少なくとも何れか一方に応じて、ピッチパターン取得部102から与えられるピッチパターンを補正することで、音声の発話様式を変更する。ここで、ピッチパターン補正部は、言語属性情報取得部106から与えられた言語属性情報で示される言語属性に応じて、ピッチパターン補正方法を切り替える。
 なお、ピッチパターン補正部109は、変更する発話様式に応じて、ピッチパターンの予め定められた区間である補正対象区間を補正する。ここでは、補正対象区間は、文末ピッチ区間特定部104から与えられる文末ピッチ区間情報で示される文末ピッチ区間とするが、実施の形態1は、このような例に限定されない。
 ピッチパターン補正部109は、例えば、言語属性情報取得部106から与えられた言語属性情報で示される言語属性に対応するピッチパターン補正方法を、ピッチパターン補正方法記憶部108に記憶されているピッチパターン補正方法情報から選択する。
 そして、ピッチパターン補正部109は、選択されたピッチパターン補正方法により、最大ピッチ特定部103から与えられる最大ピッチ情報で示される最大値及び文末ピッチ区間特定部104から与えられる文末ピッチ区間情報で示される文末ピッチ区間に含まれるピッチの少なくとも何れか一方に応じて、ピッチ補正係数入力部107から与えられるピッチ補正係数を必要に応じて使用し、ピッチパターン取得部102から与えられるピッチパターンにおいて、文末ピッチ区間特定部104から与えられる文末ピッチ区間情報で示される文末ピッチ区間を補正する。
 なお、補正されたピッチパターンは、補正ピッチパターンとして出力される。
 図2は、実施の形態1に係るピッチパターン補正装置100のハードウェア構成例を示すブロック図である。
 図2に示されているように、ピッチパターン補正装置100は、メモリ131と、プロセッサ132と、ネットワークインタフェース(以下、ネットワークI/Fという)133と、テキスト入力インタフェース(以下、テキスト入力I/Fという)134と、画像入力インタフェース(以下、画像入力I/Fという)135と、音響入力インタフェース(以下、音響入力I/Fという)136とを備えるコンピュータ130により実現することができる。
 例えば、メモリ131は、プロセッサ132を、ピッチパターン取得部102、最大ピッチ特定部103、文末ピッチ区間特定部104、言語属性情報取得部106及びピッチパターン補正部109として機能させるプログラムを記憶する。このようなプログラムは、ネットワークを通じて提供されてもよく、また、記録媒体に記録されて提供されてもよい。即ち、このようなプログラムは、例えば、プログラムプロダクトとして提供されてもよい。
 また、メモリ131は、ピッチパターン補正方法情報を記憶するピッチパターン補正方法記憶部108として機能する。
 さらに、メモリ131は、ピッチパターン、音声情報、言語属性情報、言語情報、最大ピッチ情報、文末ピッチ区間情報、ピッチ補正係数及び補正ピッチパターンといった中間データを記憶する。
 なお、メモリ131、不揮発性のメモリ又は揮発性のメモリであればよい。
 プロセッサ132は、メモリ131から必要なプログラムを読み出して、そのプログラムを実行するCPU(Central Processing Unit)又はDSP(Digital Signal Processor)等の回路である。
 ネットワークI/F133は、音声情報、言語情報又はピッチ補正係数をネットワーク上のデータから参照する場合又はストリームデータを入力する場合、通信するためのインタフェースであり、音声情報入力部101、言語情報入力部105又はピッチ補正係数入力部107として機能することができる。ネットワークI/F133は、通信を必要としない構成となっていれば、不要である。
 テキスト入力I/F134は、音声情報、言語情報又はピッチ補正係数の入力手段としてPC又はネットワーク上のデータをテキスト列で指定する際に、キーボード又はマウス等によって入力する場合のインタフェースであり、音声情報入力部101、言語情報入力部105又はピッチ補正係数入力部107として機能することができる。テキスト入力I/F134は、キーボード又はマウス等による入力を必要としない構成となっていれば、不要である。
 画像入力I/F135は、音声情報、言語情報又はピッチ補正係数の入力手段として、PC(Personal Computer)又はネットワーク上のデータをGUI(Guraphical User Interface)で指定する場合の表示用のインタフェースであり、音声情報入力部101、言語情報入力部105又はピッチ補正係数入力部107として機能することができる。画像入力I/F135は、表示器での表示を必要としない構成となっていれば、不要である。
 音響入力I/F136は、マイク等の音響を入力するインタフェースである。音響入力I/F136は、音声情報入力部として機能することができる。音響入力I/F136は、ピッチパターン補正装置100がマイクによる録音を必要としない構成となっていれば、不要である。
 なお、図2において、メモリ131は、コンピュータ130の内部に配置されているが、実施の形態は、このような例に限定されない。例えば、USB(Universal Serial Bus)メモリ等の外部メモリであってもよく、ネットワークに接続された記憶装置であってもよい。また、メモリ131は、コンピュータ130の内部のメモリと、コンピュータ130の外部のメモリとの両方で構成されていてもよい。
 図3は、ピッチパターン補正装置100の動作を示すフローチャートである。
 まず、ピッチパターン取得部102は、音声情報入力部101から、少なくともピッチパターンを特定することのできる音声情報を受け取り、その音声情報で特定されるピッチパターンを取得する(S10)。取得されたピッチパターンは、最大ピッチ特定部103、文末ピッチ区間特定部104及びピッチパターン補正部109に与えられる。
 ここで、音声情報入力部101は、マイク又はカメラ等の音響信号が取得可能なデバイスから音声情報の入力を受ければよい。また、ユーザが、キーボード又はマウス等のデバイスを使用して、メモリ又はネットワーク上のデータを選択することで、音声情報入力部101は、音声情報を読み込むようにしてもよい。さらに、音声情報入力部101は、通信を行うことで、他の装置から取得したストリームデータ、又は、音声合成の中間データを音声情報として入力を受けてもよい。
 また、ピッチパターン取得部102が音声データからピッチパターンを抽出する場合には、例えば、ケプストラム法等の公知の手法を用いればよい。ケプストラム法等の公知の手法は、下記の文献に記載されている。
 古井貞熙著、「音声情報処理」、第1版、森北出版株式会社、1998年6月30日、p.22~26
 次に、言語属性情報取得部106は、言語情報入力部105から、言語の必要な属性を特定することのできる言語情報を受け取り、その言語情報で特定される言語属性を示す言語属性情報を取得する(S11)。
 言語情報が、言語属性情報そのものでない場合には、言語属性情報取得部106は、公知の自然言語処理技術によって、読み又はアクセント等の情報を解析し、言語属性を特定し、特定された言語属性を示す言語属性情報を生成すればよい。
 この場合、例えば、下記の文献に、公知の自然言語処理技術が記載されている。
 匂坂芳典著、「音声合成における自然言語処理」、情報処理、Vol.34,No.10、1993年
 また、音声情報が音声データである場合には、言語属性情報取得部106は、言語情報入力部105又は音声情報入力部101から音声データを取得して、公知の音声認識技術等を用いて言語情報を抽出して、抽出された言語情報から言語属性情報を取得してもよい。
 なお、公知の音声認識技術としては、下記の文献に記載されている技術がある。
 古井貞熙著、「音声情報処理」、第1版、森北出版株式会社、1998年6月30日、p.96~105
 次に、最大ピッチ特定部103は、ピッチパターンから末尾フレーズ内のピッチの最大値を特定し、特定された最大値を示す最大ピッチ情報を生成する(S12)。そして、生成された最大ピッチ情報は、ピッチパターン補正部109に与えられる。
 例えば、最大ピッチ特定部103は、ピッチパターンの末尾フレームに含まれているピッチの値のうち、最大値を探索して、その値を示す最大ピッチ情報を生成すればよい。
 この時、最大ピッチ特定部103は、言語属性情報取得部106から言語属性情報を受け取ることで、アクセント位置付近に絞って探索してもよい。
 次に、文末ピッチ区間特定部104は、ピッチパターンから文末部分の区間を特定して、特定されたピッチパターンの区間を示す文末ピッチ区間情報を生成する(S13)。生成された文末ピッチ区間情報は、ピッチパターン補正部109に与えられる。
 例えば、文末ピッチ区間特定部104は、ピッチパターンのうち、末尾音韻区間を特定すればよい。
 具体的には、音声情報の中に、末尾音韻の区間情報がある場合、又は、言語属性情報取得部106で取得される言語属性情報から末尾音韻の区間を推定できる場合には、文末ピッチ区間特定部104は、その区間を特定すればよい。例えば、日本語において末尾音韻の子音が無声音である場合には、末尾から連続するピッチパターンは、末尾の母音のピッチパターンとすることができる。
 なお、音声情報の中に、末尾音韻の区間情報がない場合には、文末ピッチ区間特定部104は、ピッチパターンにおいて、末尾から遡って、末尾のピッチに対するピッチの変化量が一定の閾値を超えるまでの区間、又は、末尾から遡って、ピッチが抽出できなくなるまでの区間を示す情報を文末ピッチ区間情報としてもよい。
 次に、ピッチ補正係数入力部107は、入力されたピッチ補正係数をピッチパターン補正部109に与える(S14)。なお、実施の形態1では、ピッチ補正係数が入力されているが、実施の形態1はこのような例に限定されない。例えば、ピッチ補正係数が固定の値である場合には、ピッチパターン補正部109として機能するプログラムに、その値が含まれていてもよい。この場合には、ピッチ補正係数入力部107はなくてもよい。
 次に、ピッチパターン補正部109は、ピッチパターンの補正を行う(S15)。具体的には、以下の通りである。
 ピッチパターン補正部109は、ピッチパターン補正方法情報を参照して、言語属性情報で示される言語属性に対応するピッチパターン補正方法を選択する。
 そして、ピッチパターン補正部109は、選択されたピッチパターン補正方法により、最大ピッチ特定部103から与えられる最大ピッチ情報で示される最大値及び文末ピッチ区間特定部104から与えられる文末ピッチ区間情報で示される文末ピッチ区間に含まれるピッチの少なくとも何れか一方に応じて、ピッチ補正係数入力部107から与えられるピッチ補正係数を必要に応じて使用し、ピッチパターン取得部102から与えられるピッチパターンの内、文末ピッチ区間特定部104から与えられる文末ピッチ区間情報で示される文末ピッチ区間を補正する。なお、補正されたピッチパターンは、補正ピッチパターンとして出力される。
 なお、図3に示されているフローチャートにおいて、ステップS11~S13の処理は、並行して行うことができ、どのステップから行われてもよい。
 また、S11で取得される言語属性情報を受け取ることで、最大ピッチ特定部103における抽出精度向上又は処理量の削減が可能な場合があり、その場合にはステップS11の処理の後に、ステップS12が行われればよい。この場合、言語属性情報取得部106から言語属性情報が、最大ピッチ特定部103に与えられる。
 図4及び図5は、ピッチパターン補正部109の動作例を示す概略図である。
 また、図6は、ピッチパターン補正方法記憶部108に記憶されているピッチパターン補正方法情報の一例を示す概略図である。ここでは、言語属性として、音声におけるアクセントの位置であるアクセント位置に応じて、ピッチパターン補正方法を選択する例を示す。
 図6に示されているように、ピッチパターン補正方法情報108aは、制御対象列108bと、平板列108cと、非平板列108dとを備えるテーブル形式の情報である。
 制御対象列108bは、補正を行う対象を示す。ここでは、制御対象の一例として、「始端」、「終端」及び「補間」が示されている。「始端」は、文末ピッチ区間の始端のピッチを示し、「終端」は、文末ピッチ区間の終端のピッチを示す。「補間」は、文末ピッチ区間における始端のピッチと終端のピッチとの間のピッチを示す。
 平板列108cは、言語属性情報が「平板」を示す場合に選択されるピッチパターン補正方法を示す。
 ここでは、「平板」のピッチパターン補正方法として、「-」、「最大ピッチ×ピッチ補正係数」及び「線形補間」が示されている。
 「-」は、同じ行の制御対象に補正を行わないことを示している。
 「最大ピッチ×ピッチ補正係数」は、最大ピッチ特定部103で特定されたピッチの最大値に、ピッチ補正係数入力部107から与えられるピッチ補正係数を乗算した値を、同じ行の制御対象に加算することを示している。
 「線形補間」は、文末ピッチ区間の始端のピッチと、その終端のピッチとの間のピッチの値を、始端のピッチの値及び終端のピッチの値による線形補間で求めることを示している。補間を行う際の始端のピッチの値及び終端のピッチの値は、補正が行われる場合には、補正後の値である。
 非平板列108dは、言語属性情報が「非平板」を示す場合に選択されるピッチパターン補正方法を示す。
 ここでは、「非平板」のピッチパターン補正方法として、「終端ピッチ-始端ピッチ」、「(最大ピッチ-終端ピッチ)×ピッチ補正係数」及び「スプライン補間」が示されている。
 「終端ピッチ-始端ピッチ」は、文末ピッチ区間の終端のピッチの値から、その始端のピッチの値を減算した値を、同じ行の制御対象に加算することを示している。
 「(最大ピッチ-終端ピッチ)×ピッチ補正係数」は、最大ピッチ特定部103で特定されたピッチの最大値から、その終端のピッチの値を減算した値に、ピッチ補正係数入力部107から与えられるピッチ補正係数を乗算した値を、同じ行の制御対象に加算することを示している。
 「スプライン補間」は、文末ピッチ区間の始端のピッチと、その終端のピッチとの間のピッチの値を、始端のピッチの値及び終端のピッチの値によるスプライン補間で求めることを示している。補間を行う際の始端のピッチの値及び終端のピッチの値は、補正が行われる場合には、補正後の値である。
 図4(A)及び(B)は、平板型のアクセントでモーラ数4の言語属性情報を持つ「はんたい」という単語のピッチパターンを質問調のピッチパターンに補正する例である。
 図4(A)は、補正前のピッチパターンを示している。
 この場合、属性情報が「平板」を示しているため、ピッチパターン補正部109は、例えば、図6に示されているピッチパターン補正方法情報108aから、平板のピッチパターン補正方法を選択する。
 このため、図4(B)に示されているように、ピッチパターン補正部109は、与えられたピッチ補正係数をピッチの最大値に積算した値を、文末ピッチ区間の終端のピッチの値に加算することで補正を行っている。さらに、ピッチパターン補正部109は、文末ピッチ区間のピッチパターンにおいて、始端のピッチと、終端のピッチとの間のピッチの値に対して、終端のピッチの値と始端のピッチの値とを用いて線形補間を行っている。
 図5(A)及び(B)は、1文字目にアクセントがあり、モーラ数3の言語属性情報を持つ非平板型の「そぐね」という単語のピッチパターンを質問調のピッチパターンに補正する例である。
 図5(A)は、補正前のピッチパターンを示している。
 この場合、言語属性情報が「非平板」を示しているため、ピッチパターン補正部109は、例えば、図6に示されているピッチパターン補正方法情報108aから、非平板のピッチパターン補正方法を選択する。
 このため、図5(B)に示されているように、ピッチパターン補正部109は、文末ピッチ区間の終端のピッチの値から、文末ピッチ区間の始端のピッチの値を減算した値を、始端のピッチの値に加算することで補正を行っている。これにより、文末ピッチ区間の始端のピッチの値は、補正前の終端のピッチの値に変換されている。
 また、ピッチパターン補正部109は、与えられたピッチ補正係数を、ピッチの最大値と、文末ピッチ区間の終端のピッチの値との差分に積算した値を、終端のピッチの値に加算することで補正を行っている。
 さらに、ピッチパターン補正部109は、文末ピッチ区間ピッチパターンにおいて、始端のピッチと終端のピッチとの間のピッチの値に対して、補正後の値からスプライン補間を行っている。
 なお、図4及び図5では、平板型のアクセントと、非平板型のアクセントとでピッチパターン補正方法を選択する場合を示しているが、子音の種類又はモーラ数等の他の言語属性情報を利用して、ピッチパターン補正方法が選択されてもよい。
 例えば、末尾音韻の子音が有声音である場合と、それが無声音である場合とで、末尾から継続するピッチパターンの長さが異なる。このため、例えば、ピッチパターンが長い有声音の場合には緩やかな変化を、ピッチパターンが短い有声音の場合には急激な変化となるように、ピッチパターン補正方法を選択することができる。
 また、同様にモーラ数が短い場合(音韻数が少ない場合)に緩やかな変化となるように、モーラ数が長い場合に急激な変化となるように、ピッチパターン補正方法を選択することができる。
 さらに、音韻情報の中には、有声情報若しくは無声情報、又は、子音の種類を示す情報が内包されており、それらの情報を用いて、ピッチパターン補正方法が選択されてもよい。
 また、図4及び図5では、始端のピッチと、終端のピッチとの間のピッチについて、選択されたピッチパターン補正方法で補間するようにしたが、実施の形態1はこのような例に限定されない。例えば、ピッチパターン補正方法によらず、固定の方法で補間が行われてもよい。
 また、図4及び図5では、文末ピッチ区間のピッチパターンについて補正が行われているが、文末ピッチ区間だけでなく、ピッチパターン全てに対して補正が行われてもよい。
 以上のように、実施の形態1では、言語属性情報に応じてピッチパターン補正方法が選択される。これにより、平叙音声と発話様式と間のピッチパターンの差が、アクセント位置等の言語属性情報により大きく異なる場合においても、言語属性情報に応じたピッチパターン補正方法を選択することが可能となり、韻律補正の精度が改善し、発話様式が知覚されやすい自然なピッチパターンを実現することができる。
実施の形態2.
 図7は、実施の形態2に係るピッチパターン補正装置200の構成を概略的に示すブロック図である。
 ピッチパターン補正装置200は、音声情報入力部101と、ピッチパターン取得部102と、最大ピッチ特定部203と、ピッチ補正係数入力部107と、ピッチパターン補正方法記憶部208と、ピッチパターン補正部209と、部分ピッチ補正部210とを備える。
 実施の形態2におけるピッチパターン補正装置200の音声情報入力部101、ピッチパターン取得部102及びピッチ補正係数入力部107は、実施の形態1におけるピッチパターン補正装置100の音声情報入力部101、ピッチパターン取得部102及びピッチ補正係数入力部107と同様である。
 但し、ピッチパターン取得部102は、取得されたピッチパターンを部分ピッチ補正部210及びピッチパターン補正部209に与える。
 部分ピッチ補正部210は、ピッチパターンにおいて、少なくとも一つの特定の区間を補正する。
 部分ピッチ補正部210は、最大ピッチ区間抽出部211と、最大ピッチ区間補正方法記憶部212と、最大ピッチ区間補正部213と、文末ピッチ区間抽出部214と、文末ピッチ区間補正方法記憶部216と、文末ピッチ区間補正部215とを備える。
 最大ピッチ区間抽出部211は、ピッチパターン取得部102から与えられるピッチパターンにおいて、文末フレーズ内のピッチの最大値を含む音韻に対応する区間である最大ピッチ区間のピッチパターンを抽出し、抽出されたピッチパターンを示す最大ピッチ区間抽出情報を生成する。生成された最大ピッチ区間抽出情報は、最大ピッチ区間補正部213に与えられる。
 例えば、最大ピッチ区間抽出情報は、ピッチの最大値に対応する音韻のピッチパターン、又は、ピッチの最大値に対応する音韻及びその付近の音韻におけるピッチパターンであってもよい。なお、最大ピッチ区間抽出情報は、周波数そのものであってもよく、離散化又はシンボル化された情報であってもよい。
 最大ピッチ区間補正方法記憶部212は、最大ピッチ区間のピッチパターンの補正方法である最大ピッチ区間補正方法を示す最大ピッチ区間補正方法情報を記憶する。
 最大ピッチ区間補正方法は、例えば、補正式そのものであってもよく、プログラム内の条件分岐を示したものであってもよい。
 最大ピッチ区間補正部213は、最大ピッチ区間抽出部211から与えられる最大ピッチ区間情報で示される最大ピッチ区間を、最大ピッチ区間補正方法記憶部212に記憶されている最大ピッチ区間補正方法情報で示される最大ピッチ区間補正方法に従って補正する。そして、最大ピッチ区間補正部213は、補正されたピッチパターンを示す補正最大ピッチ区間情報を生成し、その補正最大ピッチ区間情報を、最大ピッチ特定部203及びピッチパターン補正部209に与える。
 文末ピッチ区間抽出部214は、ピッチパターン取得部102から与えられるピッチパターンにおいて、音声の文末の音韻に対応する区間である文末ピッチ区間のピッチパターンを抽出し、抽出されたピッチパターンを示す文末ピッチ区間抽出情報を生成する。生成された文末ピッチ区間情報は、文末ピッチ区間補正部215に与えられる。
 文末ピッチ区間抽出情報は、発話様式の特徴が出現する区間のピッチパターンを含む情報であればよい。例えば、文末ピッチ区間抽出情報は、末尾音韻のピッチパターン、又は、末尾音韻及びその付近の音韻におけるピッチパターンであってもよい。なお、文末ピッチ区間抽出情報は、周波数そのものであってもよく、離散化又はシンボル化された情報であってもよい。
 文末ピッチ区間補正方法記憶部216は、文末ピッチ区間のピッチパターンの補正方法である文末ピッチ区間補正方法を示す文末ピッチ区間補正方法情報を記憶する。
 文末ピッチ区間補正方法は、例えば、補正式そのものであってもよく、プログラム内の条件分岐を示したものであってもよい。
 文末ピッチ区間補正部215は、文末ピッチ区間抽出部214から与えられる文末ピッチ区間情報で示される文末区間を、文末ピッチ区間補正方法記憶部216に記憶されている文末ピッチ区間補正方法情報で示される文末ピッチ区間補正方法に従って補正する。そして、文末ピッチ区間補正部215は、補正されたピッチパターンを示す補正文末ピッチ区間情報を生成し、その補正文末ピッチ区間情報を、ピッチパターン補正部209に与える。
 最大ピッチ特定部203は、部分ピッチ補正部210で補正された特定の区間を含むピッチパターンにおいて、音声における文末フレーズに含まれているピッチの最大値を特定する。
 具体的には、最大ピッチ特定部203は、最大ピッチ区間補正部213から与えられる補正最大ピッチ区間情報で示されるピッチパターンより、ピッチの最大値を特定し、特定された最大値を示す最大ピッチ情報を生成する。そして、最大ピッチ特定部203は、その最大ピッチ情報をピッチパターン補正部209に与える。
 ピッチパターン補正方法記憶部208は、ピッチパターンの補正方法を示すピッチパターン補正方法情報を記憶する。実施の形態2では、ピッチパターン補正方法情報は、言語属性毎に、ピッチパターン補正方法を示している必要はなく、変更する発話様式毎に、ピッチパターン補正方法が定められていればよい。
 ピッチパターン補正方法は、例えば、補正式そのものであってもよく、プログラム内の条件分岐を示したものであってもよい。
 ピッチパターン補正部209は、最大ピッチ特定部203から与えられる最大ピッチ情報で示される最大値、及び、文末ピッチ区間に含まれるピッチの少なくとも何れか一方に応じて、部分ピッチ補正部210により補正された特定の区間を含むピッチパターンを補正することで、音声の発話様式を変更する。ここで、文末ピッチ区間補正部215により文末ピッチ区間が補正されている場合には、補正後のピッチの値が用いられる。
 具体的には、ピッチパターン補正部209は、最大ピッチ区間補正部213から与えられる補正最大ピッチ区間情報で示されるピッチパターンと、文末ピッチ区間補正部215から与えられる補正文末ピッチ区間情報で示されるピッチパターンとを、ピッチパターン取得部102から与えられるピッチパターンに合成することで、部分補正ピッチパターンを生成する。
 ピッチパターン補正部209は、ピッチパターン補正方法記憶部108に記憶されているピッチパターン補正方法情報から、部分補正ピッチパターンを補正する発話様式に応じたピッチパターン補正方法を取得する。
 そして、ピッチパターン補正部209は、取得されたピッチパターン補正方法により、最大ピッチ特定部203から与えられる最大ピッチ情報で示される最大値及び文末ピッチ区間に含まれるピッチの少なくとも何れか一方に応じて、ピッチ補正係数入力部107から与えられるピッチ補正係数を必要に応じて使用し、文末ピッチ区間補正部215から与えられる補正文末ピッチ区間情報で示されるピッチパターンに対応する区間(即ち、文末ピッチ区間)の部分補正ピッチパターンを補正する。
 なお、補正された部分補正ピッチパターンは、補正ピッチパターンとして出力される。
 実施の形態2に係るピッチパターン補正装置200についても、図2に示されているコンピュータ130により実現することができる。
 例えば、メモリ131は、プロセッサ132を、ピッチパターン取得部102、最大ピッチ特定部203、ピッチパターン補正部109及び部分ピッチ補正部210として機能させるプログラムを記憶する。
 また、メモリ131は、ピッチパターン補正方法情報を記憶するピッチパターン補正方法記憶部108、最大ピッチ区間補正方法情報を記憶する最大ピッチ区間補正方法記憶部212及び文末ピッチ区間補正方法情報を記憶する文末ピッチ区間補正方法記憶部216として機能する。
 図8は、ピッチパターン補正装置200の動作を示すフローチャートである。
 まず、ピッチパターン取得部102は、音声情報入力部101から、少なくともピッチパターンを特定することのできる音声情報を受け取り、その音声情報で特定されるピッチパターンを取得する(S20)。ここでの処理は、図3に示されているステップS10での処理と同様である。取得されたピッチパターンは、最大ピッチ区間抽出部211、文末ピッチ区間抽出部214及びピッチパターン補正部209に与えられる。
 次に、最大ピッチ区間抽出部211は、与えられたピッチパターンから、文末フレーズ内のピッチの最大値を含む音韻に対応する区間である最大ピッチ区間のピッチパターンを抽出し、抽出されたピッチパターンを示す最大ピッチ区間抽出情報を生成する(S21)。生成された最大ピッチ区間抽出情報は、最大ピッチ区間補正部213に与えられる。
 次に、文末ピッチ区間抽出部214は、与えられたピッチパターンから、文末のピッチを含む文末ピッチ区間のピッチパターンを抽出し、抽出されたピッチパターンを示す文末ピッチ区間抽出情報を生成する(S22)。生成された文末ピッチ区間情報は、文末ピッチ区間補正部215に与えられる。なお、文末ピッチ区間の特定方法については、図3に示されているステップS13と同様である。
 次に、ピッチ補正係数入力部107は、入力されたピッチ補正係数をピッチパターン補正部209に与える(S23)。ここでの処理は、図3に示されているステップS14と同様である。
 次に、最大ピッチ区間補正部213は、与えられた最大ピッチ区間情報で示される最大ピッチ区間のピッチパターンを、最大ピッチ区間補正方法に従って補正する(S24)。そして、最大ピッチ区間補正部213は、補正されたピッチパターンを示す補正最大ピッチ区間情報を生成し、その補正最大ピッチ区間情報を、最大ピッチ特定部203及びピッチパターン補正部209に与える。
 次に、文末ピッチ区間補正部215は、与えられた文末ピッチ区間情報で示される文末区間のピッチパターンを、文末ピッチ区間補正方法に従って補正する(S25)。そして、文末ピッチ区間補正部215は、補正されたピッチパターンを示す補正文末ピッチ区間情報を生成し、その補正文末ピッチ区間情報を、ピッチパターン補正部209に与える。
 次に、最大ピッチ特定部203は、与えられた補正最大ピッチ区間情報で示されるピッチパターンにおいて、ピッチの最大値を特定し、特定された最大値を示す最大ピッチ情報を生成する(S26)。そして、最大ピッチ特定部203は、その最大ピッチ情報をピッチパターン補正部209に与える。
 次に、ピッチパターン補正部209は、ピッチパターンの補正を行う(S27)。具体的には、以下の通りである。
 まず、ピッチパターン補正部209は、与えられた補正最大ピッチ区間情報で示されるピッチパターンと、与えられた補正文末ピッチ区間情報で示されるピッチパターンとを、与えられたピッチパターンに合成することで、部分補正ピッチパターンを生成する。
 次に、ピッチパターン補正部209は、部分補正ピッチパターンを補正する発話様式に対応するピッチパターン補正方法を、ピッチパターン補正方法記憶部208に記憶されているピッチパターン補正方法情報から取得する。
 そして、ピッチパターン補正部209は、取得されたピッチパターン補正方法により、与えられる最大ピッチ情報で示される最大値及び文末ピッチ区間に含まれるピッチの少なくとも何れか一方に応じて、ピッチ補正係数入力部107から与えられるピッチ補正係数を必要に応じて使用し、与えられた補正文末ピッチ区間情報で示されるピッチパターンに対応する区間の部分補正ピッチパターンを補正する(S27)。
 なお、図8に示されているフローチャートにおいて、ステップS21~S23の処理は、並行して行うことができ、どのステップから行われてもよい。
 図9は、最大ピッチ区間補正部213の動作例を示す概略図である。
 また、図10は、最大ピッチ区間補正方法記憶部212に記憶されている最大ピッチ区間補正方法情報の一例を示す概略図である。
 図10に示されているように、最大ピッチ区間補正方法情報212aは、発話様式列212bと、最大ピッチ区間補正方法列212cとを備えるテーブル形式の情報である。
 発話様式列212bは、ピッチパターン補正部209で補正を行うことで生成する発話様式を示している。ここでは、発話様式として、「平叙」、「質問」及び「確認」が示されている。「平叙」は、ピッチパターン補正部209で補正を行うことで平叙調のピッチパターンを生成することを示している。「質問」は、ピッチパターン補正部209で補正を行うことで質問調のピッチパターンを生成することを示している。「確認」は、ピッチパターン補正部209で補正を行うことで確認調のピッチパターンを生成することを示している。
 最大ピッチ区間補正方法列212cには、同じ行の発話様式に応じて、最大ピッチ区間に含まれているピッチを補正する補正方法である最大ピッチ区間補正方法が示されている。
 図9(A)及び(B)は、1文字目にアクセントがあり、モーラ数3の言語属性情報を持つ非平板型の「そぐね」という単語のピッチパターンを質問調のピッチパターンに補正する場合における、最大ピッチ区間補正方法の一例である。
 図9(A)は、補正前のピッチパターンを示している。
 最大ピッチ区間補正部213は、図10に示されている最大ピッチ区間補正方法情報212aから質問調に対応する最大ピッチ区間補正方法を選択し、図9(B)に示されているように、最大ピッチ区間のピッチを補正する。ここでは、最大ピッチ区間補正部213は、その値を1.2倍している。この例では、最大ピッチ区間は、音韻「o」の2サンプルのピッチであり、それぞれの値が1.2倍されている。
 図11は、文末ピッチ区間補正部215の動作例を示す概略図である。
 また、図12は、文末ピッチ区間補正方法記憶部216に記憶されている文末ピッチ区間補正方法情報の一例を示す概略図である。
 図12に示されているように、文末ピッチ区間補正方法情報216aは、発話様式列216bと、文末ピッチ区間補正方法列216cとを備えるテーブル形式の情報である。
 発話様式列216bは、ピッチパターン補正部209で補正を行うことで生成する発話様式を示している。ここでは、発話様式として、「平叙」、「質問」及び「確認」が示されている。
 文末ピッチ区間補正方法列216cには、同じ行の発話様式に応じて、文末ピッチ区間に含まれているピッチを補正する補正方法である文末ピッチ区間補正方法が示されている。
 図11(A)及び(B)は、1文字目にアクセントがあり、モーラ数3の言語属性情報を持つ非平板型の「そぐね」という単語のピッチパターンを質問調のピッチパターンに補正する場合における、文末ピッチ区間補正方法の一例である。
 図11(A)は、補正前のピッチパターンを示している。
 文末ピッチ区間補正部215は、図12に示されている文末ピッチ区間補正方法情報216aから質問調に対応する文末ピッチ区間補正方法を選択し、図11(B)に示されているように、文末ピッチ区間のピッチを補正する。ここでは、文末ピッチ区間補正部215は、その値を0.9倍している。この例では、文末ピッチ区間は、音韻「e」の2サンプルのピッチであり、それぞれの値が0.9倍されている。
 なお、最大ピッチ区間補正部213又は文末ピッチ区間補正部215の補正対象が複数サンプルである場合には、均一の補正値とする必要はなく、サンプル位置に応じた補正方法が設定されてもよい。また、最大ピッチ区間又は文末ピッチ区間に含まれている始端のピッチと、終端のピッチとを補正した上で、その間のピッチが補間されてもよい。さらに、補正対象となる最大ピッチ区間又は文末ピッチ区間に含まれている値が統計値であれば、統計値が補正方法に従うように、各サンプルが補正されればよい。
 図13は、実施の形態2におけるピッチパターン補正部209の動作例を示す概略図である。
 また、図14は、ピッチパターン補正方法記憶部208に記憶されているピッチパターン補正方法情報の一例を示す概略図である。
 図14に示されているように、ピッチパターン補正方法情報208aは、発話様式列208bと、ピッチパターン補正方法列208cとを備えるテーブル形式の情報である。
 発話様式列208bは、ピッチパターン補正部209で補正を行うことで生成する発話様式を示している。ここでは、発話様式として、「平叙」、「質問」及び「確認」が示されている。
 ピッチパターン補正方法列208cには、同じ行の発話様式に応じて、部分補正ピッチパターンに含まれているピッチを補正する補正方法であるピッチパターン補正方法が示されている。
 図13(A)は、補正最大ピッチ区間情報で示されるピッチパターンと、補正文末ピッチ区間情報で示されるピッチパターンとを、ピッチパターンに合成することで生成された部分補正ピッチパターンを示している。
 ピッチパターン補正部209は、図14に示されているピッチパターン補正方法情報208aから質問調に対応するピッチパターン補正方法を選択し、図13(B)に示されているように、文末ピッチ区間のピッチを補正する。ここでは、ピッチパターン補正部209は、最大ピッチ特定部203から与えられるピッチの最大値から、文末ピッチ区間の終端のピッチの値を減算した値に、ピッチ補正係数入力部107から与えられるピッチ補正係数を乗算した値を、文末ピッチ区間の終端のピッチの値に加算している。
 以上の実施の形態2では、最大ピッチ区間の補正と、文末ピッチ区間の補正との両方が実施されているが、実施の形態2はこのような例に限定されない。例えば、実施の形態2において、最大ピッチ区間の補正と、文末ピッチ区間の補正とのいずれか一方が行われてもよい。
 なお、最大ピッチ区間の補正を行わない場合には、最大ピッチ区間抽出部211、最大ピッチ区間補正方法記憶部212及び最大ピッチ区間補正部213を省略することができる。この場合、最大ピッチ特定部203は、実施の形態1における最大ピッチ特定部103と同様に、ピッチパターン取得部102から与えられるピッチパターンにおいて、文末フレーズの最大値を特定すればよい。
 また、実施の形態2では、最大ピッチ区間及び文末ピッチ区間のピッチを補正しているが、文末フレーズの始端のピッチに対応する区間、又は、文末フレーズのピッチの最小値に対応する区間が補正されてもよい。変更する発話様式に応じて、ピッチを修正する区間が選択できるようにすればよい。
 また、実施の形態2では、最大ピッチ補正方法、文末ピッチ補正方法又はピッチパターン補正方法を選択して、ピッチを補正するように構成されているが、実施の形態2は、このような例に限定されない。例えば、補正を行う発話様式が決まっている場合等では、それらの補正方法を固定のものとすることができる。このような場合には、最大ピッチ区間補正方法記憶部212、文末ピッチ区間補正方法記憶部216及びピッチパターン補正方法記憶部208を省略することも可能である。
 以上のように、実施の形態2では、最大ピッチ区間補正部213及び文末ピッチ区間補正部215の少なくとも一つが備えられ、ピッチの値を補正するように構成しているため、発話様式により強調又は変化する抑揚を含む補正が可能であり、生成されるピッチパターンの発話様式の知覚精度が改善できるという効果がある。
 また、実施の形態2において、文末フレーズの始端のピッチ、又は、そのピッチの最小値等、他の箇所のピッチパターンを補正するように構成した場合には、最大ピッチ区間又は文末ピッチ区間における抑揚以外にも、発話様式毎に知覚精度に影響が強い抑揚を考慮した補正が可能であり、生成されるピッチパターンの発話様式の知覚精度が改善できるという効果がある。
 なお、実施の形態2におけるピッチパターン補正装置200が、実施の形態1におけるピッチパターン補正装置100の言語情報入力部105、言語属性情報取得部106及びピッチパターン補正方法記憶部108を備え、ピッチパターン補正部209が、実施の形態1と同様に、言語属性に応じて、ピッチパターン補正方法を切り替えるようにしてもよい。
実施の形態3.
 図15は、実施の形態3に係るピッチパターン補正装置300の構成を概略的に示すブロック図である。
 ピッチパターン補正装置300は、音声情報入力部101と、ピッチパターン取得部102と、最大ピッチ特定部103と、文末ピッチ区間特定部104と、ピッチ補正係数入力部107と、ピッチパターン補正方法記憶部208と、ピッチパターン補正部309と、継続長情報入力部320と、ピッチ補正係数修正部321とを備える。
 実施の形態3に係るピッチパターン補正装置300の音声情報入力部101、ピッチパターン取得部102、最大ピッチ特定部103、文末ピッチ区間特定部104及びピッチ補正係数入力部107は、実施の形態1に係るピッチパターン補正装置100の音声情報入力部101、ピッチパターン取得部102、最大ピッチ特定部103、文末ピッチ区間特定部104及びピッチ補正係数入力部107と同様である。
 また、実施の形態3に係るピッチパターン補正装置300のピッチパターン補正方法記憶部208は、実施の形態2に係るピッチパターン補正装置200のピッチパターン補正方法記憶部208と同様である。
 但し、ピッチ補正係数入力部107は、入力されたピッチ補正係数をピッチ補正係数修正部321に与える。
 継続長情報入力部320は、韻律として、ピッチパターンを補正する区間に対応する音声の長さである継続長、言い換えると、韻律の補正対象となる区間の継続長を示す継続長情報の入力を受ける。ここで、実施の形態3においては、韻律の補正対象となる区間は、文末ピッチ区間である。継続長情報は、ピッチ補正係数修正部321に与えられる。
 ピッチ補正係数修正部321は、ピッチ補正係数入力部107から与えられるピッチ補正係数を、継続長情報入力部320から与えられる継続長情報に従って修正することで、修正ピッチ補正係数を生成する。そして、生成された修正ピッチ補正係数は、ピッチパターン補正部309に与えられる。これにより、ピッチパターン補正部309は、音声の韻律に応じて、ピッチパターンを補正する補正量を変更することができる。
 ピッチパターン補正部309は、最大ピッチ特定部103から与えられる最大ピッチ情報で示される最大値、及び、文末ピッチ区間特定部104から与えられる文末ピッチ区間情報で示される文末ピッチ区間に含まれるピッチの少なくとも何れか一方に応じて、ピッチパターン取得部102から与えられるピッチパターンを補正することで、音声の発話様式を変更する。ここで、ピッチパターン補正部は、音声の韻律に応じて、ピッチパターンを補正する補正量を変更する。
 例えば、ピッチパターン補正部309は、ピッチパターン取得部102から与えられるピッチパターンを補正する発話様式に対応するピッチパターン補正方法を、ピッチパターン補正方法記憶部208に記憶されているピッチパターン補正方法情報から選択する。
 そして、ピッチパターン補正部309は、選択されたピッチパターン補正方法により、最大ピッチ特定部103から与えられる最大ピッチ情報で示される最大値及び文末ピッチ区間特定部104から与えられる文末ピッチ区間情報で示される文末ピッチ区間に含まれるピッチの少なくとも何れか一方に応じて、ピッチ補正係数修正部321から与えられる修正ピッチ補正係数を必要に応じて使用し、ピッチパターン取得部102から与えられるピッチパターンにおいて、文末ピッチ区間特定部104から与えられる文末ピッチ区間情報で示される文末ピッチ区間を補正する。
 なお、補正されたピッチパターンは、補正ピッチパターンとして出力される。
 実施の形態3に係るピッチパターン補正装置300についても、図2に示されているコンピュータ130により実現することができる。
 例えば、メモリ131は、プロセッサ132を、ピッチパターン取得部102、最大ピッチ特定部103、文末ピッチ区間特定部104、ピッチ補正係数修正部321及びピッチパターン補正部309として機能させるプログラムを記憶する。
 また、ピッチ補正係数修正部321は、ネットワークI/F133、テキスト入力I/F134又は画像入力I/F135により実現することができる。
 図16は、ピッチパターン補正装置300の動作を示すフローチャートである。
 まず、ピッチパターン取得部102は、音声情報入力部101から、少なくともピッチパターンを特定することのできる音声情報を受け取り、その音声情報で特定されるピッチパターンを取得する(S30)。ここでの処理は、図3におけるステップS10の処理と同様である。取得されたピッチパターンは、最大ピッチ特定部103、文末ピッチ区間特定部104及びピッチパターン補正部309に与えられる。
 次に、最大ピッチ特定部103は、ピッチパターンから末尾フレーズ内のピッチの最大値を特定し、特定された最大値を示す最大ピッチ情報を生成する(S31)。ここでの処理は、図3におけるステップS12の処理と同様である。そして、生成された最大ピッチ情報は、ピッチパターン補正部309に与えられる。
 次に、文末ピッチ区間特定部104は、ピッチパターンから文末部分のピッチパターンの区間を特定して、特定されたピッチパターンの区間を示す文末ピッチ区間情報を生成する(S32)。ここでの処理は、図3におけるステップS13の処理と同様である。生成された文末ピッチ区間情報は、ピッチパターン補正部309に与えられる。
 次に、ピッチ補正係数入力部107は、入力されたピッチ補正係数をピッチ補正係数修正部321に与える(S33)。なお、実施の形態3では、ピッチ補正係数が入力されているが、実施の形態3はこのような例に限定されない。例えば、ピッチ補正係数が固定の値である場合には、ピッチ補正係数修正部321として機能するプログラムに、その値が含まれていてもよい。この場合には、ピッチ補正係数入力部107はなくてもよい。
 次に、継続長情報入力部320は、継続長情報の入力を受け付ける(S34)。入力された継続長情報は、ピッチ補正係数修正部321に与えられる。
 なお、実施の形態3では、継続長情報入力部320が継続長情報の入力を直接受け付けるようにしているが、例えば、ピッチ補正係数修正部321が、音声情報入力部101に入力される音声情報から、継続長を特定するようにしてもよい。この場合、ピッチ補正係数修正部321は、公知の音声認識手法を用いて音韻の時間情報を推測し、文末ピッチ区間の継続長を特定してもよい。
 公知の音声認識手法は、例えば、下記の文献に記載されている。
 古井貞熙著、「音声情報処理」、第1版、森北出版株式会社、1998年6月30日、p.96~105
 次に、ピッチ補正係数修正部321は、継続長情報に応じてピッチ補正係数を修正することで、修正ピッチ補正係数を生成する(S35)。生成された修正ピッチ補正係数は、ピッチパターン補正部309に与えられる。
 例えば、ピッチ補正係数修正部321は、下記の(1)式に示されているように、線形変換により、ピッチ補正係数の修正を行えばよい。
 O=IDur×I÷DefDur              (1)
 ここで、Iは、ピッチ補正係数を示し、IDurは、継続長を示し、DefDurは、予め設定された基準ピッチ継続長を示し、Oは、修正ピッチ補正係数を示す。
 また、ピッチ補正係数修正部321には、継続長に応じて離散的な修正ピッチ補正係数が予め設定され、ピッチ補正係数修正部321は、ピッチ補正係数を、設定された修正ピッチ補正係数で置き換えるようにしてもよい。
 次に、ピッチパターン補正部309は、ピッチパターンの補正を行う(S36)。具体的には、以下の通りである。
 まず、ピッチパターン補正部309は、補正により生成する発話様式に対応するピッチパターン補正方法を取得する。
 そして、ピッチパターン補正部309は、取得されたピッチパターン補正方法により、最大ピッチ特定部103から与えられる最大ピッチ情報で示される最大値及び文末ピッチ区間特定部104から与えられる文末ピッチ区間情報で示される文末ピッチ区間に含まれているピッチの少なくとも何れか一方に応じて、ピッチ補正係数修正部321から与えられる修正ピッチ補正係数を必要に応じて使用し、ピッチパターン取得部102から与えられるピッチパターンの内、文末ピッチ区間特定部104から与えられる文末ピッチ区間情報で示される文末ピッチ区間を補正する。なお、補正されたピッチパターンは、補正ピッチパターンとして出力される。
 なお、図16に示されているフローチャートにおいて、ステップS31~S33の処理は、並行して行うことができ、どのステップから行われてもよい。
 図17は、実施の形態3におけるピッチパターン補正部309の動作例を示す。
 なお、実施の形態3におけるピッチパターン補正方法記憶部208には、図14に示されているようなピッチパターン補正方法情報208aが記憶されているものとする。
 図17(A)及び(B)は、1文字目にアクセントがあり、モーラ数3の言語属性情報を持つ非平板型の「そぐね」という単語のピッチパターンを質問調のピッチパターンに補正する場合の一例である。
 図17(A)は、補正前のピッチパターンを示している。
 ピッチパターン補正部309は、発話様式を質問にするピッチパターン補正方法に基づいて、図17(B)に示されているように、文末ピッチ区間における後端のピッチの値を補正する。ここでは、修正ピッチ補正係数が「0.8」であり、ピッチの最大値よりも低い値となるように、後端のピッチの値が補正されている。
 なお、実施の形態3では、継続長情報で示される継続長を基準にピッチ補正係数を修正しているが、実施の形態3はこのような例に限定されない。例えば、文末ピッチ区間の継続長以外の発話音声の韻律を用いてピッチ補正係数が修正されてもよい。例えば、発話全体の継続長又は話速といった韻律に基づいて、ピッチ補正係数が修正されてもよい。また、抑揚の大きさといった韻律に基づいて、ピッチ補正係数が修正されてもよい。
 また、継続長又はピッチの統計値(例えば、平均、分散又は中央値等)に応じて、ピッチ補正係数が修正されてもよい。これらを組み合わせた情報に基づいて、ピッチ補正係数が修正されてもよい。
 以上のように、実施の形態3によれば、補正量に影響を与えるピッチ補正係数を継続長に応じて修正することができる。継続長に応じて発話様式の知覚に十分な補正量が異なるため、継続長に応じた補正量の設定ができるようになり、発話様式が知覚されやすい自然なピッチパターンを実現することができる。
 また、文末ピッチ区間の継続長だけでなく、他の韻律を用いて補正量を修正するように構成した場合には、発話内容等による細かな変化も考慮することが可能となり、より発話様式が知覚されやすい自然なピッチパターンを実現することができる。
 なお、実施の形態3におけるピッチパターン補正装置300が、実施の形態1におけるピッチパターン補正装置100の言語情報入力部105、言語属性情報取得部106及びピッチパターン補正方法記憶部108を備え、ピッチパターン補正部309が、実施の形態1と同様に、言語属性に応じて、ピッチパターン補正方法を切り替えるようにしてもよい。
 また、実施の形態3におけるピッチパターン補正装置300が、実施の形態2におけるピッチパターン補正装置200の部分ピッチ補正部210及び最大ピッチ特定部203を備え、ピッチパターン補正部309が、部分ピッチ補正部210で補正された特定の区間を含むピッチパターンを補正するようにしてもよい。
実施の形態4.
 図18は、実施の形態4に係るピッチパターン補正装置400の構成を概略的に示すブロック図である。
 ピッチパターン補正装置400は、音声情報入力部101と、ピッチパターン取得部102と、最大ピッチ特定部203と、言語情報入力部105と、言語属性情報取得部106と、ピッチ補正係数入力部107と、ピッチパターン補正方法記憶部108と、ピッチパターン補正部409と、部分ピッチ補正部210と、継続長情報入力部320と、ピッチ補正係数修正部321とを備える。
 実施の形態4に係るピッチパターン補正装置400の音声情報入力部101、ピッチパターン取得部102、言語情報入力部105、言語属性情報取得部106、ピッチ補正係数入力部107及びピッチパターン補正方法記憶部108は、実施の形態1に係るピッチパターン補正装置100の音声情報入力部101、ピッチパターン取得部102、言語情報入力部105、言語属性情報取得部106、ピッチ補正係数入力部107及びピッチパターン補正方法記憶部108と同様である。
 また、実施の形態4に係るピッチパターン補正装置400の最大ピッチ特定部203及び部分ピッチ補正部210は、実施の形態2に係るピッチパターン補正装置200の最大ピッチ特定部203及び部分ピッチ補正部210と同様である。
 このため、部分ピッチ補正部210は、図7に示されているように、最大ピッチ区間抽出部211と、最大ピッチ区間補正方法記憶部212と、最大ピッチ区間補正部213と、文末ピッチ区間抽出部214と、文末ピッチ区間補正方法記憶部216と、文末ピッチ区間補正部215とを備える。
 さらに、実施の形態4に係るピッチパターン補正装置400の継続長情報入力部320及びピッチ補正係数修正部321は、実施の形態3に係るピッチパターン補正装置300の継続長情報入力部320及びピッチ補正係数修正部321と同様である。
 ピッチパターン補正部409は、最大ピッチ特定部203から与えられる最大ピッチ情報で示される最大値、及び、部分ピッチ補正部210により補正された特定の区間を含むピッチパターンにおいて音声の文末の音韻に対応する区間である文末ピッチ区間に含まれるピッチの少なくとも何れか一方に応じて、部分ピッチ補正部210により補正された特定の区間を含むピッチパターンを補正することで、音声の発話様式を変更する。
 例えば、ピッチパターン補正部409は、最大ピッチ区間補正部213から与えられる補正最大ピッチ区間情報で示されるピッチパターンと、文末ピッチ区間補正部215から与えられる補正文末ピッチ区間情報で示されるピッチパターンとを、ピッチパターン取得部102から与えられるピッチパターンに合成することで、部分補正ピッチパターンを生成する。
 また、ピッチパターン補正部409は、言語属性情報取得部106から与えられた言語属性情報で示される言語属性に対応するピッチパターン補正方法を、ピッチパターン補正方法記憶部108に記憶されているピッチパターン補正方法情報から選択する。
 そして、ピッチパターン補正部409は、選択されたピッチパターン補正方法により、最大ピッチ特定部103から与えられる最大ピッチ情報で示される最大値及び文末ピッチ区間に含まれているピッチの少なくとも何れか一方に応じて、ピッチ補正係数修正部321から与えられる修正ピッチ補正係数を必要に応じて使用し、与えられた補正文末ピッチ区間情報で示されるピッチパターンに対応する区間の部分補正ピッチパターンを補正する。
 なお、補正された部分補正ピッチパターンは、補正ピッチパターンとして出力される。
 実施の形態4に係るピッチパターン補正装置400についても、図2に示されているコンピュータ130により実現することができる。
 例えば、メモリ131は、プロセッサ132をピッチパターン補正部409として機能させるプログラムも記憶する。
 図19は、ピッチパターン補正装置400の動作を示すフローチャートである。
 まず、ピッチパターン取得部102は、音声情報入力部101から、少なくともピッチパターンを特定することのできる音声情報を受け取り、その音声情報で特定されるピッチパターンを取得する(S40)。ここでの処理は、図3に示されているステップS10の処理と同様である。取得されたピッチパターンは、最大ピッチ区間抽出部211、文末ピッチ区間抽出部214及びピッチパターン補正部409に与えられる。
 次に、言語属性情報取得部106は、言語情報入力部105から、言語属性を特定することのできる言語情報を受け取り、その言語情報で特定される言語属性を示す言語属性情報を取得する(S41)。ここでの処理は、図3のステップS11での処理と同様である。取得された言語属性情報は、ピッチパターン補正部409に与えられる。
 次に、最大ピッチ区間抽出部211は、与えられたピッチパターンにおいて、文末フレーズ内のピッチの最大値を含む音韻に対応する区間である最大ピッチ区間のピッチパターンを抽出し、抽出されたピッチパターンを示す最大ピッチ区間抽出情報を生成する(S42)。ここでの処理は、図8のステップS21での処理と同様である。生成された最大ピッチ区間抽出情報は、最大ピッチ区間補正部213に与えられる。
 次に、文末ピッチ区間抽出部214は、与えられたピッチパターンにおいて、文末のピッチを含む文末ピッチ区間のピッチパターンを抽出し、抽出されたピッチパターンを示す文末ピッチ区間抽出情報を生成する(S43)。ここでの処理は、図8のステップS22での処理と同様である。生成された文末ピッチ区間情報は、文末ピッチ区間補正部215に与えられる。
 次に、ピッチ補正係数入力部107は、入力されたピッチ補正係数をピッチ補正係数修正部321に与える(S44)。ここでの処理は、図16のステップS33での処理と同様である。
 次に、最大ピッチ区間補正部213は、与えられた最大ピッチ区間情報で示される最大区間のピッチパターンを、最大ピッチ区間補正方法に従って補正する(S45)。ここでの処理は、図8のステップS24の処理と同様である。そして、最大ピッチ区間補正部213は、補正されたピッチパターンを示す補正最大ピッチ区間情報を生成し、その補正最大ピッチ区間情報を、最大ピッチ特定部203及びピッチパターン補正部409に与える。
 次に、文末ピッチ区間補正部215は、与えられた文末ピッチ区間情報で示される文末区間のピッチパターンを、文末ピッチ区間補正方法に従って補正する(S46)。ここでの処理は、図8のステップS25での処理と同様である。そして、文末ピッチ区間補正部215は、補正されたピッチパターンを示す補正文末ピッチ区間情報を生成し、その補正文末ピッチ区間情報を、ピッチパターン補正部409に与える。
 次に、最大ピッチ特定部203は、与えられた補正最大ピッチ区間情報で示されるピッチパターンにおいて、ピッチの最大値を特定し、特定された最大値を示す最大ピッチ情報を生成する(S47)。ここでの処理は、図8のステップS26での処理と同様である。そして、最大ピッチ特定部203は、その最大ピッチ情報をピッチパターン補正部409に与える。
 次に、継続長情報入力部320は、継続長情報の入力を受け付ける(S48)。ここでの処理は、図16のステップS34での処理と同様である。入力された継続長情報は、ピッチ補正係数修正部321に与えられる。
 次に、ピッチ補正係数修正部321は、継続長情報に応じてピッチ補正係数を修正することで、修正ピッチ補正係数を生成する(S49)。ここでの処理は、図16のステップS35での処理と同様である。生成された修正ピッチ補正係数は、ピッチパターン補正部409に与えられる。
 次に、ピッチパターン補正部409は、ピッチパターンの補正を行う(S50)。具体的には、以下の通りである。
 まず、ピッチパターン補正部409は、補正最大ピッチ区間情報で示されるピッチパターンと、補正文末ピッチ区間情報で示されるピッチパターンとを、ピッチパターン取得部102から与えられるピッチパターンに合成することで、部分補正ピッチパターンを生成する。
 次に、ピッチパターン補正部409は、言語属性情報で示される言語属性に対応するピッチパターン補正方法を、ピッチパターン補正方法記憶部108に記憶されているピッチパターン補正方法情報から選択する。
 そして、ピッチパターン補正部409は、選択されたピッチパターン補正方法により、最大ピッチ特定部103から与えられる最大ピッチ情報で示される最大値及び文末ピッチ区間に含まれるピッチの少なくとも何れか一方に応じて、ピッチ補正係数修正部321から与えられる修正ピッチ補正係数を必要に応じて使用し、与えられた補正文末ピッチ区間情報で示されるピッチパターンに対応する区間の部分補正ピッチパターンを補正する。
 図20は、実施の形態4におけるピッチパターン補正部409の動作例を示す。
 なお、実施の形態4におけるピッチパターン補正方法記憶部108には、図6に示されているようなピッチパターン補正方法情報108aが記憶されているものとする。
 図20(A)及び(B)は、1文字目にアクセントがあり、モーラ数3の言語属性情報を持つ非平板型の「そぐね」という単語のピッチパターンを質問調のピッチパターンに補正する場合の一例である。
 図20(A)は、補正最大ピッチ区間情報で示されるピッチパターンと、補正文末ピッチ区間情報で示されるピッチパターンとを、ピッチパターンに合成することで生成された部分補正ピッチパターンを示している。
 この場合、言語属性情報が「非平板」を示しているため、ピッチパターン補正部409は、例えば、図6に示されているピッチパターン補正方法情報108aから、非平板のピッチパターン補正方法を選択する。
 このため、図20(B)に示されているように、ピッチパターン補正部409は、文末ピッチ区間の終端のピッチの値から、文末ピッチ区間の始端のピッチの値を減算した値を、始端のピッチの値に加算することで補正を行っている。これにより、文末ピッチ区間の始端のピッチの値は、補正前の終端のピッチの値に変換されている。
 なお、ここでの終端のピッチの値は、文末ピッチ区間補正部215により、ピッチパターン取得部102から与えられたピッチパターンにおける終端のピッチの値に「0.9」が乗算された値となっている。
 また、ピッチパターン補正部409は、与えられた修正ピッチ補正係数を、ピッチの最大値と、文末ピッチ区間の終端のピッチの値との差分に積算した値を、終端のピッチの値に加算することで補正を行っている。ここでのピッチの最大値は、最大ピッチ区間補正部213により、ピッチパターン取得部102から与えられたピッチパターンにおける最大値に「1.2」が乗算された値となっている。但し、修正ピッチ補正係数は、「0.8」になっている。
 以上のように、実施の形態4によれば、平叙音声と発話様式との間のピッチパターンの差が、アクセント位置等の言語属性情報により大きく異なる場合においても、言語属性情報に応じた補正方法を実行することが可能であり、発話様式により強調又は変化する抑揚を補正可能であり、音韻の継続長に応じて発話様式の知覚に十分な補正量が異なるのに対し継続長に応じた補正量の設定ができるようになる。このため、韻律補正の精度が改善し、発話様式が知覚されやすい自然なピッチパターンを実現できるという効果がある。
 また、ピッチの最大値付近の一定区間のピッチにおける平均又は中央値といった統計値を算出し、最大値と見なすように構成した場合に、ピッチの抽出精度が悪いことによる外れ値等の影響を抑制でき、ピッチの最大値を抽出する精度を改善できるという効果がある。
 また、ステップS43において、発話様式によるピッチパターンの変化が末尾音韻付近の音韻まで影響がある場合に、文末ピッチ区間抽出部214が、影響のある音韻まで拡張した区間のピッチパターンを文末ピッチ区間情報とすると、発話様式に応じた柔軟な範囲のピッチパターンの補正が可能であり、発話様式の知覚精度が改善できるという効果がある。
 また、ステップS45において、ピッチパターン補正部409が発声の平均値又は分散等の統計値を利用してピッチを補正するようにした場合、文末フレーズ全体のピッチパターンの傾向を考慮した補正を行うことができ、発話様式の知覚精度が改善できるという効果がある。
 また、ステップS45において、ピッチパターン補正部409において、新たにフレーズ内の最小ピッチを抽出する手段を用意し、最小ピッチを考慮した補正を行えるように構成した場合に、最大ピッチと終端ピッチが近い平板型の発声においても、抑揚の大きさを考慮した補正が可能であり、生成されるピッチパターンの発話様式の知覚精度が改善できるという効果がある。
 なお、言語属性情報に応じてピッチパターンの補正方法を選択するとともに、ピッチパターンの最大ピッチ区間及び文末ピッチ区間の少なくとも何れか一方を部分的に補正することで、アクセント等の言語属性も考慮したピッチの最大値及び文末ピッチの補正が可能となり、韻律補正の精度が改善し、発話様式が知覚されやすい自然なピッチパターンを実現できるという効果がある。
 なお、言語属性情報に応じてピッチパターンの補正方法を選択するとともに、音声の韻律に応じて、ピッチパターンを補正する補正量を変更するようにすることで、例えば、アクセント位置から補正区間までの距離も考慮した補正量の修正が可能となり、韻律補正の精度が改善し、発話様式が知覚されやすい自然なピッチパターンを実現できるという効果がある。
 なお、ピッチパターンの最大ピッチ区間及び文末ピッチ区間の少なくとも何れか一方を部分的に補正するとともに、音声の韻律に応じて、ピッチパターンを補正する補正量を変更するようにすることで、最大ピッチ区間及び文末ピッチ区間の補正による抑揚の変化を考慮したピッチ補正係数の修正が可能となり、韻律補正の精度が改善し、発話様式が知覚されやすい自然なピッチパターンを実現できるという効果がある。
 100,200,300,400 ピッチパターン補正装置、 101 音声情報入力部、 102 ピッチパターン取得部、 103,203 最大ピッチ特定部、 104 文末ピッチ区間特定部、 105 言語情報入力部、 106 言語属性情報取得部、 107 ピッチ補正係数入力部、 108,208 ピッチパターン補正方法記憶部、 109,209,309,409 ピッチパターン補正部、 210 部分ピッチ補正部、 211 最大ピッチ区間抽出部、 212 最大ピッチ区間補正方法記憶部、 213 最大ピッチ区間補正部、 214 文末ピッチ区間抽出部、 215 文末ピッチ区間補正部、 216 文末ピッチ区間補正方法記憶部、 320 継続長情報入力部、 321 ピッチ補正係数修正部。

Claims (13)

  1.  音声のピッチパターンにおいて、前記音声における文末フレーズに含まれているピッチの最大値を特定する最大ピッチ特定部と、
     前記ピッチパターンにおいて、前記音声の文末の音韻に対応する区間である文末ピッチ区間を特定する文末ピッチ区間特定部と、
     前記特定された最大値及び前記特定された文末ピッチ区間に含まれるピッチの少なくとも何れか一方に応じて、前記ピッチパターンを補正することで、前記音声の発話様式を変更するピッチパターン補正部と、を備え、
     前記ピッチパターン補正部は、前記音声の韻律に応じて、前記ピッチパターンを補正する補正量を変更すること
     を特徴とするピッチパターン補正装置。
  2.  前記韻律は、前記ピッチパターンを補正する区間に対応する、前記音声の長さであること
     を特徴とする請求項1に記載のピッチパターン補正装置。
  3.  前記韻律は、前記音声の全体の長さであること
     を特徴とする請求項1に記載のピッチパターン補正装置。
  4.  前記韻律は、前記音声の話速であること
     を特徴とする請求項1に記載のピッチパターン補正装置。
  5.  前記韻律は、前記音声における抑揚の大きさであること
     を特徴とする請求項1に記載のピッチパターン補正装置。
  6.  前記ピッチパターン補正部は、前記音声の韻律に関する統計値を用いて、前記補正量を変更すること
     を特徴とする請求項1に記載のピッチパターン補正装置。
  7.  前記ピッチパターン補正部は、前記音声における言語の属性である言語属性に応じて、前記ピッチパターンを補正する方法であるピッチパターン補正方法を切り替えること
     を特徴とする請求項1から6の何れか一項に記載のピッチパターン補正装置。
  8.  音声のピッチパターンにおいて、特定の区間を補正する部分ピッチ補正部と、
     前記補正された特定の区間を含むピッチパターンにおいて、前記音声における文末フレーズに含まれているピッチの最大値を特定する最大ピッチ特定部と、
     前記特定された最大値、及び、前記補正された特定の区間を含むピッチパターンにおいて前記音声の文末の音韻に対応する区間である文末ピッチ区間に含まれるピッチの少なくとも何れか一方に応じて、前記補正された特定の区間を含むピッチパターンを補正することで、前記音声の発話様式を変更するピッチパターン補正部と、を備え、
     前記ピッチパターン補正部は、前記音声の韻律に応じて、前記補正された特定の区間を含むピッチパターンを補正する補正量を変更すること
     を特徴とするピッチパターン補正装置。
  9.  前記ピッチパターン補正部は、前記音声における言語の属性である言語属性に応じて、前記補正された特定の区間を含むピッチパターンを補正する方法であるピッチパターン補正方法を切り替えること
     を特徴とする請求項8に記載のピッチパターン補正装置。
  10.  コンピュータを、
     音声のピッチパターンにおいて、前記音声における文末フレーズに含まれているピッチの最大値を特定する最大ピッチ特定部、
     前記ピッチパターンにおいて、前記音声の文末の音韻に対応する区間である文末ピッチ区間を特定する文末ピッチ区間特定部、並びに、
     前記特定された最大値及び前記特定された文末ピッチ区間に含まれるピッチの少なくとも何れか一方に応じて、前記ピッチパターンを補正することで、前記音声の発話様式を変更するピッチパターン補正部、として機能させ、
     前記ピッチパターン補正部は、前記音声の韻律に応じて、前記ピッチパターンを補正する補正量を変更すること
     を特徴とするプログラム。
  11.  コンピュータを、
     音声のピッチパターンにおいて、特定の区間を補正する部分ピッチ補正部、
     前記補正された特定の区間を含むピッチパターンにおいて、前記音声における文末フレーズに含まれているピッチの最大値を特定する最大ピッチ特定部、並びに、
     前記特定された最大値、及び、前記補正された特定の区間を含むピッチパターンにおいて前記音声の文末の音韻に対応する区間である文末ピッチ区間に含まれるピッチの少なくとも何れか一方に応じて、前記補正された特定の区間を含むピッチパターンを補正することで、前記音声の発話様式を変更するピッチパターン補正部、として機能させ、
     前記ピッチパターン補正部は、前記音声の韻律に応じて、前記補正された特定の区間を含むピッチパターンを補正する補正量を変更すること
     を特徴とするプログラム。
  12.  音声のピッチパターンにおいて、前記音声における文末フレーズに含まれているピッチの最大値を特定し、
     前記ピッチパターンにおいて、前記音声の文末の音韻に対応する区間である文末ピッチ区間を特定し、並びに、
     前記特定された最大値及び前記特定された文末ピッチ区間に含まれるピッチの少なくとも何れか一方に応じて、前記ピッチパターンを補正することで、前記音声の発話様式を変更するピッチパターン補正方法であって、
     前記ピッチパターンを補正する際に、前記音声の韻律に応じて、前記ピッチパターンを補正する補正量を変更すること
     を特徴とするピッチパターン補正方法。
  13.  音声のピッチパターンにおいて、特定の区間を補正し、
     前記補正された特定の区間を含むピッチパターンにおいて、前記音声における文末フレーズに含まれているピッチの最大値を特定し、並びに、
     前記特定された最大値、及び、前記補正された特定の区間を含むピッチパターンにおいて前記音声の文末の音韻に対応する区間である文末ピッチ区間に含まれるピッチの少なくとも何れか一方に応じて、前記補正された特定の区間を含むピッチパターンを補正することで、前記音声の発話様式を変更するピッチパターン補正方法であって、
     前記補正された特定の区間を含むピッチパターンを補正する際に、前記音声の韻律に応じて、前記補正された特定の区間を含むピッチパターンを補正する補正量を変更すること
     を特徴とするピッチパターン補正方法。
PCT/JP2019/043388 2019-11-06 2019-11-06 ピッチパターン補正装置、プログラム及びピッチパターン補正方法 WO2021090381A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020516498A JP6727477B1 (ja) 2019-11-06 2019-11-06 ピッチパターン補正装置、プログラム及びピッチパターン補正方法
PCT/JP2019/043388 WO2021090381A1 (ja) 2019-11-06 2019-11-06 ピッチパターン補正装置、プログラム及びピッチパターン補正方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/043388 WO2021090381A1 (ja) 2019-11-06 2019-11-06 ピッチパターン補正装置、プログラム及びピッチパターン補正方法

Publications (1)

Publication Number Publication Date
WO2021090381A1 true WO2021090381A1 (ja) 2021-05-14

Family

ID=71663985

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/043388 WO2021090381A1 (ja) 2019-11-06 2019-11-06 ピッチパターン補正装置、プログラム及びピッチパターン補正方法

Country Status (2)

Country Link
JP (1) JP6727477B1 (ja)
WO (1) WO2021090381A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000075880A (ja) * 1998-09-01 2000-03-14 Nippon Telegr & Teleph Corp <Ntt> ピッチパタン変形方法及びその記録媒体
JP2008015362A (ja) * 2006-07-07 2008-01-24 Sharp Corp 韻律補正装置、音声合成装置、韻律補正方法、音声合成方法、韻律補正プログラム、および、音声合成プログラム
JP2015102773A (ja) * 2013-11-27 2015-06-04 日産自動車株式会社 音声発生装置、音声変形装置及び方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000075880A (ja) * 1998-09-01 2000-03-14 Nippon Telegr & Teleph Corp <Ntt> ピッチパタン変形方法及びその記録媒体
JP2008015362A (ja) * 2006-07-07 2008-01-24 Sharp Corp 韻律補正装置、音声合成装置、韻律補正方法、音声合成方法、韻律補正プログラム、および、音声合成プログラム
JP2015102773A (ja) * 2013-11-27 2015-06-04 日産自動車株式会社 音声発生装置、音声変形装置及び方法

Also Published As

Publication number Publication date
JP6727477B1 (ja) 2020-07-22
JPWO2021090381A1 (ja) 2021-11-25

Similar Documents

Publication Publication Date Title
US10347238B2 (en) Text-based insertion and replacement in audio narration
JP5482042B2 (ja) 合成音声テキスト入力装置及びプログラム
US8433573B2 (en) Prosody modification device, prosody modification method, and recording medium storing prosody modification program
JP6266372B2 (ja) 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム
US20080319755A1 (en) Text-to-speech apparatus
JP7228998B2 (ja) 音声合成装置及びプログラム
JP2000305582A (ja) 音声合成装置
JP4406440B2 (ja) 音声合成装置、音声合成方法及びプログラム
JP5148026B1 (ja) 音声合成装置および音声合成方法
US20080319754A1 (en) Text-to-speech apparatus
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
JP5029884B2 (ja) 韻律生成装置、韻律生成方法、および、韻律生成プログラム
JP2001109500A (ja) 音声合成装置および方法
JP4225128B2 (ja) 規則音声合成装置及び規則音声合成方法
JP7004872B2 (ja) ピッチパターン補正装置、プログラム及びピッチパターン補正方法
JP6762454B1 (ja) ピッチパターン補正装置、プログラム及びピッチパターン補正方法
JP2009133890A (ja) 音声合成装置及びその方法
WO2021090381A1 (ja) ピッチパターン補正装置、プログラム及びピッチパターン補正方法
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP2009157220A (ja) 音声編集合成システム、音声編集合成プログラム及び音声編集合成方法
JP3575919B2 (ja) テキスト音声変換装置
JP2018041116A (ja) 音声合成装置、音声合成方法およびプログラム
JP6191094B2 (ja) 音声素片切出装置
JP4872690B2 (ja) 音声合成方法、音声合成プログラム、音声合成装置
JP2003330482A (ja) 基本周波数パターン生成方法、基本周波数パターン生成装置、音声合成方法、音声合成装置、基本周波数パターン生成プログラムおよび音声合成プログラム

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2020516498

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19951978

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19951978

Country of ref document: EP

Kind code of ref document: A1