WO2017159083A1 - 音声合成方法および音声合成制御装置 - Google Patents

音声合成方法および音声合成制御装置 Download PDF

Info

Publication number
WO2017159083A1
WO2017159083A1 PCT/JP2017/003452 JP2017003452W WO2017159083A1 WO 2017159083 A1 WO2017159083 A1 WO 2017159083A1 JP 2017003452 W JP2017003452 W JP 2017003452W WO 2017159083 A1 WO2017159083 A1 WO 2017159083A1
Authority
WO
WIPO (PCT)
Prior art keywords
detected
speech
sound
voice
speech synthesis
Prior art date
Application number
PCT/JP2017/003452
Other languages
English (en)
French (fr)
Inventor
入山 達也
Original Assignee
ヤマハ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤマハ株式会社 filed Critical ヤマハ株式会社
Publication of WO2017159083A1 publication Critical patent/WO2017159083A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/18Selecting circuits
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Definitions

  • the present invention relates to a technique for synthesizing speech using an input sound signal.
  • Non-Patent Document 1 describes a keyboard instrument that synthesizes a singing voice.
  • the keyboard instrument of Non-Patent Document 1 synthesizes a singing voice corresponding to a key when the key is touched with a stylus.
  • Non-Patent Document 1 when a certain key is continuously touched at a short time interval, a delay in sound generation of the synthesized voice occurs in response to the second and subsequent touches, and this delay is accumulated. I had to do it.
  • the present invention provides a technique for reducing the accumulated delay of synthesized speech output with respect to continuously detected pronunciation timings.
  • the speech synthesis method includes a step of detecting a sound generation timing from an input sound signal, and when the current sound generation timing is detected, the current sound generation timing after the previous sound generation timing is detected. Instructing to synthesize speech for the current input sound signal by a method according to the time until detection of.
  • the speech synthesis control device includes a detection unit that detects a sound generation timing from an input sound signal, and when the current sound generation timing is detected, the current sound generation timing is detected after the previous sound generation timing is detected. And an instruction means for instructing to synthesize the voice for the input sound signal this time by a method according to the time until the sound generation timing is detected.
  • FIG. 1 It is a figure which illustrates the synthetic speech by this embodiment. It is a figure which illustrates the speech synthesis
  • FIG. 1 It is a figure which illustrates the synthetic speech by this embodiment. It is a figure which illustrates the speech synthesis
  • FIG. 1 is a diagram showing an overview of a speech synthesis system 9 according to related technology.
  • the speech synthesis system 9 includes a speech synthesizer 90, a microphone 20, and a percussion instrument 30.
  • the voice synthesis system 9 synthesizes voice in real time according to the performance of the percussion instrument 30 and outputs the synthesized voice.
  • the microphone 20 first converts the performance sound of the percussion instrument 30 into a sound signal.
  • the sound signal is a signal indicating a sound waveform.
  • This sound signal is input to the speech synthesizer 90.
  • this sound signal is referred to as “input sound signal”.
  • the voice synthesizer 90 detects the sound generation timing from the input sound signal.
  • the speech synthesizer 90 synthesizes speech according to the detected pronunciation timing.
  • the voice synthesizer 90 outputs the synthesized voice (hereinafter referred to as “synthesized voice”) from the speaker.
  • the ideal operation of the speech synthesis system 9 is that, for example, a synthesized speech “Pa” is output almost simultaneously when the percussion instrument 30 is struck.
  • FIG. 2 is a diagram illustrating the timing relationship between the input sound signal and the pronunciation of the synthesized speech.
  • the horizontal axis indicates time
  • the vertical axis indicates signal level.
  • the signal level of the input sound signal exceeds a certain threshold value, it is detected as a trigger (that is, sound generation timing or note-on timing), and the speech synthesis process is started.
  • the time required from the detection of the trigger to the start of the output of synthesized speech is about 25 msec in the example of this figure.
  • the synthesized speech is composed of a consonant section and a vowel section.
  • the consonant section is about 45 msec
  • the vowel section is about 205 msec
  • the total length of time (note length) of the synthesized speech output for one trigger is about 250 msec.
  • the timing of the end of sound generation (note-off) is not always clear from the performance sound itself. For example, when synthesizing voice in response to a key press on a keyboard instrument, a key is pressed, and when the key displacement (or pressure) exceeds a threshold value, the sound begins, and when the value falls below the threshold, the sound ends Thus, the timing of the end of sound generation can be specified from the performance operation.
  • the signal waveform of the performance sound itself is very short (in the example of FIG. 2, about 50 msec), and if the sound is finished at the same time, the sound will sound unnatural. End up.
  • the voice synthesizer 90 does not know in advance what kind of performance the performer will perform. That is, even if a trigger is detected at a certain timing, the voice synthesizer 90 does not know when the next trigger occurs at that time. Therefore, in order to be heard naturally as a human voice, the voice synthesizer 90 synthesizes a voice having a standard time length (for example, a time length corresponding to a quarter note) when a trigger is detected. In the example of FIG. 2, the synthesized speech has a time length of about 250 msec.
  • FIG. 3 is a diagram showing problems of the speech synthesis system 9.
  • the following problems occur in the above situation. That is, when a trigger is detected continuously at short intervals as shown in this figure (in the example of FIG. 3, sixteenth notes are continued eight times), the second and subsequent pronunciations are detected as triggers. It may be later than the timing. Furthermore, this delay accumulates as the number of triggers detected continuously increases. For example, when the second sound trigger is detected, considering the time difference of 25 msec from the trigger detection to the start of sound generation, the sound generation of the first sound has only been performed for 35 msec at that time. Therefore, the sound of the first sound continues for another 215 msec. Furthermore, when the trigger of the second sound is detected, the sound of the first sound is still being produced, and the sound of the third sound is started 345 msec later.
  • the speech synthesizer 90 if the previous sound is still sounding when the trigger is detected, it is possible to adopt a configuration in which the sound of the previous sound is stopped and the sound of the next sound is started. However, even in this case, in order to be heard naturally as a human voice, a certain amount of time (for example, 50 msec) is required for the process of stopping the previous sound (for example, the process of naturally attenuating the sound). Considering a time difference of 25 msec from the trigger detection to the start of processing, it takes at least 75 msec from the detection of the second sound during the first sound to the start of the second sound. Also in this case, the delay is accumulated as the number of triggers continuously detected increases. Further, when the third sound trigger is detected during the first sound generation or the stop process, the speech synthesizer 90 performs the second sound generation and the stop process, and then generates the third sound. Start. Therefore, the delay is accumulated without being eliminated.
  • a certain amount of time for example, 50 msec
  • the input (performance operation) should have an interval of 100 msec or more” because the convenience of the speech synthesis system is significantly impaired.
  • the trigger of the first sound it is not known when the trigger of the second sound is detected. Therefore, it is not preferable to shorten the length of the first sound.
  • the second sound trigger is detected while the first sound is being generated, if the second sound is started without stopping the first sound, the sound will be discontinuous and unnatural. This is also not preferable.
  • the present embodiment addresses this delay accumulation.
  • FIG. 4 is a diagram illustrating a functional configuration of the speech synthesis system 1 according to an embodiment.
  • the speech synthesis system 1 includes a speech synthesizer 10, a microphone 20, and a percussion instrument 30.
  • the speech synthesizer 10 synthesizes speech in real time according to the performance of the percussion instrument 30, and outputs the synthesized speech.
  • the speech synthesizer 10 includes an input unit 11, a detection unit 12, a determination unit 13, an instruction unit 14, a speech synthesis unit 15, and an output unit 16.
  • the input unit 11, the detection unit 12, the determination unit 13, and the instruction unit 14 constitute a speech synthesis control device 100.
  • the input unit 11 receives an input sound signal from the microphone 20.
  • the detecting means 12 detects a trigger, that is, a sound generation timing from the input sound signal.
  • the determination unit 13 determines whether a threshold time has elapsed since the previous trigger was detected.
  • the instruction unit 14 generates and outputs a voice synthesis instruction according to the determination result by the determination unit 13. That is, the instruction means 14 converts the input sound signal into a voice synthesis instruction.
  • the instruction means 14 instructs the voice synthesis by the first method. If the determination unit 13 determines that the threshold time has not elapsed since the previous sounding timing was detected, the instruction unit 14 instructs the synthesis of speech by a second method different from the first method.
  • the voice synthesis unit 15 performs voice synthesis in accordance with the instruction output from the instruction unit 14.
  • the output unit 16 outputs the voice synthesized by the voice synthesis unit 15.
  • FIG. 5 is a diagram illustrating a hardware configuration of the speech synthesizer 10.
  • the speech synthesizer 10 is a computer device having a CPU 101, a memory 102, a storage 103, an input unit 104, an output unit 105, and a communication IF 106.
  • the CPU 101 is a control device that controls other components of the speech synthesizer 10.
  • the memory 102 is a volatile storage device that functions as a work space when the CPU 101 executes a program.
  • the storage 103 is a non-volatile storage device that stores various data and programs.
  • the input unit 104 is an input device that receives an instruction or information input from a user, and includes, for example, at least one of a touch sensor and a button.
  • the output unit 105 is an output device that outputs information to the outside, and includes, for example, at least one of a display and a speaker.
  • the communication IF 106 is an interface for communicating with another device, for example, a server device (not shown) on the network.
  • FIG. 6 is a diagram illustrating a software configuration of the speech synthesizer 10.
  • the speech synthesizer 10 has an OS 151 and an application 152. These software are stored in the storage 103 and executed by the CPU 101.
  • the OS 151 is software for providing functions for basic management and control of the computer apparatus.
  • the application 152 is software for providing a real-time speech synthesis function.
  • the application 152 further includes a trigger detection module 1521 and a speech synthesis engine 1522.
  • the trigger detection module 1521 detects a trigger from the input sound signal, and generates a voice synthesis instruction according to the trigger.
  • the trigger detection module 1521 outputs the generated instruction to the speech synthesis engine 1522.
  • the voice synthesis engine 1522 performs voice synthesis according to the input instruction, and outputs sound signal data indicating the synthesized voice.
  • the OS 151 outputs a sound in accordance with the sound signal data.
  • the trigger detection module 1521 is an example of the input unit 11, the detection unit 12, the determination unit 13, and the instruction unit 14.
  • the speech synthesis engine 1522 is an example of the speech synthesis unit 15.
  • a speaker controlled by the OS 151 is an example of the output unit 16.
  • FIG. 7 is a flowchart illustrating an operation according to an embodiment of the speech synthesizer 10.
  • the flow in FIG. 7 shows a speech synthesis method according to an embodiment. For example, it is started when the activation of the application 152 is instructed by the user.
  • step S1 the trigger detection module 1521 starts accepting an input sound signal.
  • the process of step S1 corresponds to the function of the input unit 11.
  • step S2 the trigger detection module 1521 detects a trigger from the input sound signal.
  • the trigger condition is determined in advance by the application 152.
  • the trigger condition is that the instantaneous value of the signal level exceeds a threshold value.
  • the trigger detection module 1521 may determine the presence or absence of a trigger based on the shape of the sound signal waveform during the most recent predetermined period (for example, 10 msec).
  • the trigger detection module 1521 waits until the trigger is detected.
  • the trigger detection module 1521 moves the process to step S3.
  • the process of step S2 corresponds to the function of the detection means 12.
  • step S3 the trigger detection module 1521 determines whether a threshold time has elapsed since the most recent trigger was detected.
  • the trigger detection module 1521 holds information for specifying the time when the most recent trigger is detected, and makes this determination using this information.
  • the “threshold time” used here is a time during which it is estimated that the previous sound is still being output, for example, 250 msec. If it is determined that the threshold time has elapsed since the most recent trigger was detected (S3: YES), the trigger detection module 1521 proceeds to step S4. If it is determined that the threshold time has not elapsed since the most recent trigger was detected (S3: NO), the trigger detection module 1521 proceeds to step S5.
  • the process of step S3 corresponds to the function of the determination unit 13.
  • the trigger detection module 1521 generates a speech synthesis instruction by a normal method (an example of the first method).
  • the normal method is a method that does not take into account delay accumulation due to a continuous trigger. For example, it instructs voice synthesis with a sound length of 250 msec.
  • the voice synthesis instruction includes, for example, information for specifying a pitch, a pitch, and an assigned character.
  • the pitch and characters are determined according to the waveform of the input sound signal, for example. For example, consider an example in which the percussion instrument 30 includes a bass drum, a snare drum, and a hi-hat, to which different pitches and letters are assigned.
  • the trigger detection module 1521 analyzes the waveform of the input sound signal and determines whether the played musical instrument is a bass drum, a snare drum, or a hi-hat.
  • the trigger detection module 1521 determines the pitch assigned to the musical instrument determined to be played as the pitch of the synthesized voice.
  • the sound length is predetermined and is, for example, 250 msec.
  • the pitch and characters are not limited to those determined according to the waveform of the input sound signal. At least one of the pitch and the character may be determined in advance by the application 152, for example, or may be determined by a user setting, regardless of the waveform of the input sound signal.
  • step S5 the trigger detection module 1521 generates a voice synthesis instruction by a continuous input method (an example of the second method).
  • the continuous input method is a method for reducing delay accumulation due to a continuous trigger.
  • a voice synthesis having a shorter sound length than that of a normal method is instructed.
  • the trigger detection module 1521 instructs speech synthesis with a sound length of 100 msec.
  • the voice synthesis instruction includes, for example, information for specifying a pitch, a pitch, and an assigned character. The pitch and characters are the same as in step S4. Steps S4 and S5 correspond to the function of the instruction means 14.
  • the speech synthesis engine 1522 performs speech synthesis according to the instruction given from the trigger detection module 1521. Since known techniques can be used for speech synthesis, only the outline thereof will be described here.
  • the speech synthesis engine 1522 has a segment library.
  • the segment library is a database including musical segments (singing voice fragments) sampled from a voice of a specific singer.
  • the segment library includes a plurality of segment data collected from the singing voice waveform of the singer.
  • the segment data is voice data obtained by extracting and encoding a phonetic feature from a singing voice waveform.
  • the lyrics “Saita” are expressed by phonetic symbols “saita”.
  • Each piece of data is audio data corresponding to these phonetic features.
  • the element change library stores element data relating to all sounds and combinations of sounds.
  • segment data corresponding to a rising portion of a sound represented by a phonetic symbol is represented as “#s” by adding “#” in front of the phonetic symbol.
  • the segment data corresponding to the sound attenuation part represented by a phonetic symbol is represented as “a #” by adding “#” after the phonetic symbol.
  • segment data corresponding to a transition portion from a sound represented by a certain phonetic symbol to a sound represented by another phonetic symbol is inserted between those phonetic symbols, and “sa” is entered. ".
  • the voice “Pa” is synthesized by combining the segment data “#p”, “p”, “pa”, “a”, and “a #”.
  • the speech synthesis engine 1522 adjusts the pitch and the tone length after combining these segment data.
  • the speech synthesis engine 1522 adjusts the sound length according to the length of the vowel.
  • the entire sound length is adjusted by adjusting the time length of the portion corresponding to the segment data “a” in the voice waveform.
  • step S6 corresponds to the function of the speech synthesizer 15.
  • step S7 the OS 151 outputs the synthesized speech from the speaker according to the data given from the speech synthesis engine 1522.
  • the process of step S7 corresponds to the function of the output means 16.
  • FIG. 8 is a diagram illustrating synthesized speech according to the present embodiment.
  • the synthesized speech according to the comparative example is also illustrated.
  • the length of the synthesized speech is constant regardless of whether the trigger is continuous. According to this embodiment, even when a continuous trigger is detected at a short interval, it is possible to reduce accumulation of sound generation delay of synthesized speech.
  • the length of the synthesized speech in the normal method is not limited to a fixed value.
  • the sound length may be changed according to the waveform of the input sound signal.
  • the following equation (1) shows an example in which the sound length L1 in the normal method is changed according to the amplitude of the input sound signal (specifically, an example in which the sound length becomes longer as the amplitude increases).
  • m is a constant coefficient
  • Gin is the amplitude of the input sound signal (or the difference between the amplitude of the input sound signal and the reference amplitude)
  • Lmin is the minimum value of the sound length in a normal method (for example, 250 msec).
  • the sound length of the synthesized speech is changed according to the waveform of the input sound signal, it is possible to provide a musically richer possibility of expression.
  • the sound synthesis sound length in the continuous input method is not limited to a fixed value.
  • the sound length L2 in the continuous input method may be changed according to the delay amount d accumulated at that time.
  • the following equation (2) shows an example in which the sound length becomes shorter as the accumulated delay amount d increases.
  • k represents a constant coefficient.
  • a lower limit value (for example, 50 msec) may be provided for the sound length L2, and this lower limit value may be adopted as the sound length L2 when the sound length L2 calculated by the equation (2) falls below the lower limit value.
  • the sound length L1 in the normal method in Expression (1) may be a fixed value as in the example of the embodiment, or a value determined according to the waveform of the input sound signal as in Modification 1. Also good. According to the second modification, delay accumulation can be further reduced as compared with an example in which the sound length L2 is a fixed value.
  • the speech synthesis engine 1522 may adjust the sound length by adjusting the time length of the consonant.
  • the speech synthesis engine 1522 adjusts the time length of the portion corresponding to at least one segment data among “#p”, “p”, and “pa”. You may adjust the whole sound length.
  • the segment library holds long segment data and short segment data for each segment.
  • the engine 1522 may use segment data with a long time length in a normal method, and segment data with a short time length in a method for continuous input.
  • the segment library may hold a single segment data for each segment, and the speech synthesis engine 1522 may adjust the time length by processing the segment data.
  • the consonant whose time length is adjusted is not limited to the one at the beginning of the synthesized speech. For example, when a sound “kick” is output when a trigger is detected, the consonant at the end of the ending may be omitted (that is, the time length is zero) in the continuous input method.
  • the normal method and the continuous input method are not limited to those in which the sound length is different.
  • the method for continuous input may be, for example, a method of synthesizing a voice having a different pitch from the previous time.
  • the trigger detection module 1521 stops the sound of the first sound and then starts the sound of the second sound. Instead, an instruction to change the pitch at a timing corresponding to the trigger is generated after the sound of the first sound is continued. That is, the trigger detection module 1521 continuously generates pitch bends.
  • FIG. 9 is a diagram illustrating speech synthesis by the method for continuous input according to the fourth modification.
  • the trigger of the second sound is detected while the first sound “Pa” is being pronounced, the vowel “a” continues to be sounded (the transition to “a #” segment data is performed).
  • the pitch is changed according to the trigger. More specifically, when the trigger of the second sound is detected, the trigger detection module 1521 causes the pitch to be increased to P1 again after continuously decreasing the pitch that is P1 to P2 in the normal method. Generate an instruction to change.
  • FIG. 10 is a diagram illustrating speech synthesis by the method for continuous input according to the fifth modification.
  • the method for continuous input may be a method of synthesizing voice having a different volume from the previous time.
  • the process for changing the volume is performed in the same manner as the process for changing the pitch in the fourth modification. This example can also reduce the uncomfortable feeling felt by the performer as in the fourth modification.
  • the speech synthesis engine 1522 may have functions corresponding to the determination unit 13 and the instruction unit 14.
  • the trigger detection module 1521 detects the trigger
  • the trigger detection module 1521 generates and outputs a voice synthesis instruction without distinguishing between a normal method and a continuous input method.
  • the speech synthesis engine 1522 determines whether a threshold time has elapsed since the previous trigger was detected. The speech synthesis engine 1522 performs speech synthesis according to the determination result.
  • the musical instrument used in the speech synthesis system 1 is not limited to a percussion instrument. Instruments other than percussion instruments such as keyboard instruments, wind instruments, or stringed instruments may be used.
  • the hardware configuration of the speech synthesizer 10 is not limited to that illustrated in the embodiment.
  • the speech synthesizer 10 may have any hardware configuration as long as the required function can be realized.
  • a single device has all the functions of the speech synthesizer 10, but the functions of the speech synthesizer 10 may be implemented separately in a plurality of devices, for example, a client device and a server device.
  • the detection unit 12, the determination unit 13, the instruction unit 14, and the voice synthesis unit 15 may be mounted on the server device, and the input unit 11 and the output unit 16 may be mounted on the client device.
  • the program executed by the CPU 101 of the speech synthesizer 10 may be provided by a storage medium such as an optical disk, a magnetic disk, or a semiconductor memory, or may be downloaded via a communication line such as the Internet. Also, this program need not comprise all the steps of FIG. For example, this program may execute only step S1, step S2, step S3, step S4, and step S5.
  • the amount of delay and the time length of the synthesized speech described in the embodiment are merely examples, and the configuration of the present invention is not limited to this.
  • the speech synthesis method includes a step of detecting a sound generation timing from an input sound signal, and when the current sound generation timing is detected, the current sound generation timing after the previous sound generation timing is detected. Instructing to synthesize speech for the current input sound signal by a method according to the time until detection of.
  • the speech synthesis method further includes a step of determining whether a threshold time has elapsed since the detection of the previous sounding timing when the current sounding timing is detected, When it is determined that the threshold time has elapsed since the sounding timing was detected, voice synthesis by the first method is instructed, and the threshold time has elapsed since the previous sounding timing was detected If it is determined that it is not, voice synthesis may be instructed by a second method different from the first method.
  • the second method may be a method of synthesizing speech having a shorter time length than speech synthesized by the first method.
  • the speech is represented by a combination of consonants and vowels
  • the second method includes speech that includes a vowel with a shorter duration than the speech synthesized by the first method. May be a method of synthesizing.
  • the speech is represented by a combination of consonants and vowels
  • the second method includes speech that includes a consonant with a shorter duration than the speech synthesized by the first method. May be a method of synthesizing.
  • the second method is a method of changing the pitch of speech synthesized corresponding to the previous input sound signal according to the current sounding timing. May be.
  • the second method synthesizes the sound volume synthesized corresponding to the previous input sound signal at a sounding timing that changes according to the sounding timing of the current time. It may be a method of synthesizing a voice having a volume different from that of the generated voice.
  • the first method may be a method of synthesizing speech so that the time length of speech changes according to the waveform of the input sound signal.
  • the second method synthesizes speech so that the duration of speech changes according to the amount of delay accumulated at the time when the current sounding timing is detected. It may be a method to do.
  • the speech synthesis control device includes a detection unit that detects a sound generation timing from an input sound signal, and when the current sound generation timing is detected, the current sound generation timing is detected after the previous sound generation timing is detected. Instructing means for instructing to synthesize the sound for the current input sound signal by a method according to the time until the sound generation timing is detected.
  • the speech synthesis control device further includes a determination unit that determines whether or not a threshold time has elapsed since the previous sounding timing is detected when the current sounding timing is detected.
  • the instruction means instructs the voice synthesis by the first method when it is determined that the threshold time has elapsed since the previous sounding timing was detected, and the previous sounding timing is detected. If it is determined that the threshold time has not elapsed, a voice synthesis by a second method different from the first method may be instructed.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

音声合成方法は、入力音信号から発音タイミングを検出するステップと、今回の前記発音タイミングが検出された場合、前回の前記発音タイミングが検出されてから今回の前記発音タイミングが検出されるまでの時間に応じた方法により、今回の前記入力音信号に対する音声の合成を行うように指示するステップと、を含む。

Description

音声合成方法および音声合成制御装置
 本発明は、入力音信号を用いて音声合成をする技術に関する。
 歌唱音声の合成を楽器と組み合わせた技術が知られている。例えば非特許文献1には、歌唱音声の合成を行う鍵盤楽器が記載されている。非特許文献1の鍵盤楽器は、スタイラスで鍵をタッチするとその鍵に対応する歌唱音声を合成する。
"歌うキーボード ポケットミク"、[online]、平成26年4月3日、[2016年3月9日検索]、インターネット<URL:http://otonanokagaku.net/nsx39/>
 非特許文献1に記載の技術においては、ある鍵を短い時間間隔で連続してタッチした場合に、2回目以降のタッチに応じて合成される音声の発音の遅延が生じ、さらにこの遅延が累積してしまうことがあった。
 これに対し本発明は、連続的に検出された発音タイミングに対して出力される合成音声の遅延の累積を低減する技術を提供する。
 本発明の一態様に係る音声合成方法は、入力音信号から発音タイミングを検出するステップと、今回の前記発音タイミングが検出された場合、前回の前記発音タイミングが検出されてから今回の前記発音タイミングが検出されるまでの時間に応じた方法により、今回の前記入力音信号に対する音声の合成を行うように指示するステップと、を含む。
 本発明の一態様に係る音声合成制御装置は、入力音信号から発音タイミングを検出する検出手段と、今回の前記発音タイミングが検出された場合、前回の前記発音タイミングが検出されてから今回の前記発音タイミングが検出されるまでの時間に応じた方法により、今回の前記入力音信号に対する音声の合成を行うように指示する指示手段と、を有する。
関連技術に係る音声合成システムの概要を示す図である。 入力音信号と合成音声の発音とのタイミングの関係を例示する図である。 関連技術に係る音声合成システムの問題点を示す図である。 一実施形態に係る音声合成システムの機能構成を示す図である。 一実施形態に係る音声合成装置のハードウェア構成を例示する図である。 一実施形態に係る音声合成装置のソフトウェア構成を例示する図である。 音声合成装置の一実施形態に係る動作を例示するフローチャートである。 本実施形態による合成音声を例示する図である。 変形例4に係る連続入力用の方法による音声合成を例示する図である。 変形例5に係る連続入力用の方法による音声合成を例示する図である。
1.概要
 図1は、関連技術に係る音声合成システム9の概要を示す図である。音声合成システム9は、音声合成装置90、マイクロフォン20、および打楽器30を有する。音声合成システム9は、打楽器30の演奏に応じてリアルタイムで音声を合成し、合成した音声を出力するものである。具体的には、まずマイクロフォン20が打楽器30の演奏音を音信号に変換する。音信号とは、音の波形を示す信号をいう。この音信号は、音声合成装置90に入力される。以下この音信号を「入力音信号」という。音声合成装置90は、入力音信号から発音タイミングを検出する。さらに音声合成装置90は、検出された発音タイミングに応じて音声を合成する。音声合成装置90は、合成された音声(以下「合成音声」という)をスピーカから出力する。音声合成システム9の理想的な動作は、打楽器30を叩くとほぼ同時に例えば「ぱ」という合成音声が出力されるというものである。
 図2は、入力音信号と合成音声の発音とのタイミングの関係を例示する図である。この図において、横軸は時間を、縦軸は信号レベルを、それぞれ示している。入力音信号の信号レベルがあるしきい値を超えると、それがトリガー(すなわち発音タイミングまたはノートオンのタイミング)として検出され、音声合成処理が開始される。トリガーが検出されてから合成音声の出力が開始されるまでの所要時間は、この図の例では25msec程度である。合成音声は、子音の区間および母音の区間から構成される。子音の区間は約45msec、母音の区間は約205msecであり、1回のトリガーに対して出力される合成音声の時間長(ノート長)は合計で約250msecである。
 演奏音を入力音信号としてリアルタイムで音声合成を行う場合には一般に以下の問題がある。第1に、演奏音自体からは発音終了(ノートオフ)のタイミングが必ずしも明確でないという点である。例えば鍵盤楽器において押鍵に応じて音声合成を行う場合には、ある鍵が押され、鍵の変位(または圧力)がしきい値を超えたら発音開始、そこからしきい値を下回ったら発音終了、というように演奏操作から発音終了のタイミングを特定することができる。しかし、特に打楽器においては、演奏音自体の信号波形は非常に時間の短いものであり(図2の例では50msec程度)、それと同じ時間で発音を終了したのでは音声としては不自然に聞こえてしまう。第2に、演奏者がどのような演奏を行うか音声合成装置90は事前には分からないという点である。つまり、あるタイミングでトリガーが検出されても、次のトリガーがいつ発生するか、その時点では音声合成装置90には分からない。したがって、人間の音声として自然に聞こえるためには、音声合成装置90としては、トリガーを検出すると標準的な時間長(例えば四分音符に相当する時間長)の音声を合成する。図2の例では、合成音声は250msec程度の時間長を有する。
 図3は、音声合成システム9の問題点を示す図である。上記の状況においては以下の問題が発生する。すなわち、この図のように短い間隔で連続的にトリガーが検出された場合(図3の例では十六分音符が8回連続している)、第2音以降の発音が、トリガーが検出されたタイミングよりも遅れてしまうことがある。さらにこの遅延は、連続的に検出されるトリガーの数が増えるほど累積する。例えば第2音のトリガーが検出されたとき、トリガー検出から発音開始までの時間差25msecも考慮すると、その時点で第1音の発音はまだ35msecしか行われていない。そのため第1音の発音はそこからさらに215msec継続する。さらに、第2音のトリガーが検出されたとき、まだ第1音の発音の途中であり、第3音の発音が開始されるのはそこから345msec後である。
 音声合成装置90において、トリガーが検出されたときにまだ前の音が発音中である場合には前の音の発音を停止し、次の音の発音を開始する構成を採用することもできる。しかしこの場合でも、人間の音声として自然に聞こえるためには、前の音の停止処理(例えば音を自然に減衰させる処理)にある程度(例えば50msec)の時間が必要である。トリガー検出から処理開始までの時間差25msecも考慮すると、第1音の発音中に第2音のトリガーが検出されてから第2音の発音が開始されるまでは少なくとも75msecの時間がかかる。この場合も、連続的に検出されるトリガーの数が増えるほど遅延が累積してしまう。さらに、第1音の発音中またはその停止処理中に第3音のトリガーが検出された場合、音声合成装置90は、第2音の発音およびその停止処理を行ってから第3音の発音を開始する。したがって、遅延は解消されることなく累積する。
 演奏者が打楽器30をどのように演奏するかは分からない。したがって、例えば「入力(演奏操作)は100msec以上の間隔を空けること」といった制限を設けることは音声合成システムの利便性を著しく損なうので、このような制限を設けることは好ましくない。また、第1音のトリガーを検出しても、第2音のトリガーがいつ検出されるかは分からないので、第1音の音長を短くすることも好ましくない。あるいは、第1音の発音中に第2音のトリガーを検出した場合は第1音の停止処理を行わずそのまま第2音の発音を開始したとすると、発音が不連続で不自然なものになってしまうのでこれも好ましくない。本実施形態は、この遅延の累積に対処する。
2.構成
 図4は、一実施形態に係る音声合成システム1の機能構成を示す図である。音声合成システム1は、音声合成装置10、マイクロフォン20、および打楽器30を有する。音声合成システム1は、打楽器30の演奏に応じて音声合成装置10がリアルタイムで音声を合成し、合成した音声を出力するものである。
 音声合成装置10は、入力手段11、検出手段12、判断手段13、指示手段14、音声合成手段15、出力手段16を有する。このうち、入力手段11、検出手段12、判断手段13、および指示手段14は、音声合成制御装置100を構成している。入力手段11は、マイクロフォン20から入力音信号の入力を受け付ける。検出手段12は、入力音信号からトリガーすなわち発音タイミングを検出する。判断手段13は、検出手段12によってトリガーが検出された場合に、前回のトリガーが検出されてからしきい値時間が経過したか判断する。指示手段14は、判断手段13による判断結果に応じて、音声合成の指示を生成および出力する。すなわち指示手段14は、入力音信号を音声合成の指示に変換する。ここで、前回の発音タイミングが検出されてからしきい値時間が経過したと判断手段13により判断された場合、指示手段14は第1方法による音声の合成を指示する。前回の発音タイミングが検出されてからしきい値時間が経過していないと判断手段13により判断された場合、指示手段14は、第1方法と異なる第2方法による音声の合成を指示する。音声合成手段15は、指示手段14から出力された指示に従って音声合成を行う。出力手段16は、音声合成手段15により合成された音声を出力する。
 図5は、音声合成装置10のハードウェア構成を例示する図である。音声合成装置10は、CPU101、メモリー102、ストレージ103、入力部104、出力部105、通信IF106を有するコンピュータ装置である。CPU101は、音声合成装置10の他の構成要素を制御する制御装置である。メモリー102は、CPU101がプログラムを実行する際のワークスペースとして機能する揮発性の記憶装置である。ストレージ103は、各種のデータおよびプログラムを記憶した不揮発性の記憶装置である。入力部104は、ユーザから命令または情報の入力を受け付ける入力装置であり、例えば、タッチセンサーおよびボタンの少なくとも1つを含む。出力部105は、外部に情報を出力する出力装置であり、例えば、ディスプレイおよびスピーカの少なくとも1つを含む。通信IF106は、他の装置、例えばネットワーク上のサーバ装置(図示略)と通信するためのインターフェースである。
 図6は、音声合成装置10のソフトウェア構成を例示する図である。音声合成装置10は、OS151およびアプリケーション152を有する。これらのソフトウェアは、ストレージ103に記憶されており、CPU101により実行される。OS151は、コンピュータ装置の基本的な管理や制御のための機能を提供するためのソフトウェアである。アプリケーション152は、リアルタイムの音声合成機能を提供するためのソフトウェアである。アプリケーション152は、さらに、トリガー検出モジュール1521および音声合成エンジン1522を有する。トリガー検出モジュール1521は、入力音信号からトリガーを検出し、このトリガーに応じて音声合成の指示を生成する。トリガー検出モジュール1521は、生成した指示を音声合成エンジン1522に出力する。音声合成エンジン1522は、入力された指示に応じて音声合成を行い、合成音声を示す音信号のデータを出力する。OS151は、この音信号のデータに従って音を出力する。
 この例では、トリガー検出モジュール1521が、入力手段11、検出手段12、判断手段13、および指示手段14の一例である。音声合成エンジン1522が音声合成手段15の一例である。OS151により制御されるスピーカが出力手段16の一例である。
3.動作
 図7は、音声合成装置10の一実施形態に係る動作を例示するフローチャートである。図7のフローは、一実施形態に係る音声合成方法を示す。例えば、ユーザによりアプリケーション152の起動が指示されたことを契機として開始される。
 ステップS1において、トリガー検出モジュール1521は、入力音信号の受け付けを開始する。ステップS1の処理は入力手段11の機能に相当する。ステップS2において、トリガー検出モジュール1521は、入力音信号からトリガーを検出する。トリガーの条件はアプリケーション152によりあらかじめ決められている。一例としては、トリガーの条件は、信号レベルの瞬時値がしきい値を超えたというものである。あるいは、トリガー検出モジュール1521は、直近の所定期間(例えば10msec)の音信号波形の形状等に基づいてトリガーの有無を判断してもよい。トリガーが検出されなかった場合(S2:NO)、トリガー検出モジュール1521は、トリガーが検出されるまで待機する。トリガーが検出された場合(S2:YES)、トリガー検出モジュール1521は、処理をステップS3に移行する。ステップS2の処理は検出手段12の機能に相当する。
 ステップS3において、トリガー検出モジュール1521は、直近のトリガーが検出されてからしきい値時間が経過したか判断する。トリガー検出モジュール1521は、直近のトリガーが検出された時刻を特定するための情報を保持しており、この情報を用いてこの判断を行う。ここで用いられる「しきい値時間」は、前の音がまだ出力中であると推定される時間、一例としては250msecである。直近のトリガーが検出されてからしきい値時間が経過したと判断された場合(S3:YES)、トリガー検出モジュール1521は、処理をステップS4に移行する。直近のトリガーが検出されてからしきい値時間が経過していないと判断された場合(S3:NO)、トリガー検出モジュール1521は、処理をステップS5に移行する。ステップS3の処理は判断手段13の機能に相当する。
 ステップS4において、トリガー検出モジュール1521は、通常の方法(第1方法の一例)による音声合成の指示を生成する。通常の方法とは、連続的なトリガーによる遅延の蓄積を考慮しない方法であり、例えば音長が250msecの音声合成を指示するものである。音声合成の指示は、例えば、音高、音長、および割り当てられた文字を特定するための情報を含む。音高および文字は、例えば、入力音信号の波形に応じて決められる。例えば、打楽器30がバスドラム、スネアドラム、およびハイハットを含み、これらにそれぞれ異なる音高および文字が割り当てられている例を考える。トリガー検出モジュール1521は、入力音信号の波形を解析し、演奏された楽器がバスドラム、スネアドラム、およびハイハットのいずれであるか判断する。トリガー検出モジュール1521は、演奏されたと判断された楽器に割り当てられた音高を、その合成音声の音高として決める。この例では音長はあらかじめ決められており、例えば250msecである。なお、音高および文字は入力音信号の波形に応じて決められるものに限定されない。音高および文字の少なくとも一方は、入力音信号の波形によらず、例えばアプリケーション152によりあらかじめ決められていてもよいし、ユーザの設定により決められてもよい。
 ステップS5において、トリガー検出モジュール1521は、連続入力用の方法(第2方法の一例)による音声合成の指示を生成する。連続入力用の方法とは、連続的なトリガーによる遅延の蓄積を低減するための方法であり、この例では通常の方法よりも音長が短い音声合成を指示するものである。一例としては、トリガー検出モジュール1521は、音長が100msecの音声合成を指示する。音声合成の指示は、例えば、音高、音長、および割り当てられた文字を特定するための情報を含む。音高および文字についてはステップS4と同様である。ステップS4およびS5の処理は指示手段14の機能に相当する。
 ステップS6において、音声合成エンジン1522は、トリガー検出モジュール1521から与えられた指示に従って音声合成を行う。音声合成には公知の技術を用いることができるのでここではその概要だけ説明する。音声合成エンジン1522は、素片ライブラリを有している。素片ライブラリは、ある特定の歌唱者の声からサンプリングした音楽素片(歌声の断片)を含むデータベースである。素片ライブラリには、その歌唱者の歌唱音声波形から採取された素片データが複数含まれている。素片データとは、歌唱音声波形から、音声学的な特徴部分を切り出して符号化した音声データである。
 ここで、素片データについて、「さいた」という歌詞の歌唱音声を合成する場合を例として説明する。「さいた」という歌詞は発音記号で「saita」と表される。発音記号「saita」で表される音声の波形を特徴により分析すると、「s」の音の立ち上がり部分→「s」の音→「s」の音から「a」の音への遷移部分→「a」の音…と続き、「a」の音の減衰部分で終わる。各素片データは、これらの音声学的な特徴部分に対応する音声データである。素変ライブラリには、あらゆる音および音の組み合わせに関する素片データが格納されている。以下の説明において、ある発音記号で表される音の立ち上がり部分に対応する素片データを、その発音記号の前に「#」を付けて、「#s」のように表す。また、ある発音記号で表される音の減衰部分に対応する素片データを、その発音記号の後に「#」を付けて、「a#」のように表す。また、ある発音記号で表される音から他の発音記号で表される音への遷移部分に対応する素片データを、それらの発音記号の間に「-」を入れて、「s-a」のように表す。
 例えば、「ぱ」という音声は、「#p」、「p」、「p-a」、「a」、および「a#」という素片データを組み合わせることにより合成される。音声合成エンジン1522は、これらの素片データを組み合わせた後、音高および音長を調整する。この例で、音声合成エンジン1522は、母音の長さによって音長を調整する。「ぱ」という音声の例では音声波形のうち「a」の素片データに相当する部分の時間長を調整することにより全体の音長を調整する。すなわち音声波形のうち「#p」、「p」、「p-a」、および「a#」の素片データに相当する部分の時間長は固定されており、音声合成エンジン1522は、「a」の素片データに相当する部分の時間長を変えることにより、音長を100msecにしたり250msecにしたりする。音声合成エンジン1522は、合成音声のデータをOS151に出力する。ステップS6の処理は音声合成手段15の機能に相当する。
 ステップS7において、OS151は、音声合成エンジン1522から与えられたデータに従って、合成音声をスピーカから出力する。ステップS7の処理は出力手段16の機能に相当する。
 図8は、本実施形態による合成音声を例示する図である。ここでは比較例による合成音声も併せて図示している。この比較例は、トリガーが連続しているか否かによらず合成音声の音長が一定であるものである。本実施形態によれば、短い間隔で連続したトリガーが検出された場合でも、合成音声の発音の遅延の蓄積を低減することができる。
4.変形例
 本発明は上述の実施形態に限定されるものではなく、種々の変形実施が可能である。以下、変形例をいくつか説明する。以下の変形例のうち2つ以上のものが組み合わせて用いられてもよい。
4-1.変形例1
 通常の方法における合成音声の音長は固定値に限定されない。例えば、入力音信号の波形に応じて音長が変更されてもよい。次式(1)は、通常の方法における音長L1が入力音信号の振幅に応じて変更される例(具体的には、振幅が大きいほど音長が長くなる例)を示している。
Figure JPOXMLDOC01-appb-M000001
 ここで、mは一定の係数を、Ginは入力音信号の振幅(または入力音信号の振幅と基準となる振幅との差)を、Lminは通常の方法における音長の最小値(例えば250msec)を、それぞれ示す。この例によれば合成音声の音長が入力音信号の波形に応じて変更されるので、音楽的により豊かな表現の可能性を提供することができる。
4-2.変形例2
 連続入力用の方法における音声合成の音長は特定の値に固定されるものに限定されない。例えば、連続入力用の方法における音長L2は、その時点で累積している遅延の量dに応じて変更されてもよい。次式(2)は、累積している遅延の量dが大きいほど音長が短くなる例を示している。
Figure JPOXMLDOC01-appb-M000002
 ここで、kは一定の係数を示す。また、音長L2には下限値(例えば50msec)を設け、式(2)に計算される音長L2が下限値を下回った場合にはこの下限値を音長L2として採用してもよい。なお式(1)における通常の方法における音長L1は、実施形態の例のように固定値であってもよいし、変形例1のように入力音信号の波形に応じて決まる値であってもよい。変形例2によれば、音長L2が固定値である例と比較して、遅延の累積をより低減させることができる。
4-3.変形例3
 通常の方法と連続入力用の方法とで音長を異ならせる手法は実施形態で例示したものに限定されない。例えば、音声合成エンジン1522は、子音の時間長を調整することにより音長を調整してもよい。「ぱ」という音声の例では、音声合成エンジン1522は、「#p」、「p」、および「p-a」のうち少なくとも1つの素片データに相当する部分の時間長を調整することにより全体の音長を調整してもよい。母音の時間長を調整する例においても子音の時間長を調整する例においても、素片ライブラリが各素片につき時間長の長い素片データと短い素片データとを保持しており、音声合成エンジン1522は、通常の方法においては時間長の長い素片データを、連続入力用の方法においては時間長の短い素片データを、それぞれ使用してもよい。あるいは、素片ライブラリが各素片につき単一の素片データを保持しており、音声合成エンジン1522は、この素片データを加工することにより時間長を調整してもよい。
 時間長が調整される子音は合成音声の冒頭にあるものに限定されない。例えば、トリガーが検出されると「kick」という音声が出力される場合、連続入力用の方法においては、語尾の子音が省略(すなわち時間長ゼロ)されてもよい。
4-4.変形例4
 通常の方法と連続入力用の方法とは音長を異ならせるものに限定されない。連続入力用の方法は、例えば、前回と音高が異なる音声を合成するものであってもよい。この例で、第1音が発音されている途中で第2音のトリガーが検出された場合、トリガー検出モジュール1521は、第1音の発音を停止してその後第2音の発音を開始するのではなく、第1音の発音を継続したうえで、トリガーに応じたタイミングで音高を変化させる指示を生成する。すなわち、トリガー検出モジュール1521は、連続的にピッチベンドを発生させる。
 図9は、変形例4に係る連続入力用の方法による音声合成を例示する図である。この例では第1音の「ぱ」が発音されている途中で第2音のトリガーが検出されると、母音「a」の発音を継続したまま(「a#」の素片データに移行せず)その音高がトリガーに応じて変更される。より具体的には、第2音のトリガーが検出されると、トリガー検出モジュール1521は、通常の方法においてはP1である音高を連続的にP2まで下げた後に再びP1まで上げるように音高を変化させる指示を生成する。
 この例においては、第2音のトリガーが検出されたときに新たな音声の発音が開始されることはないものの、音高が変化するという応答が得られる。一般に演奏者が違和感を感じるのは自分が行った演奏操作に対して何の応答も得られない場合であるが、この例によれば演奏者の感じる違和感を低減することができる。
4-5.変形例5
 図10は、変形例5に係る連続入力用の方法による音声合成を例示する図である。この例において、連続入力用の方法は、前回と音量が異なる音声を合成するものであってもよい。音量を変化させる処理は、変形例4において音高を変化させる処理と同様に行われる。この例も、変形例4と同様に演奏者の感じる違和感を低減することができる。
4-6.変形例6
 ソフトウェア構成と機能構成との対応関係は実施形態で例示したものに限定されない。例えば、トリガー検出モジュール1521ではなく音声合成エンジン1522が、判断手段13および指示手段14に相当する機能を有していてもよい。この場合、トリガー検出モジュール1521は、トリガーを検出すると、通常の方法と連続入力用の方法との区別無く、音声合成の指示を生成および出力する。音声合成エンジン1522は、トリガー検出モジュール1521から音声合成の指示が入力された場合に、前回のトリガーが検出されてからしきい値時間が経過したか判断する。音声合成エンジン1522は、この判断結果に応じて音声合成を行う。
4-7.他の変形例
 音声合成システム1において用いられる楽器は打楽器に限定されない。鍵盤楽器、管楽器、または弦楽器など、打楽器以外の楽器が用いられてもよい。
 音声合成装置10のハードウェア構成は実施形態で例示したものに限定されない。要求される機能を実現できるものであれば、音声合成装置10はどのようなハードウェア構成を有していてもよい。
 実施形態の例では単一の装置が音声合成装置10の機能をすべて有していたが、音声合成装置10の機能は、複数の装置、例えばクライアント装置およびサーバ装置に分けて実装されていてもよい。例えば、検出手段12、判断手段13、指示手段14、および音声合成手段15がサーバ装置に実装され、入力手段11および出力手段16がクライアント装置に実装されてもよい。
 音声合成装置10のCPU101等により実行されるプログラムは、光ディスク、磁気ディスク、半導体メモリーなどの記憶媒体により提供されてもよいし、インターネット等の通信回線を介してダウンロードされてもよい。また、このプログラムは、図3のすべてのステップを備える必要はない。例えば、このプログラムは、ステップS1、ステップS2、ステップS3、ステップS4、およびステップS5のみを実行してもよい。
 なお、実施形態で説明した遅延の量や合成音声の時間長はあくまで例示であり、本願発明の構成はこれに限定されるものではない。
 [付記]以上に説明した実施形態についての記載から把握されるように、本明細書では以下に記載の発明を含む多様な技術的思想が開示されている。
 本発明の一態様に係る音声合成方法は、入力音信号から発音タイミングを検出するステップと、今回の前記発音タイミングが検出された場合、前回の前記発音タイミングが検出されてから今回の前記発音タイミングが検出されるまでの時間に応じた方法により、今回の前記入力音信号に対する音声の合成を行うように指示するステップと、を含む。
 本発明の一態様に係る音声合成方法では、今回の前記発音タイミングが検出された場合、前回の前記発音タイミングが検出されてからしきい値時間が経過したか判断するステップをさらに含み、前回の前記発音タイミングが検出されてから前記しきい値時間が経過したと判断された場合、第1方法による音声の合成を指示し、前回の前記発音タイミングが検出されてから前記しきい値時間が経過していないと判断された場合、前記第1方法と異なる第2方法による音声の合成を指示してもよい。
 本発明の一態様に係る音声合成方法では、前記第2方法は、前記第1方法により合成される音声よりも時間長が短い音声を合成する方法であってもよい。
 本発明の一態様に係る音声合成方法では、前記音声は、子音および母音の組み合わせにより表され、前記第2方法は、前記第1方法により合成される音声よりも時間長が短い母音を含む音声を合成する方法であってもよい。
 本発明の一態様に係る音声合成方法では、前記音声は、子音および母音の組み合わせにより表され、前記第2方法は、前記第1方法により合成される音声よりも時間長が短い子音を含む音声を合成する方法であってもよい。
 本発明の一態様に係る音声合成方法では、前記第2方法は、前回の前記入力音信号に対応して合成された音声の音高を、今回の前記発音タイミングに応じて変化させる方法であってもよい。
 本発明の一態様に係る音声合成方法では、前記第2方法は、前回の前記入力音信号に対応して合成された音声の音量を、今回の前記発音タイミングに応じて変化させる発音タイミングにより合成された音声と音量が異なる音声を合成する方法であってもよい。
 本発明の一態様に係る音声合成方法では、前記第1方法は、前記入力音信号の波形に応じて音声の時間長が変化するように音声を合成する方法であってもよい。
 本発明の一態様に係る音声合成方法では、前記第2方法は、今回の前記発音タイミングが検出された時点で累積している遅延の量応じて音声の時間長が変化するように音声を合成する方法であってもよい。
 また、本発明の一態様に係る音声合成制御装置は、入力音信号から発音タイミングを検出する検出手段と、今回の前記発音タイミングが検出された場合、前回の前記発音タイミングが検出されてから今回の前記発音タイミングが検出されるまでの時間に応じた方法により、今回の前記入力音信号に対する音声の合成を行うように指示する指示手段と、を有する。
 本発明の一態様に係る音声合成制御装置では、今回の前記発音タイミングが検出された場合、前回の前記発音タイミングが検出されてからしきい値時間が経過したか判断する判断手段をさらに有し、前記指示手段は、前回の前記発音タイミングが検出されてから前記しきい値時間が経過したと判断された場合、第1方法による音声の合成を指示し、前回の前記発音タイミングが検出されてから前記しきい値時間が経過していないと判断された場合、前記第1方法と異なる第2方法による音声の合成を指示してもよい。
 本発明によれば、連続的に検出された発音タイミングに対して出力される合成音声の遅延の累積を低減することができる。
 
 

Claims (11)

  1.  入力音信号から発音タイミングを検出するステップと、
     今回の前記発音タイミングが検出された場合、前回の前記発音タイミングが検出されてから今回の前記発音タイミングが検出されるまでの時間に応じた方法により、今回の前記入力音信号に対する音声の合成を行うように指示するステップと、
     を含む音声合成方法。
  2.  
     今回の前記発音タイミングが検出された場合、前回の前記発音タイミングが検出されてからしきい値時間が経過したか判断するステップをさらに含み、
     前回の前記発音タイミングが検出されてから前記しきい値時間が経過したと判断された場合、第1方法による音声の合成を指示し、
     前回の前記発音タイミングが検出されてから前記しきい値時間が経過していないと判断された場合、前記第1方法と異なる第2方法による音声の合成を指示する、
     請求項1に記載の音声合成方法。
  3.  前記第2方法は、前記第1方法により合成される音声よりも時間長が短い音声を合成する方法である、
     請求項2に記載の音声合成方法。
  4.  前記音声は、子音および母音の組み合わせにより表され、
     前記第2方法は、前記第1方法により合成される音声よりも時間長が短い母音を含む音声を合成する方法である、
     請求項3に記載の音声合成方法。
  5.  前記音声は、子音および母音の組み合わせにより表され、
     前記第2方法は、前記第1方法により合成される音声よりも時間長が短い子音を含む音声を合成する方法である、
     請求項3に記載の音声合成方法。
  6.  前記第2方法は、前回の前記入力音信号に対応して合成された音声の音高を、今回の前記発音タイミングに応じて変化させる方法である、
     請求項2に記載の音声合成方法。
  7.  前記第2方法は、前回の前記入力音信号に対応して合成された音声の音量を、今回の前記発音タイミングに応じて変化させる発音タイミングにより合成された音声と音量が異なる音声を合成する方法である、
     請求項2に記載の音声合成方法。
  8.  前記第1方法は、前記入力音信号の波形に応じて音声の時間長が変化するように音声を合成する方法である、
     請求項2に記載の音声合成方法。
  9.  前記第2方法は、今回の前記発音タイミングが検出された時点で累積している遅延の量応じて音声の時間長が変化するように音声を合成する方法である、
     請求項2に記載の音声合成方法。
  10.  入力音信号から発音タイミングを検出する検出手段と、
     今回の前記発音タイミングが検出された場合、前回の前記発音タイミングが検出されてから今回の前記発音タイミングが検出されるまでの時間に応じた方法により、今回の前記入力音信号に対する音声の合成を行うように指示する指示手段と、
     を有する音声合成制御装置。
  11.  今回の前記発音タイミングが検出された場合、前回の前記発音タイミングが検出されてからしきい値時間が経過したか判断する判断手段をさらに有し、
     前記指示手段は、前回の前記発音タイミングが検出されてから前記しきい値時間が経過したと判断された場合、第1方法による音声の合成を指示し、前回の前記発音タイミングが検出されてから前記しきい値時間が経過していないと判断された場合、前記第1方法と異なる第2方法による音声の合成を指示する、
     請求項10に記載の音声合成制御装置。
PCT/JP2017/003452 2016-03-17 2017-01-31 音声合成方法および音声合成制御装置 WO2017159083A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016-053978 2016-03-17
JP2016053978A JP6222262B2 (ja) 2016-03-17 2016-03-17 音声合成方法および音声合成制御装置

Publications (1)

Publication Number Publication Date
WO2017159083A1 true WO2017159083A1 (ja) 2017-09-21

Family

ID=59850649

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/003452 WO2017159083A1 (ja) 2016-03-17 2017-01-31 音声合成方法および音声合成制御装置

Country Status (2)

Country Link
JP (1) JP6222262B2 (ja)
WO (1) WO2017159083A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015060340A1 (ja) * 2013-10-23 2015-04-30 ヤマハ株式会社 歌唱音声の合成

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015060340A1 (ja) * 2013-10-23 2015-04-30 ヤマハ株式会社 歌唱音声の合成

Also Published As

Publication number Publication date
JP2017167411A (ja) 2017-09-21
JP6222262B2 (ja) 2017-11-01

Similar Documents

Publication Publication Date Title
US10002604B2 (en) Voice synthesizing method and voice synthesizing apparatus
JP7088159B2 (ja) 電子楽器、方法及びプログラム
JP5642296B2 (ja) 音響ジェスチャにより制御信号を発生するための入力インタフェース
US20210295819A1 (en) Electronic musical instrument and control method for electronic musical instrument
US10354629B2 (en) Sound control device, sound control method, and sound control program
JP2002007014A (ja) 情報処理装置及び該情報処理装置を備えた楽器
JP6705272B2 (ja) 発音制御装置、発音制御方法、及びプログラム
JP7367641B2 (ja) 電子楽器、方法及びプログラム
US20160111083A1 (en) Phoneme information synthesis device, voice synthesis device, and phoneme information synthesis method
JP7380809B2 (ja) 電子機器、電子楽器、方法及びプログラム
Halmrast et al. Gesture and timbre
JP2022071098A5 (ja) 電子機器、電子楽器、方法及びプログラム
JP2017156495A (ja) 歌詞生成装置および歌詞生成方法
JP6222262B2 (ja) 音声合成方法および音声合成制御装置
JP6044284B2 (ja) 音声合成装置
US20220044662A1 (en) Audio Information Playback Method, Audio Information Playback Device, Audio Information Generation Method and Audio Information Generation Device
JP6809608B2 (ja) 歌唱音生成装置及び方法、プログラム
JP2013210501A (ja) 素片登録装置,音声合成装置,及びプログラム
JP2002041074A (ja) ボーカルデータ生成装置および歌唱装置
JP5412766B2 (ja) 電子楽器及びプログラム
Carelli Voice to musical instrument translation in a performance environment
WO2023175844A1 (ja) 電子管楽器及び電子管楽器の制御方法
EP3579223B1 (en) Method, device and computer program product for scrolling a musical score
WO2018216423A1 (ja) 楽曲評価装置、楽曲評価方法およびプログラム
JPH03282592A (ja) 自動演奏装置

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17766091

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 17766091

Country of ref document: EP

Kind code of ref document: A1