WO2019107378A1 - 音声合成方法、音声合成装置およびプログラム - Google Patents

音声合成方法、音声合成装置およびプログラム Download PDF

Info

Publication number
WO2019107378A1
WO2019107378A1 PCT/JP2018/043655 JP2018043655W WO2019107378A1 WO 2019107378 A1 WO2019107378 A1 WO 2019107378A1 JP 2018043655 W JP2018043655 W JP 2018043655W WO 2019107378 A1 WO2019107378 A1 WO 2019107378A1
Authority
WO
WIPO (PCT)
Prior art keywords
control data
data
learned model
speech
instruction
Prior art date
Application number
PCT/JP2018/043655
Other languages
English (en)
French (fr)
Inventor
竜之介 大道
Original Assignee
ヤマハ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤマハ株式会社 filed Critical ヤマハ株式会社
Priority to CN201880077081.1A priority Critical patent/CN111418006B/zh
Priority to EP18882396.7A priority patent/EP3719796A4/en
Priority to CN202310641326.1A priority patent/CN116504218A/zh
Publication of WO2019107378A1 publication Critical patent/WO2019107378A1/ja
Priority to US16/886,063 priority patent/US11495206B2/en
Priority to US17/965,185 priority patent/US20230034572A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • G10L13/0335Pitch control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0033Recording/reproducing or transmission of music for electrophonic musical instruments
    • G10H1/0041Recording/reproducing or transmission of music for electrophonic musical instruments in coded form
    • G10H1/0058Transmission between separate instruments or between individual components of a musical system
    • G10H1/0066Transmission between separate instruments or between individual components of a musical system using a MIDI interface
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/315Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
    • G10H2250/455Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis

Definitions

  • the present invention relates to a technology for synthesizing speech.
  • Patent Document 1 discloses a technique for synthesizing a singing voice in which a note sequence instructed by a user on an editing screen is pronounced.
  • the editing screen is a piano roll screen in which a time axis and a pitch axis are set.
  • the user designates a phoneme (pronounced letters), a pitch and a pronunciation period for each of the notes constituting the music.
  • Patent Document 1 the user can only designate the phonology, the pitch, and the pronunciation period for each note, and it is actually in practice that the intention or preference of the user is precisely reflected in the synthetic speech. It's not easy.
  • a preferred aspect of the present invention aims to generate synthesized speech in accordance with the user's intention or preference.
  • the speech synthesis method generates second control data according to an input including first control data specifying a phoneme using an intermediate learned model, and uses the generated second control data. Changing the second control data in response to a first instruction from a person, and responsive to an input including the first control data and the changed second control data, synthesis data relating to frequency characteristics of synthetic speech An output learned model is generated, and an audio signal according to the synthetic data is generated.
  • a speech synthesis apparatus including: an intermediate learned model generating second control data according to an input including first control data specifying a phoneme; and a first instruction from a user.
  • Output learning completed to generate synthesis data on frequency characteristics of synthetic speech according to an input including the editing processing unit for changing the second control data, and the first control data and the second control data after the change
  • a model and a synthesis processing unit that generates an audio signal according to the synthetic data.
  • a program is an intermediate learned model that generates second control data according to an input including first control data specifying a phoneme, and the second according to a first instruction from a user.
  • An edit processing unit that changes control data, an output learned model that generates synthetic data regarding frequency characteristics of synthetic speech according to an input including the first control data and the second control data after the change;
  • the computer functions as a synthesis processing unit that generates an audio signal according to the synthetic data.
  • FIG. 1 is a block diagram illustrating the configuration of a speech synthesis apparatus 100 according to the first embodiment of the present invention.
  • the speech synthesizer 100 synthesizes an arbitrary phonetic speech (hereinafter referred to as "synthetic speech").
  • the voice synthesis apparatus 100 according to the first embodiment is a singing voice synthesizing apparatus that synthesizes, as synthesized speech, a voice in which a singer virtually sings a song.
  • the voice synthesizer 100 according to the first embodiment is realized by a computer system including a control device 11, a storage device 12, an operation device 13, a display device 14, and a sound emitting device 15.
  • a portable information terminal such as a mobile phone or a smartphone, or a portable or stationary information terminal such as a personal computer is suitably used as the voice synthesizer 100.
  • the display device 14 is formed of, for example, a liquid crystal display panel, and displays an image instructed from the control device 11.
  • the operating device 13 is an input device that receives an instruction from a user. Specifically, a plurality of operators that can be operated by the user or a touch panel that detects a touch on the display surface of the display device 14 is suitably used as the operation device 13.
  • the control device 11 is, for example, a processing circuit such as a CPU (Central Processing Unit), and controls the elements constituting the voice synthesis device 100 in a centralized manner.
  • the control device 11 of the first embodiment generates an audio signal V in a time domain representing a waveform of synthetic speech.
  • the sound emission device 15 (for example, a speaker or a headphone) reproduces the audio represented by the audio signal V generated by the control device 11.
  • the illustration of the D / A converter for converting the audio signal V generated by the control device 11 from digital to analog and the amplifier for amplifying the audio signal V are omitted for convenience.
  • the configuration in which the sound emitting device 15 is mounted on the voice synthesizing device 100 is illustrated in FIG. 1, even if the sound emitting device 15 separate from the voice synthesizing device 100 is connected to the voice synthesizing device 100 by wire or wireless. Good.
  • the storage device 12 is constituted by a known recording medium such as a magnetic recording medium or a semiconductor recording medium, or a combination of a plurality of recording media, for example, and the program executed by the control device 11 and various data used by the control device 11 And remember.
  • a storage device 12 (for example, cloud storage) separate from the voice synthesizer 100 is prepared, and the control device 11 executes writing and reading to the storage device 12 through a communication network such as a mobile communication network or the Internet. You may That is, the storage device 12 may be omitted from the speech synthesizer 100.
  • the storage unit 12 stores control data C0 representing musical features of the music.
  • the control data C0 of the first embodiment is music data specifying a pitch, a phonology, and a pronunciation period for each of a plurality of musical notes constituting the music. That is, the control data C0 is data for controlling the music level (i.e., a musical element).
  • the control data C0 is also referred to as data representing a score.
  • the pitch is, for example, a note number of MIDI (Musical Instrument Digital Interface).
  • a phoneme is a character pronounced by synthetic speech (ie, the lyrics of a song).
  • phonology is a MIDI text event. For example, one syllable is designated as a phonology for each note.
  • the sound generation period is a period during which one note of the music is produced, and is specified, for example, by the start point of the note and the end point or the duration.
  • the sound generation period may be designated by, for example, MIDI duration data.
  • the control data C0 of the first embodiment designates a musical performance symbol representing a musical expression of music. For example, performance symbols such as forte (f), piano (p), crescendo, decrescendo, staccato, tenuto or slur are designated by the control data C0.
  • FIG. 2 is a block diagram illustrating the functional configuration of the control device 11.
  • the control device 11 executes a program stored in the storage device 12 to generate a plurality of functions for generating the audio signal V according to the control data C0 (display control unit 21,
  • the editing processing unit E0, the learned model M1, the editing processing unit E1, the learned model M2, the editing processing unit E2, the learned model M3, the editing processing unit E3, and the combining processing unit 22) are realized.
  • the function of the control device 11 may be realized by a set of plural devices (that is, a system), or a part or all of the functions of the control device 11 may be realized by a dedicated electronic circuit (for example, a signal processing circuit). It is also good.
  • the display control unit 21 causes the display device 14 to display an image.
  • the display control unit 21 according to the first embodiment causes the display device 14 to display an editing screen that the user refers to in order to instruct adjustment of synthetic speech.
  • FIG. 3 is a schematic view of the editing screen.
  • the editing screen is an image including a plurality of editing areas A (A0 to A3) and a plurality of operation units B (B0 to B3).
  • Each of the plurality of operation units B is an image of an operator that receives an instruction from the user.
  • a common time axis (horizontal axis) is set in a plurality of editing areas A (A0 to A3).
  • the editing area A0 is an image (so-called piano roll screen) representing the contents of the music level control data C0.
  • note images (note bars) representing the notes designated by the control data C0 are arranged in time series on a coordinate plane including a time axis and a pitch axis.
  • the position and display length of each note image on the time axis are set according to the sound generation period designated by the control data C0, and the position of the note image on the pitch axis is decided according to the pitch designated by the control data C0. It is set.
  • a phoneme (specifically, a grapheme) specified by the control data C0 is displayed inside the note image.
  • a performance symbol designated by the control data C0 is also displayed.
  • crescendo, forte and decrescendo are illustrated as musical symbols.
  • the user can give an editing instruction Q0 to the editing area A0 by operating the operation device 13.
  • the editing instruction Q0 is, for example, an instruction to change the condition (pronunciation period, pitch or phonology) of each note, or an instruction to change (addition or deletion) a musical symbol.
  • the editing area A1 is an image representing a feature of the phoneme level (that is, an element related to the phoneme), for example, a time series of a plurality of phonemes (vowels or consonants) constituting the synthetic speech. Specifically, in the editing area A1, phoneme symbols and a pronunciation period are displayed for each of a plurality of phonemes of synthetic speech.
  • the user can give the editing instruction Q1 to the editing area A1 by operating the operation device 13.
  • the editing instruction Q1 is, for example, an instruction to change the phoneme symbol of each phoneme, or an instruction to change the pronunciation period (for example, move or stretch).
  • the editing area A2 is an image representing a feature of the pronunciation level (i.e., an element relating to pronunciation), for example, a musical expression given to synthetic speech.
  • a musical expression of synthetic speech is given and a type of expression (hereinafter referred to as "expression type") in each expression period.
  • expression period a period in which a musical expression of synthetic speech is given
  • expression type a type of expression
  • Examples of musical expressions applied to synthetic speech include voice quality such as hoarse voice or breath sound, and sound generation techniques such as vibrato or fall.
  • the user can give the editing instruction Q2 to the editing area A2 by operating the operation device 13.
  • the editing instruction Q2 is, for example, an instruction to change each facial expression period (for example, move or stretch) or an instruction to change the facial expression type in each facial expression period.
  • the editing area A3 is an image representing a feature of the vocoder level (i.e., an element related to the vocoder), for example, a temporal change in frequency characteristics of synthesized speech. Specifically, in the editing area A3, a curve representing temporal change of the fundamental frequency F0 of the synthesized speech is displayed.
  • the user can give the editing instruction Q3 to the editing area A3 by operating the operation device 13.
  • the editing instruction Q3 is, for example, an instruction to change the temporal change of the fundamental frequency F0.
  • the editing processing unit E0 of FIG. 2 changes the control data C0 of the music level in accordance with the editing instruction Q0 from the user to the editing area A0. Specifically, the editing processing unit E0 changes the condition (pronunciation period, pitch or phonology) of each note designated by the control data C0, or the performance symbol designated by the control data C0 according to the editing instruction Q0. Do.
  • the control data C0 after being changed by the editing processing unit E0 is supplied to the learned model M1, the learned model M2, and the learned model M3.
  • the control data C0 stored in the storage device 12 is supplied to the learned model M1, the learned model M2 and the learned model M3.
  • Control data C1 is data relating to phonemes of synthetic speech. Specifically, the control data C1 designates a time series of a plurality of phonemes corresponding to the phoneme designated by the control data C0. For example, the control data C1 designates a phoneme symbol (that is, the type of phoneme) and a pronunciation period for each of a plurality of phonemes constituting the synthetic speech. The pronunciation period of each phoneme is specified by, for example, a start point and an end point or a duration.
  • the learned model M1 of the first embodiment has a relationship between the control data C0 and the control data C1 by machine learning (especially deep learning) using a plurality of teacher data in which the control data C0 and the control data C1 correspond to each other. It is a learned statistical prediction model.
  • a neural network that outputs control data C1 to the input of control data C0 is suitably used as the learned model M1.
  • a plurality of coefficients K1 defining the learned model M1 are set by machine learning and stored in the storage device 12. Therefore, control data C1 that is statistically valid with respect to unknown control data C0 is output from learned model M1 under the tendency (the relationship between control data C0 and control data C1) extracted from a plurality of teacher data. Be done.
  • the display control unit 21 causes the display device 14 to display the editing area A1 according to the control data C1 generated by the learned model M1. That is, a phoneme symbol designated by control data C1 for each phoneme and a pronunciation period are displayed in the editing area A1.
  • the editing processing unit E1 changes the control data C1 of the phoneme level outputted by the learned model M1 in accordance with the editing instruction Q1 from the user to the editing area A1. Specifically, the editing processing unit E1 changes, according to the editing instruction Q1, the phoneme symbol or the pronunciation period specified by the control data C1 for each phoneme.
  • the display control unit 21 updates the editing area A1 with the content according to the control data C1 after the change.
  • the control data C1 after the change by the editing processing unit E1 is supplied to the learned model M2 and the learned model M3, and when the editing instruction Q1 is not given, the learned model M1 is supplied.
  • the control data C1 output by the above are supplied to the learned model M2 and the learned model M3.
  • the learned model M2 outputs the control data C2 of the pronunciation level according to the input data D2 including the control data C0 of the music level and the control data C1 of the phoneme level.
  • Control data C2 is data relating to a musical expression of synthetic speech. Specifically, the control data C2 designates one or more expression periods on the time axis and expression types in each expression period. Each facial expression period is designated by, for example, a start point and an end point or a duration.
  • the learned model M2 has a relationship between the input data D2 and the control data C2 by machine learning (especially deep learning) using a plurality of teacher data in which the input data D2 and the control data C2 correspond to each other. It is a learned statistical prediction model.
  • a neural network that outputs control data C2 to the input of the input data D2 is preferably used as the learned model M2.
  • a plurality of coefficients K2 defining the learned model M2 are set by machine learning and stored in the storage device 12. Therefore, control data C2 that is statistically valid with respect to unknown input data D2 is output from learned model M2 under a tendency (relationship between input data D2 and control data C2) extracted from a plurality of teacher data. Be done.
  • the display control unit 21 displays the editing area A2 on the display device 14 according to the control data C2 generated by the learned model M2. That is, the expression period designated by the control data C2 and the expression type are displayed in the editing area A2.
  • the editing processing unit E2 changes the control data C2 of the sound generation level output by the learned model M2 in accordance with the editing instruction Q2 from the user to the editing area A2. Specifically, the editing processing unit E2 changes the facial expression period or the facial expression type specified by the control data C2 in accordance with the editing instruction Q2.
  • the display control unit 21 updates the editing area A2 to the contents according to the control data C2 after the change.
  • the control data C2 after the change by the editing processing unit E2 is supplied to the learned model M3, and when the editing instruction Q2 is not given, the control data output from the learned model M2 C2 is supplied to the learned model M3.
  • the learned model M3 outputs vocoder level control data C3 (example of synthetic data) according to the input data D3 including music level control data C0, phoneme level control data C1 and pronunciation level control data C2.
  • Control data C3 is data relating to frequency characteristics of synthesized speech.
  • the control data C3 designates the time series of the fundamental frequency F0 of the synthetic speech, the time series of the envelope of the harmonic component, and the time series of the envelope of the inharmonic component.
  • the envelope of the harmonic component is a curve representing the outline of the intensity spectrum (amplitude spectrum or power spectrum) of the harmonic component.
  • the harmonic component is a periodic component composed of a fundamental tone component of the fundamental frequency F0 and a plurality of harmonic components of a frequency that is an integral multiple of the fundamental frequency F0.
  • the envelope of the inharmonic component is a curve that represents the approximate shape of the intensity spectrum of the inharmonic component.
  • the inharmonic component is an aperiodic component (residual component) other than the harmonic component.
  • the envelopes of the harmonic and nonharmonic components are represented, for example, by a plurality of mel cepstrum coefficients.
  • the learned model M3 has a relationship between the input data D3 and the control data C3 by machine learning (especially deep learning) using a plurality of teacher data in which the input data D3 and the control data C3 correspond to each other. It is a learned statistical prediction model.
  • a neural network that outputs control data C3 to the input of input data D3 is preferably used as a learned model M3.
  • a plurality of coefficients K3 defining the learned model M3 are set by machine learning and stored in the storage device 12. Therefore, control data C3 that is statistically valid with respect to unknown input data D3 is output from learned model M3 under a tendency (relationship between input data D3 and control data C3) extracted from a plurality of teacher data. Be done.
  • the display control unit 21 causes the display device 14 to display the editing area A3 according to the control data C3 generated by the learned model M3. That is, the time series of the fundamental frequency F0 designated by the control data C3 is displayed in the editing area A3.
  • the editing processing unit E3 changes the vocoder level control data C3 output from the learned model M3 in accordance with the editing instruction Q3 from the user to the editing area A3. Specifically, the editing processing unit E3 changes the fundamental frequency F0 specified by the control data C3 in accordance with the editing instruction Q3.
  • the display control unit 21 updates the editing area A3 to the contents according to the control data C3 after the change.
  • the control data C3 after the change by the editing processing unit E3 is supplied to the combining processing unit 22, and when the editing instruction Q3 is not given, the control data output from the learned model M3 C3 is supplied to the synthesis processing unit 22.
  • the synthesis processing unit 22 generates an audio signal V according to the control data C3.
  • a well-known speech synthesis technology is arbitrarily adopted for the generation of the speech signal V by the synthesis processing unit 22.
  • SMS Session Model Synthesis
  • the sound signal V generated by the synthesis processing unit 22 is supplied to the sound emission device 15 and reproduced as a sound wave.
  • the combination processing unit 22 corresponds to a so-called vocoder.
  • the editing processing unit E0 changes the music level control data C0 in accordance with the editing instruction Q0
  • the user operates the operating unit B0 in FIG. 3 using the operating device 13.
  • the operation unit B0 is operated, generation of control data C1 by the learned model M1, generation of control data C2 by the learned model M2 and control data C3 by the learned model M3 are obtained for the control data C0 after change. Generation is performed.
  • the editing processing unit E1 changes the control data C1 at the phoneme level according to the editing instruction Q1
  • the user operates the operating unit B1 using the operating device 13.
  • the changed control data C1 is supplied to the learned model M2 and the learned model M3, and generation of the control data C2 by the learned model M2 and generation of the control data C3 by the learned model M3 And are executed.
  • the operation unit B1 is operated, generation of the control data C1 by the learned model M1 is not executed, and the audio signal V is generated using the control data C1 reflecting the editing instruction Q1.
  • the editing processing unit E2 changes the control data C2 of the sound generation level according to the editing instruction Q2
  • the user operates the operating unit B2 using the operating device 13.
  • the control data C2 after the change is supplied to the learned model M3, and the generation of the control data C3 by the learned model M3 is executed.
  • operation portion B2 is operated, generation of control data C1 by learned model M1 and generation of control data C2 by learned model M2 are not executed, and control data C2 reflecting edit instruction Q2 is used.
  • An audio signal V is generated.
  • FIG. 4 is a flowchart of processing in which the control device 11 generates an audio signal V (hereinafter referred to as “audio synthesis processing”).
  • voice synthesis processing is executed in response to an instruction from the user to the voice synthesizer 100.
  • the operation unit B3 (playback) in FIG. 3 is operated, the speech synthesis process is performed.
  • the editing processing unit E0 changes the control data C0 of the music level according to the editing instruction Q0 from the user (Sa1).
  • the editing instruction Q0 is not given, the change of the control data C0 is omitted.
  • the learned model M1 generates control data C1 related to the phoneme of the synthesized speech according to the control data C0 (Sa2).
  • the editing processing unit E1 changes the control data C1 at the phoneme level according to the editing instruction Q1 from the user (Sa3).
  • the editing instruction Q1 is not given, the change of the control data C1 is omitted.
  • the learned model M2 generates the control data C2 related to the musical expression of the synthesized voice according to the input data D2 including the control data C0 and the control data C1 (Sa4).
  • the editing processing unit E2 changes the control data C2 of the sound generation level according to the editing instruction Q2 from the user (Sa5). When the editing instruction Q2 is not given, the change of the control data C2 is omitted.
  • the learned model M3 generates control data C3 related to the frequency characteristics of the synthesized speech according to the input data D3 including the control data C0, the control data C1 and the control data C2 (Sa6).
  • the editing processing unit E3 changes the vocoder level control data C3 in accordance with the editing instruction Q3 from the user (Sa7). When the editing instruction Q3 is not given, the change of the control data C3 is omitted.
  • the synthesis processing unit 22 generates an audio signal V according to the control data C3 (Sa8).
  • the instruction (edit instruction Q1 or edit instruction Q2) from the user is reflected on the way from the control data C0 to the control data C3 being generated, the user There is an advantage that the voice signal V of the synthesized voice can be generated according to the user's intention or preference as compared with the configuration in which the control data C0 can be edited.
  • the control data C1 related to the phoneme of the synthetic speech is changed according to the editing instruction Q1 from the user. Therefore, it is possible to generate the speech signal V of synthesized speech in which the phoneme has been adjusted according to the intention or preference of the user.
  • the control data C2 related to the expression of synthetic speech is changed according to the editing instruction Q2 from the user. Therefore, it is possible to generate a speech signal of synthesized speech whose musical expression has been adjusted according to the user's intention or preference.
  • the control data C3 is changed according to the editing instruction Q3 from the user. Therefore, it is possible to generate the speech signal V of synthesized speech whose frequency characteristic is adjusted according to the user's intention or preference.
  • Second Embodiment A second embodiment of the present invention will be described.
  • symbol used by description of 1st Embodiment is diverted and detailed description of each is abbreviate
  • FIG. 5 is a block diagram illustrating the functional configuration of the control device 11 in the second embodiment. As illustrated in FIG. 5, in the second embodiment, the learned model M 1, the editing processing unit E 1, the learned model M 2, and the editing processing unit E 2 illustrated in the first embodiment It is replaced with part E12. The control data C0 edited by the editing processing unit E0 is supplied to the learned model M12.
  • the learned model M12 outputs control data C12 of phoneme and pronunciation level according to the control data C0 of music level.
  • Control data C12 is data relating to phonemes of synthetic speech and musical expressions. Specifically, the control data C12 designates the phoneme symbol and the pronunciation period of each phoneme corresponding to the phoneme specified by the control data C0, and the expression period and the expression type in which the expression is given to the synthetic speech. That is, the control data C12 of the second embodiment is data in which the control data C1 and the control data C2 of the first embodiment are merged.
  • the learned model M12 has a relationship between the control data C0 and the control data C12 by machine learning (especially deep learning) using a plurality of teacher data in which the control data C0 and the control data C12 correspond to each other. It is a learned statistical prediction model.
  • a neural network that outputs control data C12 to the input of control data C0 is preferably used as a learned model M12.
  • a plurality of coefficients defining the learned model M12 are set by machine learning and stored in the storage device 12. Therefore, the control data C12 that is statistically valid with respect to the unknown control data C0 is output from the learned model M12 under the tendency (the relationship between the control data C0 and the control data C12) extracted from the plurality of teacher data. Be done.
  • the display control unit 21 causes the display device 14 to display the editing area A1 and the editing area A2 according to the control data C12 generated by the learned model M12.
  • the editing processing unit E12 responds to the control data C12 of the phoneme and pronunciation level output by the learned model M12 according to the editing instruction Q1 from the user to the editing area A1 or the editing instruction Q2 from the user to the editing area A2. To change. Specifically, the editing processing unit E12 changes the phoneme symbol designated by the control data C12 for each phoneme and the pronunciation period according to the editing instruction Q1, and the expression period designated by the control data C12 and the expression type editing instruction Q2 Change according to.
  • the display control unit 21 updates the editing area A1 and the editing area A2 to the contents according to the control data C12 after the change.
  • the control data C12 after the change by the editing processing unit E12 is supplied to the learned model M3, and when the editing instruction Q1 or the editing instruction Q2 is not given, the learning The control data C12 output from the finished model M12 is supplied to the learned model M3.
  • the learned model M3 of the second embodiment outputs vocoder level control data C3 (example of synthetic data) according to input data D3 including music level control data C0 and phoneme / pronunciation level control data C12. .
  • the specific operation in which the learned model M3 outputs the control data C3 to the input of the input data D3 is the same as that of the first embodiment.
  • the editing processing unit E3 changes the control data C3 in accordance with the editing instruction Q3 from the user, and the combining processing unit 22 generates an audio signal V corresponding to the control data C3. Do.
  • FIG. 6 is a flowchart of speech synthesis processing in the second embodiment.
  • voice synthesis processing is executed in response to an instruction from the user to the voice synthesizer 100.
  • the operation unit B3 (playback) in FIG. 3 is operated, the speech synthesis process is performed.
  • the editing processing unit E0 changes the control data C0 of the music level in accordance with the editing instruction Q0 from the user (Sb1).
  • the editing instruction Q0 is not given, the change of the control data C0 is omitted.
  • the learned model M12 generates control data C12 related to the phoneme of the synthesized speech according to the control data C0 (Sb2).
  • the editing processing unit E12 changes the control data C12 of the phoneme / phonetic level in accordance with the editing instruction Q1 or the editing instruction Q2 from the user (Sb3).
  • the change of the control data C12 is omitted.
  • the learned model M3 generates control data C3 related to the frequency characteristics of the synthesized speech in accordance with the input data D3 including the control data C0 and the control data C12 (Sb4).
  • the editing processing unit E3 changes the vocoder level control data C3 in accordance with the editing instruction Q3 from the user (Sb5). When the editing instruction Q3 is not given, the change of the control data C3 is omitted.
  • the synthesis processing unit 22 generates an audio signal V according to the control data C3 (Sb6).
  • the voice signal V of the synthesized voice can be generated according to the user's intention or preference, as compared with the configuration in which the user can edit the control data C0.
  • the control data C12 related to the phoneme and the expression of the synthetic speech is changed according to the editing instruction Q1 or the editing instruction Q2 from the user. Therefore, there is also an advantage that it is possible to generate the speech signal V of synthesized speech in which the phoneme or the expression is adjusted in accordance with the user's intention or preference.
  • the voice synthesizer 100 may be realized by a server device that communicates with a terminal device (for example, a mobile phone or a smart phone) via a mobile communication network or a communication network such as the Internet. Specifically, the speech synthesizer 100 generates the speech signal V by speech synthesis processing (FIG. 4 or 6) on the control data C0 received from the terminal device, and transmits the speech signal V to the terminal device. The sound emitting device 15 of the terminal device reproduces the voice represented by the voice signal V received from the voice synthesizer 100.
  • the control data C3 generated by the editing processing unit E3 of the voice synthesizer 100 may be transmitted to the terminal device, and the combining processing unit 22 installed in the terminal device may generate the audio signal V from the control data C3. That is, the synthesis processing unit 22 is omitted from the speech synthesizer 100.
  • the control data C0 generated by the editing processing unit E0 mounted on the terminal device is transmitted to the speech synthesizer 100, and the speech signal V generated according to the control data C0 is transmitted from the speech synthesizer 100 to the terminal device. May be That is, the editing processing unit E0 is omitted from the speech synthesizer 100.
  • the display control unit 21 causes the display device 14 of the terminal device to display the editing screen of FIG. 3.
  • the voice synthesizing device 100 is realized by the cooperation of a computer (specifically, the control device 11) and a program as illustrated in each of the embodiments.
  • the program according to each of the above embodiments is provided in a form stored in a computer readable recording medium and installed in the computer.
  • the recording medium is, for example, a non-transitory recording medium, and is preferably an optical recording medium (optical disc) such as a CD-ROM, but any known medium such as a semiconductor recording medium or a magnetic recording medium may be used. Recording media of the form Note that non-transitory recording media include any recording media except transient propagation signals, and do not exclude volatile recording media.
  • the program may be provided to the computer in the form of distribution via a communication network.
  • the execution subject of the program is not limited to the CPU, and a processor for neural networks such as Tensor Processing Unit and Neural Engine, or a DSP (Digital Signal Processor) for signal processing may execute the program. Also, plural types of subjects selected from the above examples may cooperate to execute the program.
  • the learned model is a combination of a program (for example, a program module constituting artificial intelligence software) that causes the control device 11 to execute an operation that specifies the output B from the input A and a plurality of coefficients applied to the operation Is realized by
  • the plurality of coefficients of the learned model are optimized by prior machine learning (especially deep learning) using a plurality of teacher data in which the input A and the output B correspond to each other. That is, the learned model is a statistical model obtained by learning the relationship between the input A and the output B.
  • the control device 11 executes the operation of applying the plurality of learned coefficients and the predetermined response function to the unknown input A, thereby tending to be extracted from the plurality of teacher data (input A and output B, and Generate a statistically valid output B for input A under
  • a speech synthesis method generates second control data according to an input including first control data specifying a phonology from the intermediate learned model, and (1) Change the second control data according to an instruction, and output synthetic data concerning frequency characteristics of synthetic speech according to an input including the first control data and the second control data after the change.
  • To generate an audio signal according to the synthetic data since the first instruction from the user is reflected on the way up to the generation of the composite data from the first control data, the configuration can be compared with the configuration in which the user can edit the first control data.
  • a speech signal can be generated that represents synthesized speech in line with the user's intention or preference.
  • the learned model M1 or the learned model M2 in the first embodiment and the learned model M12 in the second embodiment are preferable examples of the “intermediate-learned model” in the first aspect.
  • the control data C1 corresponds to the “second control data”
  • the editing instruction Q1 corresponds to the “first instruction”.
  • the control data C2 corresponds to the "second control data”
  • the editing instruction Q2 corresponds to the "first instruction”.
  • the learned model M12 of the second embodiment is interpreted as the "intermediate learned model”
  • the control data C12 corresponds to the "second control data”
  • the editing instruction Q1 or the editing instruction Q2 corresponds to the "first instruction”.
  • the learned model M3 in the first embodiment or the second embodiment is an example of the “output learned model”.
  • the intermediate learned model is a first learned model that generates the second control data in response to an input including the first control data
  • Control data is data relating to the phonemes of the synthetic speech.
  • the second control data related to the phoneme of the synthetic speech is changed according to the first instruction from the user. Therefore, it is possible to generate a speech signal of synthesized speech whose phoneme has been adjusted according to the user's intention or preference.
  • a preferred example of the “first learned model” in the second aspect is, for example, the “learned model M1” in the first embodiment.
  • second learning of third control data relating to an expression of the synthetic speech is performed according to an input including the first control data and the second control data after the change.
  • a model is generated, the third control data is changed according to a second instruction from the user, and in the generation of the composite data, the first control data and the second control data after the change and the change
  • the composite data is generated according to an input including the later third control data.
  • the third control data relating to the expression of the synthetic speech is changed in response to the second instruction from the user. Therefore, it is possible to generate a speech signal of synthesized speech whose expression has been adjusted according to the user's intention or preference.
  • a suitable example of the "second learned model" in the third aspect is, for example, the learned model M2 in the first embodiment
  • a suitable example of the "third control data" in the third aspect is, for example, the first embodiment. It is control data C2.
  • the second control data is data on phonemes and expressions of the synthetic speech.
  • the second control data related to the phoneme and the expression of the synthetic speech is changed in response to the first instruction from the user. Therefore, it is possible to generate a speech signal of synthetic speech in which the phoneme and the expression are adjusted in accordance with the intention or preference of the user.
  • a suitable example of the "intermediate learned model" in the fourth aspect is, for example, the learned model M12 in the second embodiment
  • a suitable example of the "first instruction" in the fourth aspect is, for example, the editing instruction in the second embodiment Q1 or editing instruction Q2.
  • the synthetic data is changed according to a third instruction from the user, and in the generation of the audio signal, the synthetic after the change
  • the audio signal is generated according to data.
  • the composite data is changed according to the third instruction from the user. Therefore, it is possible to generate a speech signal of synthesized speech whose frequency characteristics are adjusted according to the user's intention or preference.
  • a preferred example of the "third instruction" in the fifth aspect is, for example, the editing instruction Q3 in the first embodiment or the second embodiment.
  • a speech synthesis apparatus is an intermediate learned model for generating second control data according to an input including first control data specifying a phonology; According to an input including an editing processing unit that changes the second control data according to an instruction, and the first control data and the second control data after the change, synthesis data relating to frequency characteristics of synthetic speech is An output learned model to be generated, and a synthesis processing unit that generates an audio signal according to the synthetic data.
  • the configuration can be compared with the configuration in which the user can edit the first control data.
  • a speech signal can be generated that represents synthesized speech in line with the user's intention or preference.
  • a program according to a preferred aspect (seventh aspect) of the present invention is an intermediate learned model that generates second control data according to an input including first control data specifying a phoneme, and a first instruction from a user.
  • An editing unit that changes the second control data accordingly, and output learning that generates synthetic data related to frequency characteristics of synthetic speech according to an input including the first control data and the second control data after the change
  • the computer functions as a post-processing model and a synthesis processing unit that generates an audio signal according to the synthesis data.
  • the configuration can be compared with the configuration in which the user can edit the first control data.
  • a speech signal can be generated that represents synthesized speech in line with the user's intention or preference.
  • DESCRIPTION OF SYMBOLS 100 ... Speech synthesizing device, 11 ... Control device, 12 ... Storage device, 13 ... Operation device, 14 ... Display device, 15 ... Sound emission device, 21 ... Display control part, 22 ... Synthesis processing part, E0, E1, E2, E3, E12 ... editing processing unit, M1, M2, M3, M12 ... learned model, Q0, Q1, Q2, Q3 ... editing instruction, A0, A1, A2, A3 ... editing area, B0, B1, B2, B3 ... Operation unit.

Abstract

音声合成装置は、音韻を指定する第1制御データを含む入力に応じた第2制御データを生成する中間学習済モデルと、利用者からの第1指示に応じて第2制御データを変更する編集処理部と、第1制御データと変更後の第2制御データとを含む入力に応じて、合成音声の周波数特性に関する合成データを生成する出力学習済モデルと、合成データに応じた音声信号を生成する合成処理部とを具備する。

Description

音声合成方法、音声合成装置およびプログラム
 本発明は、音声を合成する技術に関する。
 任意の音韻の音声を合成する各種の音声合成技術が従来から提案されている。例えば特許文献1には、利用者が編集画面に対して指示した音符列を発音した歌唱音声を合成する技術が開示されている。編集画面は、時間軸と音高軸とが設定されたピアノロール画面である。利用者は、楽曲を構成する音符毎に、音韻(発音文字)と音高と発音期間とを指定する。
特開2016-90916号公報
 しかし、特許文献1の技術では、利用者は、音符毎に音韻と音高と発音期間とを指示できるに過ぎず、利用者の意図または嗜好を合成音声に精緻に反映させることは実際には容易ではない。以上の事情を考慮して、本発明の好適な態様は、利用者の意図または嗜好に沿った合成音声を生成することを目的とする。
 以上の課題を解決するために、本発明の好適な態様に係る音声合成方法は、音韻を指定する第1制御データを含む入力に応じた第2制御データを中間学習済モデルにより生成し、利用者からの第1指示に応じて前記第2制御データを変更し、前記第1制御データと前記変更後の前記第2制御データとを含む入力に応じて、合成音声の周波数特性に関する合成データを出力学習済モデルにより生成し、前記合成データに応じた音声信号を生成する。
 本発明の好適な態様に係る音声合成装置は、音韻を指定する第1制御データを含む入力に応じた第2制御データを生成する中間学習済モデルと、利用者からの第1指示に応じて前記第2制御データを変更する編集処理部と、前記第1制御データと前記変更後の前記第2制御データとを含む入力に応じて、合成音声の周波数特性に関する合成データを生成する出力学習済モデルと、前記合成データに応じた音声信号を生成する合成処理部とを具備する。
 本発明の好適な態様に係るプログラムは、音韻を指定する第1制御データを含む入力に応じて第2制御データを生成する中間学習済モデル、利用者からの第1指示に応じて前記第2制御データを変更する編集処理部、前記第1制御データと前記変更後の前記第2制御データとを含む入力に応じて、合成音声の周波数特性に関する合成データを生成する出力学習済モデル、および、前記合成データに応じた音声信号を生成する合成処理部、としてコンピュータを機能させる。
本発明の第1実施形態に係る音声合成装置の構成を例示するブロック図である。 音声合成装置の機能的な構成を例示するブロック図である。 編集画面の模式図である。 音声合成処理のフローチャートである。 第2実施形態に係る音声合成装置の機能的な構成を例示するブロック図である。 第2実施形態における音声合成処理のフローチャートである。
<第1実施形態>
 図1は、本発明の第1実施形態に係る音声合成装置100の構成を例示するブロック図である。音声合成装置100は、任意の音韻の音声(以下「合成音声」という)を合成する。第1実施形態の音声合成装置100は、歌唱者が楽曲を仮想的に歌唱した音声を合成音声として合成する歌唱合成装置である。図1に例示される通り、第1実施形態の音声合成装置100は、制御装置11と記憶装置12と操作装置13と表示装置14と放音装置15とを具備するコンピュータシステムで実現される。例えば携帯電話機もしくはスマートフォン等の可搬型の情報端末、またはパーソナルコンピュータ等の可搬型または据置型の情報端末が、音声合成装置100として好適に利用される。
 表示装置14は、例えば液晶表示パネルで構成され、制御装置11から指示された画像を表示する。操作装置13は、利用者からの指示を受付ける入力機器である。具体的には、利用者が操作可能な複数の操作子、または、表示装置14の表示面に対する接触を検知するタッチパネルが、操作装置13として好適に利用される。
 制御装置11は、例えばCPU(Central Processing Unit)等の処理回路であり、音声合成装置100を構成する各要素を統括的に制御する。第1実施形態の制御装置11は、合成音声の波形を表す時間領域の音声信号Vを生成する。放音装置15(例えばスピーカまたはヘッドホン)は、制御装置11が生成した音声信号Vが表す音声を再生する。なお、制御装置11が生成した音声信号Vをデジタルからアナログに変換するD/A変換器と、音声信号Vを増幅する増幅器とについては図示を便宜的に省略した。また、放音装置15を音声合成装置100に搭載した構成を図1では例示したが、音声合成装置100とは別体の放音装置15を音声合成装置100に有線または無線で接続してもよい。
 記憶装置12は、例えば磁気記録媒体もしくは半導体記録媒体等の公知の記録媒体、または、複数種の記録媒体の組合せで構成され、制御装置11が実行するプログラムと制御装置11が使用する各種のデータとを記憶する。なお、音声合成装置100とは別体の記憶装置12(例えばクラウドストレージ)を用意し、移動体通信網またはインターネット等の通信網を介して制御装置11が記憶装置12に対する書込および読出を実行してもよい。すなわち、記憶装置12を音声合成装置100から省略してもよい。
 記憶装置12は、楽曲の音楽的な特徴を表す制御データC0を記憶する。第1実施形態の制御データC0は、楽曲を構成する複数の音符の各々について音高と音韻と発音期間とを指定する楽曲データである。すなわち、制御データC0は、音楽レベル(すなわち音楽的な要素)の制御のためのデータである。制御データC0は、楽譜を表すデータとも換言される。音高は、例えばMIDI(Musical Instrument Digital Interface)のノート番号である。音韻は、合成音声により発音される文字(すなわち楽曲の歌詞)である。具体的には、音韻は、MIDIのテキストイベントである。例えば音符毎に1個の音節が音韻として指定される。発音期間は、楽曲の1個の音符が発音される期間であり、例えば音符の開始点と、終了点または継続長とで指定される。なお、例えばMIDIのデュレーションデータにより発音期間を指定してもよい。また、第1実施形態の制御データC0は、楽曲の音楽的な表現を表す演奏記号を指定する。例えば、フォルテ(f),ピアノ(p),クレッシェンド,デクレッシェンド,スタッカート,テヌートまたはスラー等の演奏記号が制御データC0により指定される。
 図2は、制御装置11の機能的な構成を例示するブロック図である。図2に例示される通り、制御装置11は、記憶装置12に記憶されたプログラムを実行することで、制御データC0に応じた音声信号Vを生成するための複数の機能(表示制御部21,編集処理部E0,学習済モデルM1,編集処理部E1,学習済モデルM2,編集処理部E2,学習済モデルM3,編集処理部E3および合成処理部22)を実現する。なお、複数の装置の集合(すなわちシステム)で制御装置11の機能を実現してもよいし、制御装置11の機能の一部または全部を専用の電子回路(例えば信号処理回路)で実現してもよい。
 表示制御部21は、表示装置14に画像を表示させる。第1実施形態の表示制御部21は、利用者が合成音声の調整を指示するために参照する編集画面を表示装置14に表示させる。図3は、編集画面の模式図である。図3に例示される通り、編集画面は、複数の編集領域A(A0~A3)と複数の操作部B(B0~B3)とを含む画像である。複数の操作部Bの各々は、利用者からの指示を受付ける操作子の画像である。また、複数の編集領域A(A0~A3)には共通の時間軸(横軸)が設定される。
 編集領域A0は、音楽レベルの制御データC0の内容を表す画像(いわゆるピアノロール画面)である。具体的には、編集領域A0には、制御データC0が指定する音符を表す音符画像(ノートバー)が、時間軸と音高軸とを含む座標平面に時系列に配置される。時間軸上における各音符画像の位置および表示長は、制御データC0が指定する発音期間に応じて設定され、音高軸上における音符画像の位置は、制御データC0が指定する音高に応じて設定される。音符画像の内部には、制御データC0が指定する音韻(具体的には書記素)が表示される。また、編集領域A0には、制御データC0が指定する演奏記号も表示される。例えば図3では、クレッシェンド,フォルテおよびデクレッシェンドが演奏記号として例示されている。利用者は、操作装置13を操作することで、編集領域A0に対する編集指示Q0を付与することが可能である。編集指示Q0は、例えば、各音符の条件(発音期間、音高もしくは音韻)の変更の指示、または、演奏記号の変更(追加もしくは削除)の指示である。
 編集領域A1は、音素レベル(すなわち音素に関する要素)の特徴、例えば、合成音声を構成する複数の音素(母音または子音)の時系列を表す画像である。具体的には、編集領域A1には、合成音声の複数の音素の各々について音素記号と発音期間とが表示される。利用者は、操作装置13を操作することで、編集領域A1に対する編集指示Q1を付与することが可能である。編集指示Q1は、例えば、各音素の音素記号の変更の指示、または、発音期間の変更(例えば移動もしくは伸縮)の指示である。
 編集領域A2は、発音レベル(すなわち発音に関する要素)の特徴、例えば、合成音声に付与される音楽的な表情を表す画像である。具体的には、編集領域A2には、合成音声のうち音楽的な表情が付与される期間(以下「表情期間」という)と各表情期間における表情の種類(以下「表情種別」という)とが表示される。合成音声に付与される音楽的な表情としては、嗄声または気息音等の声質と、ビブラートまたはフォール等の発音技法とが例示される。利用者は、操作装置13を操作することで、編集領域A2に対する編集指示Q2を付与することが可能である。編集指示Q2は、例えば、各表情期間の変更(例えば移動もしくは伸縮)の指示、または、各表情期間における表情種別の変更の指示である。
 編集領域A3は、ボコーダレベル(すなわちボコーダに関する要素)の特徴、例えば、合成音声の周波数特性の時間的な変化を表す画像である。具体的には、編集領域A3には、合成音声の基本周波数F0の時間的な変化を表す曲線が表示される。利用者は、操作装置13を操作することで、編集領域A3に対する編集指示Q3を付与することが可能である。編集指示Q3は、例えば基本周波数F0の時間的な変化の変更の指示である。
 図2の編集処理部E0は、編集領域A0に対する利用者からの編集指示Q0に応じて音楽レベルの制御データC0を変更する。具体的には、編集処理部E0は、制御データC0が指定する各音符の条件(発音期間、音高もしくは音韻)、または、制御データC0が指定する演奏記号を、編集指示Q0に応じて変更する。編集指示Q0が付与された場合には、編集処理部E0による変更後の制御データC0が、学習済モデルM1と学習済モデルM2と学習済モデルM3とに供給される。他方、編集指示Q0が付与されない場合には、記憶装置12に記憶された制御データC0が、学習済モデルM1と学習済モデルM2と学習済モデルM3とに供給される。
 学習済モデルM1は、音楽レベルの制御データC0に応じた音素レベルの制御データC1を出力する。制御データC1は、合成音声の音素に関するデータである。具体的には、制御データC1は、制御データC0が指定する音韻に対応した複数の音素の時系列を指定する。例えば、制御データC1は、合成音声を構成する複数の音素の各々について、音素記号(すなわち音素の種別)と発音期間とを指定する。各音素の発音期間は、例えば開始点と終了点または継続長とで指定される。
 第1実施形態の学習済モデルM1は、制御データC0と制御データC1とを対応させた複数の教師データを利用した機械学習(特に深層学習)により、制御データC0と制御データC1との関係を学習した統計的予測モデルである。例えば、制御データC0の入力に対して制御データC1を出力するニューラルネットワークが学習済モデルM1として好適に利用される。学習済モデルM1を規定する複数の係数K1が、機械学習により設定されて記憶装置12に記憶される。したがって、複数の教師データから抽出される傾向(制御データC0と制御データC1との関係)のもとで未知の制御データC0に対して統計的に妥当な制御データC1が学習済モデルM1から出力される。表示制御部21は、学習済モデルM1が生成する制御データC1に応じて編集領域A1を表示装置14に表示させる。すなわち、制御データC1が音素毎に指定する音素記号と発音期間とが編集領域A1に表示される。
 編集処理部E1は、学習済モデルM1が出力する音素レベルの制御データC1を、編集領域A1に対する利用者からの編集指示Q1に応じて変更する。具体的には、編集処理部E1は、制御データC1が音素毎に指定する音素記号または発音期間を、編集指示Q1に応じて変更する。表示制御部21は、編集領域A1を、変更後の制御データC1に応じた内容に更新する。編集指示Q1が付与された場合には、編集処理部E1による変更後の制御データC1が学習済モデルM2および学習済モデルM3に供給され、編集指示Q1が付与されない場合には、学習済モデルM1が出力した制御データC1が学習済モデルM2および学習済モデルM3に供給される。
 学習済モデルM2は、音楽レベルの制御データC0と音素レベルの制御データC1とを含む入力データD2に応じた発音レベルの制御データC2を出力する。制御データC2は、合成音声の音楽的な表情に関するデータである。具体的には、制御データC2は、時間軸上の1個以上の表情期間と各表情期間における表情種別とを指定する。各表情期間は、例えば開始点と終了点または継続長とで指定される。
 第1実施形態の学習済モデルM2は、入力データD2と制御データC2とを対応させた複数の教師データを利用した機械学習(特に深層学習)により、入力データD2と制御データC2との関係を学習した統計的予測モデルである。例えば入力データD2の入力に対して制御データC2を出力するニューラルネットワークが学習済モデルM2として好適に利用される。学習済モデルM2を規定する複数の係数K2が、機械学習により設定されて記憶装置12に記憶される。したがって、複数の教師データから抽出される傾向(入力データD2と制御データC2との関係)のもとで未知の入力データD2に対して統計的に妥当な制御データC2が学習済モデルM2から出力される。表示制御部21は、学習済モデルM2が生成する制御データC2に応じて編集領域A2を表示装置14に表示させる。すなわち、制御データC2が指定する表情期間と表情種別とが編集領域A2に表示される。
 編集処理部E2は、学習済モデルM2が出力する発音レベルの制御データC2を、編集領域A2に対する利用者からの編集指示Q2に応じて変更する。具体的には、編集処理部E2は、制御データC2が指定する表情期間または表情種別を、編集指示Q2に応じて変更する。表示制御部21は、編集領域A2を、変更後の制御データC2に応じた内容に更新する。編集指示Q2が付与された場合には、編集処理部E2による変更後の制御データC2が学習済モデルM3に供給され、編集指示Q2が付与されない場合には、学習済モデルM2が出力した制御データC2が学習済モデルM3に供給される。
 学習済モデルM3は、音楽レベルの制御データC0と音素レベルの制御データC1と発音レベルの制御データC2とを含む入力データD3に応じたボコーダレベルの制御データC3(合成データの例示)を出力する。制御データC3は、合成音声の周波数特性に関するデータである。例えば、制御データC3は、合成音声の基本周波数F0の時系列と、調波成分の包絡線の時系列と、非調波成分の包絡線の時系列とを指定する。調波成分の包絡線は、調波成分の強度スペクトル(振幅スペクトルまたはパワースペクトル)の概形を表す曲線である。調波成分は、基本周波数F0の基音成分と基本周波数F0の整数倍の周波数の複数の倍音成分とで構成される周期成分である。他方、非調波成分の包絡線は、非調波成分の強度スペクトルの概形を表す曲線である。非調波成分は、調波成分以外の非周期成分(残差成分)である。調波成分および非調波成分の包絡線は、例えば複数のメルケプストラム係数で表現される。
 第1実施形態の学習済モデルM3は、入力データD3と制御データC3とを対応させた複数の教師データを利用した機械学習(特に深層学習)により、入力データD3と制御データC3との関係を学習した統計的予測モデルである。例えば入力データD3の入力に対して制御データC3を出力するニューラルネットワークが学習済モデルM3として好適に利用される。学習済モデルM3を規定する複数の係数K3が、機械学習により設定されて記憶装置12に記憶される。したがって、複数の教師データから抽出される傾向(入力データD3と制御データC3との関係)のもとで未知の入力データD3に対して統計的に妥当な制御データC3が学習済モデルM3から出力される。表示制御部21は、学習済モデルM3が生成する制御データC3に応じて編集領域A3を表示装置14に表示させる。すなわち、制御データC3が指定する基本周波数F0の時系列が編集領域A3に表示される。
 編集処理部E3は、学習済モデルM3が出力するボコーダレベルの制御データC3を、編集領域A3に対する利用者からの編集指示Q3に応じて変更する。具体的には、編集処理部E3は、制御データC3が指定する基本周波数F0を、編集指示Q3に応じて変更する。表示制御部21は、編集領域A3を、変更後の制御データC3に応じた内容に更新する。編集指示Q3が付与された場合には、編集処理部E3による変更後の制御データC3が合成処理部22に供給され、編集指示Q3が付与されない場合には、学習済モデルM3が出力した制御データC3が合成処理部22に供給される。
 合成処理部22は、制御データC3に応じた音声信号Vを生成する。合成処理部22による音声信号Vの生成には公知の音声合成技術が任意に採用される。例えば、SMS(Spectral Model Synthesis)が音声信号Vの生成に好適に利用される。合成処理部22が生成した音声信号Vが放音装置15に供給されて音波として再生される。以上の説明から理解される通り、合成処理部22は、いわゆるボコーダに相当する。
 編集指示Q0に応じて編集処理部E0が音楽レベルの制御データC0を変更すると、利用者は、操作装置13を使用して図3の操作部B0を操作する。操作部B0が操作されると、変更後の制御データC0について、学習済モデルM1による制御データC1の生成と、学習済モデルM2による制御データC2の生成と、学習済モデルM3による制御データC3の生成とが実行される。
 編集指示Q1に応じて編集処理部E1が音素レベルの制御データC1を変更すると、利用者は、操作装置13を使用して操作部B1を操作する。操作部B1が操作されると、変更後の制御データC1が学習済モデルM2および学習済モデルM3に供給され、学習済モデルM2による制御データC2の生成と学習済モデルM3による制御データC3の生成とが実行される。操作部B1が操作された場合には、学習済モデルM1による制御データC1の生成は実行されず、編集指示Q1を反映した制御データC1を利用して音声信号Vが生成される。
 編集指示Q2に応じて編集処理部E2が発音レベルの制御データC2を変更すると、利用者は、操作装置13を使用して操作部B2を操作する。操作部B2が操作されると、変更後の制御データC2が学習済モデルM3に供給され、学習済モデルM3による制御データC3の生成が実行される。操作部B2が操作された場合には、学習済モデルM1による制御データC1の生成と学習済モデルM2による制御データC2の生成とは実行されず、編集指示Q2を反映した制御データC2を利用して音声信号Vが生成される。
 図4は、制御装置11が音声信号Vを生成する処理(以下「音声合成処理」という)のフローチャートである。例えば音声合成装置100に対する利用者からの指示を契機として音声合成処理が実行される。例えば図3の操作部B3(再生)が操作された場合に音声合成処理が実行される。
 音声合成処理を開始すると、編集処理部E0は、利用者からの編集指示Q0に応じて音楽レベルの制御データC0を変更する(Sa1)。編集指示Q0が付与されない場合には、制御データC0の変更は省略される。
 学習済モデルM1は、合成音声の音素に関する制御データC1を制御データC0に応じて生成する(Sa2)。編集処理部E1は、利用者からの編集指示Q1に応じて音素レベルの制御データC1を変更する(Sa3)。編集指示Q1が付与されない場合には、制御データC1の変更は省略される。
 学習済モデルM2は、制御データC0と制御データC1とを含む入力データD2に応じて、合成音声の音楽的な表情に関する制御データC2を生成する(Sa4)。編集処理部E2は、利用者からの編集指示Q2に応じて発音レベルの制御データC2を変更する(Sa5)。編集指示Q2が付与されない場合には、制御データC2の変更は省略される。
 学習済モデルM3は、制御データC0と制御データC1と制御データC2とを含む入力データD3に応じて、合成音声の周波数特性に関する制御データC3を生成する(Sa6)。編集処理部E3は、利用者からの編集指示Q3に応じてボコーダレベルの制御データC3を変更する(Sa7)。編集指示Q3が付与されない場合には、制御データC3の変更は省略される。合成処理部22は、制御データC3に応じた音声信号Vを生成する(Sa8)。
 以上に説明した通り、第1実施形態では、制御データC0から制御データC3を生成するまでの途中の段階で利用者からの指示(編集指示Q1または編集指示Q2)が反映されるから、利用者が制御データC0を編集できるだけの構成と比較して、利用者の意図または嗜好に沿った合成音声の音声信号Vを生成できるという利点がある。
 第1実施形態では特に、合成音声の音素に関する制御データC1が利用者からの編集指示Q1に応じて変更される。したがって、利用者の意図または嗜好に応じて音素が調整された合成音声の音声信号Vを生成できる。また、合成音声の表情に関する制御データC2が利用者からの編集指示Q2に応じて変更される。したがって、利用者の意図または嗜好に応じて音楽的な表情が調整された合成音声の音声信号を生成できる。また、利用者からの編集指示Q3に応じて制御データC3が変更される。したがって、利用者の意図または嗜好に応じて周波数特性が調整された合成音声の音声信号Vを生成できる。
<第2実施形態>
 本発明の第2実施形態を説明する。なお、以下に例示する各形態において作用または機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
 図5は、第2実施形態における制御装置11の機能的な構成を例示するブロック図である。図5に例示される通り、第1実施形態で例示した学習済モデルM1と編集処理部E1と学習済モデルM2と編集処理部E2とが、第2実施形態では、学習済モデルM12と編集処理部E12とに置換される。編集処理部E0による編集後の制御データC0は、学習済モデルM12に供給される。
 学習済モデルM12は、音楽レベルの制御データC0に応じた音素・発音レベルの制御データC12を出力する。制御データC12は、合成音声の音素と音楽的な表情とに関するデータである。具体的には、制御データC12は、制御データC0が指定する音韻に対応した各音素の音素記号および発音期間と、合成音声に表情が付与される表情期間および表情種別とを指定する。すなわち、第2実施形態の制御データC12は、第1実施形態における制御データC1と制御データC2とを併合したデータである。
 第2実施形態の学習済モデルM12は、制御データC0と制御データC12とを対応させた複数の教師データを利用した機械学習(特に深層学習)により、制御データC0と制御データC12との関係を学習した統計的予測モデルである。例えば制御データC0の入力に対して制御データC12を出力するニューラルネットワークが学習済モデルM12として好適に利用される。学習済モデルM12を規定する複数の係数が、機械学習により設定されて記憶装置12に記憶される。したがって、複数の教師データから抽出される傾向(制御データC0と制御データC12との関係)のもとで未知の制御データC0に対して統計的に妥当な制御データC12が学習済モデルM12から出力される。表示制御部21は、学習済モデルM12が生成する制御データC12に応じて編集領域A1および編集領域A2を表示装置14に表示させる。
 編集処理部E12は、学習済モデルM12が出力する音素・発音レベルの制御データC12を、編集領域A1に対する利用者からの編集指示Q1、または、編集領域A2に対する利用者からの編集指示Q2に応じて変更する。具体的には、編集処理部E12は、制御データC12が音素毎に指定する音素記号および発音期間を編集指示Q1に応じて変更し、制御データC12が指定する表情期間および表情種別を編集指示Q2に応じて変更する。表示制御部21は、編集領域A1および編集領域A2を、変更後の制御データC12に応じた内容に更新する。編集指示Q1または編集指示Q2が付与された場合には、編集処理部E12による変更後の制御データC12が学習済モデルM3に供給され、編集指示Q1または編集指示Q2が付与されない場合には、学習済モデルM12が出力した制御データC12が学習済モデルM3に供給される。
 第2実施形態の学習済モデルM3は、音楽レベルの制御データC0と音素・発音レベルの制御データC12とを含む入力データD3に応じたボコーダレベルの制御データC3(合成データの例示)を出力する。学習済モデルM3が入力データD3の入力に対して制御データC3を出力する具体的な動作は第1実施形態と同様である。また、第1実施形態と同様に、編集処理部E3は、利用者からの編集指示Q3に応じて制御データC3を変更し、合成処理部22は、制御データC3に応じた音声信号Vを生成する。
 図6は、第2実施形態における音声合成処理のフローチャートである。例えば音声合成装置100に対する利用者からの指示を契機として音声合成処理が実行される。例えば図3の操作部B3(再生)が操作された場合に音声合成処理が実行される。
 音声合成処理を開始すると、編集処理部E0は、利用者からの編集指示Q0に応じて音楽レベルの制御データC0を変更する(Sb1)。編集指示Q0が付与されない場合には、制御データC0の変更は省略される。
 学習済モデルM12は、合成音声の音素に関する制御データC12を制御データC0に応じて生成する(Sb2)。編集処理部E12は、利用者からの編集指示Q1または編集指示Q2に応じて音素・発音レベルの制御データC12を変更する(Sb3)。編集指示Q1または編集指示Q2が付与されない場合には、制御データC12の変更は省略される。
 学習済モデルM3は、制御データC0と制御データC12とを含む入力データD3に応じて、合成音声の周波数特性に関する制御データC3を生成する(Sb4)。編集処理部E3は、利用者からの編集指示Q3に応じてボコーダレベルの制御データC3を変更する(Sb5)。編集指示Q3が付与されない場合には、制御データC3の変更は省略される。合成処理部22は、制御データC3に応じた音声信号Vを生成する(Sb6)。
 第2実施形態では、制御データC0から制御データC3を生成するまでの途中の段階で利用者からの指示(編集指示Q1または編集指示Q2)が反映されるから、第1実施形態と同様に、利用者が制御データC0を編集できるだけの構成と比較して、利用者の意図または嗜好に沿った合成音声の音声信号Vを生成できる。第2実施形態では特に、合成音声の音素および表情に関する制御データC12が利用者からの編集指示Q1または編集指示Q2に応じて変更される。したがって、利用者の意図または嗜好に応じて音素または表情が調整された合成音声の音声信号Vを生成できるという利点もある。
<変形例>
 以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。
(1)例えば移動体通信網またはインターネット等の通信網を介して端末装置(例えば携帯電話機またはスマートフォン)と通信するサーバ装置により音声合成装置100を実現してもよい。具体的には、音声合成装置100は、端末装置から受信した制御データC0に対する音声合成処理(図4または図6)により音声信号Vを生成し、当該音声信号Vを端末装置に送信する。端末装置の放音装置15は、音声合成装置100から受信した音声信号Vが表す音声を再生する。なお、音声合成装置100の編集処理部E3がが生成した制御データC3を端末装置に送信し、端末装置に設置された合成処理部22が制御データC3から音声信号Vを生成してもよい。すなわち、合成処理部22は音声合成装置100から省略される。また、端末装置に搭載された編集処理部E0が生成した制御データC0を音声合成装置100に送信し、当該制御データC0に応じて生成した音声信号Vを音声合成装置100から端末装置に送信してもよい。すなわち、編集処理部E0は音声合成装置100から省略される。音声合成装置100をサーバ装置により実現した構成では、表示制御部21は、図3の編集画面を端末装置の表示装置14に表示させる。
(2)前述の各形態に係る音声合成装置100は、各形態での例示の通り、コンピュータ(具体的には制御装置11)とプログラムとの協働により実現される。前述の各形態に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされる。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体を含む。なお、非一過性の記録媒体とは、一過性の伝搬信号(transitory, propagating signal)を除く任意の記録媒体を含み、揮発性の記録媒体を除外するものではない。また、通信網を介した配信の形態でプログラムをコンピュータに提供してもよい。また、プログラムの実行主体はCPUに限定されず、Tensor Processing UnitおよびNeural Engine等のニューラルネットワーク用のプロセッサ、または、信号処理用のDSP(Digital Signal Processor)がプログラムを実行してもよい。また、以上の例示から選択された複数種の主体が協働してプログラムを実行してもよい。
(3)学習済モデルは、入力Aから出力Bを特定する演算を制御装置11に実行させるプログラム(例えば人工知能ソフトウェアを構成するプログラムモジュール)と、当該演算に適用される複数の係数との組合せで実現される。学習済モデルの複数の係数は、入力Aと出力Bとを対応させた複数の教師データを利用した事前の機械学習(特に深層学習)により最適化される。すなわち、学習済モデルは、入力Aと出力Bとの関係を学習した統計的モデルである。制御装置11は、学習済の複数の係数と所定の応答関数とを適用した演算を未知の入力Aに対して実行することで、複数の教師データから抽出される傾向(入力Aと出力Bとの関係)のもとで入力Aに対して統計的に妥当な出力Bを生成する。
(4)以上に例示した形態から、例えば以下の構成が把握される。
 本発明の好適な態様(第1態様)に係る音声合成方法は、音韻を指定する第1制御データを含む入力に応じた第2制御データを中間学習済モデルにより生成し、利用者からの第1指示に応じて前記第2制御データを変更し、前記第1制御データと前記変更後の前記第2制御データとを含む入力に応じて、合成音声の周波数特性に関する合成データを出力学習済モデルにより生成し、前記合成データに応じた音声信号を生成する。以上の態様では、第1制御データから合成データを生成するまでの途中の段階で利用者からの第1指示が反映されるから、利用者が第1制御データを編集できるだけの構成と比較して、利用者の意図または嗜好に沿った合成音声を表す音声信号を生成できる。
 例えば第1実施形態における学習済モデルM1または学習済モデルM2、および、第2実施形態における学習済モデルM12が、第1態様における「中間学習済モデル」の好適例である。第1実施形態の学習済モデルM1を「中間学習済モデル」と解釈した場合、制御データC1が「第2制御データ」に相当し、編集指示Q1が「第1指示」に相当する。第1実施形態の学習済モデルM2を「中間学習済モデル」と解釈した場合、制御データC2が「第2制御データ」に相当し、編集指示Q2が「第1指示」に相当する。第2実施形態の学習済モデルM12を「中間学習済モデル」と解釈した場合、制御データC12が「第2制御データ」に相当し、編集指示Q1または編集指示Q2が「第1指示」に相当する。また、第1実施形態または第2実施形態における学習済モデルM3は「出力学習済モデル」の一例である。
 第1態様の好適例(第2態様)において、前記中間学習済モデルは、前記第1制御データを含む入力に応じて前記第2制御データを生成する第1学習済モデルであり、前記第2制御データは、前記合成音声の音素に関するデータである。以上の態様では、合成音声の音素に関する第2制御データが利用者からの第1指示に応じて変更される。したがって、利用者の意図または嗜好に応じて音素が調整された合成音声の音声信号を生成できる。第2態様における「第1学習済モデル」の好適例は、例えば第1実施形態における「学習済モデルM1」である。
 第2態様の好適例(第3態様)において、前記第1制御データと前記変更後の第2制御データとを含む入力に応じて、前記合成音声の表情に関する第3制御データを第2学習済モデルにより生成し、利用者からの第2指示に応じて前記第3制御データを変更し、前記合成データの生成においては、前記第1制御データと前記変更後の前記第2制御データと前記変更後の第3制御データとを含む入力に応じて前記合成データを生成する。以上の態様では、合成音声の表情に関する第3制御データが利用者からの第2指示に応じて変更される。したがって、利用者の意図または嗜好に応じて表情が調整された合成音声の音声信号を生成できる。第3態様における「第2学習済モデル」の好適例は、例えば第1実施形態における学習済モデルM2であり、第3態様における「第3制御データ」の好適例は、例えば第1実施形態における制御データC2である。
 第1態様の好適例(第4態様)において、前記第2制御データは、前記合成音声の音素および表情に関するデータである。以上の態様では、合成音声の音素および表情に関する第2制御データが利用者からの第1指示に応じて変更される。したがって、利用者の意図または嗜好に応じて音素および表情が調整された合成音声の音声信号を生成できる。第4態様における「中間学習済モデル」の好適例は、例えば第2実施形態における学習済モデルM12であり、第4態様における「第1指示」の好適例は、例えば第2実施形態における編集指示Q1または編集指示Q2である。
 第1態様から第4態様の何れかの好適例(第5態様)において、利用者からの第3指示に応じて前記合成データを変更し、前記音声信号の生成においては、前記変更後の合成データに応じて前記音声信号を生成する。以上の態様では、利用者からの第3指示に応じて合成データが変更される。したがって、利用者の意図または嗜好に応じて周波数特性が調整された合成音声の音声信号を生成できる。第5態様における「第3指示」の好適例は、例えば第1実施形態または第2実施形態における編集指示Q3である。
 本発明の好適な態様(第6態様)に係る音声合成装置は、音韻を指定する第1制御データを含む入力に応じた第2制御データを生成する中間学習済モデルと、利用者からの第1指示に応じて前記第2制御データを変更する編集処理部と、前記第1制御データと前記変更後の前記第2制御データとを含む入力に応じて、合成音声の周波数特性に関する合成データを生成する出力学習済モデルと、前記合成データに応じた音声信号を生成する合成処理部とを具備する。以上の態様では、第1制御データから合成データを生成するまでの途中の段階で利用者からの第1指示が反映されるから、利用者が第1制御データを編集できるだけの構成と比較して、利用者の意図または嗜好に沿った合成音声を表す音声信号を生成できる。
 本発明の好適な態様(第7態様)に係るプログラムは、音韻を指定する第1制御データを含む入力に応じて第2制御データを生成する中間学習済モデル、利用者からの第1指示に応じて前記第2制御データを変更する編集処理部、前記第1制御データと前記変更後の前記第2制御データとを含む入力に応じて、合成音声の周波数特性に関する合成データを生成する出力学習済モデル、および、前記合成データに応じた音声信号を生成する合成処理部、としてコンピュータを機能させる。以上の態様では、第1制御データから合成データを生成するまでの途中の段階で利用者からの第1指示が反映されるから、利用者が第1制御データを編集できるだけの構成と比較して、利用者の意図または嗜好に沿った合成音声を表す音声信号を生成できる。
100…音声合成装置、11…制御装置、12…記憶装置、13…操作装置、14…表示装置、15…放音装置、21…表示制御部、22…合成処理部、E0,E1,E2,E3,E12…編集処理部、M1,M2,M3,M12…学習済モデル、Q0,Q1,Q2,Q3…編集指示、A0,A1,A2,A3…編集領域、B0,B1,B2,B3…操作部。

Claims (7)

  1.  音韻を指定する第1制御データを含む入力に応じた第2制御データを中間学習済モデルにより生成し、
     利用者からの第1指示に応じて前記第2制御データを変更し、
     前記第1制御データと前記変更後の前記第2制御データとを含む入力に応じて、合成音声の周波数特性に関する合成データを出力学習済モデルにより生成し、
     前記合成データに応じた音声信号を生成する、
     コンピュータにより実現される音声合成方法。
  2.  前記中間学習済モデルは、前記第1制御データを含む入力に応じて前記第2制御データを生成する第1学習済モデルであり、
     前記第2制御データは、前記合成音声の音素に関するデータである
     請求項1の音声合成方法。
  3.  前記第1制御データと前記変更後の第2制御データとを含む入力に応じて、前記合成音声の表情に関する第3制御データを第2学習済モデルにより生成し、
     利用者からの第2指示に応じて前記第3制御データを変更し、
     前記合成データの生成においては、前記第1制御データと前記変更後の前記第2制御データと前記変更後の第3制御データとを含む入力に応じて前記合成データを生成する
     請求項2の音声合成方法。
  4.  前記第2制御データは、前記合成音声の音素および表情に関するデータである
     請求項1の音声合成方法。
  5.  利用者からの第3指示に応じて前記合成データを変更し、
     前記音声信号の生成においては、前記変更後の合成データに応じて前記音声信号を生成する
     請求項1から請求項4の何れかの音声合成方法。
  6.  音韻を指定する第1制御データを含む入力に応じた第2制御データを生成する中間学習済モデルと、
     利用者からの第1指示に応じて前記第2制御データを変更する編集処理部と、
     前記第1制御データと前記変更後の前記第2制御データとを含む入力に応じて、合成音声の周波数特性に関する合成データを生成する出力学習済モデルと、
     前記合成データに応じた音声信号を生成する合成処理部と
     を具備する音声合成装置。
  7.  音韻を指定する第1制御データを含む入力に応じて第2制御データを生成する中間学習済モデル、
     利用者からの第1指示に応じて前記第2制御データを変更する編集処理部、
     前記第1制御データと前記変更後の前記第2制御データとを含む入力に応じて、合成音声の周波数特性に関する合成データを生成する出力学習済モデル、および、
     前記合成データに応じた音声信号を生成する合成処理部
     としてコンピュータを機能させるプログラム。
PCT/JP2018/043655 2017-11-29 2018-11-28 音声合成方法、音声合成装置およびプログラム WO2019107378A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201880077081.1A CN111418006B (zh) 2017-11-29 2018-11-28 声音合成方法、声音合成装置及记录介质
EP18882396.7A EP3719796A4 (en) 2017-11-29 2018-11-28 VOICE SYNTHESIS PROCEDURE, VOICE SYNTHESIS DEVICE AND PROGRAM
CN202310641326.1A CN116504218A (zh) 2017-11-29 2018-11-28 声音合成方法、声音合成系统
US16/886,063 US11495206B2 (en) 2017-11-29 2020-05-28 Voice synthesis method, voice synthesis apparatus, and recording medium
US17/965,185 US20230034572A1 (en) 2017-11-29 2022-10-13 Voice synthesis method, voice synthesis apparatus, and recording medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017-229042 2017-11-29
JP2017229042A JP6729539B2 (ja) 2017-11-29 2017-11-29 音声合成方法、音声合成システムおよびプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US16/886,063 Continuation US11495206B2 (en) 2017-11-29 2020-05-28 Voice synthesis method, voice synthesis apparatus, and recording medium

Publications (1)

Publication Number Publication Date
WO2019107378A1 true WO2019107378A1 (ja) 2019-06-06

Family

ID=66663973

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/043655 WO2019107378A1 (ja) 2017-11-29 2018-11-28 音声合成方法、音声合成装置およびプログラム

Country Status (5)

Country Link
US (2) US11495206B2 (ja)
EP (1) EP3719796A4 (ja)
JP (1) JP6729539B2 (ja)
CN (2) CN111418006B (ja)
WO (1) WO2019107378A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021060493A1 (ja) * 2019-09-26 2021-04-01 ヤマハ株式会社 情報処理方法、推定モデル構築方法、情報処理装置、および推定モデル構築装置

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6729539B2 (ja) 2017-11-29 2020-07-22 ヤマハ株式会社 音声合成方法、音声合成システムおよびプログラム
JP6737320B2 (ja) * 2018-11-06 2020-08-05 ヤマハ株式会社 音響処理方法、音響処理システムおよびプログラム
JP7180642B2 (ja) * 2020-07-01 2022-11-30 ヤマハ株式会社 音声合成方法、音声合成システムおよびプログラム
CN116324971A (zh) * 2020-10-15 2023-06-23 雅马哈株式会社 语音合成方法及程序

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013137520A (ja) * 2011-11-29 2013-07-11 Yamaha Corp 音楽データ編集装置
JP2014178512A (ja) * 2013-03-15 2014-09-25 Yamaha Corp 音声合成装置
JP2016090916A (ja) 2014-11-10 2016-05-23 ヤマハ株式会社 音声合成装置
JP2017097176A (ja) * 2015-11-25 2017-06-01 株式会社テクノスピーチ 音声合成装置および音声合成方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4661915A (en) * 1981-08-03 1987-04-28 Texas Instruments Incorporated Allophone vocoder
JP2001134283A (ja) 1999-11-04 2001-05-18 Mitsubishi Electric Corp 音声合成装置および音声合成方法
JP4311710B2 (ja) * 2003-02-14 2009-08-12 株式会社アルカディア 音声合成制御装置
US20140236597A1 (en) * 2007-03-21 2014-08-21 Vivotext Ltd. System and method for supervised creation of personalized speech samples libraries in real-time for text-to-speech synthesis
JP2008268477A (ja) 2007-04-19 2008-11-06 Hitachi Business Solution Kk 韻律調整可能な音声合成装置
JP5029884B2 (ja) 2007-05-22 2012-09-19 富士通株式会社 韻律生成装置、韻律生成方法、および、韻律生成プログラム
US20100066742A1 (en) * 2008-09-18 2010-03-18 Microsoft Corporation Stylized prosody for speech synthesis-based applications
JP5293460B2 (ja) * 2009-07-02 2013-09-18 ヤマハ株式会社 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
JP6372066B2 (ja) * 2013-10-15 2018-08-15 ヤマハ株式会社 合成情報管理装置および音声合成装置
WO2015058386A1 (en) * 2013-10-24 2015-04-30 Bayerische Motoren Werke Aktiengesellschaft System and method for text-to-speech performance evaluation
US9978359B1 (en) * 2013-12-06 2018-05-22 Amazon Technologies, Inc. Iterative text-to-speech with user feedback
CN105206258B (zh) * 2015-10-19 2018-05-04 百度在线网络技术(北京)有限公司 声学模型的生成方法和装置及语音合成方法和装置
JP2017107228A (ja) * 2017-02-20 2017-06-15 株式会社テクノスピーチ 歌声合成装置および歌声合成方法
JP6729539B2 (ja) 2017-11-29 2020-07-22 ヤマハ株式会社 音声合成方法、音声合成システムおよびプログラム
CN114170997A (zh) * 2021-12-28 2022-03-11 科大讯飞股份有限公司 发音技巧检测方法、装置、存储介质及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013137520A (ja) * 2011-11-29 2013-07-11 Yamaha Corp 音楽データ編集装置
JP2014178512A (ja) * 2013-03-15 2014-09-25 Yamaha Corp 音声合成装置
JP2016090916A (ja) 2014-11-10 2016-05-23 ヤマハ株式会社 音声合成装置
JP2017097176A (ja) * 2015-11-25 2017-06-01 株式会社テクノスピーチ 音声合成装置および音声合成方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021060493A1 (ja) * 2019-09-26 2021-04-01 ヤマハ株式会社 情報処理方法、推定モデル構築方法、情報処理装置、および推定モデル構築装置
JP2021051251A (ja) * 2019-09-26 2021-04-01 ヤマハ株式会社 情報処理方法、推定モデル構築方法、情報処理装置、推定モデル構築装置およびプログラム
US20220208175A1 (en) * 2019-09-26 2022-06-30 Yamaha Corporation Information processing method, estimation model construction method, information processing device, and estimation model constructing device
JP7331588B2 (ja) 2019-09-26 2023-08-23 ヤマハ株式会社 情報処理方法、推定モデル構築方法、情報処理装置、推定モデル構築装置およびプログラム
US11875777B2 (en) 2019-09-26 2024-01-16 Yamaha Corporation Information processing method, estimation model construction method, information processing device, and estimation model constructing device

Also Published As

Publication number Publication date
US11495206B2 (en) 2022-11-08
JP6729539B2 (ja) 2020-07-22
CN116504218A (zh) 2023-07-28
US20200294484A1 (en) 2020-09-17
CN111418006B (zh) 2023-09-12
EP3719796A1 (en) 2020-10-07
CN111418006A (zh) 2020-07-14
JP2019101094A (ja) 2019-06-24
EP3719796A4 (en) 2021-08-25
US20230034572A1 (en) 2023-02-02

Similar Documents

Publication Publication Date Title
WO2019107378A1 (ja) 音声合成方法、音声合成装置およびプログラム
JP6724932B2 (ja) 音声合成方法、音声合成システムおよびプログラム
JP6733644B2 (ja) 音声合成方法、音声合成システムおよびプログラム
JP6784022B2 (ja) 音声合成方法、音声合成制御方法、音声合成装置、音声合成制御装置およびプログラム
WO2016152715A1 (ja) 音制御装置、音制御方法、および音制御プログラム
JP2018004870A (ja) 音声合成装置および音声合成方法
WO2019181767A1 (ja) 音処理方法、音処理装置およびプログラム
JP6737320B2 (ja) 音響処理方法、音響処理システムおよびプログラム
JP5176981B2 (ja) 音声合成装置、およびプログラム
JP7124870B2 (ja) 情報処理方法、情報処理装置およびプログラム
JP5157922B2 (ja) 音声合成装置、およびプログラム
JP6977818B2 (ja) 音声合成方法、音声合成システムおよびプログラム
JP5360489B2 (ja) 音素符号変換装置および音声合成装置
JP2009157220A (ja) 音声編集合成システム、音声編集合成プログラム及び音声編集合成方法
JP7180642B2 (ja) 音声合成方法、音声合成システムおよびプログラム
JP2022065554A (ja) 音声合成方法およびプログラム
JP7127682B2 (ja) 情報処理方法、情報処理装置およびプログラム
JP6372066B2 (ja) 合成情報管理装置および音声合成装置
JP2022065566A (ja) 音声合成方法およびプログラム
JP2013134476A (ja) 音声合成装置及びプログラム
JP2018077282A (ja) 音声合成方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18882396

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2018882396

Country of ref document: EP

Effective date: 20200629