WO2020171035A1 - 音信号合成方法、生成モデルの訓練方法、音信号合成システムおよびプログラム - Google Patents

音信号合成方法、生成モデルの訓練方法、音信号合成システムおよびプログラム Download PDF

Info

Publication number
WO2020171035A1
WO2020171035A1 PCT/JP2020/006161 JP2020006161W WO2020171035A1 WO 2020171035 A1 WO2020171035 A1 WO 2020171035A1 JP 2020006161 W JP2020006161 W JP 2020006161W WO 2020171035 A1 WO2020171035 A1 WO 2020171035A1
Authority
WO
WIPO (PCT)
Prior art keywords
pitch
sound signal
data
octave
data indicating
Prior art date
Application number
PCT/JP2020/006161
Other languages
English (en)
French (fr)
Inventor
方成 西村
Original Assignee
ヤマハ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤマハ株式会社 filed Critical ヤマハ株式会社
Priority to JP2021501996A priority Critical patent/JPWO2020171035A1/ja
Priority to EP20758584.5A priority patent/EP3929913A4/en
Priority to CN202080013714.XA priority patent/CN113412513A/zh
Publication of WO2020171035A1 publication Critical patent/WO2020171035A1/ja
Priority to US17/398,092 priority patent/US20210366455A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H7/00Instruments in which the tones are synthesised from a data store, e.g. computer organs
    • G10H7/08Instruments in which the tones are synthesised from a data store, e.g. computer organs by calculating functions or polynomial approximations to evaluate amplitudes at successive sample points of a tone waveform
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/02Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
    • G10H1/06Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour
    • G10H1/08Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour by combining tones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H7/00Instruments in which the tones are synthesised from a data store, e.g. computer organs
    • G10H7/002Instruments in which the tones are synthesised from a data store, e.g. computer organs using a common processing for different operations or calculations, and a set of microinstructions (programme) to control the sequence thereof
    • G10H7/004Instruments in which the tones are synthesised from a data store, e.g. computer organs using a common processing for different operations or calculations, and a set of microinstructions (programme) to control the sequence thereof with one or more auxiliary processor in addition to the main processing unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H7/00Instruments in which the tones are synthesised from a data store, e.g. computer organs
    • G10H7/08Instruments in which the tones are synthesised from a data store, e.g. computer organs by calculating functions or polynomial approximations to evaluate amplitudes at successive sample points of a tone waveform
    • G10H7/10Instruments in which the tones are synthesised from a data store, e.g. computer organs by calculating functions or polynomial approximations to evaluate amplitudes at successive sample points of a tone waveform using coefficients or parameters stored in a memory, e.g. Fourier coefficients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/215Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
    • G10H2250/235Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/471General musical sound synthesis principles, i.e. sound category-independent synthesis methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems

Definitions

  • the present invention relates to a sound source technology for synthesizing sound signals.
  • a sound source that generates a sound waveform according to a condition input using a neural network such as NSynth shown in Patent Document 1 or NPSS (Neural Parametric Singing Synthesizer) shown in Non-Patent Document 1 ( Hereinafter, a DNN (Deep Neural Network) sound source) has been proposed.
  • NSynth produces
  • the Timbre model of NPSS generates a spectrum of a sound signal for each frame according to pitch and timing information.
  • One-hot expression has been proposed as a pitch data format that represents pitch.
  • the one-hot expression is a method of expressing a pitch by n (n is a natural number of 2 or more) bits corresponding to different pitches. For example, in a one-hot expression vector representing one pitch, one bit corresponding to the pitch is set to “1” among the n bits constituting the pitch data, and the residual Each of the (N-1) bits of is set to "0".
  • N Synth of Patent Document 1 by inputting one-hot expression pitch data to the WaveNet model, a time series of samples according to the pitch data is generated. Further, in the NPSS of Non-Patent Document 1, a pitch F0 locus is generated by inputting pitch data of one-hot expression to an F0 model, and a time series of spectrum envelopes corresponding to the pitch F0 locus is generated. To generate.
  • the pitch data of these one-hot expressions has a large dimension number equivalent to the total number of scales existing in the musical range of the desired sound signal, which causes a problem that the scale of the DNN sound source increases.
  • the present disclosure aims to generate a high-quality sound signal having a wide pitch range on a relatively small scale by utilizing the commonality of sounds of different octaves.
  • a sound signal synthesizing method generates control data including pitch name data indicating a pitch name corresponding to a pitch of a sound signal to be synthesized and octave data indicating an octave of the pitch.
  • a control model including note name data indicating a pitch name corresponding to a pitch of a reference signal and octave data indicating an octave of the pitch, and a generation model in which a relation between output data indicating the reference signal is learned, By inputting the generated control data, the output data indicating the sound signal is estimated.
  • a method for training a generation model provides a reference signal of a pitch, pitch name data indicating a pitch name corresponding to the pitch, and octave data indicating an octave of the pitch. Then, the generation model is trained to generate the output data indicating the reference signal according to the control data including the note name data and the octave data.
  • a sound signal synthesis system is a sound signal synthesis system including one or more processors and one or more memories, and the one or more memories correspond to a pitch of a reference signal.
  • a generation model in which control data including pitch name data indicating a pitch name and octave data indicating the pitch of the pitch and output data indicating the reference signal are learned is stored, and the one or more processors synthesize Generating control data including pitch name data indicating a pitch name corresponding to a pitch of a sound signal to be played and octave data indicating an octave of the pitch, and inputting the generated control data to the generation model. Then, the output data indicating the sound signal is estimated.
  • a program is a generation control unit that generates control data including pitch name data indicating a pitch name corresponding to a pitch of a pitch signal to be synthesized and octave data indicating an octave of the pitch.
  • control data including pitch name data indicating a pitch name corresponding to the pitch of the reference signal and octave data indicating the octave of the pitch, and a generation model in which the relationship between the output data indicating the reference signal is learned.
  • FIG. 1 is a block diagram illustrating a configuration of a sound signal synthesis system 100 of the present disclosure.
  • the sound signal synthesis system 100 is realized by a computer system including a control device 11, a storage device 12, a display device 13, an input device 14, and a sound emitting device 15.
  • the sound signal synthesis system 100 is an information terminal such as a mobile phone, a smartphone, or a personal computer.
  • the sound signal synthesis system 100 is realized not only by a single device but also by a plurality of devices (for example, a server-client system) that are configured separately from each other.
  • the control device 11 is a single or a plurality of processors that control each element of the sound signal synthesis system 100. Specifically, for example, one or more types of processors such as CPU (Central Processing Unit), SPU (Sound Processing Unit), DSP (Digital Signal Processor), FPGA (Field Programmable Gate Array), or ASIC (Application Specific Integrated Circuit).
  • the control device 11 is configured by the above.
  • the control device 11 generates a time-domain sound signal V representing the waveform of the synthetic sound.
  • the storage device 12 is a single memory or a plurality of memories that store programs executed by the control device 11 and various data used by the control device 11.
  • the storage device 12 is composed of a known recording medium such as a magnetic recording medium or a semiconductor recording medium, or a combination of a plurality of types of recording media.
  • a storage device 12 (for example, cloud storage) separate from the sound signal synthesis system 100 is prepared, and the control device 11 performs writing and reading to and from the storage device 12 via a mobile communication network or a communication network such as the Internet. You may execute. That is, the storage device 12 may be omitted from the sound signal synthesis system 100.
  • the display device 13 displays the calculation result of the program executed by the control device 11.
  • the display device 13 is, for example, a display.
  • the display device 13 may be omitted from the sound signal synthesis system 100.
  • the input device 14 receives user input.
  • the input device 14 is, for example, a touch panel.
  • the input device 14 may be omitted from the sound signal synthesis system 100.
  • the sound emitting device 15 reproduces the sound represented by the sound signal V generated by the control device 11.
  • the sound emitting device 15 is, for example, a speaker or headphones.
  • the D/A converter for converting the sound signal V generated by the control device 11 from digital to analog and the amplifier for amplifying the sound signal V are omitted for convenience of illustration.
  • FIG. 1 the configuration in which the sound emitting device 15 is mounted on the sound signal synthesizing system 100 is illustrated, but the sound emitting device 15 that is separate from the sound signal synthesizing system 100 is wired or wireless to the sound signal synthesizing system 100. You may connect.
  • FIG. 2 is a block diagram showing a functional configuration of the sound signal synthesis system 100.
  • the control device 11 executes a program stored in the storage device 12 to generate a time domain sound signal V representing a sound waveform such as a singer's singing sound or a musical instrument playing sound, using the generation model. Functions (generation control unit 121, generation unit 122, and combining unit 123) are realized.
  • the control device 11 executes a program stored in the storage device 12 to prepare a generation model used for generation of the sound signal V (analysis unit 111, time adjustment unit 112, conditioning unit 113, And the training unit 114).
  • the functions of the control device 11 may be realized by a set of a plurality of devices (that is, a system), or a part or all of the functions of the control device 11 may be realized by a dedicated electronic circuit (for example, a signal processing circuit). Good.
  • the note name data and the octave data represent the pitch of the sound signal V with a pair of both data.
  • Pitch name data (hereinafter referred to as "PN data”)
  • PN data is the pitch name of the pitch of the pitch signal V (12) of 12 pitches corresponding to 12 octave scales, respectively ("C", “). C#", “D”, ... “A#”, “B”).
  • Octave data (hereinafter referred to as “Oct data”) X2 indicates, among a plurality of different octaves, the octave to which the pitch of the sound signal V belongs (which octave from the reference).
  • the PN data X1 and the Oct data X2 may each be one-hot expressions, as illustrated below.
  • PN data X1 consists of 12 bits corresponding to different note names. Of the 12 bits forming the PN data X1, 1 bit corresponding to the pitch name of the pitch signal V is set to "1", and the remaining 11 bits are set to "0".
  • Oct data X2 is composed of 5 bits corresponding to different octaves (O1 to O5). Of the 5 bits forming the Oct data X2, 1 bit corresponding to the octave containing the pitch of the sound signal V is set to "1", and the remaining 4 bits are set to "0".
  • the Oct data X2 of the first embodiment is 5-bit data corresponding to 5 octaves, but the number of octaves that can be represented by the Oct data X2 is arbitrary.
  • Oct data X2 representing any of n octaves (n is a natural number of 1 or more) is data composed of n bits.
  • the generation model is a statistical model for generating a time series of the waveform spectrum (for example, mel spectrogram) of the sound signal V according to the control data X including the PN data X1 and the Oct data X2.
  • the control data X is data that specifies the condition of the sound signal V to be synthesized.
  • the generation characteristics of the generation model are defined by a plurality of variables (coefficients, biases, etc.) stored in the storage device 12.
  • the statistical model is a neural network that estimates the waveform spectrum.
  • the neural network may be of a recursive type, such as WaveNet(TM), which estimates the probability density distribution of the current sample based on a plurality of past samples of the sound signal V.
  • the algorithm is also arbitrary, and may be, for example, a CNN (Convolutional Neural Network) type, an RNN (Recurrent Neural Network) type, or a combination thereof. Furthermore, it may be a type that has additional elements such as LSTM (Long Short-Term Memory) or ATTENTION.
  • a plurality of variables of the generative model are established by training using training data by the preparation function described later.
  • the generation model in which a plurality of variables are established is used to generate the sound signal V in the generation function described later.
  • the storage device 12 includes a plurality of sound signals (hereinafter, referred to as “reference signals”) R indicating waveforms in a time domain in which a player plays a certain musical score and musical score data representing the musical score, for training the generation model. It is recorded.
  • Each musical score data includes a time series of notes.
  • the reference signal R corresponding to each musical score data includes a time series of partial waveforms corresponding to the musical note series of the musical score represented by the musical score data.
  • Each reference signal R is a time-domain signal that is composed of a time series of samples for each sampling period (for example, 48 kHz) and represents a sound waveform.
  • the performance is not limited to the performance of a musical instrument by a human being, and may be a song by a singer or an automatic performance of a musical instrument.
  • a sufficient number of training data are generally required, so sound signals of many performances are recorded in advance for the target instrument or player, and the reference signal is used. It is stored in the storage device 12 as R.
  • the analysis unit 111 calculates a spectrum in the frequency domain (hereinafter, referred to as a waveform spectrum) for each frame on the time axis for each of the plurality of reference signals R corresponding to each of the plurality of musical scores.
  • a known frequency analysis such as discrete Fourier transform is used.
  • the time adjustment unit 112 determines, based on the information such as the waveform spectrum obtained by the analysis unit 111, the start time point and the end time point of a plurality of pronunciation units in the score data corresponding to each reference signal R, in the pronunciation of the reference signal R.
  • the start time and the end time of the partial waveform corresponding to the unit are aligned.
  • the pronunciation unit is, for example, one note in which a pitch and a pronunciation period are designated. It should be noted that one note may be divided into a plurality of pronunciation units by dividing it at points where the characteristics of the waveform such as the tone color change.
  • the conditioning unit 113 corresponds to the partial waveform of the reference signal R at the time t, for each time t in frame, based on the information of each pronunciation unit of the score data in which the time is aligned with each reference signal R.
  • the control data X is generated and output to the training unit 114. As described above, the control data X specifies the condition of the sound signal V to be synthesized. As illustrated in FIG. 4, the control data X includes PN data X1, Oct data X2, start/stop data X3, and context data X4.
  • the PN data X1 represents the pitch name of the pitch in the partial waveform of the reference signal R.
  • Oct data X2 represents the octave to which the pitch belongs.
  • the pitch of the partial waveform of the reference signal R is represented by a pair of PN data X1 and Oct data X2.
  • the start/stop data X3 represents the start period (attack) and end period (release) of each partial waveform.
  • the context data X4 of one frame in the partial waveform corresponding to one note is a plurality of pieces of data such as the pitch difference between the note and the preceding and following notes, or information indicating the relative position of the note in the score. Represents the relationship (ie context) with the pronunciation unit.
  • the control data X may further include other information such as a musical instrument, a singer, or a playing style.
  • Each pronunciation unit data is a set of the control data X generated by the conditioning unit 113 and the waveform spectrum generated by the analysis unit 111.
  • the plurality of pronunciation unit data Prior to the training by the training unit 114, the plurality of pronunciation unit data are divided into training data for training the generative model and test data for testing the generative model. Most of the plural pronunciation unit data are used as training data and some are used as test data.
  • the training using the training data is performed by dividing a plurality of pronunciation unit data into batches for each predetermined number of frames and sequentially performing all batches in batch units.
  • the training unit 114 receives the training data and trains the generation model by using the waveform spectra of the plural pronunciation units of each batch and the control data X in order.
  • the generation model estimates the output data representing the waveform spectrum for each frame (time t).
  • the output data may be data indicating a probability density distribution of each of a plurality of components forming the waveform spectrum, or may be a value of each component.
  • the training unit 114 inputs the control data X in each pronunciation unit data for one batch into the generation model to estimate the time series of the output data corresponding to the control data X.
  • the training unit 114 calculates the loss function L (accumulated value for one batch) based on the estimated output data and the corresponding waveform spectrum (that is, the correct value) of the training data. Then, the training unit 114 optimizes the plurality of variables of the generative model so that the loss function L is minimized. For example, as the loss function L, a cross entropy function or the like is used when the output data has a probability density distribution, and a square error function or the like is used when the output data has a waveform spectrum value. The training unit 114 repeats the above-mentioned training using the training data until the value of the loss function L calculated for the test data becomes sufficiently small, or the change in the loss function L before and after becomes sufficiently small. To do.
  • the generative model thus established learns a latent relationship between each control data X in a plurality of pronunciation unit data and the corresponding waveform spectrum.
  • the generation unit 122 can generate a high-quality waveform spectrum even for the control data X′ of the unknown sound signal V.
  • FIG. 5 is a flowchart of the preparation process.
  • the preparation process is triggered by, for example, an instruction from the user of the sound signal synthesis system 100.
  • the control device 11 When the preparation process is started, the control device 11 (analyzing unit 111) generates a waveform spectrum of each partial waveform from each of the plurality of reference signals R (Sa1). Next, the control device 11 (the time adjusting unit 112 and the conditioning unit 113) controls the control data X including the PN data X1 and the Oct data X2 of the pronunciation unit corresponding to the partial waveform from the score data corresponding to the partial waveform. Create (Sa2). The control device 11 (training unit 114) trains the generative model using the control data X of each pronunciation unit and the waveform spectrum corresponding to the pronunciation unit, and establishes a plurality of variables of the generative model (Sa3).
  • the configuration in which the pitch is represented by the set of the PN data X1 and the Oct data X2 has been illustrated, but one-representation of any one of a plurality of pitches (12 semitones ⁇ n octaves) over a plurality of octaves.
  • a configuration that uses pitch data of hot expression (hereinafter referred to as "comparative") is also assumed.
  • the generative model is trained with the control data X including the PN data X1 and the Oct data X2 as an input. Therefore, the established generative model is a model that takes advantage of the commonality of sounds with different octaves in nature.
  • This generative model has a smaller scale than that of the normal generative model trained with the proportional pitch data, and can acquire the ability to generate a sound signal V of equivalent quality.
  • the ability to generate a higher quality sound signal V can be acquired on the same scale as a normal generation model.
  • the pitch is specified by the PN data X1 and the Oct data X2 at the time of generation. This increases the possibility that the sound signal V of that pitch is generated.
  • the generation control unit 121 generates control data X′ based on the information of a series of pronunciation units represented by the score data to be reproduced, and outputs the control data X′ to the generation unit 122.
  • the control data X' represents the condition of the pronunciation unit at each time t of the musical score data.
  • the control data X′ includes PN data X1′, Oct data X2′, start/stop data X3′, and context data X4′.
  • the control data X′ may further include other information such as a musical instrument, a singer, or a playing style.
  • the generation unit 122 generates a time series of a waveform spectrum according to the control data X, using a generation model in which a plurality of variables are established.
  • the generation unit 122 estimates the output data indicating the waveform spectrum corresponding to the control data X′ for each frame (time t) using the generation model.
  • the generation unit 122 generates a random number according to the probability density distribution of the component, and uses the random number as a component of the waveform spectrum. Output as a value.
  • the component values are output.
  • the synthesizer 123 receives the time series of the waveform spectrum in the frequency domain and synthesizes the sound signal V in the time domain according to the time series of the waveform spectrum.
  • the synthesizer 123 is a so-called vocoder.
  • the synthesis unit 123 obtains the minimum phase spectrum from the waveform spectrum and performs an inverse Fourier transform on the waveform spectrum and the phase spectrum to synthesize the sound signal V.
  • the sound signal V is directly synthesized from the waveform spectrum using a neural vocoder that has learned the latent relationship between the waveform spectrum and the sound signal V.
  • FIG. 6 is a flowchart of the sound generation process for each pronunciation unit.
  • this sound generation process for example, each time the time t, which advances in response to an instruction from the user of the sound signal synthesis system 100, reaches the start time of each sounding unit (for example, a note) represented by the score data, that sounding unit is generated. Started for.
  • the control device 11 When the sound generation process for a certain pronunciation unit is started, the control device 11 (generation control unit 121) generates control data X′ for that pronunciation unit based on the score data (Sb1). Next, the control device 11 (generation unit 122) uses the generation model to generate the waveform spectrum of the sound signal V of the pronunciation unit according to the generated control data X′ (Sb2). Next, the control device 11 (synthesis unit 123) synthesizes the sound signal V of the sound generation unit according to the generated waveform spectrum (Sb3).
  • the sound signal V corresponding to the musical score data is generated by sequentially performing the above processing for a plurality of pronunciation units of the musical score data. In addition, when the sound signals V of the sound generation units that overlap with each other in time overlap, they are mixed to calculate the sound signal V.
  • the pitch of the sound signal V to be synthesized is specified by the PN data X1' and the Oct data X2' included in the control data X', making use of the commonality of sounds with different octaves in nature. It is possible to efficiently generate a high-quality sound signal V according to the control data X′ by using the well-trained and established generation model.
  • the generation unit 122 of the first embodiment generated the waveform spectrum
  • the generation unit 122 generates the sound signal V using the generation model.
  • the functional configuration of the second embodiment is basically the same as that of FIG. 2, but the combining unit 123 is unnecessary.
  • the training unit 114 trains the generation model using the reference signal R, and the generation unit 122 generates the sound signal V using the generation model.
  • the training pronunciation unit data in the first embodiment is a set of the control data X and the waveform spectrum
  • the training pronunciation unit data in the second embodiment is the control data X and the reference signal of each pronunciation unit.
  • a partial waveform of R that is, a sample of the reference signal R).
  • the training unit 114 of the second embodiment receives the training data, and trains the generation model by using the partial waveforms of a plurality of pronunciation units of each batch and the control data X in order.
  • the generation model estimates output data representing samples of the sound signal V at every sampling period (time t).
  • the training unit 114 calculates the loss function L (accumulated value for one batch) based on the time series of the output data estimated from the control data X and the corresponding partial waveform of the training data, and the loss function L Optimize multiple variables in the generated model so that is minimized.
  • the generative model established in this way learns a latent relationship between each control data X in a plurality of pronunciation unit data and the partial waveform of the reference signal R.
  • the generation unit 122 of the second embodiment generates a sound signal V according to the control data X′ using the established generation model.
  • the generation unit 122 estimates the output data indicating the sample of the sound signal V corresponding to the control data X′ at each sampling cycle (time t) using the generation model.
  • the generation unit 122 generates a random number according to the probability density distribution of that component and outputs the random number as a sample of the sound signal V. If the output data represents the value of a sample, that sample is output.
  • the sound generation function for generating the sound signal V based on the information of a series of sound generation units of the musical score data is illustrated, but it is supplied from a keyboard or the like.
  • the sound signal V may be generated in real time on the basis of the information of the pronunciation unit.
  • the generation control unit 121 generates the control data X at each time point t based on the information of the sounding unit supplied up to the time point t.
  • the context data X4 included in the control data X cannot include the information of the future pronunciation units, but the information of the future pronunciation units is predicted from the past information to determine the pronunciation of the future. Unit information may be included.
  • the PN data X1 and Oct data X2 in the above embodiment are one-hot expressions, but other expression formats may be used.
  • either one or both of the PN data X1 and the Oct data X2 may be expressed as a coarse expression.
  • the PN data X1 and the Oct data X2 in the above-described embodiment are described by fixing the number of dimensions, but any number of dimensions may be used.
  • the number of dimensions of the PN data X1 may be smaller than 12 and the PN data X1 representing any one of the plurality of numerical values assigned to different pitches may be used.
  • the PN data X1 may have a dimension greater than 12 to represent an intermediate pitch of each note name.
  • the number of dimensions of Oct data X2 may be additionally added.
  • the number of dimensions of Oct data X2 may be changed according to the octave width of the musical instrument whose sound signal V represents the playing sound.
  • the number of dimensions required to represent the height may be fixed.
  • the sound signal V synthesized by the sound signal synthesizing system 100 is not limited to a musical instrument sound or a voice, but may be a bark of an animal or a natural sound such as a wind sound and a wave sound. If control is desired, the present disclosure can be applied.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

コンピュータにより実現される音信号合成方法は、合成すべき音信号の音高に対応する音名を示す音名データと当該音高のオクターブを示すオクターブデータとを含む制御データを生成し、参照信号の音高に対応する音名を示す音名データおよび前記音高のオクターブを示すオクターブデータを含む制御データと、前記参照信号を示す出力データとの関係を学習した生成モデルに、前記生成された制御データを入力することで、前記音信号を示す出力データを推定する。

Description

音信号合成方法、生成モデルの訓練方法、音信号合成システムおよびプログラム
 本発明は、音信号を合成する音源技術に関する。
 特許文献1に示すNSynth、または非特許文献1に示すNPSS(Neural Parametric Singing Synthesizer)など、ニューラルネットワーク(以下、「NN」と呼ぶ)を用いて、条件入力に応じた音波形を生成する音源(以下、DNN(Deep Neural Network)音源と呼ぶ)が提案されている。NSynthは、エンベディング(embedding/埋込ベクトル)に応じて、サンプリング周期ごとに、音信号のサンプルを生成する。NPSSのTimbreモデルは、ピッチおよびタイミング情報に応じて、フレームごとに、音信号のスペクトルを生成する。
米国特許第10068557号明細書
Merlijn Blaauw, Jordi Bonada, 「A Neural Parametric Singing Synthesizer Modeling Timbre and Expression from Natural Songs」, Appl. Sci. 2017, 7, 1313
 音高を表す音高データの形式としてone-hot表現が従来から提案されている。one-hot表現は、相異なる音高に対応するn個(nは2以上の自然数)のビットにより音高を表現する方法である。例えば、1個の音高を表現するone-hot表現のベクトルにおいては、音高データを構成するn個のビットのうち当該音高に対応する1個のビットが「1」に設定され、残余の(N-1)個のビットの各々が「0」に設定される。
 特許文献1のNSynthでは、one-hot表現の音高データをWaveNetモデルに入力することで、音高データに応じたサンプルの時系列を生成する。また、非特許文献1のNPSSでは、one-hot表現の音高データをF0モデルに入力することで音高F0の軌跡を生成し、その音高F0の軌跡に応じたスペクトル包絡の時系列を生成する。これらのone-hot表現の音高データは、生成したい音信号の音域内に存在する音階の総数と同等の大きな次元数であり、これにより、DNN音源の規模が大きくなるという問題がある。
 自然界の音の生成メカニズムでは、人間の発声器官または管楽器の発音機構など、オクターブ違いの音をほぼ同じ物理構造で生成しているケースが多々見うけられる。そもそも、従来のDNN音源は、そういうオクターブ違いの音の間に共通する特徴を活用できていない。
 本開示は、オクターブ違いの音の共通性を活用して、比較的小さな規模で、広い音域の音高の音信号を高品質に生成することを目的とする。
 本開示のひとつの態様に係る音信号合成方法は、合成すべき音信号の音高に対応する音名を示す音名データと当該音高のオクターブを示すオクターブデータとを含む制御データを生成し、参照信号の音高に対応する音名を示す音名データおよび前記音高のオクターブを示すオクターブデータを含む制御データと、前記参照信号を示す出力データとの関係を学習した生成モデルに、前記生成された制御データを入力することで、前記音信号を示す出力データを推定する。
 本開示のひとつの態様に係る生成モデルの訓練方法は、ある音高の参照信号と、当該音高に対応する音名を示す音名データと、当該音高のオクターブを示すオクターブデータとを用意し、前記音名データと前記オクターブデータとを含む制御データに応じて前記参照信号を示す出力データを生成するように、生成モデルを訓練する。
 本開示のひとつの態様に係る音信号合成システムは、1以上のプロセッサと1以上のメモリとを具備する音信号合成システムであって、前記1以上のメモリは、参照信号の音高に対応する音名を示す音名データおよび当該音高のオクターブを示すオクターブデータを含む制御データと、前記参照信号を示す出力データとの関係を学習した生成モデルを記憶し、前記1以上のプロセッサは、合成すべき音信号の音高に対応する音名を示す音名データと当該音高のオクターブを示すオクターブデータとを含む制御データを生成し、前記生成された制御データを前記生成モデルに入力することで、前記音信号を示す出力データを推定する。
 本開示のひとつの態様に係るプログラムは、合成すべき音信号の音高に対応する音名を示す音名データと当該音高のオクターブを示すオクターブデータとを含む制御データを生成する生成制御部、および、参照信号の音高に対応する音名を示す音名データおよび前記音高のオクターブを示すオクターブデータを含む制御データと、前記参照信号を示す出力データとの関係を学習した生成モデルに、前記生成された制御データを入力することで、前記音信号を示す出力データを推定する生成部としてコンピュータを機能させる。
音信号合成システムのハードウェア構成を示すブロック図である。 音信号合成システムの機能構成を示すブロック図である。 音名データとオクターブデータの説明図である。 訓練部と生成部の処理の説明図である。 準備処理のフローチャートである。 発音単位の音生成処理のフローチャートである。
A:第1実施形態
 図1は、本開示の音信号合成システム100の構成を例示するブロック図である。音信号合成システム100は、制御装置11と記憶装置12と表示装置13と入力装置14と放音装置15とを具備するコンピュータシステムで実現される。音信号合成システム100は、例えば携帯電話機、スマートフォンまたはパーソナルコンピュータ等の情報端末である。なお、音信号合成システム100は、単体の装置で実現されるほか、相互に別体で構成された複数の装置(例えばサーバ-クライアントシステム)でも実現される。
 制御装置11は、音信号合成システム100を構成する各要素を制御する単数または複数のプロセッサである。具体的には、例えばCPU(Central Processing Unit)、SPU(Sound Processing Unit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)、またはASIC(Application Specific Integrated Circuit)等の1種類以上のプロセッサにより、制御装置11が構成される。制御装置11は、合成音の波形を表す時間領域の音信号Vを生成する。
 記憶装置12は、制御装置11が実行するプログラムと制御装置11が使用する各種のデータとを記憶する単数または複数のメモリである。記憶装置12は、例えば磁気記録媒体もしくは半導体記録媒体等の公知の記録媒体、または、複数種の記録媒体の組合せで構成される。なお、音信号合成システム100とは別体の記憶装置12(例えばクラウドストレージ)を用意し、移動体通信網またはインターネット等の通信網を介して制御装置11が記憶装置12に対する書込および読出を実行してもよい。すなわち、記憶装置12は音信号合成システム100から省略されてもよい。
 表示装置13は、制御装置11が実行したプログラムの演算結果を表示する。表示装置13は、例えばディスプレイである。表示装置13は音信号合成システム100から省略されてもよい。
 入力装置14は、ユーザの入力を受け付ける。入力装置14は、例えばタッチパネルである。入力装置14は音信号合成システム100から省略されてもよい。
 放音装置15は、制御装置11が生成した音信号Vが表す音声を再生する。放音装置15は、例えばスピーカまたはヘッドホンである。なお、制御装置11が生成した音信号Vをデジタルからアナログに変換するD/A変換器と音信号Vを増幅する増幅器とについては図示を便宜的に省略した。また、図1では、放音装置15を音信号合成システム100に搭載した構成を例示したが、音信号合成システム100とは別体の放音装置15を音信号合成システム100に有線または無線で接続してもよい。
 図2は、音信号合成システム100の機能構成を示すブロック図である。制御装置11は、記憶装置12に記憶されたプログラムを実行することで、生成モデルを用いて、歌手の歌唱音または楽器の演奏音などの音波形を表す時間領域の音信号Vを生成する生成機能(生成制御部121、生成部122,および合成部123)を実現する。また、制御装置11は、記憶装置12に記憶されたプログラムを実行することで、音信号Vの生成に用いる生成モデルの準備を行う準備機能(解析部111、時間合せ部112、条件付け部113、および訓練部114)を実現する。なお、複数の装置の集合(すなわちシステム)で制御装置11の機能を実現してもよいし、制御装置11の機能の一部または全部を専用の電子回路(例えば信号処理回路)で実現してもよい。
 まず、音名データ及びオクターブデータと、音名データおよびオクターブデータに応じて出力データを生成する生成モデルと、生成モデルの訓練に用いる参照信号Rとについて説明する。
 音名データとオクターブデータは、両データのペアで音信号Vの音高を表す。音名データ(Pitch Notation Data 以下、「PNデータ」と呼ぶ)X1は、1オクターブの12音階にそれぞれ対応する12個の音高音うち、音信号Vの音高の音名("C", "C#", "D", … "A#", "B")を示す。オクターブデータ(Octave Data 以下、「Octデータ」と呼ぶ)X2は、相異なる複数のオクターブのうち、音信号Vの音高が属するオクターブ(基準から何番目のオクターブか)を示す。図3に例示するように、PNデータX1とOctデータX2とは、以下に例示される通り、それぞれone-hot表現であってもよい。
 PNデータX1は、相異なる音名に対応する12個のビットで構成される。PNデータX1を構成する12ビットのうち、音信号Vの音高の音名に対応する1ビットが「1」にセットされ、残りの11ビットが「0」にセットされる。OctデータX2は、相異なるオクターブ(O1~O5)に対応する5個のビットで構成される。OctデータX2を構成する5ビットのうち、音信号Vの音高が含まれるオクターブに対応する1ビットが「1」にセットされ、残りの4ビットが「0」にセットされる。なお、第1実施形態のOctデータX2は、5オクターブ分に対応する5ビットのデータであるが、OctデータX2により表現可能なオクターブ数は任意である。nオクターブ(nは1以上の自然数)の何れかを表すOctデータX2は、nビットで構成されるデータである。
 生成モデルは、PNデータX1とOctデータX2を含む制御データXに応じて、音信号Vの波形スペクトル(例えば、メルスペクトログラム)の時系列を生成するための統計的モデルである。制御データXは、合成されるべき音信号Vの条件を指定するデータである。生成モデルの生成特性は、記憶装置12に記憶された複数の変数(係数およびバイアスなど)により規定される。統計的モデルは、波形スペクトルを推定するニューラルネットワークである。そのニューラルネットワークは、例えば、WaveNet(TM)のような、音信号Vの過去の複数のサンプルに基づいて、現在のサンプルの確率密度分布を推定する回帰的なタイプでもよい。また、そのアルゴリズムも任意であり、例えば、CNN(Convolutional Neural Network)タイプでもRNN(Recurrent Neural Network)タイプでよいし、その組み合わせでもよい。さらに、LSTM(Long Short-Term Memory)またはATTENTIONなどの付加的要素を備えるタイプでもよい。生成モデルの複数の変数は、後述する準備機能による訓練データを用いた訓練により確立される。複数の変数が確立された生成モデルは、後述する生成機能において音信号Vの生成に使用される。
 記憶装置12は、生成モデルの訓練のために、ある楽譜をプレイヤーが演奏した時間領域の波形を示す音信号(以下、「参照信号」と呼ぶ)Rと、当該楽譜を表す楽譜データとが複数記録されている。各楽譜データは音符の時系列を含む。各楽譜データに対応する参照信号Rは、当該楽譜データが表す楽譜の音符の系列に対応する部分波形の時系列を含む。各参照信号Rは、サンプリング周期(例えば、48kHz)ごとのサンプルの時系列で構成され、音の波形を表す時間領域の信号である。演奏は、人間による楽器の演奏に限らず、歌手による歌唱、または楽器の自動演奏であってもよい。機械学習で良い音を生成するためには、一般的に十分な個数の訓練データが要求されるので、ターゲットとする楽器またはプレイヤーなどについて、多数の演奏の音信号を事前に収録し、参照信号Rとして記憶装置12に記憶しておく。
 図2の上段に図示される準備機能について説明する。解析部111は、複数の楽譜にそれぞれ対応する複数の参照信号Rの各々について、時間軸上のフレームごとに周波数領域のスペクトル(以下、波形スペクトルと呼ぶ)を算定する。参照信号Rの波形スペクトルの算定には、例えば離散フーリエ変換等の公知の周波数解析が用いられる。
 時間合せ部112は、解析部111で得られた波形スペクトル等の情報に基づき、各参照信号Rに対応する楽譜データにおける複数の発音単位の開始時点と終了時点とを、参照信号Rにおけるその発音単位に対応する部分波形の開始時点と終了時点とに揃える。ここで、発音単位は、例えば、音高と発音期間とが指定された1つの音符である。なお、1つの音符を、音色等の波形の特徴が変化するポイントで分割して、複数の発音単位に分けてもよい。
 条件付け部113は、各参照信号Rに時間が揃えられた楽譜データの各発音単位の情報に基づき、フレームを単位とする時刻tごとに、参照信号Rのうち当該時刻tの部分波形に対応する制御データXを生成して訓練部114に出力する。制御データXは、前述の通り、合成されるべき音信号Vの条件を指定する。制御データXは、図4に例示される通り、PNデータX1とOctデータX2と開始停止データX3とコンテキストデータX4とを含む。PNデータX1は参照信号Rの部分波形における音高の音名を表す。OctデータX2は当該音高が属するオクターブを表す。つまり、参照信号Rの部分波形の音高は、PNデータX1とOctデータX2のペアで表現される。開始停止データX3は、各部分波形の開始期間(アタック)と終了期間(リリース)とを表す。1個の音符に相当する部分波形内の1個のフレームのコンテキストデータX4は、当該音符と前後の音符との音高差、または楽譜内における当該音符の相対な位置を表す情報など、複数の発音単位との関係(すなわちコンテキスト)を表す。制御データXには、さらに、楽器、歌手または奏法など、その他の情報を含んでいてもよい。
 解析部111および条件付け部113による処理の結果、複数の参照信号Rと複数の楽譜データとから、所定の音高範囲内の音信号Vを生成する生成モデルを訓練するための複数の発音単位データが準備される。各発音単位データは、条件付け部113が生成する制御データXと解析部111が生成する波形スペクトルとのセットである。複数の発音単位データは、訓練部114による訓練に先立ち、生成モデルの訓練のための訓練データと、生成モデルのテストのためのテストデータとに分けられる。複数の発音単位データの大部分を訓練データとし、一部をテストデータにする。訓練データによる訓練は、複数の発音単位データをフレームの所定個ごとにバッチとして分割し、バッチ単位で全バッチにわたり順番に行われる。
 訓練部114は、図4の上段に例示するように、訓練データを受け取り、その各バッチの複数の発音単位の波形スペクトルと制御データXとを順番に用いて生成モデルを訓練する。生成モデルは、フレーム(時刻t)ごとに、波形スペクトルを表す出力データを推定する。出力データは、波形スペクトルを構成する複数の成分の各々の確率密度分布を示すデータであっても良いし、各成分の値であってもよい。訓練部114は、1バッチ分の各発音単位データにおける制御データXを生成モデルに入力することで、その制御データXに対応する出力データの時系列を推定する。訓練部114は、推定された出力データと訓練データのうち対応する波形スペクトル(すなわち正解値)とに基づいて損失関数L(1バッチ分の累算値)を計算する。そして、訓練部114は、その損失関数Lが最小化されるように生成モデルの複数の変数を最適化する。例えば、損失関数Lとしては、出力データが確率密度分布である場合にはクロスエントロピー関数などが使用され、出力データが波形スペクトルの値である場合には二乗誤差関数などが使用される。訓練部114は、訓練データを使用した以上の訓練を、テストデータについて算出される損失関数Lの値が十分に小さくなるか、或いは、相前後する損失関数Lの変化が十分に小さくなるまで繰り返し行う。こうして確立された生成モデルは、複数の発音単位データにおける各制御データXと、対応する波形スペクトルとの間に潜在する関係を学習している。この生成モデルを用いることで、生成部122は、未知の音信号Vの制御データX'についても、品質の良い波形スペクトルを生成できる。
 図5は、準備処理のフローチャートである。準備処理は、例えば音信号合成システム100の利用者からの指示を契機として開始される。
 準備処理が開始されると、制御装置11(解析部111)は、複数の参照信号Rの各々から各部分波形の波形スペクトルを生成する(Sa1)。次に、制御装置11(時間合せ部112および条件付け部113)は、その部分波形に対応する楽譜データから、その部分波形に対応する発音単位のPNデータX1とOctデータX2とを含む制御データXを作成する(Sa2)。制御装置11(訓練部114)は、各発音単位の制御データXと当該発音単位に対応する波形スペクトルとを用いて生成モデルを訓練し、生成モデルの複数の変数を確立する(Sa3)。
 以上に説明した形態では、PNデータX1とOctデータX2とのセットで音高を表す構成を例示したが、複数のオクターブにわたる複数の音高(12半音×nオクターブ)の何れかを表すone-hot表現の音高データを利用する構成(以下「対比例」という)も想定される。対比例とは対照的に、第1実施形態においては、PNデータX1とOctデータX2とを含む制御データXを入力として生成モデルが訓練される。したがって、確立された生成モデルは、自然界におけるオクターブ違いの音の共通性を活かしたモデルとなる。この生成モデルは、対比例の音高データで訓練された通常の生成モデルより小さい規模で、同等の品質の音信号Vの生成能力を習得できる。或いは、通常の生成モデルと同じ規模で、より高い品質の音信号Vの生成能力を習得できる。さらに、第1実施形態の生成モデルでは、訓練時に、あるオクターブの音高について参照信号Rを用いた訓練が実行されない場合でも、生成時にPNデータX1とOctデータX2によりその音高を指定することにより、その音高の音信号Vが生成される可能性が高くなる。
 続いて、図2の下段に図示される、生成モデルを用いて音信号Vを生成する音生成機能について説明する。生成制御部121は、再生すべき楽譜データが表す一連の発音単位の情報に基づき、制御データX'を生成して生成部122に出力する。制御データX'は、楽譜データの各時刻tにおける発音単位の条件を表す。具体的には、制御データX'は、PNデータX1'とOctデータX2'と開始停止データX3'とコンテキストデータX4'とを含む。なお、制御データX'は、さらに、楽器、歌手または奏法など、その他の情報を含んでもよい。
 生成部122は、図4の下段に例示するように、複数の変数が確立された生成モデルを用いて、制御データXに応じた波形スペクトルの時系列を生成する。生成部122は、生成モデルを用いて、フレームごと(時刻t)に、制御データX'に応じた波形スペクトルを示す出力データを推定する。推定される出力データが、波形スペクトルを構成する複数の成分の各々の確率密度分布を表す場合、生成部122は、その成分の確率密度分布に従う乱数を生成して、当該乱数を波形スペクトルの成分値として出力する。推定される出力データが複数の成分の値を表す場合は、その成分値を出力する。
 合成部123は、周波数領域の波形スペクトルの時系列を受け取り、その波形スペクトルの時系列に応じた時間領域の音信号Vを合成する。合成部123は、いわゆるボコーダである。例えば、合成部123は、波形スペクトルから最小位相スペクトルを求めて、それら波形スペクトルと位相スペクトルとに対して逆フーリエ変換を実行することで音信号Vを合成する。或いは、波形スペクトルと音信号Vの間に潜在する関係を学習したニューラルボコーダを用いて、波形スペクトルから音信号Vを直接的に合成する。
 図6は、各発音単位の音生成処理のフローチャートである。この音生成処理は、例えば音信号合成システム100の利用者からの指示を契機として進行する時刻tが、楽譜データが表す各発音単位(例えば音符)の開始時刻に到達するたびに、その発音単位のために開始される。
 ある発音単位に関する音生成処理が開始されると、制御装置11(生成制御部121)は、楽譜データに基づいて、その発音単位の制御データX'を生成する(Sb1)。次に、制御装置11(生成部122)は、生成モデルを用いて、生成された制御データX'に応じたその発音単位の音信号Vの波形スペクトルを生成する(Sb2)。次に、制御装置11(合成部123)は、生成された波形スペクトルに応じて、その発音単位の音信号Vを合成する(Sb3)。以上の処理が楽譜データの複数の発音単位について順次行われることで、楽譜データに対応する音信号Vが生成される。なお、時間が前後する発音単位の音信号Vが重なる場合、それらを混合して音信号Vを算出する。
 ここでは、合成されるべき音信号Vの音高を、制御データX'に含まれるPNデータX1'とOctデータX2'とで指定しており、自然界におけるオクターブ違いの音の共通性を活かして効率よく訓練され、確立された生成モデルを用いて、制御データX'に応じた高品質な音信号Vを生成できる。
B:第2実施形態
 第1実施形態の生成部122は波形スペクトルを生成したが、第2実施形態では、生成部122が、生成モデルを用いて音信号Vを生成する。第2実施形態の機能構成は、図2と基本的に同じだが、合成部123は不要である。訓練部114は、参照信号Rを用いて生成モデルを訓練し、生成部122はその生成モデルを用いて音信号Vを生成する。第1実施形態における訓練用の発音単位データが制御データXと波形スペクトルとのセットであるのに対し、第2実施形態における訓練用の発音単位データは、各発音単位の制御データXと参照信号Rの部分波形(すなわち参照信号Rのサンプル)とのセットである。
 第2実施形態の訓練部114は、訓練データを受け取り、その各バッチの複数の発音単位の部分波形と制御データXとを順番に用いて生成モデルを訓練する。生成モデルは、サンプリング周期(時刻t)毎に、音信号Vのサンプルを表す出力データを推定する。訓練部114は、制御データXから推定された出力データの時系列と訓練データのうち対応する部分波形とに基づいて損失関数L(1バッチ分の累算値)を計算し、その損失関数Lが最小化されるように生成モデルの複数の変数を最適化する。こうして確立された生成モデルは、複数の発音単位データにおける各制御データXと、参照信号Rの部分波形との間に潜在する関係を学習している。
 第2実施形態の生成部122は、確立された生成モデルを用いて、制御データX'に応じた音信号Vを生成する。生成部122は、生成モデルを用いて、サンプリング周期ごと(時刻t)に、制御データX'に応じた音信号Vのサンプルを示す出力データを推定する。出力データが複数のサンプルの各々の確率密度分布を表す場合は、生成部122は、その成分の確率密度分布に従う乱数を生成して、当該乱数を音信号Vのサンプルとして出力する。出力データがサンプルの値を表す場合は、そのサンプルを出力する。
C:第3実施形態
 図2に図示される第1実施形態においては、楽譜データの一連の発音単位の情報に基づいて音信号Vを生成する音生成機能を例示したが、鍵盤等から供給される発音単位の情報に基づいて、リアルタイムに音信号Vを生成するようにしてもよい。その場合、生成制御部121は、各時点tの制御データXを、その時点tまでに供給された発音単位の情報に基づいて生成する。ここでは、制御データXに含まれるコンテキストデータX4には、基本的に、未来の発音単位の情報を含むことができないが、過去の情報から未来の発音単位の情報を予測して、未来の発音単位の情報を含めるようにしてもよい。
 上記実施形態のPNデータX1とOctデータX2は、それぞれone-hot表現であるが、他の表現形式でもよい。例えば、PNデータX1およびOctデータX2の何れか一方、或いは、両方のデータを、coarse表現としてもよい。
 上記実施形態のPNデータX1とOctデータX2は、それぞれ次元数を固定して説明したが、どのような次元数であってもよい。例えば、PNデータX1の次元数を12次元より小さい次元数として、相異なる音高に割当られた複数の数値のうちの何れかを表すPNデータX1を利用してもよい。PNデータX1の次元数を12次元よりも大きい次元数として、各音名の中間的な音高を表現しても良い。また、OctデータX2の次元数を余分に追加しても良い。音信号Vが演奏音を表す楽器のオクターブ幅に応じてOctデータX2の次元数を変えても良いし、OctデータX2の次元数を、複数種の楽器のうち音域幅が最大の楽器の音高を表すのに必要な次元数で固定しても良い。
 なお、音信号合成システム100が合成する音信号Vは、楽器音または音声に限らず、動物の鳴き声、または風音および波音のような自然界の音であっても、その音高の動的な制御を行いたい場合は、本開示を適用できる。
100…音信号合成システム、11…制御装置、12…記憶装置、13…表示装置、14…入力装置、15…放音装置、111…解析部、112…時間合わせ部、113…条件付け部、114…訓練部、121…生成制御部、122…生成部、123…合成部。

Claims (12)

  1.  合成すべき音信号の音高に対応する音名を示す音名データと当該音高のオクターブを示すオクターブデータとを含む制御データを生成し、
     参照信号の音高に対応する音名を示す音名データおよび当該音高のオクターブを示すオクターブデータを含む制御データと、前記参照信号を示す出力データとの関係を学習した生成モデルに、前記生成された制御データを入力することで、前記音信号を示す出力データを推定する
     コンピュータにより実現される音信号合成方法。
  2.  前記生成された制御データに含まれるオクターブデータは、前記音信号の音高のオクターブをone-hotにより示す
     請求項1の音信号合成方法。
  3.  前記生成された制御データに含まれる音名データは、前記音信号の音高に対応する音名をone-hotにより示す
     請求項1または2の音信号合成方法。
  4.  前記出力データは、合成すべき音信号の波形スペクトルを示す
     請求項1から3の何れかの音信号合成方法。
  5.  前記出力データは、合成すべき音信号のサンプルを示す
     請求項1から3の何れかの音信号合成方法。
  6.  ある音高の参照信号と、当該音高に対応する音名を示す音名データと、当該音高のオクターブを示すオクターブデータとを用意し、
     前記音名データと前記オクターブデータとを含む制御データに応じて前記参照信号を示す出力データを生成するように、生成モデルを訓練する
     コンピュータにより実現される生成モデルの訓練方法。
  7.  1以上のプロセッサと1以上のメモリとを具備する音信号合成システムであって、
     前記1以上のメモリは、参照信号の音高に対応する音名を示す音名データおよび当該音高のオクターブを示すオクターブデータを含む制御データと、前記参照信号を示す出力データとの関係を学習した生成モデルを記憶し、
     前記1以上のプロセッサは、
     合成すべき音信号の音高に対応する音名を示す音名データと当該音高のオクターブを示すオクターブデータとを含む制御データを生成し、
     前記生成された制御データを前記生成モデルに入力することで、前記音信号を示す出力データを推定する
     音信号合成システム。
  8.  前記生成された制御データに含まれるオクターブデータは、前記音信号の音高のオクターブをone-hotにより示す
     請求項7の音信号合成システム。
  9.  前記生成された制御データに含まれる音名データは、前記音信号の音高に対応する音名をone-hotにより示す
     請求項7または8の音信号合成システム。
  10.  前記出力データは、合成すべき音信号の波形スペクトルを示す
     請求項7から9の何れかの音信号合成システム。
  11.  前記出力データは、合成すべき音信号のサンプルを示す
     請求項7から9の何れかの音信号合成システム。
  12.  合成すべき音信号の音高に対応する音名を示す音名データと当該音高のオクターブを示すオクターブデータとを含む制御データを生成する生成制御部、および、
     参照信号の音高に対応する音名を示す音名データおよび当該音高のオクターブを示すオクターブデータを含む制御データと、前記参照信号を示す出力データとの関係を学習した生成モデルに、前記生成された制御データを入力することで、前記音信号を示す出力データを推定する生成部
     としてコンピュータを機能させるプログラム。
PCT/JP2020/006161 2019-02-20 2020-02-18 音信号合成方法、生成モデルの訓練方法、音信号合成システムおよびプログラム WO2020171035A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2021501996A JPWO2020171035A1 (ja) 2019-02-20 2020-02-18 音信号合成方法、生成モデルの訓練方法、音信号合成システムおよびプログラム
EP20758584.5A EP3929913A4 (en) 2019-02-20 2020-02-18 SOUND SIGNAL SYNTHESIS METHOD, GENERATIVE MODEL LEARNING METHOD, SOUND SIGNAL SYNTHESIS SYSTEM AND PROGRAM
CN202080013714.XA CN113412513A (zh) 2019-02-20 2020-02-18 音信号合成方法、生成模型的训练方法、音信号合成系统及程序
US17/398,092 US20210366455A1 (en) 2019-02-20 2021-08-10 Sound signal synthesis method, generative model training method, sound signal synthesis system, and recording medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-028683 2019-02-20
JP2019028683 2019-02-20

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/398,092 Continuation US20210366455A1 (en) 2019-02-20 2021-08-10 Sound signal synthesis method, generative model training method, sound signal synthesis system, and recording medium

Publications (1)

Publication Number Publication Date
WO2020171035A1 true WO2020171035A1 (ja) 2020-08-27

Family

ID=72144574

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/006161 WO2020171035A1 (ja) 2019-02-20 2020-02-18 音信号合成方法、生成モデルの訓練方法、音信号合成システムおよびプログラム

Country Status (5)

Country Link
US (1) US20210366455A1 (ja)
EP (1) EP3929913A4 (ja)
JP (1) JPWO2020171035A1 (ja)
CN (1) CN113412513A (ja)
WO (1) WO2020171035A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10068557B1 (en) 2017-08-23 2018-09-04 Google Llc Generating music with deep neural networks

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008030197A1 (en) * 2006-09-07 2008-03-13 Agency For Science, Technology And Research Apparatus and methods for music signal analysis
GB201109731D0 (en) * 2011-06-10 2011-07-27 System Ltd X Method and system for analysing audio tracks
KR101754983B1 (ko) * 2015-11-24 2017-07-06 코스모지놈 주식회사 디지털 다기능 악기
EP3928304A4 (en) * 2019-02-19 2022-10-19 Nutune Music, Inc. PLAYBACK, RECORDING AND ANALYSIS OF MUSIC SCALES VIA SOFTWARE CONFIGURATION

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10068557B1 (en) 2017-08-23 2018-09-04 Google Llc Generating music with deep neural networks

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
"How to use LSTM neural network with 3D categorical input and output?", STACK OVERFLOW, 22 May 2018 (2018-05-22), XP055733201, Retrieved from the Internet <URL:https://stackoverflow.com/questions/50474524/how-to-use-lstm-neural-network-with-3d-categorical-input-and-output?rq=l> [retrieved on 20200512] *
MERLIJN BLAAUW, BONADA JORDI: "A Neural Parametric Singing Synthesizer Modeling Timbre and Expression from Natural Songs", APPLIED SCIENCES, vol. 7, no. 12, 1313, 18 December 2017 (2017-12-18), pages 1 - 23, XP055627719, DOI: 10.3390/app7121313 *
MERLIJN BLAAUWJORDI BONADA: "A Neural Parametric Singing Synthesizer Modeling Timbre and Expression from Natural Songs", APPL. SCI., vol. 7, 2017, pages 1313, XP055627719, DOI: 10.3390/app7121313
NISHIMURA, HASHIMOTO, YO OURA, YOSHIRO OURA, YOSHIHIKO MINAMI, HIE TOKUDA: "Investigation of singing voice synthesis based on deep neural networks", LECTURE PROCEEDINGS OF 2016 SPRING RESEARCH CONFERENCE OF THE ACOUSTICAL SOCIETY OF JAPAN, 24 February 2016 (2016-02-24), JP, pages 213 - 214, XP009529813 *
See also references of EP3929913A4

Also Published As

Publication number Publication date
EP3929913A4 (en) 2022-11-16
JPWO2020171035A1 (ja) 2021-12-02
US20210366455A1 (en) 2021-11-25
EP3929913A1 (en) 2021-12-29
CN113412513A (zh) 2021-09-17

Similar Documents

Publication Publication Date Title
JP6733644B2 (ja) 音声合成方法、音声合成システムおよびプログラム
WO2020171033A1 (ja) 音信号合成方法、生成モデルの訓練方法、音信号合成システムおよびプログラム
CN112382257B (zh) 一种音频处理方法、装置、设备及介质
JP2003241757A (ja) 波形生成装置及び方法
US11875777B2 (en) Information processing method, estimation model construction method, information processing device, and estimation model constructing device
US20210366454A1 (en) Sound signal synthesis method, neural network training method, and sound synthesizer
EP3879521A1 (en) Acoustic processing method and acoustic processing system
US20230016425A1 (en) Sound Signal Generation Method, Estimation Model Training Method, and Sound Signal Generation System
US20210350783A1 (en) Sound signal synthesis method, neural network training method, and sound synthesizer
WO2020171035A1 (ja) 音信号合成方法、生成モデルの訓練方法、音信号合成システムおよびプログラム
JP7251684B2 (ja) アレンジ生成方法、アレンジ生成装置、及び生成プログラム
JP7107427B2 (ja) 音信号合成方法、生成モデルの訓練方法、音信号合成システムおよびプログラム
JP2022065554A (ja) 音声合成方法およびプログラム
JP2022065566A (ja) 音声合成方法およびプログラム
WO2023171522A1 (ja) 音響生成方法、音響生成システムおよびプログラム
US11756558B2 (en) Sound signal generation method, generative model training method, sound signal generation system, and recording medium
WO2023171497A1 (ja) 音響生成方法、音響生成システムおよびプログラム
US20230260493A1 (en) Sound synthesizing method and program

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20758584

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021501996

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2020758584

Country of ref document: EP

Effective date: 20210920