WO2022172577A1 - 機械学習モデルを用いた音生成方法、機械学習モデルの訓練方法、音生成装置、訓練装置、音生成プログラムおよび訓練プログラム - Google Patents

機械学習モデルを用いた音生成方法、機械学習モデルの訓練方法、音生成装置、訓練装置、音生成プログラムおよび訓練プログラム Download PDF

Info

Publication number
WO2022172577A1
WO2022172577A1 PCT/JP2021/045964 JP2021045964W WO2022172577A1 WO 2022172577 A1 WO2022172577 A1 WO 2022172577A1 JP 2021045964 W JP2021045964 W JP 2021045964W WO 2022172577 A1 WO2022172577 A1 WO 2022172577A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature
sequence
musical
input
sound
Prior art date
Application number
PCT/JP2021/045964
Other languages
English (en)
French (fr)
Inventor
慶二郎 才野
竜之介 大道
ボナダ ジョルディ
ブラアウ メルレイン
Original Assignee
ヤマハ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤマハ株式会社 filed Critical ヤマハ株式会社
Priority to CN202180092868.7A priority Critical patent/CN116806354A/zh
Publication of WO2022172577A1 publication Critical patent/WO2022172577A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/02Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
    • G10H1/04Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos by additional modulation
    • G10H1/053Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos by additional modulation during execution only
    • G10H1/057Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos by additional modulation during execution only by envelope-forming circuits
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10GREPRESENTATION OF MUSIC; RECORDING MUSIC IN NOTATION FORM; ACCESSORIES FOR MUSIC OR MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR, e.g. SUPPORTS
    • G10G1/00Means for the representation of music
    • G10G1/04Transposing; Transcribing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/02Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
    • G10H1/06Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/091Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/091Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith
    • G10H2220/101Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith for graphical creation, edition or control of musical data or parameters
    • G10H2220/126Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith for graphical creation, edition or control of musical data or parameters for graphical editing of individual notes, parts or phrases represented as variable length segments on a 2D or 3D representation, e.g. graphical edition of musical collage, remix files or pianoroll representations of MIDI-like files
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/005Algorithms for electrophonic musical instruments or musical processing, e.g. for automatic composition or resource allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/315Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
    • G10H2250/455Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis

Definitions

  • the present invention relates to a sound generation method, training method, sound generation device, training device, sound generation program, and training program capable of generating sound.
  • An application that generates an audio signal based on a time series of volume specified by a user.
  • the fundamental frequency, hidden variables, and loudness are extracted as features from the sound input by the user.
  • a speech signal is generated by subjecting the extracted feature amount to spectral modeling synthesis.
  • Non-Patent Document 1 in order to generate an audio signal representing a voice that naturally changes like a person singing or playing, the user must set amplitude, volume, pitch, timbre, etc. It is necessary to specify the time series of any musical feature in detail. However, it is not easy to specify in detail the time series of musical features such as amplitude, volume, pitch, and timbre.
  • An object of the present invention is to provide a sound generation method, a training method, a sound generation device, a training device, a sound generation program, and a training program that can easily acquire natural speech.
  • a sound generation method receives a representative value of a musical feature amount for each section of a note composed of a plurality of sections, and uses a trained model to generate a first is processed to generate a sound data string corresponding to the second feature amount string in which the musical feature amount continuously changes, which is implemented by a computer.
  • the term "musical feature quantity” indicates that the feature quantity is a musical type (for example, amplitude, pitch, timbre, etc.).
  • Both the first feature value sequence and the second feature value sequence are examples of time-series data of the “musical feature value (feature value)”.
  • the feature amounts whose changes are indicated in each of the first feature amount sequence and the second feature amount sequence are both "musical feature amounts”.
  • a training method includes a reference sound data string in which musical feature values continuously change from reference data representing sound waveforms, and an output feature value string that is a time series of the musical feature values. is extracted, and from the output feature sequence, an input feature sequence in which musical features change for each sound interval is generated.
  • a trained model that has learned the input/output relationship between the quantity sequence and the reference sound data sequence is constructed and implemented by a computer.
  • Both the input feature amount sequence and the output feature amount sequence are examples of time-series data of "musical feature amount (feature amount)". That is, the feature amounts whose changes are indicated in each of the input feature amount sequence and the output feature amount sequence are both "musical feature amounts”.
  • a sound generation device includes: a reception unit that receives a representative value of musical feature values for each section of a note consisting of a plurality of sections; and a generation unit that processes the first feature amount string corresponding to the , and generates a sound data string corresponding to the second feature amount string in which the musical feature amount continuously changes.
  • a training apparatus includes a reference sound data string in which musical feature values continuously change from reference data representing sound waveforms, and an output feature value that is a time series of the musical feature values.
  • a generating unit that generates an input feature quantity sequence in which the musical feature quantity changes for each sound section from the output feature quantity sequence; and an input feature quantity sequence and a reference sound data string.
  • a constructing unit that constructs a trained model that has learned the input/output relationship between the input feature value sequence and the reference sound data sequence by machine learning.
  • FIG. 1 is a block diagram showing the configuration of a processing system including a sound generator and a training device according to one embodiment of the present invention
  • FIG. It is a block diagram which shows the structure of a sound generation apparatus. It is a figure for demonstrating the operation example of a sound production
  • FIG. 11 is a diagram showing another example of the reception screen; It is a block diagram which shows the structure of a training apparatus. It is a figure for demonstrating the operation example of a training apparatus.
  • 3 is a flowchart showing an example of sound generation processing by the sound generation device of FIG. 2; 7 is a flow chart showing an example of training processing by the training device of FIG. 6; It is a figure which shows an example of the reception screen in 2nd Embodiment.
  • FIG. 1 is a block diagram showing the configuration of a processing system including a sound generator and a training device according to one embodiment of the present invention.
  • the processing system 100 includes a RAM (Random Access Memory) 110, a ROM (Read Only Memory) 120, a CPU (Central Processing Unit) 130, a storage section 140, an operation section 150 and a display section 160.
  • RAM Random Access Memory
  • ROM Read Only Memory
  • CPU 130 Central Processing Unit
  • storage section 140 an operation section 150
  • display section 160 a display section 160.
  • CPU 130 may be or include one or more of a CPU, MPU, GPU, ASIC, FPGA, DSP, and general purpose computer.
  • the processing system 100 is implemented by a computer such as a PC, tablet terminal, or smart phone. Alternatively, the processing system 100 may be realized by cooperative operation of a plurality of computers connected by a communication channel such as Ethernet.
  • RAM 110 , ROM 120 , CPU 130 , storage unit 140 , operation unit 150 and display unit 160 are connected to bus 170 .
  • RAM 110 , ROM 120 and CPU 130 constitute sound generation device 10 and training device 20 .
  • the sound generation device 10 and the training device 20 are configured by the common processing system 100, but may be configured by separate processing systems.
  • the RAM 110 consists of, for example, a volatile memory, and is used as a work area for the CPU 130.
  • the ROM 120 consists of, for example, non-volatile memory and stores a sound generation program and a training program.
  • the CPU 130 performs sound generation processing by executing a sound generation program stored in the ROM 120 on the RAM 110 . Further, CPU 130 performs training processing by executing a training program stored in ROM 120 on RAM 110 . Details of the sound generation process and the training process will be described later.
  • the sound generation program or training program may be stored in the storage unit 140 instead of the ROM 120.
  • the sound generation program or training program may be provided in a form stored in a computer-readable storage medium and installed in ROM 120 or storage unit 140 .
  • a sound generating program distributed from a server (including a cloud server) on the network may be installed in the ROM 120 or the storage unit 140. .
  • the storage unit 140 includes a storage medium such as a hard disk, an optical disk, a magnetic disk, or a memory card.
  • the storage unit 140 stores a trained model M, result data D1, a plurality of reference data D2, a plurality of musical score data D3, and a plurality of reference musical score data D4.
  • the plurality of reference data D2 and the plurality of reference musical score data D4 correspond to each other.
  • the reference data D2 (sound data) and the reference musical score data D4 (score data) “correspond” means, for example, that each note (and phoneme) of the music indicated by the musical score indicated by the reference musical score data D4 corresponds to the reference data D2.
  • the notes (and phonemes) of the music indicated by the waveform data indicated by are identical to each other, including their performance timing, performance intensity, performance expression, and the like.
  • the trained model M receives and processes the musical score feature value string and the control value (input feature value string) of the musical score data D3, and produces result data D1 (sound data string) according to the musical score feature value string and the control value.
  • the trained model M acquires the input/output relationship between the input feature sequence and the reference sound data sequence corresponding to the output feature sequence, and is constructed by the training device 20 .
  • the trained model M is an AR (regression) type generative model, but may be a non-AR type generative model.
  • the input feature value sequence is a time series (time-series data) in which the musical feature values slowly change discretely or intermittently for each time part of the sound.
  • the output feature quantity sequence is a time series (time series data) in which the musical feature quantity rapidly changes constantly or continuously.
  • the input feature quantity sequence and the output feature quantity sequence are each a feature quantity sequence, and the feature quantity sequence is time-series data of the musical feature quantity, and is data indicating temporal changes in the musical feature quantity. You can paraphrase it.
  • the musical feature quantity may be, for example, amplitude or its differential value, or pitch or its differential value.
  • the musical feature amount may be a spectral tilt, a spectral centroid, or a ratio of high-frequency power to low-frequency power (high-frequency power/low-frequency power).
  • the term “musical feature quantity” indicates that the feature quantity is a musical type (for example, amplitude, pitch, timbre, etc.), and hereinafter may be simply abbreviated as “feature quantity”.
  • the input feature value sequence, the output feature value sequence, the first feature value sequence, and the second feature value sequence in the present embodiment are all examples of time-series data of "musical feature values (feature values)." is.
  • the feature amounts showing the change in each of the input feature amount string, the output feature amount string, the first feature amount string, and the second feature amount string are all "musical feature amounts”.
  • the sound data string is a string of frequency-domain data that can be converted into a time-domain sound waveform. etc.
  • the input feature value sequence changes (discretely or intermittently) for each sound section
  • the output feature value sequence changes constantly or continuously. quantities
  • the result data D1 indicates a sound data string corresponding to the feature amount string of the sound generated by the sound generation device 10.
  • the reference data D2 is waveform data used to train the trained model M, that is, a time series of sound waveform samples (time series data). A time series (time series data) of feature amounts extracted from each waveform data in relation to sound control is called an output feature amount sequence.
  • the musical score data D3 and the reference musical score data D4 represent musical scores each including a plurality of notes (note strings) arranged on the time axis.
  • the musical score feature amount generated from the musical score data D3 is used by the sound generation device 10 to generate the result data D1.
  • the reference data D2 and the reference musical score data D4 are used for construction of the trained model M by the training device 20.
  • the trained model M, the result data D1, the reference data D2, the musical score data D3 and the reference musical score data D4 may not be stored in the storage unit 140, but may be stored in a computer-readable storage medium. Alternatively, if the processing system 100 is connected to a network, the trained model M, result data D1, reference data D2, musical score data D3 or reference musical score data D4 may be stored in a server on the network. good.
  • the operation unit 150 includes a pointing device such as a mouse or a keyboard, and is operated by the user to perform predetermined inputs.
  • the display unit 160 includes, for example, a liquid crystal display, and displays a predetermined GUI (Graphical User Interface), the result of sound generation processing, or the like. Operation unit 150 and display unit 160 may be configured by a touch panel display.
  • FIG. 2 is a block diagram showing the configuration of the sound generation device 10. As shown in FIG. 3 and 4 are diagrams for explaining an operation example of the sound generation device 10.
  • FIG. 2 sound generation device 10 includes presentation unit 11 , reception unit 12 , generation unit 13 and processing unit 14 .
  • the functions of the presentation unit 11, the reception unit 12, the generation unit 13, and the processing unit 14 are realized by the CPU 130 in FIG. 1 executing a sound generation program.
  • At least part of the presentation unit 11, reception unit 12, generation unit 13, and processing unit 14 may be realized by hardware such as an electronic circuit.
  • the presentation unit 11 causes the display unit 160 to display a reception screen 1 as a GUI for receiving input from the user.
  • a reception screen 1 is provided with a reference area 2 and an input area 3 .
  • a reference image 4 representing the position on the time axis of each note in a string of notes is displayed based on the musical score data D3 selected by the user.
  • the reference image 4 is, for example, a piano roll.
  • the input area 3 is arranged so as to correspond to the reference area 2.
  • three vertically extending bars are displayed in the input area 3 so as to correspond to the attack, body, and release sections of each note in the reference image 4, respectively.
  • the length of each bar in the input area 3 in the vertical direction indicates the representative value of the feature amount (amplitude in this example) in the corresponding note section.
  • the user changes the length of each bar using the operation unit 150 in FIG.
  • three representative values are input for each note.
  • the accepting unit 12 accepts the representative value input on the input area 3 .
  • the trained model M stored in the storage unit 140 or the like includes, for example, a neural network (DNN (deep neural network) L1 in the example of FIG. 4), as shown in FIG.
  • the score data D3 selected by the user and the three representative values of each note entered in the input area 3 are provided to the trained model M(DNN).
  • the generating unit 13 uses the trained model M, the generating unit 13 processes the musical score feature value sequence corresponding to the musical score data D3 and the first feature value sequence corresponding to the three representative values, and generates a time series of pitches in the musical score. Result data D1 including the spectral envelope is generated.
  • the result data D1 is a sound data string corresponding to the second feature value string arranged so that the amplitude changes with time with a fineness higher than the fineness of the time change of the representative value in the note string. be.
  • the result data may be result data D1 indicating the time series of the spectrum in the musical score.
  • the first feature value sequence is an attack feature value sequence generated from the attack representative value, a body feature value sequence generated from the body representative value, and a release feature value generated from the release representative value.
  • the representative value of each section may be smoothed so as to smoothly change from the representative value of the previous note to the representative value of the next note, and the smoothed representative value may be used as the representative value string of the section.
  • the representative value of each section in the note string is, for example, the statistic value of the amplitude arranged in the section in the feature string.
  • the statistic may be the maximum, mean, median, mode, variance or standard deviation of amplitude.
  • the representative value is not limited to the statistical value of amplitude.
  • the representative value may be the ratio of the maximum value of the amplitude of the first harmonic and the maximum value of the amplitude of the second harmonic placed in each section in the feature sequence, or the logarithm of the ratio.
  • the representative value may be an average value of the maximum value of the first harmonic and the maximum value of the second harmonic.
  • the generation unit 13 may store the generated result data D1 in the storage unit 140 or the like.
  • the processing unit 14 functions, for example, as a vocoder, and generates an audio signal representing a time-domain waveform from the frequency-domain result data D ⁇ b>1 generated by the generation unit 13 .
  • sound generation device 10 includes the processing unit 14, but the embodiment is not limited to this.
  • the sound generation device 10 does not have to include the processing unit 14 .
  • the input area 3 is arranged below the reference area 2 on the reception screen 1, but the embodiment is not limited to this.
  • the input area 3 may be arranged above the reference area 2 .
  • the input area 3 may be arranged so as to overlap the reference area 2 on the reception screen 1 .
  • Near each note in the piano roll, three representative values for that note may be displayed.
  • FIG. 5 is a diagram showing another example of the reception screen 1. As shown in FIG. In the example of FIG. 5, reception screen 1 does not include reference area 2 . In the input area 3, the position of each note on the time axis is indicated by two adjacent dotted lines. Also, the boundaries of multiple sections of each note are indicated by dashed-dotted lines. The user uses the operation unit 150 to draw a desired time series of representative amplitude values on the input area 3 . As a result, a representative amplitude value can be input for each section of each note in the note string.
  • the trained model M includes one DNNL1, but embodiments are not limited to this.
  • a trained model M may include multiple DNNs.
  • FIG. 6 is a block diagram showing the configuration of the training device 20. As shown in FIG. FIG. 7 is a diagram for explaining an operation example of the training device 20.
  • the training device 20 includes an extraction unit 21, a generation unit 22 and a construction unit 23.
  • FIG. The functions of the extraction unit 21, the generation unit 22, and the construction unit 23 are realized by the CPU 130 in FIG. 1 executing the training program. At least part of the extraction unit 21, the generation unit 22, and the construction unit 23 may be realized by hardware such as an electronic circuit.
  • the extraction unit 21 extracts a reference sound data string and an output feature amount string from each reference data D2 stored in the storage unit 140 and the like.
  • the reference sound data string is data representing the spectrum in the frequency domain of the waveform in the time domain represented by the reference data D2. may be used, or a mel-spectrogram or the like may be used.
  • a string of reference sound data is generated at predetermined intervals (for example, 5 ms).
  • the output feature amount string is a time series (time series data) of waveform feature amounts (e.g., amplitude) corresponding to the reference sound data string, and the feature amount is the resolution corresponding to the predetermined interval (e.g., 5 ms). changes with time. Data intervals in various data strings may be shorter or longer than 5 ms, and may be the same or different.
  • the generation unit 22 determines a representative value of the feature amount (for example, amplitude) of each section of each note from each output feature amount string and the corresponding reference musical score data D4, and generates the feature amount according to the determined representative value. Generates an input feature quantity sequence whose (for example, amplitude) changes temporally (discretely or intermittently). Specifically, as shown in FIG. 7, the generation unit 22 first identifies three sections of attack, body, and release of each note based on the output feature value string and the reference musical score data D4, and then In the output feature quantity sequence, the representative value of the feature quantity (for example, amplitude) in each section is extracted. In the example of FIG.
  • the representative value of the feature quantity (eg, amplitude) in each interval is the maximum value, but other statistical values of the feature quantity (eg, amplitude) in the interval may be used. may be a representative value.
  • the generation unit 22 generates three feature amounts (e.g., amplitude ) to generate an input feature sequence that is a time series.
  • the input feature value string is a time series of representative values generated for each note, so the definition is much lower than the output feature value string.
  • the input feature value string to be generated may be a feature value string that changes stepwise by arranging the representative values for each section directly in the corresponding section on the time axis, or a feature value string that is smoothed so that the values do not change abruptly. It may be a feature value sequence.
  • the smoothed input feature value sequence for example, the feature value gradually increases from zero before the interval so that the representative value is obtained at the start point of each interval, and the feature value maintains the representative value in that interval, This is a feature amount sequence in which the feature amount gradually decreases from the representative value to zero after the end point of the interval.
  • the smoothed feature amount is used, in addition to the feature amount of the sound generated in each section, the feature amount of the sound generated immediately before or immediately after that section can be controlled by the representative value of the section.
  • the constructing unit 23 prepares a generative model m (untrained or pretrained) composed of a DNN, and constructs a reference sound data string extracted from each reference data D2, a generated input feature quantity string, and a corresponding reference Machine learning for training the generative model m is performed based on the musical score feature value sequence generated from the musical score data D4. Through this training, a trained model M that has learned the input/output relationship between the input feature value sequence, the musical score feature value sequence, and the reference sound data sequence is constructed.
  • the generative model m to be prepared may include one DNNL1 as shown in FIG. 4, or may include a plurality of DNNs.
  • the constructing unit 23 stores the constructed trained model M in the storage unit 140 or the like.
  • FIG. 8 is a flowchart showing an example of sound generation processing by the sound generation device 10 of FIG.
  • the sound generation process in FIG. 8 is performed by CPU 130 in FIG. 1 executing a sound generation program stored in storage unit 140 or the like.
  • the CPU 130 determines whether or not the musical score data D3 has been selected by the user (step S1). If the musical score data D3 is not selected, the CPU 130 waits until the musical score data D3 is selected.
  • the CPU 130 When the musical score data D3 is selected, the CPU 130 causes the display unit 160 to display the acceptance screen 1 of FIG. 3 (step S2). A reference image 4 based on the musical score data D3 selected in step S1 is displayed in the reference area 2 of the reception screen 1.
  • the CPU 130 receives the representative value of the feature amount (for example, amplitude) in each section of the note string on the input area 3 of the reception screen 1 (step S3).
  • the CPU 130 processes the musical score feature value string of the musical score data D3 selected in step S1 and the first feature value string generated from the representative values accepted in step S4. to generate result data D1 (step S4). After that, the CPU 130 generates an audio signal, which is a waveform in the time domain, from the result data D1 generated in step S4 (step S5), and ends the sound generation process.
  • FIG. 9 is a flowchart showing an example of training processing by the training device 20 of FIG.
  • the training process in FIG. 9 is performed by CPU 130 in FIG. 1 executing a training program stored in storage unit 140 or the like.
  • the CPU 130 acquires a plurality of reference data D2 used for training from the storage unit 140 or the like (step S11).
  • the CPU 130 extracts a reference sound data string from each reference data D2 acquired in step S11 (step S12).
  • the CPU 130 extracts an output feature quantity sequence (for example, amplitude time series) from each reference data D2 (step S13).
  • the CPU 130 determines a representative value (for example, the maximum amplitude value) of each section of each note in the note string from the extracted output feature value string and the corresponding reference musical score data D4, and An input feature value sequence (for example, time series of three amplitudes) is generated based on the representative value of (step S14).
  • the CPU 130 prepares the generative model m, and trains the generative model m based on the musical score feature value sequence and the input feature value sequence based on the reference musical score data D4 corresponding to each reference data D2, and the reference sound data sequence.
  • the generative model m is subjected to machine learning of the input/output relationship between the musical score feature value string, the input feature value string, and the reference sound data string (step S15).
  • step S16 determines whether sufficient machine learning has been performed for the generative model m to learn the input/output relationship. If the machine learning is insufficient, the CPU 130 returns to step S15. Steps S15-S16 are repeated until sufficient machine learning is performed. The number of iterations of machine learning changes according to quality conditions that the trained model M to be constructed should satisfy. The determination in step S16 is made based on a loss function that is an index of quality conditions. For example, if the loss function indicating the difference between the sound data string output by the generative model m supplied with the input feature value string (and score feature value string) and the reference sound data string becomes smaller than a predetermined value, Machine learning is judged sufficient.
  • a loss function that is an index of quality conditions. For example, if the loss function indicating the difference between the sound data string output by the generative model m supplied with the input feature value string (and score feature value string) and the reference sound data string becomes smaller than a predetermined value, Machine learning is judged sufficient.
  • the predetermined value may be appropriately set by the user of the processing system 100 according to the desired quality (quality condition). Alternatively, or together with such determination, it may be determined whether or not the number of repetitions has reached a predetermined number.
  • the CPU 130 trains a generative model m that has learned the input/output relationship between the score feature value sequence and the input feature value sequence, and the reference sound data sequence.
  • the model is stored as a completed model M (step S17), and the training process is terminated.
  • the trained model M has learned the input/output relationship between the input feature value string and the reference musical score data D4 (or the musical score feature value string generated from the reference musical score data D4) and the reference sound data string. is constructed.
  • the section division method is not limited to this.
  • it may be divided into two sections, attack and then (body and release).
  • the body may be divided into a plurality of sub-bodies so that there are four or more sections as a whole.
  • the first feature quantity string and the input feature quantity string each include feature quantity strings for all sections of notes, for example, three feature quantity strings for attack, body, and release.
  • the first feature quantity sequence and the input feature quantity sequence each include feature quantity sequences of all sections in which notes are divided. That is, each of the first feature quantity sequence and the input feature quantity sequence does not have to include the feature quantity sequence of any one of the plurality of sections into which the notes are divided.
  • the first feature sequence and the input feature sequence may each include only the attack feature sequence.
  • the first feature sequence and the input feature sequence may each include only two feature sequences of attack and release.
  • each of the first feature quantity sequence and the input feature quantity sequence includes a plurality of independent feature quantity sequences for each segmented section of notes (for example, attack, body, and release).
  • the first feature amount sequence and the input feature amount sequence each include a plurality of independent feature amount sequences for each segmented section of the note.
  • the first feature value string is a single feature value string
  • the single feature value string includes representative values of the feature values of the section of the note (for example, the attack representative value, the body representative value, and the release) may be included.
  • the representative value of one section gradually changes to the representative value of the next section in a minute range (length of several frames) connecting one section and the next section.
  • the feature amount may be smoothed.
  • the sound generation method accepts a representative value of the musical feature amount for each section of a note consisting of a plurality of sections, and uses a trained model to a sound data string corresponding to a second feature value string in which the musical feature value continuously changes is generated by processing the first feature value string corresponding to the representative value of each section; Realized.
  • the term "musical feature quantity” indicates that the feature quantity is a musical type (eg, amplitude, pitch, timbre, etc.).
  • Both the first feature value sequence and the second feature value sequence are examples of time-series data of "musical feature values.”
  • the feature amounts whose changes are indicated in each of the first feature amount sequence and the second feature amount sequence are both "musical feature amounts".
  • a sound data string corresponding to a feature value string that continuously changes with high definition is generated.
  • the generated sound data string exhibits a natural sound waveform with detailed (in other words, incessant or continuous and rapid) time-variant musical features. Therefore, the user does not need to input detailed temporal changes of musical feature quantities.
  • Multiple sections may include at least attacks.
  • a representative value of a musical feature amount is received for each section of a note consisting of a plurality of sections including at least an attack, and a trained model is used to generate a first value corresponding to the representative value of each section.
  • a sound data string corresponding to a second feature amount string in which the musical feature amount continuously changes is generated.
  • Multiple sections may further include either body or release.
  • a representative value of a musical feature amount is received for each section of a note consisting of a plurality of sections including either a body or a release, and a trained model is used to calculate the representative value of each section.
  • the first feature quantity string is processed to generate a sound data string corresponding to the second feature quantity string in which the musical feature quantity continuously changes.
  • the trained model uses machine learning to generate an input feature value sequence corresponding to the representative value of the musical feature value of each section of the reference data representing the sound waveform, and the continuously changing musical feature value of the reference data.
  • the input feature value sequence may include multiple independent feature value sequences for each section.
  • the input feature quantity sequence may be a feature quantity sequence smoothed so that the values do not change abruptly.
  • the representative value of each section may indicate the statistic value of the musical feature value within the section in the output feature value sequence.
  • the sound generation method may further present a reception screen on which the musical feature amount of each section of the notes in the note string is displayed, and the representative value may be input by the user using the reception screen. .
  • the user can easily input the representative value while viewing the positions of the plurality of notes in the string of notes on the time axis.
  • the sound generation method may further convert the sound data string representing a frequency-domain waveform into a time-domain waveform.
  • a reference sound data string in which musical feature values change continuously from reference data representing a sound waveform, and an output feature value string, which is a time series of the musical feature values, are used. Then, from the output feature string, an input feature string whose musical features change for each note interval is generated.
  • a trained model that has learned the input/output relationship between the sound and the reference sound data string is constructed and implemented by a computer.
  • a trained model M capable of generating a sound data string corresponding to the 2 feature quantity strings is constructed.
  • the input feature value sequence may be generated based on the representative values determined from the musical feature values of each of the multiple sections in the output feature value sequence.
  • the user inputs the maximum value of the amplitude of each section of each note as a control value for controlling the sound to be generated. Not limited. Any feature quantity other than amplitude and any representative value other than the maximum value may be used as the control value.
  • the control value may be used as the control value.
  • the sound generation device 10 of this embodiment is the same as the sound generation device 20 of the first embodiment described with reference to FIG. 2, except for the following points.
  • the presentation unit 11 causes the display unit 160 to display the reception screen 1 based on the musical score data D3 selected by the user.
  • FIG. 10 is a diagram showing an example of the reception screen 1 in the second embodiment. As shown in FIG. 10, three input areas 3a, 3b, and 3c are arranged to correspond to the reference area 2 in place of the input area 3 in FIG.
  • the representative values of the feature amounts of the three sections of attack, body, and release of each note in the reference image 4 are displayed as vertically extending bars in the three input areas 3a, 3b, and 3c, respectively.
  • the feature amount in the second embodiment is the pitch
  • the representative value is the variance of the pitch in each section.
  • the length of each bar in the input area 3a indicates the pitch variance in the attack of the corresponding note.
  • the length of each bar in the input area 3b indicates the pitch variance in the body of the corresponding note.
  • the length of each bar in the input area 3c indicates the pitch variance at the release of the corresponding note.
  • the user can input the representative values of the feature amounts of the attack, body, and release sections of each note in the note sequence to the input areas 3a, 3b, and 3c. Enter each.
  • the accepting unit 12 accepts the representative values entered on the input areas 3a to 3c.
  • the generation unit 13 uses the trained model M to generate result data Generate D1.
  • the result data D1 is a sound data string including a second feature amount string whose pitch continuously changes with high definition.
  • the generation unit 13 may store the generated result data D1 in the storage unit 140 or the like.
  • the generator 13 also generates an audio signal, which is a waveform in the time domain, based on the result data D1 in the frequency domain, and supplies the audio signal to the sound system. Note that the generation unit 13 may cause the display unit 160 to display the second feature amount sequence (pitch time series) included in the result data D1.
  • the training device 20 of this embodiment is the same as the training device 20 of the first embodiment described with reference to FIG. 6, except for the following points.
  • the pitch time series which is the output feature value string to be extracted in step S13 of the training process in FIG. 9, has already been extracted as part of the reference sound data string in step S12 immediately before.
  • the CPU 130 extraction unit 21 extracts the amplitude time series in each of the plurality of reference data D2 not as an output feature quantity sequence but as an index for separating sound into three parts.
  • the CPU 130 converts the pitch time series (output feature amount string) included in the reference sound data string into the sound attack, the sound release, and the relationship between attack and release based on the amplitude time series.
  • the body is divided into three sections, the pitch sequence of each section is statistically analyzed to determine the variance of the pitch in the section, and the input feature value sequence is generated based on the determined representative value of each section.
  • steps S15 and S16 the CPU 130 (construction unit 23) performs machine learning (the Training) is repeated to acquire the input/output relationship between the musical score feature value sequence and the input feature value sequence corresponding to the reference musical score data D4 and the reference sound data sequence corresponding to the output feature value. to build.
  • machine learning the Training
  • reception screen 1 includes input areas 3a to 3c, the embodiment is not limited to this.
  • the reception screen 1 may not include any one or two of the input areas 3a, 3b, and 3c. Also in this embodiment, the reception screen 1 does not have to include the reference area 2 .

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

複数の区間からなる音符列の各区間について音楽的な特徴量の代表値の入力が受付部により受け付けられる。訓練済モデルを用いて、入力された各区間の代表値に応じた第1の特徴量列を処理して、特徴量が連続的に変化する第2の特徴量列に対応する音データ列が生成部により生成される。

Description

機械学習モデルを用いた音生成方法、機械学習モデルの訓練方法、音生成装置、訓練装置、音生成プログラムおよび訓練プログラム
 本発明は、音を生成することが可能な音生成方法、訓練方法、音生成装置、訓練装置、音生成プログラムおよび訓練プログラムに関する。
 使用者により指定された音量の時系列に基づいて音声信号を生成するアプリケーションが知られている。例えば、非特許文献1に記載されたアプリケーションにおいては、使用者による入力音から基本周波数、隠れ変数およびラウドネスが特徴量として抽出される。抽出された特徴量にスペクトラルモデリング合成が行われることにより、音声信号が生成される。
Jesse Engel, Lamtharn Hantrakul, Chenjie Gu and Adam Roberts, "DDSP: Differentiable Digital Signal Processing", arXiv:2001.04643v1 [cs.LG] 14 Jan 2020
 非特許文献1記載のアプリケーションを用いて、人の歌唱または演奏のように自然に変化する音声を示す音声信号を生成するには、使用者は、振幅、音量、ピッチ、音色(Timbre)などのいずれかの音楽的な特徴量の時系列を詳細に指定する必要がある。しかしながら、振幅、音量、ピッチ、音色などのいずれかの音楽的な特徴量の時系列を詳細に指定することは容易ではない。
 本発明の目的は、自然な音声を容易に取得することが可能な音生成方法、訓練方法、音生成装置、訓練装置、音生成プログラムおよび訓練プログラムを提供することである。
 本発明の一局面に従う音生成方法は、複数の区間からなる音符の各区間について音楽的な特徴量の代表値を受け付け、訓練済モデルを用いて、前記各区間の代表値に応じた第1の特徴量列を処理して、音楽的な特徴量が連続的に変化する第2の特徴量列に対応する音データ列を生成し、コンピュータにより実現される。なお、「音楽的な特徴量」との語は、特徴量が音楽的な種別(例えば、振幅、ピッチ、音色など)であることを示す。第1の特徴量列および第2の特徴量列は、いずれも、「音楽的な特徴量(特徴量)」の時系列データの一例である。すなわち、第1の特徴量列および第2の特徴量列の各々においてその変化が示される特徴量は、いずれも、「音楽的な特徴量」である。
 本発明の他の局面に従う訓練方法は、音波形を示す参照データから音楽的な特徴量が連続的に変化する参照音データ列と、その音楽的な特徴量の時系列である出力特徴量列とを抽出し、出力特徴量列から音楽的な特徴量が音の区間ごとに変化する入力特徴量列を生成し、入力特徴量列と参照音データ列とを用いた機械学習により、入力特徴量列と参照音データ列との間の入出力関係を習得した訓練済モデルを構築し、コンピュータにより実現される。なお、入力特徴量列および出力特徴量列は、いずれも、「音楽的な特徴量(特徴量)」の時系列データの一例である。すなわち、入力特徴量列および出力特徴量列の各々においてその変化が示される特徴量は、いずれも、「音楽的な特徴量」である。
 本発明のさらに他の局面に従う音生成装置は、複数の区間からなる音符の各区間について音楽的な特徴量の代表値を受け付ける受付部と、訓練済モデルを用いて、前記各区間の代表値に応じた第1の特徴量列を処理して、音楽的な特徴量が連続的に変化する第2の特徴量列に対応する音データ列を生成する生成部とを備える。
 本発明のさらに他の局面に従う訓練装置は、音波形を示す参照データから音楽的な特徴量が連続的に変化する参照音データ列と、その音楽的な特徴量の時系列である出力特徴量列とを抽出する抽出部と、出力特徴量列から音楽的な特徴量が音の区間ごとに変化する入力特徴量列を生成する生成部と、入力特徴量列と参照音データ列とを用いた機械学習により、入力特徴量列と参照音データ列との間の入出力関係を習得した訓練済モデルを構築する構築部とを備える。
 本発明によれば、自然な音声を容易に取得することができる。
本発明の一実施形態に係る音生成装置および訓練装置を含む処理システムの構成を示すブロック図である。 音生成装置の構成を示すブロック図である。 音生成装置の動作例を説明するための図である。 音生成装置の動作例を説明するための図である。 受付画面の他の例を示す図である。 訓練装置の構成を示すブロック図である。 訓練装置の動作例を説明するための図である。 図2の音生成装置による音生成処理の一例を示すフローチャートである。 図6の訓練装置による訓練処理の一例を示すフローチャートである。 第2実施形態における受付画面の一例を示す図である。
 (1)処理システムの構成
 以下、本発明の第1実施形態に係る音生成方法、訓練方法、音生成装置、訓練装置、音生成プログラムおよび訓練プログラムについて図面を用いて詳細に説明する。図1は、本発明の一実施形態に係る音生成装置および訓練装置を含む処理システムの構成を示すブロック図である。図1に示すように、処理システム100は、RAM(ランダムアクセスメモリ)110、ROM(リードオンリメモリ)120、CPU(中央演算処理装置)130、記憶部140、操作部150および表示部160を備える。中央演算処理装置としてCPU130は、CPU、MPU、GPU、ASIC、FPGA、DSP及び汎用コンピュータのうちの1つ以上であってもよいし、それらのうちの1又は複数を含んでもよい。
 処理システム100は、例えばPC、タブレット端末またはスマートフォン等のコンピュータにより実現される。あるいは、処理システム100は、イーサネット等の通信路で接続された複数のコンピュータの共同動作で実現されてもよい。RAM110、ROM120、CPU130、記憶部140、操作部150および表示部160は、バス170に接続される。RAM110、ROM120およびCPU130により音生成装置10および訓練装置20が構成される。本実施形態では、音生成装置10と訓練装置20とは共通の処理システム100により構成されるが、別個の処理システムにより構成されてもよい。
 RAM110は、例えば揮発性メモリからなり、CPU130の作業領域として用いられる。ROM120は、例えば不揮発性メモリからなり、音生成プログラムおよび訓練プログラムを記憶する。CPU130は、ROM120に記憶された音生成プログラムをRAM110上で実行することにより音生成処理を行う。また、CPU130は、ROM120に記憶された訓練プログラムをRAM110上で実行することにより訓練処理を行う。音生成処理および訓練処理の詳細については後述する。
 音生成プログラムまたは訓練プログラムは、ROM120ではなく記憶部140に記憶されてもよい。あるいは、音生成プログラムまたは訓練プログラムは、コンピュータが読み取り可能な記憶媒体に記憶された形態で提供され、ROM120または記憶部140にインストールされてもよい。あるいは、処理システム100がインターネット等のネットワークに接続されている場合には、当該ネットワーク上のサーバ(クラウドサーバを含む。)から配信された音生成プログラムがROM120または記憶部140にインストールされてもよい。
 記憶部140は、ハードディスク、光学ディスク、磁気ディスクまたはメモリカード等の記憶媒体を含む。記憶部140には、訓練済モデルM、結果データD1、複数の参照データD2、複数の楽譜データD3および複数の参照楽譜データD4が記憶される。複数の参照データD2と、複数の参照楽譜データD4とは、それぞれ対応する。参照データD2(音データ)と参照楽譜データD4(楽譜データ)とが「対応する」とは、例えば、参照楽譜データD4によって示される楽譜の示す楽曲の各音符(および音韻)と、参照データD2によって示される波形データの示す楽曲の各音符(および音韻)とが、その演奏タイミング、演奏強度、演奏表現などを含めて相互に同じであることをいう。訓練済モデルMは、楽譜データD3の楽譜特徴量列と制御値(入力特徴量列)とを受け取って処理し、それら楽譜特徴量列と制御値とに応じた結果データD1(音データ列)を推定する生成モデルである。訓練済モデルMは、入力特徴量列と出力特徴量列に対応する参照音データ列との間の入出力関係を習得し、訓練装置20により構築される。本例では、訓練済モデルMはAR(回帰)タイプの生成モデルであるが、非ARタイプの生成モデルであってもよい。
 入力特徴量列は、音楽的な特徴量が音の時間部分ごとに離散的にないし間欠的にゆっくりと変化する時系列(時系列データ)である。出力特徴量列は、音楽的な特徴量が絶え間なくないし連続的に素早く変化する時系列(時系列データ)である。入力特徴量列および出力特徴量列は、各々、特徴量列であり、特徴量列は、音楽的な特徴量の時系列データであり、音楽的な特徴量の時間的な変化を示すデータと言い換えてもよい。音楽的な特徴量は、例えば振幅またはその微分値や、ピッチまたはその微分値であってもよい。音楽的な特徴量は、振幅等に代えて、スペクトル傾斜またはスペクトル重心でもよいし、低域パワーに対する高域パワーの比(高域パワー/低域パワー)でもよい。「音楽的な特徴量」との語は、特徴量が音楽的な種別(例えば、振幅、ピッチ、音色など)であることを示し、以下では、単に「特徴量」と略記することがある。本実施形態における入力特徴量列、出力特徴量列、第1の特徴量列、および第2の特徴量列は、いずれも、「音楽的な特徴量(特徴量)」の時系列データの一例である。すなわち、入力特徴量列、出力特徴量列、第1の特徴量列、および第2の特徴量列の各々においてその変化が示される特徴量は、いずれも、「音楽的な特徴量」である。他方、音データ列は、時間領域の音波形に変換できる周波数領域のデータの列であり、例えば、波形の振幅スペクトル包絡の時系列とピッチの時系列との組み合わせでもよいし、或いは、メルスペクトログラム等でもよい。
 ここで、入力特徴量列は、音の区間ごとに(離散的にないし間欠的に)変化し、出力特徴量列は、絶え間なくないし連続的に変化するが、時間分解能(単位時間当たりの特徴量数)は互いに等しい。
 結果データD1は、音生成装置10により生成された音の特徴量列に対応する音データ列を示す。参照データD2は、訓練済モデルMを訓練するために用いる波形データ、すなわち音波形のサンプルの時系列(時系列データ)である。そして、音の制御に関連して各波形データから抽出された特徴量の時系列(時系列データ)を出力特徴量列と呼ぶ。楽譜データD3および参照楽譜データD4は、それぞれ時間軸上に配置された複数の音符(音符列)を含む楽譜を示す。楽譜データD3から生成される楽譜特徴量は、音生成装置10による結果データD1の生成に用いられる。参照データD2および参照楽譜データD4は、訓練装置20による訓練済モデルMの構築に用いられる。
 訓練済モデルM、結果データD1、参照データD2、楽譜データD3および参照楽譜データD4は、記憶部140に記憶されず、コンピュータが読み取り可能な記憶媒体に記憶されていてもよい。あるいは、処理システム100がネットワークに接続されている場合には、訓練済モデルM、結果データD1、参照データD2、楽譜データD3または参照楽譜データD4は、当該ネットワーク上のサーバに記憶されていてもよい。
 操作部150は、マウス等のポインティングデバイスまたはキーボードを含み、所定の入力を行うために使用者により操作される。表示部160は、例えば液晶ディスプレイを含み、所定のGUI(Graphical User Interface)または音生成処理の結果等を表示する。操作部150および表示部160は、タッチパネルディスプレイにより構成されてもよい。
 (2)音生成装置
 図2は、音生成装置10の構成を示すブロック図である。図3および図4は、音生成装置10の動作例を説明するための図である。図2に示すように、音生成装置10は、提示部11、受付部12、生成部13および処理部14を含む。提示部11、受付部12、生成部13および処理部14の機能は、図1のCPU130が音生成プログラムを実行することにより実現される。提示部11、受付部12、生成部13および処理部14の少なくとも一部が電子回路等のハードウエアにより実現されてもよい。
 提示部11は、図3に示すように、使用者からの入力を受け付けるためのGUIとして、受付画面1を表示部160に表示させる。受付画面1には、参照領域2および入力領域3が設けられる。参照領域2には、例えば、使用者により選択された楽譜データD3に基づいて、複数の音符からなる音符列における各音符の時間軸上での位置を表す参照画像4が表示される。参照画像4は、例えばピアノロールである。使用者は、操作部150を操作することにより、記憶部140等に記憶された複数の楽譜データD3から所望の楽譜を示す楽譜データD3を選択したり、編集したりすることができる。
 入力領域3は、参照領域2と対応するように配置される。また、図3の例では、参照画像4の各音符のアタック、ボディおよびリリースの3区間にそれぞれ対応するように、上下方向に延びる3本のバーが入力領域3に表示される。入力領域3の各バーの上下方向の長さは、対応する音符の区間における特徴量(本例では振幅)の代表値を示す。使用者は、図1の操作部150を用いて各バーの長さを変化させることにより、音符列における各音符の各区間について、振幅の代表値を入力領域3に入力する。ここでは、音符ごとに3つの代表値が入力される。受付部12は、入力領域3上に入力された代表値を受け付ける。
 記憶部140等に記憶された訓練済モデルMは、図4に示すように、例えばニューラルネットワーク(図4の例ではDNN(深層ニューラルネットワーク)L1)を含む。使用者により選択された楽譜データD3および入力領域3に入力された各音符の3つの代表値は、訓練済モデルM(DNN)に与えられる。生成部13は、訓練済モデルMを用いて、楽譜データD3に対応する楽譜特徴量列と3つの代表値に対応する第1の特徴量列とを処理して、楽譜におけるピッチの時系列とスペクトル包絡とを含む結果データD1を生成する。結果データD1は、振幅が音符列における代表値の時間変化の精細度(fineness)よりも高い精細度で時間的に変化するように配列された第2の特徴量列に対応する音データ列である。なお、結果データは、楽譜におけるスペクトルの時系列を示す結果データD1であってもよい。
 第1の特徴量列は、アタックの代表値から生成されるアタックの特徴量列と、ボディの代表値から生成されるボディの特徴量列と、リリースの代表値から生成されるリリースの特徴量列とを含む。各区間の代表値を、前の音符の代表値から次の音符の代表値に滑らかに変化するよう平滑化し、その平滑化された代表値をその区間の代表値列としてもよい。音符列における各区間の代表値は、例えば、特徴量列において、当該区間内に配列された振幅の統計値である。統計値は、振幅の最大値、平均値、中央値、最頻値、分散または標準偏差であってもよい。一方で、代表値は、振幅の統計値に限定されない。例えば、代表値は、特徴量列における各区間内に配置された振幅の第1高調波の最大値と第2高調波の最大値との比、またはその比の対数値であってもよい。あるいは、代表値は、上記の第1高調波の最大値と第2高調波の最大値との平均値であってもよい。
 生成部13は、生成された結果データD1を記憶部140等に記憶させてもよい。処理部14は、例えばボコーダとして機能し、生成部13により生成された周波数領域の結果データD1から時間領域の波形を示す音声信号を生成する。生成した音信号を、処理部14に接続されたスピーカ等を含むサウンドシステムに供給することにより、音声信号に基づく音が出力される。本例では、音生成装置10は処理部14を含むが、実施形態はこれに限定されない。音生成装置10は、処理部14を含まなくてもよい。
 図3の例では、受付画面1において、入力領域3は参照領域2の下方に配置されるが、実施形態はこれに限定されない。受付画面1において、入力領域3は、参照領域2の上方に配置されてもよい。あるいは、受付画面1において、入力領域3は、参照領域2と重なるように配置されてもよい。ピアノロールの各音符の近傍に、その音符の3つの代表値が表示されてもよい。
 また、図3の例では、受付画面1は参照領域2を含み、参照領域2に参照画像4が表示されるが、実施形態はこれに限定されない。図5は、受付画面1の他の例を示す図である。図5の例では、受付画面1は参照領域2を含まない。入力領域3において、各音符の時間軸上での位置が隣り合う2つの点線により示される。また、各音符の複数の区間の境界が一点鎖線により示される。使用者は、操作部150を用いて、入力領域3上で振幅の代表値の所望の時系列を示す描画を行う。これにより、音符列における各音符の各区間について、振幅の代表値を入力することができる。
 図4の例では、訓練済モデルMは1つのDNNL1を含むが、実施形態はこれに限定されない。訓練済モデルMは、複数のDNNを含んでもよい。
 (3)訓練装置
 図6は、訓練装置20の構成を示すブロック図である。図7は、訓練装置20の動作例を説明するための図である。図6に示すように、訓練装置20は、抽出部21、生成部22および構築部23を含む。抽出部21、生成部22および構築部23の機能は、図1のCPU130が訓練プログラムを実行することにより実現される。抽出部21、生成部22および構築部23の少なくとも一部が電子回路等のハードウエアにより実現されてもよい。
 抽出部21は、記憶部140等に記憶された各参照データD2から参照音データ列と出力特徴量列とを抽出する。参照音データ列は、参照データD2が表す時間領域の波形の、周波数領域におけるスペクトルを表すデータであり、例えば、対応する参照データD2が示す波形の振幅スペクトル包絡の時系列とピッチの時系列との組み合わせでもよいし、メルスペクトログラム等でもよい。参照データD2を所定の時間フレームを用いて周波数解析することにより、所定間隔(例えば、5ms)ごとの参照音データの列が生成される。出力特徴量列は、参照音データ列に対応する波形の特徴量(例えば、振幅)の時系列(時系列データ)であって、特徴量は前記所定間隔(例えば、5ms)に対応する精細度で時間的に変化する。各種データ列におけるデータ間隔は、5msより短くてもよいし、長くてもよく、また、相互に同じでもよいし、異なっていてもよい。
 生成部22は、各出力特徴量列と対応する参照楽譜データD4とから、各音符の各区間の特徴量(例えば、振幅)の代表値を決定し、決定された代表値に応じて特徴量(例えば、振幅)が時間的に(離散的にないし間欠的に)変化する入力特徴量列を生成する。具体的には、生成部22は、図7に示すように、まず、出力特徴量列と参照楽譜データD4とに基づいて、各音符のアタック、ボディおよびリリースの3区間を特定し、さらに、出力特徴量列において、各区間内の特徴量(例えば、振幅)の代表値を抽出する。図7の例では、各区間内の特徴量(例えば、振幅)の代表値は最大値であるが、当該区間内の特徴量(例えば、振幅)の他の統計値でもよいし、統計値以外の代表値でもよい。生成部22は、抽出された複数の区間内の特徴量(例えば、振幅)の代表値に基づいて、音符列におけるアタック、ボディおよびリリースの3区間にそれぞれ対応する3つの特徴量(例えば、振幅)の時系列である入力特徴量列を生成する。
 入力特徴量列は、音符ごとに生成される代表値の時系列なので、出力特徴量列と比べて精細度が遥かに低い。生成する入力特徴量列は、区間ごとの代表値を、そのまま時間軸上のその対応する区間に並べた階段状に変化する特徴量列でもよいし、値が急激に変化しないよう平滑化された特徴量列でもよい。平滑化された入力特徴量列は、例えば、各区間の始点で代表値となるよう、その区間の手前で特徴量がゼロから徐々に増加し、その区間で特徴量が代表値を維持し、その区間の終点以降で特徴量が代表値からゼロまで徐々に減少する特徴量列である。平滑化された特徴量を用いた場合は、各区間に生成される音の特徴量に加え、その直前ないし直後に生成される音の特徴量を、当該区間の代表値により制御できる。
 構築部23は、DNNで構成される生成モデルm(未訓練または予備訓練済)を用意し、各参照データD2から抽出された参照音データ列と、生成された入力特徴量列および対応する参照楽譜データD4から生成される楽譜特徴量列とに基づいて、その生成モデルmを訓練する機械学習を行う。この訓練により、入力特徴量列および楽譜特徴量列と、参照音データ列との間の入出力関係を習得した訓練済モデルMが構築される。用意される生成モデルmは、図4に示すように、1つのDNNL1を含んでもよいし、複数のDNNを含んでもよい。構築部23は、構築された訓練済モデルMを記憶部140等に記憶させる。
 (4)音生成処理
 図8は、図2の音生成装置10による音生成処理の一例を示すフローチャートである。図8の音生成処理は、図1のCPU130が記憶部140等に記憶された音生成プログラムを実行することにより行われる。まず、CPU130は、使用者により楽譜データD3が選択されたか否かを判定する(ステップS1)。楽譜データD3が選択されない場合、CPU130は、楽譜データD3が選択されるまで待機する。
 楽譜データD3が選択された場合、CPU130は、図3の受付画面1を表示部160に表示させる(ステップS2)。受付画面1の参照領域2には、ステップS1で選択された楽譜データD3に基づく参照画像4が表示される。次に、CPU130は、受付画面1の入力領域3上で音符列の各区間における特徴量(例えば、振幅)の代表値を受け付ける(ステップS3)。
 続いて、CPU130は、訓練済モデルMを用いて、ステップS1で選択された楽譜データD3の楽譜特徴量列およびステップS4で受け付けられた代表値から生成された第1の特徴量列を処理して、結果データD1を生成する(ステップS4)。その後、CPU130は、ステップS4で生成された結果データD1から時間領域の波形である音声信号を生成し(ステップS5)、音生成処理を終了する。
 (5)訓練処理
 図9は、図6の訓練装置20による訓練処理の一例を示すフローチャートである。図9の訓練処理は、図1のCPU130が記憶部140等に記憶された訓練プログラムを実行することにより行われる。まず、CPU130は、記憶部140等から訓練に用いる複数の参照データD2を取得する(ステップS11)。次に、CPU130は、ステップS11で取得された各参照データD2から参照音データ列を抽出する(ステップS12)。また、CPU130は、各参照データD2から出力特徴量列(例えば、振幅の時系列)を抽出する(ステップS13)。
 続いて、CPU130は、抽出された出力特徴量列と対応する参照楽譜データD4とから音符列の各音符の各区間の代表値(例えば、振幅の最大値)を決定し、決定された各区間の代表値に基づいて入力特徴量列(例えば、3つの振幅の時系列)を生成する(ステップS14)。その後、CPU130は、生成モデルmを用意し、各参照データD2に対応する参照楽譜データD4に基づく楽譜特徴量列および入力特徴量列と、参照音データ列とに基づいてその生成モデルmを訓練し、楽譜特徴量列および入力特徴量列と、参照音データ列との間の入出力関係を生成モデルmに機械学習させる(ステップS15)。
 次に、CPU130は、生成モデルmが入出力関係を習得するために十分な機械学習が実行されたか否かを判定する(ステップS16)。機械学習が不十分な場合、CPU130はステップS15に戻る。十分な機械学習が実行されるまで、ステップS15~S16が繰り返される。機械学習の繰り返し回数は、構築される訓練済モデルMが満たすべき品質条件に応じて変化する。ステップS16の判定は、品質条件の指標となる損失関数に基づいて行われる。例えば、入力特徴量列(および楽譜特徴量列)を供給された生成モデルmが出力する音データ列と、参照音データ列との差異を示す損失関数が、所定の値よりも小さくなれば、機械学習が十分と判定される。所定の値は、処理システム100の利用者によって、所望の品質(品質条件)に応じて適宜設定されてもよい。また、このような判定に代えて、または、このような判定と共に、繰り返し回数が所定の回数に到達したか否かが判定されてもよい。十分な機械学習が実行された場合、CPU130は、その訓練により楽譜特徴量列および入力特徴量列と、参照音データ列との間の入出力関係を習得した生成モデルmを、構築された訓練済モデルMとして保存し(ステップS17)、訓練処理を終了する。この訓練処理により、入力特徴量列および参照楽譜データD4(または、参照楽譜データD4から生成される楽譜特徴量列)と、参照音データ列との間の入出力関係を習得した訓練済モデルMが構築される。
 なお、実施形態においては、1つの音符がアタック、ボディ、リリースの3区間に区分される例を説明したが、区間の区分方法はこれに限られるものではない。例えば、アタックとその後(ボディとリリース)の2区間に区分してもよい。あるいは、ボディが所定長より長ければ、そのボディを複数のサブボディに区分し、全体として4以上の区間となるよう区分してもよい。
 また、実施形態において、第1の特量量列および入力特徴量列が、それぞれ、音符の全区間の特徴量列、例えば、アタックとボディとリリースの3つの特徴量列を含む例を説明した。しかしながら、第1の特量量列および入力特徴量列が、それぞれ、音符の区分された全区間の特徴量列を含んでいることは必須ではない。すなわち、第1の特量量列および入力特徴量列は、それぞれ、音符の区分された複数の区間の内のいずれかの区間の特徴量列を含んでいなくてもよい。例えば、第1の特徴量列および入力特徴量列は、それぞれ、アタックの特徴量列だけを含んでいてもよい。あるいは、第1の特徴量列および入力特徴量列は、それぞれ、アタックとリリースの2特徴量列だけを含んでいてもよい。
 さらに、実施形態においては、第1の特量量列および入力特徴量列が、それぞれ、音符の区分された区間(例えば、アタック、ボディ、およびリリース)毎に独立した複数の特徴量列を含む例を説明した。しかしながら、第1の特量量列および入力特徴量列が、それぞれ、音符の区分された区間毎に独立した複数の特徴量列を含むことは必須ではない。例えば、第1の特徴量列を単一特徴量列とし、その単一特徴量列に、音符の区分された区間の特徴量の代表値(例えば、アタックの代表値、ボディの代表値、およびリリースの代表値)を全て含めてもよい。その単一特徴量列では、或る区間とその次の区間とを接続する微小範囲(数フレーム程度の長さ)において、或る区間の代表値から次の区間の代表値へ徐々に変化するよう、特徴量が平滑化されていてもよい。
 (6)実施形態の効果
 以上説明したように、本実施形態に係る音生成方法は、複数の区間からなる音符の各区間について音楽的な特徴量の代表値を受け付け、訓練済モデルを用いて、前記各区間の代表値に応じた第1の特徴量列を処理して、音楽的な特徴量が連続的に変化する第2の特徴量列に対応する音データ列を生成し、コンピュータにより実現される。前述の通り、「音楽的な特徴量」との語は、特徴量が音楽的な種別(例えば、振幅、ピッチ、音色など)であることを示す。第1の特徴量列および第2の特徴量列は、いずれも、「音楽的な特徴量」の時系列データの一例である。すなわち、第1の特徴量列および第2の特徴量列の各々においてその変化が示される特徴量は、いずれも、「音楽的な特徴量」である。
 この方法によれば、音楽的な特徴量の音符の部分ごとの代表値が入力される場合でも、高い精細度で連続的に変化する特徴量列に対応する音データ列が生成される。生成される音データ列は、音楽的な特徴量が詳細に(言い換えれば、絶え間なくないし連続的に素早く)時間変化し、自然な音波形を示す。したがって、使用者は、音楽的な特徴量の詳細な時間変化を入力する必要がない。
 複数の区間は、少なくともアタックを含んでもよい。この方法によれば、少なくともアタックを含む複数の区間からなる音符の各区間について音楽的な特徴量の代表値を受け付け、訓練済モデルを用いて、前記各区間の代表値に応じた第1の特徴量列を処理して、音楽的な特徴量が連続的に変化する第2の特徴量列に対応する音データ列を生成する。
 複数の区間は、さらに、ボディとリリースの何れかを含んでもよい。この方法によれば、ボディとリリースの何れかを含む複数の区間からなる音符の各区間について音楽的な特徴量の代表値を受け付け、訓練済モデルを用いて、前記各区間の代表値に応じた第1の特徴量列を処理して、音楽的な特徴量が連続的に変化する第2の特徴量列に対応する音データ列を生成する。
 訓練済モデルは、機械学習により、音波形を示す参照データの各区間の音楽的な特徴量の代表値に対応する入力特徴量列と、当該参照データの連続的に変化する音楽的な特徴量を示す出力特徴量列との間の入出力関係を習得済であってもよい。なお、出力特徴量列および入力特徴量列は、いずれも、「音楽的な特徴量」の時系列データの一例である。すなわち、出力特徴量列および入力特徴量列の各々においてその変化が示される特徴量は、いずれも、「音楽的な特徴量」である。
 入力特徴量列は、区間毎に独立した複数の特徴量列を含んでもよい。
 入力特量量列は、その値が急激に変化しないよう平滑化された特徴量列であってもよい。
 各区間の代表値は、出力特徴量列において、当該区間内の音楽的な特徴量の統計値を示してもよい。
 音生成方法は、音符列における音符の各区間の音楽的な特徴量が表示される受付画面をさらに提示し、代表値は、受付画面を用いて、ユーザ(使用者)により入力されてもよい。この場合、使用者は、音符列における複数の音符の時間軸上での位置を視認しつつ、代表値を容易に入力することができる。
 前記音生成方法は、さらに、周波数領域の波形を示す前記音データ列を、時間領域の波形へと変換してもよい。
 本実施形態に係る訓練方法は、音波形を示す参照データから音楽的な特徴量が連続的に変化する参照音データ列と、その音楽的な特徴量の時系列である出力特徴量列とを抽出し、出力特徴量列から音楽的な特徴量が音符の区間ごとに変化する入力特徴量列を生成し、入力特徴量列と参照音データ列とを用いた機械学習により、入力特徴量列と参照音データ列との間の入出力関係を習得した訓練済モデルを構築し、コンピュータにより実現される。
 この方法によれば、音符列における各音符の各区間の音楽的な特徴量の代表値が入力される場合でも、音楽的な特徴量が高い精細度で絶え間なくないし連続的に時間変化する第2の特徴量列に対応する音データ列を生成可能な訓練済モデルMが構築される。
 入力特徴量列は、出力特徴量列において、複数の区間の各々の音楽的な特徴量から決定された代表値に基づいて生成されてもよい。
 (7)振幅以外の特徴量を用いる例
 上記実施形態において、使用者は、生成される音を制御する制御値として各音符の各区間の振幅の最大値を入力するが、実施形態はこれに限定されない。制御値として用いるのは振幅以外のいかなる特徴量でもよく、最大値以外のいかなる代表値でもよい。以下、第2実施形態に係る音生成装置10および訓練装置20について、第1実施形態に係る音生成装置10および訓練装置20と共通する点と異なる点とを説明する。
 本実施形態における音生成装置10は、以下の点を除いて、図2を参照して説明した第1実施形態の音生成装置20と同様である。提示部11は、使用者により選択された楽譜データD3に基づいて、受付画面1を表示部160に表示させる。図10は、第2実施形態における受付画面1の一例を示す図である。図10に示すように、本実施形態における受付画面1には、図3の入力領域3に代えて、3つの入力領域3a,3b,3cが参照領域2と対応するように配置される。
 図10の例では、参照画像4の各音符のアタック、ボディおよびリリースの3区間の特徴量の代表値が、上下方向に延びるバーとして、3つの入力領域3a,3b,3cにそれぞれ表示される。第2実施形態における特徴量はピッチであり、代表値は各区間におけるピッチの分散である。入力領域3aの各バーの長さは、対応する音符のアタックにおけるピッチの分散を示す。入力領域3bの各バーの長さは、対応する音符のボディにおけるピッチの分散を示す。入力領域3cの各バーの長さは、対応する音符のリリースにおけるピッチの分散を示す。
 使用者は、操作部150を用いて各バーの長さを変化させることにより、音符列における各音符のアタック、ボディおよびリリースの各区間の特徴量の代表値を入力領域3a,3b,3cにそれぞれ入力する。受付部12は、入力領域3a~3cの上に入力された代表値を受け付ける。
 生成部13は、訓練済モデルMを用いて、楽譜データD3に基づく楽譜特徴量列および各音符の3つの代表値(ピッチの分散)に基づく第1の特徴量列を処理して、結果データD1を生成する。結果データD1は、ピッチが高い精細度で連続的に変化する第2の特徴量列を含む音データ列である。生成部13は、生成された結果データD1を記憶部140等に記憶させてもよい。また、生成部13は、周波数領域の結果データD1に基づいて、時間領域の波形である音声信号を生成し、サウンドシステムに供給する。なお、生成部13は、結果データD1に含まれる第2の特徴量列(ピッチの時系列)を表示部160に表示させてもよい。
 本実施形態における訓練装置20は、以下の点を除いて、図6を参照して説明した第1実施形態の訓練装置20と同様である。本実施形態においては、図9の訓練処理のステップS13で抽出すべき出力特徴量列であるピッチの時系列は、直前のステップS12において、参照音データ列の一部として抽出済みである。CPU130(抽出部21)は、ステップS13において、複数の参照データD2の各々における振幅の時系列を、出力特徴量列としてではなく、音を3つの部分に分離する指標として抽出する。
 次のステップS14において、CPU130は、その振幅の時系列に基づいて、参照音データ列に含まれるピッチの時系列(出力特徴量列)を、音のアタック、音のリリースおよびアタックとリリースとの間のボディの3区間に分け、各区間のピッチ列をそれぞれ統計分析してその区間のピッチの分散を決定し、決定された各区間の代表値に基づいて入力特徴値列を生成する。
 また、CPU130(構築部23)は、ステップS15~S16において、各参照データD2から生成した参照音データ列と入力特徴量とに対応する参照楽譜データD4に基づいて、機械学習(生成モデルmの訓練)を繰り返し行うことにより、参照楽譜データD4に対応する楽譜特徴量列および入力特徴量列と、出力特徴量に対応する参照音データ列との間の入出力関係を習得した訓練済モデルMを構築する。
 本実施形態の音生成装置10において、使用者は、音符列の各音符のアタック、ボディおよびリリースの各区間のピッチの分散を入力することにより、その区間の付近において生成される音の、高い精細度で連続的に変化するピッチの変化幅を効果的に制御できる。なお、受付画面1は入力領域3a~3cを含むが、実施形態はこれに限定されない。受付画面1は、入力領域3a,3b,3cのうち、いずれか1つまたは2つの入力領域を含まなくてもよい。また、本実施形態においても、受付画面1は参照領域2を含まなくてもよい。
 1…受付画面,2…参照領域,3,3a~3c…入力領域,4…参照画像,10…音生成装置,11…提示部,12…受付部,13…生成部,14…処理部,20…訓練装置,21…抽出部,22…生成部,23…構築部,100…処理システム,110…RAM,120…ROM,130…CPU,140…記憶部,150…操作部,160…表示部,170…バス,D1…結果データ,D2…参照データ,D3…楽譜データ,D4…参照楽譜データ,L1…DNN,m…生成モデル,M…訓練済モデル

Claims (16)

  1.  複数の区間からなる音符の各区間について音楽的な特徴量の代表値を受け付け、
     訓練済モデルを用いて、前記各区間の代表値に応じた第1の特徴量列を処理して、前記音楽的な特徴量が連続的に変化する第2の特徴量列に対応する音データ列を生成する、
     コンピュータにより実現される音生成方法。
  2.  前記複数の区間は、少なくともアタックを含む、請求項1記載の音生成方法。
  3.  前記複数の区間は、さらに、ボディとリリースの何れかを含む、請求項2記載の音生成方法。
  4.  前記訓練済モデルは、機械学習により、音波形を示す参照データの前記各区間の前記音楽的な特徴量の代表値に対応する入力特徴量列と、当該参照データの連続的に変化する前記音楽的な特徴量を示す出力特徴量列との間の入出力関係を習得済である、請求項1~3のいずれか一項に記載の音生成方法。
  5.  前記入力特徴量列は、区間毎に独立した複数の特徴量列を含む、請求項4記載の音生成方法。
  6.  前記入力特量量列は、その値が急激に変化しないよう平滑化された特徴量列である、請求項4または5記載の音生成方法。
  7.  各区間の前記代表値は、前記出力特徴量列において、当該区間内の前記音楽的な特徴量の統計値を示す、請求項1~6のいずれか一項に記載の音生成方法。
  8.  音符列における音符の各区間の音楽的な特徴量が表示される受付画面をさらに提示し、
     前記代表値は、前記受付画面を用いて、ユーザにより入力される、請求項1~7のいずれか一項に記載の音生成方法。
  9.  さらに、周波数領域の波形を示す前記音データ列を、時間領域の波形へと変換する、請求項1~8のいずれか一項に記載の音生成方法。
  10.  音波形を示す参照データから音楽的な特徴量が連続的に変化する参照音データ列と、その音楽的な特徴量の時系列である出力特徴量列とを抽出し、
     前記出力特徴量列から前記音楽的な特徴量が音符の区間ごとに変化する入力特徴量列を生成し、
     前記入力特徴量列と前記参照音データ列とを用いた機械学習により、前記入力特徴量列と前記参照音データ列との間の入出力関係を習得した訓練済モデルを構築する、
     コンピュータにより実現される訓練方法。
  11.  前記入力特徴量列は、前記出力特徴量列において、複数の区間の各々の音楽的な特徴量から決定された代表値に基づいて生成される、請求項10記載の訓練方法。
  12.  前記入力特徴量列は、区間毎に独立した複数の特徴量列を含む、請求項10または11記載の音生成方法。
  13.  複数の区間からなる音符の各区間について音楽的な特徴量の代表値を受け付ける受付部と、
     訓練済モデルを用いて、前記各区間の代表値に応じた第1の特徴量列を処理して、前記音楽的な特徴量が連続的に変化する第2の特徴量列に対応する音データ列を生成する生成部とを備える、音生成装置。
  14.  音波形を示す参照データから音楽的な特徴量が連続的に変化する参照音データ列と、その音楽的な特徴量の時系列である出力特徴量列とを抽出する抽出部と、
     前記出力特徴量列から前記音楽的な特徴量が音符の区間ごとに変化する入力特徴量列を生成する生成部と、
     前記入力特徴量列と前記参照音データ列とを用いた機械学習により、前記入力特徴量列と前記参照音データ列との間の入出力関係を習得した訓練済モデルを構築する構築部とを備える、訓練装置。
  15.  1ないし複数のコンピュータに、
     複数の区間からなる音符の各区間について音楽的な特徴量の代表値を受け付け、
     訓練済モデルを用いて、前記各区間の代表値に応じた第1の特徴量列を処理して、前記音楽的な特徴量が連続的に変化する第2の特徴量列に対応する音データ列を生成するステップを行わせる、音生成プログラム。
  16.  1ないし複数のコンピュータに、
     音波形を示す参照データから音楽的な特徴量が連続的に変化する参照音データ列と、その音楽的な特徴量の時系列である出力特徴量列とを抽出し、
     前記出力特徴量列から前記音楽的な特徴量が音符の区間ごとに変化する入力特徴量列を生成し、
     前記入力特徴量列と前記参照音データ列とを用いた機械学習により、前記入力特徴量列と前記参照音データ列との間の入出力関係習得した訓練済モデルを構築するステップを行わせる、訓練プログラム。
PCT/JP2021/045964 2021-02-10 2021-12-14 機械学習モデルを用いた音生成方法、機械学習モデルの訓練方法、音生成装置、訓練装置、音生成プログラムおよび訓練プログラム WO2022172577A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202180092868.7A CN116806354A (zh) 2021-02-10 2021-12-14 使用机器学习模型的音生成方法、机器学习模型的训练方法、音生成装置、训练装置、音生成程序及训练程序

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021-020085 2021-02-10
JP2021020085A JP2022122689A (ja) 2021-02-10 2021-02-10 機械学習モデルを用いた音生成方法、機械学習モデルの訓練方法、音生成装置、訓練装置、音生成プログラムおよび訓練プログラム

Publications (1)

Publication Number Publication Date
WO2022172577A1 true WO2022172577A1 (ja) 2022-08-18

Family

ID=82838650

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/045964 WO2022172577A1 (ja) 2021-02-10 2021-12-14 機械学習モデルを用いた音生成方法、機械学習モデルの訓練方法、音生成装置、訓練装置、音生成プログラムおよび訓練プログラム

Country Status (4)

Country Link
US (1) US20230395046A1 (ja)
JP (1) JP2022122689A (ja)
CN (1) CN116806354A (ja)
WO (1) WO2022172577A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017097332A (ja) * 2016-08-26 2017-06-01 株式会社テクノスピーチ 音声合成装置および音声合成方法
JP2018077283A (ja) * 2016-11-07 2018-05-17 ヤマハ株式会社 音声合成方法
JP2019008206A (ja) * 2017-06-27 2019-01-17 日本放送協会 音声帯域拡張装置、音声帯域拡張統計モデル学習装置およびそれらのプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017097332A (ja) * 2016-08-26 2017-06-01 株式会社テクノスピーチ 音声合成装置および音声合成方法
JP2018077283A (ja) * 2016-11-07 2018-05-17 ヤマハ株式会社 音声合成方法
JP2019008206A (ja) * 2017-06-27 2019-01-17 日本放送協会 音声帯域拡張装置、音声帯域拡張統計モデル学習装置およびそれらのプログラム

Also Published As

Publication number Publication date
US20230395046A1 (en) 2023-12-07
JP2022122689A (ja) 2022-08-23
CN116806354A (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
CN109952609B (zh) 声音合成方法
CN105513583B (zh) 一种歌曲节奏的显示方法及其系统
US9552741B2 (en) Systems and methods for quantifying a sound into dynamic pitch-based graphs
KR101325722B1 (ko) 사용자 입력 노래에 대응한 악보 생성 장치와 그 방법
JP7124373B2 (ja) 学習装置、音響生成装置、方法及びプログラム
Dinther et al. Perception of acoustic scale and size in musical instrument sounds
US9734810B2 (en) Automatic harmony generation system
JP2018077283A (ja) 音声合成方法
CN112712783B (zh) 生成音乐的方法和装置、计算机设备和介质
WO2022172577A1 (ja) 機械学習モデルを用いた音生成方法、機械学習モデルの訓練方法、音生成装置、訓練装置、音生成プログラムおよび訓練プログラム
WO2022172576A1 (ja) 機械学習モデルを用いた音生成方法、機械学習モデルの訓練方法、音生成装置、訓練装置、音生成プログラムおよび訓練プログラム
CN116168678A (zh) 语音合成方法、装置、计算机设备和存储介质
EP2634769B1 (en) Sound synthesizing apparatus and sound synthesizing method
Mayor et al. Kaleivoicecope: voice transformation from interactive installations to video games
JP2020204755A (ja) 音声処理装置、および音声処理方法
US20240087552A1 (en) Sound generation method and sound generation device using a machine learning model
Cai Informatization integration strategy of modern popular music teaching and traditional music culture in colleges and universities in the era of artificial intelligence
Rajan et al. A continuous time model for Karnatic flute music synthesis
CN113724542B (zh) 一种复谱的拉伸显示方法
WO2022202415A1 (ja) 機械学習モデルを用いた信号処理方法、信号処理装置および音生成方法
JP2018077280A (ja) 音声合成方法
JP6822075B2 (ja) 音声合成方法
Kambali et al. Real Time Voice Cloning System
KR20240010344A (ko) 악기 연주 교습 방법 및 악기 연주 교습 장치
Siddiq Real-time morphing of impact sounds

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21925820

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 202180092868.7

Country of ref document: CN

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21925820

Country of ref document: EP

Kind code of ref document: A1