WO2022172576A1 - 機械学習モデルを用いた音生成方法、機械学習モデルの訓練方法、音生成装置、訓練装置、音生成プログラムおよび訓練プログラム - Google Patents

機械学習モデルを用いた音生成方法、機械学習モデルの訓練方法、音生成装置、訓練装置、音生成プログラムおよび訓練プログラム Download PDF

Info

Publication number
WO2022172576A1
WO2022172576A1 PCT/JP2021/045962 JP2021045962W WO2022172576A1 WO 2022172576 A1 WO2022172576 A1 WO 2022172576A1 JP 2021045962 W JP2021045962 W JP 2021045962W WO 2022172576 A1 WO2022172576 A1 WO 2022172576A1
Authority
WO
WIPO (PCT)
Prior art keywords
sequence
feature
musical
input
feature quantity
Prior art date
Application number
PCT/JP2021/045962
Other languages
English (en)
French (fr)
Inventor
慶二郎 才野
竜之介 大道
ボナダ ジョルディ
ブラアウ メルレイン
Original Assignee
ヤマハ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤマハ株式会社 filed Critical ヤマハ株式会社
Priority to CN202180092886.5A priority Critical patent/CN116830189A/zh
Publication of WO2022172576A1 publication Critical patent/WO2022172576A1/ja
Priority to US18/447,051 priority patent/US20230386440A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H7/00Instruments in which the tones are synthesised from a data store, e.g. computer organs
    • G10H7/08Instruments in which the tones are synthesised from a data store, e.g. computer organs by calculating functions or polynomial approximations to evaluate amplitudes at successive sample points of a tone waveform
    • G10H7/12Instruments in which the tones are synthesised from a data store, e.g. computer organs by calculating functions or polynomial approximations to evaluate amplitudes at successive sample points of a tone waveform by means of a recursive algorithm using one or more sets of parameters stored in a memory and the calculated amplitudes of one or more preceding sample points
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/02Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
    • G10H1/06Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour
    • G10H1/12Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour by filtering complex waveforms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10GREPRESENTATION OF MUSIC; RECORDING MUSIC IN NOTATION FORM; ACCESSORIES FOR MUSIC OR MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR, e.g. SUPPORTS
    • G10G1/00Means for the representation of music
    • G10G1/04Transposing; Transcribing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0033Recording/reproducing or transmission of music for electrophonic musical instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H3/00Instruments in which the tones are generated by electromechanical means
    • G10H3/12Instruments in which the tones are generated by electromechanical means using mechanical resonant generators, e.g. strings or percussive instruments, the tones of which are picked up by electromechanical transducers, the electrical signals being further manipulated or amplified and subsequently converted to sound by a loudspeaker or equivalent instrument
    • G10H3/125Extracting or recognising the pitch or fundamental frequency of the picked up signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/091Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith
    • G10H2220/101Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith for graphical creation, edition or control of musical data or parameters
    • G10H2220/126Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith for graphical creation, edition or control of musical data or parameters for graphical editing of individual notes, parts or phrases represented as variable length segments on a 2D or 3D representation, e.g. graphical edition of musical collage, remix files or pianoroll representations of MIDI-like files
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/541Details of musical waveform synthesis, i.e. audio waveshape processing from individual wavetable samples, independently of their origin or of the sound they represent
    • G10H2250/551Waveform approximation, e.g. piecewise approximation of sinusoidal or complex waveforms

Definitions

  • the present invention relates to a sound generation method, training method, sound generation device, training device, sound generation program, and training program capable of generating sound.
  • a sound generation method receives a first feature sequence in which musical features change with time, and input features in which musical features change with time at a first definition. I learned the input/output relationship between the quantity sequence and the reference sound data sequence corresponding to the output feature quantity sequence whose musical feature quantity changes with time at a second definition higher than the first definition. Using the trained model, the first feature sequence is processed to generate a sound data sequence corresponding to the second feature sequence in which the musical feature changes at the second definition; Realized.
  • musical feature quantity indicates that the feature quantity is a musical type (for example, amplitude, pitch, timbre, etc.).
  • the first feature quantity sequence, the input feature quantity sequence, the output feature quantity sequence, and the second feature quantity sequence are all examples of time-series data of "musical feature quantity (feature quantity)".
  • the feature amounts showing the change in each of the first feature amount sequence, the input feature amount sequence, the output feature amount sequence, and the second feature amount sequence are all "musical feature amounts”.
  • a training method includes a reference sound data string in which musical features change with time at a predetermined precision from reference data representing sound waveforms, and a time series of the musical features.
  • a certain output feature value string is extracted, and from the output feature value string, an input feature value string in which the musical feature value changes with time at a precision lower than a predetermined precision is generated, and the input feature value string is referenced.
  • a trained model that has learned the input/output relationship between the input feature amount string and the reference sound data string is constructed by machine learning using the sound data string, and is realized by a computer.
  • a sound generation device includes a reception unit that receives a first feature sequence in which musical features change with time, and and a reference sound data sequence corresponding to an output feature sequence whose musical features change with time at a second definition higher than the first definition.
  • the first feature quantity string is processed to generate a sound data string corresponding to the second feature quantity string in which the musical feature quantity changes at the second definition. and a generator for generating.
  • a training apparatus includes a reference sound data string in which a musical feature amount changes with time at a predetermined precision from reference data representing a sound waveform, and a time series of the musical feature amount. and a generation unit for generating an input feature value sequence in which the musical feature value temporally changes at a definition lower than a predetermined definition from the output feature value sequence and a building unit that builds a trained model that has learned the input/output relationship between the input feature quantity string and the reference sound data string by machine learning using the input feature quantity string and the reference sound data string.
  • FIG. 1 is a block diagram showing the configuration of a processing system including a sound generator and a training device according to one embodiment of the present invention.
  • the processing system 100 includes a RAM (Random Access Memory) 110, a ROM (Read Only Memory) 120, a CPU (Central Processing Unit) 130, a storage section 140, an operation section 150 and a display section 160.
  • RAM Random Access Memory
  • ROM Read Only Memory
  • CPU 130 Central Processing Unit
  • storage section 140 an operation section 150
  • display section 160 a display section 160.
  • CPU 130 may be or include one or more of a CPU, MPU, GPU, ASIC, FPGA, DSP, and general purpose computer.
  • the RAM 110 consists of, for example, a volatile memory, and is used as a work area for the CPU 130.
  • the ROM 120 consists of, for example, non-volatile memory and stores a sound generation program and a training program.
  • the CPU 130 performs sound generation processing by executing a sound generation program stored in the ROM 120 on the RAM 110 . Further, CPU 130 performs training processing by executing a training program stored in ROM 120 on RAM 110 . Details of the sound generation process and the training process will be described later.
  • the sound generation program or training program may be stored in the storage unit 140 instead of the ROM 120.
  • the sound generation program or training program may be provided in a form stored in a computer-readable storage medium and installed in ROM 120 or storage unit 140 .
  • a sound generating program distributed from a server (including a cloud server) on the network may be installed in the ROM 120 or the storage unit 140. .
  • the storage unit 140 includes a storage medium such as a hard disk, an optical disk, a magnetic disk, or a memory card.
  • the storage unit 140 stores a trained model M, result data D1, a plurality of reference data D2, a plurality of musical score data D3, and a plurality of reference musical score data D4.
  • the plurality of reference data D2 and the plurality of reference musical score data D4 correspond to each other.
  • the reference data D2 (sound data) and the reference musical score data D4 (score data) “correspond” means, for example, that each note (and phoneme) of the music indicated by the musical score indicated by the reference musical score data D4 corresponds to the reference data D2.
  • the notes (and phonemes) of the music indicated by the waveform data indicated by are identical to each other, including their performance timing, performance intensity, performance expression, and the like.
  • the trained model M is a generative model that receives a score feature value string and a control value (input feature value string) of the score data D3, and estimates result data D1 (sound data string) according to the score feature value string and the control value. is.
  • the trained model M is constructed by the training device 20 by learning the input/output relationship between the musical score feature sequence, the input feature sequence, and the reference sound data sequence corresponding to the output feature sequence.
  • the trained model M is an AR (regression) type generative model, but may be a non-AR type generative model.
  • the input feature quantity sequence is a time series (time series data) in which the musical feature quantity changes with time at a first fineness. It is a time series that slowly changes discretely or intermittently.
  • the output feature value sequence is a time series (time-series data) in which the musical feature value changes temporally at a second resolution higher than the first resolution. It is a time series that either disappears or changes rapidly continuously.
  • the input feature quantity sequence and the output feature quantity sequence are each a feature quantity sequence, and the feature quantity sequence is time-series data of the musical feature quantity, and is data indicating temporal changes in the musical feature quantity. You can paraphrase it.
  • the musical feature quantity may be, for example, amplitude or its differential value, or pitch or its differential value.
  • the musical feature amount may include a spectral tilt or a spectral center of gravity instead of amplitude or the like, or may include a ratio of high-frequency power to low-frequency power (high-frequency power/low-frequency power).
  • musical feature quantity indicates that the feature quantity is a musical type (for example, amplitude, pitch, timbre, etc.), and hereinafter may be simply abbreviated as “feature quantity”.
  • the input feature value sequence, the output feature value sequence, the first feature value sequence, and the second feature value sequence in the present embodiment are all examples of time-series data of "musical feature values (feature values)." is.
  • the feature amounts showing the change in each of the input feature amount string, the output feature amount string, the first feature amount string, and the second feature amount string are all "musical feature amounts".
  • the sound data string is a string of frequency domain data that can be converted into a time domain sound waveform, and may be, for example, a combination of the time series of the amplitude spectral envelope of the waveform and the time series of the pitch, or a mel spectrogram. etc.
  • the definition does not mean the number of feature quantities within a unit time (temporal resolution), but rather the frequency of feature quantity changes or the content of high frequency components within a unit time. That is, the input feature value sequence is a feature value sequence obtained by lowering the definition of the output feature value sequence. or a feature quantity sequence obtained by applying a certain low-pass filter to the output feature quantity sequence.
  • the time resolution is the same between the input feature sequence and the output feature sequence.
  • the result data D1 indicates a sound data string corresponding to a sound feature string (a second feature string to be described later) generated by the sound generation device 10 .
  • the reference data D2 is waveform data used to train the trained model M, that is, a time series of sound waveform samples (time series data).
  • a time series (time series data) of feature amounts (for example, amplitude) extracted from each waveform data in relation to sound control is called an output feature amount sequence.
  • the musical score data D3 and the reference musical score data D4 represent musical scores each including a plurality of notes (note strings) arranged on the time axis.
  • the musical score feature quantity sequence generated from the musical score data D3 is used by the sound generator 10 to generate the result data D1.
  • the reference data D2 and the reference musical score data D4 are used for construction of the trained model M by the training device 20.
  • the operation unit 150 includes a pointing device such as a mouse or a keyboard, and is operated by the user to perform predetermined inputs.
  • the display unit 160 includes, for example, a liquid crystal display, and displays a predetermined GUI (Graphical User Interface), the result of sound generation processing, or the like. Operation unit 150 and display unit 160 may be configured by a touch panel display.
  • FIG. 2 is a block diagram showing the configuration of the sound generation device 10. As shown in FIG. 3 and 4 are diagrams for explaining an operation example of the sound generation device 10.
  • FIG. 2 sound generation device 10 includes presentation unit 11 , reception unit 12 , generation unit 13 and processing unit 14 .
  • the functions of the presentation unit 11, the reception unit 12, the generation unit 13, and the processing unit 14 are realized by the CPU 130 in FIG. 1 executing a sound generation program.
  • At least part of the presentation unit 11, reception unit 12, generation unit 13, and processing unit 14 may be realized by hardware such as an electronic circuit.
  • the presentation unit 11 causes the display unit 160 to display a reception screen 1 as a GUI for receiving input from the user.
  • a reception screen 1 is provided with a reference area 2 and an input area 3 .
  • a reference image 4 representing the positions of a plurality of notes on the time axis is displayed based on the musical score data D3 selected by the user.
  • the reference image 4 is, for example, a piano roll.
  • the input area 3 is arranged so as to correspond to the reference area 2.
  • the user roughly adjusts each feature amount on the input area 3 while looking at the notes in the reference image 4 so that the feature amount (amplitude in this example) changes over time. input.
  • the first feature value sequence can be input.
  • the amplitude is input so that the amplitude is small in the 1st to 5th measures of the musical score, large in the 6th to 7th measures, and slightly large in the 8th to 10th measures.
  • the accepting unit 12 accepts the first feature value sequence input to the input area 3 .
  • the trained model M stored in the storage unit 140 or the like includes, for example, a neural network (DNN (deep neural network) L1 in the example of FIG. 4), as shown in FIG.
  • the musical score data D3 selected by the user and the first feature value string input to the input area 3 are provided to the DNNL1.
  • the generation unit 13 uses the DNNL1 to process the musical score data D3 and the first feature value sequence, and generates result data D1 that is, for example, a combination of the pitch time series and the amplitude spectral envelope time series in the musical score. do.
  • result data D1 indicates a sound data string corresponding to the second feature amount string whose amplitude changes at the second definition.
  • the representative value is not limited to the statistic value of amplitude within a predetermined period in the second feature quantity sequence.
  • the representative value may be the ratio of the maximum value of the first harmonic and the maximum value of the second harmonic within a predetermined period in the second feature quantity sequence, or the logarithm of the ratio.
  • the representative value may be an average value of the maximum value of the first harmonic and the maximum value of the second harmonic.
  • the generation unit 13 may store the generated result data D1 in the storage unit 140 or the like.
  • the processing unit 14 functions, for example, as a vocoder, and generates an audio signal representing a time-domain waveform from the frequency-domain result data D ⁇ b>1 generated by the generation unit 13 .
  • sound generation device 10 includes the processing unit 14, but the embodiment is not limited to this.
  • the sound generation device 10 does not have to include the processing unit 14 .
  • the generation unit 13 uses DNNL1 to process the musical score data D3 and the first feature quantity sequence to generate a first intermediate feature quantity sequence whose amplitude changes over time.
  • the precision of the amplitude time series in the first intermediate feature quantity sequence is higher than the precision of the amplitude time series (first precision) in the first feature quantity sequence.
  • a first intermediate feature value sequence may be displayed in the input area 3 . The user can correct the first intermediate feature quantity sequence displayed in the input area 3 using the operation unit 150 .
  • the generation unit 13 uses DNNL2 to process the musical score data D3 and the first intermediate feature quantity sequence to generate a second intermediate feature quantity sequence whose amplitude changes over time.
  • the precision of the amplitude time series in the second intermediate feature quantity sequence is higher than the precision of the amplitude time series in the first intermediate feature quantity sequence.
  • a second intermediate feature sequence may be displayed in the input area 3 . The user can correct the second intermediate feature quantity sequence displayed in the input area 3 using the operation unit 150 .
  • musical score data is data representing a musical score including a plurality of notes (note strings) arranged on the time axis.
  • Data intervals in various data strings may be shorter or longer than 5 ms, and may be the same or different.
  • the generator 22 generates an input feature quantity sequence from each of the plurality of output feature quantity sequences.
  • the feature quantity eg, amplitude
  • the feature quantity temporally changes with a lower resolution than the time-series resolution of the feature quantity (eg, amplitude) in the output feature quantity sequence.
  • the generation unit 22 extracts the representative value of the amplitude within a predetermined period T including each time point t in the output feature sequence.
  • the interval between two adjacent time points t is, for example, 5 ms
  • the length of the period T is, for example, 3 seconds
  • each time point t is positioned at the center of the period T, for example.
  • the representative value of the amplitude in each period T is the maximum value of the amplitude within the period T, but other statistical values of the amplitude within the period T may be used.
  • the constructing unit 23 prepares a generative model m (untrained or pretrained) composed of a DNN, and stores the extracted reference sound data string, the generated input feature value string, and the storage unit 140 or the like.
  • the generative model m is trained based on the musical score feature value sequence generated from each reference musical score data D4. Through this training, a trained model M that has learned the input/output relationship between the input feature value sequence, the musical score feature value sequence, and the reference sound data sequence is constructed.
  • the prepared generative model m may include one DNNL1 as shown in FIG. 4, or may include a plurality of DNNL1 to L3 as shown in FIG.
  • the constructing unit 23 stores the constructed trained model M in the storage unit 140 or the like.
  • the CPU 130 When the musical score data D3 is selected, the CPU 130 causes the display unit 160 to display the acceptance screen 1 of FIG. 3 (step S2). A reference image 4 based on the musical score data D3 selected in step S1 is displayed in the reference area 2 of the reception screen 1. FIG. Next, the CPU 130 receives the first feature value sequence on the input area 3 of the reception screen 1 (step S3).
  • FIG. 9 is a flowchart showing an example of training processing by the training device 20 of FIG.
  • the training process in FIG. 9 is performed by CPU 130 in FIG. 1 executing a training program stored in storage unit 140 or the like.
  • the CPU 130 acquires a plurality of reference data D2 used for training from the storage unit 140 or the like (step S11).
  • the CPU 130 extracts a reference sound data string from each reference data D2 acquired in step S11 (step S12).
  • the CPU 130 extracts an output feature value sequence (for example, amplitude time series) from each reference data D2 acquired in step S1 (step S13).
  • step S16 determines whether sufficient machine learning has been performed for the generative model m to learn the input/output relationship. If the machine learning is insufficient, the CPU 130 returns to step S15. Steps S15 to S16 are repeated while changing parameters until sufficient machine learning is performed. The number of iterations of machine learning changes according to quality conditions that the trained model M to be constructed should satisfy.
  • the determination in step S16 is made based on a loss function that is an index of quality conditions. For example, the loss function that indicates the difference between the sound data string output by the generative model m for the input feature value string and the reference sound data string attached as a label to the input feature value string is If it is smaller than a predetermined value, it is determined that machine learning is sufficient.
  • the predetermined value may be appropriately set by the user of the processing system 100 according to the desired quality (quality condition). Alternatively, or together with such determination, it may be determined whether or not the number of repetitions has reached a predetermined number.
  • the CPU 130 saves the input/output relationship between the score feature value sequence and the input feature value sequence and the reference sound data sequence as a trained model M (step S17). ), ending the training process.
  • the generative model m obtains an input feature value string (for example, an input feature value string (x)) and a label attached to the input feature value string, "A sound data string corresponding to the input feature value string.
  • a certain reference sound data string for example, reference sound data string (x))” is learned.
  • the sound generation method accepts the first feature amount sequence in which the musical feature amount changes over time, A reference sound corresponding to an input feature value sequence that changes over time at a definition of 1 and an output feature value sequence that changes over time at a second definition whose musical feature value is higher than the first definition.
  • the first feature string is processed to produce a second feature string in which the musical feature changes at a second definition. is generated by a computer.
  • the term "musical feature quantity" indicates that the feature quantity is a musical type (eg, amplitude, pitch, timbre, etc.).
  • the first feature sequence, the input feature sequence, the output feature sequence, and the second feature sequence are all examples of "musical feature” time-series data.
  • the feature amounts showing the change in each of the first feature amount sequence, the input feature amount sequence, the output feature amount sequence, and the second feature amount sequence are all "musical feature amounts”.
  • the musical feature quantity in the received first feature quantity sequence changes roughly (in other words, in the first feature quantity sequence, the musical feature quantity is discrete or intermittent). ), a sound data string corresponding to the second feature quantity string is generated.
  • the musical feature amount changes in detail (in other words, constantly or continuously and rapidly), and natural speech is generated from the sound data string. Therefore, the user does not need to input detailed time series of musical feature quantities.
  • the musical feature amount at each point in the input feature amount sequence may represent the representative value of the musical feature amount within a predetermined period including the relevant point in the output feature amount sequence.
  • the representative value may indicate the statistic value of the musical feature amount within a predetermined period in the output feature amount sequence.
  • the sound generation method may further present a reception screen 1 on which the first feature sequence is displayed along the time axis, and the first feature sequence may be input by the user using the reception screen 1. .
  • the user can easily input the first feature quantity sequence while visually recognizing the position of the musical feature quantity in the first feature quantity sequence on the time axis.
  • the sound generation method may further convert the sound data string representing a frequency-domain waveform into a time-domain waveform.
  • the input feature quantity sequence is generated by extracting a representative value of the musical feature quantity within a predetermined period including the relevant time point in the output feature quantity sequence as the musical feature quantity at each time point in the input feature quantity sequence.
  • the representative value may indicate the statistic value of the musical feature amount within a predetermined period in the output feature amount sequence.
  • the reference data may indicate the sound waveform in the time domain
  • the reference sound data string may indicate the sound waveform in the frequency domain
  • Example using a feature amount other than amplitude the user inputs the maximum value of the amplitude as the control value to control the generated audio signal, but the embodiment is limited to this. not.
  • the control value may be another feature quantity.
  • the points common to and different from the sound generation device 10 and the training device 20 according to the first embodiment will be described for the sound generation device 10 and the training device 20 according to the second embodiment.
  • the sound generation device 10 of this embodiment is the same as the sound generation device 10 of the first embodiment described with reference to FIG. 2, except for the following points.
  • the presentation unit 11 causes the display unit 160 to display the reception screen 1 based on the musical score data D3 selected by the user.
  • FIG. 10 is a diagram showing an example of the reception screen 1 in the second embodiment. As shown in FIG. 10, three input areas 3a, 3b, and 3c are arranged to correspond to the reference area 2 in place of the input area 3 in FIG.
  • the user selects three first patterns in which the feature amounts (in this example, pitch variance) of the three parts of the sound corresponding to each note displayed in the reference image 4 change with time.
  • Each feature amount is input in the input areas 3a, 3b, and 3c, respectively.
  • the first feature value sequence can be input.
  • the time series of the pitch variance of the attack part of the sound corresponding to the note is input in the input area 3a
  • the time series of the pitch variance of the sustain part is input in the input area 3b
  • the pitch variance of the release portion is input in the input area 3c.
  • the pitch variance of the attack portion and the release portion in the 6th and 7th measures of the musical score is large
  • the pitch variance of the sustain portion in the 8th and 9th measures is large.
  • the generation unit 13 uses the trained model M to process the score feature value sequence and the first feature value sequence based on the score data D3 to generate result data D1.
  • the result data D1 includes a second feature quantity sequence that is a time series of pitches that change at the second definition.
  • the generation unit 13 may store the generated result data D1 in the storage unit 140 or the like.
  • the generator 13 also generates an audio signal, which is a waveform in the time domain, based on the result data D1 in the frequency domain, and supplies the audio signal to the sound system. Note that the generation unit 13 may cause the display unit 160 to display the second feature amount sequence included in the result data D1.
  • the training device 20 of this embodiment is similar to the training device 20 of the first embodiment described with reference to FIG. 6, except for the following points.
  • the pitch time series which is the output feature value string to be extracted in step S13 of the training process in FIG. 9, has already been extracted as part of the reference sound data string in step S12 immediately before.
  • the CPU 130 extraction unit 21 extracts the amplitude time series in each of the plurality of reference data D2 not as an output feature quantity sequence but as an index for separating sound into three parts.
  • the CPU 130 converts the pitch time series (output feature amount string) included in the reference sound data string into the sound attack portion, the sound release portion, and the attack portion.
  • the time series of the body part of the sound between the release part and the release part is divided into three parts, and each part is statistically analyzed to obtain the time series of the pitch variance (input feature value sequence) for each part.
  • reception screen 1 includes input areas 3a to 3c, the embodiment is not limited to this.
  • the reception screen 1 may not include any one or two of the input areas 3a, 3b, and 3c.
  • the reception screen 1 does not have to include the reference area 2 .
  • the sound is controlled by inputting three pitch dispersion sequences divided into three parts. It may be controlled.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

音楽的な特徴量が時間的に変化する第1の特徴量列の入力が受付部により受け付けられる。訓練済モデルを用いて、第1の特徴量列を処理して、特徴量が第2の精細度で変化する第2の特徴量列に対応する音データ列が生成部により生成される。訓練済モデルは、特徴量が第1の精細度で時間的に変化する入力特徴量列と、特徴量が第1の精細度よりも高い第2の精細度で時間的に変化する出力特徴量列に対応する参照音データ列との間の入出力関係を習得した機械学習モデルである。

Description

機械学習モデルを用いた音生成方法、機械学習モデルの訓練方法、音生成装置、訓練装置、音生成プログラムおよび訓練プログラム
 本発明は、音を生成することが可能な音生成方法、訓練方法、音生成装置、訓練装置、音生成プログラムおよび訓練プログラムに関する。
 使用者により指定された音量の時系列に基づいて音声信号を生成するアプリケーションが知られている。例えば、非特許文献1に記載されたアプリケーションにおいては、使用者による入力音から基本周波数、隠れ変数およびラウドネスが特徴量として抽出される。抽出された特徴量にスペクトラルモデリング合成が行われることにより、音声信号が生成される。
Jesse Engel, Lamtharn Hantrakul, Chenjie Gu and Adam Roberts, "DDSP: Differentiable Digital Signal Processing", arXiv:2001.04643v1 [cs.LG] 14 Jan 2020
 非特許文献1記載のアプリケーションを用いて、人の歌唱または演奏のように自然に変化する音声を示す音声信号を生成するには、使用者は、振幅、音量、ピッチ、音色(Timbre)などのいずれかの音楽的な特徴量の時系列を詳細に指定する必要がある。しかしながら、振幅、音量、ピッチ、音色などのいずれかの音楽的な特徴量の時系列を詳細に指定することは容易ではない。
 本発明の目的は、自然な音声を容易に取得することが可能な音生成方法、訓練方法、音生成装置、訓練装置、音生成プログラムおよび訓練プログラムを提供することである。
 本発明の一局面に従う音生成方法は、音楽的な特徴量が時間的に変化する第1の特徴量列を受け付け、音楽的な特徴量が第1の精細度で時間的に変化する入力特徴量列と、音楽的な特徴量が第1の精細度よりも高い第2の精細度で時間的に変化する出力特徴量列に対応する参照音データ列との間の入出力関係を習得した訓練済モデルを用いて、第1の特徴量列を処理して、音楽的な特徴量が第2の精細度で変化する第2の特徴量列に対応する音データ列を生成し、コンピュータにより実現される。なお、「音楽的な特徴量」との語は、特徴量が音楽的な種別(例えば、振幅、ピッチ、音色など)であることを示す。第1の特徴量列、入力特徴量列、出力特徴量列、および第2の特徴量列は、いずれも、「音楽的な特徴量(特徴量)」の時系列データの一例である。すなわち、第1の特徴量列、入力特徴量列、出力特徴量列、および第2の特徴量列の各々においてその変化が示される特徴量は、いずれも、「音楽的な特徴量」である。
 本発明の他の局面に従う訓練方法は、音波形を示す参照データから、音楽的な特徴量が所定精細度で時間的に変化する参照音データ列と、その音楽的な特徴量の時系列である出力特徴量列とを抽出し、出力特徴量列から、音楽的な特徴量が所定精細度よりも低い精細度で時間的に変化する入力特徴量列を生成し、入力特徴量列と参照音データ列とを用いた機械学習により、入力特徴量列と参照音データ列との間の入出力関係を習得した訓練済モデルを構築し、コンピュータにより実現される。
 本発明のさらに他の局面に従う音生成装置は、音楽的な特徴量が時間的に変化する第1の特徴量列を受け付ける受付部と、音楽的な特徴量が第1の精細度で時間的に変化する入力特徴量列と、音楽的な特徴量が第1の精細度よりも高い第2の精細度で時間的に変化する出力特徴量列に対応する参照音データ列との間の入出力関係を習得した訓練済モデルを用いて、第1の特徴量列を処理して、音楽的な特徴量が第2の精細度で変化する第2の特徴量列に対応する音データ列を生成する生成部とを備える。
 本発明のさらに他の局面に従う訓練装置は、音波形を示す参照データから、音楽的な特徴量が所定精細度で時間的に変化する参照音データ列と、その音楽的な特徴量の時系列である出力特徴量列とを抽出する抽出部と、出力特徴量列から、音楽的な特徴量が所定精細度よりも低い精細度で時間的に変化する入力特徴量列を生成する生成部と、入力特徴量列と参照音データ列とを用いた機械学習により、入力特徴量列と参照音データ列との間の入出力関係を習得した訓練済モデルを構築する構築部とを備える。
 本発明によれば、自然な音声を容易に取得することができる。
本発明の一実施形態に係る音生成装置および訓練装置を含む処理システムの構成を示すブロック図である。 音生成装置の構成を示すブロック図である。 音生成装置の動作例を説明するための図である。 音生成装置の動作例を説明するための図である。 音生成装置の他の動作例を説明するための図である。 訓練装置の構成を示すブロック図である。 訓練装置の動作例を説明するための図である。 図2の音生成装置による音生成処理の一例を示すフローチャートである。 図6の訓練装置による訓練処理の一例を示すフローチャートである。 第2実施形態における受付画面の一例を示す図である。
 (1)処理システムの構成
 以下、本発明の第1実施形態に係る音生成方法、訓練方法、音生成装置、訓練装置、音生成プログラムおよび訓練プログラムについて図面を用いて詳細に説明する。図1は、本発明の一実施形態に係る音生成装置および訓練装置を含む処理システムの構成を示すブロック図である。図1に示すように、処理システム100は、RAM(ランダムアクセスメモリ)110、ROM(リードオンリメモリ)120、CPU(中央演算処理装置)130、記憶部140、操作部150および表示部160を備える。中央演算処理装置としてCPU130は、CPU、MPU、GPU、ASIC、FPGA、DSP及び汎用コンピュータのうちの1つ以上であってもよいし、それらのうちの1又は複数を含んでもよい。
 処理システム100は、例えばPC、タブレット端末またはスマートフォン等のコンピュータにより実現される。あるいは、処理システム100は、イーサネット等の通信路で接続された複数のコンピュータの共同動作で実現されてもよい。RAM110、ROM120、CPU130、記憶部140、操作部150および表示部160は、バス170に接続される。RAM110、ROM120およびCPU130により音生成装置10および訓練装置20が構成される。本実施形態では、音生成装置10と訓練装置20とは共通の処理システム100により構成されるが、別個の処理システムにより構成されてもよい。
 RAM110は、例えば揮発性メモリからなり、CPU130の作業領域として用いられる。ROM120は、例えば不揮発性メモリからなり、音生成プログラムおよび訓練プログラムを記憶する。CPU130は、ROM120に記憶された音生成プログラムをRAM110上で実行することにより音生成処理を行う。また、CPU130は、ROM120に記憶された訓練プログラムをRAM110上で実行することにより訓練処理を行う。音生成処理および訓練処理の詳細については後述する。
 音生成プログラムまたは訓練プログラムは、ROM120ではなく記憶部140に記憶されてもよい。あるいは、音生成プログラムまたは訓練プログラムは、コンピュータが読み取り可能な記憶媒体に記憶された形態で提供され、ROM120または記憶部140にインストールされてもよい。あるいは、処理システム100がインターネット等のネットワークに接続されている場合には、当該ネットワーク上のサーバ(クラウドサーバを含む。)から配信された音生成プログラムがROM120または記憶部140にインストールされてもよい。
 記憶部140は、ハードディスク、光学ディスク、磁気ディスクまたはメモリカード等の記憶媒体を含む。記憶部140には、訓練済モデルM、結果データD1、複数の参照データD2、複数の楽譜データD3および複数の参照楽譜データD4が記憶される。複数の参照データD2と、複数の参照楽譜データD4とは、それぞれ対応する。参照データD2(音データ)と参照楽譜データD4(楽譜データ)とが「対応する」とは、例えば、参照楽譜データD4によって示される楽譜の示す楽曲の各音符(および音韻)と、参照データD2によって示される波形データの示す楽曲の各音符(および音韻)とが、その演奏タイミング、演奏強度、演奏表現などを含めて相互に同じであることをいう。訓練済モデルMは、楽譜データD3の楽譜特徴量列と制御値(入力特徴量列)とを受け取り、それら楽譜特徴量列と制御値とに従う結果データD1(音データ列)を推定する生成モデルである。訓練済モデルMは、楽譜特徴量列および入力特徴量列と、出力特徴量列に対応する参照音データ列との間の入出力関係を習得し、訓練装置20により構築される。本例では、訓練済モデルMはAR(回帰)タイプの生成モデルであるが、非ARタイプの生成モデルであってもよい。
 入力特徴量列は、音楽的な特徴量が第1の精細度(fineness)で時間的に変化する時系列(時系列データ)であり、例えば、音楽的な特徴量が音の時間部分ごとに離散的にないし間欠的にゆっくりと変化する時系列である。出力特徴量列は、音楽的な特徴量が第1の精細度よりも高い第2の精細度で時間的に変化する時系列(時系列データ)であり、例えば、音楽的な特徴量が絶え間なくないし連続的に素早く変化する時系列である。入力特徴量列および出力特徴量列は、各々、特徴量列であり、特徴量列は、音楽的な特徴量の時系列データであり、音楽的な特徴量の時間的な変化を示すデータと言い換えてもよい。音楽的な特徴量は、例えば振幅またはその微分値や、ピッチまたはその微分値であってもよい。音楽的な特徴量は、振幅等に代えて、スペクトル傾斜またはスペクトル重心を含んでもよいし、低域パワーに対する高域パワーの比(高域パワー/低域パワー)を含んでもよい。「音楽的な特徴量」との語は、特徴量が音楽的な種別(例えば、振幅、ピッチ、音色など)であることを示し、以下では、単に「特徴量」と略記することがある。本実施形態における入力特徴量列、出力特徴量列、第1の特徴量列、および第2の特徴量列は、いずれも、「音楽的な特徴量(特徴量)」の時系列データの一例である。すなわち、入力特徴量列、出力特徴量列、第1の特徴量列、および第2の特徴量列の各々においてその変化が示される特徴量は、いずれも、「音楽的な特徴量」である。他方、音データ列は、時間領域の音波形に変換できる周波数領域のデータの列であり、例えば、波形の振幅スペクトル包絡の時系列とピッチの時系列との組み合わせでもよいし、或いは、メルスペクトログラム等でもよい。
 ここで、精細度は、単位時間内の特徴量の数(時間分解能)を意味するのではなく、単位時間内における特徴量の変化の頻度または高い周波数成分の含有量を意味する。すなわち、入力特徴量列は出力特徴量列の精細度を下げて得た特徴量列であって、例えば、出力特徴量列をその大部分で直前の値と同じになるように加工した特徴量列または、出力特徴量列にある種のローパスフィルタを適用して得られる特徴量列等である。ここで、時間分解能については入力特徴量列と、出力特徴量列とで変わらない。
 結果データD1は、音生成装置10により生成された音の特徴量列(後述する第2の特徴量列)に対応する音データ列を示す。参照データD2は、訓練済モデルMを訓練するために用いる波形データ、すなわち音波形のサンプルの時系列(時系列データ)である。そして、音の制御に関連して各波形データから抽出された特徴量(例えば、振幅)の時系列(時系列データ)を出力特徴量列と呼ぶ。楽譜データD3および参照楽譜データD4は、それぞれ時間軸上に配置された複数の音符(音符列)を含む楽譜を示す。楽譜データD3から生成される楽譜特徴量列は、音生成装置10による結果データD1の生成に用いられる。参照データD2および参照楽譜データD4は、訓練装置20による訓練済モデルMの構築に用いられる。
 訓練済モデルM、結果データD1、参照データD2、楽譜データD3および参照楽譜データD4は、記憶部140に記憶されず、コンピュータが読み取り可能な記憶媒体に記憶されていてもよい。あるいは、処理システム100がネットワークに接続されている場合には、訓練済モデルM、結果データD1、参照データD2、楽譜データD3または参照楽譜データD4は、当該ネットワーク上のサーバに記憶されていてもよい。
 操作部150は、マウス等のポインティングデバイスまたはキーボードを含み、所定の入力を行うために使用者により操作される。表示部160は、例えば液晶ディスプレイを含み、所定のGUI(Graphical User Interface)または音生成処理の結果等を表示する。操作部150および表示部160は、タッチパネルディスプレイにより構成されてもよい。
 (2)音生成装置
 図2は、音生成装置10の構成を示すブロック図である。図3および図4は、音生成装置10の動作例を説明するための図である。図2に示すように、音生成装置10は、提示部11、受付部12、生成部13および処理部14を含む。提示部11、受付部12、生成部13および処理部14の機能は、図1のCPU130が音生成プログラムを実行することにより実現される。提示部11、受付部12、生成部13および処理部14の少なくとも一部が電子回路等のハードウエアにより実現されてもよい。
 提示部11は、図3に示すように、使用者からの入力を受け付けるためのGUIとして、受付画面1を表示部160に表示させる。受付画面1には、参照領域2および入力領域3が設けられる。参照領域2には、例えば、使用者により選択された楽譜データD3に基づいて、複数の音符の時間軸上での位置を表す参照画像4が表示される。参照画像4は、例えばピアノロールである。使用者は、操作部150を操作することにより、記憶部140等に記憶された複数の楽譜データD3から所望の楽譜を示す楽譜データD3を選択したり、編集したりすることができる。
 入力領域3は、参照領域2と対応するように配置される。使用者は、図1の操作部150を用いて、参照画像4の音符を見ながら、特徴量(本例では振幅)が時間的に変化するように入力領域3上で各特徴量を大雑把に入力する。これにより、第1の特徴量列を入力することができる。図3の入力例では、楽譜の第1~第5小節における振幅は小さく、第6~第7小節における振幅は大きく、第8~第10小節における振幅はやや大きくなるように振幅の入力が行われている。受付部12は、入力領域3上に入力された第1の特徴量列を受け付ける。
 記憶部140等に記憶された訓練済モデルMは、図4に示すように、例えばニューラルネットワーク(図4の例ではDNN(深層ニューラルネットワーク)L1)を含む。使用者により選択された楽譜データD3および入力領域3に入力された第1の特徴量列は、DNNL1に与えられる。生成部13は、DNNL1を用いて、楽譜データD3および第1の特徴量列を処理して、例えば、楽譜におけるピッチの時系列と振幅スペクトル包絡の時系列との組み合わせである結果データD1を生成する。結果データD1は、振幅が第2の精細度で変化する第2の特徴量列に対応する音データ列を示す。また、結果データD1に含まれるピッチの時系列でも、(振幅と同様に)第1の特徴量列に応じて、ピッチが高い精細度(第1の特徴量列の精細度よりも高い精細度)で変化する。なお、結果データは、楽譜における振幅スペクトルの時系列(例えば、メルスペクトログラム)を示す結果データD1であってもよい。
 第1の特徴量列における各時点の振幅は、第2の特徴量列において、当該時点を含む所定期間内の振幅の代表値であってもよい。なお、隣り合う2つの時点の間隔は例えば5msであり、所定期間の長さは例えば3sであり、各時点は例えば対応する所定期間の中心に位置する。代表値は、第2の特徴量列における所定期間内の振幅の統計値であってもよい。例えば、代表値は、振幅の最大値、平均値、中央値、最頻値、分散または標準偏差であってもよい。
 しかしながら、代表値は、第2の特徴量列における所定期間内の振幅の統計値に限定されない。例えば、代表値は、第2の特徴量列における所定期間内の振幅の第1高調波の最大値と第2高調波の最大値との比、またはその比の対数値であってもよい。あるいは、代表値は、上記の第1高調波の最大値と第2高調波の最大値との平均値であってもよい。
 生成部13は、生成された結果データD1を記憶部140等に記憶させてもよい。処理部14は、例えばボコーダとして機能し、生成部13により生成された周波数領域の結果データD1から時間領域の波形を示す音声信号を生成する。生成した音声信号を、処理部14に接続された、スピーカ等を含むサウンドシステムに供給することにより、音声信号に基づく音が出力される。本例では、音生成装置10は処理部14を含むが、実施形態はこれに限定されない。音生成装置10は、処理部14を含まなくてもよい。
 図3の例では、受付画面1において、入力領域3は参照領域2の下方に配置されるが、実施形態はこれに限定されない。受付画面1において、入力領域3は、参照領域2の上方に配置されてもよい。あるいは、受付画面1において、入力領域3は、参照領域2と重なるように配置されてもよい。
 また、図3の例では、受付画面1は参照領域2を含み、参照領域2に参照画像4が表示されるが、実施形態はこれに限定されない。受付画面1は参照領域2を含まなくてもよい。この場合、使用者は、操作部150を用いて、入力領域3上で振幅の所望の時系列を示す描画を行う。これにより、振幅が大雑把に変化する第1の特徴量列を入力することができる。
 図4の例では、訓練済モデルMは1つのDNNL1を含むが、実施形態はこれに限定されない。訓練済モデルMは、複数のDNNを含んでもよい。図5は、音生成装置10の他の動作例を説明するための図である。図5の例では、訓練済モデルMは、3つのDNNL1,L2,L3を含む。使用者により選択された楽譜データD3は、各DNNL1~L3に与えられる。また、使用者により入力領域3に入力された第1の特徴量列は、DNNL1に与えられる。
 生成部13は、DNNL1を用いて、楽譜データD3および第1の特徴量列を処理して、振幅が時間的に変化する第1の中間特徴量列を生成する。第1の中間特徴量列における振幅の時系列の精細度は、第1の特徴量列における振幅の時系列の精細度(第1の精細度)よりも高い。第1の中間特徴量列は、入力領域3に表示されてもよい。使用者は、操作部150を用いて、入力領域3に表示された第1の中間特徴量列を修正することが可能である。
 また、生成部13は、DNNL2を用いて、楽譜データD3および第1の中間特徴量列を処理して、振幅が時間的に変化する第2の中間特徴量列を生成する。第2の中間特徴量列における振幅の時系列の精細度は、第1の中間特徴量列における振幅の時系列の精細度よりも高い。第2の中間特徴量列は、入力領域3に表示されてもよい。使用者は、操作部150を用いて、入力領域3に表示された第2の中間特徴量列を修正することが可能である。
 さらに、生成部13は、DNNL3を用いて、楽譜データD3および第2の中間特徴量列を処理して、楽譜におけるピッチの時系列を特定し、特定されたピッチの時系列を示す結果データD1を生成する。結果データD1により示される第2の特徴量列における振幅の時系列の精細度(第2の精細度)は、第2の中間特徴量列における振幅の時系列の精細度よりも高い。以上に説明したように、L1は、第1の精細度で特徴量(例えば、振幅)が時間的に変改する特徴量列(入力特徴量列、第1の特徴量列)を入力されると、第1の精細度よりも高い精細度で特徴量が時間的に変化する第1の中間特徴量列を出力してもよい。L2は、第1の中間特徴量列を入力されると、第1の中間特徴量列の精細度よりも高い精細度で特徴量が時間的に変化する第2の中間特徴量列を出力してもよい。L3は、第2の中間特徴量列を入力されると、楽譜におけるピッチの時系列を特定し、特定されたピッチの時系列を示す音データ列(参照音データ列、結果データD1)を出力してもよい。L3が出する音データ列に対応する波形の特徴量の時系列データを、第2の特徴量列と呼ぶ。第2の特徴量列において、特徴量は、第2の中間特徴量列の精細度よりも高い精細度で時間的に変化し、つまり、第2の特徴量列の精細度(第2の精細度)は、第2の中間特徴量列の精細度よりも高い。L1、L2、L3の各々には、L3が出力する音データ列に対応する楽譜データ(参照楽譜データD4、楽譜データD3)、および、その楽譜データから生成された楽譜特徴量の少なくとも一方が、さらに入力されてもよい。楽譜データは、時間軸上に配置された複数の音符(音符列)を含む楽譜を示すデータである。
 (3)訓練装置
 図6は、訓練装置20の構成を示すブロック図である。図7は、訓練装置20の動作例を説明するための図である。図6に示すように、訓練装置20は、抽出部21、生成部22および構築部23を含む。抽出部21、生成部22および構築部23の機能は、図1のCPU130が訓練プログラムを実行することにより実現される。抽出部21、生成部22および構築部23の少なくとも一部が電子回路等のハードウエアにより実現されてもよい。
 抽出部21は、記憶部140等に記憶された複数の参照データD2の各々から参照音データ列と出力特徴量列とを抽出する。参照音データ列は、参照データD2が表す時間領域の波形の、周波数領域におけるスペクトルを表すデータであり、例えば、対応する参照データD2が示す波形の振幅スペクトル包絡の時系列とピッチの時系列との組み合わせでもよいし、メルスペクトログラム等でもよい。参照データD2を所定の時間フレームを用いて周波数解析することにより、所定間隔(例えば、5ms)ごとの参照音データの列が生成される。出力特徴量列は、参照音データ列に対応する波形の特徴量(例えば、振幅)の時系列であって、前記所定間隔(例えば、5ms)に対応する所定精細度で時間的に変化する。各種データ列におけるデータ間隔は、5msより短くてもよいし、長くてもよく、また、相互に同じでもよいし、異なっていてもよい。生成部22は、複数の出力特徴量列の各々から入力特徴量列を生成する。入力特徴量列においては、出力特徴量列における特徴量(例えば、振幅)の時系列の精細度よりも低い精細度で特徴量(例えば、振幅)が時間的に変化する。
 具体的には、生成部22は、図7に示すように、出力特徴量列において、各時点tを含む所定期間T内の振幅の代表値を抽出する。なお、隣り合う2つの時点tの間隔は例えば5msであり、期間Tの長さは例えば3sであり、各時点tは例えば期間Tの中心に位置する。図8の例では、各期間Tの振幅の代表値は、当該期間T内の振幅の最大値であるが、当該期間T内の振幅の他の統計値等であってもよい。生成部22は、抽出された複数の期間Tの振幅の代表値をそれぞれ入力特徴量列における複数の時点tの振幅として配列することにより、入力特徴量列を生成する。振幅の最大値は、最大3sの期間同じ値をとり、時点の間隔5msに比べて、その値が変化する間隔が数十倍以上長い。つまり、入力特徴量列は出力特徴量列に比べて変化の頻度が低く、言い換えれば、精細度が低い。
 構築部23は、DNNで構成される生成モデルm(未訓練または予備訓練済)を用意し、抽出された参照音データ列と、生成された入力特徴量列および記憶部140等に記憶された各参照楽譜データD4から生成される楽譜特徴量列とに基づいて、その生成モデルmを訓練する。この訓練により、入力特徴量列および楽譜特徴量列と、参照音データ列との間の入出力関係を習得した訓練済モデルMが構築される。用意される生成モデルmは、図4に示すように、1つのDNNL1を含んでもよいし、図5に示すように、複数のDNNL1~L3を含んでもよい。構築部23は、構築された訓練済モデルMを記憶部140等に記憶させる。
 (4)音生成処理
 図8は、図2の音生成装置10による音生成処理の一例を示すフローチャートである。図8の音生成処理は、図1のCPU130が記憶部140等に記憶された音生成プログラムを実行することにより行われる。まず、CPU130は、使用者により楽譜データD3が選択されたか否かを判定する(ステップS1)。楽譜データD3が選択されない場合、CPU130は、楽譜データD3が選択されるまで待機する。
 楽譜データD3が選択された場合、CPU130は、図3の受付画面1を表示部160に表示させる(ステップS2)。受付画面1の参照領域2には、ステップS1で選択された楽譜データD3に基づく参照画像4が表示される。次に、CPU130は、受付画面1の入力領域3上で第1の特徴量列を受け付ける(ステップS3)。
 続いて、CPU130は、訓練済モデルMを用いて、ステップS1で選択された楽譜データD3の楽譜特徴量列およびステップS4で受け付けられた第1の特徴量列を処理して結果データD1を生成する(ステップS4)。その後、CPU130は、ステップS4で生成された結果データD1から時間領域の波形である音声信号を生成し(ステップS5)、音生成処理を終了する。
 (5)訓練処理
 図9は、図6の訓練装置20による訓練処理の一例を示すフローチャートである。図9の訓練処理は、図1のCPU130が記憶部140等に記憶された訓練プログラムを実行することにより行われる。まず、CPU130は、記憶部140等から訓練に用いる複数の参照データD2を取得する(ステップS11)。次に、CPU130は、ステップS11で取得された各参照データD2から参照音データ列を抽出する(ステップS12)。また、CPU130は、ステップS1で取得された各参照データD2から出力特徴量列(例えば、振幅の時系列)を抽出する(ステップS13)。
 続いて、CPU130は、ステップS3で抽出された出力特徴量列から入力特徴量列(振幅の最大値の時系列)を生成する(ステップS14)。その後、CPU130は、生成モデルmを用意し、ステップS1で取得された各参照データD2に対応する参照楽譜データD4に基づく楽譜特徴量列およびステップS14で生成された入力特徴量列と、ステップS12で抽出された参照音データ列とに基づいてその生成モデルmを訓練することにより、楽譜特徴量列および参照入力特徴量列と、参照音データ列との間の入出力関係を生成モデルmに機械学習させる(ステップS15)。
 次に、CPU130は、生成モデルmが入出力関係を習得するのに十分な機械学習が実行されたか否かを判定する(ステップS16)。機械学習が不十分な場合、CPU130はステップS15に戻る。十分な機械学習が実行されるまで、パラメータが変化されつつステップS15~S16が繰り返される。機械学習の繰り返し回数は、構築される訓練済モデルMが満たすべき品質条件に応じて変化する。ステップS16の判定は、品質条件の指標となる損失関数に基づいて行われる。例えば、入力された入力特徴量列に対して生成モデルmが出力する音データ列と、入力された入力特徴量列にラベルとして付与されている参照音データ列との差異を示す損失関数が、所定の値よりも小さくなれば、機械学習が十分と判定される。所定の値は、処理システム100の利用者によって、所望の品質(品質条件)に応じて適宜設定されてもよい。また、このような判定に代えて、または、このような判定と共に、繰り返し回数が所定の回数に到達したか否かが判定されてもよい。十分な機械学習が実行された場合、CPU130は、訓練により楽譜特徴量列および入力特徴量列と、参照音データ列との間の入出力関係を習得した訓練済モデルMとして保存し(ステップS17)、訓練処理を終了する。訓練処理によって、生成モデルmは、入力特徴量列(例えば、入力特徴量列(x))と、その入力特徴量列にラベルとして付与された「その入力特徴量列に対応する音データ列である、参照音データ列(例えば、参照音データ列(x))」との対応関係を学習する。
 (6)実施形態の効果
 以上説明したように、本実施形態に係る音生成方法は、音楽的な特徴量が時間的に変化する第1の特徴量列を受け付け、音楽的な特徴量が第1の精細度で時間的に変化する入力特徴量列と、音楽的な特徴量が第1の精細度よりも高い第2の精細度で時間的に変化する出力特徴量列に対応する参照音データ列との間の入出力関係を習得した訓練済モデルを用いて、第1の特徴量列を処理して、音楽的な特徴量が第2の精細度で変化する第2の特徴量列に対応する音データ列を生成し、コンピュータにより実現される。前述の通り、「音楽的な特徴量」との語は、特徴量が音楽的な種別(例えば、振幅、ピッチ、音色など)であることを示す。第1の特徴量列、入力特徴量列、出力特徴量列、および第2の特徴量列は、いずれも、「音楽的な特徴量」の時系列データの一例である。すなわち、第1の特徴量列、入力特徴量列、出力特徴量列、および第2の特徴量列の各々においてその変化が示される特徴量は、いずれも、「音楽的な特徴量」である。
 この方法によれば、受け付けた第1の特徴量列における音楽的な特徴量の変化が大雑把である(言い換えれば、第1の特徴量列において、音楽的な特徴量が離散的にないし間欠的にゆっくりと変化する)場合でも、第2の特徴量列に対応する音データ列が生成される。第2の特徴量列においては、音楽的な特徴量が詳細に(言い換えれば、絶え間なくないし連続的に素早く)変化し、その音データ列から、自然な音声が生成される。したがって、使用者は、音楽的な特徴量の詳細な時系列を入力する必要がない。
 入力特徴量列における各時点の音楽的な特徴量は、出力特徴量列において、当該時点を含む所定期間内の音楽的な特徴量の代表値を示してもよい。
 代表値は、出力特徴量列における所定期間内の音楽的な特徴量の統計値を示してもよい。
 音生成方法は、第1の特徴量列が時間軸に沿って表示される受付画面1をさらに提示し、第1の特徴量列は、受付画面1を用いて、ユーザにより入力されてもよい。この場合、使用者は、第1の特徴量列における音楽的な特徴量の時間軸上での位置を視認しつつ、第1の特徴量列を容易に入力することができる。
 前記精細度は、単位時間内における前記音楽的な特徴量の変化の頻度、または、前記音楽的な特徴量の高い周波数成分の含有割合を示してもよい。
 前記音生成方法は、さらに、周波数領域の波形を示す前記音データ列を、時間領域の波形へと変換してもよい。
 本実施形態に係る訓練方法は、音波形を示す参照データから、音楽的な特徴量が所定精細度で時間的に変化する参照音データ列と、その音楽的な特徴量の時系列である出力特徴量列とを抽出し、出力特徴量列から、音楽的な特徴量が所定精細度よりも低い精細度で時間的に変化する入力特徴量列を生成し、入力特徴量列と参照音データ列とを用いた機械学習により、入力特徴量列と参照音データ列との間の入出力関係を習得した訓練済モデルを構築し、コンピュータにより実現される。
 この方法によれば、入力される第1の特徴量列における音楽的な特徴量の変化が大雑把である(言い換えれば、第1の特徴量列において、音楽的な特徴量が離散的にないし間欠的にゆっくりと変化する)場合でも、音楽的な特徴量が詳細に(言い換えれば、絶え間なくないし連続的に素早く)変化する第2の特徴量列に対応する音データ列を生成可能な訓練済モデルMが構築される。
 入力特徴量列は、入力特徴量列における各時点の音楽的な特徴量として、出力特徴量列において、当該時点を含む所定期間内の音楽的な特徴量の代表値を抽出することにより生成されてもよい。
 代表値は、出力特徴量列における所定期間内の音楽的な特徴量の統計値を示してもよい。
 参照データは時間領域の音波形を示してもよく、参照音データ列は周波数領域の音波形を示してもよい。
 (7)振幅以外の特徴量を用いる例
 上記第1実施形態において、使用者は、制御値として振幅の最大値を入力して、生成される音声信号を制御するが、実施形態はこれに限定されない。制御値は他の特徴量でもよい。以下、第2実施形態に係る音生成装置10および訓練装置20について、第1実施形態に係る音生成装置10および訓練装置20と共通する点および異なる点を説明する。
 本実施形態における音生成装置10は、以下の点を除いて、図2に関して説明した第1実施形態の音生成装置10と同様である。提示部11は、使用者により選択された楽譜データD3に基づいて、受付画面1を表示部160に表示させる。図10は、第2実施形態における受付画面1の一例を示す図である。図10に示すように、本実施形態における受付画面1には、図3の入力領域3に代えて、3つの入力領域3a,3b,3cが参照領域2と対応するように配置される。
 使用者は、操作部150を用いて、参照画像4に表示された各音符に対応する音の3つの部分における特徴量(本例ではピッチの分散)が時間的に変化する3つの第1の特徴量列を、それぞれ入力領域3a,3b,3c上で各特徴量を入力する。これにより、第1の特徴量列を入力することができる。第1の特徴量列として、入力領域3aで、音符に対応する音のアタック部のピッチの分散の時系列が入力され、入力領域3bで、サステイン部のピッチの分散の時系列が入力され、入力領域3cでリリース部のピッチの分散が入力される。図10の入力例では、楽譜の第6~第7小節におけるアタック部およびリリース部のピッチの分散が大きく、第8~第9小節におけるサステイン部のピッチの分散が大きい。
 生成部13は、訓練済モデルMを用いて、楽譜データD3に基づく楽譜特徴量列および第1の特徴量列を処理して、結果データD1を生成する。結果データD1は、第2の精細度で変化するピッチの時系列である第2の特徴量列を含む。生成部13は、生成された結果データD1を記憶部140等に記憶させてもよい。また、生成部13は、周波数領域の結果データD1に基づいて、時間領域の波形である音声信号を生成し、サウンドシステムに供給する。なお、生成部13は、結果データD1に含まれる第2の特徴量列を表示部160に表示させてもよい。
 本実施形態における訓練装置20は、以下の点を除いて、図6に関して説明した第1実施形態の訓練装置20と同様である。本実施形態においては、図9の訓練処理のステップS13で抽出すべき出力特徴量列であるピッチの時系列は、直前のステップS12において、参照音データ列の一部として抽出済みである。CPU130(抽出部21)は、ステップS13において、複数の参照データD2の各々における振幅の時系列を、出力特徴量列としてではなく、音を3つの部分に分離する指標として抽出する。
 次のステップS14において、CPU130は、その振幅の時系列に基づいて、参照音データ列に含まれるピッチの時系列(出力特徴量列)を、音のアタック部、音のリリース部、およびアタック部とリリース部との間の音のボディ部の3部分の時系列に分け、それぞれ統計分析して各部分についてピッチの分散の時系列(入力特徴量列)を求める。
 また、CPU130(構築部23)は、ステップS15~S16において、各参照データD2から生成した参照音データ列と入力特徴量列と対応する参照楽譜データD4とに基づいて、機械学習(生成モデルmの訓練)を繰り返し行うことにより、参照楽譜データに対応する楽譜特徴量列および入力特徴量列と、出力特徴量列に対応する参照音データ列との間の入出力関係を習得した訓練済モデルMを構築する。
 本実施形態に係る音生成装置10において、使用者は、第1の特徴量列として各時点のピッチの分散を大雑把に入力することにより、その時点で生成される音の、詳細に変化するピッチの変化幅を効果的に制御できる。また、3部分について第1の特徴量を個別に入力することにより、アタック部、ボディ部およびリリース部のピッチの変化幅を個別に制御できる。なお、受付画面1は入力領域3a~3cを含むが、実施形態はこれに限定されない。受付画面1は、入力領域3a,3b,3cのうち、いずれか1つまたは2つの入力領域を含まなくてもよい。また、本実施形態においても、受付画面1は参照領域2を含まなくてもよい。本実施形態では、3部分に分けて3つのピッチの分散列を入力し音を制御したが、3部分に分けることなく、1つのピッチの分散列を入力してアタックからリリースまでの音全体を制御するようにしてもよい。
 1…受付画面,2…参照領域,3,3a~3c…入力領域,4…参照画像,10…音生成装置,11…提示部,12…受付部,13,22…生成部,14…処理部,20…訓練装置,21…抽出部,23…構築部,100…処理システム,110…RAM,120…ROM,130…CPU,140…記憶部,150…操作部,160…表示部,170…バス,D1…結果データ,D2…参照データ,D3…楽譜データ,D4…参照楽譜データ,L1~L3…DNN,M…訓練済モデル,m…生成モデル

Claims (14)

  1.  音楽的な特徴量が時間的に変化する第1の特徴量列を受け付け、
     前記音楽的な特徴量が第1の精細度で時間的に変化する入力特徴量列と、前記音楽的な特徴量が前記第1の精細度よりも高い第2の精細度で時間的に変化する出力特徴量列に対応する参照音データ列との間の入出力関係を習得した訓練済モデルを用いて、前記第1の特徴量列を処理して、前記音楽的な特徴量が前記第2の精細度で変化する第2の特徴量列に対応する音データ列を生成する、
     コンピュータにより実現される音生成方法。
  2.  前記入力特徴量列における各時点の前記音楽的な特徴量は、前記出力特徴量列において、当該時点を含む所定期間内の前記音楽的な特徴量の代表値を示す、請求項1記載の音生成方法。
  3.  前記代表値は、前記出力特徴量列における前記所定期間内の前記音楽的な特徴量の統計値を示す、請求項2記載の音生成方法。
  4.  前記第1の特徴量列が時間軸に沿って表示される受付画面をさらに提示し、
     前記第1の特徴量列は、前記受付画面を用いて、ユーザにより入力される、請求項1~3のいずれか一項に記載の音生成方法。
  5.  前記精細度は、単位時間内における前記音楽的な特徴量の変化の頻度、または、前記音楽的な特徴量の高い周波数成分の含有割合を示す、請求項1~4のいずれか一項に記載の音生成方法。
  6.  さらに、周波数領域の波形を示す前記音データ列を、時間領域の波形へと変換する、請求項1~5のいずれか一項に記載の音生成方法。
  7.  音波形を示す参照データから、音楽的な特徴量が所定精細度で時間的に変化する参照音データ列と、その音楽的な特徴量の時系列である出力特徴量列とを抽出し、
     前記出力特徴量列から、前記音楽的な特徴量が前記所定精細度よりも低い精細度で時間的に変化する入力特徴量列を生成し、
     前記入力特徴量列と前記参照音データ列とを用いた機械学習により、前記入力特徴量列と前記参照音データ列との間の入出力関係を習得した訓練済モデルを構築する、
     コンピュータにより実現される訓練方法。
  8.  前記入力特徴量列は、前記入力特徴量列における各時点の前記音楽的な特徴量として、前記出力特徴量列において、当該時点を含む所定期間内の前記音楽的な特徴量の代表値を抽出することにより生成される、請求項7記載の訓練方法。
  9.  前記代表値は、前記出力特徴量列における前記所定期間内の前記音楽的な特徴量の統計値を示す、請求項8記載の訓練方法。
  10.  前記参照データは時間領域の前記音波形を示し、前記参照音データ列は周波数領域の前記音波形を示す、請求項7記載の訓練方法。
  11.  音楽的な特徴量が時間的に変化する第1の特徴量列を受け付ける受付部と、
     前記音楽的な特徴量が第1の精細度で時間的に変化する入力特徴量列と、前記音楽的な特徴量が前記第1の精細度よりも高い第2の精細度で時間的に変化する出力特徴量列に対応する参照音データ列との間の入出力関係を習得した訓練済モデルを用いて、前記第1の特徴量列を処理して、前記音楽的な特徴量が前記第2の精細度で変化する第2の特徴量列に対応する音データ列を生成する生成部とを備える、音生成装置。
  12.  音波形を示す参照データから、音楽的な特徴量が所定精細度で時間的に変化する参照音データ列と、その音楽的な特徴量の時系列である出力特徴量列とを抽出する抽出部と、
     前記出力特徴量列から、前記音楽的な特徴量が前記所定精細度よりも低い精細度で時間的に変化する入力特徴量列を生成する生成部と、
     前記入力特徴量列と前記参照音データ列とを用いた機械学習により、前記入力特徴量列と前記参照音データ列との間の入出力関係を習得した訓練済モデルを構築する構築部とを備える、訓練装置。
  13.  1ないし複数のコンピュータに、
     音楽的な特徴量が時間的に変化する第1の特徴量列を受け付け、
     前記音楽的な特徴量が第1の精細度で時間的に変化する入力特徴量列と、前記音楽的な特徴量が前記第1の精細度よりも高い第2の精細度で時間的に変化する出力特徴量列に対応する参照音データ列との間の入出力関係を習得した訓練済モデルを用いて、前記第1の特徴量列を処理して、前記音楽的な特徴量が前記第2の精細度で変化する第2の特徴量列に対応する音データ列を生成する
    ステップを行わせる、音生成プログラム。
  14.  1ないし複数のコンピュータに、
     音波形を示す参照データから、音楽的な特徴量が所定精細度で時間的に変化する参照音データ列と、その音楽的な特徴量の時系列である出力特徴量列とを抽出し、
     前記出力特徴量列から、前記音楽的な特徴量が前記所定精細度よりも低い精細度で時間的に変化する入力特徴量列を生成し、
     前記入力特徴量列と前記参照音データ列とを用いた機械学習により、前記入力特徴量列と前記参照音データ列との間の入出力関係を習得した訓練済モデルを構築する
    ステップを行わせる、訓練プログラム。
PCT/JP2021/045962 2021-02-10 2021-12-14 機械学習モデルを用いた音生成方法、機械学習モデルの訓練方法、音生成装置、訓練装置、音生成プログラムおよび訓練プログラム WO2022172576A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202180092886.5A CN116830189A (zh) 2021-02-10 2021-12-14 使用机器学习模型的音生成方法、机器学习模型的训练方法、音生成装置、训练装置、音生成程序及训练程序
US18/447,051 US20230386440A1 (en) 2021-02-10 2023-08-09 Sound generation method using machine learning model, training method for machine learning model, sound generation device, training device, non-transitory computer-readable medium storing sound generation program, and non-transitory computer-readable medium storing training program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021-020117 2021-02-10
JP2021020117A JP2022122706A (ja) 2021-02-10 2021-02-10 機械学習モデルを用いた音生成方法、機械学習モデルの訓練方法、音生成装置、訓練装置、音生成プログラムおよび訓練プログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/447,051 Continuation US20230386440A1 (en) 2021-02-10 2023-08-09 Sound generation method using machine learning model, training method for machine learning model, sound generation device, training device, non-transitory computer-readable medium storing sound generation program, and non-transitory computer-readable medium storing training program

Publications (1)

Publication Number Publication Date
WO2022172576A1 true WO2022172576A1 (ja) 2022-08-18

Family

ID=82838644

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/045962 WO2022172576A1 (ja) 2021-02-10 2021-12-14 機械学習モデルを用いた音生成方法、機械学習モデルの訓練方法、音生成装置、訓練装置、音生成プログラムおよび訓練プログラム

Country Status (4)

Country Link
US (1) US20230386440A1 (ja)
JP (1) JP2022122706A (ja)
CN (1) CN116830189A (ja)
WO (1) WO2022172576A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2024062724A (ja) * 2022-10-25 2024-05-10 ヤマハ株式会社 楽音合成方法、楽音合成システムおよびプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017097332A (ja) * 2016-08-26 2017-06-01 株式会社テクノスピーチ 音声合成装置および音声合成方法
JP2018077283A (ja) * 2016-11-07 2018-05-17 ヤマハ株式会社 音声合成方法
JP2019008206A (ja) * 2017-06-27 2019-01-17 日本放送協会 音声帯域拡張装置、音声帯域拡張統計モデル学習装置およびそれらのプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017097332A (ja) * 2016-08-26 2017-06-01 株式会社テクノスピーチ 音声合成装置および音声合成方法
JP2018077283A (ja) * 2016-11-07 2018-05-17 ヤマハ株式会社 音声合成方法
JP2019008206A (ja) * 2017-06-27 2019-01-17 日本放送協会 音声帯域拡張装置、音声帯域拡張統計モデル学習装置およびそれらのプログラム

Also Published As

Publication number Publication date
CN116830189A (zh) 2023-09-29
US20230386440A1 (en) 2023-11-30
JP2022122706A (ja) 2022-08-23

Similar Documents

Publication Publication Date Title
CN105513583B (zh) 一种歌曲节奏的显示方法及其系统
CN109952609B (zh) 声音合成方法
US9552741B2 (en) Systems and methods for quantifying a sound into dynamic pitch-based graphs
Howard et al. WinSingad: A real-time display for the singing studio
Papiotis et al. Measuring ensemble interdependence in a string quartet through analysis of multidimensional performance data
KR101325722B1 (ko) 사용자 입력 노래에 대응한 악보 생성 장치와 그 방법
Ogg et al. The time course of sound category identification: Insights from acoustic features
US20230386440A1 (en) Sound generation method using machine learning model, training method for machine learning model, sound generation device, training device, non-transitory computer-readable medium storing sound generation program, and non-transitory computer-readable medium storing training program
JP7124373B2 (ja) 学習装置、音響生成装置、方法及びプログラム
CN112712783B (zh) 生成音乐的方法和装置、计算机设备和介质
CN112669811A (zh) 一种歌曲处理方法、装置、电子设备及可读存储介质
WO2022172577A1 (ja) 機械学習モデルを用いた音生成方法、機械学習モデルの訓練方法、音生成装置、訓練装置、音生成プログラムおよび訓練プログラム
Gu Recognition algorithm of piano playing music in intelligent background
CN110853457B (zh) 可互动的音乐教学指导方法
Mayor et al. Kaleivoicecope: voice transformation from interactive installations to video games
CN203165441U (zh) 交响乐器
JP2020204651A (ja) 音声処理装置、および音声処理方法
Shuster et al. Mapping timbral surfaces in Alpine yodeling: New directions in the analysis of tone color for unaccompanied vocal music
US20240087552A1 (en) Sound generation method and sound generation device using a machine learning model
CN103943098A (zh) 多米索交响乐器
WO2016039465A1 (ja) 音響解析装置
Shuster et al. 9 Mapping timbral surfaces in Alpine yodeling
Devis et al. Neurorack: deep audio learning in hardware synthesizers
Roebel Between physics and perception: Signal models for high level audio processing
KR20240010344A (ko) 악기 연주 교습 방법 및 악기 연주 교습 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21925819

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 202180092886.5

Country of ref document: CN

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21925819

Country of ref document: EP

Kind code of ref document: A1