WO2022185946A1 - 情報処理装置及びその制御方法 - Google Patents

情報処理装置及びその制御方法 Download PDF

Info

Publication number
WO2022185946A1
WO2022185946A1 PCT/JP2022/006589 JP2022006589W WO2022185946A1 WO 2022185946 A1 WO2022185946 A1 WO 2022185946A1 JP 2022006589 W JP2022006589 W JP 2022006589W WO 2022185946 A1 WO2022185946 A1 WO 2022185946A1
Authority
WO
WIPO (PCT)
Prior art keywords
tone color
user
color data
data
timbre
Prior art date
Application number
PCT/JP2022/006589
Other languages
English (en)
French (fr)
Inventor
康平 須見
貴裕 浅野
郁弥 大嵜
Original Assignee
ヤマハ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤマハ株式会社 filed Critical ヤマハ株式会社
Priority to CN202280018508.7A priority Critical patent/CN117043849A/zh
Publication of WO2022185946A1 publication Critical patent/WO2022185946A1/ja
Priority to US18/460,461 priority patent/US20230419932A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0091Means for obtaining special acoustic effects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/02Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
    • G10H1/06Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour
    • G10H1/14Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour during execution
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/02Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
    • G10H1/06Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour
    • G10H1/12Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour by filtering complex waveforms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H5/00Instruments in which the tones are generated by means of electronic generators
    • G10H5/005Voice controlled instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/155Musical effects
    • G10H2210/195Modulation effects, i.e. smooth non-discontinuous variations over a time interval, e.g. within a note, melody or musical transition, of any sound parameter, e.g. amplitude, pitch, spectral response, playback speed
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/091Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith
    • G10H2220/101Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith for graphical creation, edition or control of musical data or parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/091Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith
    • G10H2220/101Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith for graphical creation, edition or control of musical data or parameters
    • G10H2220/116Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith for graphical creation, edition or control of musical data or parameters for graphical editing of sound parameters or waveforms, e.g. by graphical interactive control of timbre, partials or envelope
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/075Musical metadata derived from musical analysis or for use in electrophonic musical instruments
    • G10H2240/085Mood, i.e. generation, detection or selection of a particular emotional content or atmosphere in a musical piece
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation

Definitions

  • the present invention relates to an information processing device that adjusts output timbre based on timbre data and a control method thereof.
  • a synthesizer capable of outputting a timbre adjusted by using timbre data consisting of waveform data and effect parameters is conventionally known.
  • Patent Document 1 when an input means contacts a display unit that displays pitch and timbre on two axes, a sound is produced at the pitch and timbre corresponding to the coordinate position of the input means in contact with the display unit.
  • An output music playing device is disclosed.
  • Patent Document 2 discloses a tone color setting system that can automatically set tone colors that match the user's psychological state, such as mood and emotion, based on the user's actual performance.
  • Patent Documents 1 and 2 are used, by operating the buttons and knobs provided in many conventional synthesizers, a beginner can find the waveform data of the musical instrument type that he or she wants to use for playing, or use the effect parameters to obtain the tone color. was difficult to adjust.
  • an object of the present disclosure is to provide an information processing device and a control method thereof that enable even a beginner to easily adjust the tone to be output.
  • an information processing apparatus uses an input module to which a user inputs a natural language including adjectives, and a trained model that outputs tone color data from adjectives, so that the user can a timbre estimation module that outputs timbre data based on the input natural language; Further, a computer-implemented control method according to an aspect of the present disclosure acquires a natural language input by a user, including adjectives, and uses a trained model that outputs timbre data from the adjectives to obtain the user input It outputs timbre data based on the natural language.
  • FIG. 1 is a block diagram showing a hardware configuration of an information processing device according to an embodiment of the present disclosure
  • FIG. It is a block diagram which shows the software configuration of an information processing apparatus.
  • FIG. 4 is a diagram showing a state in which each effect parameter included in collected training data is mapped onto a latent space; 4 is a flow chart showing training processing of a learning model in an embodiment of the present disclosure; 4 is a flowchart showing timbre data estimation processing according to the embodiment of the present disclosure.
  • 3A and 3B are diagrams showing examples of UIs of the input unit and the output unit in FIG. 2, which are displayed on the display unit in FIG. 1;
  • the information processing device 100 is realized by a synthesizer, but is not limited to this.
  • the information processing device 100 may be an information processing device (computer) such as a personal computer or a server that transmits tone color data to be set to an external synthesizer.
  • the timbre data in this embodiment is data including at least one of waveform data of various musical instruments such as piano, organ, and guitar, and effect parameters such as chorus, reverb, and distortion.
  • the information processing apparatus 100 selects tone color data to be used for tone adjustment based on a natural language input by the user when the user adjusts the tone for performing on the information processing apparatus 100.
  • the information processing apparatus 100 selects the tone color that the sample tone color is to be played by the information processing apparatus 100. Adjust the tone so that
  • FIG. 1 is a block diagram showing the hardware configuration of the information processing device 100 according to the embodiment of the present disclosure.
  • an information processing apparatus 100 of this embodiment includes a CPU 101, a GPU 102, a ROM 103, a RAM 104, an operation unit 105, a microphone 106, a speaker 107, a display unit 108, and an HDD 109. to connect.
  • the information processing apparatus 100 includes a keyboard that can be played by the user.
  • the CPU 101 is one or more processors that control each part of the information processing apparatus 100 according to a program stored in the ROM 103, for example, using the RAM 104 as a work memory.
  • the GPU 102 can perform efficient calculations by parallel processing of data, processing for learning using a learning model is performed by the GPU 102 as described below.
  • the RAM 104 is a volatile memory, and is used as a temporary storage area such as the main memory of the CPU 101 and a work area.
  • the microphone 106 converts the collected voice into an electric signal (voice data) and supplies it to the CPU 101 .
  • the microphone 106 collects voices in natural language uttered by the user toward the microphone 106 , and supplies the CPU 101 with voice data obtained by converting the voices.
  • the speaker 107 produces the adjusted timbre during performance using the information processing apparatus 100, execution of step S402 in FIG. 4 described later, and execution of step S509 in FIG. 5 described later.
  • the HDD 109 is a non-volatile memory, and tone color data, other data, and various programs for the operation of the CPU 101 are stored in predetermined areas.
  • the HDD 109 may be any non-volatile memory capable of storing the above data and programs, and may be other memory such as a flash memory.
  • the operation unit 105 and the display unit 108 are integrally configured as a touch panel display that receives user operations on the information processing apparatus 100 and displays various information.
  • the operation unit 105 and the display unit 108 may be independent user interfaces, for example, the operation unit 105 may be composed of a keyboard and a mouse, and the display unit 108 may be composed of a display.
  • a bus 110 is a signal transmission path that interconnects the hardware elements of the information processing apparatus 100 described above.
  • FIG. 2 is a block diagram showing the functional configuration of the information processing device 100. As shown in FIG.
  • the information processing device 100 includes a learning unit 201, an input unit 202, an estimating unit 203, and an output unit 204.
  • the input unit (input module) 202 is a function executed by the CPU 101 that outputs adjectives input by the user to the estimation unit 203 .
  • the input unit 202 displays the I/F 601 (FIG. 6) on the display unit 108 and acquires the natural language in which the user inputs characters to the I/F 601 using the operation unit 105 . After that, the input unit 202 performs morphological analysis of the acquired natural language, extracts adjectives input by the user, and outputs the extracted adjectives to the estimation unit 203 .
  • the input unit 202 is not limited to this embodiment as long as it can acquire adjectives input by the user.
  • an adjective input by the user may be obtained based on the natural language uttered by the user collected by the microphone 106, or an I/F 602 (FIG. 6) including a plurality of adjective tags may be displayed on the display unit 108.
  • the adjective of the tag selected by the user using the operation unit 105 may be acquired as the user-inputted adjective.
  • the learning unit 201 is a function executed by the GPU 102, which is composed of a learning model composed of a CVAE (conditional variational auto encoder), which is a type of neural network.
  • GPU 102 trains a learning model that constitutes learning unit 201 by supervised learning using training data consisting of effect parameters and adjectives tagged thereto, and uses decoder parameters of the generated trained model, which will be described later.
  • Output to the estimation unit 203 is a function executed by the GPU 102, which is composed of a learning model composed of a CVAE (conditional variational auto encoder), which is a type of neural network.
  • GPU 102 trains a learning model that constitutes learning unit 201 by supervised learning using training data consisting of effect parameters and adjectives tagged thereto, and uses decoder parameters of the generated trained model, which will be described later.
  • Output to the estimation unit 203 is a function executed by the GPU 102, which is composed of a learning model composed of a CVAE (conditional variational auto encoder
  • a learning model that configures the learning unit 201 has an encoder and a decoder.
  • the encoder means that when an effect parameter (input data x) tagged with an adjective (label y) is input as training data, a latent parameter tagged with an adjective (label y) is generated from the training data in a latent space. It is a neural network that extracts the variable z.
  • a decoder is a neural network that reconstructs an effect parameter (output data x') tagged with an adjective (label y) when a latent variable z tagged with an adjective (label y) is input. be.
  • the GPU 102 compares the input data x and the output data x′ and adjusts the parameters of the encoder and decoder that constitute the learning unit 201 . For each label y, the encoder parameters are adjusted so that a cluster is formed by the latent variable z in the latent space shown in FIG. The GPU 102 repeats this process and optimizes the parameters of the learning model that constitutes the learning unit 201 to train the learning model and generate a trained model. The details of the learning model training process by the GPU 102 will be described later with reference to FIG.
  • the estimation unit (timbre estimation module) 203 is the same neural network (hereinafter simply referred to as decoder) as the decoder of the trained model generated in the learning unit 201, and is a function executed by the GPU 102.
  • the GPU 102 updates the parameters of the decoder that constitutes the estimating section 203 with the parameters.
  • the GPU 102 acquires the latent variable z tagged with the adjective from among the latent variables z in the latent space shown in FIG. , is input to the decoder constituting the estimation unit 203 to reconstruct (estimate) the effect parameter (timbre data) tagged with the adjective.
  • the GPU 102 then outputs the reconfigured effect parameters to the output section 204 . Details of the timbre data estimation process by the GPU 102 will be described later with reference to FIG.
  • the neural network used in the learning unit 201 and the estimating unit 203 is not particularly limited, but DNN, RNN/LSTM, Recurrent Neural Network, CNN (Convolutional Neural Network) can be exemplified. Also, instead of the neural network, other models such as HMM (hidden Markov model) and SVM (support vector machine) may be used.
  • HMM hidden Markov model
  • SVM support vector machine
  • the learning unit 201 is configured with only CVAEs to perform supervised learning, but may be configured to include VAEs (variational auto encoders) and GANs (Generative Adversarial Networks).
  • VAEs variable auto encoders
  • GANs Geneative Adversarial Networks
  • unsupervised learning by VAE or GAN that is, learning using clustering using effect parameters not tagged with adjectives as training data, is combined with supervised learning by CVAE, semi-supervised Learning is performed.
  • the learning unit 201 and the estimating unit 203 may be one device (system).
  • the learning unit 201 and the estimating unit 203 are executed by the GPU 102, which is a single processor in this embodiment, but the GPU 102 may be configured by multiple processors to perform distributed processing. Moreover, it may be a function executed in cooperation with not only the GPU 102 but also the CPU 101 .
  • the output unit (presentation module) 204 lists (presents) the plurality of effect parameters output from the estimation unit 203 as effect parameter candidates used for tone color adjustment when the user performs using the information processing apparatus 100. , are functions executed by the CPU 101 .
  • the output unit 204 displays on the display unit 108 an I/F 603 (FIG. 6) including multiple tabs associated with each candidate effect parameter.
  • each tab of the I/F 603 is provided with a play button associated with a sample sound when tone color is adjusted by each effect parameter.
  • the output unit 204 puts the tab provided with the play button in a user-selected state, and associates the tab with the play button. Play sample sounds.
  • the user presses each playback button displayed on the I/F 603, and presses the enter button 604 when the sample tone color desired by the user is played back.
  • the output unit 204 decides to use the effect parameter associated with the tab currently selected by the user for adjusting the tone color of the information processing apparatus 100 .
  • FIG. 3 is a diagram showing a state in which each effect parameter included in the collected training data is mapped onto the latent space.
  • the effect parameter (input data x) is mapped as a latent variable z in the latent space.
  • many of these latent variables z are included in one of the clusters formed for each label y.
  • the latent space includes a cluster 301 of the adjective "beautiful", which is one of the labels y tagged to the input data x, and , and the adjective “glittery” cluster 302 are formed.
  • the input data x to the learning unit 201 is only effect parameters has been described, but it is not limited to this as long as it is timbre data.
  • the input data x to the learning unit 201 may be timbre data consisting of only waveform data, a combination of waveform data and effect parameters, or a timbre data set including a plurality of timbre data.
  • FIG. 4 is a flowchart showing the training process of the learning model in this embodiment.
  • This process is executed by the CPU 101 reading out a program stored in the ROM 103 and using the RAM 104 as a working memory.
  • step S ⁇ b>401 the CPU 101 acquires effect parameters from the HDD 109 .
  • the effect parameters may be acquired from the outside via a communication unit (not shown in FIG. 1).
  • step S402 the CPU 101 acquires adjectives to tag each of the effect parameters collected in step S401.
  • the CPU 101 uses the collected effect parameters to adjust the timbre of the piano waveform data, which is the default waveform data, and causes the speaker 107 to sound the timbre. display.
  • the CPU 101 detects that the user has input characters of an adjective evoked by the tone produced by the speaker 107 into the I/F 601 using the operation unit 105, the CPU 101 tags the character-inputted adjective. to get as The adjective acquired here may be singular or plural.
  • step S403 the CPU 101 tags the effect parameters obtained in step S401 with the adjectives obtained in step S402 to generate training data.
  • a data set consisting of such effect parameters and adjectives tagged thereto may be obtained using crowdsourcing.
  • step S404 the CPU 101 inputs the training data generated in step S403 to the learning unit 201 to cause the GPU 102 to learn the learning model that constitutes the learning unit 201, thereby generating a trained model.
  • GPU 102 outputs the parameters of the decoder of the trained model from learning section 201 to estimation section 203, updates the parameters of the decoders constituting estimation section 203, and then terminates this process.
  • the timbre to be produced by the speaker 107 in step S402 is obtained by adjusting the timbre of the waveform data of the piano, but the timbre of the waveform data of a plurality of musical instrument types may be adjusted.
  • adjectives for tagging the same effect parameter for each instrument type are obtained in step S402.
  • a trained model is generated for each instrument type.
  • FIG. 5 is a flowchart showing timbre data estimation processing in this embodiment.
  • This process is executed by the CPU 101 reading out a program stored in the ROM 103 and using the RAM 104 as a working memory.
  • step S501 the CPU 101 causes the display unit 108 to display the I/F 601, and acquires the natural language that the user has input into the I/F 601 using the operation unit 105. After that, arbitrary morphological analysis is performed on the acquired natural language, and adjectives input by the user are extracted.
  • step S501 the method is not limited to the method of the present embodiment as long as the adjective input by the user can be obtained.
  • display I/F 602 that displays multiple adjectives acquired in the process of step S402 as user-selectable tags, and display adjectives displayed in user-selected tags
  • You may make it acquire as an adjective input by the user.
  • voice data including natural language spoken by the user through the microphone 106 is converted into text data using any voice recognition technology, and any morphological analysis is performed on the text data. to extract adjectives input by the user.
  • step S502 the CPU 101 acquires the latent variable tagged with the adjective extracted in step S501 from the latent space, and inputs the latent variable tagged with the adjective to the decoder constituting the estimation unit 203. do. This causes the GPU 102 to output the effect parameter tagged with the adjective from the decoder constituting the estimation unit 203 . If there are a plurality of adjectives extracted in step S501, all the adjectives are input to the decoder forming the estimation unit 203. FIG.
  • step S501 For example, if the adjective "beautiful” is extracted in step S501, the latent variable z that forms the cluster 301 shown in FIG. Effect parameters tagged with the adjective “beautiful” are output from the estimation unit 203 .
  • the latent variables tagged with these two adjectives in the latent space such as the latent variable z forming the cluster 301 shown in FIG.
  • the effect parameters tagged with these two adjectives reconstructed by z are output from the estimator 203 .
  • step S404 If a trained model is generated for each instrument type in step S404, and not only adjectives but also instrument types are extracted in step S501, the decoder for the extracted instrument type in the estimating unit 203 is provided with step The adjectives extracted in S501 are input.
  • step S503 the CPU 101 sets candidate effect parameters that the user uses for tone color adjustment from among the plurality of effect parameters output in step S502.
  • one randomly designated from among the plurality of effect parameters output in step S502 is set as a candidate for the effect parameter used by the user for tone color adjustment.
  • those whose likelihood is greater than or equal to a threshold may be set as candidates for the effect parameter used by the user for tone color adjustment.
  • step S504 the CPU 101 determines whether or not there is a user input of the musical instrument type. Specifically, if there is a musical instrument type among the words acquired by the arbitrary morphological analysis in step S501, it is determined that the musical instrument type has been input by the user.
  • step S501 the CPU 101 determines in step S504 that the user has input the instrument type "piano".
  • step S504 If the instrument type has been input by the user (YES in step S504), the process proceeds to step S505, the CPU 101 acquires the waveform data of the instrument type input by the user from the HDD 109, and proceeds to step S507.
  • the CPU 101 further restricts (selects) the candidates set in step S503 according to the musical instrument type input by the user. For example, if the instrument type input by the user is "piano”, “distortion” is not normally used for tone adjustment, so if “distortion” is included in the set candidates, it is removed from the candidates. .
  • step S506 the CPU 101 acquires waveform data of the default instrument type "piano" from the HDD 109, and proceeds to step S507. .
  • the waveform data of the instrument type set by default is not limited to the present embodiment, and may be waveform data of other instrument types such as organ and guitar.
  • the CPU 101 causes the display unit 108 to display a plurality of tags each describing a plurality of musical instrument types, and acquires from the HDD 109 the waveform data of the musical instrument type displayed in the tag selected by the user. may
  • step S507 the CPU 101 causes the display unit 108 to list the effect parameter candidates set in step S503. Specifically, as shown in the I/F 603 in FIG. 6, the effect parameter candidates set in step S503 are displayed as user-selectable tabs such as a "timbre 1" tab, a "timbre 2" tab, and so on. indicate. Also, each tab is provided with a play button.
  • step S508 the CPU 101 determines whether or not there is an instruction to reproduce one of the effect parameter candidates set in step S503. Specifically, it is determined whether or not any of the playback buttons provided on each tab of the I/F 603 has been pressed. If there is a reproduction instruction for one of the candidates (YES in step S508), the process proceeds to step S509.
  • step S509 the CPU 101 causes the display unit 108 to reverse the color of the tab whose play button was pressed (or the portion of the play button), and notifies the user that the tab has been selected by the user.
  • the tone color is adjusted using the candidate effect parameter for which the reproduction instruction was given and the waveform data acquired in either step S505 or S506, and the speaker 107 is caused to produce (reproduce) the sample tone color.
  • step S510 the CPU 101 determines whether or not the candidate for which the reproduction instruction was given has been selected by the user as an effect parameter used for tone color adjustment. Specifically, if the decision button 604 is pressed without pressing any other playback button on the I/F 603 after the speaker 107 produces the sample tone in step S508, the playback instruction is issued. It is determined that the candidate has been selected by the user as an effect parameter used for timbre adjustment.
  • step S509 the processing from step S509 onward is repeated.
  • the decision button 604 is pressed without instructing reproduction of one of the other candidates (YES in step S510)
  • the CPU 101 determines that the reproduced sample tone color is the tone color that will be played by the information processing apparatus 100. After adjusting the timbre so that
  • step S511 the CPU 101 causes the GPU 102 to perform additional learning of the trained model generated by the learning unit 201 based on the adjectives extracted in step S501 and the effect parameters used for tone adjustment selected by the user in step S510.
  • the parameter of the decoder constituting the estimation unit 203 is updated with the parameter of the decoder part of the trained model after the additional learning, and then this process is terminated.
  • more customized effect parameter candidates are displayed in a list on the I/F 603 as the user adjusts the timbre through the process of FIG.
  • the CPU 101 when the user inputs characters into the I/F 601 on the display unit 108 in a natural language representing a tone color that the user wishes to use in the performance of the information processing apparatus 100, the CPU 101 generates a character based on the input natural language.
  • the user sets the effect parameter candidates to be used for tone color adjustment, and the I/F 603 displays a play button for reproducing the sample tone color of each candidate.
  • the user presses the play button displayed on the I/F 603 to play back the sample tone color, and when confirming that it is the tone color that the information processing apparatus 100 wants to use in the performance, simply presses the decision button 604.
  • the information processing device 100 can be used to adjust the timbre of a performance.
  • the timbre of a performance can be easily adjusted using the information processing apparatus 100 .
  • step S511 The method of additional learning performed in step S511 is not particularly limited.
  • the training data generated in step S403 may be updated based on the content selected by the user using the I/F 603 in the processing of FIG. Reinforcement learning given as a reward may be performed.
  • the information processing apparatus 100 performs all the processes shown in FIGS. 4 and 5, but the configuration is not limited to this.
  • the information processing apparatus 100 is connected to a mobile terminal (not shown) such as a tablet or a smartphone, or a server (cloud) (not shown), and cooperates with them. You can do it.
  • a learned model may be generated in the cloud, and the I/F 601 in FIG. 6 may be displayed on the mobile terminal.
  • Training of the learning model and additional learning of the learned model in the learning unit 201 can be performed by any machine learning method.
  • methods such as Gaussian process regression (Bayesian optimization), policy gradient method which is a kind of policy iterative method, and genetic algorithm which is a method imitating the process of biological evolution can be adopted.
  • Non-transitory computer-readable recording medium means volatile memory (e.g., It also includes those that hold programs for a certain period of time, such as DRAM (Dynamic Random Access Memory).

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

情報処理装置(100)は、形容詞を含む自然言語がユーザ入力される、タッチパネルディスプレイとして一体的に構成される操作部(105)及び表示部(108)と、GPU(102)により実行される機能であって、形容詞から音色データを出力する学習済モデルを用いて、ユーザ入力された自然言語に基づいて音色データを出力する推定部(203)とを備える。

Description

情報処理装置及びその制御方法
 本発明は、音色データに基づいて出力する音色の調整を行う情報処理装置及びその制御方法に関する。
 従来より、波形データ及びエフェクトパラメータからなる音色データを用いて調整された音色を出力することが可能なシンセサイザが知られている。
 例えば、特許文献1には、音高と音色の2軸表示を行う表示部に入力手段が接触した場合に、表示部に接触する入力手段の座標位置に対応する音高及び音色にて音が出力される音楽演奏装置が開示されている。
 また、例えば特許文献2には、ユーザの実際の演奏に基づいてユーザの気分や感情などの心理的な状態に合った音色設定を自動的に行うことができる音色設定システムが開示されている。
日本国特開2007-156109号公報 日本国特開2006-30414号公報
 しかしながら、特許文献1,2の技術を用いても、従来のシンセサイザに多数設けられているボタンやノブを操作して、初心者が演奏に使用したい楽器種別の波形データを見つけ出したり、エフェクトパラメータで音色を調整したりすることは困難であった。
 以上の事情に鑑み、本開示は、初心者であっても容易に出力する音色を調整することができる情報処理装置及びその制御方法を提供することを目的とする。
 上記目的を達成するために、本開示の一態様に係る情報処理装置は、形容詞を含む自然言語がユーザ入力される入力モジュールと、形容詞から音色データを出力する学習済モデルを用いて、前記ユーザ入力された自然言語に基づいて音色データを出力する音色推定モジュールとを備える。
 また、本開示の一態様に係る、コンピュータによって実現される制御方法は、ユーザ入力された、形容詞を含む自然言語を取得し、形容詞から音色データを出力する学習済モデルを用いて、前記ユーザ入力された自然言語に基づいて音色データを出力する。
 本開示によれば、初心者であっても容易に出力する音色を調整することができる。
本開示の実施形態に係る情報処理装置のハードウェア構成を示すブロック図である。 情報処理装置のソフトウェア構成を示すブロック図である。 収集した訓練データに含まれる各エフェクトパラメータを潜在空間上にマッピングした状態を示す図である。 本開示の実施形態における学習モデルの訓練処理を示すフローチャートである。 本開示の実施形態における音色データの推定処理を示すフローチャートである。 図1における表示部に表示される、図2における入力部及び出力部のUIの例を示す図である。
 以下、本開示の実施形態について添付図面を参照しながら詳細に説明する。以下に説明される各実施形態は、本開示を実現可能な構成の一例に過ぎない。以下の各実施形態は、本開示が適用される装置の構成や各種の条件に応じて適宜に修正又は変更することが可能である。また、以下の各実施形態に含まれる要素の組合せの全てが本開示を実現するに必須であるとは限られず、要素の一部を適宜に省略することが可能である。したがって、本開示の範囲は、以下の各実施形態に記載される構成によって限定されるものではない。また、相互に矛盾のない限りにおいて実施形態内に記載された複数の構成を組み合わせた構成も採用可能である。
 本実施形態に係る情報処理装置100は、シンセサイザによって実現されるが、これに限定されない。例えば、情報処理装置100は、外部のシンセサイザに対して設定すべき音色データを送信する、パーソナルコンピュータやサーバ等の情報処理装置(コンピュータ)であってもよい。
 ここで、本実施形態における音色データは、ピアノ、オルガン、ギター等の各種楽器の波形データ、及びコーラス、リバーブ、ディストーション等のエフェクトパラメータの少なくとも一方を含むデータである。
 概略的には、本実施形態における情報処理装置100は、ユーザが情報処理装置100で演奏するためにその音色を調整する際にユーザ入力された自然言語に基づいて、音色調整に用いる音色データの候補を設定し、各候補をサンプル音色の再生が可能な状態でリスト表示する。その後、ユーザが、リスト表示された候補のうち、再生したサンプル音色が演奏に使用したい音色である候補を選択すると、情報処理装置100は、そのサンプル音色が情報処理装置100で演奏する際の音色となるよう音色調整を行う。
 図1は、本開示の実施形態に係る情報処理装置100のハードウェア構成を示すブロック図である。
 図1に示すように、本実施形態の情報処理装置100は、CPU101、GPU102、ROM103、RAM104、操作部105、マイク106、スピーカ107、表示部108、HDD109を備え、これらは互いにバス110を介して接続する。また、図1においては不図示であるが、情報処理装置100は、ユーザによる演奏が可能なキーボードを備える。
 CPU101は、例えばROM103に格納されるプログラムに従い、RAM104をワークメモリとして用いて、情報処理装置100の各部を制御する、1ないし複数のプロセッサである。
 GPU102は、データの並列処理により効率的な演算を行うことができるので、以下後述するように学習モデルを用いて学習を行う処理はGPU102で行われる。
 RAM104は、揮発性のメモリであり、CPU101の主メモリ、ワークエリア等の一時記憶領域として用いられる。
 マイク106は、収集した音声を電気信号(音声データ)に変換してCPU101に供給する。例えば、マイク106が、ユーザがマイク106に向けて発話した自然言語からなる音声を収集し、これを変換した音声データをCPU101に供給する。
 スピーカ107は、情報処理装置100を用いた演奏時、後述する図4のステップS402の実行時、及び後述する図5のステップS509の実行時等において、音色調整がされた音色を発音する。
 HDD109は、不揮発性のメモリであり、音色データやその他のデータ、CPU101が動作するための各種プログラム等が、それぞれ所定の領域に格納されている。尚、HDD109は、上記データやプログラムが格納できる不揮発性のメモリであればよく、例えば、フラッシュメモリ等の他のメモリであってもよい。
 操作部105及び表示部108は、情報処理装置100に対するユーザの操作を受け付けると共に種々の情報を表示するタッチパネルディスプレイとして一体的に構成される。但し、操作部105及び表示部108が夫々独立したユーザインターフェイス、例えば、操作部105はキーボードやマウスで構成され、表示部108はディスプレイで構成されていてもよい。
 バス110は、上記した情報処理装置100のハードウェア要素を相互に接続する信号伝送路である。
 図2は、情報処理装置100の機能構成を示すブロック図である。
 図2において、情報処理装置100は、学習部201、入力部202、推定部203、及び出力部204を備える。
 入力部(入力モジュール)202は、ユーザ入力された形容詞を推定部203に出力する、CPU101により実行される機能である。
 具体的には、入力部202は、表示部108にI/F601(図6)を表示し、操作部105を用いてユーザによりI/F601に文字入力された自然言語を取得する。その後、入力部202は、取得した自然言語の形態素解析を行い、ユーザ入力された形容詞を抽出し、その抽出された形容詞を推定部203に出力する。
 尚、入力部202は、ユーザ入力された形容詞を取得できれば本実施形態に限定されない。例えば、マイク106で収集したユーザが発話した自然言語に基づきユーザ入力された形容詞を取得してもよいし、表示部108上に複数の形容詞のタグを含むI/F602(図6)を表示し、操作部105を用いてユーザが選択されたタグの形容詞を、ユーザ入力された形容詞として取得してもよい。
 入力部202による処理の詳細は、図4を用いて後述する。
 学習部201は、ニューラルネットワークの一種である、CVAE(conditional variational auto encoder)から構成される学習モデルにより構成される、GPU102により実行される機能である。GPU102は、エフェクトパラメータ及びこれにタグ付けされた形容詞からなる訓練データを用いて、教師あり学習によって学習部201を構成する学習モデルを訓練し、生成された学習済モデルの後述するデコーダのパラメータを推定部203に出力する。
 学習部201を構成する学習モデルは、エンコーダ(encoder)及びデコーダ(decoder)を有する。ここでエンコーダとは、形容詞(ラベルy)がタグ付けされたエフェクトパラメータ(入力データx)が訓練データとして入力されると、訓練データから潜在空間における、形容詞(ラベルy)がタグ付けされた潜在変数zを抽出するニューラルネットワークである。また、デコーダとは、形容詞(ラベルy)がタグ付けされた潜在変数zが入力されると、形容詞(ラベルy)がタグ付けされたエフェクトパラメータ(出力データx’)を再構成するニューラルネットワークである。GPU102は、入力データxと出力データx’を比較して学習部201を構成するエンコーダ及びデコーダのパラメータを調整する。また、ラベルy毎に、図3に示す潜在空間における潜在変数zによるクラスタが形成されるように、エンコーダのパラメータを調整する。GPU102は、かかる処理を繰り返し、学習部201を構成する学習モデルのパラメータを最適化することで、学習モデルを訓練し、学習済みモデルを生成する。GPU102による学習モデルの訓練処理の詳細は、図4を用いて後述する。
 推定部(音色推定モジュール)203は、学習部201において生成された学習済モデルのデコーダと同一のニューラルネットワーク(以下単にデコーダという)であって、GPU102により実行される機能である。
 GPU102は、学習部201から推定部203へパラメータが出力されるとそのパラメータで推定部203を構成するデコーダのパラメータを更新する。
 また、入力部202から推定部203へユーザ入力された形容詞が出力されると、GPU102は、図3に示す潜在空間における潜在変数zのうち、その形容詞がタグ付けされた潜在変数zを取得し、これを、推定部203を構成するデコーダに入力することで、その形容詞がタグ付けされたエフェクトパラメータ(音色データ)を再構成(推定)する。その後、GPU102は、再構成されたエフェクトパラメータを出力部204に出力する。GPU102による音色データの推定処理の詳細は、図5を用いて後述する。
 尚、学習部201及び推定部203で使用されるニューラルネットワークは、特に限定されないが、DNN、RNN/LSTM、Recurrent Neural Network、CNN(Convolutional Neural Network)が例示できる。また、ニューラルネットワークの代わりに、他のモデル、例えば、HMM(hidden Markov model),SVM(support vector machine)を用いてもよい。
 また、学習部201は教師あり学習を行うためCVAEのみで構成したが、VAE(variational auto encoder)やGAN(Generative Adversarial Networks)を含む構成としてもよい。この場合、学習部201において、VAEやGANによる教師なし学習、すなわち、形容詞がタグ付けされていないエフェクトパラメータを訓練データとするクラスタリングを用いた学習を、CVAEによる教師あり学習と組み合わせる、半教師あり学習が実行される。
 また、学習部201及び推定部203は、一つの装置(システム)であっても良い。
 さらに、学習部201及び推定部203は、本実施形態では単一のプロセッサであるGPU102により実行されたが、GPU102を複数のプロセッサで構成して分散処理を行うようにしてもよい。また、GPU102だけでなく、CPU101と協働して実行される機能としてもよい。
 出力部(提示モジュール)204は、推定部203から出力された複数のエフェクトパラメータを、ユーザが情報処理装置100を用いて演奏する際の音色調整に用いるエフェクトパラメータの候補としてリスト表示(提示)する、CPU101により実行される機能である。
 具体的には、出力部204は、表示部108に、候補となる各エフェクトパラメータと紐づく複数のタブを含むI/F603(図6)を表示する。図6に示すように、I/F603の各タブには、各エフェクトパラメータにより音色調整した場合のサンプル音声と紐づく再生ボタンが設けられている。その後、ユーザによりI/F603にある再生ボタンの一つが押下されると、出力部204は、その再生ボタンが設けられているタブをユーザ選択された状態とした上で、その再生ボタンと紐づくサンプル音色を再生する。ユーザは、I/F603に表示される各再生ボタンを押下していき、自身が所望するサンプル音色が再生されたときに、決定ボタン604を押下する。出力部204は、決定ボタン604が押下されると、現在ユーザ選択中のタブに紐づくエフェクトパラメータを情報処理装置100の音色調整に用いることを決定する。
 出力部204による処理の詳細は、図5を用いて後述する。
 図3は、収集した訓練データに含まれる各エフェクトパラメータを潜在空間上にマッピングした状態を示す図である。
 GPU102により学習部201において学習済モデルが生成されると、エフェクトパラメータ(入力データx)は、潜在空間において潜在変数zとしてマッピングされる。この潜在変数zの多くは、ラベルy毎に形成されるクラスタの一つに含まれる。本実施形態では、図3に示すように、潜在空間には、入力データxにタグ付けされたラベルyの一つである、形容詞「美しい」のクラスタ301や、同じくラベルyの一つである、形容詞「きらびやか」のクラスタ302等が形成されている。
 尚、本実施形態では、学習部201への入力データxがエフェクトパラメータのみである場合について説明したが、音色データであればこれに限定されない。例えば、学習部201への入力データxを、波形データのみ、波形データとエフェクトパラメータの組み合わせ、及び複数の音色データを含む音色データセットのいずれかからなる音色データとしてもよい。
 図4は、本実施形態における学習モデルの訓練処理を示すフローチャートである。
 本処理は、CPU101が、ROM103に記憶されたプログラムを読み出し、RAM104をワーキングメモリとして用いて実行する。
 まずステップS401において、CPU101は、エフェクトパラメータをHDD109から取得する。尚、図1において不図示の通信部を介して外部からエフェクトパラメータを取得するようにしてもよい。
 ステップS402において、CPU101は、ステップS401で収集したエフェクトパラメータの夫々に対して、タグ付けする形容詞を取得する。
 ここで、タグ付けする形容詞は具体的には以下のように取得する。
 まず、CPU101は、収集した各エフェクトパラメータを用いて、デフォルトの波形データであるピアノの波形データを音色調整し、その音色をスピーカ107に発音させると共に、表示部108にI/F601(図6)を表示させる。
 その後、CPU101は、ユーザがスピーカ107から発音された音色から想起される形容詞を、操作部105を用いてI/F601に文字入力したことを検知すると、その文字入力された形容詞をタグ付けする形容詞として取得する。ここで取得される形容詞は、単数であっても、複数であってもよい。
 尚、以上の方法でタグ付けする形容詞は取得されるため、出願時の技術常識に鑑みて、訓練データに含まれる音色データとこれにタグ付けされた形容詞の間の相関関係は推認される。
 ステップS403において、CPU101は、ステップS402で取得された形容詞をステップS401で取得したエフェクトパラメータにタグ付けし、訓練データとして生成する。尚、かかるエフェクトパラメータとこれにタグ付けされる形容詞からなるデータセットは、クラウドソーシングを利用して入手してもよい。
 ステップS404において、CPU101は、ステップS403で生成した訓練データを学習部201に入力することで、GPU102に学習部201を構成する学習モデルの学習を行わせ、学習済モデルを生成する。その後、GPU102は、学習済モデルのデコーダのパラメータを学習部201から推定部203に出力し、推定部203を構成するデコーダのパラメータを更新した後、本処理を終了する。
 尚、本実施形態では、ステップS402においてスピーカ107に発音させる音色は、ピアノの波形データを音色調整したものであったが、複数の楽器種別の波形データの音色調整を行うようにしてもよい。この場合、同一のエフェクトパラメータに対して、楽器種別毎にタグ付けする形容詞がステップS402において取得される。また、ステップS404において学習済モデルは、楽器種別毎に生成される。
 次に、図4の処理後に実行される、本実施形態における音色データの推定処理を、図5を用いて説明する。
 図5は、本実施形態における音色データの推定処理を示すフローチャートである。
 本処理は、CPU101が、ROM103に記憶されたプログラムを読み出し、RAM104をワーキングメモリとして用いて実行する。
 まずステップS501において、CPU101は、表示部108にI/F601を表示させ、ユーザが操作部105を用いてI/F601に文字入力した自然言語を取得する。その後、取得した自然言語に対して任意の形態素解析を行い、ユーザ入力された形容詞を抽出する。
 例えば、I/F601に、「美しいピアノの音」という自然言語が文字入力された場合、文字入力された自然言語の形態素解析により「美しい」、「ピアノ」、「音」の3つの単語が取得され、その中から「美しい」という単語がユーザ入力された形容詞として抽出される。
 また、I/F601に、「きらびやかで美しいピアノの音」という自然言語が文字入力された場合、「きらびやか」及び「美しい」という2つの単語がユーザ入力された形容詞として抽出される。
 尚、ステップS501では、ユーザ入力された形容詞が取得できれば、本実施形態の方法に限定されない。例えば、I/F601を表示する代わりに、ステップS402の処理で取得された複数の形容詞をユーザ選択可能なタグとして表示するI/F602を表示し、ユーザ選択されたタグに表示される形容詞を、ユーザ入力された形容詞として取得するようにしてもよい。また、I/F601を表示する代わりに、マイク106でユーザが発話した自然言語を含む音声データを、任意の音声認識技術を用いてテキストデータに変換し、そのテキストデータに対して任意の形態素解析を行い、ユーザ入力された形容詞を抽出するようにしてもよい。
 次にステップS502において、CPU101は、ステップS501で抽出された形容詞がタグ付けされた潜在変数を潜在空間から取得し、その形容詞がタグ付けされた潜在変数を、推定部203を構成するデコーダに入力する。これにより、GPU102に推定部203を構成するデコーダからその形容詞がタグ付けされたエフェクトパラメータを出力させる。尚、ステップS501で抽出された形容詞が複数ある場合は、その全ての形容詞が推定部203を構成するデコーダに入力される。
 例えば、形容詞「美しい」がステップS501において抽出された場合、図3に示すクラスタ301を形成する潜在変数z等、潜在空間において形容詞「美しい」がタグ付けされた潜在変数zにより再構成された、形容詞「美しい」がタグ付けされたエフェクトパラメータが、推定部203から出力される。
 また例えば、形容詞「美しい」及び形容詞「きらびやか」がステップS501において抽出された場合、図3に示すクラスタ301を形成する潜在変数z等、潜在空間においてこの2つの形容詞がタグ付けされている潜在変数zにより再構成された、この2つの形容詞がタグ付けされたエフェクトパラメータが、推定部203から出力される。
 尚、ステップS404において学習済モデルが楽器種別毎に生成されており、且つステップS501において形容詞だけでなく楽器種別も抽出された場合、推定部203における、その抽出された楽器種別のデコーダに、ステップS501で抽出された形容詞は入力される。
 ステップS503において、CPU101は、ステップS502で出力された複数のエフェクトパラメータの中から、ユーザが音色調整に用いるエフェクトパラメータの候補を設定する。本実施形態では、ステップS502で出力された複数のエフェクトパラメータの中からランダムに指定されたものが、ユーザが音色調整に用いるエフェクトパラメータの候補として設定される。尚、ステップS502で出力された複数のエフェクトパラメータのうち、その尤度が閾値以上のものを、ユーザが音色調整に用いるエフェクトパラメータの候補として設定するようにしてもよい。
 ステップS504において、CPU101は、楽器種別のユーザ入力があったか否かを判別する。具体的は、ステップS501における任意の形態素解析により取得された単語のうち、楽器種別があれば、楽器種別のユーザ入力があったと判別する。
 例えば、ステップS501でI/F601に、「美しいピアノの音」という自然言語が文字入力された場合、ステップS504においてCPU101は楽器種別「ピアノ」のユーザ入力があったと判別する。
 楽器種別のユーザ入力があった場合(ステップS504でYES)、ステップS505に進み、CPU101は、ユーザ入力された楽器種別の波形データをHDD109から取得し、ステップS507に進む。
 尚、この場合CPU101は、ユーザ入力された楽器種別に応じて、ステップS503で設定された候補を更に制限する(取捨選択する)。例えば、ユーザ入力された楽器種別が「ピアノ」である場合、通常、音色調整に「ディストーション」は用いられないため、設定された候補に「ディストーション」が含まれている場合はこれを候補から外す。
 一方、楽器種別のユーザ入力がなかった場合(ステップS504でNO)、ステップS506に進み、CPU101は、デフォルトで設定されている楽器種別「ピアノ」の波形データをHDD109から取得し、ステップS507に進む。尚、デフォルトで設定される楽器種別の波形データは、本実施形態に限定されず、オルガン、ギター等の他の楽器種別の波形データであってもよい。また、ステップS506において、CPU101は、表示部108に複数の楽器種別が夫々記載された複数のタグを表示させ、ユーザ選択されたタグに表示される楽器種別の波形データをHDD109から取得するようにしてもよい。
 ステップS507において、CPU101は、ステップS503で設定されたエフェクトパラメータの候補を表示部108にリスト表示させる。具体的には、図6のI/F603に示すように、ステップS503で設定されたエフェクトパラメータの候補を夫々「音色1」タブ、「音色2」タブ、・・・というユーザ選択可能なタブとして表示する。また、夫々のタブには再生ボタンが設けられている。
 ステップS508において、CPU101は、ステップS503で設定されたエフェクトパラメータの候補の一つの再生指示があったか判別する。具体的には、I/F603の各タブに設けられている再生ボタンのいずれかが押下されたか否かを判別する。候補の一つの再生指示があった場合(ステップS508でYES)、ステップS509へ進む。
 ステップS509において、CPU101は、表示部108に再生ボタンが押下されたタブの色(またはその再生ボタンの部分)を反転させ、そのタブがユーザ選択された状態となったことをユーザに通知すると共に、再生指示のあった候補のエフェクトパラメータと、ステップS505,S506のいずれかで取得された波形データとを用いて音色を調整し、サンプル音色としてスピーカ107に発音(再生)させる。
 ステップS510において、CPU101は、再生指示のあった候補が音色調整に用いるエフェクトパラメータとしてユーザ選択されたか否かを判別する。具体的には、ステップS508でスピーカ107によりサンプル音色を発音させた後、I/F603において、他の再生ボタンの押下がされることなく決定ボタン604が押下された場合に、再生指示のあった候補が音色調整に用いるエフェクトパラメータとしてユーザ選択されたと判別する。
 すなわち、決定ボタン604が押下されることなく、他の候補の一つの再生指示があった場合(ステップS510でNO、ステップS508でYES)、ステップS509以降の処理を繰り返す。一方、他の候補の一つの再生指示がされることなく、決定ボタン604が押下された場合(ステップS510でYES)、CPU101は、再生されたサンプル音色が情報処理装置100で演奏する際の音色となるように音色調整を行った後、ステップS511に進む。
 ステップS511において、CPU101は、ステップS501で抽出された形容詞及びステップS510でユーザ選択された音色調整に用いるエフェクトパラメータに基づき、GPU102に学習部201で生成された学習済モデルの追加学習を行わせる。その後、追加学習後の学習済モデルのデコーダ部分のパラメータで推定部203を構成するデコーダのパラメータを更新した後、本処理を終了する。これにより、ユーザが情報処理装置100で演奏を行う際に図5の処理により音色調整を行えば行うほど、よりカスタマイズされたエフェクトパラメータの候補がI/F603においてリスト表示されるようになる。
 本実施形態によれば、ユーザが情報処理装置100の演奏に使用したい音色を表す自然言語を表示部108上のI/F601に文字入力すると、CPU101は、その文字入力された自然言語に基づいてユーザが音色調整に用いるエフェクトパラメータの候補を設定し、I/F603に夫々の候補のサンプル音色を再生するための再生ボタンを表示する。ユーザは、I/F603に表示される再生ボタンを押下してサンプル音色を再生し、それが情報処理装置100の演奏に使用したい音色であると確認した場合に決定ボタン604を押下するだけで、情報処理装置100を用いて演奏を行う際の音色を調整することができる。すなわち、ユーザが、初心者であって、従来のシンセサイザにおいて多数設けられているボタンやノブを操作して、情報処理装置100の演奏に使用したいエフェクトパラメータを調整することが困難な場合であっても、情報処理装置100を用いて演奏を行う際の音色を容易に調整することができる。
 また、従来のシンセサイザにおいて多数設けられているボタンやノブを操作することなく、簡便に情報処理装置100で演奏する際の楽器種別の波形データを設定することができる。
 尚、ステップS511で行われる追加学習の方法は特に限定されない。例えば、ステップS403で生成された訓練データを、図5の処理でI/F603を用いてユーザが取捨選択した内容に基づいて更新するようにしてもよいし、ステップS510においてユーザ選択されたことを報酬として与える強化学習を行うようにしてもよい。
 本実施形態では、情報処理装置100が、図4、図5の処理を全て行っていたが、かかる構成に限定されない。例えば、情報処理装置100は、タブレット、スマホ等の携帯端末(不図示)や、サーバ(クラウド)(不図示)と接続し、これらと協調動作、すなわち、装置ごとの処理を分担し、どこで処理をしても良いようにしてもよい。例えば、クラウドで学習済モデルを生成し、携帯端末で図6のI/F601を表示するようにしてもよい。
 任意の機械学習手法によって学習部201における学習モデルの訓練及び学習済モデルの追加学習がされ得る。例えば、ガウス過程回帰(ベイズ最適化)、方策反復法の一種である方策勾配法、生物進化のプロセスを模倣した手法である遺伝的アルゴリズム、等の手法が採用され得る。
 なお、本開示を達成するためのソフトウェアによって表される各制御プログラムを記憶した記憶媒体を、各装置に読み出すことによって同様の効果を奏するようにしてもよく、その場合、記憶媒体から読み出されたプログラムコード自体が本開示の新規な機能を実現することになり、そのプログラムコードを記憶した、非一過性のコンピュータ読み取り可能な記録媒体は本開示を構成することになる。また、プログラムコードを伝送媒体等を介して供給してもよく、その場合は、プログラムコード自体が本開示を構成することになる。なお、これらの場合の記憶媒体としては、ROMのほか、フロッピディスク、ハードディスク、光ディスク、光磁気ディスク、CD-ROM、CD-R、磁気テープ、不揮発性のメモリカード等を用いることができる。「非一過性のコンピュータ読み取り可能な記録媒体」は、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含む。
 本出願は、2021年3月4日出願の日本出願(特願2021-034735)に基づくものであり、その内容はここに参照として取り込まれる。
 本開示の情報処理装置及びその制御方法によれば、初心者であっても容易に出力する音色を調整することができる。
 100 情報処理装置
 101 CPU
 102 GPU
 105 操作部
 107 スピーカ
 108 表示部
 109 HDD
 201 学習部
 202 入力部
 203 推定部
 204 出力部
 

Claims (20)

  1.  形容詞を含む自然言語がユーザ入力される入力モジュールと、
     形容詞から音色データを出力する学習済モデルを用いて、前記ユーザ入力された自然言語に基づいて音色データを出力する音色推定モジュールと、を備えた、情報処理装置。
  2.  前記音色推定モジュールにより出力される音色データは、複数の音色データであって、
     前記複数の音色データを、ユーザ選択されるべき音色データの候補としてユーザに提示する提示モジュールを更に備えた、請求項1に記載の情報処理装置。
  3.  前記提示モジュールは、前記音色データの候補を発音する、請求項2に記載の情報処理装置。
  4.  前記音色データの候補は、波形データ及びエフェクトパラメータの少なくとも一方により構成される、請求項3に記載の情報処理装置。
  5.  前記音色データの候補は、複数の音色データを含む音色データセットである、請求項4に記載の情報処理装置。
  6.  前記音色データの候補がエフェクトパラメータのみから構成される場合、前記提示モジュールは、前記音色データの候補であるエフェクトパラメータを、デフォルトの波形データと組み合わせて発音する、請求項4又は5に記載の情報処理装置。
  7.  前記音色データの候補がエフェクトパラメータのみから構成され、かつ前記ユーザ入力された自然言語に楽器種別が含まれる場合、前記提示モジュールは、前記音色データの候補であるエフェクトパラメータを、前記楽器種別の波形データと組み合わせて発音する、請求項4又は5に記載の情報処理装置。
  8.  前記提示モジュールは、前記音色データの候補を、前記楽器種別に応じて制限する、請求項7に記載の情報処理装置。
  9.  前記音色データの候補の中からユーザ選択された音色データ及び前記ユーザ入力された自然言語に含まれる形容詞に基づいて、前記学習済モデルの追加学習を行う、請求項2乃至8のいずれか1項に記載の情報処理装置。
  10.  前記音色推定モジュールは、前記ユーザ入力された自然言語に含まれる形容詞がタグ付けされた潜在変数を潜在空間から取得し、前記取得した潜在変数を前記学習済モデルに入力することで前記複数の音色データを出力する、請求項2乃至9のいずれか1項に記載の情報処理装置。
  11.  ユーザ入力された、形容詞を含む自然言語を取得し、
     形容詞から音色データを出力する学習済モデルを用いて、前記ユーザ入力された自然言語に基づいて音色データを出力する、コンピュータによって実現される制御方法。
  12.  前記音色データ出力処理により出力される音色データは、複数の音色データであって、
     前記複数の音色データを、ユーザ選択されるべき音色データの候補としてユーザに提示する、請求項11に記載の制御方法。
  13.  前記提示処理において、前記音色データの候補を発音する、請求項12に記載の制御方法。
  14.  前記音色データの候補は、波形データ及びエフェクトパラメータの少なくとも一方により構成される、請求項13に記載の制御方法。
  15.  前記音色データの候補は、複数の音色データを含む音色データセットである、請求項14に記載の制御方法。
  16.  前記音色データの候補がエフェクトパラメータのみから構成される場合、前記提示処理において、前記音色データの候補であるエフェクトパラメータを、デフォルトの波形データと組み合わせて発音する、請求項14又は15に記載の制御方法。
  17.  前記音色データの候補がエフェクトパラメータのみから構成され、かつ前記ユーザ入力された自然言語に楽器種別が含まれる場合、前記提示処理において、前記音色データの候補であるエフェクトパラメータを、前記楽器種別の波形データと組み合わせて発音する、請求項14又は15に記載の制御方法。
  18.  前記処理において、前記音色データの候補を、前記楽器種別に応じて制限する、請求項17に記載の制御方法。
  19.  前記音色データの候補の中からユーザ選択された音色データ及び前記ユーザ入力された自然言語に含まれる形容詞に基づいて、前記学習済モデルの追加学習を行う、請求項12乃至18のいずれか1項に記載の制御方法。
  20.  前記音色データ出力処理において、前記ユーザ入力された自然言語に含まれる形容詞がタグ付けされた潜在変数を潜在空間から取得し、前記取得した潜在変数を前記学習済モデルに入力することで前記複数の音色データを出力する、請求項12乃至19のいずれか1項に記載の制御方法。
PCT/JP2022/006589 2021-03-04 2022-02-18 情報処理装置及びその制御方法 WO2022185946A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202280018508.7A CN117043849A (zh) 2021-03-04 2022-02-18 信息处理装置及其控制方法
US18/460,461 US20230419932A1 (en) 2021-03-04 2023-09-01 Information processing device and control method thereof

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021034735A JP2022135126A (ja) 2021-03-04 2021-03-04 情報処理装置、及びその制御方法
JP2021-034735 2021-03-04

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/460,461 Continuation US20230419932A1 (en) 2021-03-04 2023-09-01 Information processing device and control method thereof

Publications (1)

Publication Number Publication Date
WO2022185946A1 true WO2022185946A1 (ja) 2022-09-09

Family

ID=83154161

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/006589 WO2022185946A1 (ja) 2021-03-04 2022-02-18 情報処理装置及びその制御方法

Country Status (4)

Country Link
US (1) US20230419932A1 (ja)
JP (1) JP2022135126A (ja)
CN (1) CN117043849A (ja)
WO (1) WO2022185946A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06149243A (ja) * 1992-11-12 1994-05-27 Yamaha Corp 電子楽器
JPH09325773A (ja) * 1996-05-31 1997-12-16 Yamaha Corp 音色選択装置及び音色調整装置
JP2006235201A (ja) * 2005-02-24 2006-09-07 Nippon Telegr & Teleph Corp <Ntt> 楽音コンテンツ構成方法と装置および楽音コンテンツ構成プログラムと記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06149243A (ja) * 1992-11-12 1994-05-27 Yamaha Corp 電子楽器
JPH09325773A (ja) * 1996-05-31 1997-12-16 Yamaha Corp 音色選択装置及び音色調整装置
JP2006235201A (ja) * 2005-02-24 2006-09-07 Nippon Telegr & Teleph Corp <Ntt> 楽音コンテンツ構成方法と装置および楽音コンテンツ構成プログラムと記録媒体

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KOBAYASHI, ATSUYA: "[CCLab 20 Autumn] Music and Human-Computer Interaction Research Trends and Practices", COMPUTATIONAL CREATIVITY LAB AT KEIO SFC, JP, pages 1 - 19, XP009539612 *
SAITO HAJIME: "Efficiency of Tone Production in -frDTM (DeskTop Music) by Machine Learning UsingMetadata", INFORMATION PROCESSING SOCIETY OF JAPAN RESEARCH REPORT, vol. 2016, no. 15, 22 February 2016 (2016-02-22), pages 1 - 6, XP055963723 *

Also Published As

Publication number Publication date
CN117043849A (zh) 2023-11-10
US20230419932A1 (en) 2023-12-28
JP2022135126A (ja) 2022-09-15

Similar Documents

Publication Publication Date Title
US9595256B2 (en) System and method for singing synthesis
US20190196666A1 (en) Systems and Methods Document Narration
US8364488B2 (en) Voice models for document narration
CN108806655B (zh) 歌曲的自动生成
US8346557B2 (en) Systems and methods document narration
WO2015092936A1 (ja) 音声合成装置、音声合成方法およびプログラム
US20210256960A1 (en) Information processing method and information processing system
US11842719B2 (en) Sound processing method, sound processing apparatus, and recording medium
CN111418006A (zh) 声音合成方法、声音合成装置及程序
WO2022185946A1 (ja) 情報処理装置及びその制御方法
JP6617784B2 (ja) 電子機器、情報処理方法、及びプログラム
JP2022065554A (ja) 音声合成方法およびプログラム
JP2022065566A (ja) 音声合成方法およびプログラム
US20230260493A1 (en) Sound synthesizing method and program
US20240135916A1 (en) Non-transitory computer-readable recording medium, sound processing method, and sound processing system
Furduj Acoustic instrument simulation in film music contexts
JP4716192B2 (ja) 語学学習システム及び語学学習用プログラム
CN117475991A (zh) 文本转换音频的方法、装置及计算机设备
Karipidou et al. Computer analysis of sentiment interpretation in musical conducting
ESTIBEIRO CHAPTER THIRTEEN THE GUITAR REIMAGINED MARC ESTIBEIRO AND DAVID COTTER
Barz Integrating Sensor Technology into Artistic Practice: A critical examination of the role of the performer
Kaur et al. Generation of Expressive Speech for Punjabi
WO2010083354A1 (en) Systems and methods for multiple voice document narration

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22763002

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 202280018508.7

Country of ref document: CN

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 22763002

Country of ref document: EP

Kind code of ref document: A1