WO2021186928A1 - 演奏情報に対する評価を推論する方法、システム、及びプログラム - Google Patents

演奏情報に対する評価を推論する方法、システム、及びプログラム Download PDF

Info

Publication number
WO2021186928A1
WO2021186928A1 PCT/JP2021/003784 JP2021003784W WO2021186928A1 WO 2021186928 A1 WO2021186928 A1 WO 2021186928A1 JP 2021003784 W JP2021003784 W JP 2021003784W WO 2021186928 A1 WO2021186928 A1 WO 2021186928A1
Authority
WO
WIPO (PCT)
Prior art keywords
performance
evaluation
information
phrase
unit
Prior art date
Application number
PCT/JP2021/003784
Other languages
English (en)
French (fr)
Inventor
陽 前澤
Original Assignee
ヤマハ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤマハ株式会社 filed Critical ヤマハ株式会社
Priority to JP2022508116A priority Critical patent/JPWO2021186928A5/ja
Priority to CN202180019706.0A priority patent/CN115244613A/zh
Publication of WO2021186928A1 publication Critical patent/WO2021186928A1/ja
Priority to US17/946,176 priority patent/US20230009481A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0033Recording/reproducing or transmission of music for electrophonic musical instruments
    • G10H1/0041Recording/reproducing or transmission of music for electrophonic musical instruments in coded form
    • G10H1/0058Transmission between separate instruments or between individual components of a musical system
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10GREPRESENTATION OF MUSIC; RECORDING MUSIC IN NOTATION FORM; ACCESSORIES FOR MUSIC OR MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR, e.g. SUPPORTS
    • G10G1/00Means for the representation of music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/091Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for performance evaluation, i.e. judging, grading or scoring the musical qualities or faithfulness of a performance, e.g. with respect to pitch, tempo or other timings of a reference performance
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/005Non-interactive screen display of musical or status data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation

Definitions

  • the present invention relates to a method, a system, and a program for inferring an evaluation of performance information.
  • Patent Document 1 proposes a technique for identifying a performer's performance tendency by comparing the performance information indicating the actual performance by the performer with the reference information indicating the performance standard (correct performance). ..
  • Patent Document 1 discloses a technique for specifying the degree of deviation between the correct performance and the actual performance of the performer, not a technique for specifying the subjective evaluation of the performance information. In order to realize control suitable for the user's taste, it is required to infer the user's evaluation of the performance information.
  • An object of the present invention is to provide a method, a system, and a program for appropriately inferring an evaluation of performance information.
  • the method according to one aspect of the present invention is a method realized by a computer, the first performance information including a plurality of performance units, and the evaluation information associated with the plurality of performance units.
  • a learning model that has learned the relationship with is acquired, a second performance information is acquired, the second performance information is processed using the learning model, and each of the plurality of performance units included in the performance information is processed. Infer the evaluation.
  • the evaluation of the performance information is appropriately inferred.
  • FIG. 1 is an overall configuration diagram showing an information processing system S according to an embodiment of the present invention.
  • the information processing system S of the present embodiment includes an electronic musical instrument 100, a control device 200, and a server 300.
  • the electronic musical instrument 100 is a device used when a user plays a musical piece.
  • the electronic musical instrument 100 may be, for example, an electronic keyboard instrument such as an electronic piano, an electronic stringed instrument such as an electric guitar, or an electronic tube instrument such as a wind synthesizer.
  • the control device 200 is a device used when the user performs an operation related to the setting of the electronic musical instrument 100, and is, for example, an information terminal such as a tablet terminal, a smartphone, or a personal computer (PC).
  • the electronic musical instrument 100 and the control device 200 can communicate with each other wirelessly or by wire.
  • the control device 200 and the electronic musical instrument 100 may be integrally configured.
  • the server 300 is a cloud server that transmits / receives data to / from the control device 200, and can communicate with the control device 200 via the network NW.
  • the server 300 is not limited to a cloud server, and may be a server on a local network. Further, the function of the server 300 of the present embodiment may be realized by a collaborative operation between the cloud server and the server of the local network.
  • inference is made to a learning model M in which the relationship between the performance information A including a plurality of phrases F (performance units) and the evaluation information B associated with the plurality of phrases F is machine-learned.
  • the evaluation for each of the plurality of phrases F included in the input performance information A is inferred.
  • the server 300 trains the learning model M by machine learning processing, and the control device 200 executes the inference processing using the trained learning model M.
  • FIG. 2 is a block diagram showing the hardware configuration of the electronic musical instrument 100.
  • the electronic musical instrument 100 includes a CPU (Central Processing Unit) 101, a RAM (Random Access Memory) 102, a storage 103, a performance operation unit 104, a setting operation unit 105, a display unit 106, a sound source unit 107, and a sound. It has a system 108, a transmission / reception unit 109, and a bus 110.
  • a CPU Central Processing Unit
  • RAM Random Access Memory
  • the CPU 101 is a processing circuit that executes various operations in the electronic musical instrument 100.
  • the RAM 102 is a volatile storage medium, and functions as a working memory for storing set values used by the CPU 101 and for developing various programs.
  • the storage 103 is a non-volatile storage medium that stores various programs and data used by the CPU 101.
  • the performance operation unit 104 is an element that receives a performance operation corresponding to the performance of the music by the user, generates performance operation information (for example, MIDI data) indicating the music, and supplies it to the CPU 101, and is, for example, an electronic keyboard. ..
  • the setting operation unit 105 is an element that receives a setting operation from a user, generates operation data, and supplies the operation data to the CPU 101, for example, an operation switch.
  • the display unit 106 is an element for displaying various information such as musical instrument setting information, and for example, transmits a video signal to the display of the electronic musical instrument 100.
  • the sound source unit 107 generates a sound signal based on the performance operation information supplied from the CPU 101 and the set parameters, and inputs the sound signal to the sound system 108.
  • the sound system 108 is composed of an amplifier and a speaker, and generates a sound corresponding to a sound signal input from the sound source unit 107.
  • the transmission / reception unit 109 is an element for transmitting / receiving data to / from the control device 200, and is, for example, a Bluetooth (registered trademark) module used for short-range wireless communication.
  • the bus 110 is a signal transmission line (system bus) that interconnects the hardware elements of the electronic musical instrument 100 described above.
  • FIG. 3 is a block diagram showing the hardware configuration of the control device 200.
  • the control device 200 includes a CPU 201, a RAM 202, a storage 203, an input / output unit 204, a transmission / reception unit 205, and a bus 206.
  • the CPU 201 is a processing circuit that executes various operations in the control device 200.
  • the RAM 202 is a volatile storage medium, and functions as a working memory for storing set values used by the CPU 201 and for developing various programs.
  • the storage 203 is a non-volatile storage medium and stores various programs and data used by the CPU 201.
  • the input / output unit 204 is an element (user interface) that receives a user's operation on the control device 200 and displays various information, and is composed of, for example, a touch panel.
  • the transmission / reception unit 205 is an element that transmits / receives data to / from other devices (electronic musical instrument 100, server 300, etc.).
  • the transmission / reception unit 205 provides a plurality of modules (for example, a Bluetooth (registered trademark) module for short-range wireless communication performed with the electronic musical instrument 100 and a Wi-Fi (registered trademark) module for communication with the server 300).
  • modules for example, a Bluetooth (registered trademark) module for short-range wireless communication performed with the electronic musical instrument 100 and a Wi-Fi (registered trademark) module for communication with the server 300).
  • Bus 206 is a signal transmission line that interconnects the hardware elements of the control device 200 described above.
  • FIG. 4 is a block diagram showing the hardware configuration of the server 300.
  • the server 300 includes a CPU 301, a RAM 302, a storage 303, an input unit 304, an output unit 305, a transmission / reception unit 306, and a bus 307.
  • the CPU 301 is a processing circuit that executes various operations on the server 300.
  • the RAM 302 is a volatile storage medium, and functions as a working memory for storing set values used by the CPU 301 and for developing various programs.
  • the storage 303 is a non-volatile storage medium and stores various programs and data used by the CPU 301.
  • the input unit 304 is an element that receives an operation on the server 300, and receives, for example, an input signal from a keyboard and a mouse connected to the server 300.
  • the output unit 305 is an element that displays various information, and outputs a video signal to, for example, a liquid crystal display connected to the server 300.
  • the transmission / reception unit 306 is an element that transmits / receives data to / from the control device 200, and is, for example, a network card (NIC).
  • NIC network card
  • Bus 307 is a signal transmission line that interconnects the hardware elements of the server 300 described above.
  • the CPUs 101, 201, and 301 of the above devices 100, 200, and 300 read the programs stored in the storages 103, 203, and 303 into the RAMs 102, 202, and 303, and execute the following functional blocks (control unit). 150, 250, 350, etc.) and various processes according to this embodiment are realized.
  • Each of the above-mentioned CPUs may be a single core, or may be a plurality of cores having the same or different architecture.
  • Each CPU is not limited to a normal CPU, and may be a DSP or an inference processor, or may be any combination of two or more of them.
  • various processes according to the present embodiment may be realized by executing a program by one or more processors such as a CPU, a DSP, an inference processor, and a GPU.
  • FIG. 5 is a block diagram showing a functional configuration of the information processing system S according to the embodiment of the present invention.
  • the electronic musical instrument 100 has a control unit 150 and a storage unit 160.
  • the control unit 150 is a functional block that integrally controls the operation of the electronic musical instrument 100.
  • the storage unit 160 is composed of a RAM 102 and a storage 103, and stores various data used by the control unit 150.
  • the control unit 150 has a performance acquisition unit 151 as a sub-function block.
  • the performance acquisition unit 151 is a functional block that acquires performance operation information generated by the performance operation unit 104 according to the user's performance operation.
  • the performance operation information is information indicating the pronunciation timing and pitch of each of the plurality of sounds played by the user.
  • the performance operation information may include information indicating the length and intensity of each sound. That is, the performance acquisition unit 151 supplies the acquired performance operation information to the sound source unit 107 and also to the control device 200 (performance reception unit 252) via the transmission / reception unit 109.
  • the control device 200 has a control unit 250 and a storage unit 260.
  • the control unit 250 is a functional block that integrally controls the operation of the control device 200.
  • the storage unit 260 is composed of a RAM 202 and a storage 203, and stores various data used by the control unit 250.
  • the control unit 250 has an authentication unit 251, a performance reception unit 252, an evaluation acquisition unit 253, a data preprocessing unit 254, an inference processing unit 255, and a presentation unit 256 as sub-functional blocks.
  • the authentication unit 251 is a functional block that authenticates the user in cooperation with the server 300 (server authentication unit 351).
  • the authentication unit 251 transmits authentication information such as a user identifier and a password input by the user using the input / output unit 204 to the server 300, and permits or denies the user's access based on the authentication result received from the server 300.
  • the authentication unit 251 can supply the user identifier of the authenticated (access-authorized) user to other functional blocks.
  • the performance receiving unit 252 receives the performance operation information supplied from the electronic musical instrument 100 (performance acquisition unit 151), decomposes it into the phrase F which is a performance unit, and acquires the performance information A including a plurality of phrases F. Is.
  • the performance receiving unit 252 can decompose the music shown in the performance operation information into a plurality of phrases F by using an arbitrary phrase detection method.
  • the phrase detection method for example, detection based on a break in continuous performance, detection based on a melody pattern, detection based on a chord progression pattern, or the like can be used.
  • a combination method of two or more phrase detection methods may be used.
  • the performance information A is information indicating the pronunciation timing and pitch of each of the plurality of sounds included in the phrase F, and is high-dimensional time-series data expressing the performance of the music by the user.
  • the performance receiving unit 252 stores the acquired performance information A in the storage unit 260 or supplies it to the data preprocessing unit 254.
  • the performance receiving unit 252 can add the user identifier supplied from the authentication unit 251 to the performance information A and store it in the storage unit 260.
  • the performance receiving unit 252 transmits the performance information A to which the user identifier is given to the server 300 via the transmitting / receiving unit 205.
  • the evaluation acquisition unit 253 is a functional block that generates evaluation information B indicating the evaluation of the phrase F input by the user.
  • the user can give an evaluation to each phrase F included in the performance information A by operating the input / output unit 204.
  • the evaluation may be given in parallel with the performance of the music (in other words, the acquisition of the performance information A), or may be separately executed after the performance of the music is completed. That is, the evaluation by the user may be a real-time evaluation or an ex-post evaluation.
  • the evaluation information B is data associated with a plurality of phrases F, and includes identification data for identifying one phrase and an evaluation label indicating the evaluation of the phrase F, respectively.
  • the evaluation label may be a value indicating a five-level evaluation (for example, the number of stars).
  • the identification data is not limited to the data that directly specifies the phrase F, and may be the absolute time or the relative time related to the phrase F.
  • the evaluation acquisition unit 253 stores the generated evaluation information B in the storage unit 260.
  • the evaluation acquisition unit 253 can add the user identifier supplied from the authentication unit 251 to the evaluation information B and store it in the storage unit 260.
  • the evaluation acquisition unit 253 transmits the evaluation information B to which the user identifier is given to the server 300 via the transmission / reception unit 205.
  • the data preprocessing unit 254 scales the performance information A stored in the storage unit 260 or the performance information A supplied from the performance reception unit 252 so as to be in a format suitable for inference by the learning model M.
  • the inference processing unit 255 inputs the preprocessed performance information A (plurality of phrases F) as input data to the learning model M trained by the learning processing unit 353, which will be described later, to provide the performance information A. It is a functional block that infers the evaluation for each included phrase F.
  • Any machine learning model can be adopted as the learning model M of the present embodiment.
  • a recurrent neural network (RNN) and its derivatives (long / short-term memory (LSTM), gated recurrent unit (GRU), etc.) suitable for time series data are adopted in the learning model M.
  • the presentation unit 256 is a functional block that presents information about the music lesson to the user based on the evaluation for each phrase F inferred by the inference processing unit 255.
  • the presentation unit 256 causes, for example, the input / output unit 204 to display information on a portion to be practiced selected based on the evaluation for each phrase F. Further, the presentation unit 256 may display the above information on another device, for example, the display unit 106 of the electronic musical instrument 100.
  • the server 300 has a control unit 350 and a storage unit 360.
  • the control unit 350 is a functional block that integrally controls the operation of the server 300.
  • the storage unit 360 is composed of a RAM 302 and a storage 303, and stores various data used by the control unit 350 (particularly, performance information A and evaluation information B supplied from the control device 200). It is preferable that the storage unit 360 stores the performance information A and the evaluation information B generated by the plurality of users using the electronic musical instrument 100 and the control device 200, respectively.
  • the control unit 350 has a server authentication unit 351, a data preprocessing unit 352, a learning processing unit 353, and a model distribution unit 354 as sub-functional blocks.
  • the server authentication unit 351 is a functional block that authenticates a user in cooperation with the control device 200 (authentication unit 251). The server authentication unit 351 determines whether or not the authentication information supplied from the control device 200 matches the authentication information stored in the storage unit 360, and transmits the authentication result (permission or denial) to the control device 200. ..
  • the data pre-processing unit 352 executes data pre-processing such as scaling on the performance information A and the evaluation information B stored in the storage unit 360 so as to be in the form of training (machine learning) of the learning model M. It is a functional block to be used.
  • the learning processing unit 353 refers to the user identifiers given to the performance information A and the evaluation information B, uses the performance information A (plurality of phrases F) after the data preprocessing as input data, and evaluates the evaluation information B after the data preprocessing.
  • the initial data of the learning model M for a specific user it is preferable to use a base learning model trained using a large amount of performance information A and evaluation information B other than the specific user. This is because the amount of information that a single user can generate is generally limited and relatively small.
  • the model distribution unit 354 is a functional block that supplies the learning model M trained by the learning processing unit 353 to the control device 200 of a specific user indicated by the user identifier.
  • FIG. 6 is a sequence diagram showing machine learning processing for a specific user indicated by a certain user identifier in the information processing system S according to the embodiment of the present invention.
  • the machine learning process of this embodiment is executed by the CPU 301 of the server 300.
  • the machine learning process of the present embodiment may be executed periodically or may be executed in response to an instruction from the user (control device 200).
  • step S610 the data pre-processing unit 352 reads out the data set including the user's performance information A and the evaluation information B indicated by the user identifier, which is stored in the storage unit 360, and executes the data pre-processing.
  • step S620 the learning processing unit 353 uses the performance information A including the plurality of phrases F as input data and the evaluation information B associated with the plurality of phrases F as the teacher based on the data set preprocessed in the step S610.
  • the learning model M is trained by using it as data, and the trained learning model M is stored in the storage unit 360.
  • the learning model M is trained so that the evaluation information B of the user indicated by the user identifier can be estimated with respect to the performance information A of the unknown phrase.
  • the learning processing unit 353 may perform machine learning of the learning model M by using an error back propagation method or the like.
  • step S630 the model distribution unit 354 supplies the learning model M trained in step S620 to the control device 200 via the network NW.
  • the control unit 250 of the control device 200 stores the received learning model M in the storage unit 260.
  • FIG. 7 is a sequence diagram showing an inference presentation process for a specific user indicated by a certain user identifier in the information processing system S according to the embodiment of the present invention.
  • the control device 200 infers the evaluation for each phrase F, and presents the information about the music lesson to the user based on the inferred evaluation.
  • the performance receiving unit 252 receives the performance operation information acquired by the performance acquisition unit 151 from the electronic musical instrument 100 of the user and assigns the user identifier.
  • the performance receiving unit 252 may read the performance operation information stored in the storage unit 260 by assigning a user identifier to the performance receiving unit 252 that has been received from the user's electronic musical instrument 100 in the past.
  • step S720 the performance receiving unit 252 decomposes the received performance operation information into the phrase F, which is a performance unit, acquires the performance information A including the plurality of phrases F, and supplies the performance information A to the data preprocessing unit 254.
  • step S730 the data preprocessing unit 254 executes data preprocessing on the performance information A supplied from the performance receiving unit 252 in step S720, and transfers the performance information A after the preprocessing to the inference processing unit 255. Supply.
  • the inference processing unit 255 receives performance information A including a plurality of phrases F supplied from the data preprocessing unit 254 as input data for the trained learning model M stored in the storage unit 260. input.
  • the learning model M infers (estimates) the user's evaluation for each of the plurality of phrases F included in the input performance information A.
  • the inferred value indicating the evaluation may be a discrete value or a continuous value.
  • the inferred evaluation for each phrase F is supplied to the presentation unit 256.
  • step S750 the presentation unit 256 causes the input / output unit 204 to display information about the music lesson based on the evaluation of the user for each phrase F inferred by the inference processing unit 255 in step S740.
  • the presentation unit 256 presents the phrase F, which has a higher inferred evaluation, to the user as a practice part with a higher frequency.
  • the presentation unit 256 may present to the user practice phrases corresponding to a predetermined number of phrases F selected in descending order of inferred evaluation.
  • the plurality of practice phrases that are candidates for presentation may be stored in the storage unit 260, or may be registered in a database of an external device such as a distribution server.
  • the practice phrase may be, for example, a phrase indicating the basic practice required to realize the musical characteristics (scale, arpeggio, etc.) in the phrase F. Further, the practice phrase is not limited to the phrase indicating the basic practice, and a plurality of practice phrases suitable for the performance grade may be registered in the storage unit 260 or the database of the external device.
  • the evaluation of the user corresponding to each of the plurality of phrases F included in the performance information A is appropriately inferred by the trained learning model M.
  • the control device 200 presents information about the music lesson to the user based on the inferred evaluation for each phrase F.
  • the user can improve the technique for playing the highly evaluated phrase better.
  • the learning model M is trained and supplied from the server 300 for each user identified by the user identifier. Therefore, even if the electronic musical instrument 100 or the control device 200 is replaced, the user can continue to use the learning model M suitable for the user.
  • the inferred evaluation is used to present information about the music lesson.
  • the inferred evaluation can be used for any purpose.
  • control device 200 may present a musical piece that the user is likely to like to the user based on the inferred evaluation. More specifically, the presentation unit 256 of the control device 200 may present to the user a musical composition containing phrases similar to a predetermined number of phrases selected in descending order of inferred evaluation.
  • control device 200 may automatically select the highly evaluated phrase F included in the performance information A as a theme, expand the selected phrase F according to the chord progression, and execute automatic composition. ..
  • control device 200 selectively selects a phrase whose high evaluation is inferred from a plurality of automatically generated candidate phrases. You may output it.
  • a plurality of phrases F included in the music are used as the performance unit, but any temporal element can be used as the performance unit.
  • a plurality of performance sections in which music is divided at predetermined time intervals may be used as a performance unit.
  • the performance information A and the evaluation information B used for training (machine learning) of the learning model M performed by the learning processing unit 353 of the server 300 may be only information from a single user who uses the learning model M. , Information from a plurality of users may be used. Further, the learning model M may be trained using the performance information A and the evaluation information B from a plurality of users having a common attribute. For example, the learning model M may be trained using information from users who have the same number of years of playing experience or who belong to a classroom of the same grade.
  • the learning processing unit 353 of the server 300 may apply additional learning to the learning model M. That is, the learning processing unit 353 trains the learning model M using the performance information A and the evaluation information B from a plurality of users, and then fine-tunes using the performance information A and the evaluation information B from a specific single user. May be executed for the learning model M.
  • the control device 200 infers the evaluation for each phrase F using the learning model M supplied from the server 300.
  • evaluation inference may be performed anywhere.
  • the server 300 preprocesses the performance information A supplied from the control device 200, and inputs the preprocessed performance information A into the learning model M stored in the storage unit 360 as input data.
  • the evaluation for each phrase F included in A may be inferred.
  • the server 300 can execute the inference process by the learning model M using the performance information A as the input data. As a result, the processing load on the control device 200 is reduced.
  • the performance information A is generated by the performance receiving unit 252 that receives the performance operation information indicating the operation of the music from the electronic musical instrument 100.
  • the performance information A can be generated by any method and at any place.
  • the performance receiving unit 252 executes analysis (pitch analysis, audio analysis, phrase analysis) on acoustic information (waveform data generated by playing a musical piece) instead of performance operation information to generate performance information A. May be good.
  • the evaluation information B is generated by the evaluation acquisition unit 253 of the control device 200 in response to the user's instruction operation to the input / output unit 204.
  • the evaluation information B can be generated by any method and at any place.
  • the control unit 150 of the electronic musical instrument 100 is provided with a functional block corresponding to the evaluation acquisition unit 253, and the above functional blocks generate evaluation information B in response to an operation from the user on the setting operation unit 105 (for example, an evaluation button). You may.
  • information other than the performance information A may be further input as input data.
  • incidental information indicating an incidental operation (pedal operation of an electronic piano, effector operation of an electric guitar, etc.) for playing a musical piece using the electronic musical instrument 100 may be input to the learning model M together with the performance information A. It is preferable that the above incidental information is further acquired by the performance acquisition unit 151 and added to the performance information A.
  • the electronic musical instrument 100 of the above-described embodiment may have the function of the control device 200, or the control device 200 may have the function of the electronic musical instrument 100.
  • a storage medium in which each control program represented by software for achieving the present invention is stored may be read out to each device to obtain the same effect. In that case, the storage medium is read out from the storage medium.
  • the program code itself realizes the novel function of the present invention, and a non-transient computer-readable recording medium that stores the program code constitutes the present invention. Further, the program code may be supplied via a transmission medium or the like, in which case the program code itself constitutes the present invention.
  • the storage medium in these cases in addition to the ROM, a floppy disk, a hard disk, an optical disk, a magneto-optical disk, a CD-ROM, a CD-R, a magnetic tape, a non-volatile memory card, or the like can be used.
  • non-transient computer-readable recording medium is a volatile memory inside a computer system that serves as a server or client when a program is transmitted via a network such as the Internet or a communication line such as a telephone line (for example,). It also includes those that hold a program for a certain period of time, such as DRAM (Dynamic Random Access Memory).
  • DRAM Dynamic Random Access Memory
  • 100 electronic musical instruments 150 control units, 160 storage units, 200 control devices, 250 control units, 260 storage units, 300 servers, 350 control units, 360 storage units, A performance information, B evaluation information, F phrases (performance units), M learning model, S information processing system

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

複数の演奏単位を含む第1演奏情報と、複数の演奏単位と関連付けられる評価情報との関係を学習した学習モデルを取得し、第2演奏情報を取得し、学習モデルを用いて、第2演奏情報を処理して、当該演奏情報に含まれる複数の演奏単位ごとの評価を推論する。

Description

演奏情報に対する評価を推論する方法、システム、及びプログラム
 本発明は、演奏情報に対する評価を推論する方法、システム、及びプログラムに関する。
 従来より、電子ピアノ、電子オルガン、シンセサイザー等の様々な電子楽器が使用されている。ユーザが電子楽器を演奏すると、ユーザによる演奏操作がMIDIメッセージ等の演奏情報に変換される。
 特許文献1には、演奏者による実際の演奏を示す演奏情報と、演奏の基準(正しい演奏)を示す基準情報とを比較することによって、演奏者の演奏傾向を特定する技術が提案されている。
国際公開2014/189137号
 特許文献1が開示するのは、正しい演奏と演奏者の実際の演奏との乖離の程度を特定する技術であって、演奏情報に対する主観的な評価を特定する技術ではない。ユーザの嗜好に適した制御を実現するには、演奏情報に対するユーザの評価を推論することが求められる。
 本発明は、演奏情報に対する評価を適切に推論する方法、システム、及びプログラムを提供することを目的とする。
 上記目的を達成するために、本発明の一態様に係る方法は、コンピュータによって実現される方法であって、複数の演奏単位を含む第1演奏情報と、複数の前記演奏単位と関連付けられる評価情報との関係を学習した学習モデルを取得し、第2演奏情報を取得し、前記学習モデルを用いて、前記第2演奏情報を処理して、当該演奏情報に含まれる複数の前記演奏単位ごとの評価を推論する。
 本発明によれば、演奏情報に対する評価が適切に推論される。
本発明の実施形態に係る情報処理システムを示す全体構成図である。 本発明の実施形態に係る電子楽器のハードウェア構成を示すブロック図である。 本発明の実施形態に係る制御装置のハードウェア構成を示すブロック図である。 本発明の実施形態に係るサーバのハードウェア構成を示すブロック図である。 本発明の実施形態における情報処理システムの機能的構成を示すブロック図である。 本発明の実施形態における機械学習処理を示すシーケンス図である。 本発明の実施形態における推論提示処理を示すシーケンス図である。
 以下、本発明の実施形態について添付図面を参照しながら詳細に説明する。以下に説明される各実施形態は、本発明を実現可能な構成の一例に過ぎない。以下の各実施形態は、本発明が適用される装置の構成や各種の条件に応じて適宜に修正又は変更することが可能である。また、以下の各実施形態に含まれる要素の組合せの全てが本発明を実現するに必須であるとは限られず、要素の一部を適宜に省略することが可能である。したがって、本発明の範囲は、以下の各実施形態に記載される構成によって限定されるものではない。また、相互に矛盾のない限りにおいて実施形態内に記載された複数の構成を組み合わせた構成も採用可能である。
 図1は、本発明の実施形態に係る情報処理システムSを示す全体構成図である。図1に示すように、本実施形態の情報処理システムSは、電子楽器100、制御装置200、及びサーバ300を有する。
 電子楽器100は、ユーザが楽曲を演奏する際に用いる装置である。電子楽器100は、例えば、電子ピアノ等の電子鍵盤楽器であってもよく、エレキギター等の電子弦楽器であってもよく、ウィンドシンセサイザ等の電子管楽器であってもよい。
 制御装置200は、ユーザが電子楽器100の設定に関する操作を行う際に用いる装置であって、例えば、タブレット端末やスマートフォン、パーソナルコンピュータ(PC)等の情報端末である。電子楽器100及び制御装置200は、無線又は有線によって互いに通信できる。なお、制御装置200と電子楽器100とが一体的に構成されていてもよい。
 サーバ300は、制御装置200とデータを送受信するクラウドサーバであって、ネットワークNWを介して制御装置200と通信できる。サーバ300は、クラウドサーバには限らず、ローカルネットワークのサーバであってもよい。また、本実施形態のサーバ300の機能は、クラウドサーバとローカルネットワークのサーバとの協働動作により実現されてもよい。
 本実施形態の情報処理システムSにおいて、複数のフレーズF(演奏単位)を含む演奏情報Aと、複数のフレーズFと関連付けられる評価情報Bとの関係を機械学習した学習モデルMに対して、推論対象の演奏情報Aを入力することによって、入力された演奏情報Aに含まれる複数のフレーズFごとの評価が推論される。サーバ300が機械学習処理によって学習モデルMを訓練し、訓練された学習モデルMを用いて制御装置200が推論処理を実行する。
 図2は、電子楽器100のハードウェア構成を示すブロック図である。図2に示すように、電子楽器100は、CPU(Central Processing Unit)101、RAM(Random Access Memory)102、ストレージ103、演奏操作部104、設定操作部105、表示部106、音源部107、サウンドシステム108、送受信部109、及びバス110を有する。
 CPU101は、電子楽器100における種々の演算を実行する処理回路である。RAM102は、揮発性の記憶媒体であって、CPU101が使用する設定値を記憶する共に種々のプログラムが展開されるワーキングメモリとして機能する。ストレージ103は、不揮発性の記憶媒体であって、CPU101によって用いられる種々のプログラム及びデータを記憶する。
 演奏操作部104は、ユーザによる楽曲の演奏に相当する演奏操作を受け付けて楽曲を示す演奏操作情報(例えば、MIDIデータ)を生成し、CPU101に供給する要素であって、例えば、電子鍵盤である。
 設定操作部105は、ユーザからの設定操作を受け付けて操作データを生成しCPU101に供給する要素であって、例えば、操作スイッチである。
 表示部106は、楽器設定情報等の種々の情報を表示する要素であって、例えば、電子楽器100が有するディスプレイに対して映像信号を送信する。
 音源部107は、CPU101から供給された演奏操作情報及び設定されているパラメータに基づいてサウンド信号を生成し、サウンドシステム108に入力する。
 サウンドシステム108は、アンプ及びスピーカによって構成され、音源部107から入力されたサウンド信号に対応する音を発生させる。
 送受信部109は、制御装置200とデータを送受信する要素であって、例えば、近距離無線通信に用いられるBluetooth(登録商標)モジュールである。
 バス110は、上記した電子楽器100のハードウェア要素を相互に接続する信号伝送路(システムバス)である。
 図3は、制御装置200のハードウェア構成を示すブロック図である。図3に示すように、制御装置200は、CPU201、RAM202、ストレージ203、入出力部204、送受信部205、及びバス206を有する。
 CPU201は、制御装置200における種々の演算を実行する処理回路である。RAM202は、揮発性の記憶媒体であって、CPU201が使用する設定値を記憶すると共に種々のプログラムが展開されるワーキングメモリとして機能する。ストレージ203は、不揮発性の記憶媒体であって、CPU201によって用いられる種々のプログラム及びデータを記憶する。
 入出力部204は、制御装置200に対するユーザの操作を受け付けると共に種々の情報を表示する要素(ユーザインタフェース)であって、例えば、タッチパネルによって構成される。
 送受信部205は、他の装置(電子楽器100、サーバ300等)とデータを送受信する要素である。送受信部205は、複数のモジュール(例えば、電子楽器100との間で行われる近距離無線通信用のBluetooth(登録商標)モジュール及びサーバ300との通信用のWi-Fi(登録商標)モジュール)を含み得る。
 バス206は、上記した制御装置200のハードウェア要素を相互に接続する信号伝送路である。
 図4は、サーバ300のハードウェア構成を示すブロック図である。図4に示すように、サーバ300は、CPU301、RAM302、ストレージ303、入力部304、出力部305、送受信部306、及びバス307を有する。
 CPU301は、サーバ300における種々の演算を実行する処理回路である。RAM302は、揮発性の記憶媒体であって、CPU301が使用する設定値を記憶すると共に種々のプログラムが展開されるワーキングメモリとして機能する。ストレージ303は、不揮発性の記憶媒体であって、CPU301によって用いられる種々のプログラム及びデータを記憶する。
 入力部304は、サーバ300に対する操作を受け付ける要素であって、例えば、サーバ300に接続されたキーボード及びマウスからの入力信号を受け付ける。
 出力部305は、種々の情報を表示する要素であって、例えば、サーバ300に接続された液晶ディスプレイに対して映像信号を出力する。
 送受信部306は、制御装置200とデータを送受信する要素であって、例えば、ネットワークカード(NIC)である。
 バス307は、上記したサーバ300のハードウェア要素を相互に接続する信号伝送路である。
 上記した各装置100,200,300のCPU101,201,301が、ストレージ103,203,303に格納されているプログラムをRAM102,202,303に読み出して実行することによって、以下の機能ブロック(制御部150,250,350等)及び本実施形態に係る種々の処理が実現される。上記した各CPUは、シングルコアでもよく、同じ又は異なるアーキテクチャーの複数コアでも良い。各CPUは、通常のCPUに限らず、DSPや推論プロセッサであってもよく、或いは、それらの2以上の任意の組み合わせであっても良い。また、本実施形態に係る種々の処理は、CPUやDSP、推論プロセッサ、GPU等の1以上のプロセッサがプログラムを実行することにより実現されてもよい。
 図5は、本発明の実施形態に係る情報処理システムSの機能的構成を示すブロック図である。
 電子楽器100は、制御部150及び記憶部160を有する。制御部150は、電子楽器100の動作を統合的に制御する機能ブロックである。記憶部160は、RAM102及びストレージ103によって構成され、制御部150によって用いられる種々のデータを記憶する。制御部150は、サブ機能ブロックとして、演奏取得部151を有する。
 演奏取得部151は、ユーザの演奏操作に従って演奏操作部104が生成した演奏操作情報を取得する機能ブロックである。演奏操作情報は、ユーザの演奏する複数の音のそれぞれの発音タイミング及び音高を示す情報である。加えて、演奏操作情報は、各音の長さや強度を示す情報を含んでもよい。すなわち、演奏取得部151は、取得した演奏操作情報を、音源部107に供給するのに加え、送受信部109を介して制御装置200(演奏受信部252)に供給する。
 制御装置200は、制御部250及び記憶部260を有する。制御部250は制御装置200の動作を統合的に制御する機能ブロックである。記憶部260は、RAM202及びストレージ203によって構成され、制御部250によって用いられる種々のデータを記憶する。制御部250は、サブ機能ブロックとして、認証部251、演奏受信部252、評価取得部253、データ前処理部254、推論処理部255、及び提示部256を有する。
 認証部251は、サーバ300(サーバ認証部351)と協働してユーザを認証する機能ブロックである。認証部251は、ユーザが入出力部204を用いて入力したユーザ識別子及びパスワード等の認証情報をサーバ300に送信し、サーバ300から受信した認証結果に基づいてユーザのアクセスを許可又は拒否する。認証部251は、認証された(アクセスが許可された)ユーザのユーザ識別子を他の機能ブロックに供給することができる。
 演奏受信部252は、電子楽器100(演奏取得部151)から供給された演奏操作情報を受信して演奏単位であるフレーズFに分解し、複数のフレーズFを含む演奏情報Aを取得する機能ブロックである。演奏受信部252は、任意のフレーズ検出手法を用いて、演奏操作情報に示される楽曲を複数のフレーズFに分解できる。フレーズ検出手法としては、例えば、連続する演奏の切れ目に基づく検出、メロディパターンに基づく検出、コード進行パターンに基づく検出等を用いることができる。或いは、フレーズ検出手法として、2以上のフレーズ検出手法の組み合わせ手法が用いられてもよい。また、フレーズ検出手法として、ルールベースのフレーズ検出や、ニューラルネットワークを用いたフレーズ検出が用いられてもよい。演奏情報Aは、フレーズFに含まれる複数の音の各々の発音タイミングおよび音高を示す情報であって、ユーザによる楽曲の演奏を表現する高次元の時系列データである。
 演奏受信部252は、取得した演奏情報Aを記憶部260に格納する、又はデータ前処理部254に供給する。なお、演奏受信部252は、認証部251から供給されたユーザ識別子を演奏情報Aに付与して記憶部260に格納することができる。加えて、演奏受信部252は、ユーザ識別子を付与した演奏情報Aを、送受信部205を介してサーバ300に送信する。
 評価取得部253は、ユーザによって入力されるフレーズFの評価を示す評価情報Bを生成する機能ブロックである。ユーザは、入出力部204を操作することによって演奏情報Aに含まれる各フレーズFに評価を付与できる。評価の付与は、楽曲の演奏(換言すると、演奏情報Aの取得)と並行して実行されてもよいし、楽曲の演奏が終了した後に別途実行されてもよい。すなわち、ユーザによる評価は、リアルタイムな評価でも事後評価でもよい。評価情報Bは、複数のフレーズFと関連付けられたデータであって、それぞれ、1つのフレーズを識別する識別データと、そのフレーズFの評価を示す評価ラベルとを含んでいる。評価ラベルは、5段階の評価(例えば、星の数)を示す値であってよい。識別データは、フレーズFを直接指定するデータには限らず、フレーズFに係る絶対時間や相対時間であってもよい。
 評価取得部253は、生成した評価情報Bを記憶部260に格納する。なお、評価取得部253は、認証部251から供給されたユーザ識別子を評価情報Bに付与して記憶部260に格納することができる。評価取得部253は、ユーザ識別子を付与した評価情報Bを、送受信部205を介してサーバ300に送信する。
 データ前処理部254は、記憶部260に記憶されている演奏情報A又は演奏受信部252から供給された演奏情報Aに対して、学習モデルMによる推論に適した形式となるようにスケーリング等のデータ前処理を実行する機能ブロックである。
 推論処理部255は、後述される学習処理部353によって訓練された学習モデルMに対して、前処理された演奏情報A(複数のフレーズF)を入力データとして入力することによって、演奏情報Aに含まれるフレーズFごとの評価を推論する機能ブロックである。本実施形態の学習モデルMには、任意の機械学習モデルが採用され得る。好適には、時系列データに適合した回帰型ニューラルネットワーク(RNN)及びその派生物(長・短期記憶(LSTM)、ゲート付き回帰型ユニット(GRU)等)が学習モデルMに採用される。
 提示部256は、推論処理部255によって推論されたフレーズFごとの評価に基づいて、音楽レッスンに関する情報をユーザに提示する機能ブロックである。提示部256は、フレーズFごとの評価に基づき選択された練習すべき箇所の情報を、例えば入出力部204に表示させる。また、提示部256は、他の装置、例えば電子楽器100の表示部106に上記情報を表示させてもよい。
 サーバ300は、制御部350及び記憶部360を有する。制御部350は、サーバ300の動作を統合的に制御する機能ブロックである。記憶部360は、RAM302及びストレージ303によって構成され、制御部350によって用いられる種々のデータ(特に、制御装置200から供給された演奏情報A及び評価情報B)を記憶する。なお、記憶部360が、複数のユーザがそれぞれ電子楽器100及び制御装置200を用いることで生成された演奏情報A及び評価情報Bを格納すると好適である。制御部350は、サブ機能ブロックとして、サーバ認証部351、データ前処理部352、学習処理部353、及びモデル配布部354を有する。
 サーバ認証部351は、制御装置200(認証部251)と協働してユーザを認証する機能ブロックである。サーバ認証部351は、制御装置200から供給された認証情報が記憶部360に格納されている認証情報と一致するか否かを判定し、認証結果(許可又は拒否)を制御装置200に送信する。
 データ前処理部352は、記憶部360に記憶されている演奏情報A及び評価情報Bに対して、学習モデルMの訓練(機械学習)にした形式となるようにスケーリング等のデータ前処理を実行する機能ブロックである。
 学習処理部353は、演奏情報A及び評価情報Bに付与されたユーザ識別子を参照し、データ前処理後の演奏情報A(複数のフレーズF)を入力データとし、データ前処理後の評価情報Bを教師データとして用いて、ユーザ識別子が示す特定のユーザ向けに学習モデルMを訓練する機能ブロックである。なお、特定のユーザ向けの学習モデルMの初期データとして、特定のユーザ以外の多量の演奏情報A及び評価情報Bを用いて訓練がなされたベース学習モデルを用いると好適である。単一のユーザが生成し得る情報量は一般的に限定されており比較的少ないからである。
 モデル配布部354は、学習処理部353が訓練した学習モデルMを、ユーザ識別子が示す特定のユーザの制御装置200に供給する機能ブロックである。
 図6は、本発明の実施形態に係る情報処理システムSにおける、あるユーザ識別子が示す特定のユーザ向けの機械学習処理を示すシーケンス図である。本実施形態の機械学習処理はサーバ300のCPU301により実行される。なお、本実施形態の機械学習処理は、定期的に実行されてもよいし、ユーザ(制御装置200)からの指示に応じて実行されてもよい。
 ステップS610において、データ前処理部352は、記憶部360に蓄積された、前記ユーザ識別子が示すユーザの演奏情報A及び評価情報Bを含むデータセットを読み出して、データ前処理を実行する。
 ステップS620において、学習処理部353は、ステップS610にて前処理されたデータセットに基づいて、複数のフレーズFを含む演奏情報Aを入力データとし、複数のフレーズFに関連付けられる評価情報Bを教師データとして用いて、学習モデルMを訓練し、訓練された学習モデルMを記憶部360に格納する。ここでは、学習モデルMが、未知のフレーズの演奏情報Aに対する、前記ユーザ識別子が示すユーザの評価情報Bを推定できるよう訓練される。例えば、学習モデルMがニューラルネットワークシステムである場合、学習処理部353は、誤差逆伝搬法等を用いて、学習モデルMの機械学習を行ってもよい。
 ステップS630において、モデル配布部354は、ステップS620にて訓練された学習モデルMを、ネットワークNWを介して制御装置200に供給する。制御装置200の制御部250は、受信した学習モデルMを記憶部260に格納する。
 図7は、本発明の実施形態に係る情報処理システムSにおける、あるユーザ識別子が示す特定のユーザ向けの推論提示処理を示すシーケンス図である。本実施形態では、制御装置200がフレーズFごとの評価を推論し、推論した評価に基づいて音楽レッスンに関する情報を、そのユーザに提示する。
 ステップS710において、演奏受信部252は、演奏取得部151が取得した演奏操作情報を、そのユーザの電子楽器100から受信しユーザ識別子を付与する。なお、演奏受信部252は、過去にそのユーザの電子楽器100から受信しユーザ識別子を付与して記憶部260に格納された演奏操作情報を読み出してもよい。
 ステップS720において、演奏受信部252は、受信した演奏操作情報を演奏単位であるフレーズFに分解し、複数のフレーズFを含む演奏情報Aを取得して、データ前処理部254に供給する。
 ステップS730において、データ前処理部254は、ステップS720にて演奏受信部252から供給された演奏情報Aに対してデータ前処理を実行して、前処理後の演奏情報Aを推論処理部255に供給する。
 ステップS740において、推論処理部255は、記憶部260に格納されている訓練済みの学習モデルMに対して、データ前処理部254から供給された複数のフレーズFを含む演奏情報Aを入力データとして入力する。学習モデルMは、入力された演奏情報Aに含まれる複数のフレーズFの各々に対するそのユーザの評価を推論(推定)する。評価を示す推論値は、離散値であっても連続値であってもよい。推論されたフレーズFごとの評価は、提示部256に供給される。
 ステップS750において、提示部256は、ステップS740にて推論処理部255が推論したフレーズFごとのそのユーザの評価に基づいて、音楽レッスンに関する情報を入出力部204に表示させる。ここで、提示部256は、推論された評価が高いフレーズFほど、より高い頻度での練習箇所としてそのユーザに提示すると好適である。
 また、提示部256は、推論された評価の高い順に選択された所定数のフレーズFにそれぞれ対応する練習フレーズをそのユーザに提示してもよい。提示候補である複数の練習フレーズは、記憶部260に記憶されていてもよいし、配信サーバ等の外部装置が有するデータベースに登録されていてもよい。練習フレーズは、例えば、フレーズFにおける音楽的特徴(スケール、アルペジオ等)を実現するのに必要な基礎練習を示すフレーズであってよい。また、練習フレーズは、基礎練習を示すフレーズに限定されるものではなく、演奏グレードに適合する複数の練習フレーズが記憶部260又は外部装置のデータベースに登録されていてよい。
 以上のように、本実施形態の情報処理システムSでは、訓練済みの学習モデルMによって、演奏情報Aに含まれる複数のフレーズFにそれぞれ対応するそのユーザの評価が適切に推論される。制御装置200は、推論されたフレーズFごとの評価に基づいて、音楽レッスンに関する情報をそのユーザに提示する。結果として、そのユーザが高く評価すると推論されるフレーズFに関するレッスンをそのユーザに提供することが可能となる。以上のように提供されたレッスンをそのユーザが受講することによって、そのユーザは、評価の高いフレーズをより上手に演奏するためのテクニックを磨くことが可能である。
 また、本実施形態の構成によれば、ユーザ識別子によって識別されるユーザごとに学習モデルMが訓練されサーバ300から供給される。したがって、そのユーザは、電子楽器100や制御装置200を交換しても、引き続きそのユーザに適合した学習モデルMを使用し続けることができる。
 <変形例>
 以上の実施形態は多様に変形される。具体的な変形の態様を以下に例示する。以上の実施形態及び以下の例示から任意に選択された2以上の態様は、相互に矛盾しない限り適宜に併合され得る。
 上記した実施形態では、推論された評価が音楽レッスンに関する情報の提示に用いられている。しかしながら、推論された評価を、任意の用途に使用することが可能である。
 例えば、制御装置200は、推論した評価に基づいて、ユーザが好む可能性が高い楽曲をユーザに提示してよい。より具体的には、制御装置200の提示部256は、推論された評価の高い順に選択された所定数のフレーズに類似するフレーズを含む楽曲をユーザに提示してよい。
 また、例えば、制御装置200は、演奏情報Aに含まれる評価の高いフレーズFをテーマとして自動的に選択し、選択されたフレーズFをコード進行等に応じて展開し自動作曲を実行してよい。他に、制御装置200がユーザの演奏に応じて即興演奏を行う演奏エージェントとして機能する構成において、制御装置200は、自動生成した複数の候補フレーズのうち高い評価が推論されたフレーズを選択的に出力してよい。
 上記した実施形態では、楽曲に含まれる複数のフレーズFが演奏単位として用いられているが、任意の経時的要素が演奏単位として用いられ得る。例えば、楽曲を所定時間おきに区分した複数の演奏区間が演奏単位として用いられてよい。
 サーバ300の学習処理部353が行う学習モデルMの訓練(機械学習)に用いる演奏情報A及び評価情報Bは、その学習モデルMを使用する単一のユーザからの情報のみであってもよいし、複数のユーザからの情報であってもよい。また、共通の属性を有する複数のユーザからの演奏情報A及び評価情報Bを用いて学習モデルMが訓練されてもよい。例えば、同じ演奏経験年数を有するユーザや、同じグレードの教室に所属しているユーザからの情報を用いて学習モデルMが訓練されてもよい。
 サーバ300の学習処理部353は、学習モデルMに対して追加学習を適用してもよい。すなわち、学習処理部353は、複数のユーザからの演奏情報A及び評価情報Bを用いて学習モデルMを訓練した後、特定の単一ユーザからの演奏情報A及び評価情報Bを用いたファインチューニングを学習モデルMに対して実行してもよい。
 上記した実施形態では、サーバ300から供給された学習モデルMを用いて制御装置200がフレーズFごとの評価を推論する。しかしながら、評価の推論は任意の箇所にて実行されてよい。例えば、サーバ300が、制御装置200から供給された演奏情報Aを前処理し、記憶部360に格納された学習モデルMに前処理された演奏情報Aを入力データとして入力することによって、演奏情報Aに含まれるフレーズFごとの評価を推論してもよい。本変形例の構成によれば、サーバ300が、演奏情報Aを入力データとした学習モデルMによる推論処理を実行することができる。結果として、制御装置200における処理負荷が軽減される。
 上記した実施形態では、演奏情報Aが、楽曲の操作を示す演奏操作情報を電子楽器100から受信した演奏受信部252によって生成される。しかしながら、演奏情報Aは任意の手法によって及び任意の箇所において生成され得る。例えば、演奏受信部252が、演奏操作情報に代えて、音響情報(楽曲の演奏によって生じた波形データ)に対する解析(ピッチ解析、オーディオ解析、フレーズ解析)を実行して演奏情報Aを生成してもよい。
 上記した実施形態では、評価情報Bが、入出力部204に対するユーザの指示操作に応じて制御装置200の評価取得部253によって生成される。しかしながら、評価情報Bは、任意の手法によって及び任意の箇所において生成され得る。例えば、電子楽器100の制御部150に評価取得部253に相当する機能ブロックを設け、設定操作部105(例えば、評価ボタン)に対するユーザからの操作に応じて以上の機能ブロックが評価情報Bを生成してもよい。
 上記した実施形態の機械学習処理及び推論処理において、演奏情報A以外の情報が更に入力データとして入力されてもよい。例えば、電子楽器100を用いた楽曲の演奏に対する付随操作(電子ピアノのペダル操作、エレキギターのエフェクタ操作等)を示す付随情報が演奏情報Aと共に学習モデルMに入力されてもよい。以上の付随情報は、演奏取得部151によって更に取得され演奏情報Aに付加されると好適である。
 また、上述した実施形態の電子楽器100が制御装置200の機能を有していてもよいし、制御装置200が電子楽器100の機能を有していてもよい。
 なお、本発明を達成するためのソフトウェアによって表される各制御プログラムを記憶した記憶媒体を、各装置に読み出すことによって同様の効果を奏するようにしてもよく、その場合、記憶媒体から読み出されたプログラムコード自体が本発明の新規な機能を実現することになり、そのプログラムコードを記憶した、非一過性のコンピュータ読み取り可能な記録媒体は本発明を構成することになる。また、プログラムコードを伝送媒体等を介して供給してもよく、その場合は、プログラムコード自体が本発明を構成することになる。なお、これらの場合の記憶媒体としては、ROMのほか、フロッピディスク、ハードディスク、光ディスク、光磁気ディスク、CD-ROM、CD-R、磁気テープ、不揮発性のメモリカード等を用いることができる。「非一過性のコンピュータ読み取り可能な記録媒体」は、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含む。
 100 電子楽器、 150 制御部、 160 記憶部、 200 制御装置、 250 制御部、 260 記憶部、 300 サーバ、 350 制御部、 360 記憶部、 A 演奏情報、 B 評価情報、 F フレーズ(演奏単位)、 M 学習モデル、 S 情報処理システム

Claims (11)

  1.  複数の演奏単位を含む第1演奏情報と、複数の前記演奏単位と関連付けられる評価情報との関係を学習した学習モデルを取得し、
     第2演奏情報を取得し、
     前記学習モデルを用いて、前記第2演奏情報を処理して、当該演奏情報に含まれる複数の前記演奏単位ごとの評価を推論する、コンピュータによって実現される方法。
  2.  前記演奏単位の各々は、楽曲に含まれる各フレーズに対応し、
     前記演奏情報は、前記演奏単位に含まれる複数の音の発音タイミングおよび音高を示し、
     前記評価情報は、1つのフレーズを識別する識別データと、当該フレーズの評価を示す評価ラベルとを含む、請求項1に記載の方法。
  3.  推論された前記評価が高い前記フレーズほどより高い頻度での練習箇所としてユーザに提示する、請求項2に記載の方法。
  4.  推論された前記評価の高い順に選択された所定数の前記フレーズにそれぞれ対応する練習フレーズをユーザに提示する、請求項2に記載の方法。
  5.  推論された前記評価の高い順に選択された所定数の前記フレーズに類似するフレーズを含む楽曲をユーザに提示する、請求項2に記載の方法。
  6.  プログラムを記憶するメモリと、
     前記プログラムを実行する1以上のプロセッサと、を備え、
     前記1以上のプロセッサが前記メモリに記憶された前記プログラムを実行することにより、
     複数の演奏単位を含む第1演奏情報と、複数の前記演奏単位と関連付けられる評価情報との関係を学習した学習モデルを取得し、
     第2演奏情報を取得し、
     前記学習モデルを用いて、前記第2演奏情報を処理して、当該演奏情報に含まれる複数の前記演奏単位ごとの評価を推論する、システム。
  7.  前記演奏単位の各々は、楽曲に含まれる各フレーズに対応し、
     前記演奏情報は、前記演奏単位に含まれる複数の音の発音タイミングおよび音高を示し、
     前記評価情報は、1つのフレーズを識別する識別データと、当該フレーズの評価を示す評価ラベルとを含む、請求項6に記載のシステム。
  8.  前記1以上のプロセッサが前記メモリに記憶された前記プログラムを実行することにより、推論された前記評価が高い前記フレーズほどより高い頻度での練習箇所としてユーザに提示する、請求項7に記載のシステム。
  9.  前記1以上のプロセッサが前記メモリに記憶された前記プログラムを実行することにより、推論された前記評価の高い順に選択された所定数の前記フレーズにそれぞれ対応する練習フレーズをユーザに提示する、請求項7に記載のシステム。
  10.  前記1以上のプロセッサが前記メモリに記憶された前記プログラムを実行することにより、推論された前記評価の高い順に選択された所定数の前記フレーズに類似するフレーズを含む楽曲をユーザに提示する、請求項7に記載のシステム。
  11.  コンピュータに、
     複数の演奏単位を含む第1演奏情報と、複数の前記演奏単位と関連付けられる評価情報との関係を学習した学習モデルを取得し、
     第2演奏情報を取得し、
     前記学習モデルを用いて、前記第2演奏情報を処理して、当該演奏情報に含まれる複数の前記演奏単位ごとの評価を推論する、処理を実行させるためのプログラム。
PCT/JP2021/003784 2020-03-17 2021-02-02 演奏情報に対する評価を推論する方法、システム、及びプログラム WO2021186928A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2022508116A JPWO2021186928A5 (ja) 2021-02-02 演奏情報に対する評価を推論する方法、情報処理システム、及びプログラム
CN202180019706.0A CN115244613A (zh) 2020-03-17 2021-02-02 对针对演奏信息的评价进行推论的方法、系统及程序
US17/946,176 US20230009481A1 (en) 2020-03-17 2022-09-16 Computer-Implemented Method, System, and Non-Transitory Computer-Readable Storage Medium for Inferring Evaluation of Performance Information

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020046517 2020-03-17
JP2020-046517 2020-03-17

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/946,176 Continuation US20230009481A1 (en) 2020-03-17 2022-09-16 Computer-Implemented Method, System, and Non-Transitory Computer-Readable Storage Medium for Inferring Evaluation of Performance Information

Publications (1)

Publication Number Publication Date
WO2021186928A1 true WO2021186928A1 (ja) 2021-09-23

Family

ID=77772029

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/003784 WO2021186928A1 (ja) 2020-03-17 2021-02-02 演奏情報に対する評価を推論する方法、システム、及びプログラム

Country Status (3)

Country Link
US (1) US20230009481A1 (ja)
CN (1) CN115244613A (ja)
WO (1) WO2021186928A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022172732A1 (ja) * 2021-02-10 2022-08-18 ヤマハ株式会社 情報処理システム、電子楽器、情報処理方法および機械学習システム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110675879A (zh) * 2019-09-04 2020-01-10 平安科技(深圳)有限公司 基于大数据的音频评估方法、系统、设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014109603A (ja) * 2012-11-30 2014-06-12 Nec Corp 演奏評価装置、演奏評価方法
JP6340755B2 (ja) * 2013-04-16 2018-06-13 カシオ計算機株式会社 演奏評価装置、演奏評価方法およびプログラム
JP6720798B2 (ja) * 2016-09-21 2020-07-08 ヤマハ株式会社 演奏教習装置、演奏教習プログラム、および演奏教習方法
CN109817192A (zh) * 2019-01-21 2019-05-28 深圳蜜蜂云科技有限公司 一种智能陪练方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110675879A (zh) * 2019-09-04 2020-01-10 平安科技(深圳)有限公司 基于大数据的音频评估方法、系统、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KONISHI, YUKI ET AL.: "Automatic Evaluation for Proficiency of Playing the Drum-Kit for Supporting Trainings", THE IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS , vol. J94-D, no. 3, 1 March 2011 (2011-03-01), pages 549 - 559 *
SHIMOO NAMIKI, KOJI YATANI: " Investigating Acoustic Features for Automatic Assessment of Electric Guitar Performance", IPSJ SIG TECHNICAL REPORT, vol. 2017-MUS-117, no. 3, 25 November 2017 (2017-11-25), pages 1 - 6, XP055859301 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022172732A1 (ja) * 2021-02-10 2022-08-18 ヤマハ株式会社 情報処理システム、電子楽器、情報処理方法および機械学習システム

Also Published As

Publication number Publication date
JPWO2021186928A1 (ja) 2021-09-23
US20230009481A1 (en) 2023-01-12
CN115244613A (zh) 2022-10-25

Similar Documents

Publication Publication Date Title
US10657934B1 (en) Enhancements for musical composition applications
Clarke Empirical methods in the study of performance
McDermott et al. The origins of music: Innateness, uniqueness, and evolution
Hung et al. Musical composition style transfer via disentangled timbre representations
CN111602193B (zh) 用于处理乐曲的演奏的信息处理方法和装置
US10748515B2 (en) Enhanced real-time audio generation via cloud-based virtualized orchestra
US20220414472A1 (en) Computer-Implemented Method, System, and Non-Transitory Computer-Readable Storage Medium for Inferring Audience's Evaluation of Performance Data
CN112203114A (zh) 协同演奏方法、系统、终端设备及存储介质
JP2001331175A (ja) 副旋律生成装置及び方法並びに記憶媒体
WO2021186928A1 (ja) 演奏情報に対する評価を推論する方法、システム、及びプログラム
US11990053B2 (en) Method and system for providing artificial intelligence-based extended reality music tutoring service
Hipke et al. Beatbox: End-user interactive definition and training of recognizers for percussive vocalizations
US20230351989A1 (en) Information processing system, electronic musical instrument, and information processing method
Adiloglu et al. A machine learning approach to two-voice counterpoint composition
CN112669811A (zh) 一种歌曲处理方法、装置、电子设备及可读存储介质
Wong et al. Absolute pitch memory: Its prevalence among musicians and dependence on the testing context
Huberth et al. Expressing melodic grouping discontinuities: Evidence from violinists’ rubato and motion
US20230016425A1 (en) Sound Signal Generation Method, Estimation Model Training Method, and Sound Signal Generation System
JP7424468B2 (ja) パラメータ推論方法、パラメータ推論システム、及びパラメータ推論プログラム
Brown et al. Interacting with musebots
JP7388542B2 (ja) 演奏エージェントの訓練方法、自動演奏システム、及びプログラム
Gulz et al. Developing a method for identifying improvisation strategies in jazz duos
WO2021166745A1 (ja) アレンジ生成方法、アレンジ生成装置、及び生成プログラム
Braasch A cybernetic model approach for free jazz improvisations
CN116645957B (zh) 乐曲生成方法、装置、终端、存储介质及程序产品

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21771202

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022508116

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21771202

Country of ref document: EP

Kind code of ref document: A1