WO2023181570A1 - 情報処理方法、情報処理システムおよびプログラム - Google Patents

情報処理方法、情報処理システムおよびプログラム Download PDF

Info

Publication number
WO2023181570A1
WO2023181570A1 PCT/JP2022/048174 JP2022048174W WO2023181570A1 WO 2023181570 A1 WO2023181570 A1 WO 2023181570A1 JP 2022048174 W JP2022048174 W JP 2022048174W WO 2023181570 A1 WO2023181570 A1 WO 2023181570A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
fingering
stringed instrument
image
user
Prior art date
Application number
PCT/JP2022/048174
Other languages
English (en)
French (fr)
Inventor
陽 前澤
貴久 井上
隆 山城
大樹 吉岡
翔太郎 渡邉
晋吾 江國
Original Assignee
ヤマハ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤマハ株式会社 filed Critical ヤマハ株式会社
Publication of WO2023181570A1 publication Critical patent/WO2023181570A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B15/00Teaching music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10GREPRESENTATION OF MUSIC; RECORDING MUSIC IN NOTATION FORM; ACCESSORIES FOR MUSIC OR MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR, e.g. SUPPORTS
    • G10G1/00Means for the representation of music
    • G10G1/02Chord or note indicators, fixed or adjustable, for keyboard of fingerboards

Definitions

  • the present disclosure relates to a technique for analyzing performances of stringed instruments.
  • Patent Document 1 discloses a technique for displaying, on a display device, a fingering image representing fingerings when playing chords on a stringed instrument.
  • a particular pitch of a stringed instrument can be played with different fingerings.
  • a user practices playing a stringed instrument, there is a desire to check fingerings other than his or her own, such as exemplary fingerings or the fingerings of a particular player. Further, a user who plays a stringed instrument may want to check his/her own fingering while playing.
  • one aspect of the present disclosure aims to provide fingering information regarding fingering when a user plays a stringed instrument.
  • an information processing method provides finger information regarding the fingers of a user who plays a stringed instrument and an image of the fingerboard of the stringed instrument, By acquiring input information including sound information related to the notes to be played, and processing the acquired input information using a generative model that has learned the relationship between the learning input information and the learning fingering information, the fingering information can be determined. Generate fingering information representing.
  • An information processing system includes finger information regarding the fingers of a user who plays a stringed instrument and an image of the fingerboard of the stringed instrument, and sound information regarding the sounds played by the user with the stringed instrument.
  • An information acquisition unit that acquires input information and a generative model that has learned the relationship between learning input information and learning fingering information process the acquired input information to obtain fingering information that represents fingerings. and an information generation unit that generates the information.
  • a program provides input information including finger information about the fingers of a user who plays a stringed instrument and an image of the fingerboard of the stringed instrument, and sound information about the sounds played by the user with the stringed instrument. and a generative model that has learned the relationship between the input information for learning and the fingering information for learning to process the acquired input information to obtain fingering information representing the fingering.
  • the computer system functions as an information generation unit that generates information.
  • FIG. 1 is a block diagram illustrating the configuration of an information processing system. It is a schematic diagram of a performance image.
  • FIG. 1 is a block diagram illustrating a functional configuration of an information processing system. It is a flowchart of image analysis processing.
  • FIG. 3 is a schematic diagram of a reference image. It is a flowchart of performance analysis processing.
  • FIG. 1 is a block diagram illustrating the configuration of a machine learning system.
  • FIG. 1 is a block diagram illustrating a functional configuration of a machine learning system. It is a flowchart of machine learning processing.
  • FIG. 3 is a block diagram illustrating a functional configuration of an information processing system in a third embodiment.
  • FIG. 3 is a block diagram illustrating a functional configuration of an information processing system in a fourth embodiment.
  • FIG. 3 is a block diagram illustrating the functional configuration of a machine learning system in a fourth embodiment.
  • FIG. 7 is a schematic diagram of a reference image in a modified example.
  • FIG. 3 is a block diagram illustrating a functional configuration of an information processing system in a modified example.
  • FIG. 3 is a block diagram illustrating a functional configuration of an information processing system in a modified example.
  • FIG. 1 is a block diagram illustrating the configuration of an information processing system 100 according to a first embodiment.
  • the information processing system 100 is a computer system (performance analysis system) for analyzing the performance of the stringed instrument 200 by the user U.
  • the stringed instrument 200 is, for example, a natural musical instrument such as an acoustic guitar that includes a fingerboard and a plurality of strings.
  • the information processing system 100 of the first embodiment analyzes fingerings performed by the user U on the stringed instrument 200. Fingering is a method by which the user U uses his or her own fingers when playing the stringed instrument 200.
  • string pressing the finger with which the user U presses each string against the fingerboard
  • position of the pressing string on the fingerboard combination of strings and frets
  • the information processing system 100 includes a control device 11 , a storage device 12 , an operating device 13 , a display device 14 , a sound collection device 15 , and an imaging device 16 .
  • the information processing system 100 is realized by, for example, a portable information device such as a smartphone or a tablet terminal, or a portable or stationary information device such as a personal computer. Note that the information processing system 100 is realized not only as a single device but also as a plurality of devices configured separately from each other.
  • the control device 11 is one or more processors that control the operation of the information processing system 100. Specifically, for example, CPU (Central Processing Unit), GPU (Graphics Processing Unit), SPU (Sound Processing Unit), DSP (Digital Signal Processor), FPGA (Field Programmable Gate Array), or ASIC (Application Specific Integrated Circuit).
  • the control device 11 is composed of one or more types of processors such as the following.
  • the storage device 12 is one or more memories that store programs executed by the control device 11 and various data used by the control device 11.
  • a known recording medium such as a semiconductor recording medium and a magnetic recording medium, or a combination of multiple types of recording media is used as the storage device 12.
  • a portable recording medium that can be attached to and detached from the information processing system 100 or a recording medium that can be accessed by the control device 11 via a communication network (for example, cloud storage) is used as the storage device 12.
  • a communication network for example, cloud storage
  • the operating device 13 is an input device that accepts operations by the user U.
  • an operator operated by the user U or a touch panel that detects a touch by the user U is used as the operating device 13.
  • the display device 14 displays various images under the control of the control device 11.
  • various display panels such as a liquid crystal display panel or an organic EL panel are used as the display device 14.
  • an operating device 13 or a display device 14 that is separate from the information processing system 100 may be connected to the information processing system 100 by wire or wirelessly.
  • the sound collection device 15 is a microphone that generates an acoustic signal Qx by collecting musical sounds produced by the stringed instrument 200 when played by the user U.
  • the acoustic signal Qx is a signal representing the waveform of a musical tone produced by the stringed instrument 200.
  • the sound collection device 15, which is separate from the information processing system 100 may be connected to the information processing system 100 by wire or wirelessly. For convenience, illustration of an A/D converter that converts the acoustic signal Qx from analog to digital is omitted.
  • the imaging device 16 generates an image signal Qy by capturing an image of the user U playing the stringed instrument 200.
  • the image signal Qy is a signal representing a moving image of the user U playing the stringed instrument 200.
  • the imaging device 16 includes an optical system such as a photographic lens, an imaging element that receives incident light from the optical system, and a processing circuit that generates an image signal Qy according to the amount of light received by the imaging element. do. Note that an imaging device 16 separate from the information processing system 100 may be connected to the information processing system 100 by wire or wirelessly.
  • FIG. 2 is an explanatory diagram regarding images captured by the imaging device 16.
  • the image G represented by the image signal Qy (hereinafter referred to as "performance image”) includes a player image Ga and an instrument image Gb.
  • the player image Ga is an image of the user U playing the stringed instrument 200.
  • the musical instrument image Gb is an image of the stringed instrument 200 played by the user U.
  • the player image Ga includes an image of the user U's left hand (hereinafter referred to as the "left hand image”) Ga1 and an image of the user U's right hand (hereinafter referred to as the "right hand image”) Ga2.
  • the musical instrument image Gb includes an image of a fingerboard of a stringed instrument (hereinafter referred to as "fingerboard image”) Gb1.
  • FIG. 3 is a block diagram illustrating the functional configuration of the information processing system 100.
  • the control device 11 executes a program stored in the storage device 12 to implement a plurality of functions (information acquisition unit 21, information generation unit 22, presentation processing unit 23) for analyzing the performance of the stringed instrument 200 by the user U. ).
  • the information acquisition unit 21 acquires input information C.
  • Input information C is control data including sound information X and finger information Y.
  • the sound information X is data related to musical tones played by the user U using the stringed instrument 200.
  • the finger information Y is data related to the performance image G of the user U playing the stringed instrument 200.
  • the generation of input information C by the information acquisition unit 21 is sequentially repeated in parallel with the performance of the stringed instrument 200 by the user U.
  • the information acquisition section 21 of the first embodiment includes an acoustic analysis section 211 and an image analysis section 212.
  • the acoustic analysis unit 211 generates sound information X by analyzing the acoustic signal Qx.
  • the sound information X of the first embodiment specifies the pitch played by the user U on the stringed instrument 200. That is, the acoustic analysis unit 211 estimates the pitch of the sound represented by the acoustic signal Qx, and generates sound information X specifying the pitch. Note that a known analysis technique is arbitrarily employed for estimating the pitch of the acoustic signal Qx.
  • the acoustic analysis unit 211 sequentially detects sound generation points by analyzing the acoustic signal Qx.
  • the sound generation point is the point in time (ie, onset) at which the stringed instrument 200 starts producing sound.
  • the acoustic analysis unit 211 sequentially identifies the volume of the acoustic signal Qx at a predetermined period, and detects the point in time when the volume exceeds a predetermined threshold as a sound generation point.
  • the stringed instrument 200 produces sound when the user U plucks the strings. Therefore, the sound production point of the stringed instrument 200 can also be referred to as the point in time when the user U plucks the stringed instrument 200.
  • the acoustic analysis unit 211 generates sound information X upon detection of the sound generation point. That is, sound information X is generated for each sound generation point of the stringed instrument 200. For example, the acoustic analysis unit 211 generates the sound information X by analyzing a sample of the sound signal Qx at a time when a predetermined time (for example, 150 milliseconds) has elapsed from each sound generation point.
  • the sound information X corresponding to each sound production point is information representing the pitch of the musical sound produced at the sound production point.
  • the image analysis unit 212 generates finger information Y by analyzing the image signal Qy.
  • the finger information Y of the first embodiment represents the left hand image Ga1 of the user U and the fingerboard image Gb1 of the stringed instrument 200.
  • the image analysis unit 212 generates finger information Y upon detection of the sound generation point by the acoustic analysis unit 211. That is, finger information Y is generated for each sound generation point of the stringed instrument 200.
  • the image analysis unit 212 generates the finger information Y by analyzing the performance image G of the image signal Qy at a time when a predetermined time (for example, 150 milliseconds) has elapsed from each sound generation point.
  • the finger information Y corresponding to each sound production point represents the left hand image Ga1 and fingerboard image Gb1 at the sound production point.
  • FIG. 4 is a flowchart of the process (hereinafter referred to as "image analysis process") Sa3 in which the image analysis unit 212 generates finger information Y.
  • Image analysis processing Sa3 is started with the detection of the sound generation point as a trigger.
  • the image analysis unit 212 executes an image detection process (Sa31).
  • the image detection process is a process of extracting the left hand image Ga1 of the user U and the fingerboard image Gb1 of the stringed instrument 200 from the performance image G represented by the image signal Qy.
  • object detection processing using a statistical model such as a deep neural network is used for the image detection processing.
  • the image analysis unit 212 executes image conversion processing (Sa32). As illustrated in FIG. 2, the image conversion process is image processing that converts the performance image G so that the fingerboard image Gb1 is converted into an image of the fingerboard observed from a predetermined direction and distance. For example, the image analysis unit 212 converts the performance image G so that the fingerboard image Gb1 approximates the rectangular reference image Gref arranged in a predetermined direction. The left hand image Ga1 of the user U is also converted together with the fingerboard image Gb1.
  • the image conversion process utilizes known image processing such as projective conversion in which a conversion matrix generated from the fingerboard image Gb1 and the reference image Gref is applied to the performance image G.
  • the image analysis unit 212 generates finger information Y representing the performance image G after the image conversion process.
  • sound information X and finger information Y are generated for each sound generation point. That is, the information acquisition unit 21 generates input information C for each sound point of the stringed instrument 200. A time series of a plurality of input information C corresponding to different sounding points is generated.
  • the information generating section 22 in FIG. 3 generates fingering information Z using the input information C.
  • the fingering information Z is data in any format that represents the fingering of the stringed instrument 200. Specifically, the fingering information Z specifies the finger number of one or more fingers used for pressing the strings of the stringed instrument 200 and the position at which the fingers press the strings.
  • the string pressing position is specified, for example, by a combination of one of the plurality of strings of the stringed instrument 200 and one of the plurality of frets installed on the fingerboard.
  • the information generation unit 22 generates fingering information Z for each sound generation point. That is, a time series of a plurality of fingering information Z corresponding to different sound production points is generated.
  • the fingering information Z corresponding to each sound generation point is information representing the fingering at the sound generation point.
  • acquisition of input information C and generation of fingering information Z are executed for each sound generation point of the stringed instrument 200. Therefore, it is possible to suppress unnecessary generation of fingering information when the user U is pressing the strings but not plucking them.
  • the acquisition of the input information C and the generation of the fingering information Z may be repeated at a predetermined period unrelated to the sound production point.
  • the generation model M is used to generate the fingering information Z by the information generation unit 22. Specifically, the information generation unit 22 generates the fingering information Z by processing the input information C using the generation model M.
  • the generative model M is a learned model in which the relationship between the input information C and the fingering information Z is learned by machine learning. That is, the generative model M outputs statistically valid fingering information Z for the input information C.
  • the generative model M is realized by a combination of a program that causes the control device 11 to execute a calculation to generate fingering information Z from the input information C, and a plurality of variables (for example, weight values and biases) applied to the calculation. .
  • a program and a plurality of variables that realize the generative model M are stored in the storage device 12.
  • a plurality of variables of the generative model M are set in advance by machine learning.
  • the generative model M is composed of, for example, a deep neural network.
  • a deep neural network such as a recurrent neural network (RNN) or a convolutional neural network (CNN) is used as the generative model M.
  • RNN recurrent neural network
  • CNN convolutional neural network
  • the generative model M may be configured by a combination of multiple types of deep neural networks. Additionally, additional elements such as long short-term memory (LSTM) or attention may be included in the generative model M.
  • LSTM long short-term memory
  • the presentation processing unit 23 presents the fingering information Z to the user U. Specifically, the presentation processing unit 23 displays the reference image R1 illustrated in FIG. 5 on the display device 14.
  • the reference image R1 includes a musical score B (B1, B2) corresponding to the performance of the stringed instrument 200 by the user U.
  • the music score B1 is a staff score corresponding to the fingering indicated by the fingering information Z.
  • the musical score B2 is a tablature corresponding to the fingering indicated by the fingering information Z. That is, the musical score B2 is an image including a plurality of (six) horizontal lines corresponding to different strings of the stringed instrument 200. In the musical score B2, the fret numbers corresponding to the string pressing positions are displayed in chronological order for each string.
  • the presentation processing unit 23 generates musical score information P using the time series of fingering information Z.
  • the musical score information P is data in an arbitrary format representing the musical score B in FIG.
  • the presentation processing unit 23 displays the musical score B represented by the musical score information P on
  • FIG. 6 is a flowchart of the process (hereinafter referred to as "performance analysis process") Sa executed by the control device 11.
  • the performance analysis process Sa is started in response to an instruction from the user U to the operating device 13.
  • the control device 11 (acoustic analysis section 211) waits until a sound generation point is detected by analyzing the acoustic signal Qx (Sa1: NO).
  • a sound generation point is detected (Sa1: YES)
  • the control device 11 (acoustic analysis unit 211) generates sound information X by analyzing the sound signal Qx (Sa2).
  • the control device 11 (image analysis unit 212) generates finger information Y by the image analysis process Sa3 shown in FIG. Note that the order of generation of sound information X (Sa2) and generation of finger information Y (Sa3) may be reversed.
  • input information C is generated for each sound generation point of the stringed instrument 200. Note that the input information C may be generated at a predetermined cycle.
  • the control device 11 (information generation unit 22) generates fingering information Z by processing the input information C using the generation model M (Sa4). Further, the control device 11 (presentation processing unit 23) presents the fingering information Z to the user U (Sa5, Sa6). Specifically, the control device 11 generates score information P representing the score B from the fingering information Z (Sa5), and displays the score B represented by the score information P on the display device 14 (Sa6).
  • the control device 11 determines whether a predetermined termination condition is satisfied (Sa7).
  • the termination condition is, for example, that the user U instructs the operating device 13 to terminate the performance analysis processing Sa, or that a predetermined time has elapsed since the latest sound generation point of the stringed instrument 200. If the end condition is not satisfied (Sa7: NO), the control device 11 moves the process to step Sa1. That is, the acquisition of input information C (Sa2, Sa3), the generation of fingering information Z (Sa4), and the presentation of fingering information Z (Sa5, Sa6) are repeated for each sound generation point of the stringed instrument 200. On the other hand, if the termination condition is satisfied (Sa7: YES), the performance analysis process Sa is terminated.
  • fingering information Z is generated by processing input information C including sound information X and finger information Y using a generation model M. Therefore, it is possible to generate fingering information Z that corresponds to the musical sound produced by the stringed instrument 200 when played by the user U (acoustic signal Qx) and the image of the user U playing the stringed instrument 200 (image signal Qy). That is, fingering information Z corresponding to the performance of the stringed instrument 200 by the user U can be provided.
  • the musical score information P is generated using the fingering information Z. Therefore, the user U can effectively utilize the fingering information Z by displaying the musical score B.
  • FIG. 7 is a block diagram illustrating the configuration of a machine learning system 400 according to the first embodiment.
  • the machine learning system 400 is a computer system that establishes a generative model M used by the information processing system 100 by machine learning.
  • Machine learning system 400 includes a control device 41 and a storage device 42.
  • the control device 41 is composed of one or more processors that control each element of the machine learning system 400.
  • the control device 41 is configured by one or more types of processors such as a CPU, GPU, SPU, DSP, FPGA, or ASIC.
  • the storage device 42 is one or more memories that store programs executed by the control device 41 and various data used by the control device 41.
  • the storage device 42 is composed of a known recording medium such as a magnetic recording medium or a semiconductor recording medium.
  • the storage device 42 may be configured by a combination of multiple types of recording media. Note that a portable recording medium that can be attached to and detached from the machine learning system 400 or a recording medium that can be accessed by the control device 41 via a communication network (for example, cloud storage) may be used as the storage device 42.
  • FIG. 8 is a block diagram illustrating the functional configuration of the machine learning system 400.
  • the storage device 42 stores a plurality of training data T.
  • Each of the plurality of training data T is teacher data including training input information Ct and training fingering information Zt.
  • the training input information Ct includes sound information Xt and finger information Yt.
  • the sound information Xt is data regarding musical tones played by a large number of performers (hereinafter referred to as "reference performers") on the stringed instruments 201. Specifically, the sound information Xt specifies the pitch played by the reference performer on the stringed instrument 201.
  • the finger information Yt is data regarding an image of the left hand of the reference performer and the fingerboard of the stringed instrument 201. Specifically, the finger information Yt represents an image of the reference performer's left hand and an image of the fingerboard of the stringed instrument 201.
  • the fingering information Zt of the training data T is data representing the fingering of the stringed instrument 201 by the reference performer. That is, the fingering information Zt of each training data T is a correct label that the generative model M should generate for the input information Ct of the training data T.
  • the fingering information Zt specifies the finger number and string pressing position of the left hand that the reference performer uses to press the strings of the stringed instrument 201.
  • the string pressing position of the fingering information Zt is a position detected by the detection device 250 installed in the stringed instrument 201.
  • the detection device 250 is, for example, an optical or mechanical sensor installed on the fingerboard of the stringed instrument 201.
  • a known technique such as the technique described in US Pat. No. 9,646,591 may be arbitrarily adopted.
  • the learning fingering information Zt is generated using the results of the detection of the performance by the reference performer by the detection device 250 installed in the stringed instrument 201. Therefore, the load of preparing the training data T used for machine learning of the generative model M can be reduced.
  • the control device 41 of the machine learning system 400 realizes multiple functions (training data acquisition unit 51, learning processing unit 52) for generating the generative model M by executing a program stored in the storage device 42. .
  • the training data acquisition unit 51 acquires a plurality of training data T.
  • the learning processing unit 52 establishes a generative model M by machine learning using a plurality of training data T.
  • FIG. 9 is a flowchart of a process Sb in which the control device 41 establishes the generative model M by machine learning (hereinafter referred to as "machine learning process").
  • machine learning process the machine learning process Sb is started in response to an instruction from the operator of the machine learning system 400.
  • the control device 41 When the machine learning process Sb is started, the control device 41 (training data acquisition unit 51) selects any one of the plurality of training data T (hereinafter referred to as “selected training data T") (Sb1). The control device 41 (learning processing unit 52) iteratively updates a plurality of coefficients of an initial or provisional generation model M (hereinafter referred to as “provisional model M0") using the selected training data T (Sb2 ⁇ Sb4).
  • provisional model M0 initial or provisional generation model M
  • the control device 41 generates fingering information Z by processing the input information Ct of the selected training data T using the provisional model M0 (Sb2).
  • the control device 41 calculates a loss function representing the error between the fingering information Z generated by the provisional model M0 and the fingering information Zt of the selected training data T (Sb3).
  • the control device 41 updates the plurality of variables of the provisional model M0 so that the loss function is reduced (ideally minimized) (Sb4). For example, error backpropagation is used to update each variable according to the loss function.
  • the control device 41 determines whether a predetermined termination condition is satisfied (Sb5).
  • the termination condition is that the loss function is less than a predetermined threshold, or that the amount of change in the loss function is less than a predetermined threshold. If the end condition is not satisfied (Sb5: NO), the control device 41 selects the unselected training data T as the new selected training data T (Sb1). That is, the process of updating a plurality of variables of the provisional model M0 (Sb1 to Sb4) is repeated until the termination condition is satisfied (Sb5: YES). If the termination condition is satisfied (Sb5: YES), the control device 41 terminates the machine learning process Sb.
  • the provisional model M0 at the time when the termination condition is satisfied is determined as the trained generative model M.
  • the generative model M learns the latent relationship between the input information Ct and the fingering information Zt in the plurality of training data T. Therefore, the trained generative model M outputs statistically valid fingering information Z for the unknown input information C under the above relationship.
  • the control device 41 transmits the generative model M established by the machine learning process Sb to the information processing system 100. Specifically, a plurality of variables defining the generative model M are transmitted to the information processing system 100.
  • the control device 11 of the information processing system 100 receives the generative model M transmitted from the machine learning system 400 and stores the generative model M in the storage device 12.
  • the configuration and operation of the information processing system 100 in the second embodiment are similar to those in the first embodiment. Therefore, the second embodiment also achieves the same effects as the first embodiment.
  • the fingering information Zt of the training data T applied to the machine learning process Sb is different from that in the first embodiment.
  • training includes input information Ct (sound information Xt and finger information Yt) corresponding to performances by each of a plurality of reference performers, and fingering information Zt corresponding to performances by each reference performer.
  • Data T is used for machine learning processing Sb of generative model M. That is, the input information Ct and fingering information Zt in the training data T correspond to performances by a common reference performer.
  • the input information Ct of each training data T is information (sound information Xt and finger information Yt) corresponding to performances by a large number of reference performers, as in the first embodiment.
  • the fingering information Zt of each training data T in the second embodiment represents the fingering during performance by one specific player (hereinafter referred to as "target player").
  • the target performer is, for example, a music artist who plays the stringed instrument 200 with characteristic fingerings or a music instructor who plays the stringed instrument 200 with exemplary fingerings. That is, the input information Ct and fingering information Zt in the training data T of the second embodiment correspond to performances by different players (reference player/target player).
  • the target player's fingering information Zt in the training data T is prepared by analyzing an image of the target player playing a stringed instrument.
  • the fingering information Zt is generated from images of live music or music videos in which the target performer appears. Therefore, the fingering information Zt reflects the fingering specific to the target performer.
  • the fingering information Zt reflects a tendency to press strings more frequently within a specific range on the fingerboard of a stringed instrument, or a tendency to press strings more frequently with specific fingers of the left hand.
  • the generative model M of the second embodiment corresponds to the performance by the user U (sound information Xt and finger information Yt), and reflects the fingering tendency of the target performer. Then, fingering information Z is generated.
  • the fingering information Z represents a fingering that is likely to be adopted by the target performer, assuming that the target performer plays the same music as the user U. Therefore, by checking the musical score B displayed according to the fingering information Z, the user U can check with what fingering the target performer would use to play the song played by the user U.
  • a target performer such as a music artist or a music instructor
  • a target performer can enjoy the customer experience of being able to easily provide his or her own fingering information Z to a large number of users U.
  • the user U can enjoy the customer experience of practicing a stringed instrument while referring to the fingering information Z of a desired target performer.
  • FIG. 10 is a block diagram illustrating the functional configuration of an information processing system 100 in a third embodiment.
  • a plurality of generative models M corresponding to different target performers are selectively used.
  • Each of the plurality of generative models M corresponds to one generative model M in the second embodiment.
  • One generation model M corresponding to each target performer is a model that has learned the relationship between learning input information Ct and learning fingering information Zt representing fingerings by the target performer.
  • a plurality of training data T are prepared for each target performer.
  • the generation model M of each target performer is established by machine learning processing Sb using a plurality of training data T of the target performer. Therefore, the generated model M corresponding to each target performer has fingering information that corresponds to the performance by the user U (sound information Xt and finger information Yt) and reflects the fingering tendency of the target performer. Generate Z.
  • the information generation unit 22 accepts the selection of the target performer by the user U.
  • the information generation unit 22 generates fingering information Z by processing the input information C using the generation model M corresponding to the target performer selected by the user U from among the plurality of generation models M (Sa4). Therefore, if it is assumed that the target performer selected by the user U plays a similar piece of music, the fingering information Z generated by the generative model M is likely to be adopted by the target performer selected by the user U. Represents high fingering.
  • any one of the plurality of generative models M corresponding to different target performers is selectively used. Therefore, it is possible to generate fingering information Z that reflects the fingering tendencies specific to each target performer.
  • FIG. 11 is a block diagram illustrating the functional configuration of an information processing system 100 in a fourth embodiment.
  • Input information C in the fourth embodiment includes identification information D in addition to sound information X and finger information Y similar to those in the first embodiment.
  • the identification information D is a code string for identifying any one of a plurality of target performers.
  • the user U can select any one of a plurality of target performers by operating the operating device 13.
  • the information acquisition unit 21 generates identification information D of the target performer selected by the user U. That is, the information acquisition unit 21 generates input information C including sound information X, finger information Y, and identification information D.
  • FIG. 12 is a block diagram illustrating the functional configuration of a machine learning system 400 in the fourth embodiment.
  • a plurality of training data T are prepared for each target performer.
  • the training data T corresponding to each target performer includes learning identification information Dt in addition to sound information Xt and finger information Yt similar to the first embodiment.
  • the identification information Dt is a code string for identifying any one of a plurality of target performers.
  • the fingering information Zt of the training data T corresponding to each target player represents the fingering of the stringed instrument 200 by the target player. That is, the fingering information Zt of each target player reflects the tendency of the target player to play the stringed instrument 200.
  • a generation model M is individually generated for each target performer by machine learning processing Sb using a plurality of training data T of each target performer.
  • one generative model M is generated by machine learning processing Sb using a plurality of training data T corresponding to different target performers. That is, the generative model M of the fourth embodiment includes, for each of a plurality of target performers, learning input information Ct including the identification information D of the target performer, and learning input information Ct representing the fingering by the target performer. This is a model that has learned the relationship between Zt and fingering information Zt. Therefore, the generative model M corresponds to the performance by the user U (sound information Xt and finger information Yt), and the fingering information Z that reflects the fingering tendency of the target performer selected by the user U. generate.
  • the fourth embodiment also achieves the same effects as the second embodiment.
  • the input information C includes identification information D of the target performer. Therefore, similarly to the third embodiment, it is possible to generate fingering information Z that reflects the fingering tendencies specific to each target performer.
  • the presentation processing unit 23 of the fifth embodiment displays the reference image R2 of FIG. 13 on the display device 14 using the fingering information Z. Note that the configuration and operation other than the presentation processing unit 23 are the same as those in the first to fourth embodiments. Therefore, the same effects as those of the first to fourth embodiments are achieved in the fifth embodiment as well.
  • the reference image R2 includes a virtual object (hereinafter referred to as "virtual object") O that exists in the virtual space.
  • the virtual object O is a three-dimensional image showing a virtual player Oa playing a virtual stringed instrument Ob.
  • the virtual station performer Oa includes a left hand Oa1 that presses the strings of a stringed instrument Ob, and a right hand Oa2 that plucks the strings of the stringed instrument Ob.
  • the state of the virtual object O (particularly the state of the left hand Oa1) changes over time according to the fingering information Z sequentially generated by the information generating section 22.
  • the presentation processing unit 23 of the fifth embodiment displays the reference image R2 representing the virtual performer Oa (Oa1, Oa2) and the virtual stringed instrument Ob on the display device 14.
  • the virtual performer Oa corresponding to the fingering represented by the fingering information Z is displayed on the display device 14 together with the virtual stringed instrument Ob. Therefore, the user U can visually and intuitively confirm the fingering represented by the fingering information Z.
  • the display device 14 may be installed in an HMD (Head Mounted Display) that is worn on the head of the user U.
  • the presentation processing unit 23 displays the virtual object O (performer Oa and stringed instrument Ob) photographed by the virtual camera in the virtual space on the display device 14 as a reference image R2.
  • the presentation processing unit 23 dynamically controls the position and direction of the virtual camera in the virtual space according to the behavior (for example, position and direction) of the user's U's head. Therefore, the user U can view the virtual object O from any position and direction in the virtual space by appropriately moving his or her head.
  • the HMD equipped with the display device 14 has two types: a transparent type in which the user U can view the real space as the background of the virtual object O, and a non-transparent type in which the virtual object O is displayed together with a background image of the virtual space. Either is fine.
  • a transparent HMD displays a virtual object O using Augmented Reality (AR) or Mixed Reality (MR), and a non-transparent HMD displays a virtual object O using Virtual Reality (VR), for example. Display object O.
  • AR Augmented Reality
  • MR Mixed Reality
  • VR Virtual Reality
  • the display device 14 may be installed in a terminal device that can communicate with the information processing system 100 via a communication network such as the Internet.
  • the presentation processing unit 23 displays the reference image R2 on the display device 14 of the terminal device by transmitting image data representing the reference image R2 to the terminal device.
  • the display device 14 of the terminal device may or may not be attached to the head of the user U.
  • the presentation processing unit 23 may generate the content N according to the fingering information Z and the sound information X.
  • the content N includes the aforementioned musical score B generated from the time series of the fingering information Z, and the time series of pitches specified by the note information X for each sound point.
  • musical tones corresponding to the pitches of each sound information X are played in parallel to the display of the musical score B. Therefore, the content viewer can listen to the performance sound of the music piece while visually checking the music score B of the music piece.
  • the above content is useful as a teaching material used for practicing or teaching the performance of the stringed instrument 200, for example.
  • the sound information X specifies the pitch, but the information specified by the sound information X is not limited to the pitch.
  • the frequency characteristics of the acoustic signal Qx may be used as the sound information X.
  • the frequency characteristics of the acoustic signal Qx are information such as an intensity spectrum (amplitude spectrum or power spectrum) or MFCC (Mel-Frequency Cepstrum Coefficients).
  • MFCC Mel-Frequency Cepstrum Coefficients
  • a time series of samples constituting the acoustic signal Qx may be used as the sound information X.
  • the sound information X is comprehensively expressed as information regarding the sound played by the user U using the stringed instrument 200.
  • the acoustic analysis unit 211 may generate the sound information X from the performance information E sequentially supplied from the electronic stringed instrument 202.
  • the electronic stringed instrument 202 is a MIDI (Musical Instrument Digital Interface) instrument that outputs performance information E representing a performance by the user U.
  • the performance information E is event data that specifies the pitch and intensity of the pitch played by the user U, and is output from the electronic stringed instrument 202 every time the user U plucks the strings.
  • the acoustic analysis unit 211 generates the pitch included in the performance information E as the sound information X, for example.
  • the acoustic analysis unit 211 may detect the sound generation point from the performance information E. For example, the point in time when the performance information E indicating the sound production is supplied from the electronic stringed instrument 202 is detected as the sound production point.
  • the sounding point of the stringed instrument 200 is detected by analyzing the acoustic signal Qx, but the method of detecting the sounding point is not limited to the above examples.
  • the image analysis unit 212 may detect the sound source of the stringed instrument 200 by analyzing the image signal Qy.
  • the player image Ga represented by the image signal Qy includes the right hand image Ga2 of the right hand used by the user U to pluck the strings.
  • the image analysis unit 212 extracts the right hand image Ga2 from the performance image G, and detects plucking by analyzing changes in the right hand image Ga2. The point in time when user U plucks the string is detected as the point of sound generation.
  • methods for playing the stringed instrument 200 such as a guitar include an arpeggio playing method in which a plurality of tones are played in sequence, and a stroke playing method in which a plurality of tones constituting a chord are played substantially simultaneously.
  • an arpeggio performance style and a stroke performance style may be distinguished. For example, for a plurality of musical tones that are played sequentially at intervals exceeding a predetermined threshold, a sound generation point is detected for each musical tone (arpeggio playing technique).
  • one common sound generation point is detected for the plurality of musical tones (stroke playing style).
  • the playing style of the stringed instrument 200 may be reflected in the detection of the sound generation point.
  • the sound generation points may be discretized on the time axis. In the form in which the sounding points are discretized, one sounding point is specified for a plurality of musical tones that are sounded at intervals below a predetermined threshold.
  • the finger information Y includes the left hand image Ga1 and the fingerboard image Gb1, but the finger information Y includes the right hand image Ga2 in addition to the left hand image Ga1 and the fingerboard image Gb1.
  • a form including this is also envisioned.
  • plucking the strings with the right hand is also reflected in the generation of the fingering information Z.
  • the finger information Yt in the input information Ct of each training data T includes an image of the right hand used by the reference performer to pluck the strings.
  • the finger information Y includes the player image Ga (left hand image Ga1 and right hand image Ga2) and the instrument image Gb (fingerboard image Gb1), but the format of the finger information Y is is optional.
  • the image analysis unit 212 may generate the coordinates of feature points extracted from the performance image G as the finger information Y.
  • the finger information Y specifies, for example, the coordinates of each node (for example, a joint or tip) in the left hand image Ga1 of the user U, or the coordinates of the point where each string and each fret intersect in the fingerboard image Gb1 of the stringed instrument 200. do.
  • the finger information Y specifies, for example, the coordinates of each node (for example, a joint or a tip) in the right hand image Ga2 of the user U.
  • the finger information Y is comprehensively expressed as information regarding the player image Ga and the musical instrument image Gb.
  • one of the plurality of generation models M is selected in response to an instruction from the user U, but the method for selecting the generation model M is not limited to the above example. That is, any method can be used to select one of the plurality of target performers.
  • the information generation unit 22 may select any one of the plurality of generation models M according to an instruction from an external device or a result of predetermined arithmetic processing.
  • any method can be used to select any one of the plurality of target performers.
  • the information acquisition unit 21 may generate the identification information D of any one of a plurality of target performers in accordance with an instruction from an external device or a result of predetermined arithmetic processing.
  • a deep neural network is exemplified as the generative model M for generating the fingering information Z, but the form of the generative model M is not limited to the above examples.
  • a statistical model such as an HMM (Hidden Markov Model) or an SVM (Support Vector Machine) may be used as the generative model M.
  • a generative model M that has learned the relationship between input information C and fingering information Z is used, but the configuration and method for generating fingering information Z from input information C are as follows. It is not limited to the above examples.
  • a reference table in which fingering information Z is associated with each of a plurality of different pieces of input information C may be used for generation of fingering information Z by the information generation unit 22.
  • the reference table is a data table in which the correspondence between input information C and fingering information Z is registered, and is stored in the storage device 12, for example.
  • the information generation unit 22 searches the reference table for fingering information Z corresponding to the input information C acquired by the information acquisition unit 21.
  • the machine learning system 400 establishes the generative model M, but the functions for establishing the generative model M (the training data acquisition unit 51 and the learning processing unit 52) are installed in the information processing system 100. may be done.
  • the fingering information Z specifying the finger number and the string pressing position is exemplified, but the format of the fingering information Z is not limited to the above-mentioned examples.
  • various playing methods for musical expression may be specified by the fingering information Z.
  • Examples of the performance method specified by the fingering information Z include vibrato, slide, glissando, pulling, hammering, and choking.
  • a known facial expression estimation model is used to estimate the performance method.
  • the type of stringed instrument 200 is arbitrary.
  • the stringed instrument 200 is comprehensively expressed as a musical instrument that produces sound by the vibration of strings, and includes, for example, plucked string instruments and bowed string instruments.
  • the plucked string instrument is a stringed instrument 200 that produces sound by plucking the strings.
  • Plucked string instruments include, for example, an acoustic guitar, an electric guitar, an acoustic bass, an electric bass, a ukulele, a banjo, a mandolin, a koto, or a shamisen.
  • a bowed string instrument is a stringed instrument that produces sound by bowing the strings. Examples of bowed string instruments include violins, violas, cellos, double basses, and the like. The present disclosure is applied to analyze performances of any of the above-mentioned types of stringed instruments.
  • the information processing system 100 may be realized by a server device that communicates with a terminal device such as a smartphone or a tablet terminal.
  • the information acquisition unit 21 of the information processing system 100 receives an audio signal Qx (or performance information E) and an image signal Qy from a terminal device, and receives audio information X corresponding to the acoustic signal Qx and image signal Qy.
  • the finger information Y is generated.
  • the information generation unit 22 generates fingering information Z from input information C including sound information X and finger information Y.
  • the presentation processing unit 23 generates musical score information P from the fingering information Z, and transmits the musical score information P to the terminal device.
  • the display device of the terminal device displays the musical score B represented by the musical score information P.
  • the information acquisition section 21 receives sound information X and finger information Y from the terminal device.
  • the information acquisition unit 21 is an element that generates sound information X and finger information Y, or an element that receives sound information X and finger information Y from another device such as a terminal device. That is, "obtaining" the sound information X and the finger information Y includes both generation and reception.
  • the fingering information Z generated by the information generation section 22 is transmitted from the information processing system 100 to the terminal device.
  • the presentation processing unit 23 generates musical score information P from the fingering information Z and displays it on the display device.
  • the presentation processing unit 23 may be omitted from the information processing system 100.
  • the functions of the information processing system 100 are realized through cooperation between one or more processors forming the control device 11 and the programs stored in the storage device 12. .
  • the programs exemplified above may be provided in a form stored in a computer-readable recording medium and installed on a computer.
  • the recording medium is, for example, a non-transitory recording medium, and an optical recording medium (optical disk) such as a CD-ROM is a good example, but any known recording medium such as a semiconductor recording medium or a magnetic recording medium is used. Also included are recording media in the form of.
  • the non-transitory recording medium includes any recording medium excluding transitory, propagating signals, and does not exclude volatile recording media.
  • a recording medium that stores a program in the distribution device corresponds to the above-mentioned non-transitory recording medium.
  • An information processing method includes finger information regarding the fingers of a user who plays a stringed instrument and an image of the fingerboard of the stringed instrument, and sounds regarding the sounds played by the user with the stringed instrument.
  • fingering information representing the fingering is obtained. generate.
  • fingering information is generated by processing input information including finger information and sound information using a machine-learned generation model. That is, it is possible to provide fingering information regarding fingerings when a user plays a stringed instrument.
  • Finger information is data in any format regarding the image of the user's fingers and the image of the fingerboard of the stringed instrument.
  • image information representing an image of the user's fingers and an image of the fingerboard of a stringed instrument, or analysis information generated by analyzing the image information is used as the finger information.
  • the analysis information is, for example, information representing the coordinates of each node (joint or tip) of the user's finger, information representing line segments between nodes, information representing the fingerboard, and information representing frets on the fingerboard.
  • Sound information is data in any format regarding the sounds played by the user on a stringed instrument.
  • the sound information represents the feature amount of the sound played by the user.
  • the feature amount is, for example, a pitch or a frequency characteristic, and is specified, for example, by analyzing an acoustic signal representing the vibration of a string of a stringed instrument.
  • sound information that specifies the pitch of the performance information is generated. A time series of samples of the acoustic signal may be used as the sound information.
  • Fingering information is data in any format that represents the fingering of a stringed instrument. For example, the finger number representing the finger pressing the string and the position of the string pressing (fret and string combination) are used as fingering information.
  • a "generative model” is a learned model that has learned the relationship between input information and fingering information through machine learning.
  • Multiple training data are used for machine learning of generative models.
  • Each training data includes learning input information and learning fingering information (correct label).
  • various statistical models such as a deep neural network (DNN), a hidden Markov model (HMM), or a support vector machine (SVM) are exemplified as the generative model.
  • DNN deep neural network
  • HMM hidden Markov model
  • SVM support vector machine
  • Aspect 2 the sounding points of the stringed instrument are further detected, and the acquisition of the input information and the generation of the fingering information are executed for each sounding point.
  • the acquisition of input information and the generation of fingering information are executed for each sound point of the stringed instrument. Therefore, it is possible to suppress unnecessary generation of fingering information in a state where the user is pressing a string but not performing a sound generation operation.
  • the "sounding operation” is a user's action for causing a stringed instrument to produce a sound corresponding to a string pressing operation.
  • the sound generation operation is, for example, a plucking operation for a plucked string instrument or a string rubbing operation for a bowed string instrument.
  • musical score information representing a musical score corresponding to the performance of the stringed instrument by the user is further generated using the fingering information.
  • musical score information is generated using fingering information.
  • the user can effectively utilize the fingering information by outputting the musical score (for example, displaying or printing).
  • the "score" represented by “score information” is, for example, a tablature in which string pressing positions for each string of a stringed instrument are displayed.
  • the music score information represents a staff notation in which finger numbers used to play each pitch are designated.
  • any one of aspects 1 to 3 (aspect 4), further represents a virtual performer corresponding to the fingering represented by the fingering information and a virtual stringed instrument played by the finger.
  • a reference image is displayed on a display device.
  • the display device is attached to the user's head, and when displaying the reference image, the display device adjusts the position in the virtual space according to the behavior of the user's head.
  • a virtual camera whose direction is controlled displays an image of the virtual performer and the virtual stringed instrument in the virtual space on the display device as the reference image. According to the above aspect, the user can visually recognize the virtual performer and the virtual stringed instrument from a desired position and direction.
  • image data representing the reference image is transmitted to a terminal device via a communication network, thereby improving the display of the terminal device. Displaying the reference image on the device. According to the above aspect, even if the terminal device is not equipped with a function of generating fingering information, the user of the terminal device can visually recognize the virtual performer and stringed instrument corresponding to the fingering information.
  • content is further generated according to the sound information and the fingering information. According to the above aspect, it is possible to generate content that allows confirmation of the correspondence between sound information and fingering information.
  • the above content is useful for practicing or teaching string instrument performance.
  • the input information includes identification information of any one of the plurality of performers, and the generative model includes the identification information for each of the plurality of performers.
  • the input information includes identification information of the performer. Therefore, it is possible to generate fingering information that reflects the fingering tendencies specific to each performer.
  • the acquired input information is processed by any one of a plurality of generation models corresponding to different performers.
  • the fingering information is generated, and each of the plurality of generation models includes the learning input information, the learning fingering information representing the fingering by the player corresponding to the generation model, and
  • This is a model that has learned the relationship between
  • any one of a plurality of unit models corresponding to different performers is selectively used. Therefore, it is possible to generate fingering information that reflects the fingering tendencies specific to each performer.
  • the learning fingering information is generated using a result of a detection device installed on a stringed instrument detecting a performance by a player.
  • the fingering information for learning is generated using the detection result by the detection device installed on the stringed instrument. Therefore, the load of preparing training data used for machine learning of generative models can be reduced.
  • An information processing system provides finger information regarding the fingers of a user who plays a stringed instrument and an image of the fingerboard of the stringed instrument, and sounds regarding the sounds played by the user with the stringed instrument. and a generative model that has learned the relationship between the input information for learning and the fingering information for learning. and an information generation unit that generates fingering information to represent.
  • a program according to one aspect (aspect 12) of the present disclosure includes finger information regarding the fingers of a user who plays a stringed instrument and an image of the fingerboard of the stringed instrument, and sound information regarding the sounds played by the user with the stringed instrument. and a generative model that has learned the relationship between the input information for learning and the fingering information for learning to process the acquired input information to represent the fingering.
  • the computer system functions as an information generation unit that generates fingering information.
  • DESCRIPTION OF SYMBOLS 100 Information processing system, 200, 201... Stringed instrument, 202... Electronic stringed instrument, 250... Detection device, 11, 41... Control device, 12, 42... Storage device, 13... Operating device, 14... Display device, 15... Sound collection Device, 16... Imaging device, 21... Information acquisition section, 211... Acoustic analysis section, 212... Image analysis section, 22... Information generation section, 23... Presentation processing section, 400... Machine learning system, 51... Training data acquisition section, 52...Learning processing unit.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

情報処理システム100は、弦楽器200を演奏する利用者の指および当該弦楽器200の指板の画像に関する指情報Yと、利用者が弦楽器200により演奏する音に関する音情報Xとを含む入力情報Cを取得する情報取得部21と、学習用の入力情報と学習用の運指情報との関係を学習した生成モデルMにより、取得した入力情報Cを処理することで、運指を表す運指情報Zを生成する情報生成部22とを具備する。

Description

情報処理方法、情報処理システムおよびプログラム
 本開示は、弦楽器の演奏を解析する技術に関する。
 弦楽器の演奏を支援するための各種の技術が従来から提案されている。例えば特許文献1には、弦楽器のコードを演奏するときの運指を表す運指画像を、表示装置に表示する技術が開示されている。
特開2005-241877号公報
 弦楽器の特定の音高は、相異なる複数の運指により演奏され得る。利用者が弦楽器の演奏を練習する場面においては、模範的な運指または特定の演奏者の運指等、自分の独自の運指以外の運指を確認したいという要望がある。また、弦楽器を演奏する利用者は、演奏時における自身の運指を確認したい場合がある。以上の事情を考慮して、本開示のひとつの態様は、利用者が弦楽器を演奏するときの運指に関する運指情報を提供することを目的とする。
 以上の課題を解決するために、本開示のひとつの態様に係る情報処理方法は、弦楽器を演奏する利用者の指および当該弦楽器の指板の画像に関する指情報と、前記利用者が前記弦楽器により演奏する音に関する音情報とを含む入力情報を取得し、学習用の入力情報と学習用の運指情報との関係を学習した生成モデルにより、前記取得した入力情報を処理することで、運指を表す運指情報を生成する。
 本開示のひとつの態様に係る情報処理システムは、弦楽器を演奏する利用者の指および当該弦楽器の指板の画像に関する指情報と、前記利用者が前記弦楽器により演奏する音に関する音情報とを含む入力情報を取得する情報取得部と、学習用の入力情報と学習用の運指情報との関係を学習した生成モデルにより、前記取得した入力情報を処理することで、運指を表す運指情報を生成する情報生成部とを具備する。
 本開示のひとつの態様に係るプログラムは、弦楽器を演奏する利用者の指および当該弦楽器の指板の画像に関する指情報と、前記利用者が前記弦楽器により演奏する音に関する音情報とを含む入力情報を取得する情報取得部、および、学習用の入力情報と学習用の運指情報との関係を学習した生成モデルにより、前記取得した入力情報を処理することで、運指を表す運指情報を生成する情報生成部、としてコンピュータシステムを機能させる。
情報処理システムの構成を例示するブロック図である。 演奏画像の模式図である。 情報処理システムの機能的な構成を例示するブロック図である。 画像解析処理のフローチャートである。 参照画像の模式図である。 演奏解析処理のフローチャートである。 機械学習システムの構成を例示するブロック図である。 機械学習システムの機能的な構成を例示するブロック図である。 機械学習処理のフローチャートである。 第3実施形態における情報処理システムの機能的な構成を例示するブロック図である。 第4実施形態における情報処理システムの機能的な構成を例示するブロック図である。 第4実施形態における機械学習システムの機能的な構成を例示するブロック図である。 変形例における参照画像の模式図である。 変形例における情報処理システムの機能的な構成を例示するブロック図である。 変形例における情報処理システムの機能的な構成を例示するブロック図である。
A:第1実施形態
 図1は、第1実施形態に係る情報処理システム100の構成を例示するブロック図である。情報処理システム100は、利用者Uによる弦楽器200の演奏を解析するためのコンピュータシステム(演奏解析システム)である。弦楽器200は、例えば、指板と複数の弦とを含むアコースティックギター等の自然楽器である。第1実施形態の情報処理システム100は、利用者Uによる弦楽器200の演奏における運指を解析する。運指は、弦楽器200の演奏において利用者Uが自身の指を使用する方法である。具体的には、利用者Uが各弦を指板に対して押圧(以下「押弦」という)する指と、指板上における押弦の位置(弦とフレットとの組合せ)とが、弦楽器200の運指として解析される。
 情報処理システム100は、制御装置11と記憶装置12と操作装置13と表示装置14と収音装置15と撮像装置16とを具備する。情報処理システム100は、例えばスマートフォンまたはタブレット端末等の可搬型の情報装置、またはパーソナルコンピュータ等の可搬型または据置型の情報装置により実現される。なお、情報処理システム100は、単体の装置として実現されるほか、相互に別体で構成された複数の装置でも実現される。
 制御装置11は、情報処理システム100の動作を制御する単数または複数のプロセッサである。具体的には、例えばCPU(Central Processing Unit)、GPU(Graphics Processing Unit)、SPU(Sound Processing Unit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)、またはASIC(Application Specific Integrated Circuit)等の1種類以上のプロセッサにより、制御装置11が構成される。
 記憶装置12は、制御装置11が実行するプログラムと、制御装置11が使用する各種のデータとを記憶する単数または複数のメモリである。例えば半導体記録媒体および磁気記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せが、記憶装置12として利用される。なお、例えば、情報処理システム100に対して着脱される可搬型の記録媒体、または、制御装置11が通信網を介してアクセス可能な記録媒体(例えばクラウドストレージ)が、記憶装置12として利用されてもよい。
 操作装置13は、利用者Uによる操作を受付ける入力機器である。例えば、利用者Uが操作する操作子、または、利用者Uによる接触を検知するタッチパネルが、操作装置13として利用される。表示装置14は、制御装置11による制御のもとで各種の画像を表示する。例えば、液晶表示パネルまたは有機ELパネル等の各種の表示パネルが、表示装置14として利用される。なお、情報処理システム100とは別体の操作装置13または表示装置14が、情報処理システム100に対して有線または無線により接続されてもよい。
 収音装置15は、利用者Uによる演奏で弦楽器200から発音される楽音を収音することで音響信号Qxを生成するマイクロホンである。音響信号Qxは、弦楽器200が発音する楽音の波形を表す信号である。なお、情報処理システム100とは別体の収音装置15が、有線または無線により情報処理システム100に接続されてもよい。音響信号Qxをアナログからデジタルに変換するA/D変換器の図示は便宜的に省略されている。
 撮像装置16は、利用者Uが弦楽器200を演奏する様子を撮像することで画像信号Qyを生成する。画像信号Qyは、利用者Uが弦楽器200を演奏する動画を表す信号である。具体的には、撮像装置16は、撮影レンズ等の光学系と、光学系からの入射光を受光する撮像素子と、撮像素子による受光量に応じた画像信号Qyを生成する処理回路とを具備する。なお、情報処理システム100とは別体の撮像装置16が、有線または無線により情報処理システム100に接続されてもよい。
 図2は、撮像装置16が撮像する画像に関する説明図である。画像信号Qyが表す画像(以下「演奏画像」という)Gは、奏者画像Gaと楽器画像Gbとを含む。奏者画像Gaは、弦楽器200を演奏する利用者Uの画像である。楽器画像Gbは、利用者Uが演奏する弦楽器200の画像である。奏者画像Gaは、利用者Uの左手の画像(以下「左手画像」という)Ga1と、利用者Uの右手の画像(以下「右手画像」という)Ga2とを含む。以下の説明においては、利用者Uが左手で押弦し、右手で撥弦する場合を想定する。ただし、利用者Uが左手で撥弦し、右手で押弦してもよい。楽器画像Gbは、弦楽器の指板の画像(以下「指板画像」という)Gb1を含む。
 図3は、情報処理システム100の機能的な構成を例示するブロック図である。制御装置11は、記憶装置12に記憶されたプログラムを実行することで、利用者Uによる弦楽器200の演奏を解析するための複数の機能(情報取得部21,情報生成部22,提示処理部23)を実現する。
 情報取得部21は、入力情報Cを取得する。入力情報Cは、音情報Xと指情報Yとを含む制御データである。音情報Xは、利用者Uが弦楽器200により演奏する楽音に関するデータである。指情報Yは、弦楽器200を演奏する利用者Uの演奏画像Gに関するデータである。情報取得部21による入力情報Cの生成は、利用者Uによる弦楽器200の演奏に並行して順次に反復される。第1実施形態の情報取得部21は、音響解析部211と画像解析部212とを含む。
 音響解析部211は、音響信号Qxの解析により音情報Xを生成する。第1実施形態の音情報Xは、利用者Uが弦楽器200により演奏した音高を指定する。すなわち、音響解析部211は、音響信号Qxが表す音響の音高を推定し、当該音高を指定する音情報Xを生成する。なお、音響信号Qxの音高の推定には、公知の解析技術が任意に採用される。
 また、音響解析部211は、音響信号Qxの解析により発音点を順次に検出する。発音点は、弦楽器200による発音が開始される時点(すなわちオンセット)である。具体的には、音響解析部211は、音響信号Qxの音量を所定の周期で順次に特定し、音量が所定の閾値を上回る時点を発音点として検出する。なお、利用者Uの撥弦により弦楽器200は発音する。したがって、弦楽器200の発音点は、利用者Uが弦楽器200を撥弦する時点とも換言される。
 音響解析部211は、発音点の検出を契機として音情報Xを生成する。すなわち、弦楽器200の発音点毎に音情報Xが生成される。例えば、音響解析部211は、音響信号Qxのうち、各発音点から所定の時間(例えば150ミリ秒)が経過した時点のサンプルを解析することで、音情報Xを生成する。各発音点に対応する音情報Xは、当該発音点において発音される楽音の音高を表す情報である。
 画像解析部212は、画像信号Qyの解析により指情報Yを生成する。第1実施形態の指情報Yは、利用者Uの左手画像Ga1と弦楽器200の指板画像Gb1とを表す。画像解析部212は、音響解析部211による発音点の検出を契機として指情報Yを生成する。すなわち、弦楽器200の発音点毎に指情報Yが生成される。例えば、画像解析部212は、画像信号Qyのうち、各発音点から所定の時間(例えば150ミリ秒)が経過した時点の演奏画像Gを解析することで、指情報Yを生成する。各発音点に対応する指情報Yは、当該発音点における左手画像Ga1と指板画像Gb1とを表す。
 図4は、画像解析部212が指情報Yを生成する処理(以下「画像解析処理」という)Sa3のフローチャートである。発音点の検出を契機として画像解析処理Sa3が開始される。画像解析処理Sa3が開始されると、画像解析部212は、画像検出処理を実行する(Sa31)。画像検出処理は、画像信号Qyが表す演奏画像Gから、利用者Uの左手画像Ga1と当該弦楽器200の指板画像Gb1とを抽出する処理である。画像検出処理には、例えば、深層ニューラルネットワーク等の統計モデルを利用した物体検出処理が利用される。
 画像解析部212は、画像変換処理を実行する(Sa32)。画像変換処理は、図2に例示される通り、指板画像Gb1が、所定の方向および距離から指板を観測した画像に変換されるように、演奏画像Gを変換する画像処理である。例えば、画像解析部212は、所定の方向に配置された長方形の基準画像Grefに指板画像Gb1が近似するように、演奏画像Gを変換する。利用者Uの左手画像Ga1も指板画像Gb1とともに変換される。画像変換処理には、指板画像Gb1と基準画像Grefとから生成される変換行列を演奏画像Gに作用させる射影変換等の公知の画像処理が利用される。画像解析部212は、画像変換処理後の演奏画像Gを表す指情報Yを生成する。
 以上の説明の通り、音情報Xおよび指情報Yは発音点毎に生成される。すなわち、情報取得部21は、弦楽器200の発音点毎に入力情報Cを生成する。相異なる発音点に対応する複数の入力情報Cの時系列が生成される。
 図3の情報生成部22は、入力情報Cを利用して運指情報Zを生成する。運指情報Zは、弦楽器200の運指を表す任意の形式のデータである。具体的には、運指情報Zは、弦楽器200の押弦に使用される1以上の指の指番号と、当該指による押弦位置とを指定する。押弦位置は、例えば、弦楽器200の複数の弦のうちの何れかと、指板に設置された複数のフレットの何れかとの組合せにより指定される。
 前述の通り、入力情報Cは発音点毎に生成される。したがって、情報生成部22は、発音点毎に運指情報Zを生成する。すなわち、相異なる発音点に対応する複数の運指情報Zの時系列が生成される。各発音点に対応する運指情報Zは、当該発音点における運指を表す情報である。以上の説明から理解される通り、第1実施形態においては、弦楽器200の発音点毎に、入力情報Cの取得と運指情報Zの生成とが実行される。したがって、利用者Uが押弦しているけれども撥弦はしていない状態において、運指情報が無駄に生成されることを抑制できる。ただし、発音点とは無関係な所定の周期により、入力情報Cの取得と運指情報Zの生成とが反復されてもよい。
 情報生成部22による運指情報Zの生成には生成モデルMが利用される。具体的には、情報生成部22は、生成モデルMにより入力情報Cを処理することで運指情報Zを生成する。生成モデルMは、入力情報Cと運指情報Zとの関係を機械学習により学習した学習済モデルである。すなわち、生成モデルMは、入力情報Cに対して統計的に妥当な運指情報Zを出力する。
 生成モデルMは、入力情報Cから運指情報Zを生成する演算を制御装置11に実行させるプログラムと、当該演算に適用される複数の変数(例えば加重値およびバイアス)との組合せで実現される。生成モデルMを実現するプログラムおよび複数の変数は、記憶装置12に記憶される。生成モデルMの複数の変数は、機械学習により事前に設定される。
 生成モデルMは、例えば深層ニューラルネットワークで構成される。例えば、再帰型ニューラルネットワーク(RNN:Recurrent Neural Network)、または畳込ニューラルネットワーク(CNN:Convolutional Neural Network)等の任意の形式の深層ニューラルネットワークが、生成モデルMとして利用される。複数種の深層ニューラルネットワークの組合せにより生成モデルMが構成されてもよい。また、長短期記憶(LSTM:Long Short-Term Memory)またはAttention等の付加的な要素が生成モデルMに搭載されてもよい。
 提示処理部23は、運指情報Zを利用者Uに提示する。具体的には、提示処理部23は、図5に例示される参照画像R1を表示装置14に表示する。参照画像R1は、利用者Uによる弦楽器200の演奏に対応する譜面B(B1,B2)を含む。譜面B1は、運指情報Zが表す運指に対応する五線譜である。譜面B2は、運指情報Zが表す運指に対応するタブ譜である。すなわち、譜面B2は、弦楽器200の相異なる弦に対応する複数(6本)の横線を含む画像である。譜面B2においては、押弦位置に対応するフレットの番号が弦毎に時系列に表示される。提示処理部23は、運指情報Zの時系列を利用して譜面情報Pを生成する。譜面情報Pは、図5の譜面Bを表す任意の形式のデータである。提示処理部23は、譜面情報Pが表す譜面Bを表示装置14に表示する。
 図6は、制御装置11が実行する処理(以下「演奏解析処理」という)Saのフローチャートである。例えば操作装置13に対する利用者Uからの指示を契機として演奏解析処理Saが開始される。
 演奏解析処理Saが開始されると、制御装置11(音響解析部211)は、音響信号Qxの解析により発音点を検出するまで待機する(Sa1:NO)。発音点が検出された場合(Sa1:YES)、制御装置11(音響解析部211)は、音響信号Qxの解析により音情報Xを生成する(Sa2)。また、制御装置11(画像解析部212)は、図4の画像解析処理Sa3により指情報Yを生成する。なお、音情報Xの生成(Sa2)および指情報Yの生成(Sa3)の順序は反転されてもよい。以上の説明の通り、弦楽器200の発音点毎に入力情報Cが生成される。なお、所定の周期で入力情報Cが生成されてもよい。
 制御装置11(情報生成部22)は、入力情報Cを生成モデルMにより処理することで運指情報Zを生成する(Sa4)。また、制御装置11(提示処理部23)は、運指情報Zを利用者Uに提示する(Sa5,Sa6)。具体的には、制御装置11は、譜面Bを表す譜面情報Pを運指情報Zから生成し(Sa5)、当該譜面情報Pが表す譜面Bを表示装置14に表示する(Sa6)。
 制御装置11は、所定の終了条件が成立したか否かを判定する(Sa7)。終了条件は、例えば操作装置13に対する利用者Uからの演奏解析処理Saの終了が指示されたこと、または弦楽器200の最新の発音点から所定の時間が経過したことである。終了条件が成立しない場合(Sa7:NO)、制御装置11は処理をステップSa1に移行する。すなわち、入力情報Cの取得(Sa2,Sa3)と運指情報Zの生成(Sa4)と運指情報Zの提示(Sa5,Sa6)とが、弦楽器200の発音点毎に反復される。他方、終了条件が成立した場合(Sa7:YES)演奏解析処理Saは終了する。
 以上の説明から理解される通り、第1実施形態においては、音情報Xと指情報Yとを含む入力情報Cを生成モデルMにより処理することで運指情報Zが生成される。したがって、利用者Uによる演奏で弦楽器200が発音する楽音(音響信号Qx)と、利用者Uが弦楽器200を演奏する画像(画像信号Qy)とに対応する運指情報Zを生成できる。すなわち、利用者Uによる弦楽器200の演奏に対応する運指情報Zを提供できる。第1実施形態においては特に、運指情報Zを利用して譜面情報Pが生成される。したがって、利用者Uは、譜面Bの表示により運指情報Zを有効に利用できる。
 図7は、第1実施形態に係る機械学習システム400の構成を例示するブロック図である。機械学習システム400は、情報処理システム100が使用する生成モデルMを機械学習により確立するコンピュータシステムである。機械学習システム400は、制御装置41と記憶装置42とを具備する。
 制御装置41は、機械学習システム400の各要素を制御する単数または複数のプロセッサで構成される。例えば、制御装置41は、CPU、GPU、SPU、DSP、FPGA、またはASIC等の1種類以上のプロセッサにより構成される。
 記憶装置42は、制御装置41が実行するプログラムと、制御装置41が使用する各種のデータとを記憶する単数または複数のメモリである。記憶装置42は、例えば磁気記録媒体または半導体記録媒体等の公知の記録媒体で構成される。複数種の記録媒体の組合せにより記憶装置42が構成されてもよい。なお、機械学習システム400に対して着脱される可搬型の記録媒体、または制御装置41が通信網を介してアクセス可能な記録媒体(例えばクラウドストレージ)が、記憶装置42として利用されてもよい。
 図8は、機械学習システム400の機能的な構成を例示するブロック図である。記憶装置42は、複数の訓練データTを記憶する。複数の訓練データTの各々は、訓練用の入力情報Ctと訓練用の運指情報Ztとを含む教師データである。
 訓練用の入力情報Ctは、音情報Xtと指情報Ytとを含む。音情報Xtは、多数の演奏者(以下「参照演奏者」という)が弦楽器201により演奏する楽音に関するデータである。具体的には、音情報Xtは、参照演奏者が弦楽器201により演奏した音高を指定する。また、指情報Ytは、参照演奏者の左手と当該弦楽器201の指板とを撮像した画像に関するデータである。具体的には、指情報Ytは、参照演奏者の左手の画像と弦楽器201の指板の画像とを表す。
 訓練データTの運指情報Ztは、参照演奏者による弦楽器201の運指を表すデータである。すなわち、各訓練データTの運指情報Ztは、当該訓練データTの入力情報Ctに対して生成モデルMが生成すべき正解ラベルである。
 具体的には、運指情報Ztは、参照演奏者が弦楽器201の押弦に使用する左手の指番号と、押弦位置とを指定する。運指情報Ztの押弦位置は、弦楽器201に設置された検出装置250が検出した位置である。検出装置250は、例えば弦楽器201の指板に設置された光学的または機械的なセンサである。なお、運指情報Ztの押弦位置の検出には、例えば米国特許第9646591号明細書に記載された技術等の公知の技術が任意に採用される。以上の説明から理解される通り、学習用の運指情報Ztは、弦楽器201に設置された検出装置250が参照演奏者による演奏を検出した結果を利用して生成される。したがって、生成モデルMの機械学習に利用される訓練データTを準備する負荷を軽減できる。
 機械学習システム400の制御装置41は、記憶装置42に記憶されたプログラムを実行することで、生成モデルMを生成するための複数の機能(訓練データ取得部51、学習処理部52)を実現する。訓練データ取得部51は、複数の訓練データTを取得する。学習処理部52は、複数の訓練データTを利用した機械学習により生成モデルMを確立する。
 図9は、制御装置41が機械学習により生成モデルMを確立する処理(以下「機械学習処理」という)Sbのフローチャートである。例えば、機械学習システム400の運営者からの指示を契機として機械学習処理Sbが開始される。
 機械学習処理Sbが開始されると、制御装置41(訓練データ取得部51)は、複数の訓練データTの何れか(以下「選択訓練データT」という)を選択する(Sb1)。制御装置41(学習処理部52)は、初期的または暫定的な生成モデルM(以下「暫定モデルM0」という)の複数の係数を、選択訓練データTを利用して反復的に更新する(Sb2~Sb4)。
 制御装置41は、選択訓練データTの入力情報Ctを暫定モデルM0により処理することで運指情報Zを生成する(Sb2)。制御装置41は、暫定モデルM0が生成する運指情報Zと選択訓練データTの運指情報Ztとの誤差を表す損失関数を算定する(Sb3)。制御装置41は、損失関数が低減(理想的には最小化)されるように、暫定モデルM0の複数の変数を更新する(Sb4)。損失関数に応じた各変数の更新には、例えば誤差逆伝播法が利用される。
 制御装置41は、所定の終了条件が成立したか否かを判定する(Sb5)。終了条件は、損失関数が所定の閾値を下回ること、または、損失関数の変化量が所定の閾値を下回ることである。終了条件が成立しない場合(Sb5:NO)、制御装置41は、未選択の訓練データTを新たな選択訓練データTとして選択する(Sb1)。すなわち、終了条件の成立(Sb5:YES)まで、暫定モデルM0の複数の変数を更新する処理(Sb1~Sb4)が反復される。終了条件が成立した場合(Sb5:YES)、制御装置41は機械学習処理Sbを終了する。終了条件が成立した時点における暫定モデルM0が、訓練済の生成モデルMとして確定される。
 以上の説明から理解される通り、生成モデルMは、複数の訓練データTにおける入力情報Ctと運指情報Ztとの間に潜在する関係を学習する。したがって、訓練済の生成モデルMは、以上の関係のもとで未知の入力情報Cに対して統計的に妥当な運指情報Zを出力する。
 制御装置41は、機械学習処理Sbにより確立された生成モデルMを情報処理システム100に送信する。具体的には、生成モデルMを規定する複数の変数が、情報処理システム100に送信される。情報処理システム100の制御装置11は、機械学習システム400から送信された生成モデルMを受信し、当該生成モデルMを記憶装置12に保存する。
B:第2実施形態
 第2実施形態を説明する。なお、以下に例示する各態様において機能が第1実施形態と同様である要素については、第1実施形態の説明と同様の符号を流用して各々の詳細な説明を適宜に省略する。
 第2実施形態における情報処理システム100の構成および動作は第1実施形態と同様である。したがって、第2実施形態においても第1実施形態と同様の効果が実現される。第2実施形態においては、機械学習処理Sbに適用される訓練データTの運指情報Ztが、第1実施形態とは相違する。
 第1実施形態においては、複数の参照演奏者の各々による演奏に対応する入力情報Ct(音情報Xtおよび指情報Yt)と、各参照演奏者による演奏に対応する運指情報Ztとを含む訓練データTが、生成モデルMの機械学習処理Sbに利用される。すなわち、訓練データTにおける入力情報Ctと運指情報Ztとは、共通の参照演奏者による演奏に対応する。
 第2実施形態において、各訓練データTの入力情報Ctは、第1実施形態と同様に、多数の参照演奏者による演奏に対応する情報(音情報Xtおよび指情報Yt)である。他方、第2実施形態における各訓練データTの運指情報Ztは、特定の1人の演奏者(以下「目標演奏者」という)による演奏時の運指を表す。目標演奏者は、例えば、特徴的な運指により弦楽器200を演奏する音楽アーティスト、または模範的な運指により弦楽器200を演奏する音楽指導者である。すなわち、第2実施形態の訓練データTにおける入力情報Ctと運指情報Ztとは、相異なる演奏者(参照演奏者/目標演奏者)による演奏に対応する。
 訓練データTにおける目標演奏者の運指情報Ztは、当該目標演奏者が弦楽器を演奏する様子を撮影した画像を解析することで用意される。例えば、目標演奏者が出演する音楽ライブまたはミュージックビデオの画像から運指情報Ztが生成される。したがって、運指情報Ztには、目標演奏者に特有の運指が反映される。例えば、弦楽器の指板のうち特定の範囲内で押弦する頻度が高いといった傾向、または、左手の特定の指で押弦する頻度が高いといった傾向が、運指情報Ztに反映される。
 以上の説明から理解される通り、第2実施形態の生成モデルMは、利用者Uによる演奏(音情報Xtおよび指情報Yt)に対応し、かつ、目標演奏者による運指の傾向が反映された運指情報Zを生成する。例えば、運指情報Zは、利用者Uと同様の楽曲を目標演奏者が演奏したと仮定した場合に、当該目標演奏者が採用する可能性が高い運指を表す。したがって、利用者Uは、運指情報Zに応じて表示される譜面Bを確認することで、当該利用者Uが演奏した楽曲を目標演奏者ならば如何なる運指により演奏するかを確認できる。
 第2実施形態によれば、例えば音楽アーティストまたは音楽指導者等の目標演奏者は、自身の運指情報Zを多数の利用者Uに対して簡便に提供できるという顧客体験を享受できる。また、利用者Uは、所望の目標演奏者の運指情報Zを参照しながら弦楽器を練習するといった顧客体験を享受できる。
C:第3実施形態
 図10は、第3実施形態における情報処理システム100の機能的な構成を例示するブロック図である。第3実施形態においては、相異なる目標演奏者に対応する複数の生成モデルMが選択的に利用される。複数の生成モデルMの各々は、第2実施形態の1個の生成モデルMに相当する。各目標演奏者に対応する1個の生成モデルMは、学習用の入力情報Ctと、当該目標演奏者による運指を表す学習用の運指情報Ztとの関係を学習したモデルである。
 具体的には、第3実施形態においては、目標演奏者毎に複数の訓練データTが用意される。各目標演奏者の生成モデルMは、当該目標演奏者の複数の訓練データTを利用した機械学習処理Sbにより確立される。したがって、各目標演奏者に対応する生成モデルMは、利用者Uによる演奏(音情報Xtおよび指情報Yt)に対応し、かつ、当該目標演奏者による運指の傾向が反映された運指情報Zを生成する。
 利用者Uは、操作装置13を操作することで、複数の目標演奏者の何れかを選択可能である。情報生成部22は、利用者Uによる目標演奏者の選択を受付ける。情報生成部22は、複数の生成モデルMのうち利用者Uが選択した目標演奏者に対応する生成モデルMにより入力情報Cを処理することで、運指情報Zを生成する(Sa4)。したがって、生成モデルMが生成する運指情報Zは、利用者Uが選択した目標演奏者が利用者Uと同様の楽曲を演奏したと仮定した場合に、当該目標演奏者が採用する可能性が高い運指を表す。
 第3実施形態においても第2実施形態と同様の効果が実現される。第3実施形態においては特に、相異なる目標演奏者に対応する複数の生成モデルMの何れかが選択的に利用される。したがって、各目標演奏者に特有の運指の傾向が反映された運指情報Zを生成できる。
D:第4実施形態
 図11は、第4実施形態における情報処理システム100の機能的な構成を例示するブロック図である。第4実施形態の入力情報Cは、第1実施形態と同様の音情報Xおよび指情報Yに加えて識別情報Dを含む。識別情報Dは、複数の目標演奏者の何れかを識別するための符号列である。
 第3実施形態と同様に、利用者Uは、操作装置13を操作することで、複数の目標演奏者の何れかを選択可能である。情報取得部21は、利用者Uが選択した目標演奏者の識別情報Dを生成する。すなわち、情報取得部21は、音情報Xと指情報Yと識別情報Dとを含む入力情報Cを生成する。
 図12は、第4実施形態における機械学習システム400の機能的な構成を例示するブロック図である。第4実施形態においては第3実施形態と同様に、目標演奏者毎に複数の訓練データTが用意される。各目標演奏者に対応する訓練データTは、第1実施形態と同様の音情報Xtおよび指情報Ytに加えて学習用の識別情報Dtを含む。識別情報Dtは、複数の目標演奏者の何れかを識別するための符号列である。また、各目標演奏者に対応する訓練データTの運指情報Ztは、当該目標演奏者による弦楽器200の運指を表す。すなわち、各目標演奏者の運指情報Ztには、当該目標演奏者による弦楽器200の演奏の傾向が反映される。
 第3実施形態においては、各目標演奏者の複数の訓練データTを利用した機械学習処理Sbにより、目標演奏者毎に生成モデルMが個別に生成される。第4実施形態においては、相異なる目標演奏者に対応する複数の訓練データTを利用した機械学習処理Sbにより1個の生成モデルMが生成される。すなわち、第4実施形態の生成モデルMは、複数の目標演奏者の各々について、当該目標演奏者の識別情報Dを含む学習用の入力情報Ctと、当該目標演奏者による運指を表す学習用の運指情報Ztとの関係を学習したモデルである。したがって、生成モデルMは、利用者Uによる演奏(音情報Xtおよび指情報Yt)に対応し、かつ、当該利用者Uが選択した目標演奏者による運指の傾向が反映された運指情報Zを生成する。
 以上に説明した通り、第4実施形態においても第2実施形態と同様の効果が実現される。第4実施形態においては特に、入力情報Cが目標演奏者の識別情報Dを含む。したがって、第3実施形態と同様に、各目標演奏者に固有の運指の傾向が反映された運指情報Zを生成できる。
E:第5実施形態
 第5実施形態の提示処理部23は、運指情報Zを利用して図13の参照画像R2を表示装置14に表示する。なお、提示処理部23以外の構成および動作は、第1実施形態から第4実施形態と同様である。したがって、第5実施形態においても第1実施形態から第4実施形態と同様の効果が実現される。
 参照画像R2は、仮想空間内に存在する仮想的なオブジェクト(以下「仮想オブジェクト」という)Oを含む。仮想オブジェクトOは、仮想的な演奏者Oaが仮想的な弦楽器Obを演奏する様子を表す立体画像である。仮想駅な演奏者Oaは、弦楽器Obを押弦する左手Oa1と、弦楽器Obを撥弦する右手Oa2とを含む。仮想オブジェクトOの状態(特に左手Oa1の状態)は、情報生成部22が順次に生成する運指情報Zに応じて経時的に変化する。以上の通り、第5実施形態の提示処理部23は、仮想的な演奏者Oa(Oa1,Oa2)と仮想的な弦楽器Obとを表す参照画像R2を、表示装置14に表示する。
 第5実施形態においても第1実施形態から第4実施形態と同様の効果が実現される。第5実施形態においては特に、運指情報Zが表す運指に対応する仮想的な演奏者Oaが、仮想的な弦楽器Obとともに表示装置14に表示される。したがって、利用者Uは、運指情報Zが表す運指を視覚的および直観的に確認できる。
 なお、表示装置14は、利用者Uの頭部に装着されるHMD(Head Mounted Display)に搭載されてもよい。提示処理部23は、仮想空間内の仮想カメラにより撮影された仮想オブジェクトO(演奏者Oaおよび弦楽器Ob)を、参照画像R2として表示装置14に表示する。提示処理部23は、利用者Uの頭部の挙動(例えば位置および方向)に応じて、仮想空間内の仮想カメラの位置および方向を動的に制御する。したがって、利用者Uは、自身の頭部を適宜に移動することで、仮想空間内の任意の位置および方向から仮想オブジェクトOを視認できる。なお、表示装置14が搭載されたHMDは、仮想オブジェクトOの背景として利用者Uが現実空間を視認可能な透過型、および、仮想オブジェクトOが仮想空間の背景画像とともに表示される非透過型の何れでもよい。透過型のHMDは、例えば拡張現実(AR:Augmented Reality)または複合現実(MR:Mixed Reality)により仮想オブジェクトOを表示し、非透過型のHMDは、例えば仮想現実(VR:Virtual Reality)により仮想オブジェクトOを表示する。
 また、表示装置14は、例えばインターネット等の通信網を介して情報処理システム100と通信可能な端末装置に搭載されてもよい。提示処理部23は、参照画像R2を表す画像データを端末装置に送信することで、当該端末装置の表示装置14に参照画像R2を表示する。端末装置の表示装置14は、利用者Uの頭部に装着されてもよいし頭部に装着されなくてもよい。
F:変形例
 以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。前述の実施形態および以下に例示する変形例から任意に選択された複数の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
(1)前述の各形態においては、運指情報Zに対応する譜面Bを表示装置14に表示する形態を例示したが、運指情報Zの用途は以上の例示に限定されない。例えば、図14に例示される通り、提示処理部23が、運指情報Zと音情報Xとに応じたコンテンツNを生成してもよい。コンテンツNは、運指情報Zの時系列から生成される前述の譜面Bと、発音点毎の音情報Xが指定する音高の時系列とを含む。再生装置によりコンテンツが再生されると、譜面Bの表示に並行して、各音情報Xの音高に対応する楽音が再生される。したがって、コンテンツの視聴者は、楽曲の譜面Bを視認しながら、当該楽曲の演奏音を聴取できる。以上のコンテンツは、例えば弦楽器200の演奏の練習または指導に使用される教材として有用である。
(2)前述の各形態においては、音情報Xが音高を指定する形態を例示したが、音情報Xが指定する情報は音高に限定されない。例えば、音響信号Qxの周波数特性が音情報Xとして使用されてもよい。音響信号Qxの周波数特性は、例えば強度スペクトル(振幅スペクトルまたはパワースペクトル)またはMFCC(Mel-Frequency Cepstrum Coefficients)等の情報である。また、音響信号Qxを構成するサンプルの時系列が音情報Xとして使用されてもよい。以上の例示から理解される通り、音情報Xは、利用者Uが弦楽器200により演奏する音に関する情報として包括的に表現される。
(3)前述の各形態においては、音響信号Qxの解析により音情報Xを生成する形態を例示したが、音情報Xを生成する方法は以上の例示に限定されない。例えば、図15に例示される通り、電子弦楽器202から順次に供給される演奏情報Eから音響解析部211が音情報Xを生成してもよい。電子弦楽器202は、利用者Uによる演奏を表す演奏情報Eを出力するMIDI(Musical Instrument Digital Interface)楽器である。演奏情報Eは、利用者Uが演奏した音高および強度を指定するイベントデータであり、利用者Uによる撥弦毎に電子弦楽器202から出力される。音響解析部211は、例えば、演奏情報Eに含まれる音高を音情報Xとして生成する。音響解析部211は、演奏情報Eから発音点を検出してもよい。例えば、発音を意味する演奏情報Eが電子弦楽器202から供給された時点が、発音点として検出される。
(4)前述の各形態においては、音響信号Qxの解析により弦楽器200の発音点を検出したが、発音点を検出する方法は以上の例示に限定されない。例えば、画像解析部212は、画像信号Qyの解析により弦楽器200の発音源を検出してもよい。前述の通り、画像信号Qyが表す奏者画像Gaは、利用者Uが撥弦に使用する右手の右手画像Ga2を含む。画像解析部212は、右手画像Ga2を演奏画像Gから抽出し、当該右手画像Ga2の変化を解析することで撥弦を検出する。利用者Uによる撥弦の時点が発音点として検出される。
(5)例えばギター等の弦楽器200を演奏する手法として、複数の楽音の各々を順番に演奏するアルペジオ奏法と、和音を構成する複数の楽音を略同時に演奏するストローク奏法とがある。弦楽器200の演奏(特に発音点)の解析においては、アルペジオ奏法とストローク奏法とを区別してもよい。例えば、所定の閾値を上回る間隔で順次に演奏される複数の楽音については、楽音毎に発音点が検出される(アルペジオ奏法)。他方、所定の閾値を下回る間隔で演奏される複数の楽音については、複数の楽音について共通の1個の発音点が検出される(ストローク奏法)。以上の通り、発音点の検出に弦楽器200の奏法が反映されてもよい。また、時間軸上において発音点を離散化してもよい。発音点が離散化される形態においては、所定の閾値を下回る間隔で発音された複数の楽音について1個の発音点が特定される。
(6)前述の各形態においては、指情報Yが左手画像Ga1と指板画像Gb1とを含む形態を例示したが、指情報Yが、左手画像Ga1および指板画像Gb1に加えて右手画像Ga2を含む形態も想定される。以上の構成によれば、利用者Uの左手による押弦に加えて右手による撥弦も、運指情報Zの生成に反映される。同様に、各訓練データTの入力情報Ctにおける指情報Ytが、参照演奏者が撥弦に使用する右手の画像を含む形態も想定される。
(7)前述の各形態においては、指情報Yが奏者画像Ga(左手画像Ga1および右手画像Ga2)と楽器画像Gb(指板画像Gb1)とを含む形態を例示したが、指情報Yの形式は任意である。演奏画像Gから抽出される特徴点の座標を、画像解析部212が指情報Yとして生成してもよい。指情報Yは、例えば、利用者Uの左手画像Ga1における各節点(例えば関節または先端)の座標、または、弦楽器200の指板画像Gb1において各弦と各フレットとが交差する地点の座標を指定する。右手画像Ga2が指情報Yに反映される形態において、指情報Yは、例えば利用者Uの右手画像Ga2における各節点(例えば関節または先端)の座標を指定する。以上の例示から理解される通り、指情報Yは、奏者画像Gaと楽器画像Gbとに関する情報として包括的に表現される。
(8)第3実施形態においては、利用者Uからの指示に応じて複数の生成モデルMの何れかを選択したが、生成モデルMを選択する方法は以上の例示に限定されない。すなわち、複数の目標演奏者の何れかを選択する方法は任意である。例えば、外部装置からの指示または所定の演算処理の結果に応じて、情報生成部22が複数の生成モデルMの何れかを選択してもよい。第4実施形態においても同様に、複数の目標演奏者の何れかを選択する方法は任意である。例えば、外部装置からの指示または所定の演算処理の結果に応じて、情報取得部21が複数の目標演奏者の何れかの識別情報Dを生成してもよい。
(9)前述の各形態においては、運指情報Zを生成するための生成モデルMとして深層ニューラルネットワークを例示したが、生成モデルMの形態は以上の例示に限定されない。例えば、HMM(Hidden Markov Model)またはSVM(Support Vector Machine)等の統計モデルが、生成モデルMとして利用されてもよい。
(10)前述の各形態においては、入力情報Cと運指情報Zとの関係を学習した生成モデルMを利用したが、入力情報Cから運指情報Zを生成するための構成および方法は、以上の例示に限定されない。例えば、相異なる複数の入力情報Cの各々に運指情報Zが対応付けられた参照テーブルが、情報生成部22による運指情報Zの生成に利用されてもよい。参照テーブルは、入力情報Cと運指情報Zとの対応が登録されたデータテーブルであり、例えば記憶装置12に記憶される。情報生成部22は、情報取得部21が取得した入力情報Cに対応する運指情報Zを参照テーブルから検索する。
(11)前述の各形態においては、機械学習システム400が生成モデルMを確立したが、生成モデルMを確立する機能(訓練データ取得部51および学習処理部52)は、情報処理システム100に搭載されてもよい。
(12)前述の各形態においては、指番号と押弦位置とを指定する運指情報Zを例示したが、運指情報Zの形態は以上の例示に限定されない。例えば、指番号と押弦位置とで規定される通常の運指に加えて、音楽的な表現のための各種の演奏法が、運指情報Zにより指定されてもよい。運指情報Zが指定する演奏法としては、例えば、ビブラート,スライド,グリッサンド,プリング,ハンマリングまたはチョーキング等が例示される。演奏法の推定には公知の表情推定モデルが利用される。
(13)弦楽器200の種類は任意である。弦楽器200は、弦の振動により発音する楽器として包括的に表現され、例えば撥弦楽器と擦弦楽器とを含む。撥弦楽器は、撥弦により発音する弦楽器200である。撥弦楽器には、例えばアコースティックギター、エレキギター、アコースティックベース、エレキベース、ウクレレ、バンジョー、マンドリン、琴または三味線等が含まれる。擦弦楽器は、擦弦により発音する弦楽器である。擦弦楽器には、例えばバイオリン、ビオラ、チェロまたはコントラバス等が含まれる。以上に例示した任意の種類の弦楽器を対象として、演奏の解析のために本開示が適用される。
(14)例えばスマートフォンまたはタブレット端末等の端末装置との間で通信するサーバ装置により、情報処理システム100が実現されてもよい。例えば、情報処理システム100の情報取得部21は、音響信号Qx(または演奏情報E)と画像信号Qyとを端末装置から受信し、音響信号Qxに応じた音情報Xと画像信号Qyに応じた指情報Yとを生成する。情報生成部22は、音情報Xと指情報Yとを含む入力情報Cから運指情報Zを生成する。提示処理部23は、運指情報Zから譜面情報Pを生成し、当該譜面情報Pを端末装置に送信する。端末装置の表示装置は、譜面情報Pが表す譜面Bを表示する。
 なお、音響解析部211および画像解析部212が端末装置に搭載された構成において、情報取得部21は、音情報Xおよび指情報Yを端末装置から受信する。以上の説明から理解される通り、情報取得部21は、音情報Xおよび指情報Yを生成する要素、または、音情報Xおよび指情報Yを端末装置等の他装置から受信する要素である。すなわち、音情報Xおよび指情報Yの「取得」には、生成および受信の双方が包含される。
 また、提示処理部23が端末装置に搭載された構成においては、情報生成部22が生成した運指情報Zが情報処理システム100から端末装置に送信される。提示処理部23は、運指情報Zから譜面情報Pを生成して表示装置に表示する。以上の説明から理解される通り、情報処理システム100から提示処理部23は省略されてもよい。
(15)前述の各形態に係る情報処理システム100の機能は、前述の通り、制御装置11を構成する単数または複数のプロセッサと、記憶装置12に記憶されたプログラムとの協働により実現される。以上に例示したプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体も包含される。なお、非一過性の記録媒体とは、一過性の伝搬信号(transitory, propagating signal)を除く任意の記録媒体を含み、揮発性の記録媒体も除外されない。また、配信装置が通信網を介してプログラムを配信する構成では、当該配信装置においてプログラムを記憶する記録媒体が、前述の非一過性の記録媒体に相当する。
G:付記
 以上に例示した形態から、例えば以下の構成が把握される。
 本開示のひとつの態様(態様1)に係る情報処理方法は、弦楽器を演奏する利用者の指および当該弦楽器の指板の画像に関する指情報と、前記利用者が前記弦楽器により演奏する音に関する音情報とを含む入力情報を取得し、学習用の入力情報と学習用の運指情報との関係を学習した生成モデルにより、前記取得した入力情報を処理することで、運指を表す運指情報を生成する。以上の態様においては、指情報と音情報とを含む入力情報を機械学習済の生成モデルにより処理することで運指情報が生成される。すなわち、利用者が弦楽器を演奏するときの運指に関する運指情報を提供できる。
 「指情報」は、利用者の指の画像と弦楽器の指板の画像とに関する任意の形式のデータである。例えば、利用者の指の画像と弦楽器の指板の画像とを表す画像情報、または、画像情報の解析により生成される解析情報が、指情報として利用される。解析情報は、例えば、利用者の指の各節点(関節または先端)の座標を表す情報、節点間の線分を表す情報、指板を表す情報、指板上のフレットを表す情報である。
 「音情報」は、利用者が弦楽器により演奏する音に関する任意の形式のデータである。例えば、音情報は、利用者が演奏した音の特徴量を表す。特徴量は、例えば音高または周波数特性であり、例えば弦楽器の弦の振動を表す音響信号の解析により特定される。また、例えばMIDI形式の演奏情報を出力する弦楽器においては、当該演奏情報の音高を指定する音情報が生成される。音響信号のサンプルの時系列が音情報として利用されてもよい。
 「運指情報」は、弦楽器の運指を表す任意の形式のデータである。例えば、押弦する指を表す指番号と、押弦の位置(フレットおよび弦の組合せ)とが、運指情報として利用される。
 「生成モデル」は、入力情報と運指情報との関係を機械学習により習得した学習済モデルである。生成モデルの機械学習には複数の訓練データが利用される。各訓練データは、学習用の入力情報と学習用の運指情報(正解ラベル)とを含む。例えば深層ニューラルネットワーク(DNN:Deep Neural Network)、隠れマルコフモデル(HMM:Hidden Markov Model)、またはSVM(Support Vector Machine)等の各種の統計モデルが、生成モデルとして例示される。
 態様1の具体例(態様2)において、さらに、前記弦楽器の発音点を検出し、前記発音点毎に前記入力情報の取得と前記運指情報の生成とを実行する。以上の態様においては、弦楽器の発音点毎に入力情報の取得と運指情報の生成とが実行される。したがって、利用者が押弦しているけれども発音操作を実行していない状態において運指情報が無駄に生成されることを抑制できる。「発音操作」は、押弦操作に対応する音を弦楽器に発音させるための利用者の動作である。具体的には、発音操作は、例えば撥弦楽器に対する撥弦動作、または擦弦楽器に対する擦弦動作である。
 態様1または態様2の具体例(態様3)において、さらに、前記利用者による前記弦楽器の演奏に対応する譜面を表す譜面情報を、前記運指情報を利用して生成する。以上の態様においては、運指情報を利用して譜面情報が生成される。利用者は、譜面の出力(例えば表示または印刷)により運指情報を有効に利用できる。「譜面情報」が表す「譜面」は、例えば弦楽器の各弦について押弦位置が表示されたタブ譜である。ただし、各音高の演奏に使用される指番号が指定された五線譜を、譜面情報が表す形態も想定される。
 態様1から態様3の何れかの具体例(態様4)において、さらに、前記運指情報が表す運指に対応する仮想的な演奏者と、当該指により演奏される仮想的な弦楽器とを表す参照画像を、表示装置に表示する。以上の態様においては、運指情報が表す運指に対応する仮想的な指が仮想的な弦楽器とともに表示装置に表示されるから、利用者は、運指情報が表す運指を視覚的および直観的に確認できる。
 態様4の具体例(態様5)において、前記表示装置は、前記利用者の頭部に装着され、前記参照画像の表示においては、前記利用者の頭部の挙動に応じて仮想空間内の位置および方向が制御される仮想カメラにより、前記仮想空間内の前記仮想的な演奏者と前記仮想的な弦楽器とを撮影した画像を、前記参照画像として前記表示装置に表示する。以上の態様によれば、仮想的な演奏者と仮想的な弦楽器とを、利用者は所望の位置および方向から視認できる。
 態様4または態様5の具体例(態様6)において、前記参照画像の表示においては、前記参照画像を表す画像データを、通信網を介して端末装置に送信することで、当該端末装置の前記表示装置に前記参照画像を表示する。以上の態様によれば、運指情報を生成する機能が端末装置に搭載されていなくても、運指情報に対応する仮想的な演奏者および弦楽器を、端末装置の利用者が視認できる。
 態様1から態様6の何れかの具体例(態様7)において、さらに、前記音情報と前記運指情報とに応じたコンテンツを生成する。以上の態様によれば、音情報と運指情報との対応を確認できるコンテンツを生成できる。以上のコンテンツは、弦楽器の演奏の練習または指導に有用である。
 態様1から態様7の何れかの具体例(態様8)において、前記入力情報は、複数の演奏者の何れかの識別情報を含み、前記生成モデルは、前記複数の演奏者の各々について、当該演奏者の識別情報を含む前記学習用の入力情報と、当該演奏者による運指を表す前記学習用の運指情報との関係を学習したモデルである。以上の態様においては、入力情報が演奏者の識別情報を含む。したがって、各演奏者に特有の運指の傾向が反映された運指情報を生成できる。
 態様1から態様7の何れかの具体例(態様9)において、前記運指情報の生成においては、相異なる演奏者に対応する複数の生成モデルの何れかにより、前記取得した入力情報を処理することで、前記運指情報を生成し、前記複数の生成モデルの各々は、前記学習用の入力情報と、当該生成モデルに対応する演奏者による運指を表す前記学習用の運指情報と、の関係を学習したモデルである。以上の態様においては、相異なる演奏者に対応する複数の単位モデルの何れかが選択的に利用される。したがって、各演奏者に特有の運指の傾向が反映された運指情報を生成できる。
 態様1から態様9の何れかの具体例(態様10)において、前記学習用の運指情報は、弦楽器に設置された検出装置が演奏者による演奏を検出した結果を利用して生成される。以上の態様においては、弦楽器に設置された検出装置による検出結果を利用して、学習用の運指情報が生成される。したがって、生成モデルの機械学習に利用される訓練データを準備する負荷を軽減できる。
 本開示のひとつの態様(態様11)に係る情報処理システムは、弦楽器を演奏する利用者の指および当該弦楽器の指板の画像に関する指情報と、前記利用者が前記弦楽器により演奏する音に関する音情報とを含む入力情報を取得する情報取得部と、学習用の入力情報と学習用の運指情報との関係を学習した生成モデルにより、前記取得した入力情報を処理することで、運指を表す運指情報を生成する情報生成部とを具備する。
 本開示のひとつの態様(態様12)に係るプログラムは、弦楽器を演奏する利用者の指および当該弦楽器の指板の画像に関する指情報と、前記利用者が前記弦楽器により演奏する音に関する音情報とを含む入力情報を取得する情報取得部、および、学習用の入力情報と学習用の運指情報との関係を学習した生成モデルにより、前記取得した入力情報を処理することで、運指を表す運指情報を生成する情報生成部、としてコンピュータシステムを機能させる。
100…情報処理システム、200,201…弦楽器、202…電子弦楽器、250…検出装置、11,41…制御装置、12,42…記憶装置、13…操作装置、14…表示装置、15…収音装置、16…撮像装置、21…情報取得部、211…音響解析部、212…画像解析部、22…情報生成部、23…提示処理部、400…機械学習システム、51…訓練データ取得部、52…学習処理部。

Claims (12)

  1.  弦楽器を演奏する利用者の指および当該弦楽器の指板の画像に関する指情報と、前記利用者が前記弦楽器により演奏する音に関する音情報とを含む入力情報を取得し、
     学習用の入力情報と学習用の運指情報との関係を学習した生成モデルにより、前記取得した入力情報を処理することで、運指を表す運指情報を生成する
     コンピュータシステムにより実現される情報処理方法。
  2.  さらに、前記弦楽器の発音点を検出し、
     前記発音点毎に前記入力情報の取得と前記運指情報の生成とを実行する
     請求項1の情報処理方法。
  3.  さらに、前記利用者による前記弦楽器の演奏に対応する譜面を表す譜面情報を、前記運指情報を利用して生成する
     請求項1または請求項2の情報処理方法。
  4.  さらに、前記運指情報が表す運指に対応する仮想的な演奏者と、当該指により演奏される仮想的な弦楽器とを表す参照画像を、表示装置に表示する
     請求項1から請求項3の何れかの情報処理方法。
  5.  前記表示装置は、前記利用者の頭部に装着され、
     前記参照画像の表示においては、前記利用者の頭部の挙動に応じて仮想空間内の位置および方向が制御される仮想カメラにより、前記仮想空間内の前記仮想的な演奏者と前記仮想的な弦楽器とを撮影した画像を、前記参照画像として前記表示装置に表示する
     請求項4の情報処理方法。
  6.  前記参照画像の表示においては、前記参照画像を表す画像データを、通信網を介して端末装置に送信することで、当該端末装置の前記表示装置に前記参照画像を表示する
     請求項4または請求項5の情報処理方法。
  7.  さらに、前記音情報と前記運指情報とに応じたコンテンツを生成する
     請求項1から請求項6の何れかの情報処理方法。
  8.  前記入力情報は、複数の演奏者の何れかの識別情報を含み、
     前記生成モデルは、前記複数の演奏者の各々について、当該演奏者の識別情報を含む前記学習用の入力情報と、当該演奏者による運指を表す前記学習用の運指情報との関係を学習したモデルである
     請求項1から請求項7の何れかの情報処理方法。
  9.  前記運指情報の生成においては、相異なる演奏者に対応する複数の生成モデルの何れかにより、前記取得した入力情報を処理することで、前記運指情報を生成し、
     前記複数の生成モデルの各々は、前記学習用の入力情報と、当該生成モデルに対応する演奏者による運指を表す前記学習用の運指情報と、の関係を学習したモデルである
     請求項1から請求項7の何れかの情報処理方法。
  10.  前記学習用の運指情報は、弦楽器に設置された検出装置が演奏者による演奏を検出した結果を利用して生成される
     請求項1から請求項9の何れかの情報処理方法。
  11.  弦楽器を演奏する利用者の指および当該弦楽器の指板の画像に関する指情報と、前記利用者が前記弦楽器により演奏する音に関する音情報とを含む入力情報を取得する情報取得部と、
     学習用の入力情報と学習用の運指情報との関係を学習した生成モデルにより、前記取得した入力情報を処理することで、運指を表す運指情報を生成する情報生成部と
     を具備する情報処理システム。
  12.  弦楽器を演奏する利用者の指および当該弦楽器の指板の画像に関する指情報と、前記利用者が前記弦楽器により演奏する音に関する音情報とを含む入力情報を取得する情報取得部、および、
     学習用の入力情報と学習用の運指情報との関係を学習した生成モデルにより、前記取得した入力情報を処理することで、運指を表す運指情報を生成する情報生成部、
     としてコンピュータシステムを機能させるプログラム。
PCT/JP2022/048174 2022-03-25 2022-12-27 情報処理方法、情報処理システムおよびプログラム WO2023181570A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022-049259 2022-03-25
JP2022049259A JP2023142375A (ja) 2022-03-25 2022-03-25 情報処理方法、情報処理システムおよびプログラム

Publications (1)

Publication Number Publication Date
WO2023181570A1 true WO2023181570A1 (ja) 2023-09-28

Family

ID=88100910

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/048174 WO2023181570A1 (ja) 2022-03-25 2022-12-27 情報処理方法、情報処理システムおよびプログラム

Country Status (2)

Country Link
JP (1) JP2023142375A (ja)
WO (1) WO2023181570A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005241877A (ja) * 2004-02-25 2005-09-08 Yamaha Corp 運指指示装置およびプログラム
JP2014063107A (ja) * 2012-09-24 2014-04-10 Brother Ind Ltd 楽曲演奏装置及び楽曲演奏用プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005241877A (ja) * 2004-02-25 2005-09-08 Yamaha Corp 運指指示装置およびプログラム
JP2014063107A (ja) * 2012-09-24 2014-04-10 Brother Ind Ltd 楽曲演奏装置及び楽曲演奏用プログラム

Also Published As

Publication number Publication date
JP2023142375A (ja) 2023-10-05

Similar Documents

Publication Publication Date Title
US7223913B2 (en) Method and apparatus for sensing and displaying tablature associated with a stringed musical instrument
Kapur et al. 2004: The Electronic Sitar Controller
US6995310B1 (en) Method and apparatus for sensing and displaying tablature associated with a stringed musical instrument
US11749246B2 (en) Systems and methods for music simulation via motion sensing
US10748515B2 (en) Enhanced real-time audio generation via cloud-based virtualized orchestra
US11557269B2 (en) Information processing method
CN102610222A (zh) 音乐转录的方法,系统和装置
US20150206521A1 (en) Device, method and system for making music
JP7432124B2 (ja) 情報処理方法、情報処理装置およびプログラム
CA2842520A1 (en) Device, method and system for making music
Holm Virtual violin in the digital domain: physical modeling and model-based sound synthesis of violin and its interactive application in virtual environment
Kapur Digitizing North Indian music: preservation and extension using multimodal sensor systems, machine learning and robotics
Chudy Discriminating music performers by timbre: On the relation between instrumental gesture, tone quality and perception in classical cello performance
WO2023181570A1 (ja) 情報処理方法、情報処理システムおよびプログラム
WO2022153875A1 (ja) 情報処理システム、電子楽器、情報処理方法およびプログラム
JP6733487B2 (ja) 音響解析方法および音響解析装置
US20210350783A1 (en) Sound signal synthesis method, neural network training method, and sound synthesizer
Nichols II The vbow: An expressive musical controller haptic human-computer interface
Freire et al. Real-Time Symbolic Transcription and Interactive Transformation Using a Hexaphonic Nylon-String Guitar
WO2022172732A1 (ja) 情報処理システム、電子楽器、情報処理方法および機械学習システム
Scherrer Physically-informed indirect acquisition of instrumental gestures on the classical guitar: Extracting the angle of release
WO2023182005A1 (ja) データ出力方法、プログラム、データ出力装置および電子楽器
US20210366453A1 (en) Sound signal synthesis method, generative model training method, sound signal synthesis system, and recording medium
Franjou Arty: Expressive timbre transfer using articulation detection for guitar
Gómez Modeling instrumental gestures: an analysis/synthesis framework for violin bowing

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22933697

Country of ref document: EP

Kind code of ref document: A1