WO2023105601A1 - 情報処理装置、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理方法、及びプログラム Download PDF

Info

Publication number
WO2023105601A1
WO2023105601A1 PCT/JP2021/044827 JP2021044827W WO2023105601A1 WO 2023105601 A1 WO2023105601 A1 WO 2023105601A1 JP 2021044827 W JP2021044827 W JP 2021044827W WO 2023105601 A1 WO2023105601 A1 WO 2023105601A1
Authority
WO
WIPO (PCT)
Prior art keywords
performance
information
information processing
drum
evaluation
Prior art date
Application number
PCT/JP2021/044827
Other languages
English (en)
French (fr)
Inventor
右士 三浦
Original Assignee
ヤマハ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤマハ株式会社 filed Critical ヤマハ株式会社
Priority to PCT/JP2021/044827 priority Critical patent/WO2023105601A1/ja
Priority to JP2023565708A priority patent/JPWO2023105601A1/ja
Publication of WO2023105601A1 publication Critical patent/WO2023105601A1/ja
Priority to US18/735,579 priority patent/US20240321012A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B15/00Teaching music
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/091Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for performance evaluation, i.e. judging, grading or scoring the musical qualities or faithfulness of a performance, e.g. with respect to pitch, tempo or other timings of a reference performance
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/155User input interfaces for electrophonic musical instruments
    • G10H2220/441Image sensing, i.e. capturing images or optical patterns for musical purposes or musical control purposes
    • G10H2220/455Camera input, e.g. analyzing pictures from a video camera and using the analysis results as control data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation

Definitions

  • the present invention relates to an information processing device, an information processing method, and a program that can be used to improve proficiency in playing a musical instrument.
  • Patent Literature 1 describes an information processing device that aims to efficiently support the learning of performances such as piano performances.
  • one of the objects of the present invention is to provide an information processing device, an information processing method, and a program capable of efficiently improving the proficiency level of drum playing.
  • an information processing apparatus includes a first acquisition unit and an evaluation unit.
  • the first acquisition unit acquires an image of a drum performance by a performer.
  • the evaluation unit evaluates the proficiency level of the drum performance based on the image acquired by the first acquisition unit.
  • An information processing method is an information processing method executed by a computer system and includes obtaining an image of a drum performance by a performer. Based on the acquired image, the proficiency level regarding the drum performance is evaluated.
  • a program causes a computer system to acquire an image of a drum performance by a performer and evaluate the proficiency level of the drum performance based on the acquired image.
  • FIG. 1 is a schematic diagram showing a basic configuration example of a drum practice support system according to an embodiment
  • FIG. 4 is a flowchart showing a basic operation example of the information processing device
  • FIG. 4 is a schematic diagram showing an example of score calculation using a learning model
  • FIG. 4 is a schematic diagram for explaining learning of a learning model using teacher data
  • FIG. 10 is a schematic diagram showing an example of score calculation using a learning model to which extracted information extracted from an image of a drum performance is input.
  • FIG. 4 is a schematic diagram for explaining learning of a learning model using teacher data
  • FIG. 4 is a schematic diagram showing an example of score calculation using a learning model in which both an image of a drum performance and extracted information are input.
  • FIG. 4 is a schematic diagram for explaining learning of a learning model using teacher data
  • FIG. 10 is a schematic diagram showing proficiency level evaluation by processing using a rule base
  • FIG. 10 is a schematic diagram showing proficiency level evaluation by processing using a rule base
  • FIG. 10 is a schematic diagram showing proficiency level evaluation by processing using a rule base
  • FIG. 5 is a block diagram showing another functional configuration example of the information processing apparatus
  • 2 is a table showing an example of one or more evaluation items regarding drum performance
  • 2 is a table showing an example of one or more evaluation items regarding drum performance
  • 2 is a table showing an example of one or more evaluation items regarding drum performance
  • It is a schematic diagram which shows an example of an evaluation result and an output of support information.
  • It is a schematic diagram which shows an example of an evaluation result and an output of support information.
  • It is a block diagram which shows the hardware structural example of the computer which can be used as an information processing apparatus.
  • FIG. 1 is a schematic diagram showing a basic configuration example of a drum practice support system according to one embodiment of the present invention.
  • the drum practice support system 1 supports the practice of a player (drummer) 2 who plays the drums, and can efficiently improve the proficiency level of the drum performance.
  • the degree of proficiency means the degree of proficiency (degree of proficiency).
  • the drum practice support system 1 can also be called a drum proficiency improvement system.
  • the player 2 can also be said to be a user who uses this drum practice support system.
  • drum performance includes any performance method performed on any form of drum (drum).
  • drum a form of playing a drum set 4 using sticks 3 is illustrated.
  • FIG. 1 shows a drum set 4 including a bass drum 5, a snare drum 6, a high tom 7, a low tom 8, a floor tom 9, a high hat cymbal 10, a crash cymbal 11, and a ride cymbal 12.
  • FIG. A drum set 4 having any configuration may be used without being limited to such a configuration.
  • the drum performance is not limited to the drum set 4, and includes performance of Japanese drums using drumsticks and various percussion performances using hands, and the present technology can be applied.
  • drum performances are also included in drum performances.
  • various cymbals included in the drum set 4 shown in FIG. 1, and other musical instruments that are not classified as drums when viewed alone are arranged and often played together with the drums. For example, when playing Japanese drums, gongs and the like may be played together. Also, when playing percussion, wind chimes, cowbells, shakers, etc. may be played together.
  • Electronic cymbals may also be arranged as an electronic drum set.
  • playing drums includes playing other types of musical instruments that are played with such drums. That is, the performance for various cymbals illustrated in FIG. 1 is also included in the drum performance, and the present technology can be applied.
  • drum performance practice is performed using objects such as dedicated practice tables (practice pads, etc.) and desks. In the present disclosure, such drum performance practice itself is also included in the drum performance.
  • the drum practice support system 1 has an imaging device (camera) 14 and an information processing device 15 .
  • the imaging device 14 and the information processing device 15 are communicably connected via a cable or wirelessly.
  • the form of connection between devices is not limited, and wireless LAN communication such as WiFi or short-range wireless communication such as Bluetooth (registered trademark), for example, can be used.
  • the imaging device 14 is arranged at a position where an image of the performance of the drums by the performer 2 can be captured.
  • a digital camera having an image sensor such as a CMOS (Complementary Metal-Oxide Semiconductor) sensor or a CCD (Charge Coupled Device) sensor is used.
  • CMOS Complementary Metal-Oxide Semiconductor
  • CCD Charge Coupled Device
  • any imaging device capable of capturing an image of a drum performance may be used.
  • images include both still images and moving images (video)
  • the information processing device 15 has hardware necessary for configuring a computer, such as processors such as CPU, GPU, and DSP, memories such as ROM and RAM, and storage devices such as HDD (see FIG. 18).
  • processors such as CPU, GPU, and DSP
  • memories such as ROM and RAM
  • storage devices such as HDD (see FIG. 18).
  • the information processing method according to the present technology is executed by the CPU loading a program according to the present technology pre-recorded in the ROM or the like into the RAM and executing the program.
  • the information processing device 15 can be realized by an arbitrary computer such as a PC (Personal Computer).
  • hardware such as FPGA and ASIC may be used.
  • the first acquisition unit 16 and the evaluation unit 17 as functional blocks are configured by the CPU or the like executing a predetermined program.
  • dedicated hardware such as an IC (integrated circuit) may be used to implement the functional blocks.
  • the program is installed in the information processing device 15 via various recording media, for example. Alternatively, program installation may be performed via the Internet or the like.
  • the type of recording medium on which the program is recorded is not limited, and any computer-readable recording medium may be used. For example, any computer-readable non-transitory storage medium may be used.
  • FIG. 2 is a flowchart showing a basic operation example of the information processing device 15.
  • the image of the drum performance by the performer 2 is acquired by the first acquisition unit 16 (step 101).
  • the evaluation unit 17 evaluates the proficiency level regarding the drum performance. For example, as schematically shown in FIG. 1, a comprehensive evaluation of the drum performance is performed, and a score (evaluation score) indicating proficiency is calculated as the evaluation result.
  • evaluation is performed on a five-level scale from A to E, and one of A to E is calculated as the score. Also, as a score, a score (point) is calculated in a range of 0 to 100 points.
  • the proficiency evaluation is not limited to the overall evaluation of the drum performance. It is possible to evaluate proficiency with respect to various evaluation items related to drum performance. That is, the evaluation unit 17 can evaluate one or more evaluation items regarding the drum performance. This makes it possible to evaluate the proficiency level of drum playing with high accuracy. Calculation of the score is not limited to graded evaluation or scoring as illustrated in FIG. 1, and any form of score calculation may be performed. In addition, evaluation methods other than score calculation may be adopted as proficiency evaluation.
  • any evaluation method such as displaying evaluation comments or outputting a specific sound, may be performed.
  • any evaluation method such as displaying evaluation comments or outputting a specific sound, may be performed.
  • the evaluation comments are included in the support information for improving proficiency.
  • the first acquisition unit 16 corresponds to one embodiment of the first acquisition unit according to the present technology.
  • the evaluation unit 17 corresponds to an embodiment of the evaluation unit according to the present technology.
  • an imaging device 14 and an information processing device 15 are separately prepared to construct the drum practice support system 1 .
  • Any computer having an imaging function may be used to construct the drum practice support system 1 without being limited to this. That is, a device in which the imaging device 14 and the information processing device 15 shown in FIG. 1 are integrally configured may be used as an embodiment of the information processing device according to the present technology.
  • a computer having an imaging function for example, a smartphone, a tablet terminal, an HMD (Head Mounted Display) such as an AR (Augmented Reality) glass or a VR (Virtual Reality) glass, a PC, or the like can be used. be.
  • HMD Head Mounted Display
  • AR Augmented Reality
  • VR Virtual Reality
  • the method of evaluating the proficiency level of drum playing by the evaluation unit 17 is not limited, and any technique (algorithm, etc.) may be used.
  • any machine learning algorithm using DNN (Deep Neural Network), RNN (Recurrent Neural Network), CNN (Convolutional Neural Network), etc. may be used.
  • AI artificial intelligence
  • FIG. 3 is a schematic diagram showing an example of score calculation using a learning model.
  • an image 19 of a drum performance is input, and machine learning is performed to estimate a score indicating the proficiency level of the drum performance. That is, by inputting an image 19 of a drum performance to the learning model 20 that has already performed machine learning for estimating the proficiency level, a process of obtaining a score indicating the proficiency level from the learning model 20 is executed. .
  • This processing makes it possible to evaluate the proficiency level with high accuracy.
  • it is not limited to score calculation, and processing using a learning model can be applied to any evaluation method. That is, any machine learning model trained to infer a rating can be used to perform an overall rating or rating for one or more items.
  • the learning model 20 can also be called the machine learning model 20 or the learned model 20 .
  • FIG. 4 is a schematic diagram for explaining learning of the learning model 20 using teacher data.
  • teacher data in which a teacher label is associated with learning data is input to the learning unit 21 for learning of the learning model 20 .
  • the teacher data is data for learning the learning model 20 that estimates the correct answer for the input.
  • an image 22 of a drum performance is input to the learning unit 21 as learning data.
  • a score indicating proficiency is input to the learning unit 21.
  • the teacher label 23 is a correct answer (correct answer data) corresponding to the learning drum performance image 22 .
  • the learning model 20 is a prediction model machine-learned using the image 22 of the drum performance and the score indicating the degree of proficiency as teacher data.
  • the method of creating teacher data is not limited.
  • teacher data may be created manually.
  • teacher data created in advance may be acquired and input to the learning unit 21 .
  • the learning model 20 is learned by associating scores related to various evaluation items related to drum performance. This makes it possible to evaluate each evaluation item by processing using machine learning. In other words, it becomes possible to acquire the score for each evaluation item from the learning model 20 .
  • the learning unit 21 uses teacher data and performs learning based on a machine learning algorithm. Through learning, parameters (coefficients) for calculating correct answers (teacher labels) are updated and generated as learned parameters. A program incorporating the generated learned parameters is generated as the learning model 20 .
  • the error backpropagation method is a learning method that is commonly used for learning neural networks.
  • a neural network is originally a model that imitates a human brain neural circuit, and has a layered structure consisting of three types of layers: an input layer, an intermediate layer (hidden layer), and an output layer.
  • a neural network with a large number of intermediate layers is called a deep neural network, and the deep learning technology used to train it is known as a model that can learn complex patterns hidden in large amounts of data.
  • the error backpropagation method is one of such learning methods, and is often used, for example, for learning CNNs used for recognizing images and moving images.
  • a neurochip/neuromorphic chip incorporating the concept of a neural network can be used as a hardware structure for realizing such machine learning.
  • An algorithm for learning the learning model 20 is not limited, and any machine learning algorithm may be used.
  • machine learning algorithms include supervised learning, unsupervised learning, semi-supervised learning, reinforcement learning, inverse reinforcement learning, active learning, and transfer learning.
  • supervised learning feature quantities are learned based on given labeled learning data (teacher data). This makes it possible to derive labels for unknown data.
  • Unsupervised learning analyzes a large amount of unlabeled learning data to extract feature quantities, and performs clustering based on the extracted feature quantities. This makes it possible to analyze trends and predict the future based on huge amounts of unknown data.
  • Semi-supervised learning is a mixture of supervised learning and unsupervised learning.
  • the learning model 20 generated by the learning unit 21 is incorporated into the evaluation unit 17 shown in FIG. Then, the evaluation unit 17 executes score estimation.
  • the learning unit 21 shown in FIG. 4 may be included in the information processing device 15 and the learning of the learning model 20 may be performed by the information processing device 15 .
  • the learning unit 21 may be configured outside the information processing device 15 . That is, learning by the learning unit 21 may be performed in advance outside the information processing device 15 , and only the learned learning model 20 may be incorporated into the evaluation unit 17 .
  • the specific configurations of the learning unit 21 and the learning unit 21 for learning the learning model 20 are not limited.
  • Machine learning algorithm may be performed for any processing within the present disclosure. That is, processing using machine learning may be performed for any processing described within the present disclosure.
  • Extracted information includes, for example, one or more characteristic points related to the drum performance, skeleton information of the player 2, center of gravity of the player 2, expression of the player, movement of the sticks 3 used in the drum performance, and the like.
  • the drum set 4, the sticks 3, etc. are taken as feature points, and the position, movement (momentum), velocity, acceleration, etc. of the feature points are extracted information. extracted.
  • a portion defined as a feature point may be set arbitrarily.
  • a predetermined coordinate system may be arbitrarily set to detect position information. Based on the skeletal information of the player 2, for example, the position, movement (momentum), velocity, acceleration, etc. of each part of the player 2 can be obtained. Based on the center of gravity of the player 2, it is also possible to acquire the position of the center of gravity, movement (momentum), movement, speed, acceleration, and the like.
  • Information about the center of gravity of player 2 can also be obtained from skeleton information. Based on the facial expression of the performer, it is possible to acquire information such as whether the performer is smiling, frowning, and relaxed. Based on the movement of the stick 3 used for drum performance, it is possible to acquire the position, movement (momentum), velocity, acceleration, etc. of each part of the stick 3 . It is also possible to acquire information such as the velocity of the stick 3 before attack, the velocity of the stick 3 after attack, and the difference in velocity before and after the attack. Note that the attack means the moment when the stick 3 collides with the drum and the sound is produced. In addition, any information that can be extracted from the drum performance image 19 may be used as extraction information.
  • the method of extracting the extraction information from the drum performance image 19 is not limited, and any technique (algorithm) may be used.
  • any image recognition technique such as matching processing using a model image of an object, edge detection, or projective transformation may be used. Skeletal estimation (bone estimation) or the like may also be used.
  • an externally constructed library having functions such as image processing and machine learning may be used. Any machine learning algorithm may be used to extract the extracted information. For example, by performing semantic segmentation on the image information, it is also possible to determine the type of object for each pixel in the image. By using the extracted information, it is possible to evaluate the proficiency level of drum playing with high accuracy.
  • FIG. 5 is a schematic diagram showing an example of score calculation using a learning model that receives extracted information extracted from an image 19 of a drum performance.
  • a score indicating the proficiency level of the drum performance it is possible to estimate a score indicating the proficiency level of the drum performance by executing machine learning with the extraction information extracted from the image 19 of the drum performance as input.
  • the learning model 24 by inputting the extracted information extracted from the image 19 of the drum performance to the learning model 24 that has already performed machine learning for estimating the proficiency level, a score indicating the proficiency level is obtained from the learning model 28. Acquisition processing is executed. This makes it possible to evaluate the proficiency level with high accuracy.
  • FIG. 6 is a schematic diagram for explaining learning of the learning model 24 using teacher data.
  • the extracted information 25 extracted from the learning drum performance image 19 is used as learning data.
  • Data in which a score (teacher label 26) is associated with this learning data is used as teacher data. Therefore, the learning model 24 is a prediction model machine-learned using the extracted information 25 extracted from the image of the drum performance and the score indicating the proficiency level as teacher data.
  • the learning unit 27 uses teacher data and performs learning based on a machine learning algorithm. Thereby, the learning model 24 is generated.
  • the algorithm for training the learning model 24 is not limited, and any machine learning algorithm may be used.
  • the scores (label 26) used as teacher data the scores regarding various evaluation items related to drum performance are associated, and the learning model 24 is learned. This makes it possible to evaluate each evaluation item by processing using machine learning. In other words, it becomes possible to acquire the score for each evaluation item from the learning model 24 . In this case, it is possible to improve the accuracy of score estimation by using the extracted information related to the evaluation item.
  • FIG. 7 is a schematic diagram showing an example of score calculation using a learning model in which both an image 19 of a drum performance and extracted information are input.
  • a score indicating proficiency in drum performance is.
  • the learning model 28 that has undergone machine learning for estimating the proficiency level.
  • a score indicating the proficiency level is obtained. from the learning model 28 is executed. This makes it possible to evaluate the proficiency level with high accuracy.
  • FIG. 8 is a schematic diagram for explaining learning of the learning model 28 using teacher data.
  • a set of the learning drum performance image 29 and the extracted information 30 extracted from the learning drum performance image 29 is used as the learning data.
  • Data in which a score (teacher label 31) is associated with this learning data is used as teacher data. Therefore, the learning model 28 is a prediction model machine-learned using a combination of the image 29 of the drum performance, the extracted information 30 extracted from the image 29 of the drum performance, and the score indicating the degree of proficiency as teacher data.
  • the learning unit 32 uses teacher data and performs learning based on a machine learning algorithm. A learning model 28 is thereby generated.
  • the algorithm for training the learning model 28 is not limited, and any machine learning algorithm may be used.
  • the learning model 28 is trained by associating scores related to various evaluation items related to drum performance. This makes it possible to evaluate each evaluation item by processing using machine learning. In other words, it becomes possible to acquire the score for each evaluation item from the learning model 28 . In this case, it is possible to improve the accuracy of score estimation by using the extracted information related to the evaluation item.
  • [Proficiency evaluation (rule-based processing)] 9 to 11 are schematic diagrams showing proficiency evaluation by processing using a rule base. As shown in FIGS. 9 to 11, the evaluation unit 17 can also evaluate the proficiency level of drum playing by processing using a rule base.
  • an image 19 of a drum performance is input, and processing using a rule-based algorithm is executed to calculate a score indicating proficiency in drum performance.
  • extracted information extracted from an image 19 of a drum performance is input, and processing using a rule-based algorithm is executed to calculate a score indicating proficiency in drum performance.
  • both an image 19 of a drum performance and extraction information extracted from the image 19 are input, and a process using a rule-based algorithm is executed to obtain a score indicating proficiency in drum performance. is calculated.
  • rule-based processing it is possible to evaluate the proficiency level of the drum performance by rule-based processing.
  • a specific algorithm or the like executed as rule-based processing is not limited. Any rule-based algorithm such as matching technology, image recognition technology, analysis technology, etc. may be used.
  • the detection information includes arbitrary information detected in accordance with the drum performance when the performer 2 is performing the drum performance.
  • the detected information is typically information detected by a detection device different from the imaging device 14 .
  • the detection device includes, for example, a microphone, a computer capable of capturing and processing performance data such as MIDI (registered trademark) (Musical Instrument Digital Interface) data, a centroid meter, a distance measuring sensor, and the like.
  • MIDI registered trademark
  • Various wearable devices that can be worn by the player 2 and various sensors that can be mounted on wearable devices may be used as the detection device.
  • an IMU Inertial Measurement Unit
  • GPS sensor GPS sensor
  • a biological sensor such as a temperature sensor, or the like
  • an IMU sensor or the like may be attached to the stick 3 as a detection device.
  • Various detection information detected by these various detection devices, sensors, etc. may be used for evaluation of proficiency in drum playing.
  • detection information for example, sound information, performance time, performance tempo, sounding interval, player's movement, player's center of gravity, or player's body condition can be detected.
  • Sound information is detected as audio data by, for example, a microphone. Alternatively, it is detected as MIDI (registered trademark) data. Note that sound information of other musical instruments played together can also be detected as detection information.
  • the performance time is detected, for example, as the time from the start to the end of the performance.
  • the performance tempo for example, BPM (Beats Per Minute) is detected.
  • the sounding interval the interval between sounds generated according to the performance is detected. For example, the sounding interval is detected for each part of the player 2 .
  • the drum set 4 may be played by finely chopping the hi-hat cymbal 10 in 16th notes with the right hand and hitting the snare drum 6 in quarter notes with the left hand.
  • the pronunciation interval of the right hand and the pronunciation interval of the left hand may be detected separately. That is, information is detected that the interval between pronunciations of the right hand is relatively short and the interval of pronunciation of the left hand is relatively long.
  • An average value within a predetermined playing time may be used as the sounding interval of each part.
  • the pronunciation interval that statistically appears the most may be adopted.
  • the pronunciation interval of each part can also be said to be the interval between sounds generated by each part.
  • the sounding interval of each part can be said to be information indicating the speed of performance operation of each part.
  • the movement of the performer is detected, for example, from the positional information of each part and its displacement based on a predetermined coordinate system. For example, it is possible to detect the acceleration, velocity, and momentum of each part.
  • the player's center of gravity is detected, for example, from position information based on a predetermined coordinate system.
  • the player's body condition is detected by, for example, a biosensor. For example, it is also possible to detect states such as relaxation/tension of muscles as detection information.
  • the same type of information as the extracted information extracted from the image 19 of the drum performance may be acquired as the detected information.
  • extracted information movements of the performer based on the skeleton information of the performer are acquired.
  • the movement of the player is acquired as detection information detected by the wearable device attached to the player 2 .
  • detection information it is possible to calculate scores with high accuracy for various evaluation items.
  • the auxiliary information includes various information that assists the performer 2 in playing the drums.
  • the auxiliary information includes information on correct answers to performances, information on past performances, information on other performance sounds, and the like.
  • the correct performance information includes information that can instruct how to perform. For example, it includes musical score information of a song to be played, and information of a song played at the correct timing for each drum, cymbal, etc. included in the drum set 4 . It also includes the numerical value of the correct performance tempo (BPM) and the click (metronome) information indicating the correct performance tempo. Furthermore, an image or the like of a drum performance by a player who is playing correctly and has a very high level of proficiency as a model may be used as the correct answer information.
  • the past performance information includes performance information of the same piece of music played in the past by performer 2 or another performer.
  • the information on other performance sounds includes performance sounds of other musical instruments (parts) played together. It includes correct information about performances of other musical instruments, real-time performance information of other musical instruments played together, past performance information of other musical instruments, and the like.
  • auxiliary information By using the auxiliary information, it is possible to calculate scores for various evaluation items with high accuracy. For example, by comparing the performance of the drums by the player 2 with the correct answer information of the performance, it is possible to evaluate the proficiency of the performance of the drums. It is also possible to evaluate the degree of proficiency in a drum performance by comparing it with past performance information. Information of the same type as the extracted information and the detected information may be used as auxiliary information.
  • FIG. 12 is a block diagram showing another functional configuration example of the information processing device 15. As shown in FIG. As shown in FIG. 12, when the detection information and the auxiliary information are used to evaluate the proficiency level of the drum performance, the information processing device 15 receives at least one of the detection information and the auxiliary information.
  • a unit 40 is configured as a functional block.
  • the second acquisition unit 40 is configured, for example, by executing a predetermined program by a CPU or the like, like the first acquisition unit 16 and the evaluation unit 17 .
  • dedicated hardware such as an IC (integrated circuit) may be used.
  • [Evaluation items related to drum performance] 13 to 15 are tables showing examples of one or more evaluation items regarding drum performance.
  • the evaluation items include performance sound evaluation items, evaluation items regarding the movement of the sticks 3 used in the drum performance, evaluation items regarding the movement of the performer 2, and the like.
  • the evaluation unit 17 can calculate a score indicating the degree of proficiency by executing processing using machine learning or processing using a rule base for each of these evaluation items. This makes it possible to evaluate the proficiency level of drum playing with high accuracy.
  • each evaluation item is graded in five grades A to E and scores (points) from 0 to 100 are calculated.
  • the score calculation method and the evaluation method are not limited.
  • FIG. 13 shows an example of evaluation items related to performance sounds.
  • Evaluation items related to performance sounds include, for example, sounding timing control, sound dynamics control, timbre control, stability of repeated performance, and presence/absence of communication with other performance sounds. Scores can be calculated for these evaluation items.
  • Control of pronunciation timing It is possible to evaluate how well the performer 2 can control the timing of pronunciation.
  • whether or not pronunciation can be performed at the intended timing is given as an evaluation item.
  • the evaluation for this evaluation item is performed in the part where the A melody transitions to the B melody, the part in the chorus, etc., where the rhythm changes due to the composition of the song.
  • the evaluation is not limited to the part where the rhythm changes.
  • skeleton information of the player 2 information such as the movement of the stick 3, and the like can be used for evaluation regarding this evaluation item.
  • Pronunciation information sound information
  • MIDI registered trademark
  • auxiliary information it is possible to use the correct answer information of the performance.
  • information such as MIDI (registered trademark) data, musical scores, performance tempos, and images of drum performances that serve as models can be used as correct information for performances to evaluate this evaluation item.
  • the information, parameters, and the like used for evaluating control of pronunciation timing are not limited and may be set arbitrarily.
  • auxiliary information is only examples, and other types of extracted information, detected information, and auxiliary information may be used. This also applies to other evaluation items described below.
  • the evaluation of this evaluation item is performed based on information such as whether the movement of the player 2 and the movement of the stick 3 are close to a predetermined optimal pattern.
  • the extracted information for example, skeleton information of the player 2, movement of the stick 3, and the like can be used.
  • detection information for example, pronunciation information, performer's movement, etc. can be used.
  • auxiliary information it is possible to use, for example, correct answer information of the performance.
  • information, parameters, and the like used for evaluating sound dynamics control are not limited and may be set arbitrarily.
  • the control of the timbre from information such as the pattern of the stick 3 (swing width of the stick 3, etc.).
  • this evaluation item based on the movement of the player 2, the movement of the stick 3, etc. for a specific performance pattern (specific phrase).
  • the extracted information for example, skeleton information of the player 2, movement of the stick 3, and the like can be used.
  • the detection information for example, pronunciation information, performer's movement, etc. can be used.
  • the auxiliary information it is possible to use, for example, correct answer information of the performance.
  • the information, parameters, and the like used for evaluating tone control are not limited and may be set arbitrarily.
  • Repetitive performance means performing the same performance repeatedly, and includes, for example, a repeat part in the same piece of music, or a case where the same piece of music is played a plurality of times.
  • FIG. 13 whether or not there is little variation in repeated performances is listed as an evaluation item. For example, based on the drum performance image 19, whether or not the movement pattern of the player 2 (arm swing width, etc.) is stable for repeated performances; It is possible to evaluate the stability of repetitive performances from the information as to whether or not the width, etc.) is stable.
  • the extracted information for example, skeleton information of the player 2, movement of the stick 3, and the like can be used.
  • the detection information for example, pronunciation information, performer's movement, etc. can be used.
  • the auxiliary information it is possible to use, for example, information on correct answers to performances and information on past performances.
  • the information, parameters, and the like used for evaluating the stability of repeated performance are not limited and may be set arbitrarily.
  • the image 19 includes other performers or other musical instruments, it is possible to extract the expression of the other performers, the state of performance with respect to the other musical instruments, etc. as extraction information and use them for evaluation. be.
  • the detection information it is possible to use, for example, information on pronunciation, information on other performance sounds, movements of the performer, movements of other performers, and the like.
  • the auxiliary information it is possible to use, for example, information on the correct answer to the performance or information on other performance sounds.
  • the information, parameters, etc. used for evaluating the presence or absence of communication with other performance sounds are not limited and may be set arbitrarily.
  • FIG. 14 shows an example of evaluation items related to the movement of sticks 3 used in drum performance.
  • Evaluation items relating to the movement of the stick 3 include, for example, rebound control, accuracy of stick rendition, types of sticks that can be used for performance, accuracy of performance, and the like.
  • a score can be calculated for these evaluation items, and it is possible to evaluate the proficiency level of drum playing with high accuracy.
  • rebound control After the attack, it is possible to evaluate how well the rebound of the stick 3 is controlled. In FIG. 14, how many rebounds can be picked up is listed as an evaluation item. For example, it is possible to evaluate the rebound control by obtaining the ratio of the speed of the stick 3 after attack to the speed of the stick 3 before attack based on the drum performance image 19 . For example, when evaluating rebound control against full strokes and upstrokes, it is possible to give a higher score as the ratio of "stick 3 speed after attack divided by stick 3 speed before attack" is higher. be. It is also possible to evaluate rebound control for down strokes and tap strokes based on the ratio of the velocity of the stick 3 after the attack to the velocity of the stick 3 before the attack.
  • the extraction information for example, the movement of the stick 3, skeleton information of the player 2, and the like can be used.
  • pronunciation information can be used as the detection information.
  • the movement of the performer 2 and the state of the performer's 2 body (relaxation/tension of muscles, etc.) as detection information.
  • the auxiliary information it is possible to use, for example, correct answer information of the performance.
  • the information, parameters, and the like used for evaluating rebound control are not limited and may be set arbitrarily.
  • Types of sticks that can be used for playing It is possible to evaluate whether or not it is possible to perform using not only normal sticks but also special sticks 3 such as brushes and bloom sticks.
  • FIG. 14 whether or not each player can play with the special stick 3 is listed as an evaluation item. For example, based on the image 19 of a drum performance, it is possible to evaluate the types of sticks that can be used for performance from the types of sticks 3 used for performance and various movements of the sticks 3 .
  • extraction information for example, movements of various sticks 3, skeleton information of the player 2, and the like can be used.
  • the detection information it is possible to use, for example, pronunciation information, the movement of the player 2, and the state of the body of the player 2 (relaxation/tension of muscles, etc.).
  • the auxiliary information it is possible to use, for example, correct answer information of the performance.
  • the information, parameters, and the like used for evaluating the accuracy of the stick rendition style are not limited and may be set arbitrarily.
  • performance correctness It is possible to assess the correctness of the performance with Stick 3. For example, stick spinning and the like can be mentioned. In FIG. 14, whether or not the performance is sophisticated is listed as an evaluation item. A performance using the stick 3 can be said to be a useless movement in terms of performance, but it is possible to evaluate whether there is room for the useless movement and whether the player can return to the performance without any problems afterward. . For example, it is possible to evaluate the correctness of the performance from the movement pattern of the player 2 and the movement pattern of the sticks 3 based on the drum performance image 19 . As the extraction information, for example, the movement of the stick 3, skeleton information of the player 2, and the like can be used.
  • the detection information it is possible to use, for example, pronunciation information, the movement of the player 2, and the state of the body of the player 2 (relaxation/tension of muscles, etc.).
  • the auxiliary information it is possible to use, for example, correct answer information of the performance.
  • the information, parameters, and the like used to evaluate the accuracy of performance are not limited and may be set arbitrarily.
  • FIG. 15 shows an example of evaluation items regarding the movement of player 2 .
  • Evaluation items regarding the movement of the performer 2 include, for example, evaluation items regarding the center of gravity, evaluation items regarding the use of the body, evaluation items regarding the stability of the performance, evaluation items regarding the state of the body during the performance, evaluation items regarding the pronunciation efficiency, or other evaluation items. Includes evaluation items related to communication with performers.
  • Evaluation items related to the center of gravity include, for example, stability of the center of gravity.
  • Examples of evaluation items related to how to use the body include how to use the body according to the pronunciation interval, how to use the body efficiently, and the like.
  • As an evaluation item related to performance stability for example, it is possible to list stability for long-time performance.
  • Examples of evaluation items relating to the state of the body during the performance include presence or absence of weakness during the performance, the range of motion of each part during the performance, and whether or not the facial expression is relaxed.
  • pronunciation efficiency for example, pronunciation efficiency can be cited as it is.
  • Evaluation items relating to communication with other performers may include, for example, presence or absence of eye contact with other performers. A score can be calculated for these evaluation items, and it is possible to evaluate the proficiency level of drum playing with high accuracy.
  • the center of gravity of the performer 2 can be used.
  • the detection information it is possible to use, for example, pronunciation information, the center of gravity of the performer 2 (obtained from a center of gravity meter, for example), and the like.
  • the auxiliary information it is possible to use, for example, correct answer information of the performance.
  • the information, parameters, and the like used for evaluating the stability of the center of gravity are not limited and may be set arbitrarily.
  • the hi-hat cymbal 10 when the hi-hat cymbal 10 is finely chopped into 16th notes, the shorter the sounding interval is, the more preferable the performance is by mainly using the finger side.
  • the snare drum 6 when the snare drum 6 is hit with quarter notes, the longer the sounding interval is, the more preferable the performance is to use the shoulder side.
  • a high evaluation score regarding how to use the body.
  • the groin, thighs, knees, calves, ankles, and toes are affected when playing at high speed (short sounding intervals) and when playing slowly (long sounding intervals). It is possible to evaluate whether , etc. are properly used properly.
  • the extracted information for example, skeleton information of the player 2 (position, movement (momentum), speed, acceleration, etc. of each part), movement of the stick 3, and the like can be used.
  • detection information it is possible to use, for example, pronunciation information, performance tempo, movement of the player (position, movement (momentum), speed, acceleration, etc. of each part), body condition of the player, and the like.
  • auxiliary information it is possible to use, for example, information on the correct answer to the performance (performance tempo, etc.).
  • the information, parameters, etc. used for evaluating how to use the body according to the pronunciation interval are not limited, and may be set arbitrarily.
  • Efficient use of the body Efficient body use can be assessed.
  • whether or not the player can move between musical instruments with the minimum movement of the source is listed as an evaluation item. That is, it is evaluated whether or not the movement efficiency during performance is good. For example, based on the image 19 of the drum performance, it is possible to evaluate the efficient use of the body from the information on the use of the body for a specific performance pattern such as tom twirling. It does not necessarily mean that the shortest distance is enough to move, and a high evaluation is given if the person can move with the minimum amount of effort based on the mechanism of the body. It is also well known that drumming requires efficient use of the body in the same way as keyboard fingering.
  • an orthodox procedure such as using the right hand and left hand alternately to spin the tom.
  • the extracted information for example, skeleton information of the player 2, movement of the stick 3, and the like can be used.
  • the detection information it is possible to use, for example, pronunciation information, the movement of the performer, the state of the performer's body, and the like.
  • the auxiliary information it is possible to use, for example, correct answer information of the performance.
  • the information, parameters, and the like used to evaluate how to use the body efficiently are not limited and may be arbitrarily set.
  • Stability for long-term performance It is possible to evaluate the stability of the drum performance when playing for a long time.
  • whether the performance is stable for a long period of time is listed as an evaluation item. For example, based on the image 19 of the drum performance, the stability of the performance over a long period of time can be evaluated based on the movement of the player 2 over time, the state of the body of the player 2, the movement of the sticks 3, and the like. It is possible. In addition, by comparing the movements of the player 2 and the sticks 3 at a certain time with the movements of the player 2 and the sticks 3 after a predetermined period of time has elapsed, the stability of the performance over a long period of time is evaluated. is also possible.
  • the extracted information for example, skeleton information of the player 2, movement of the stick 3, and the like can be used.
  • detection information it is possible to use, for example, pronunciation information, performance tempo, performer's movement, performer's body condition, and the like.
  • auxiliary information it is possible to use, for example, correct answer information of the performance.
  • the information, parameters, and the like used for evaluating the stability of performance over a long period of time are not limited and may be set arbitrarily.
  • the presence or absence of weakness during the performance from the movement of the player 2, the state of the body of the player 2, the movement of the stick 3, and the like. For example, it is possible to evaluate the presence or absence of weakness and the degree of weakness by determining whether or not the muscles are tense.
  • the extracted information for example, skeleton information of the player 2, movement of the stick 3, and the like can be used.
  • the detection information it is also possible to use, for example, pronunciation information, the movement of the player 2, and the condition of the player 2's body (relaxation/tension of muscles, etc.).
  • the auxiliary information it is possible to use, for example, correct answer information of the performance.
  • information, parameters, and the like used for evaluating the presence or absence of weakness during a performance are not limited, and may be set arbitrarily.
  • the evaluation criteria for example, by appropriately controlling the setting of the score included in the training data
  • the extracted information for example, skeleton information of the performer 2 can be used.
  • the detection information it is also possible to use, for example, pronunciation information, the movement of the performer 2, and the state of the performer's 2 body.
  • the auxiliary information it is possible to use, for example, correct answer information of the performance.
  • information, parameters, and the like used for evaluating the range of motion of each part during a performance are not limited, and may be set arbitrarily.
  • the image 19 When other performers are included in the image 19, it is possible to evaluate the presence or absence of eye contact by also using the facial movements and orientations of the other performers.
  • extracted information it is possible to use, for example, the skeleton information of the performer 2, the facial expression of the performer, and the like.
  • facial expressions of the other performers can be extracted as extraction information and used for evaluation.
  • the movement of the performer, the movement of other performers, and the like can be used as the detection information.
  • the auxiliary information it is possible to use, for example, information on the correct answer to the performance or information on other performance sounds.
  • the information, parameters, and the like used for evaluating the presence or absence of eye contact with other performers are not limited and may be set arbitrarily.
  • scores can be given to various evaluation items other than the evaluation items shown in the tables of FIGS. 13 to 15.
  • FIG. For example, based on the movement of the foot stepping on the hi-hat cymbal 10, it is possible to evaluate the proficiency level of drum playing. When moving the foot stepping on the hi-hat cymbal 10 (without opening and closing the hi-hat cymbal 10) to take the rhythm, if the movement of taking the rhythm is accurate, a high evaluation can be given. Conversely, if the foot stepping on the hi-hat cymbal 10 is coasting and irregular, a low rating can be given.
  • the player is able to play the drums while the foot on the hi-hat cymbal 10 is still, a high evaluation is given. Such evaluation is also possible. Also, when counting using the stick 3 at the beginning of a song or the like, the accuracy of the counting may be an evaluation item. A higher score is given if an accurate count is given.
  • the information processing device 15 can output a score calculated as an evaluation result for each evaluation item.
  • the information processing device 15 can also output support information for improving proficiency.
  • the performer 2 can use the support information to efficiently improve the proficiency level of the drum performance.
  • the output unit 41 is configured as a functional block as illustrated in FIG. 12 .
  • the output unit 41 is configured by executing a predetermined program by a CPU or the like, for example, like the first acquisition unit 16, the evaluation unit 17, and the second acquisition unit 40.
  • FIG. Of course, dedicated hardware such as an IC (integrated circuit) may be used to realize the output unit 41 .
  • 16 and 17 are schematic diagrams showing examples of outputs of evaluation results and support information. 16 and 17 illustrate a case where a smart phone 34 is used as an embodiment of the information processing device according to the present invention.
  • the smartphone 34 functions as a device in which the imaging device 14 and the information processing device 15 shown in FIG. 1 are integrally configured. That is, it functions as a computer having an imaging function.
  • the performer 2 downloads an application (application program) for using the drum practice support system 1 to the smartphone 34 .
  • the performer 2 creates an account for using the drum practice support system 1 by entering information such as an ID and password.
  • creating an account or the like may be unnecessary.
  • the player 2 captures an image of the drum performance using a camera mounted on the smartphone 34 .
  • a smartphone is installed in front of the drum set 4 and a moving image shooting mode is started. By playing the drum set 4, an image of the drum performance is captured.
  • the smartphone 34 shoots a drum performance practice using a practice pad or the like. As a result, it is possible to shoot an image of a drum performance practice as an image of the drum performance. Of course, it is also possible to have another person photograph the performer 2 playing the drums.
  • the player 2 activates an application for using the drum practice support system 1, and inputs a photographed image of the drum performance.
  • a GUI Graphic User Interface
  • method, or the like for inputting an image of a drum performance in the application is not limited, and any GUI or method may be adopted.
  • the drum image input by the performer 2 is input by the first acquisition unit 16 shown in FIG. 12 and the like.
  • the evaluation unit 17 executes processing using machine learning as exemplified in FIGS. 3 to 8 and processing using rule bases as exemplified in FIGS. evaluated. For example, a score is calculated for each evaluation item illustrated in FIGS. 13 to 15.
  • detection information and auxiliary information may be acquired by the second acquisition unit 40 and used for evaluation of each evaluation item.
  • the output unit 41 outputs the evaluation result and the support information. For example, evaluation results and support information are output as images and sounds.
  • the score related to the overall evaluation is displayed on the touch panel 35 of the smartphone 34 as the evaluation result to the right of the text of "overall evaluation"("B",”85points” in FIG. 16).
  • the comprehensive evaluation of the evaluation items regarding the performance sound is displayed to the right of the text of "performance sound"("B",”84points” in FIG. 16). If you want to see the detailed score of each evaluation item regarding the performance sound, you can switch to a screen that displays the detailed score of each evaluation item by selecting each item button 36a.
  • the comprehensive evaluation of the evaluation items related to the movement of the sticks 3 used in the drum performance is displayed to the right of the "stick” text ("A", "94 points” in FIG. 16).
  • an evaluation comment regarding the comprehensive evaluation is displayed below the "Comprehensive evaluation” text as support information.
  • evaluation comments such as "It's not good at all. Practice.”
  • the content of the evaluation comment is not limited, and any comment can be displayed.
  • the evaluation comment may be read out by voice.
  • a virtual image 37 is displayed as support information.
  • the virtual image 37 is also called an AR image and superimposed on the real object.
  • a virtual image 37 of the stick is superimposed on the drum performance image 19 in which the left hand of the player 2 and the stick 3 held by the left hand are photographed as real objects.
  • a virtual image 37 of the stick is displayed to reproduce the correct upstroke movement.
  • the correct movement of the stick 3 and the body may be displayed as the virtual image 37 in order to teach the player 2 the correct movement of the stick 3 (the movement that increases the score) and the correct movement of the body.
  • a virtual image 37 relating to the movement of the sticks 3 used for drum performance or a virtual image 37 relating to the movement of the performer 2 may be displayed.
  • the player 2 can intuitively understand the correct movements to aim for, and can efficiently improve his or her proficiency.
  • FIG. 17 can also be regarded as an AR expression in which a virtual image 37 of the stick is superimposed on the left hand of the player 2 and the stick 3, which are real objects.
  • a virtual image may be displayed in a manner that is not superimposed on the real object.
  • a stick 3 that moves correctly or a virtual image of the body may be displayed without being superimposed on the real object. Even in this case, the player 2 can understand the correct movement of the stick 3 and body by visually recognizing the virtual image.
  • an AR glass that can be worn on the head of the performer 2 is used as an embodiment of the information processing apparatus according to the present invention.
  • the evaluation result and the support information are displayed on the display section of the AR glasses.
  • the body and the sticks 3 of the player 2 are assumed to be real objects. can be superimposed as support information.
  • the drum performance it is possible to shoot the image 19 of the drum performance, evaluate each evaluation item, output the evaluation result and support information (evaluation comments and virtual image 37) in real time.
  • VR glasses that can be worn on the head of the performer 2 are used as an embodiment of the information processing apparatus according to the present invention.
  • a 3D model image of the body of the player 2 playing the drums, the stick 3, the drum set 4, etc. is displayed as a virtual image (VR image).
  • VR image virtual image
  • a model image of the performer 2 wearing the same clothes as the favorite musician or a model image of the favorite musician himself may be displayed.
  • a situation where a performer is performing in front of a full audience at a famous concert venue, hall, etc. may be realized by VR representation.
  • a virtual image that serves as a model for teaching correct movement may be displayed in a predetermined VR space.
  • a model stick 3 or a 3D model image of the body may be output as support information.
  • these virtual images serving as support information may be superimposed on the virtual images of the player 2 and the sticks 3 .
  • VR glasses Even when VR glasses are used, it is possible to capture the image 19 of the drum performance, evaluate each evaluation item, output evaluation results and support information (evaluation comments and virtual images) in real time according to the drum performance. It is possible.
  • the support information is not limited to the comment regarding the proficiency level as shown in FIG. 16 and the virtual image 37 superimposed on the real object as shown in FIG. 17, and various other types of support information may be output.
  • a history of proficiency levels evaluated in the past may be displayed.
  • the performer 2 can check his/her own growth. That is, since the growth is visualized, it is possible to improve the willingness to practice. In addition, it is possible to check the parts that have become poor and weak points. This also makes it possible to make an efficient practice plan.
  • the proficiency level of the drum performance is evaluated based on the image 19 of the drum performance.
  • a high-performance imaging device 14 or other detection device it is possible to evaluate proficiency levels with very high accuracy for various evaluation items.
  • FIGS. 16 and 17 it is also possible to use the present drum practice support system 1 casually with one smartphone 34 . This makes it possible to efficiently improve proficiency in accordance with the level of a wide range of players 2, from professional drummers to amateur drummers (including beginners). As a result, the number of people who want to play the drums will increase, leading to the spread of drum playing, and it will be possible to raise the level of playing.
  • the body in accordance with the performance tempo. For example, whether or not the shoulder, upper arm, elbow, forearm, wrist, and fingers can be properly used according to the BPM can be included as an evaluation item. For example, based on the image 19 of the drum performance, it is possible to evaluate how to use the body according to the performance tempo based on the information of the body part that the player 2 mainly uses for the performance. It is also possible to acquire the BPM itself from the movements of the player 2 and the movements of the sticks 3 extracted from the drum performance image 19 .
  • the movement of each part of the player 2 with respect to the performance tempo may be evaluated. That is, the evaluation may be performed for each part of the player 2 .
  • the relationship between shoulder movement and performance tempo, the relationship between upper arm movement and performance tempo, the relationship between elbow movement and performance tempo, the relationship between forearm movement and performance tempo, the relationship between wrist movement and performance tempo, and finger movements. and the performance tempo may be evaluated individually. This makes it possible to evaluate in detail how to use the body according to the performance tempo for each part. As a result, it is possible to evaluate the proficiency level of drum playing with high accuracy.
  • a learning model may be generated for each part in order to evaluate the relationship between the performance tempo and the part. For example, a first learning model for evaluating the relationship between body part 1 (shoulder information) and performance tempo, and a second learning model for evaluating the relationship between body part 2 (upper arm information) and performance tempo. and a third learning model for evaluating the relationship between body part 3 (elbow information) and performance tempo. That is, it is assumed that the part of the body is divided into n parts. In order to evaluate the relationship between the performance tempo and each part, n learning models may be constructed respectively. Of course, it is also possible to evaluate the relationship between the performance tempo and the upper body and the relationship between the performance tempo and the lower body by learning models.
  • support information regarding the movement of each part of the player 2 with respect to the performance tempo may be output. For example, information to move the body part in this manner for a given performance tempo may be output for each body part. In other words, correct movements (movements that increase the score) with respect to the performance tempo may be output for each part.
  • the virtual image 37 may be displayed so as to be superimposed on the real object for each part. For example, a virtual image 37 of the correct moving shoulder is superimposed on the real shoulder of the performer 2 . Such display of the virtual image 37 may be executed for each part.
  • a detailed evaluation for each part may be performed as an evaluation of how to use the body according to the pronunciation interval. For example, evaluation may be performed for each part of the shoulder, upper arm, elbow, forearm, wrist, and fingers of the right hand that finely chops the hi-hat cymbal 10 . Similarly, evaluation may be performed for each of the shoulder, upper arm, elbow, forearm, wrist, and fingers for the left hand that hits the snare drum 6 strongly.
  • a learning model may be constructed for each part to evaluate the relationship between each part and pronunciation intervals. Also, support information regarding the movement of each part with respect to the pronunciation interval may be output.
  • Reliability information may be added to the evaluation result (score) for each evaluation item.
  • evaluation result For example, depending on the content included in the image 19 of the drum performance, there may be evaluation items that can be evaluated with very high accuracy, and evaluation items that can only be evaluated with low accuracy.
  • evaluation items For example, assume that an image 19 of a drum performance is used, in which only the entire stick 3 from the shoulder to the tip of the hand is shown with high accuracy, and the state of the attack is very easy to understand. It is assumed that the face of performer 2 is hardly shown. In this case, it is possible to calculate scores with high accuracy for evaluation items related to the movement of sticks 3 used in drum performance, as illustrated in FIG. 14, for example. Therefore, high reliability is given to these evaluation results.
  • the score calculation accuracy is low for the evaluation items such as presence/absence of eye contact with other performers and whether or not the expression is relaxed, as illustrated in FIG. 15 . Therefore, low reliability is given to these evaluation items. In this way, reliability may be given to the evaluation result. As a result, the performer 2 can grasp the useful evaluation result, and can efficiently improve the proficiency level.
  • FIG. 18 is a block diagram showing a hardware configuration example of a computer 60 that can be used as the information processing device 15.
  • the computer 60 includes a CPU 61, a ROM (Read Only Memory) 62, a RAM 63, an input/output interface 65, and a bus 64 connecting them together.
  • a display unit 66, an input unit 67, a storage unit 68, a communication unit 69, a drive unit 70, and the like are connected to the input/output interface 65.
  • the display unit 66 is a display device using liquid crystal, EL, or the like, for example.
  • the input unit 67 is, for example, a keyboard, pointing device, touch panel, or other operating device.
  • the input portion 67 includes a touch panel
  • the touch panel can be integrated with the display portion 66 .
  • the storage unit 68 is a non-volatile storage device such as an HDD, flash memory, or other solid-state memory.
  • the drive unit 70 is a device capable of driving a removable recording medium 71 such as an optical recording medium or a magnetic recording tape.
  • the communication unit 69 is a modem, router, or other communication equipment for communicating with other devices that can be connected to a LAN, WAN, or the like.
  • the communication unit 69 may use either wired or wireless communication.
  • the communication unit 69 is often used separately from the computer 60 .
  • Information processing by the computer 60 having the hardware configuration as described above is realized by cooperation of software stored in the storage unit 68 or the ROM 62 or the like and the hardware resources of the computer 60 .
  • the information processing method according to the present invention is realized by loading a program constituting software stored in the ROM 62 or the like into the RAM 63 and executing the program.
  • the program is installed in the computer 60 via the recording medium 71, for example.
  • the program may be installed on the computer 60 via a global network or the like.
  • any computer-readable non-transitory storage medium may be used.
  • a plurality of computers communicably connected via a network or the like cooperate to execute the information processing method (drum practice support method, proficiency evaluation method) and program according to the present invention.
  • a processing unit may be constructed. That is, the information processing method and program according to the present invention can be executed not only in a computer system constituted by a single computer, but also in a computer system in which a plurality of computers work together.
  • a system means a set of multiple components (devices, modules (parts), etc.), and it does not matter whether all the components are in the same housing. Therefore, a plurality of devices housed in separate housings and connected via a network, and a single device housing a plurality of modules within a single housing, are both systems.
  • the information processing method according to the present invention and the execution of the program by the computer system are, for example, acquisition of images of drum performances, evaluation of proficiency regarding drum performances, extraction of extraction information, acquisition of detection information, acquisition of auxiliary information, score and This includes both the case where the output of support information is executed by a single computer, and the case where each process is executed by different computers. Execution of each process by a predetermined computer includes causing another computer to execute part or all of the process and obtaining the result.
  • the information processing method and program according to the present invention can also be applied to a configuration of cloud computing in which a plurality of devices share and jointly process one function via a network.
  • drum performance support system the information processing device, the smartphone, each configuration of the GUI for outputting evaluation results and support information, and each processing flow for evaluation of proficiency in drum performance, etc. described with reference to each drawing are only one. It is an embodiment, and can be arbitrarily modified without departing from the scope of the present invention. That is, any other configuration, algorithm, or the like for implementing the present invention may be employed.
  • expressions using "more than” such as “greater than A” and “less than A” encompass both concepts that include the case of being equivalent to A and concepts that do not include the case of being equivalent to A. is an expression contained in For example, “greater than A” is not limited to not including equal to A, but also includes “greater than or equal to A.” Also, “less than A” is not limited to “less than A”, but also includes “less than A”. When implementing the present technology, specific settings and the like may be appropriately adopted from concepts included in “greater than A” and “less than A” so as to exhibit the effects described above.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

【課題】ドラム演奏の習熟度を効率的に向上させることを可能とする情報処理装置、情報処理方法、及びプログラムを提供すること。 【解決手段】上記目的を達成するため、本発明の一形態に係る情報処理装置は、第1の取得部と、評価部とを具備する。前記第1の取得部は、演奏者によるドラム演奏の画像を取得する。前記評価部は、前記第1の取得部により取得された前記画像に基づいて、前記ドラム演奏に関する習熟度を評価する。これにより、ドラム演奏の習熟度を効率的に向上させることが可能となる。

Description

情報処理装置、情報処理方法、及びプログラム
 本発明は、楽器演奏の習熟度の向上に利用可能な情報処理装置、情報処理方法、及びプログラムに関する。
 特許文献1には、ピアノ演奏等のパフォーマンスの習得支援を効率的に行うことを目的とした情報処理装置について記載されている。
国際公開第2020/100671号
 このように楽器演奏の習熟度を効率的に向上させることが可能な技術が求められている。
 以上のような事情に鑑み、本発明の目的の一つは、ドラム演奏の習熟度を効率的に向上させることを可能とする情報処理装置、情報処理方法、及びプログラムを提供することにある。
 上記目的を達成するため、本発明の一形態に係る情報処理装置は、第1の取得部と、評価部とを具備する。
 前記第1の取得部は、演奏者によるドラム演奏の画像を取得する。
 前記評価部は、前記第1の取得部により取得された前記画像に基づいて、前記ドラム演奏に関する習熟度を評価する。
 本発明の一形態に係る情報処理装方法は、コンピュータシステムが実行する情報処理方法であって、演奏者によるドラム演奏の画像を取得することを含む。
 取得された前記画像に基づいて、前記ドラム演奏に関する習熟度が評価される。
 本発明の一形態に係るプログラムは、演奏者によるドラム演奏の画像を取得し、取得された前記画像に基づいて、前記ドラム演奏に関する習熟度を評価することをコンピュータシステムに実行させる。
一実施形態に係るドラム練習支援システムの基本的な構成例を示す模式図である。 情報処理装置の基本的な動作例を示すフローチャートである。 学習モデルを用いたスコアの算出例を示す模式図である。 教師データを用いた学習モデルの学習を説明するための模式図である。 ドラム演奏の画像から抽出される抽出情報を入力とした学習モデルを用いたスコアの算出例を示す模式図である。 教師データを用いた学習モデルの学習を説明するための模式図である。 ドラム演奏の画像及び抽出情報の両方を入力とした学習モデルを用いたスコアの算出例を示す模式図である。 教師データを用いた学習モデルの学習を説明するための模式図である。 ルールベースを用いた処理による習熟度の評価を示す模式図である。 ルールベースを用いた処理による習熟度の評価を示す模式図である。 ルールベースを用いた処理による習熟度の評価を示す模式図である。 情報処理装置の機能的な他の構成例を示すブロック図である。 ドラム演奏に関する1以上の評価項目の一例を示す表である。 ドラム演奏に関する1以上の評価項目の一例を示す表である。 ドラム演奏に関する1以上の評価項目の一例を示す表である。 評価結果及び支援情報の出力の一例を示す模式図である。 評価結果及び支援情報の出力の一例を示す模式図である。 情報処理装置として用いることが可能なコンピュータのハードウェア構成例を示すブロック図である。
 以下、本発明に係る実施形態を、図面を参照しながら説明する。
 [ドラム練習支援システム]
 図1は、本発明の一実施形態に係るドラム練習支援システムの基本的な構成例を示す模式図である。
 ドラム練習支援システム1は、ドラム演奏を行う演奏者(ドラマー)2の練習を支援して、ドラム演奏の習熟度を効率的に向上させることが可能である。なお習熟度とは、習熟の度合い(習熟の程度)を意味する。
 ドラム練習支援システム1を、ドラム習熟度向上システムと呼ぶことも可能である。
 また演奏者2は、本ドラム練習支援システムを利用するユーザともいえる。
 本開示において、ドラム演奏は、任意の形態のドラム(太鼓)に対して行われる任意の演奏方法を含む。
 本実施形態では、図1に示すように、スティック3を用いてドラムセット4を演奏する形態が図示されている。
 図1には、ドラムセット4として、バスドラム5、スネアドラム6、ハイタム7、ロータム8、フロアタム9、ハイハットシンバル10、クラッシュシンバル11、ライドシンバル12が図示されている。このような構成に限定されず、任意の構成を有するドラムセット4が用いられてよい。
 ドラムセット4に限定されず、バチ等を用いた和太鼓の演奏、手を用いた種々のパーカッションの演奏等もドラム演奏に含まれ、本技術を適用することが可能である。もちろん、電子ドラム等の電子楽器を用いた演奏も、ドラム演奏に含まれる。
 また、図1に示すドラムセット4に含まれる各種シンバル等、単体で見た場合にはドラムには分類されない楽器が配置され、ドラムとともに演奏される場合も多い。
 例えば、和太鼓を演奏する際に銅鑼等がともに演奏される場合がある。またパーカッションを演奏する場合には、ウインドチャイム、カウベル、シェイカー等がともに演奏される場合がある。また電子ドラムセットとして、電子シンバルが配置される場合もある。
 本開示では、このようなドラムとともに演奏される他の種類の楽器に対する演奏も、ドラム演奏に含まれるものとする。すなわち、図1に例示する各種シンバルに対する演奏もドラム演奏に含まれ、本技術を適用することが可能である。
 また、鍋や机等の楽器として製造されていない物体を叩くことで演奏を行うパフォーマーも存在する。このような楽器ではない物体を叩いて演奏する行為もドラム演奏に含まれる。
 さらに、専用の練習台(練習パッド等)や机等の物体を用いて、ドラム演奏の練習が行われる場合もあり得る。本開示では、このようなドラム演奏の練習自体も、ドラム演奏に含まれることとする。
 図1に示すように、ドラム練習支援システム1は、撮像装置(カメラ)14と、情報処理装置15とを有する。
 撮像装置14と、情報処理装置15とは、有線又は無線を介して、通信可能に接続されている。各デバイス間の接続形態は限定されず、例えばWiFi等の無線LAN通信や、Bluetooth(登録商標)等の近距離無線通信を利用することが可能である。
 撮像装置14は、演奏者2によるドラム演奏の画像を撮影可能な位置に配置される。
 撮像装置14としては、例えばCMOS(Complementary Metal-Oxide Semiconductor)センサやCCD(Charge Coupled Device)センサ等のイメージセンサを備えるデジタルカメラが用いられる。
 その他、ドラム演奏の画像を撮影可能な任意の撮像デバイスが用いられてよい。
 なお本開示において画像は、静止画像及び動画像(映像)の両方を含む
 情報処理装置15は、例えばCPUやGPU、DSP等のプロセッサ、ROMやRAM等のメモリ、HDD等の記憶デバイス等、コンピュータの構成に必要なハードウェアを有する(図18参照)。
 例えばCPUがROM等に予め記録されている本技術に係るプログラムをRAMにロードして実行することにより、本技術に係る情報処理方法が実行される。
 例えばPC(Personal Computer)等の任意のコンピュータにより、情報処理装置15を実現することが可能である。もちろんFPGA、ASIC等のハードウェアが用いられてもよい。
 本実施形態では、CPU等が所定のプログラムを実行することで、機能ブロックとしての第1の取得部16と、評価部17とが構成される。もちろん機能ブロックを実現するために、IC(集積回路)等の専用のハードウェアが用いられてもよい。
 プログラムは、例えば種々の記録媒体を介して情報処理装置15にインストールされる。あるいは、インターネット等を介してプログラムのインストールが実行されてもよい。
 プログラムが記録される記録媒体の種類等は限定されず、コンピュータが読み取り可能な任意の記録媒体が用いられてよい。例えば、コンピュータが読み取り可能な非一過性の任意の記憶媒体が用いられてよい。
 図2は、情報処理装置15の基本的な動作例を示すフローチャートである。
 第1の取得部16により、演奏者2によるドラム演奏の画像が取得される(ステップ101)。
 評価部17により、第1の取得部16により取得されたドラム演奏の画像に基づいて、ドラム演奏に関する習熟度が評価される。
 例えば、図1に模式的に示すように、ドラム演奏に対する総合評価が行われ、評価結果として、習熟度を示すスコア(評価スコア)が算出される。
 図1に示す例では、A~Eの5段階による段階評価が行われ、A~Eのいずれかがスコアとして算出される。またスコアとして、0点~100点の範囲で得点(ポイント)が算出される。
 もちろん習熟度の評価は、ドラム演奏に対する総合評価に限定されない。ドラム演奏に関する様々な評価項目に対して、習熟度を評価することが可能となる。すなわち、評価部17により、ドラム演奏に関する1以上の評価項目に対して、評価を実行することが可能である。これにより、高い精度でドラム演奏の習熟度を評価することが可能となる。
 またスコアの算出についても、図1に例示するような段階評価や得点の付与に限定されず、任意の形態によるスコアの算出が実行されてよい。
 また習熟度の評価として、スコアの算出以外の評価方法が採用されてもよい。例えば、評価コメントの表示や特定の音声の出力等、任意の評価方法が実行されてもよい。例えば、習熟度や評価スコアをパラメータとして出さない形態で、総合評価や1以上の評価項目に対する評価を実行することも可能である。
 なお、評価コメントは、習熟度を向上させるための支援情報に含まれる。
 図1に示す例において、第1の取得部16は、本技術に係る第1の取得部の一実施形態に相当する。評価部17は、本技術に係る評価部の一実施形態に相当する。
 図1に示す例では、ドラム練習支援システム1を構築するために、撮像装置14と、情報処理装置15とが別々に準備されている。これに限定されず、ドラム練習支援システム1を構築するために、撮像機能を有する任意のコンピュータが用いられてもよい。
 すなわち、図1に示す撮像装置14と、情報処理装置15とが一体的に構成されたデバイスが、本技術に係る情報処理装置の一実施形態として用いられてもよい。
 撮像機能を有するコンピュータとして、例えば、スマートフォン、タブレット端末、AR(Augmented Reality:拡張現実)グラスやVR(Virtual Reality:仮想現実)グラス等のHMD(Head Mounted Display)、PC等を用いることが可能である。
 [習熟度の評価(機械学習を用いた処理)]
 評価部17によりドラム演奏の習熟度を評価する方法は限定されず、任意の技術(アルゴリズム等)が用いられてよい。
 例えばDNN(Deep Neural Network:深層ニューラルネットワーク)、RNN(Recurrent Neural Network:回帰型ニューラルネットワーク)、CNN(Convolutional Neural Network:畳み込みニューラルネットワーク)等を用いた任意の機械学習アルゴリズムが用いられてもよい。例えばディープラーニング(深層学習)を行うAI(人工知能)等を用いることで、様々な評価項目に対して、高い精度でスコアを算出することが可能となる。
 以下、機械学習を用いた処理により習熟度が評価される場合について説明する。
 図3は、学習モデルを用いたスコアの算出例を示す模式図である。
 図3に示す例では、ドラム演奏の画像19を入力として、機械学習を実行することで、ドラム演奏の習熟度を示すスコアが推定される。
 すなわち、習熟度を推定するための機械学習を行った学習済みの学習モデル20に、ドラム演奏の画像19を入力することで、習熟度を示すスコアを学習モデル20から取得する処理が実行される。この処理により、高い精度で習熟度を評価することが可能となる。
 もちろんスコアの算出に限定されず、任意の評価方法に対して学習モデルを用いた処理を適用することが可能である。すなわち評価を推定するために学習された任意の機械学習モデルを用いて、総合評価や1以上の項目に対する評価を実行することが可能である。
 なお学習モデル20を、機械学習モデル20や学習済モデル20と呼ぶことも可能である。
 図4は、教師データを用いた学習モデル20の学習を説明するための模式図である。
 図4に示すように、学習モデル20の学習のために、学習用データに教師ラベルが関連付けられた教師データが、学習部21に入力される。教師データは、入力に対して正解を推定する学習モデル20を学習させるためのデータである。
 図4に示すように、本実施形態では、学習用データとして、ドラム演奏の画像22が学習部21に対して入力される。また、教師ラベル23として、習熟度を示すスコアが学習部21に入力される。教師ラベル23は、学習用のドラム演奏の画像22に対応する正解(正解データ)である。
 本実施形態では、学習用のドラム演奏の画像22(学習用データ)にスコア(教師ラベル23)が関連付けられたデータが、教師データとして用いられる。従って、学習モデル20は、ドラム演奏の画像22と、習熟度を示すスコアとを教師データとして機械学習された予測モデルとなる。
 教師データ(学習用のドラム演奏の画像22及びスコアのデータセット)を作成する方法は限定されない。例えば、手動により教師データが作成されてもよい。あるいは、予め作成されている教師データを取得して、学習部21に入力してもよい。
 なお、教師データとして用いられるスコア(ラベル23)として、ドラム演奏に関する種々の評価項目に関するスコアを関連付け、学習モデル20を学習させる。これにより、各評価項目に関する評価を、機械学習を用いた処理により実行することが可能となる。すなわち、学習モデル20から各評価項目に関するスコアを取得することが可能となる。
 図4に示すように、学習部21により、教師データが用いられ、機械学習アルゴリズムに基づいて学習が実行される。学習により、正解(教師ラベル)を算出するためのパラメータ(係数)が更新され、学習済パラメータとして生成される。生成された学習済パラメータが組み込まれたプログラムが、学習モデル20として生成される。
 学習モデルの学習方法として、例えば誤差逆伝播法が用いられる。誤差逆伝播法は、ニューラルネットワークの学習のために一般的に良く利用される学習手法である。ニューラルネットワークとは、元々人間の脳神経回路を模倣したモデルであり、入力層、中間層(隠れ層)、出力層の3種類の層からなる層構造を持ったモデルである。
 多数の中間層を持つニューラルネットワークは特にディープニューラルネットワークと呼ばれ、これを学習するためのディープラーニング技術は、大量データの中に潜んでいる複雑なパターンを学習できるモデルとして知られている。誤差逆伝播法はこのような学習手法の1つであり、例えば、画像や動画の認識に用いられるCNNなどの学習によく用いられる。
 また、このような機械学習を実現するハードウェア構造としては、ニューラルネットワークの概念を組み込まれたニューロチップ/ニューロモーフィック・チップが用いられ得る。
 学習モデル20を学習させるためのアルゴリズムは限定されず、任意の機械学習アルゴリズムが用いられてよい。
 例えば、機械学習アルゴリズムとして、教師あり学習、教師なし学習、半教師学習、強化学習、逆強化学習、能動学習、転移学習等が挙げられる。
 教師あり学習は、与えられたラベル付きの学習データ(教師データ)に基づいて特徴量を学習する。これにより、未知のデータのラベルを導くことが可能となる。
 教師なし学習は、ラベルが付いていない学習データを大量に分析して特徴量を抽出し、抽出した特徴量に基づいてクラスタリングを行う。これにより、膨大な未知のデータに基づいて傾向の分析や未来予測を行うことが可能となる。
 半教師学習は、教師あり学習と教師なし学習を混在させたものであって、教師あり学習で特徴量を学ばせた後、教師なし学習で膨大な訓練データを与え、自動的に特徴量を算出させながら繰り返し学習を行う方法である。
 強化学習は、ある環境内におけるエージェントが現在の状態を観測して取るべき行動を決定する問題を扱うものである。エージェントは、行動を選択することで環境から報酬を習得し、一連の行動を通じて報酬が最も多く得られるような方策を学習する。このように、ある環境における最適解を学習することで、人間の判断力を再現し、また、人間を超える判断力をコンピュータに習得させることが可能となる。
 また、HMM(Hidden Markov Model:隠れマルコフモデル)やSVM(Support Vector Machine)等の機械学習モデルが用いられてもよい。
 学習部21により生成された学習モデル20は、図1に示す評価部17に組み込まれる。そして、評価部17により、スコアの推定が実行される。
 なお、図4に示す学習部21が情報処理装置15に含まれ、情報処理装置15により学習モデル20の学習が実行されてもよい。
 一方で、学習部21が情報処理装置15の外部に構成されてもよい。すなわち、あらかじめ情報処理装置15の外部で学習部21による学習が実行され、学習済みの学習モデル20のみが、評価部17に組み込まれてもよい。
 その他、学習部21及び学習モデル20を学習するための学習部21の具体的な構成は限定されない。
 なお機械学習アルゴリズムの適用は、本開示内の任意の処理に対して実行されてよい。すなわち、本開示内にて説明する任意の処理について、機械学習を用いた処理が実行されてよい。
 [抽出情報を用いた習熟度の評価]
 ドラム演奏の画像19から抽出可能な抽出情報を用いて、ドラム演奏の習熟度を評価することも可能である。
 抽出情報としては、例えば、ドラム演奏に関する1以上の特徴点、演奏者2の骨格情報、演奏者2の重心、演奏者の表情、及びドラム演奏に用いられるスティック3の動き等が挙げられる。
 ドラム演奏に関する1以上の特徴点について、例えば、演奏者2、ドラムセット4、スティック3等の所定の部分を特徴点として、特徴点の位置、動き(運動量)、速度、加速度等が抽出情報として抽出される。特徴点として規定する部分は、任意に設定されてよい。また、位置情報を検出するために、所定の座標系が任意に設定されてよい。
 演奏者2の骨格情報に基づいて、例えば、演奏者2の各部位の位置、動き(運動量)、速度、加速度等を取得することが可能である。
 演奏者2の重心に基づいて、重心の位置、動き(運動量)、移動、速度、加速度等を取得することも可能である。なお、演奏者2の重心に関する情報は、骨格情報から取得することも可能である。
 演奏者の表情に基づいて、例えば、笑っているか否か、顔をしかめているか否か、表情に余裕があるか否か等の情報を取得することが可能である。
 ドラム演奏に用いられるスティック3の動きに基づいて、スティック3の各部位の位置、動き(運動量)、速度、加速度等を取得することが可能である。また、アタック前のスティック3の速度、アタック後のスティック3の速度、アタック前後の速度の差等の情報を取得することが可能である。なおアタックは、ドラムにスティック3が衝突して発音された瞬間を意味する。
 その他、ドラム演奏の画像19から抽出可能な任意の情報が、抽出情報として用いられてよい。
 ドラム演奏の画像19から抽出情報を抽出する方法は限定されず、任意の技術(アルゴリズム)が用いられてよい。
 例えば物体のモデル画像を用いたマッチング処理、エッジ検出、射影変換等の任意の画像認識技術が用いられてよい。また骨格推定(ボーン推定)等が用いられてもよい。また外部で構築された既存の画像処理や機械学習等の機能を持つライブラリが利用されてもよい。
 抽出情報を抽出するために、任意の機械学習アルゴリズムが用いられてもよい。例えば、画像情報に対してセマンティックセグメンテーションを実行することで、画像内の各画素に対して、物体の種類を判定することも可能となる。
 抽出情報を利用することで、高い精度でドラム演奏の習熟度を評価することが可能となる。
 図5は、ドラム演奏の画像19から抽出される抽出情報を入力とした学習モデルを用いたスコアの算出例を示す模式図である。
 図5に示すように、ドラム演奏の画像19から抽出される抽出情報を入力として、機械学習を実行することで、ドラム演奏の習熟度を示すスコアを推定することが可能である。
 この場合、習熟度を推定するための機械学習を行った学習済みの学習モデル24に、ドラム演奏の画像19から抽出される抽出情報を入力することで、習熟度を示すスコアを学習モデル28から取得する処理が実行される。これにより、高い精度で習熟度を評価することが可能となる。
 図6は、教師データを用いた学習モデル24の学習を説明するための模式図である。
 本実施形態では、学習用のドラム演奏の画像19から抽出される抽出情報25が、学習用データとして用いられる。この学習用データにスコア(教師ラベル26)が関連付けられたデータが、教師データとして用いられる。
 従って、学習モデル24は、ドラム演奏の画像から抽出された抽出情報25と、習熟度を示すスコアとを教師データとして機械学習された予測モデルとなる。
 図6に示すように、学習部27により、教師データが用いられ、機械学習アルゴリズムに基づいて学習が実行される。これにより、学習モデル24が生成される。
 学習モデル24を学習させるためのアルゴリズムは限定されず、任意の機械学習アルゴリズムが用いられてよい。
 教師データとして用いられるスコア(ラベル26)として、ドラム演奏に関する種々の評価項目に関するスコアを関連付け、学習モデル24を学習させる。これにより、各評価項目に関する評価を、機械学習を用いた処理により実行することが可能となる。すなわち、学習モデル24から各評価項目に関するスコアを取得することが可能となる。
 この際には、評価項目に関連する抽出情報を用いることで、スコアの推定精度を向上させることが可能となる。
 図7は、ドラム演奏の画像19及び抽出情報の両方を入力とした学習モデルを用いたスコアの算出例を示す模式図である。
 図7に示すように、ドラム演奏の画像19と、画像19から抽出された抽出情報の両方を入力として、機械学習を実行することで、ドラム演奏の習熟度を示すスコアを推定することが可能である。
 この場合、習熟度を推定するための機械学習を行った学習済みの学習モデル28に、ドラム演奏の画像19及び画像19から抽出される抽出情報の両方を入力することで、習熟度を示すスコアを学習モデル28から取得する処理が実行される。これにより、高い精度で習熟度を評価することが可能となる。
 図8は、教師データを用いた学習モデル28の学習を説明するための模式図である。
 本実施形態では、学習用のドラム演奏の画像29及び学習用のドラム演奏の画像29から抽出される抽出情報30の組が、学習用データとして用いられる。この学習用データにスコア(教師ラベル31)が関連付けられたデータが、教師データとして用いられる。
 従って、学習モデル28は、ドラム演奏の画像29、及びドラム演奏の画像29から抽出された抽出情報30の組と、習熟度を示すスコアとを教師データとして機械学習された予測モデルとなる。
 図8に示すように、学習部32により、教師データが用いられ、機械学習アルゴリズムに基づいて学習が実行される。これにより、学習モデル28が生成される。
 学習モデル28を学習させるためのアルゴリズムは限定されず、任意の機械学習アルゴリズムが用いられてよい。
 教師データとして用いられるスコア(ラベル31)として、ドラム演奏に関する種々の評価項目に関するスコアを関連付け、学習モデル28を学習させる。これにより、各評価項目に関する評価を、機械学習を用いた処理により実行することが可能となる。すなわち、学習モデル28から各評価項目に関するスコアを取得することが可能となる。
 この際には、評価項目に関連する抽出情報を用いることで、スコアの推定精度を向上させることが可能となる。
 [習熟度の評価(ルールベースを用いた処理)]
 図9~図11は、ルールベースを用いた処理による習熟度の評価を示す模式図である。
 図9~図11に示すように、評価部17は、ルールベースを用いた処理により、ドラム演奏に関する習熟度を評価することも可能である。
 図9に示す例では、ドラム演奏の画像19を入力として、ルールベースのアルゴリズムを用いた処理を実行することで、ドラム演奏の習熟度を示すスコアが算出される。
 図10に示す例では、ドラム演奏の画像19から抽出される抽出情報を入力として、ルールベースのアルゴリズムを用いた処理を実行することで、ドラム演奏の習熟度を示すスコアが算出される。
 図11に示す例では、ドラム演奏の画像19、及び画像19から抽出される抽出情報の両方を入力として、ルールベースのアルゴリズムを用いた処理を実行することで、ドラム演奏の習熟度を示すスコアが算出される。
 このように、ドラム演奏の画像19、又は画像19から抽出される抽出情報の少なくとも一方を用いて、ルールベースの処理により、ドラム演奏の習熟度に関する評価を実行することが可能である。もちろん、ドラム演奏に関する種々の評価項目に対して、スコアを算出することが可能である。
 ルールベースの処理として実行される具体的なアルゴリズム等は限定されない。マッチング技術、画像認識技術、解析技術等、ルールベースの任意のアルゴリズムが用いられてよい。
 [検出情報/補助情報を用いた習熟度の評価]
 ドラム演奏の習熟度を評価するために、ドラム演奏の画像19及びドラム演奏の画像19から抽出される抽出情報以外の、その他の情報が用いられてもよい。
 その他の情報として、例えば、ドラム演奏に応じて検出される検出情報、又はドラム演奏に関連する補助情報等が挙げられる。
 検出情報は、演奏者2がドラム演奏を行っている際に、ドラム演奏に応じて検出される任意の情報を含む。検出情報は、典型的には、撮像装置14とは異なる検出デバイスにより検出される情報である。
 検出デバイスとしては、例えば、マイク、MIDI(登録商標)(Musical Instrument Digital Interface)データ等の演奏データを取り込んで処理可能なコンピュータ、重心計、及び測距センサ等が挙げられる。
 また検出デバイスとして、演奏者2が装着可能な種々のウェアラブルデバイスや、ウェアラブルデバイスに搭載可能な種々のセンサが用いられてもよい。例えば、IMU(Inertial Measurement Unit)センサ、GPSセンサ、温度センサ等の生体センサ等が用いられてもよい。
 または、検出デバイスとして、スティック3にIMUセンサ等が装着されてもよい。
 これら種々の検出デバイスやセンサ等により検出される種々の検出情報が、ドラム演奏の習熟度の評価に用いられてもよい。
 検出情報として、例えば、音情報、演奏時間、演奏テンポ、発音間隔、演奏者の動き、演奏者の重心、又は演奏者の体の状態等が検出可能である。
 音情報は、例えばマイク等によりオーディオデータとして検出される。あるいはMIDI(登録商標)データとして検出される。なお、ともに演奏している他の楽器の音情報も、検出情報として検出可能である。
 演奏時間は、例えば演奏の開始から終了までの時間として検出される。
 演奏テンポは、例えばBPM(Beats Per Minute)が検出される。
 発音間隔は、演奏に応じて発生される音の間隔が検出される。例えば、発音間隔は、演奏者2の部位ごとに検出される。例えば、ドラムセット4に対して、右手はハイハットシンバル10を16分音符で細かく刻み、左手はスネアドラム6を4分音符で叩くといった演奏もあり得る。この場合、右手の発音間隔と左手の発音間隔とが個別に検出されてもよい。すなわち、右手の発音間隔は相対的に短く、左手の発音間隔は相対的に長い旨の情報が検出される。
 各部位の発音間隔として、所定の演奏時間内での平均値が用いられてもよい。あるいは、統計的に最も多く出現する発音間隔が採用されてもよい。
 各部位の発音間隔は、各部位が発生させる音の間隔とも言える。また各部位の発音間隔は、各部位の演奏動作のスピードを示す情報とも言える。
 演奏者の動きは、例えば、所定の座標系に基づいた各部位の位置情報及びその変位により検出される。例えば、各部位の加速度、速度、運動量を検出することが可能である。
 演奏者の重心は、例えば所定の座標系に基づいた位置情報により検出される。
 演奏者の体の状態は、例えば生体センサにより検出される。例えば筋肉の弛緩/緊張等の状態を、検出情報として検出することも可能である。
 なお、ドラム演奏の画像19から抽出される抽出情報と同じ種類の情報が、検出情報として取得される場合もあり得る。例えば、抽出情報として、演奏者の骨格情報に基づいた演奏者の動きが取得される。一方で、演奏者2に装着されたウェアラブルデバイスにより検出された検出情報として、演奏者の動きが取得される。このような場合もあり得る。
 検出情報を用いることで、様々な評価項目に対して、高い精度でスコアを算出することが可能となる。
 補助情報は、演奏者2によるドラム演奏を補助する種々の情報を含む。
 例えば、補助情報として、演奏の正解情報、過去の演奏情報、及び他の演奏音の情報等が挙げられる。
 演奏の正解情報は、どのようなに演奏すべきかを教示可能な情報を含む。例えば、演奏の対象となる曲の楽譜情報、ドラムセット4に含まれる各ドラムやシンバル等が正解となるタイミングで鳴っている楽曲の情報が含まれる。
 また正解の演奏テンポ(BPM)の数値や、正解の演奏テンポを示すクリック(メトロノーム)の情報が含まれる。さらに、正確に演奏されておりお手本となる習熟度が非常に高い演奏者のドラム演奏の画像等が、正解情報として用いられてもよい。
 過去の演奏情報は、演奏者2、もしくは他の演奏者により過去に演奏された同じ曲の演奏情報が含まれる。
 他の演奏音の情報は、ともに演奏する他の楽器(パート)の演奏音が含まれる。他の楽器の演奏の正解情報、ともに演奏している他の楽器のリアルタイムの演奏情報、他の楽器の過去の演奏情報等が含まれる。
 補助情報を用いることで、様々な評価項目に対して、高い精度でスコアを算出することが可能となる。
 例えば、演奏者2によるドラム演奏と、演奏の正解情報を比較することで、ドラム演奏の習熟度を評価するといったことが可能となる。また、過去の演奏情報と比較することで、ドラム演奏の上達度を評価するといったことも可能である。
 なお、抽出情報や検出情報と同じ種類の情報が、補助情報として用いられる場合もあり得る。
 図12は、情報処理装置15の機能的な他の構成例を示すブロック図である。
 図12に示すように、検出情報や補助情報が用いられてドラム演奏の習熟度が評価される場合には、情報処理装置15に、検出情報又は補助情報の少なくとも一方を取得する第2の取得部40が、機能ブロックとして構成される。
 第2の取得部40は、例えば、第1の取得部16及び評価部17と同様に、CPU等が所定のプログラムを実行することで構成される。もちろん第2の取得部40を実現するために、IC(集積回路)等の専用のハードウェアが用いられてもよい。
 [ドラム演奏に関する評価項目]
 図13~図15は、ドラム演奏に関する1以上の評価項目の一例を示す表である。
 図13~図15に示すように、評価項目として、演奏音に関する評価項目、ドラム演奏に用いられるスティック3の動きに関する評価項目、及び演奏者2の動きに関する評価項目等が挙げられる。
 評価部17は、これらの評価項目の各々に対して、機械学習を用いた処理やルールベースを用いた処理を実行することで、習熟度を示すスコアを算出することが可能である。これにより、高い精度でドラム演奏の習熟度を評価することが可能となる。
 図3A~Cに示す例では、各評価項目について、A~Eの5段階による段階評価、及び0点~100点までの得点(ポイント)の算出が実行される。もちろん、スコアの算出方法や、評価方法は限定されない。
 図13では、演奏音に関する評価項目の一例が図示されている。
 演奏音に関する評価項目としては、例えば発音タイミングのコントロール、音のダイナミクスのコントロール、音色のコントロール、繰り返し演奏の安定性、及び他の演奏音とのコミュニケーションの有無等が挙げられる。これらの評価項目に対してスコアを算出することが可能である。
 (発音タイミングのコントロール)
 演奏者2が発音のタイミングをどれだけコントロールできているかを評価することが可能である。図13では、意図したタイミングで発音できているか否かが、評価項目として挙げられている。
 例えば、AメロからBメロに移行する部分や、サビに入る部分等、曲の構成上リズムが変わる部分等において、本評価項目に関する評価が実行される。もちろんリズムの変わる部分にて評価される場合に限定される訳ではない。
 例えば、ドラム演奏の画像19に基づいて、連打が均等にできているか否か、アタックのタイミングがバラついていないかといった観点により、発音タイミングのコントロールを評価することが可能である。
 抽出情報としては、例えば演奏者2の骨格情報やスティック3の動き等の情報等を、本評価項目に関する評価に利用することが可能である。
 検出情報としては、発音の情報(音情報)を利用することが可能である。例えば、電子ドラムの演奏が実行される場合は、MIDI(登録商標)データを用いることが可能である。もちろん、マイク等により、通常のドラムの発音が取得されてもよい。また、検出情報として、演奏テンポ、演奏者の動き等を利用することも可能である。
 補助情報としては、演奏の正解情報を利用することが可能である。例えば、演奏の正解情報として、MIDI(登録商標)データ、楽譜、演奏テンポ、お手本となるドラム演奏の画像等の情報を利用して、本評価項目の評価を実行することが可能である。
 その他、発音タイミングのコントロールを評価するために用いられる情報やパラメータ等は限定されず、任意に設定されてよい。
 なお、利用可能な抽出情報、検出情報、及び補助情報は、あくまで一例であり、他の種類の抽出情報、検出情報、及び補助情報が利用されてもよい。このことは、以下に説明する他の評価項目についても同様である。
 (音のダイナミクスのコントロール)
 演奏者2が音のダイナミクスをどれだけコントロールできているかを評価することが可能である。図13では、意図したダイナミクスで発音できているか否かが、評価項目として挙げられている。
 例えば、同じ楽器内にて、どれだけ音のダイナミクスのコントロールできているかを評価することが可能である。また、他の楽器との関係(バランス)において、どれだけ音のダイナミクスのコントロールできているかを評価することも可能である。もちろん、この2つの観点を包括的に評価することも可能である。
 例えば、ドラム演奏の画像19に基づいて、演奏者2の動きのパターン(腕のふり幅等)が安定しているか否か、スティック3の動きのパターン(スティック3のふり幅等)が安定しているか否かといった情報から、音のダイナミクスのコントロールを評価することが可能である。
 また、特定の演奏パターン(特定のフレーズ)に対して、演奏者2の動きやスティック3の動きが、予め決められた最適なパターンに近いかどうかといった情報から、本評価項目の評価を実行することが可能である。
 抽出情報としては、例えば演奏者2の骨格情報やスティック3の動き等を利用することが可能である。
 検出情報としては、例えば発音の情報、演奏者の動き等を利用することが可能である。
 補助情報としては、例えば演奏の正解情報を利用することが可能である。
 その他、音のダイナミクスのコントロールを評価するために用いられる情報やパラメータ等は限定されず、任意に設定されてよい。
 (音色のコントロール)
 演奏者2が音色をどれだけコントロールできているか否かを評価することが可能である。図13では、同じ楽器(ドラム)内で意図した音色で発音できているか否かが、評価項目として挙げられている。
 例えば、スネアドラム6等の中心を叩く。あえてスネアドラム6の中心から外れた部分を叩く。オープンリムショットをかける深さを調整する。クローズドリムショットのスティック3を当てる位置を調整する。ハイハットシンバル10の叩く位置を調整する。ハイハットシンバル10に当たるスティック3の部分を調整する。ハイハットシンバル10のオープン量を調整する。こういった演奏上の工夫により、演奏者2は、音色をコントロールすることが可能である。
 例えば、ドラム演奏の画像19に基づいて、ドラムやシンバル等の叩かれている位置、スティック3のドラム等に当たっている部分、演奏者2の動きのパターン(腕のふり幅等)、スティック3の動きのパターン(スティック3のふり幅等)等の情報から、音色のコントロールを評価することが可能である。
 また、特定の演奏パターン(特定のフレーズ)に対して、演奏者2の動きやスティック3の動き等に基づいて、本評価項目の評価を実行することが可能である。
 抽出情報としては、例えば演奏者2の骨格情報やスティック3の動き等を利用することが可能である。
 検出情報としては、例えば発音の情報、演奏者の動き等を利用することが可能である。
 補助情報としては、例えば演奏の正解情報を利用することが可能である。
 その他、音色のコントロールを評価するために用いられる情報やパラメータ等は限定されず、任意に設定されてよい。
 (繰り返し演奏の安定性)
 演奏者2が繰り返し演奏をする際にどれだけ安定しているか否かを評価することが可能である。繰り返し演奏とは、同じ演奏を繰り返し行うことであり、例えば、同じ曲の中のリピートパートや同じ曲を複数演奏した場合等が挙げられる。図13では、繰り返し演奏のバラつきが少ないか否かが、評価項目として挙げられている。
 例えば、ドラム演奏の画像19に基づいて、繰り返し演奏に対して、演奏者2の動きのパターン(腕のふり幅等)が安定しているか否か、スティック3の動きのパターン(スティック3のふり幅等)が安定しているか否かといった情報から、繰り返し演奏の安定性を評価することが可能である。
 抽出情報としては、例えば演奏者2の骨格情報やスティック3の動き等を利用することが可能である。
 検出情報としては、例えば発音の情報、演奏者の動き等を利用することが可能である。
 補助情報としては、例えば演奏の正解情報や過去の演奏情報を利用することが可能である。
 その他、繰り返し演奏の安定性を評価するために用いられる情報やパラメータ等は限定されず、任意に設定されてよい。
 (他の演奏音とのコミュニケーションの有無)
 演奏者2が他の演奏音と、どれだけコミュニケーションをとれているかを評価することが可能である。他の演奏音としては、典型的には、他の楽器の演奏音である。これに限定されず、同じ楽器を他の演奏者が演奏している場合の演奏音も含まれる(ツインドラム等)。
 図13では、ドラム以外のパートとコミュニケーションできているか否かが、評価項目として挙げられている。
 例えば、他の演奏音(他の演奏者)との間で、意図的なゆらぎ、ため、外し、加速、減速、即興的な変形等が生み出される場合もあり得る。他の演奏音との間でこのような種々のコミュニケーションが成り立っているかどうかを、ドラム演奏の画像19に基づいて評価することが可能である。
 抽出情報としては、演奏者の表情等を利用することが可能である。また、他の演奏者や他の楽器が画像19内に含まれる場合は、他の演奏者の表情や、他の楽器に対する演奏状態等を抽出情報として抽出し、評価に利用することが可能である。
 検出情報としては、例えば発音の情報、他の演奏音の情報、演奏者の動き、他の演奏者の動き等を利用することが可能である。
 補助情報としては、例えば演奏の正解情報や他の演奏音の情報を利用することが可能である。
 その他、他の演奏音とのコミュニケーションの有無を評価するために用いられる情報やパラメータ等は限定されず、任意に設定されてよい。
 図14では、ドラム演奏に用いられるスティック3の動きに関する評価項目の一例が図示されている。
 スティック3の動きに関する評価項目としては、例えば、リバウンドのコントロール、スティック奏法の正確性、演奏に使用可能なスティックの種類、及びパフォーマンスの正確性等が挙げられる。これらの評価項目に対してスコアを算出することが可能であり、高い精度でドラム演奏の習熟度を評価することが可能となる。
 (リバウンドのコントロール)
 アタック後に、スティック3のリバウンドをどれだけコントロールできているかを評価することが可能である。図14では、リバウンドをどれだけ拾えているか否かが、評価項目として挙げられている。
 例えば、ドラム演奏の画像19に基づいて、アタック前のスティック3の速度に対するアタック後のスティック3の速度の比率を取得することで、リバウンドのコントロールを評価することが可能である。
 例えばフルストロークやアップストロークに対してリバウンドのコントロールを評価する際には、「アタック後のスティック3の速度÷アタック前のスティック3の速度」が大きいほど、高いスコアを付与するといった評価が可能である。
 ダウンストロークやタップストロークに対しても、アタック前のスティック3の速度に対するアタック後のスティック3の速度の比率に基づいて、リバウンドのコントロールを評価することが可能である。
 また、ドラム演奏の画像19に基づいて、アタック前後の演奏者2の体の状態から、リバウンドのコントロールを評価することも可能である。
 抽出情報としては、例えばスティック3の動きや演奏者2の骨格情報等を利用することが可能である。
 検出情報としては、例えば発音の情報を利用することが可能である。例えば、ストロークの種類に応じた適正な音が発生られているか否かの情報を、リバウンドのコントロールの評価に利用することが可能である。また検出情報として、演奏者2の動きや演奏者2の体の状態(筋肉の弛緩/緊張等)を利用することも可能である。
 補助情報としては、例えば演奏の正解情報を利用することが可能である。
 その他、リバウンドのコントロールを評価するために用いられる情報やパラメータ等は限定されず、任意に設定されてよい。
 (スティック奏法の正確性)
 種々のスティック奏法(例えばシングルストローク、ダブルストローク、パラディドル、ゴーストノート、ロール等)の正確性を評価することが可能である。図14では、意図したスティック奏法ができているか否かが、評価項目として挙げられている。
 例えば、ドラム演奏の画像19に基づいて、スティック3の動きのパターンから、スティック奏法の正確性を評価することが可能である。
 抽出情報としては、例えばスティック3の動きや演奏者2の骨格情報等を利用することが可能である。
 検出情報としては、例えば発音の情報や、演奏者2の動き、演奏者2の体の状態(筋肉の弛緩/緊張等)を利用することが可能である。
 補助情報としては、例えば演奏の正解情報を利用することが可能である。
 その他、スティック奏法の正確性を評価するために用いられる情報やパラメータ等は限定されず、任意に設定されてよい。
 (演奏に使用可能なスティックの種類)
 通常のスティックのみならず、ブラシ、ブルームスティック等の、特殊なスティック3を用いて演奏が可能か否かを評価することが可能である。図14では、特殊なスティック3でそれぞれ演奏できるか否かが、評価項目として挙げられている。
 例えば、ドラム演奏の画像19に基づいて、演奏に使用されているスティック3の種類、及び各種スティック3の動きから、演奏に使用可能なスティックの種類を評価することが可能である。
 抽出情報としては、例えば各種スティック3の動きや演奏者2の骨格情報等を利用することが可能である。
 検出情報としては、例えば発音の情報や、演奏者2の動き、演奏者2の体の状態(筋肉の弛緩/緊張等)を利用することが可能である。
 補助情報としては、例えば演奏の正解情報を利用することが可能である。
 その他、スティック奏法の正確性を評価するために用いられる情報やパラメータ等は限定されず、任意に設定されてよい。
 (パフォーマンスの正確性)
 スティック3を用いたパフォーマンスの正確性を評価することが可能である。例えばスティック回し等が挙げられる。図14では、パフォーマンスが洗練されているか否かが、評価項目として挙げられている。
 スティック3を用いたパフォーマンスは、演奏的には無駄な動きともいえるが、当該無駄な動きをする余裕があるか、その後に問題なく演奏に復帰できているか否かを評価することが可能である。
 例えば、ドラム演奏の画像19に基づいて、演奏者2の動きのパターン、及びスティック3の動きのパターンから、パフォーマンスの正確性を評価することが可能である。
 抽出情報としては、例えばスティック3の動きや演奏者2の骨格情報等を利用することが可能である。
 検出情報としては、例えば発音の情報や、演奏者2の動き、演奏者2の体の状態(筋肉の弛緩/緊張等)を利用することが可能である。
 補助情報としては、例えば演奏の正解情報を利用することが可能である。
 その他、パフォーマンスの正確性を評価するために用いられる情報やパラメータ等は限定されず、任意に設定されてよい。
 図15では、演奏者2の動きに関する評価項目の一例が図示されている。
 演奏者2の動きに関する評価項目は、例えば重心に関する評価項目、体の使い方に関する評価項目、演奏の安定性に関する評価項目、演奏中の体の状態に関する評価項目、発音効率に関する評価項目、又は他の演奏者とのコミュニケーションに関する評価項目等を含む。
 重心に関する評価項目としては、例えば、重心の安定性等を挙げることが可能である。
 体の使い方に関する評価項目としては、例えば、発音間隔に応じた体の使い方、効率的な体の使い方等を挙げることが可能である。
 演奏の安定性に関する評価項目としては、例えば、長時間の演奏に対する安定性等を挙げることが可能である。
 演奏中の体の状態に関する評価項目としては、例えば、演奏中の脱力の有無、演奏中の各部位の可動域、表情に余裕があるか否か等を挙げることが可能である。
 発音効率に関する評価項目としては、例えば発音効率をそのまま挙げることが可能である。
 他の演奏者とのコミュニケーションに関する評価項目としては、例えば、他の演奏者とのアイコンタクトの有無等を挙げることが可能である。
 これらの評価項目に対してスコアを算出することが可能であり、高い精度でドラム演奏の習熟度を評価することが可能となる。
 (重心の安定性)
 演奏者2のドラム演奏中における重心の安定性を評価することが可能である。図15では、演奏の激しさに関わらず身体の重心が安定しているか否かが、評価項目として挙げられている。もちろん、演奏が激しいか否かに関係なく、身体の重心が安定しているか否かが評価されてもよい。
 例えば、ドラム演奏の画像19に基づいて、演奏者2の重心が移動しているか否か、重心が移動している場合でも規則的な重心移動であるか不規則な重心移動であるかといった情報から、重心の安定性を評価することが可能である。例えば、規則的な重心移動については、重心の安定性は高いと評価することが可能である。
 抽出情報としては、例えば演奏者2の重心等を利用することが可能である。
 検出情報としては、例えば発音の情報や、演奏者2の重心(例えば重心計から取得)等を利用することが可能である。
 補助情報としては、例えば演奏の正解情報を利用することが可能である。
 その他、重心の安定性を評価するために用いられる情報やパラメータ等は限定されず、任意に設定されてよい。
 (発音間隔に応じた体の使い方)
 発音間隔に応じた体の使い方を評価することが可能である。図15では、演奏者2の右手及び左手の各々に対して、発音間隔に応じて肩、上腕、肘、前腕、手首、手指の使い分けができているか否かが、評価項目として挙げられている。すなわち、右手及び左手に対して、発音間隔に応じた適切な使い方ができているか否かが評価される。
 例えば、ドラム演奏の画像19に基づいて、演奏者2の各部位の情報から、発音間隔に応じた体の使い方を評価することが可能である。
 例えば、ハイハットシンバル10を16分音符で細かく刻む場合等、発音間隔が短いほど手指側を中心に使った演奏が好ましい。一方で、スネアドラム6を4分音符で叩く場合等、発音間隔が長いほど肩側を中心に使った演奏が好ましい。このように発音間隔に応じて、演奏に使う部位を適宜切り替えることが可能である場合には、体の使い方に関して高い評価(スコア)を付与することが可能である。
 もちろん、右手及び左手に限定されず、右足や左足等の他の部位に対して、発音間隔に応じた体の使い方を評価することが可能である。例えば、右足でバスドラム5を演奏する場合に、高速で演奏する場合(発音間隔短い)と、ゆっくり演奏する場合(発音間隔長い)とで、足の付け根、太もも、膝、ふくらはぎ、足首、つま先等が適切に使い分けられているかを評価することが可能である。
 抽出情報としては、例えば演奏者2の骨格情報(各部位の位置、動き(運動量)、速度、加速度等)やスティック3の動き等を利用することが可能である。
 検出情報としては、例えば発音の情報、演奏テンポ、演奏者の動き(各部位の位置、動き(運動量)、速度、加速度等)、演奏者の体の状態等を利用することが可能である。
 補助情報としては、例えば演奏の正解情報(演奏テンポ等)を利用することが可能である。
 その他、発音間隔に応じた体の使い方を評価するために用いられる情報やパラメータ等は限定されず、任意に設定されてよい。
 (効率的な体の使い方)
 効率的な体の使い方を評価することが可能である。図15では、最小源の動きで楽器間を移動できているか否かが、評価項目として挙げられている。すなわち、演奏時の移動効率がよいか否かが評価される。
 例えば、ドラム演奏の画像19に基づいて、タム回し等の特定の演奏パターンに対する体の使い方の情報から、効率的な体の使い方を評価することが可能である。
 必ずしも最短距離で移動すればよいというものではなく、身体の仕組みに基づいて最小源の労力で移動できている場合に、高い評価が付与される。
 また、鍵盤の運指と同様に、ドラム演奏についても効率的な体の使い方というのは知られている。例えば右手と左手を交互に使ってタム回しを行うといった、オーソドックスな手順が知られている。このような効率的な体の使い方として知られている手順等に近いほど、高い評価とする。
 抽出情報としては、例えば演奏者2の骨格情報やスティック3の動き等を利用することが可能である。
 検出情報としては、例えば発音の情報、演奏者の動き、演奏者の体の状態等を利用することが可能である。
 補助情報としては、例えば演奏の正解情報を利用することが可能である。
 その他、効率的な体の使い方を評価するために用いられる情報やパラメータ等は限定されず、任意に設定されてよい。
 (長時間の演奏に対する安定性)
 長時間演奏した場合のドラム演奏の安定性を評価することが可能である。図15では、長時間演奏しても安定しているか否かが、評価項目として挙げられている。
 例えば、ドラム演奏の画像19に基づいて、時間の経過に応じた演奏者2の動きや演奏者2の体の状態、スティック3の動き等から、長時間の演奏に対する安定性を評価することが可能である。また、ある時刻における演奏者2やスティック3の動き等と、所定の時間が経過した時刻の演奏者2やスティック3の動き等とを比較することで、長時間の演奏に対する安定性を評価することも可能である。
 抽出情報としては、例えば演奏者2の骨格情報やスティック3の動き等を利用することが可能である。
 検出情報としては、例えば発音の情報、演奏テンポ、演奏者の動き、演奏者の体の状態等を利用することが可能である。
 補助情報としては、例えば演奏の正解情報を利用することが可能である。
 その他、長時間の演奏に対する安定性を評価するために用いられる情報やパラメータ等は限定されず、任意に設定されてよい。
 (演奏中の脱力の有無)
 ドラム演奏を行っている際の体の脱力の有無を評価することが可能である。すなわちどれぐらい脱力できているかを評価することが可能である。図15では、演奏の激しさに関わらず脱力できているか否かが、評価項目として挙げられている。
 ドラム演奏を行う際には、常に脱力しているわけではなく、あえて力を入れて演奏を行う場合もあり得る。このような場合等に対して、適切なタイミングで脱力できているか否かを評価することが可能である。例えば、アタックの直後や演奏していない状態で脱力できている場合に、高い評価が付与される。
 例えば、ドラム演奏の画像19に基づいて、演奏者2の動きや演奏者2の体の状態等、スティック3の動き等から、演奏中の脱力の有無を評価することが可能である。例えば、筋肉が強張っているか否かを判定することで、脱力の有無及び脱力の程度を評価することが可能である。
 抽出情報としては、例えば演奏者2の骨格情報やスティック3の動き等を利用することが可能である。
 検出情報としては、例えば発音の情報、演奏者2の動きや演奏者2の体の状態(筋肉の弛緩/緊張等)を利用することも可能である。
 補助情報としては、例えば演奏の正解情報を利用することが可能である。
 その他、演奏中の脱力の有無を評価するために用いられる情報やパラメータ等は限定されず、任意に設定されてよい。
 (演奏中の各部位の可動域)
 ドラム演奏中の各部位の可動域を評価することが可能である。図15では、身体の各部位の可動域が広い、または広く使えているか否かが、評価項目として挙げられている。
 ドラム演奏に対して、脇が開くと可動域が狭くなるので、脇を締めるのを基本とする考え方が知られている。例えば、このような考え方に基づいて、脇が締まっている状態を評価が高い状態として評価することが可能である。
 もちろん、ドラム演奏の奏法等によっては、各部位の可動域について考え方が異なる場合もあり得る。例えば、脇を開いた方がよいという考え方もあり得る。いずれにせよ、評価の基準を適宜設定することで(例えば教師データに含まれるスコアの設定を適宜制御することで)、様々な考え方にそくした評価を実行することが可能である。このことは、他の評価項目についてもいえることである。
 例えば、ドラム演奏の画像19に基づいて、演奏者2の動きや演奏者2の体の状態等から、演奏中の各部位の可動域を評価することが可能である。
 抽出情報としては、例えば演奏者2の骨格情報等を利用することが可能である。
 検出情報としては、例えば発音の情報、演奏者2の動きや演奏者2の体の状態を利用することも可能である。
 補助情報としては、例えば演奏の正解情報を利用することが可能である。
 その他、演奏中の各部位の可動域を評価するために用いられる情報やパラメータ等は限定されず、任意に設定されてよい。
 (発音効率)
 ドラム演奏の発音効率を評価することが可能である。図15では、最小限の動きで大きな音が出せているか否かが、評価項目として挙げられている。例えば、最小限の動きで大きな音が出せている場合に、発音効率がよいとして、高い評価が付与される。
 例えば、ドラム演奏の画像19に基づいて、演奏者2の動きや演奏者2の体の状態等を取得する。そして、検出情報として音情報を検出することで、発音効率を評価することが可能である。
 抽出情報としては、例えば演奏者2の骨格情報等を利用することが可能である。
 他の検出情報として、例えば演奏者2の動きや演奏者2の体の状態を利用することも可能である。
 補助情報としては、例えば演奏の正解情報を利用することが可能である。
 その他、発音効率を評価するために用いられる情報やパラメータ等は限定されず、任意に設定されてよい。
 (他の演奏者とのアイコンタクトの有無)
 他の演奏者とのアイコンタクトの有無を評価することが可能である。図15では、他のメンバーと演奏中にアイコンタクトが取れているか否かが、評価項目として挙げられている。
 一般的に、他のメンバーと演奏中にアイコンタクトがとれている演奏者2は、観ていても安心でき、習熟度が高い場合が多い。また、アイコンタクトが取れている演奏者2は、周りの状況をよく把握できている場合も多い。このような観点から、アイコンタクトが取れている場合には、高い評価が付与される。
 例えば、ドラム演奏の画像19に基づいて、演奏者2の顔の動きや向きから、他の演奏者とのアイコンタクトの有無を評価することが可能である。画像19内に他の演奏者が含まれている場合には、他の演奏者の顔の動きや向きも利用して、アイコンタクトの有無を評価することが可能である。
 抽出情報としては、例えば演奏者2の骨格情報や演奏者の表情等を利用することが可能である。また、他の演奏者が画像19内に含まれる場合は、他の演奏者の表情等を抽出情報として抽出し、評価に利用することが可能である。
 検出情報としては、例えば演奏者の動き、他の演奏者の動き等を利用することが可能である。
 補助情報としては、例えば演奏の正解情報や他の演奏音の情報を利用することが可能である。
 その他、他の演奏者とのアイコンタクトの有無を評価するために用いられる情報やパラメータ等は限定されず、任意に設定されてよい。
 (表情に余裕があるか否か)
 ドラム演奏を行う演奏者2の表情に余裕があるか否かを評価することが可能である。図15では、表情に余裕があるか否かが、評価項目として挙げられている。
 例えば、笑顔である状態や口が開いた状態等、顔に力が入っている状態(しかめっ面等)ではない場合に、表情に余裕があるとして、高い評価を付与することが可能である。
 例えば、ドラム演奏の画像19に基づいて、演奏者2の表情から、表情に余裕があるか否かを評価することが可能である。
 抽出情報としては、例えば演奏者2の表情等を利用することが可能である。
 検出情報としては、例えば演奏者の動き等を利用することが可能である。
 補助情報としては、例えば演奏の正解情報等を利用することが可能である。
 その他、表情に余裕があるか否かを評価するために用いられる情報やパラメータ等は限定されず、任意に設定されてよい。
 その他、図13~図15の表に図示されている評価項目以外の、様々な評価項目に対してスコアを付与することが可能である。
 例えば、ハイハットシンバル10を踏む足の動きに基づいて、ドラム演奏の習熟度を評価することが可能である。ハイハットシンバル10を踏む足を動かして(ハイハットシンバル10を開閉させることなく)リズムをとっている場合に、そのリズムをとる動きが正確な場合に、高い評価を付与することが可能である。反対に、ハイハットシンバル10を踏む足が惰性で動いており不規則である場合には、低い評価を付与することが可能である。
 またハイハットシンバル10を踏む足が静止した状態でドラム演奏を行うことができている場合は、高い評価を付与する。このような評価も可能である。
 また、曲の始まり等において、スティック3を使ってカウントを出す場合には、そのカウントの正確性が、評価項目として挙げられてもよい。正確なカウントが出されている場合には、高い評価が付与される。
 [評価結果及び支援情報の出力]
 情報処理装置15は、各評価項目に関して、評価結果として算出されたスコアを出力することが可能である。また情報処理装置15は、習熟度を向上させるための支援情報を出力することが可能である。
 演奏者2は、支援情報を利用して、ドラム演奏の習熟度を効率的に向上させることが可能となる。
 スコアや支援情報が出力する場合には、図12に例示するように、出力部41が、機能ブロックとして構成される。
 出力部41は、例えば、第1の取得部16、評価部17、及び第2の取得部40と同様に、CPU等が所定のプログラムを実行することで構成される。もちろん出力部41を実現するために、IC(集積回路)等の専用のハードウェアが用いられてもよい。
 図16及び図17は、評価結果及び支援情報の出力の一例を示す模式図である。
 図16及び図17では、本発明に係る情報処理装置の一実施形態として、スマートフォン34が用いられる場合が図示されている。
 スマートフォン34は、図1に示す撮像装置14と、情報処理装置15とが一体的に構成されたデバイスとして機能する。すなわち撮像機能を有するコンピュータとして機能する。
 例えば、演奏者2は、スマートフォン34に、ドラム練習支援システム1を利用するためのアプリケーション(アプリケーションプログラム)をダウンロードする。
 例えば、演奏者2は、IDやパスワード等の情報を入力して、ドラム練習支援システム1を利用するためのアカウントを作成する。もちろん、アカウントの作成等が不要であってもよい。
 演奏者2は、スマートフォン34に搭載されたカメラにより、ドラム演奏の画像を撮影する。例えば、ドラムセット4の前にスマートフォンを設置して、動画の撮影モードをスタートさせる。そして、ドラムセット4を演奏することで、ドラム演奏の画像を撮影する。
 または練習パッド等を使ったドラム演奏の練習を、スマートフォン34で撮影する。これにより、ドラム演奏の練習の画像を、ドラム演奏の画像として撮影することが可能である。もちろん、他の人にドラムを演奏している演奏者2を撮影してもらってもよい。
 演奏者2は、ドラム練習支援システム1を利用するためのアプリケーションを起動させ、撮影されたドラム演奏の画像を入力する。アプリケーション内にてドラム演奏の画像を入力するためのGUI(Graphical User Interface)や方法等は限定されず、任意のGUIや方法が採用されてよい。
 図12等に示す第1の取得部16により、演奏者2により入力されたドラム画像が入力される。
 評価部17により、図3~図8に例示するような機械学習を用いた処理や、図9~図11に例示するようなルールベースを用いた処理等が実行され、ドラム演奏に関する習熟度が評価される。例えば図13~図15に例示する各評価項目に関して、スコアが算出される。
 この際には、第2の取得部40により、検出情報や補助情報が取得され、各評価項目の評価に利用されてもよい。
 出力部41により、評価結果及び支援情報が出力される。例えば、画像や音声により、評価結果及び支援情報が出力される。
 図16に示す例では、スマートフォン34のタッチパネル35に、評価結果として、総合評価に関するスコアが「総合評価」のテキストの右隣りに表示される(図16では「B」「85ポイント」)。
 また演奏音に関する評価項目の総合評価が「演奏音」のテキストの右隣りに表示される(図16では「B」「84ポイント」)。演奏音に関する各評価項目の詳しいスコアを見たい場合には、各項目ボタン36aを選択することで、各評価項目の詳しいスコアを表示する画面に切り替えられる。
 またドラム演奏に用いられるスティック3の動きに関する評価項目の総合評価が「スティック」のテキストの右隣りに表示される(図16では「A」「94ポイント」)。ドラム演奏に用いられるスティック3の動きに関する各評価項目の詳しいスコアを見たい場合には、各項目ボタン36bを選択することで、各評価項目の詳しいスコアを表示する画面に切り替えられる。
 また演奏者の動きに関する評価項目の総合評価が「体の使い方」のテキストの右隣りに表示される(図16では「C」「71ポイント」)。演奏者の動きに関する各評価項目の詳しいスコアを見たい場合には、各項目ボタン36cを選択することで、各評価項目の詳しいスコアを表示する画面に切り替えられる。
 各評価項目の詳しいスコアを表示する画像(画面)としては、例えば図13~図15に示すような表形式の画像が表示される。その他、任意の構成が採用されてよい。
 また図16に示す例では、支援情報として、総合評価に関する評価コメントが「総合評価」のテキストの下方に表示される。例えば、「全然だめです。練習してください。」「スティックの使い方はよいので、体の使い方を向上させましょう!」等の評価コメントが表示される。もちろん、評価コメントの内容は限定されず、任意のコメントを表示可能である。また、音声により、評価コメントが読み上げられてもよい。
 図17に示す例では、支援情報として、仮想画像37が表示される。仮想画像37はAR画像とも呼ばれ、実オブジェクトに重畳される。
 図17では、演奏者2の左手、及び左手が持っているスティック3が撮影されたドラム演奏の画像19を実オブジェクトとして、スティックの仮想画像37が重畳される。例えば、スティックコントロールを向上させるための支援情報として、正確なアップストロークの動きを再現するようにスティックの仮想画像37が表示される。
 このように、演奏者2にスティック3の正しい動き(スコアが高くなる動き)や体の正しい動きを教示するために、スティック3や体の正しい動きが仮想画像37として表示されてもよい。すなわち、実オブジェクトに重畳される仮想画像37として、ドラム演奏に用いられるスティック3の動きに関する仮想画像37や、演奏者2の動きに関する仮想画像37が表示されてもよい。
 これにより、演奏者2は、目指すべき正しい動き等を直感的に理解することが可能となり、効率的に習熟度を向上させることが可能となる。
 なお、図17に示す例は、実オブジェクトである演奏者2の左手及びスティック3に、スティックの仮想画像37を重畳させたAR表現と見做すことも可能である。
 もちろん支援情報として、実オブジェクトに重畳されない態様で、仮想画像が表示されてもよい。例えば、正しく動くスティック3や体の仮想画像が、実オブジェクトに重畳されることなく表示されてもよい。この場合でも、演奏者2は、仮想画像を視認することで、スティック3や体の正しい動きを理解することが可能である。
 本発明に係る情報処理装置の一実施形態として、演奏者2が頭に装着可能なARグラス(HMD)が用いられたとする。
 この場合、ARグラスの表示部に、評価結果及び支援情報を表示することが可能である。例えば、ドラム演奏を行っている演奏者2の体、スティック3、ドラムセット4等が視界に入っている状態で、これら演奏者2の体等を実オブジェクトとして、体やスティック3の仮想画像37を支援情報として重畳させることも可能である。
 例えば、ドラム演奏に応じて、ドラム演奏の画像19の撮影、各評価項目に関する評価、評価結果及び支援情報(評価コメントや仮想画像37)の出力等を、リアルタイムで実行することも可能である。
 本発明に係る情報処理装置の一実施形態として、演奏者2が頭に装着可能なVRグラス(HMD)が用いられたとする。
 この場合、VRグラスの表示部に、評価結果及び支援情報を表示することが可能である。例えば、ドラム演奏を行っている演奏者2の体、スティック3、ドラムセット4等の3Dモデル画像が、仮想画像(VR画像)として表示される。その際に、好きなミュージシャンと同じ服装をした演奏者2のモデル画像や、好きなミュージシャン自身を模したモデル画像が表示されてもよい。また、有名なコンサート会場やホール等で、満員のオーディエンスを前にして演奏している状況等が、VR表現により実現されてもよい。
 また、支援情報として、所定のVR空間において、正しい動きを教示するためのお手本となる仮想画像(VR画像)が表示されてもよい。例えば、お手本となるスティック3や体の3Dモデル画像が、支援情報として出力されてもよい。もちろんこれらの支援情報となる仮想画像が、演奏者2やスティック3の仮想画像に重畳されてもよい。
 VRグラスを用いる場合も、ドラム演奏に応じて、ドラム演奏の画像19の撮影、各評価項目に関する評価、評価結果及び支援情報(評価コメントや仮想画像)の出力等を、リアルタイムで実行することが可能である。
 支援情報として、図16に示すような習熟度に関するコメントや、図17に示すような実オブジェクトに重畳される仮想画像37に限定されず、他の種々の支援情報が出力されてよい。
 例えば、過去に評価された習熟度の履歴等が表示されてもよい。評価項目ごとに、スコアの履歴が表示されることで、演奏者2は自分の成長等を確認することが可能となる。すなわち成長の可視化が実現されるので、練習意欲を向上させることが可能となる。
 また下手になってしまった部分や弱点等を確認することも可能である。これにより、効率的な練習計画を立てるといったことも可能となる。
 以上、本実施形態に係るドラム練習支援システム1、及び情報処理装置15では、ドラム演奏の画像19に基づいて、ドラム演奏の習熟度が評価される。これにより、ドラム演奏の習熟度を効率的に向上させることが可能となる。
 例えば、高性能な撮像装置14や他の検出デバイスを用いて、様々な評価項目に対して、非常に高精度に習熟度を評価することが可能である。一方で、図16及び図17を参照して説明したように、1台のスマートフォン34により、本ドラム練習支援システム1を気軽に利用することも可能である。
 これにより、プロドラマーからアマチュアドラマー(初心者も含む)までの非常に広い範囲の演奏者2に対して、レベルに合った効率的な習熟度の向上を実現することが可能となる。この結果、ドラムを演奏しようとする人の数も増え、ドラム演奏の普及にもつながり、演奏レベルの底上げを図ることも可能となる。
 <その他の実施形態>
 本発明は、以上説明した実施形態に限定されず、他の種々の実施形態を実現することができる。
 演奏者2の動きに関する評価項目として、演奏テンポに応じた体の使い方を挙げることも可能である。例えば、BPMに応じて、肩、上腕、肘、前腕、手首、手指の使い分けができているか否かを評価項目として挙げることが可能である。
 例えば、ドラム演奏の画像19に基づいて、演奏者2が主に演奏に使っている部位の情報から、演奏テンポに応じた体の使い方を評価することが可能である。また、ドラム演奏の画像19から抽出される演奏者2の動きや、スティック3の動きから、BPM自体を取得することも可能である。
 演奏テンポに対する演奏者2の各部位の動きが評価されてもよい。すなわち、演奏者2の部位ごとに評価が実行されてもよい。
 例えば、肩の動きと演奏テンポの関係、上腕の動きと演奏テンポの関係、肘の動きと演奏テンポの関係、前腕の動きと演奏テンポの関係、手首の動きと演奏テンポの関係、手指の動きと演奏テンポの関係等が、個別に評価されてもよい。
 これにより、演奏テンポに応じた体の使い方を、部位ごとに詳細に評価することが可能となる。この結果、高い精度でドラム演奏の習熟度を評価することが可能となる。
 例えば、図3~図8に例示するような機械学習を用いた処理により、演奏テンポに対する各部位の動きを評価することも可能である。
 この場合、演奏テンポと部位の関係を評価するために、部位ごとに学習モデルが生成されてもよい。例えば、体の部位1(肩の情報)と演奏テンポとの関係を評価するための第1の学習モデル、体の部位2(上腕の情報)と演奏テンポとの関係を評価するための第2の学習モデル、体の部位3(肘の情報)と演奏テンポとの関係を評価するための第3の学習モデル等がそれぞれ構築されてもよい。
 すなわち、体の部位をn個のパーツに分けたとする。演奏テンポと各パーツの関係を評価するために、n個の学習モデルがそれぞれ構築されてもよい。もちろん、演奏テンポと上半身の関係と、演奏テンポと下半身の関係とを、それぞれ学習モデルにより評価するといったことも可能である。
 また、演奏テンポに対する演奏者2の各部位の動きに関する支援情報が出力されてもよい。例えば、ある演奏テンポに対してこのように部位を動かしましょうといった情報が、部位ごとに出力されてもよい。すなわち、演奏テンポに対する正しい動き(スコアが高くなる動き)が、部位ごとに出力されてもよい。
 もちろん、部位ごとに仮想画像37が、実オブジェクトに対して重畳するように表示されてもよい。例えば、演奏者2の実際の肩に、正しい動きをする肩の仮想画像37が重畳される。このような仮想画像37の表示が、各部位に対して実行されてもよい。
 発音間隔に応じた体の使い方の評価として、部位ごとの細かい評価が実行されてもよい。例えば、ハイハットシンバル10を細かく刻む右手に対して、肩、上腕、肘、前腕、手首、手指の部位ごとに評価が実行されてもよい。同様に、スネアドラム6を大きく叩く左手に対して、肩、上腕、肘、前腕、手首、手指の部位ごとに評価が実行されてもよい。
 各部位と発音間隔の関係を評価するために、部位ごとに学習モデルが構築されてもよい。また、発音間隔に対する各部位の動きに関する支援情報が出力されてもよい。
 各評価項目に対する評価結果(スコア)に対して、信頼度の情報が付加されてもよい。例えば、ドラム演奏の画像19に含まれる内容により、非常に高い精度で評価を行うことが可能な評価項目や、逆に精度の低い評価しかできない評価項目等が発生する場合もあり得る。
 例えば、ドラム演奏の画像19として、肩から手の先にかけて、かつ、スティック3の全体のみが高精度に映っており、アタックの様子が非常に分かりやすい画像19が用いられたとする。なお、演奏者2の顔がほとんど映っていないとする。
 この場合、例えば図14に例示するような、ドラム演奏に用いられるスティック3の動きに関する評価項目については、高い精度でスコアを算出することが可能である。従って、これらの評価結果に対して、高い信頼度が付与される。
 一方で、図15に例示されている他の演奏者とのアイコンタクトの有無や表情に余裕があるか否か等の評価項目については、スコアの算出精度は低くなる。従って、これらの評価項目に対しては、低い信頼度が付与される。
 このように、評価結果に対して信頼度が付与されてもよい。これにより、演奏者2は、有用な評価結果を把握することが可能となり、効率的な習熟度の向上を図ることが可能となる。
 図18は、情報処理装置15として用いることが可能なコンピュータ60のハードウェア構成例を示すブロック図である。
 コンピュータ60は、CPU61、ROM(Read Only Memory)62、RAM63、入出力インタフェース65、及びこれらを互いに接続するバス64を備える。入出力インタフェース65には、表示部66、入力部67、記憶部68、通信部69、及びドライブ部70等が接続される。
 表示部66は、例えば液晶、EL等を用いた表示デバイスである。入力部67は、例えばキーボード、ポインティングデバイス、タッチパネル、その他の操作装置である。入力部67がタッチパネルを含む場合、そのタッチパネルは表示部66と一体となり得る。
 記憶部68は、不揮発性の記憶デバイスであり、例えばHDD、フラッシュメモリ、その他の固体メモリである。ドライブ部70は、例えば光学記録媒体、磁気記録テープ等、リムーバブルの記録媒体71を駆動することが可能なデバイスである。
 通信部69は、LAN、WAN等に接続可能な、他のデバイスと通信するためのモデム、ルータ、その他の通信機器である。通信部69は、有線及び無線のどちらを利用して通信するものであってもよい。通信部69は、コンピュータ60とは別体で使用される場合が多い。
 上記のようなハードウェア構成を有するコンピュータ60による情報処理は、記憶部68またはROM62等に記憶されたソフトウェアと、コンピュータ60のハードウェア資源との協働により実現される。具体的には、ROM62等に記憶された、ソフトウェアを構成するプログラムをRAM63にロードして実行することにより、本発明に係る情報処理方法が実現される。
 プログラムは、例えば記録媒体71を介してコンピュータ60にインストールされる。あるいは、グローバルネットワーク等を介してプログラムがコンピュータ60にインストールされてもよい。その他、コンピュータ読み取り可能な非一過性の任意の記憶媒体が用いられてよい。
 ネットワーク等を介して通信可能に接続された複数のコンピュータが協働することで、本発明に係る情報処理方法(ドラム練習支援方法、習熟度評価方法)及びプログラムが実行され、本発明に係る情報処理装置が構築されてもよい。
 すなわち本発明に係る情報処理方法、及びプログラムは、単体のコンピュータにより構成されたコンピュータシステムのみならず、複数のコンピュータが連動して動作するコンピュータシステムにおいても実行可能である。
 なお本開示において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれもシステムである。
 コンピュータシステムによる本発明に係る情報処理方法、及びプログラムの実行は、例えばドラム演奏の画像の取得、ドラム演奏に関する習熟度の評価、抽出情報の抽出、検出情報の取得、補助情報の取得、スコア及び支援情報の出力等が、単体のコンピュータにより実行される場合、及び各処理が異なるコンピュータにより実行される場合の両方を含む。また所定のコンピュータによる各処理の実行は、当該処理の一部または全部を他のコンピュータに実行させその結果を取得することを含む。
 すなわち本発明に係る情報処理方法及びプログラムは、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成にも適用することが可能である。
 各図面を参照して説明したドラム演奏支援システム、情報処理装置、スマートフォン、評価結果や支援情報を出力するためのGUIの各構成、ドラム演奏の習熟度の評価等の各処理フロー等はあくまで一実施形態であり、本発明の趣旨を逸脱しない範囲で、任意に変形可能である。すなわち本発明を実施するための他の任意の構成やアルゴリズム等が採用されてよい。
 本開示において、説明の理解を容易とするために、「略」「ほぼ」「おおよそ」等の文言が適宜使用される場合がある。一方で、これら「略」「ほぼ」「おおよそ」等の文言を使用する場合と使用しない場合とで、明確な差異が規定されるわけではない。
 すなわち、本開示において、「中心」「中央」「均一」「等しい」「同じ」「直交」「平行」「対称」「延在」「軸方向」「円柱形状」「円筒形状」「リング形状」「円環形状」等の、形状、サイズ、位置関係、状態等を規定する概念は、「実質的に中心」「実質的に中央」「実質的に均一」「実質的に等しい」「実質的に同じ」「実質的に直交」「実質的に平行」「実質的に対称」「実質的に延在」「実質的に軸方向」「実質的に円柱形状」「実質的に円筒形状」「実質的にリング形状」「実質的に円環形状」等を含む概念とする。
 例えば「完全に中心」「完全に中央」「完全に均一」「完全に等しい」「完全に同じ」「完全に直交」「完全に平行」「完全に対称」「完全に延在」「完全に軸方向」「完全に円柱形状」「完全に円筒形状」「完全にリング形状」「完全に円環形状」等を基準とした所定の範囲(例えば±10%の範囲)に含まれる状態も含まれる。
 従って、「略」「ほぼ」「おおよそ」等の文言が付加されていない場合でも、いわゆる「略」「ほぼ」「おおよそ」等を付加して表現される概念が含まれ得る。反対に、「略」「ほぼ」「おおよそ」等を付加して表現された状態について、完全な状態が必ず排除されるというわけではない。
 本開示において、「Aより大きい」「Aより小さい」といった「より」を使った表現は、Aと同等である場合を含む概念と、Aと同等である場合を含まない概念の両方を包括的に含む表現である。例えば「Aより大きい」は、Aと同等は含まない場合に限定されず、「A以上」も含む。また「Aより小さい」は、「A未満」に限定されず、「A以下」も含む。
 本技術を実施する際には、上記で説明した効果が発揮されるように、「Aより大きい」及び「Aより小さい」に含まれる概念から、具体的な設定等を適宜採用すればよい。
 以上説明した本発明に係る特徴部分のうち、少なくとも2つの特徴部分を組み合わせることも可能である。すなわち各実施形態で説明した種々の特徴部分は、各実施形態の区別なく、任意に組み合わされてもよい。また上記で記載した種々の効果は、あくまで例示であって限定されるものではなく、また他の効果が発揮されてもよい。
 1…ドラム練習支援システム
 2…演奏者
 3…スティック
 4…ドラムセット
 14…撮像装置
 15…情報処理装置
 19…ドラム演奏の画像
 20、24、28…学習モデル
 34…スマートフォン
 37…仮想画像
 60…コンピュータ

Claims (20)

  1.  演奏者によるドラム演奏の画像を取得する第1の取得部と、
     前記第1の取得部により取得された前記画像に基づいて、前記ドラム演奏に関する習熟度を評価する評価部と
     を具備する情報処理装置。
  2.  請求項1に記載の情報処理装置であって、
     前記評価部は、前記習熟度を推定するための機械学習を行った学習済みの学習モデルに、前記画像又は前記画像から抽出される抽出情報の少なくとも一方を入力することで、前記習熟度を示すスコアを前記学習モデルから取得する
     情報処理装置。
  3.  請求項2に記載の情報処理装置であって、
     前記抽出情報は、前記ドラム演奏に関する1以上の特徴点、演奏者の骨格情報、演奏者の重心、演奏者の表情、又は前記ドラム演奏に用いられるスティックの動きの少なくとも1つを含む
     情報処理装置。
  4.  請求項1から3のうちいずれか1項に記載の情報処理装置であって、
     前記評価部は、前記画像から抽出される抽出情報に基づいて、前記習熟度を評価する
     情報処理装置。
  5.  請求項1から4のうちいずれか1項に記載の情報処理装置であって、
     前記評価部は、前記ドラム演奏に関する1以上の評価項目の各々に対して、前記習熟度を示すスコアを算出し、
     前記1以上の評価項目は、演奏音に関する評価項目、前記ドラム演奏に用いられるスティックの動きに関する評価項目、又は演奏者の動きに関する評価項目の少なくとも1つを含む
     情報処理装置。
  6.  請求項5に記載の情報処理装置であって、
     前記演奏音に関する評価項目は、発音タイミングのコントロール、音のダイナミクスのコントロール、音色のコントロール、繰り返し演奏の安定性、又は他の演奏音とのコミュニケーションの有無のうちの少なくとも1つを含む
     情報処理装置。
  7.  請求項5又は6に記載の情報処理装置であって、
     前記ドラム演奏に用いられるスティックの動きに関する評価項目は、リバウンドのコントロール、スティック奏法の正確性、演奏に使用可能なスティックの種類、パフォーマンスの正確性のうちの少なくとも1つを含む
     情報処理装置。
  8.  請求項5から7のうちいずれか1項に記載の情報処理装置であって、
     前記演奏者の動きに関する評価項目は、重心に関する評価項目、体の使い方に関する評価項目、演奏の安定性に関する評価項目、演奏中の体の状態に関する評価項目、発音効率に関する評価項目、又は他の演奏者とのコミュニケーションに関する評価項目のうちの少なくとも1つを含む
     情報処理装置。
  9.  請求項1から8のうちいずれか1項に記載の情報処理装置であって、
     前記評価部は、演奏テンポに対する演奏者の各部位の動きを評価する
     情報処理装置。
  10.  請求項9に記載の情報処理装置であって、
     前記評価部は、機械学習を用いた処理により、演奏者の各部位の動きを評価する
     情報処理装置。
  11.  請求項9又は10に記載の情報処理装置であって、
     前記支援情報は、演奏テンポに対する、演奏者の各部位の動きに関する支援情報を含む
     情報処理装置。
  12.  請求項1から11のうちいずれか1項に記載の情報処理装置であって、さらに、
     前記ドラム演奏に応じて検出される検出情報、又は前記ドラム演奏に関連する補助情報の少なくとも一方を取得する第2の取得部を具備し、
     前記評価部は、前記第2の取得部により取得された前記検出情報又は前記補助情報の少なくとも一方を用いて、前記評価を算出する
     情報処理装置。
  13.  請求項12に記載の情報処理装置であって、
     前記検出情報は、音情報、演奏時間、演奏テンポ、発音間隔、演奏者の動き、演奏者の重心、又は演奏者の体の状態のうちの少なくとも1つを含む
     情報処理装置。
  14.  請求項12又は13に記載の情報処理装置であって、
     前記補助情報は、演奏の正解情報、過去の演奏情報、又は他の演奏音の情報の少なくとも1つを含む
     情報処理装置。
  15.  請求項1から14のうちいずれか1項に記載の情報処理装置であって、さらに、
     前記習熟度を向上させるための支援情報を出力する出力部を具備する
     情報処理装置。
  16.  請求項15に記載の情報処理装置であって、
     前記支援情報は、仮想画像、前記習熟度に関するコメント、又は前記習熟度の履歴の少なくとも1つを含む
     情報処理装置。
  17.  請求項16に記載の情報処理装置であって、
     前記仮想画像は、実オブジェクトに重畳される
     情報処理装置。
  18.  請求項17に記載の情報処理装置であって、
     前記仮想画像は、前記ドラム演奏に用いられるスティックの動き、又は演奏者の動きの少なくとも一方に関する仮想画像である
     情報処理装置。
  19.  演奏者によるドラム演奏の画像を取得し、
     取得された前記画像に基づいて、前記ドラム演奏に関する習熟度を評価する
     ことをコンピュータシステムが実行する情報処理方法。
  20.  演奏者によるドラム演奏の画像を取得し、
     取得された前記画像に基づいて、前記ドラム演奏に関する習熟度を評価する
     ことをコンピュータシステムに実行させるプログラム。
PCT/JP2021/044827 2021-12-07 2021-12-07 情報処理装置、情報処理方法、及びプログラム WO2023105601A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2021/044827 WO2023105601A1 (ja) 2021-12-07 2021-12-07 情報処理装置、情報処理方法、及びプログラム
JP2023565708A JPWO2023105601A1 (ja) 2021-12-07 2021-12-07
US18/735,579 US20240321012A1 (en) 2021-12-07 2024-06-06 Information Processing Apparatus, Method for Processing Information, and Non-Transitory Computer-Readable Storage Medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/044827 WO2023105601A1 (ja) 2021-12-07 2021-12-07 情報処理装置、情報処理方法、及びプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/735,579 Continuation US20240321012A1 (en) 2021-12-07 2024-06-06 Information Processing Apparatus, Method for Processing Information, and Non-Transitory Computer-Readable Storage Medium

Publications (1)

Publication Number Publication Date
WO2023105601A1 true WO2023105601A1 (ja) 2023-06-15

Family

ID=86729807

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/044827 WO2023105601A1 (ja) 2021-12-07 2021-12-07 情報処理装置、情報処理方法、及びプログラム

Country Status (3)

Country Link
US (1) US20240321012A1 (ja)
JP (1) JPWO2023105601A1 (ja)
WO (1) WO2023105601A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004038049A (ja) * 2002-07-08 2004-02-05 Yamaha Corp 演奏比較装置及び演奏比較プログラム
JP2013186215A (ja) * 2012-03-07 2013-09-19 Casio Comput Co Ltd 習熟度判定装置、習熟度判定方法及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004038049A (ja) * 2002-07-08 2004-02-05 Yamaha Corp 演奏比較装置及び演奏比較プログラム
JP2013186215A (ja) * 2012-03-07 2013-09-19 Casio Comput Co Ltd 習熟度判定装置、習熟度判定方法及びプログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
IMADA YASUHIRO, OCHI YOUJI, IGUCHI NOBUKAZU: "Drum Performance Recognition Method Using Sensor Data and Machine Learning", JAPANESE SOCIETY FOR ARTIFICIAL INTELLIGENCE RESEARCH GROUP MATERIALS ADVANCED LEARNING SCIENCE AND ENGINEERING RESEARCH GROUP, 6 July 2019 (2019-07-06), pages 62 - 65, XP093071154, DOI: 10.11517/jsaialst.86.0_11 *
OCHI YOUJI, MITSUMASA HIRANO, NOBUKAZU IGUCHI: "Proposal of Drum Training System by Playing Performance Detection Using Kinect", TRANSACTIONS OF JAPANESE SOCIETY FOR INFORMATION AND SYSTEMS IN EDUCATION, JAPANESE SOCIETY FOR INFORMATION AND SYSTEMS IN EDUCATION, vol. 34, no. 1, 1 January 2017 (2017-01-01), pages 32 - 43, XP093071146, ISSN: 1341-4135, DOI: 10.14926/jsise.34.32 *
YAMAGUCHI SHOYA, MASARU MIURA EXHIBITION: "Proficiency Estimation Based on Operational Parameters of Piano Performance", JOURNAL OF ACOUSTICAL SOCIETY OF JAPAN, vol. 75, no. 12, 1 December 2019 (2019-12-01), pages 659 - 662, XP093071151, DOI: 10.20697/jasj.75.12_659 *

Also Published As

Publication number Publication date
US20240321012A1 (en) 2024-09-26
JPWO2023105601A1 (ja) 2023-06-15

Similar Documents

Publication Publication Date Title
JP7468356B2 (ja) 情報処理装置、情報処理方法及びプログラム
US10376785B2 (en) Audio, video, simulation, and user interface paradigms
JP7238794B2 (ja) 情報処理装置、情報処理方法及びプログラム
US11557269B2 (en) Information processing method
Dalmazzo et al. Bowing gestures classification in violin performance: a machine learning approach
US10748515B2 (en) Enhanced real-time audio generation via cloud-based virtualized orchestra
US20220398937A1 (en) Information processing device, information processing method, and program
WO2017037342A1 (en) System for teaching a user to play a musical instrument from musical notation via virtual exercises and a method thereof
US20150242797A1 (en) Methods and systems for evaluating performance
Weinberg et al. Robotic musicianship: embodied artificial creativity and mechatronic musical expression
JOHANNSEN et al. Conductors’ gestures and their mapping to sound synthesis
Krout Engaging iPad applications with young people with autism spectrum disorders
Rhodes et al. Towards Developing a Virtual Guitar Instructor through Biometrics Informed Human-Computer Interaction
WO2023105601A1 (ja) 情報処理装置、情報処理方法、及びプログラム
US10319352B2 (en) Notation for gesture-based composition
JP7432127B2 (ja) 情報処理方法、情報処理システムおよびプログラム
JP7548323B2 (ja) 情報処理方法および情報処理システム
Matsushita A wrist-worn motion evaluation system for fast and powerful down picking of heavy metal guitar
Kim et al. Developing humanoids for musical interaction
Antoshchuk et al. Creating an interactive musical experience for a concert hall
Zhang et al. A gesturally controlled virtual musical instruments for Chinese Guqin
Ince et al. Towards a robust drum stroke recognition system for human robot interaction
Surasinghe et al. An Efficient Real-Time Air Drumming Approach Using MediaPipe Hand Gesture Model
Taylor Designing a computer model of drumming: The biomechanics of percussive performance
Garoufis et al. An environment for gestural interaction with 3d virtual musical instruments as an educational tool

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21967107

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2023565708

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE