WO2020059245A1 - 情報処理装置、情報処理方法および情報処理プログラム - Google Patents

情報処理装置、情報処理方法および情報処理プログラム Download PDF

Info

Publication number
WO2020059245A1
WO2020059245A1 PCT/JP2019/026290 JP2019026290W WO2020059245A1 WO 2020059245 A1 WO2020059245 A1 WO 2020059245A1 JP 2019026290 W JP2019026290 W JP 2019026290W WO 2020059245 A1 WO2020059245 A1 WO 2020059245A1
Authority
WO
WIPO (PCT)
Prior art keywords
performance
information
information processing
musical instrument
input image
Prior art date
Application number
PCT/JP2019/026290
Other languages
English (en)
French (fr)
Inventor
信瑩 何
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Publication of WO2020059245A1 publication Critical patent/WO2020059245A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10GREPRESENTATION OF MUSIC; RECORDING MUSIC IN NOTATION FORM; ACCESSORIES FOR MUSIC OR MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR, e.g. SUPPORTS
    • G10G3/00Recording music in notation form, e.g. recording the mechanical operation of a musical instrument
    • G10G3/04Recording music in notation form, e.g. recording the mechanical operation of a musical instrument using electrical means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments

Definitions

  • the present technology relates to an information processing device, an information processing method, and an information processing program.
  • Patent Document 1 a system for converting data of a person's performance such as dance into data.
  • Patent Document 1 generates musical score data in which a performer's dance motion in a three-dimensional space is recorded.
  • it is difficult to apply the operation to other operations, for example, a musical instrument performance as it is, because information and processing required for data conversion differ depending on the type of operation.
  • the present technology has been made in view of such a point, and an object of the present technology is to provide an information processing apparatus, an information processing method, and an information processing program capable of acquiring information indicating performance of a musical instrument from an image.
  • a first technique includes a position recognition unit that recognizes a position of a body part of a player from an input image, a musical instrument recognition unit that recognizes a musical instrument from the input image, and a position of the part.
  • An information processing apparatus comprising: a performance information generating unit configured to generate performance information indicating a performance of a musical instrument by a player based on relevance to the musical instrument.
  • the second technique recognizes a position of a body part of a player from an input image, recognizes a musical instrument from the input image, and plays a musical instrument by the player based on the relationship between the position of the part and the musical instrument.
  • This is an information processing method for generating performance information shown in FIG.
  • a third technique recognizes the position of a body part of a player from an input image, recognizes a musical instrument from the input image, and performs the performance of the musical instrument by the player based on the relationship between the position of the part and the musical instrument.
  • FIG. 3 is a block diagram illustrating a configuration of a terminal device.
  • FIG. 2 is a block diagram illustrating a configuration of the information processing apparatus according to the first embodiment.
  • FIG. 3 is a diagram illustrating an example of an input image according to the first embodiment. It is explanatory drawing about recognition of a player's hand. It is explanatory drawing about recognition of a player's hand. It is explanatory drawing about recognition of a chord (chord).
  • 6 is a flowchart illustrating a process of generating partial performance information according to the first embodiment. 6 is a flowchart illustrating a process of generating composite performance information according to the first embodiment.
  • FIG. 14 is a diagram illustrating an example of an input image according to the second embodiment.
  • FIG. 14 is a diagram illustrating an example of an input image according to the third embodiment. It is a block diagram showing the composition of the information processor concerning a 3rd embodiment. It is a flowchart which shows the production
  • First Embodiment> [1-1. Configuration of Terminal Device] [1-2. Configuration of Information Processing Apparatus] [1-3. Processing by information processing device] [1-3-1. Generation of partial performance information] [1-3-2. Generating composite performance information] ⁇ 2.
  • Second Embodiment> [2-1. Configuration of Information Processing Apparatus] [2-2. Processing of information processing device] ⁇ 3.
  • Third Embodiment> [3-1. Configuration of Information Processing Apparatus] [3-2. Processing of information processing device] ⁇ 4. Modification>
  • the terminal device 10 includes a control unit 11, a storage unit 12, a communication unit 13, a display unit 14, an input unit 15, a camera unit 16, and an information processing device 100.
  • the control unit 11 includes a CPU (Central Processing Unit), a RAM (Random Access Memory), a ROM (Read Only Memory), and the like.
  • the ROM stores programs and the like that are read and operated by the CPU.
  • the RAM is used as a work memory of the CPU.
  • the CPU controls the entire terminal device 10 by executing various processes in accordance with the programs stored in the ROM and issuing commands.
  • the storage unit 12 is, for example, a large-capacity storage medium using a hard disk, a semiconductor memory, or the like.
  • the storage unit 12 can store a captured image and a captured video captured by the camera unit 16, performance information and music score information generated by the information processing apparatus 100, as well as contents and applications.
  • the communication unit 13 is a communication module for communicating with another device, the Internet, or the like, a communication connector, or the like.
  • the communication by the communication unit 13 may be wired communication such as USB communication, wireless LAN such as Wi-Fi, wireless communication such as Bluetooth (registered trademark), ZigBee, 4G (4th generation mobile communication system), or broadband.
  • the display unit 14 is a display device including, for example, an LCD (Liquid Crystal Display), a PDP (Plasma Display Panel), and an organic EL (Electro Luminescence) panel.
  • the display unit 14 displays a user interface of the terminal device 10, an interface presented to the user for processing by the information processing device 100, and the like.
  • the input unit 15 receives a user's operation input to the terminal device 10. When an input is made from the user to the input unit 15, an input signal corresponding to the input is generated and output to the control unit 11. Then, the control unit 11 performs arithmetic processing corresponding to the input signal and controls the terminal device 10.
  • a touch panel integrated with the display unit 14 a pointing device that operates by tracing a flat sensor that is not integrated with the display unit 14 called a track pad or a touch pad with a finger, There are keyboard, mouse, etc.
  • the camera section 16 includes an image sensor, an image processing LSI, and the like, and has a camera function capable of capturing still images and videos.
  • the still image or video captured by the camera unit 16 can be used for performance information generation processing in the information processing device 100.
  • the camera unit 16 is not an essential component of the terminal device 10.
  • the information processing apparatus 100 performs the performance information generation processing according to the present technology. Details of the information processing device 100 will be described later.
  • the terminal device 10 is configured as described above. Specific examples of the terminal device 10 include a personal computer, a notebook computer, a tablet terminal, a smartphone, an electronic keyboard, a synthesizer, and a DAW (Digital Audio Workstation).
  • a personal computer a notebook computer
  • a tablet terminal a smartphone
  • an electronic keyboard a synthesizer
  • a DAW Digital Audio Workstation
  • the information processing apparatus 100 includes an image input unit 101, a position recognition unit 102, a shape recognition unit 103, a motion recognition unit 104, a musical instrument recognition unit 105, a relevance recognition unit 106, a performance information generation unit 107, and a score information generation unit 108. It is configured.
  • a plurality of continuous still images or a plurality of continuous frame images constituting a moving image are input to the image input unit 101 as an input image to be processed.
  • the image input unit 101 supplies the input image to the position recognition unit 102 and the musical instrument recognition unit 105.
  • the input image to be processed in the present technology is each of a plurality of continuous still images and each of a plurality of frame images forming a moving image.
  • the input image may be an image captured by the camera unit 16 included in the terminal device 10 or an image captured by a camera other than the camera unit 16 and captured by the information processing device 100 via the terminal device 10. Further, the information may be supplied from another external device to the information processing device 100 via the terminal device 10. Further, it may be a photograph of a performance actually performed in front of the eyes of the user of the information processing apparatus 100, or a photograph of a video displayed on a display such as a television or a personal computer. Further, a commercially available DVD, a video recorded on Blue @ ray (registered trademark), a still image or a video that can be obtained on the Internet, or the like may be used. That is, the input image may be any image as long as the image shows a state where the player is performing. The input image may be an IR image or the like in addition to the RBG (Red, Green, Blue) image.
  • RBG Red, Green, Blue
  • the input image according to the first embodiment shows the entire area (performance area) for the performance in which both hands of the player and the hand of the player touch on the instrument played by the player. Is what it is.
  • the position recognizing unit 102 detects a human body hand recognition technique such as Hand Pose Detection, Hand Pose Estimation, and Hand segmentation from an input image, a feature point extraction method such as HOG (Histogram of Oriented Gradient), SIFT (Scale Invariant Feature Transform), A three-dimensional hand, which is a part of the player's body in an input image, is obtained by a subject recognition method using pattern recognition such as Boosting, SVM (Support Vector Machine), a region extraction method using Graph Cut, or the like, or a CNN (Convolutional Neural Network). Recognize the position.
  • Boosting Boosting
  • SVM Serial Vector Machine
  • a region extraction method using Graph Cut or the like
  • CNN Convolutional Neural Network
  • the position recognizing unit 102 also recognizes finger positions, arm positions, elbow positions, and the like as parts of the player's body as necessary for generating performance information, in addition to the hands.
  • the three-dimensional hand position information is supplied to the shape recognition unit 103, the motion recognition unit 104, and the relevance recognition unit 106.
  • Feature point P1 (x 11, y 11 , z 11)
  • Feature point P2 (x 12, y 12 , z 12)
  • Feature point P3 (x 13, y 13 , z 13)
  • Feature point P4 (x 14, y 14 , z 14)
  • Feature point P5 (x 15, y 15 , z 15) It is represented as
  • Feature point P1 (x 21, y 21 , z 21)
  • Feature point P2 (x 22, y 22 , z 22)
  • Feature point P3 (x 23, y 23 , z 23)
  • Feature point P4 (x 24, y 24 , z 24)
  • Feature point P5 (x 25, y 25 , z 25) It is represented as
  • the three-dimensional position information of the hand may be the global coordinate system of the camera origin, or the local coordinate system + depth information on the input image.
  • the three-dimensional position of the hand may be obtained using the center of gravity and Depth information of the region obtained by Hand Segmentation.
  • FIG. 4 is a diagram in which characteristic points are recognized at the tips of five fingers of the hand for convenience of description, but in reality, as shown by a plurality of black dots superimposed on the hand in FIG. For example, a number of feature points such as a joint part, a web part, and a wrist of each finger are recognized. Recognition of a large number of feature points enables more accurate performance information to be generated.
  • a predetermined position of the cut-out image which is a coordinate system different from the (x, y, z) coordinate system, is set as an origin ( utP , vtP). , d tP ).
  • the shape recognizing unit 103 recognizes the shape of the hand indicated by the position information supplied from the position recognizing unit 102 using a technique such as CNN, pattern matching, and boosting.
  • the hand shape information is supplied to the motion recognition unit 104 and the performance information generation unit 107.
  • the motion recognition unit 104 recognizes, using techniques such as CNN and Hand ⁇ Tracking, the motion of the player's hand whose position and shape have been recognized.
  • the hand movement information is supplied to the performance information generation unit 107.
  • the hand movement can be recognized from a change in motion vector between one input image (t) of a plurality of continuous input images and an input image (t + n) subsequent to the input image (t) in time series. it can.
  • the musical instrument recognition unit 105 recognizes a musical instrument in an input image and a performance area (performance area) in which the player's hand touches the musical instrument in the input image using techniques such as CNN and pattern matching.
  • the performance area is, for example, a keyboard when the musical instrument is a piano, a pickup portion (a sound hole when the musical instrument is an acoustic guitar) and a neck when the musical instrument is a guitar.
  • the instrument recognition information is supplied to the association recognition unit 106.
  • the relevance recognizing unit 106 recognizes the relevancy between the position of the player's hand and the playing area of the musical instrument using techniques such as CNN and pattern matching.
  • the relevance is a relation between a player and a musical instrument for playing a musical instrument, that is, a contact position indicating where the player's hand is in contact with the musical instrument playing area.
  • the relevance is the direction of movement of the player's hands, arms, elbows, and other parts with respect to the performance area of the instrument.
  • the relevancy information is supplied to the performance information generation unit 107.
  • the performance information generation unit 107 recognizes whether or not the player is in a performance state by using a technique such as CNN. Then, in the input image, a performance element based on a state in which the player is performing (first performance element), a performance element based on a state in which the player is not performing (second performance element), and a performance spanning a plurality of input images Performance information (partial performance information) corresponding to one input image is generated from the element (third performance element).
  • a technique such as CNN
  • the first performance element varies depending on the musical instrument, but a keyboard instrument such as a piano has a scale, a sound length, a tempo, a strength and a weakness. Similarly, a stringed instrument such as a guitar has a scale, a sound length, and a sound intensity. Further, for percussion instruments such as drums, there are a type of drum set to be hit, a sound length, a tempo, a strength and the like.
  • the second performance element there is a length of rest for any musical instrument.
  • the third performance element there are a tempo, a sound length, a rest length, a key, a sound intensity, and the like.
  • the dynamics of the sound, the duration of the sound, etc. are also the first performance element and the third performance element.
  • the strength and duration of the sound can be estimated from one input image. If there is, a plurality of input images may be required for estimation. For example, when the player's finger is located far away from the musical performance area of the musical instrument in one input image, it can be estimated from the single input image that the sound is strong. In the case where the image moves finely near the performance area, the strength cannot be estimated with one image, and it is necessary to estimate the strength by recognizing the movement of the player's finger with reference to a plurality of input images. .
  • the hand position recognized by the position recognition unit 102 and the hand shape recognized by the shape recognition unit 103 the hand position recognized by the position recognition unit 102 and the hand shape recognized by the shape recognition unit 103 Then, on the basis of the musical instrument recognized by the musical instrument recognizing unit 105 and the performance area, it recognizes which keyboard of the musical instrument's performance area the finger of the player touches.
  • chord composed of a plurality of sounds
  • the length of the sound can be recognized.
  • chords Recognition of chords (chords) is performed, for example, when the musical instrument is a guitar, as shown in FIGS. 6A and 6B. A plurality of images are stored for each type of chord (chord). Then, by comparing (template matching) the finger position information and the finger shape information extracted from the input image with the template image (template matching), a chord (chord) having the closest finger position and shape is determined.
  • chords are performed in advance by the performance information generation unit 107 by transmitting coordinate information of finger characteristic points indicating finger positions when playing chords (chords) to chords (chords). It is also possible to hold a plurality of types for each type and compare the coordinate information with the position information (coordinate information) of the finger extracted from the input image.
  • a performance that can be recognized from one input image (t) and an input image (t + n) subsequent to the input image (t) in time series. It is possible to recognize whether or not the player is performing from the movement of the user's hand in a substantially vertical direction, the strength of the performance, the tempo, and the like.
  • the substantially vertical direction is substantially perpendicular to the direction in which the keyboards are arranged when the instrument is a piano. Whether or not the player is playing can be determined based on whether or not the hand is off the keyboard of the musical instrument.
  • the strength of the performance can be determined from the position of the hand (hand height) in a substantially vertical direction. For example, it can be determined that the sound is stronger when the hand is farther away from the keyboard in the vertical direction, and the sound is weaker when the hand is closer to the keyboard in the vertical direction.
  • the tempo of the music can be recognized from the time interval of the regular up and down movement in the vertical direction of the hand.
  • the frame rate constituting the video is associated with real time, and the player's regular movements in real time are It can be obtained from the operation interval and the video playback time.
  • the scale is recognized from the movement of the player's hand in a substantially horizontal direction that can be recognized from one input image (t) and the input image (t + n) subsequent to the input image (t) in time series. can do.
  • the substantially horizontal direction is a direction substantially horizontal to the direction in which the keyboards are arranged when the musical instrument is a piano. Specifically, by changing the position of the hand with respect to the piano in a substantially horizontal direction, it is possible to know which area of the piano's keyboard is being played, thereby recognizing the scale being played, such as changes in the range and octave. it can.
  • the movement of the hand in the substantially vertical direction and the movement in the substantially horizontal direction include the input image (t) of one of a plurality of continuous input images and the input image (t + n) subsequent to the input image (t) in time series. Can be recognized from the change of the motion vector.
  • the third performance element can be generated based on a change in a player's finger or arm across a plurality of input images. For example, it can be determined that the longer the time the hand is separated from the keyboard in the vertical direction over a plurality of input images, the stronger the sound to be played next is, and thus the third performance element can be used.
  • the tempo of the music can be recognized from the time interval of the vertical movement in the vertical direction of the hand straddling a plurality of input images, and can be used as the third performance element.
  • the performance information generation unit 107 connects partial performance information corresponding to each of the plurality of input images in chronological order, thereby forming a composite performance of a phrase composed of the plurality of input images, a part or all of a song. Generate information.
  • the composite performance information of a part of a phrase or a piece of music is performance information in units of one or more measures.
  • the partial performance information and the composite performance information are not limited to music notation written in staff notation. What kind of information can be used if a player, a computer, software for music performance, software for music creation, etc. can reproduce music based on the information. Format information may be used. For example, information in a MIDI (Musical Instrument Digital Interface) format, information in a programming format, information in a format unique to music performance / production software, and the like may be used.
  • MIDI Musical Instrument Digital Interface
  • the musical score information generating section 108 When the partial performance information is supplied from the performance information generating section 107, the musical score information generating section 108 generates partial musical score information corresponding to one input image.
  • composite performance information is supplied from the performance information generation unit 107, composite musical score information that is the musical score information of a part or all of a phrase composed of a plurality of input images and music is generated.
  • the musical score referred to here is a musical score written in a staff notation, and information constituting the musical score information includes a note, a rest, a time signature, a tempo, an accidental key, a key signature, strength and the like.
  • the accidental information can be derived from the musical scale being played, which is the first performance element based on the state in which the player is playing, and the key, which is the third performance element spanning a plurality of input images.
  • the information processing apparatus 100 is configured as described above.
  • the information processing apparatus 100 is configured by a program, and the program may be installed in the terminal device 10 in advance, or may be downloaded, distributed on a storage medium, or the like, and may be installed in the terminal device 10 by the user.
  • the information processing apparatus 100 may be realized not only by a program but also by a combination of a dedicated device, a circuit, and the like using hardware having the function.
  • step S101 an input image is input to the image input unit 101.
  • This input image may be a single still image or a frame image, a plurality of continuous still images, or a plurality of continuous frame images constituting a moving image.
  • the user may be able to select which input image to generate partial performance information for.
  • step S102 the three-dimensional position of the player's hand in the input image is recognized by the position recognition unit 102, and the hand position information is supplied to the shape recognition unit 103, the motion recognition unit 104, and the association recognition unit 106. .
  • step S103 the shape recognizing unit 103 recognizes the shape of the hand whose position has been recognized in the input image.
  • the hand shape information is supplied to the motion recognition unit 104 and the performance information generation unit 107.
  • step S104 the movement recognition unit 104 recognizes the movement of the hand whose position and shape have been recognized.
  • the hand movement information is supplied to the performance information generation unit 107.
  • step S105 the musical instrument and the playing area in the input image are recognized by the musical instrument recognition unit 105.
  • the musical instrument information and the performance area information are supplied to the association recognizing unit 106.
  • the recognition processing of the position, shape, and movement of the player's hand in steps S102 to S104 and the recognition of the musical instrument and the playing area in step S105 may be performed in parallel. You may go first.
  • step S106 the relevance of each finger of the hand and the position of the playing area of the corresponding musical instrument is recognized by the relevance recognition unit 106.
  • the relevance indicates where the player's hand is located in the performance area of the musical instrument, and the relevancy information is supplied to the performance information generation unit 107.
  • step S107 the performance information generation unit 107 determines whether or not the player is playing a musical instrument in the input image based on the hand movement information and the relevance information.
  • step S109 the performance information generation unit 107 generates a first performance element from the three-dimensional position information of the hand, hand shape information, hand movement information, and relevance information.
  • step S107 determines whether the player is playing. If the result of determination in step S107 is that the player is not performing, processing proceeds from step S108 to step S110 (No in step S108). Then, in step S110, the performance information generation unit 107 generates a second performance element.
  • step S111 the performance information generation unit 107 generates partial performance information corresponding to the input image from the first performance element or the second performance element. Then, in step S112, the partial performance information is output.
  • the output partial performance information can be displayed on the display unit 14 of the terminal device 10 or used in music performance software, music production software, and the like provided in the terminal device 10. Further, the musical score information generating unit 108 may generate musical score information based on the performance information in response to a request from a user, a player, or the like. Further, the partial performance information can be stored in the storage unit 12 of the terminal device 10 and read out from the storage unit 12 and used as needed.
  • the process of the flowchart of FIG. 8 is a process of generating composite performance information that is performance information of a phrase or a part or all of a song composed of a plurality of input images.
  • step S101 a plurality of continuous still images or a plurality of continuous frame images constituting a moving image are input to the image input unit 101 as an input image.
  • the user may be able to select from which input image to start processing.
  • step S101 to step S111 are the same as those in the flowchart of FIG.
  • step S121 the performance information generation unit 107 determines whether there is a third performance element that is a performance element extending over a plurality of input images. Whether there is a third performance element straddling a plurality of input images can be determined as follows. For example, in the case of the strength (loudness) of the sound, the strength of the performance recognized in the input image (t) currently being processed is higher than the strength of the performance recognized in the input image (t-1) which is the immediately preceding input image. When it becomes stronger, a performance element "gradually stronger" can be derived from the input image (t-1) to the input image (t).
  • a performance element of "gradually stronger” can be derived.
  • the performance element in the past input image is recognized based on the performance element in the current input image based on the state of each of the plurality of input images to be processed, the “performance element spanning between frames, There is a performance element.
  • step S122 If there is a third performance element extending over a plurality of input images, the process proceeds to step S122 (Yes in step S121), and the partial performance information is added by adding the third performance element to the partial performance information generated in step S111. Update. Then, the process proceeds from step S122 to step S123.
  • the third performance element may be a component of the partial performance information in the partial performance information similarly to the first performance element and the second performance element, or may be associated with the partial performance information by associating it with the separate performance information. Is also good.
  • step S121 if there is no third performance element spanning a plurality of images in step S121, the process proceeds to step S123 (No in step S121).
  • step S123 it is determined whether there is a next input image to be processed. If there are still unprocessed images in a plurality of continuous still images or a plurality of continuous frame images constituting a moving image input to the image input unit 101 in step S101, it is determined that there is a next input image. Returns to step S102 (Yes in step S123). Then, the processes of steps S102 to S123 are performed on the input image in the next order in a time series (if it is a frame image, the image of the next frame number). Steps S102 to S123 are repeated until the processing is performed on each of all the input images that have been input.
  • step S123 If there is no image to be processed in step S123, the process proceeds to step S124 (No in step S123).
  • step S124 the performance information generation unit 107 connects the partial performance information corresponding to each of the plurality of input images in a time series, thereby forming a phrase, a part of a song, or a part of the plurality of input images. Generate all composite performance information.
  • the performance information generation unit 107 outputs composite performance information.
  • the output composite performance information can be displayed on the display unit 14 of the terminal device 10 or used in music performance software, music production software, or the like provided in the terminal device 10.
  • the score information generating unit 108 may generate the composite score information based on the composite performance information in response to a request from a user, a player, or the like. Further, when the composite performance information is output, the partial performance information may also be output.
  • the processing according to the first embodiment is performed as described above. According to the first embodiment of the present technology, it is possible to generate performance information and score information based on a plurality of continuous still images or a plurality of frame images forming a moving image. As a result, even people who do not have specialized knowledge can easily obtain performance information and score information. Also, for example, performance information and musical score information can be generated based on video data having no sound, video data having deteriorated / damaged sound, and the like. Further, even in an environment where audio cannot be output, performance information can be generated based only on video data.
  • the input image for generating the performance information is, for example, when the musical instrument is a piano, captured from above, which can recognize both the keyboard, which is the performance area of the piano, and both hands of the player.
  • the musical instrument is a guitar
  • it is preferable that the image is taken from the front which can recognize both hands of the pickup part (sound hole in the case of acoustic guitar) which is the playing area of the guitar and the neck and the playing area.
  • This technology can be used for scores of improvisations of yourself or other players, score creation of musical instrument practice, score creation for playing your favorite artist song, composition, arrangement, etc. Also, when composing or arranging, it is possible to try various performances, phrases, and the like with musical instruments, and to obtain necessary performance patterns or all performance patterns as performance information and score information. Also, there is no need to repeat the steps of “writing a score and playing with an instrument” or “playing with an instrument and writing a score if it is good”.
  • Second Embodiment> [2-1. Configuration of Information Processing Apparatus]
  • performance information is generated when a part of a hand, which is a part of a player's body, is covered or hidden in an input image. is there.
  • a part of the player's left hand is hidden.
  • the configuration of the terminal device 10 on which the information processing device 100 operates is the same as in the first embodiment, and a description thereof will be omitted.
  • the information processing apparatus 200 includes an image input unit 101, a sensor information acquisition unit 201, a first position recognition unit 202, a second position recognition unit 203, a shape recognition unit 103, a motion recognition unit 104, and a musical instrument recognition unit. 105, a relevance recognition unit 106, a performance information generation unit 107, and a score information generation unit 108.
  • the image input unit 101, the shape recognition unit 103, the motion recognition unit 104, the musical instrument recognition unit 105, the relevance recognition unit 106, the performance information generation unit 107, and the score information generation unit 108 are the same as those in the first embodiment. .
  • the sensor information acquisition unit 201 acquires sensor information obtained by an external sensor provided in the terminal device 10 or connected to the terminal device 10 and supplies the sensor information to the second position recognition unit 203.
  • the sensors include a microphone, a pressure sensor, a motion sensor, and the like.
  • the first position recognition unit 202 recognizes the position of the player's hand which is not hidden in the input image, and is similar to the position recognition unit 102 in the first embodiment.
  • the first position recognition unit 202 uses a human hand recognition technique called Hand Pose Detection, Hand Pose Estimation, or the like, or a feature point such as HOG or SIFT from an input image.
  • the three-dimensional position of the hand, which is a part of the player's body, in the input image is recognized by an extraction method, a subject recognition method by pattern recognition such as Boosting, SVM, a region extraction method by Graph @ Cut, or the like, or a CNN.
  • the second position recognition unit 203 recognizes, using the auxiliary information, the three-dimensional position of the player's hand that is partially hidden by being occluded in the input image.
  • the auxiliary information includes sensor information supplied from the sensor information acquisition unit 201 and the like. Examples of the sensor information include a performance sound collected by a microphone, pressure sensor information indicating a force of a hand or a finger pressing an instrument, and motion sensor information indicating a movement of a player's arm / hand / finger. Further, the auxiliary information includes position / shape / movement information of the player's arm and / or elbow recognized using the same method as the first position recognition unit 202.
  • the position of the hand (hidden hand) at the tip of the arm beyond the player's elbow is estimated and recognized in the playing area of the instrument. can do.
  • the position information acquired by the first position recognizing unit 202 and the second position recognizing unit 203 is information indicating a three-dimensional position, for example, the (x, y, z) with a predetermined position of the input image as the origin Expressed in coordinates. Further, in a cut-out image obtained by cutting out a partial area of the input image, coordinates are represented by (u, v, d) with a predetermined position of the cut-out image as an origin. This is the same as in the first embodiment.
  • the position information is supplied to the shape recognition unit 103 and the association recognition unit 106.
  • the information processing apparatus 200 according to the second embodiment is configured as described above.
  • FIG. 11 corresponds to the processing for generating the partial performance information corresponding to one input image described in the first embodiment.
  • step S101 when an input image is input to the image input unit 101, it is determined in step S201 whether a part of the hand is hidden in the input image. This can be determined, for example, based on whether the first position recognition unit 202 has recognized the entire two hands.
  • step S202 If the hand is partially hidden, the process proceeds to step S202 (Yes in step S201), and the second position recognition unit 203 recognizes the partially hidden player's hand using the auxiliary information.
  • step S103 the first position recognition unit 202 recognizes the player's hand.
  • performance information and score information can be generated in the same manner as in the first embodiment.
  • the information processing apparatus 300 includes an image input unit 101, a sensor information acquisition unit 301, a position recognition unit 102, a shape recognition unit 103, a motion recognition unit 104, a musical instrument recognition unit 105, a relevance recognition unit 106, It comprises a performance information generator 107 and a score information generator 108.
  • the image input unit 101, the position recognition unit 102, the shape recognition unit 103, the motion recognition unit 104, the performance information generation unit 107, and the score information generation unit 108 are the same as those in the first embodiment.
  • the sensor information acquiring unit 201 acquires sensor information acquired by an external sensor provided in the terminal device 10 or connected to the terminal device 10 and supplies the acquired sensor information to the performance information generating unit 107.
  • the sensors include a microphone, a pressure sensor, a motion sensor, and the like.
  • the musical instrument recognition unit 105 recognizes a musical instrument in an input image and a performance area (performance area) in which the player's hand touches the musical instrument in the input image using techniques such as CNN, pattern matching, and template matching. is there. Therefore, for example, when only a part of the musical instrument matches the template in the template matching, it is determined that the recognized musical instrument has a part hidden or not reflected.
  • the instrument recognition information is supplied to the association recognition unit 106 together with information indicating that only a part of the instrument is reflected in the input image.
  • the relevance recognizing unit 106 recognizes the relevancy between the position of the player's hand and the playing area of the musical instrument using techniques such as CNN and pattern matching.
  • the relevance is a contact position indicating where the player's hand is in contact with the playing area of the instrument.
  • the relevance is the direction of movement of the player's hand with respect to the playing area of the instrument.
  • the relevance recognizing unit 106 sets the hand position information, the hand shape information, and the substantially horizontal direction with respect to the direction in which the keyboard, which is the playing area of the musical instrument (eg, piano), is arranged.
  • the relevancy information is supplied to the performance information generation unit 107.
  • the performance information generation unit 107 estimates the keyboard with which the finger is in contact using the sensor information as auxiliary information.
  • the sensor information include a performance sound collected by a microphone, pressure sensor information indicating a force of a hand or a finger pressing an instrument, and motion sensor information indicating a movement of a player's arm / hand / finger.
  • the relevance recognition unit 106 estimates the keyboard with which a finger is in contact from the input image and arm and hand movement information, thereby performing To estimate the relevance between the finger and the playing area of the instrument.
  • the first performance element, the second performance element, and the third performance element can be generated from the estimation result in the same manner as in the first embodiment.
  • the information processing device 300 according to the third embodiment is configured as described above.
  • FIG. 15 corresponds to the processing for generating the performance information and the musical score information corresponding to one input image described in the first embodiment.
  • Steps S101 to S105 are the same as the processing in the first embodiment.
  • step S301 the relevance recognizing unit 106 determines whether or not the entire performance area of the instrument is reflected in the input image. If the entire performance area of the instrument is reflected, the process proceeds to step S106 (Yes in step S301). Then, the processing of steps S106 to S112 is performed in the same manner as in the first embodiment.
  • step S302 the relevance is estimated by the relevance recognition unit 106 using the hand position information, the sensor information, and the like.
  • steps S106 to S112 are performed in the same manner as in the first embodiment, and partial performance information is generated and output.
  • the performance information and the score information can be generated similarly to the first embodiment even if a part of the musical instrument is not shown in the input image.
  • the performance information and the score information can be generated from a plurality of continuous still images or a plurality of frame images constituting a moving image without the sound of the performance, but the present technology excludes the use of the sound. Not something.
  • Sound information may be used as auxiliary information when generating performance information and musical score information, or sound information may be used when checking the accuracy of the generated performance information and musical score information. For example, voice recognition processing is performed on the audio of the input video to recognize the scale based on the frequency of the sound, and to recognize whether the sound is strong or weak based on the volume.
  • the present technology is not limited to the piano, guitar, and drum described in the embodiment, and can be used for playing musical instruments such as xylophone, iron toy, and percussion.
  • the performance information may be generated by recognizing a performance operation such as a performance operation.
  • the performance information may be generated based on any operation of the performance of the musical instrument that can be recognized from the input image.
  • a part of the musical instrument not shown in the input image may be estimated, and the performance information generation unit 107 may generate the performance information based on the estimation result.
  • the present technology can also have the following configurations.
  • a position recognition unit that recognizes a position of a body part of the player from the input image;
  • An instrument recognition unit that recognizes an instrument from the input image;
  • An information processing apparatus comprising: a performance information generating unit configured to generate performance information indicating performance of the musical instrument by the player based on a relationship between the position of the part and the musical instrument.
  • a shape recognition unit that recognizes the shape of the part recognized by the position recognition unit, The information processing device according to (1), wherein the performance information generation unit generates the performance information based on a relationship between the shape of the part and the musical instrument.
  • a movement recognition unit that recognizes the movement of the part recognized by the position recognition unit, The information processing device according to (1) or (2), wherein the performance information generation unit generates the performance information based on the association between the movement of the part and the musical instrument.
  • the performance information includes a first performance element corresponding to a state in which the player is playing the musical instrument.
  • the first performance element includes a scale played by the player.
  • the performance information includes a second performance element corresponding to a state in which the player does not play the musical instrument. 3.
  • the information processing device includes a length of a rest that is not performed by the player.
  • the performance information includes a third performance element that is an element spanning the plurality of input images.
  • the information processing device includes a tempo of a song played by the player.
  • the performance information generation unit generates the performance information corresponding to one input image.
  • the performance information generation unit generates performance information corresponding to a part or all of the performance of the musical instrument constituted by the plurality of input images.
  • the information processing apparatus according to any one of (1) to (11), wherein the association is a contact position of the part with the musical instrument. (13) The information processing apparatus according to any one of (1) to (12), wherein the association is a direction of movement of the part with respect to the musical instrument. (14) The information processing apparatus according to any one of (1) to (13), wherein the part is a hand of the player. (15) The information processing apparatus according to any one of (1) to (14), further comprising a score information generating unit configured to generate score information from the performance information. (16) When a part of the part is not shown in the input image, the position of a part of the part is estimated, and the performance information generation unit generates the performance information based on the estimation result (1) to (15).
  • the performance information generation unit estimates the association between the part and the part of the musical instrument, and generates the performance information based on the estimation result ( The information processing apparatus according to any one of (1) to (16). (18) The information processing apparatus according to any one of (1) to (17), wherein the performance information generation unit generates the performance information using sound information as auxiliary information. (19) Recognize the position of the performer's body from the input image, Recognizing a musical instrument from the input image, An information processing method for generating performance information indicating a performance of the musical instrument by the player based on a relationship between the position of the part and the musical instrument.
  • An information processing program for causing a computer to execute an information processing method for generating performance information indicating a performance of the musical instrument by the player based on a relationship between the position of the part and the musical instrument.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

入力画像から演奏者の身体の部位の位置を認識する位置認識部と、入力画像から楽器を認識する楽器認識部と、部位の位置と楽器との関連性に基づき、演奏者による楽器の演奏を示す演奏情報を生成する演奏情報生成部とを備える情報処理装置である。

Description

情報処理装置、情報処理方法および情報処理プログラム
 本技術は、情報処理装置、情報処理方法および情報処理プログラムに関する。
 従来から、ダンスなどの人のパフォーマンスをデータ化するシステムが提案されている(特許文献1)。
特開2016-24740号公報
 特許文献1に記載のシステムは、3次元空間におけるパフォーマーのダンス動作が記録された譜面データを生成するものである。このような動作をデータ化する手法においては、動作の種別によってデータ化のために必要な情報や処理が異なるため、そのまま他の動作、例えば楽器演奏などに適用することは難しい。
 本技術はこのような点に鑑みなされたものであり、画像から楽器の演奏を示す情報を取得することができる情報処理装置、情報処理方法および情報処理プログラムを提供することを目的とする。
 上述した課題を解決するために、第1の技術は、入力画像から演奏者の身体の部位の位置を認識する位置認識部と、入力画像から楽器を認識する楽器認識部と、部位の位置と楽器との関連性に基づき、演奏者による楽器の演奏を示す演奏情報を生成する演奏情報生成部とを備える情報処理装置である。
 また、第2の技術は、入力画像から演奏者の身体の部位の位置を認識し、入力画像から楽器を認識し、部位の位置と楽器との関連性に基づき、演奏者による楽器の演奏を示す演奏情報を生成する情報処理方法である。
 さらに、第3の技術は、入力画像から演奏者の身体の部位の位置を認識し、入力画像から楽器を認識し、部位の位置と楽器との関連性に基づき、演奏者による前記楽器の演奏を示す演奏情報を生成する情報処理方法をコンピュータに実行させる情報処理プログラムである。
端末装置の構成を示すブロック図である。 第1の実施の形態における情報処理装置の構成を示すブロック図である。 第1の実施の形態における入力画像の一例を示す図である。 演奏者の手の認識についての説明図である。 演奏者の手の認識についての説明図である。 和音(コード)の認識についての説明図である。 第1の実施の形態における部分演奏情報の生成処理を示すフローチャートである。 第1の実施の形態における複合演奏情報の生成処理を示すフローチャートである。 第2の実施の形態における入力画像の一例を示す図である。 第2の実施の形態に係る情報処理装置の構成を示すブロック図である。 第2の実施の形態における部分演奏情報の生成処理を示すフローチャートである。 第2の実施の形態における複合演奏情報の生成処理を示すフローチャートである。 第3の実施の形態における入力画像の一例を示す図である。 第3の実施の形態に係る情報処理装置の構成を示すブロック図である。 第3の実施の形態における部分演奏情報の生成処理を示すフローチャートである。 第3の実施の形態における複合演奏情報の生成処理を示すフローチャートである。
 以下、本技術の実施の形態について図面を参照しながら説明する。なお、説明は以下の順序で行う。
<1.第1の実施の形態>
[1-1.端末装置の構成]
[1-2.情報処理装置の構成]
[1-3.情報処理装置による処理]
[1-3-1.部分演奏情報の生成]
[1-3-2.複合演奏情報の生成]
<2.第2の実施の形態>
[2-1.情報処理装置の構成]
[2-2.情報処理装置の処理]
<3.第3の実施の形態>
[3-1.情報処理装置の構成]
[3-2.情報処理装置の処理]
<4.変形例>
<1.第1の実施の形態>
[1-1.端末装置の構成]
 まず図1を参照して端末装置10について説明する。端末装置10は、制御部11、記憶部12、通信部13、表示部14、入力部15、カメラ部16および情報処理装置100を備えている。
 制御部11は、CPU(Central Processing Unit)、RAM(Random Access Memory)およびROM(Read Only Memory)などから構成されている。ROMには、CPUにより読み込まれ動作されるプログラムなどが記憶されている。RAMは、CPUのワークメモリとして用いられる。CPUは、ROMに記憶されたプログラムに従い様々な処理を実行してコマンドの発行を行うことによって端末装置10全体の制御を行う。
 記憶部12は、例えば、ハードディスク、半導体メモリなどを用いた大容量記憶媒体である。記憶部12は、カメラ部16により撮影された撮影画像、撮影映像や、情報処理装置100により生成された演奏情報や楽譜情報、さらにコンテンツやアプリケーションなどを保存することができる。
 通信部13は、他の装置、インターネットなどと通信するための通信モジュール、通信用コネクタなどである。通信部13による通信は、USB通信などの有線通信、Wi-Fiなどの無線LAN、Bluetooth(登録商標)、ZigBee、4G(第4世代移動通信システム)、ブロードバンドなどの無線通信などなんでもよい。
 表示部14は、例えば、LCD(Liquid Crystal Display)、PDP(Plasma Display Panel)、有機EL(Electro Luminescence)パネルなどにより構成された表示デバイスである。表示部14には、端末装置10のユーザインターフェース、情報処理装置100による処理のためにユーザに提示するインターフェースなどが表示される。
 入力部15は、ユーザの端末装置10に対する操作入力を受け付けるものである。入力部15に対してユーザから入力がなされると、その入力に応じた入力信号が生成されて制御部11に出力される。そして、制御部11はその入力信号に対応した演算処理、端末装置10の制御を行う。入力部15としては、表示部14と一体に構成されたタッチパネル、トラックパッドやタッチパッドと称される表示部14とは一体となっていない平板状のセンサーを指でなぞって操作するポインティングデバイス、キーボード、マウスなどがある。
 カメラ部16は撮像素子、画像処理用LSIなどを備え、静止画像および映像の撮影が可能なカメラ機能を備えるものである。カメラ部16により撮影された静止画像または映像は情報処理装置100における演奏情報生成処理に用いることができる。なお、カメラ部16は端末装置10の必須の構成要素ではない。
 情報処理装置100は、本技術に係る演奏情報生成処理を行うものである。情報処理装置100の詳細は後述する。
 端末装置10は以上のようにして構成されている。端末装置10の具体例としてはパーソナルコンピュータ、ノートパソコン、タブレット端末、スマートフォン、電子キーボード、シンセサイザー、DAW(Digital Audio Workstation)などが挙げられる。
[1-2.情報処理装置の構成]
 次に図2を参照して情報処理装置100の構成について説明する。情報処理装置100は、画像入力部101、位置認識部102、形状認識部103、動き認識部104、楽器認識部105、関連性認識部106、演奏情報生成部107、楽譜情報生成部108とから構成されている。
 画像入力部101には処理対象となる入力画像としての複数枚の連続する静止画像、または動画を構成する連続する複数のフレーム画像が入力される。画像入力部101は、入力画像を位置認識部102と楽器認識部105に供給する。本技術における処理対象である入力画像は、複数枚の連続する静止画像のそれぞれ、動画を構成する複数のフレーム画像のそれぞれである。
 なお、入力画像は端末装置10が備えるカメラ部16で撮影したものでもよいし、カメラ部16以外のカメラで撮影して端末装置10を介して情報処理装置100に取り込んだものでもよい。また、外部の別の装置から端末装置10を介して情報処理装置100に供給したものでもよい。また、現実に情報処理装置100の使用者の眼の前で行われている演奏を撮影したものでもよいし、テレビ、パーソナルコンピュータなどのディスプレイに表示されている映像を撮影したものでもよい。また、市販のDVD、Blue ray(登録商標)に収録された映像、インターネット上で取得可能な静止画像や映像などでもよい。すなわち、入力画像は、演奏者が演奏している様子が映っている画像であればどのようなものでもよい。また、入力画像はRBG(Red,Green,Blue)画像の他、IR画像などでもよい。
 第1の実施の形態における入力画像は図3に示すように、演奏者の両手、演奏者が演奏する楽器において演奏者の手が接触する演奏のための領域(演奏領域)の全体が写っているものである。
 位置認識部102は、入力画像からHand Pose Detection、Hand Pose Estimation、Hand segmentationなどの人体の手認識技術や、HOG(Histogram of Oriented Gradient)、SIFT(Scale Invariant Feature Transform)などの特徴点抽出方法、Boosting、SVM(Support Vector Machine)などのパターン認識による被写体認識方法、Graph Cutなどによる領域抽出方法、CNN(Convolutional Neural Network)などにより、入力画像中における演奏者の身体の部位である手の3次元位置を認識する。また位置認識部102は、手に加えて、演奏情報生成のために必要に応じて演奏者の身体の部位としての手の指の位置、腕の位置、肘の位置なども認識する。手の3次元位置情報は形状認識部103、動き認識部104および関連性認識部106に供給される。
 手の3次元位置を認識するための手の特徴点としては指先、指の関節、手首などがある。位置情報は入力画像中における演奏者の手の3次元位置を示す情報であるため、例えば、入力画像の所定の位置を原点(0,0,0)とした(x,y,z)の座標で表される。連続する入力画像の番号をt(t=1、2、3、・・・)とし、手の特徴点をP(P=1、2、3、・・・)とすると、位置情報は(xtP,ytP,ztP)という形式で表される。
 例えば図4Aに示すように、入力画像(t=1)では、手の特徴点が5つ認識された場合、それらは、
特徴点P1:(x11,y11,z11
特徴点P2:(x12,y12,z12
特徴点P3:(x13,y13,z13
特徴点P4:(x14,y14,z14
特徴点P5:(x15,y15,z15
のように表される。
また、図4Bに示すように、入力画像(t=2)では、手の特徴点が5つ認識された場合、それらは、
特徴点P1:(x21,y21,z21
特徴点P2:(x22,y22,z22
特徴点P3:(x23,y23,z23
特徴点P4:(x24,y24,z24
特徴点P5:(x25,y25,z25
のように表される。
 なお、手の3次元位置情報はカメラ原点のグローバル座標系でもよいし、入力画像上のローカル座標系+奥行き情報でもよい。また、Hand Segmentationで求めた領域の重心およびDepth情報を用いて手の3次元位置を求めてもよい。
 なお、図4は説明の便宜上手の5本の各指の先端に特徴点が認識された図であるが、実際には図5の手に重畳して表された複数の黒点が示すように例えば各指の関節部分、水かき部分および手首など多数の特徴点が認識される。このように多数の特徴点を認識したほうがより正確に演奏情報を生成することができる。
 また、入力画像の一部領域を切り出した切り出し画像においては、(x,y,z)の座標系とは異なる座標系である、切り出し画像の所定の位置を原点とした(utP,vtP,dtP)の座標で表してもよい。
 形状認識部103は、CNN、パターンマッチング、Boostingなどの技術を用いて、位置認識部102から供給された位置情報で示される手の形状を認識する。手の形状情報は動き認識部104と演奏情報生成部107に供給される。
 動き認識部104は、CNN、Hand Trackingなどの技術を用いて、位置および形状が認識された演奏者の手の動きを認識する。手の動き情報は演奏情報生成部107に供給される。手の動きは、複数の連続する入力画像のうちの一の入力画像(t)と、時系列でその入力画像(t)以降の入力画像(t+n)との動きベクトルの変化から認識することができる。
 楽器認識部105は、CNN、パターンマッチングなどの技術を用いて、入力画像中における楽器およびその楽器において演奏者の手が接触する演奏のための領域(演奏領域)を認識するものである。演奏領域とは、例えば楽器がピアノであれば鍵盤、楽器がギターであればピックアップ部分(アコースティックギターであればサウンドホール)およびネックである。楽器認識情報は関連性認識部106に供給される。
 関連性認識部106は、CNN、パターンマッチングなどの技術を用いて演奏者の手の位置と楽器の演奏領域の関連性を認識する。関連性とは、楽器演奏のための演奏者と楽器の関連、すなわち、演奏者の手が楽器の演奏領域のどこに接触しているかを示す接触位置である。また、関連性は、楽器の演奏領域に対する演奏者の手、腕、肘などの部位の動作の方向である。関連性情報は演奏情報生成部107に供給される。
 演奏情報生成部107は、CNNなどの技術を用いて演奏者が演奏状態にあるか否かを認識する。そして、入力画像において演奏者が演奏している状態に基づく演奏要素(第1演奏要素)、演奏者が演奏してない状態に基づく演奏要素(第2演奏要素)、複数の入力画像に跨る演奏要素(第3演奏要素)とから入力画像の一枚に対応した演奏情報(部分演奏情報)を生成する。
 第1演奏要素は楽器によって異なるものではあるが、ピアノなどの鍵盤楽器では、音階、音の長さ、テンポ、強弱などがある。また、ギターなどの弦楽器でも同様に音階、音の長さ、音の強弱などがある。さらに、ドラムなどの打楽器では叩くドラムセットの種類、音の長さ、テンポ、強弱などがある。
 また、第2演奏要素としてはいずれの楽器においても、休みの長さ、などがある。第3演奏要素としては、テンポ、音の長さ、休みの長さ、調、音の強弱などがある。音の強弱、音の長さなどは第1の演奏要素でもあり、第3の演奏要素でもあるが、これは入力画像1枚で音の強弱や音の長さを推定することができる場合もあれば、推定に複数枚の入力画像を必要とする場合もあるからである。例えば、1枚の入力画像において演奏者の指が楽器の演奏領域から大きく離れている位置にある場合はその1枚の入力画像から音が強いことを推定することができるが、指が楽器の演奏領域の近くで細かく動いているような場合は1枚の画像では強弱は推定できず、複数枚の入力画像を参照して演奏者の指の動きを認識して強弱を推定する必要がある。
 演奏者の手の位置と楽器の演奏領域との関連性情報から演奏要素を取得する方法としては、位置認識部102により認識された手の位置と、形状認識部103により認識された手の形状と、楽器認識部105により認識された楽器と演奏領域に基き、演奏者の手の指が楽器の演奏領域のどの鍵盤に接触しているかを認識する。それにより、その入力画像における演奏者の状態において演奏により音階のどの音を鳴らしているかを認識することができる。また、複数の音により構成されるどのような和音(コード)を鳴らしているかも認識することもできる。
 また、演奏者の指が演奏領域の同一箇所にどのくらい接触し続けているかを認識することにより音の長さを認識することもできる。
 和音(コード)の認識は、例えば楽器がギターである場合は、図6A、図6Bに示すように予め演奏情報生成部107に和音(コード)を演奏する場合の指の位置および形状を示すテンプレート画像を和音(コード)の種類ごとに複数保持させておく。そして、入力画像から抽出された指の位置情報、指の形状情報とテンプレート画像を比較(テンプレートマッチング)することにより指の位置および形状が最も近似する和音(コード)を決定する。
 また、和音(コード)の認識は、図6Cに示すように予め演奏情報生成部107に和音(コード)を演奏する場合の指の位置を示す指の特徴点の座標情報を和音(コード)の種類ごとに複数保持させておき、その座標情報と入力画像から抽出された指の位置情報(座標情報)を比較することによっても可能である。
 また、動き認識部104により認識された手の動きに基づいて、一の入力画像(t)と、時系列でその入力画像(t)以降の入力画像(t+n)とから認識することができる演奏者の手の略垂直方向の動きから演奏しているか否か、演奏の強弱、テンポなどを認識することができる。
 この場合の略垂直方向とは、楽器がピアノの場合、鍵盤が並ぶ方向に対して略垂直の方向である。演奏者が演奏しているか否かは楽器の鍵盤に手が離れているか否かに基づいて判断することができる。また、演奏の強弱は略垂直方向における手の位置(手の高さ)から判断することができる。例えば、手が鍵盤から垂直方向に離れているほど音が強く、手が鍵盤に垂直方向に近づいているほど音が弱いと判断することができる。また、手の垂直方向における規則的な上下動作の時間間隔から曲のテンポを認識することができる。このように曲のテンポや音の長さなど時間に関連する演奏要素を認識するためには映像を構成するフレームレートと実時間を対応付けて、演奏者の規則的な動きの実時間での動作間隔と映像の再生時間とから求めることができる。
 また、同様に一の入力画像(t)と、時系列でその入力画像(t)以降の入力画像(t+n)とから認識することができる演奏者の手の略水平方向の動きから音階を認識することができる。この場合の略水平方向とは、楽器がピアノの場合、鍵盤が並ぶ方向に対して略水平の方向である。具体的にはピアノに対する手の略水平方向の位置が変わることにより、ピアノの鍵盤のどの領域を演奏しているかがわかり、それにより音域、オクターブの変化など演奏されている音階を認識することができる。
 手の略垂直方向の動きと略水平方向の動きは、複数の連続する入力画像のうちの一の入力画像(t)と、時系列でその入力画像(t)以降の入力画像(t+n)との動きベクトルの変化から認識することができる。
 第3演奏要素は複数の入力画像に跨った演奏者の指や腕の変化に基づいて生成することができる。例えば、手が複数の入力画像に跨って鍵盤から垂直方向に離れている時間が長いほど次に鳴らされる音が強いとして第3演奏要素とすることができる。また、複数の入力画像跨る手の垂直方向における上下動作の時間間隔から曲のテンポを認識して第3演奏要素とすることができる。
 さらに演奏情報生成部107は、複数の入力画像のそれぞれに対応した部分演奏情報を時系列に従ってつないでいくことにより、それら複数の入力画像により構成されるフレーズ、曲の一部または全部の複合演奏情報を生成する。フレーズや曲の一部の複合演奏情報とは、1または複数の小節単位での演奏情報である。
 部分演奏情報および複合演奏情報は、五線譜で記された楽譜に限らず、その情報に基づいて演奏者、コンピュータ、音楽演奏用ソフトウェア、音楽作成用ソフトウェアなどが楽曲を再現することができればどのような形式の情報でもよい。例えば、MIDI(Musical Instrument Digital Interface)形式の情報やプログラミング形式の情報、音楽演奏/制作用ソフトウェア独自のフォーマットの情報などでもよい。
 楽譜情報生成部108は、演奏情報生成部107から部分演奏情報が供給された場合には入力画像一枚に対応する部分楽譜情報を生成する。また、演奏情報生成部107から複合演奏情報が供給された場合には複数の入力画像により構成されるフレーズ、曲の一部または全部の楽譜情報である複合楽譜情報を生成する。ここでいう楽譜とは五線譜で記された楽譜であり、楽譜情報を構成する情報としては、音符、休符、拍子記号、テンポ、臨時記号、調号、強弱などがある。臨時記号情報は演奏者が演奏している状態に基づく第1演奏要素である、演奏されている音階と、複数の入力画像に跨る第3演奏要素である調とから導き出すことができる。
 情報処理装置100は以上のようにして構成されている。情報処理装置100はプログラムで構成され、そのプログラムは予め端末装置10にインストールされていてもよいし、ダウンロード、記憶媒体などで配布されて、ユーザが自ら端末装置10にインストールするようにしてもよい。また、情報処理装置100は、プログラムによって実現されるのみでなく、その機能を有するハードウェアによる専用の装置、回路などを組み合わせて実現されてもよい。
[1-3.情報処理装置による処理]
[1-3-1.部分演奏情報の生成]
 次に図7のフローチャートを参照して情報処理装置100における処理の流れについて説明する。図7のフローチャートの処理は、入力画像一枚に対応した部分演奏情報を生成するものである。なお、上述したように入力画像の一枚とは、複数枚の連続する静止画像のうちの一枚または、動画を構成する複数のフレーム画像のうちの一枚である。
 まずステップS101で、画像入力部101に対して入力画像が入力される。この入力画像は一枚の静止画像またはフレーム画像でもよいし、連続する複数の静止画像でもよいし、動画を構成する連続する複数のフレーム画像でもよい。複数の入力画像が入力されると、以下のステップS102以降の処理は、まず(t=1)の一番目の入力画像に対して行われる。また、連続する複数の静止画像または動画を構成する連続する複数のフレーム画像が入力された場合、どの入力画像の部分演奏情報を生成するかをユーザが選択できるようにしてもよい。
 次にステップS102で位置認識部102により入力画像中における演奏者の手の3次元位置が認識され、手の位置情報が形状認識部103、動き認識部104および関連性認識部106に供給される。
 次にステップS103で、形状認識部103により入力画像中において位置が認識された手の形状が認識される。手の形状情報は動き認識部104と演奏情報生成部107に供給される。さらにステップS104で、動き認識部104により、位置および形状が認識された手の動きが認識される。手の動き情報は演奏情報生成部107に供給される。
 次にステップS105で楽器認識部105により入力画像中における楽器および演奏領域が認識される。楽器情報および演奏領域情報は関連性認識部106に供給される。なお、ステップS102乃至ステップS104における演奏者の手の位置、形状、動きの認識処理とステップS105における楽器および演奏領域の認識は並行して行うようにしてもよいし、楽器および演奏領域の認識を先に行ってもよい。
 次にステップS106で関連性認識部106により手の各指とそれに対応する楽器の演奏領域の位置の関連性が認識される。関連性とは演奏者の手が楽器の演奏領域のどこに位置しているかを示すものであり、関連性情報は演奏情報生成部107に供給される。
 次にステップS107で演奏情報生成部107は手の動き情報および関連性情報から演奏者が入力画像において楽器を演奏している状態であるか否かを判定する。
 判定の結果、演奏者が演奏している場合、処理はステップS108からステップS109に進む(ステップS108のYes)。そしてステップS109で演奏情報生成部107は手の3次元位置情報、手の形状情報、手の動き情報、関連性情報とから第1演奏要素を生成する。
 一方、ステップS107での判定の結果、演奏者が演奏していない場合、処理はステップS108からステップS110に進む(ステップS108のNo)。そしてステップS110で演奏情報生成部107は第2演奏要素を生成する。
 次にステップS111で演奏情報生成部107は、第1演奏要素または第2演奏要素から入力画像に対応した部分演奏情報を生成する。そしてステップS112でその部分演奏情報を出力する。
 出力された部分演奏情報は端末装置10の表示部14において表示したり、端末装置10が備える音楽演奏用ソフトウェア、音楽制作用ソフトウェアなどにおいて使用可能である。また、ユーザ、演奏者などからの要求に応じて楽譜情報生成部108によって演奏情報に基づいて楽譜情報を生成してもよい。また、部分演奏情報を端末装置10の記憶部12に保存しておき、必要に応じて記憶部12から読み出して使用することも可能である。
 以上のようにして入力画像に対する演奏情報生成処理が行われる。
[1-3-2.複合演奏情報の生成]
 次に図8のフローチャートについて説明する。図8のフローチャートの処理は、複数の入力画像により構成されるフレーズ、曲の一部または全部の演奏情報である複合演奏情報を生成する処理である。
 まずステップS101で、画像入力部101に対して入力画像として連続する複数の静止画像または動画を構成する連続する複数のフレーム画像が入力される。複数の入力画像が入力されると以下のステップS102以降の処理はまず入力画像(t=1)の一番目の入力画像に対して行われる。また、連続する複数の静止画像または動画を構成する連続する複数のフレーム画像が入力された場合、どの入力画像から処理を開始するかをユーザが選択できるようにしてもよい。
 ステップS101からステップS111までの処理は図7のフローチャートと同様であるため、説明を省略する。
 ステップS111の後、次にステップS121で、演奏情報生成部107は複数の入力画像間に跨る演奏要素である第3演奏要素があるか否かが判定する。複数の入力画像間に跨る第3演奏要素があるか否かは、以下のように判断できる。例えば音の強弱(大きさ)の場合、現在処理中の入力画像(t)において認識された演奏の強弱が一つ前の入力画像である入力画像(t-1)で認識された強弱よりも強くなる場合、入力画像(t-1)から入力画像(t)まで、「だんだん強く」という演奏要素が導き出せる。また、同様に、例えば、入力画像(t+1)の音程において認識された演奏の強弱が入力画像(t)の強弱より大きい場合は、入力画像(t-1)、入力画像(t)、入力画像(t+1)とも「だんだん強く」という演奏要素が導き出せる。このように、処理対象である複数の入力画像それぞれの状態により、現在の入力画像における演奏要素に基づいて過去の入力画像における演奏要素が認識される場合「フレーム間に跨る演奏要素である第3演奏要素がある」と判断することができる。
 複数の入力画像間に跨る第3演奏要素がある場合、処理はステップS122に進み(ステップS121のYes)、ステップS111で生成した部分演奏情報に第3演奏要素を付加することにより部分演奏情報を更新する。そして処理はステップS122からステップS123に進む。なお、第3演奏要素は部分演奏情報において第1演奏要素、第2演奏要素と同様に部分演奏情報の構成要素としてもよいし、部分演奏情報とは別情報としたまま紐付けにより対応付けてもよい。
 一方、ステップS121で複数の画像間に跨る第3演奏要素がない場合処理はステップS123に進む(ステップS121のNo)。
 次にステップS123で処理対象である次の入力画像があるか否かが判定される。ステップS101で画像入力部101に対して入力された、連続する複数の静止画像または動画を構成する連続する複数のフレーム画像にまだ未処理の画像がある場合には次の入力画像があるとして処理はステップS102に戻る(ステップS123のYes)。そして、時系列で次の順の入力画像(フレーム画像である場合には次のフレーム番号の画像)に対してステップS102乃至ステップS123の処理が行われる。そして、入力された全ての入力画像のそれぞれに対して処理が行われるまでステップS102乃至ステップS123が繰り返される。
 ステップS123で処理対象の画像がない場合、処理はステップS124に進む(ステップS123のNo)。
 次にステップS124で演奏情報生成部107は、複数の入力画像のそれぞれに対応した部分演奏情報を時系列に従ってつないでいくことにより、それら複数の入力画像により構成されるフレーズ、曲の一部または全部の複合演奏情報を生成する。
 次にステップS125で、演奏情報生成部107は複合演奏情報を出力する。出力された複合演奏情報は端末装置10の表示部14において表示したり、端末装置10が備える音楽演奏用ソフトウェア、音楽制作用ソフトウェアなどにおいて使用可能である。また、ユーザ、演奏者などからの要求に応じて楽譜情報生成部108が複合演奏情報に基づいて複合楽譜情報を生成してもよい。また、複合演奏情報を出力する際に部分演奏情報も出力してもよい。
 以上のようにして第1の実施の形態における処理が行われる。本技術の第1の実施の形態によれば、複数枚の連続する静止画像または動画を構成する複数のフレーム画像に基づいて演奏情報と楽譜情報を生成することができる。
これにより、専門的な知識のない人でも手軽に演奏情報、楽譜情報を得ることができる。また、例えば、音声がない映像データ、音声が劣化/破損している映像データなどに基づいても演奏情報と楽譜情報を生成することができる。また、音声を出力することができない環境においても映像データのみに基づいて演奏情報を生成することができる。
 なお、第1の実施の形態において演奏情報を生成するための入力画像は、例えば楽器がピアノの場合には、ピアノの演奏領域である鍵盤と演奏者の両手を認識することができる上方から撮影したものが好ましい。楽器がギターの場合にはギターの演奏領域であるピックアップ部分(アコースティックギターであればサウンドホール)およびネックと演奏領域の両手を認識することができる正面から撮影したものが好ましい。
 本技術は、自分または自分以外の他の演奏者の即興演奏の楽譜化、楽器練習の楽譜化、好きなアーティスト曲を演奏するための楽譜作成、作曲、編曲などの用途に用いることができる。また、作曲、編曲の際には、楽器でいろいろな演奏、フレーズなどを試し、必要な演奏パターンまたは全ての演奏パターンを用意に演奏情報、楽譜情報として得ることができる。また、「楽譜を書いて、楽器で演奏してみる」、または「楽器で演奏してみて、良かったら楽譜を書く」の繰り返し作業が必要なくなる。
<2.第2の実施の形態>
[2-1.情報処理装置の構成]
 次に本技術の第2の実施の形態について説明する。第2の実施の形態は図9に示すように、入力画像において演奏者の身体の部位である手の一部が遮蔽されて隠れているまたは写っていない場合において演奏情報の生成を行うものである。図9においては演奏者の左手の一部が隠れている。なお、情報処理装置100が動作する端末装置10の構成は第1の実施の形態と同様であるためその説明を省略する。
 図10に示すように情報処理装置200は、画像入力部101、センサ情報取得部201、第1位置認識部202、第2位置認識部203、形状認識部103、動き認識部104、楽器認識部105、関連性認識部106、演奏情報生成部107、楽譜情報生成部108とから構成されている。画像入力部101、形状認識部103、動き認識部104、楽器認識部105、関連性認識部106、演奏情報生成部107、楽譜情報生成部108は第1の実施の形態と同様のものである。
 センサ情報取得部201は端末装置10が備える、または端末装置10に接続された外部のセンサで取得されたセンサ情報を取得して第2位置認識部203に供給するものである。センサとしては、マイクロホン、圧力センサ、動きセンサなどがある。
 第1位置認識部202は入力画像中において隠れていない演奏者の手の位置を認識するものであり、第1の実施の形態における位置認識部102と同様のものである。
 第1位置認識部202は第1の実施の形態における位置認識部102と同様に、入力画像からHand Pose Detection、Hand Pose Estimationなどと称される人体の手認識技術やHOG、SIFTなどの特徴点抽出方法、Boosting、SVMなどのパターン認識による被写体認識方法、Graph Cutなどによる領域抽出方法、CNNなどにより、入力画像中における演奏者の身体の部位である手の3次元位置を認識する。
 第2位置認識部203は、入力画像中において遮蔽されることによって一部が隠れている演奏者の手の3次元位置を補助情報を用いて認識するものである。補助情報としては、センサ情報取得部201から供給されるセンサ情報などがある。センサ情報としては、マイクロホンで集音される演奏の音、手または指が楽器を押圧する力を示す圧力センサ情報、演奏者の腕/手/指の動き示す動きセンサ情報などがある。さらに補助情報としては、第1位置認識部202と同様の手法を用いて認識した演奏者の腕および/または肘の位置/形状/動き情報などもある。
 例えば、演奏者の腕および肘の位置、形状の情報から演奏者の肘から先の腕の先端にある手(隠れている手)が楽器の演奏領域のどこに位置しているかを推定して認識することができる。
 第1位置認識部202および第2位置認識部203により取得された位置情報は3次元位置を示す情報であるため、例えば、入力画像の所定の位置を原点とした(x,y,z)の座標で表される。また、入力画像の一部領域を切り出した切り出し画像においては、切り出し画像の所定の位置を原点とした(u,v,d)の座標で表される。この点は第1の実施の形態と同様である。位置情報は形状認識部103および関連性認識部106に供給される。
 第2の実施の形態における情報処理装置200は以上のように構成されている。
[2-2.情報処理装置の処理]
 次に第2の実施の形態における情報処理装置200の処理の流れについて説明する。図11のフローチャートは第1の実施の形態で説明した、一つの入力画像に対応する部分演奏情報を生成するための処理に対応したものである。
 まずステップS101で、画像入力部101に対して入力画像が入力されると、次にステップS201で入力画像において手の一部が隠れているか否かが判定される。これは、例えば、第1位置認識部202において2つの手の全体が認識された否かに基づいて判定することができる。
 手の一部が隠れている場合、処理はステップS202に進み(ステップS201のYes)、第2位置認識部203により補助情報を用いて一部が隠れている演奏者の手が認識される。
 一方、手の一部が隠れていない場合処理はステップS103に進み、第1位置認識部202により演奏者の手が認識される。
 これ以降の処理は第1の実施の形態におけるものと同様である。
 また、図12のフローチャートに示すように、複数の入力画像により構成されるフレーズ、曲の一部または全部の複合演奏情報を生成する処理においても図11のフローチャートにおけるステップS201とステップS202と同様の処理が行われる。
 この第2の実施の形態によれば、入力画像において演奏者の手の一部が隠れていても第1の実施の形態と同様に演奏情報、楽譜情報の生成を行うことができる。
<3.第3の実施の形態>
[3-1.情報処理装置の構成]
 次に本技術の第3の実施の形態について説明する。第3の実施の形態は図13に示すように、入力画像において楽器の一部が隠れているまたは映っていない場合において演奏情報の生成を行うものである。図13においては、楽器であるピアノの鍵盤の一部のみが映っており、鍵盤の一部が入力画像の画角外に存在している。なお、情報処理装置300が動作する端末装置10の構成は第1の実施の形態と同様であるためその説明を省略する。
 図14に示すように、情報処理装置300は、画像入力部101、センサ情報取得部301、位置認識部102、形状認識部103、動き認識部104、楽器認識部105、関連性認識部106、演奏情報生成部107、楽譜情報生成部108とから構成されている。画像入力部101、位置認識部102、形状認識部103、動き認識部104、演奏情報生成部107、楽譜情報生成部108は第1の実施の形態と同様のものである。
 センサ情報取得部201は、端末装置10が備える、または端末装置10に接続された外部のセンサで取得されたセンサ情報を取得して演奏情報生成部107に供給するものである。センサとしては、マイクロホン、圧力センサ、動きセンサなどがある。
 楽器認識部105は、CNN、パターンマッチング、テンプレートマッチングなどの技術を用いて、入力画像中における楽器およびその楽器において演奏者の手が接触する演奏のための領域(演奏領域)を認識するものである。そこで、例えば、テンプレートマッチングで楽器の一部分のみがテンプレートと一致するような場合、認識された楽器は一部分が隠れているまたは映っていないと判断する。入力画像に楽器の一部分しか映ってないことを示す情報と共に楽器認識情報は関連性認識部106に供給される。
 関連性認識部106は、CNN、パターンマッチングなどの技術を用いて演奏者の手の位置と楽器の演奏領域の関連性を認識する。関連性とは、演奏者の手が楽器の演奏領域のどこに接触しているかを示す接触位置である。また、関連性は、楽器の演奏領域に対する演奏者の手の動作の方向である。関連性認識部106は、入力画像中において楽器の一部しか映っていない場合、手の位置情報、手の形状情報、楽器(例えばピアノ)の演奏領域である鍵盤が並ぶ方向に対する略水平方向における腕/肘の開き具合の角度、腕の動きから指が接触している演奏領域を推定ことにより演奏者の指と楽器の演奏領域の関連性を認識する。関連性情報は演奏情報生成部107に供給される。
 演奏情報生成部107は補助情報としてセンサ情報を用いて指が接触している鍵盤を推定する。センサ情報としては、マイクロホンで集音される演奏の音、手または指が楽器を押圧する力を示す圧力センサ情報、演奏者の腕/手/指の動き示す動きセンサ情報などがある。さらに関連性認識部106は、複数の入力画像において楽器全体が写っている入力画像がある場合、その入力画像と腕、手の動き情報から指が接触している鍵盤を推定することにより演奏者の指と楽器の演奏領域の関連性を推定する。
 このように指が接触している鍵盤を推定することによりその推定結果から第1の実施の形態と同様に第1演奏要素、第2演奏要素、第3演奏要素を生成することができる。
 第3の実施の形態に係る情報処理装置300は以上のように構成されている。
[3-2.情報処理装置の処理]
 次に第3の実施の形態における情報処理装置300の処理の流れについて説明する。図15のフローチャートは第1の実施の形態で説明した、一つの入力画像に対応する演奏情報および楽譜情報を生成するための処理に対応したものである。
 ステップS101乃至ステップS105は第1の実施の形態における処理と同様である。
 ステップS301で、関連性認識部106は入力画像において楽器の演奏領域全体が映っているかを判定し、楽器の演奏領域全体が映っている場合処理はステップS106に進む(ステップS301のYes)。そして、ステップS106乃至ステップS112の処理が第1の実施の形態と同様に行われる。
 一方、入力画像に楽器の演奏領域全体が映ってはいない場合、処理はステップS302に進む(ステップS301のNo)。そしてステップS302で関連性認識部106により、手の位置情報、センサ情報などを用いて関連性を推定する。
 その後はステップS106乃至ステップS112の処理が第1の実施の形態と同様に行われて、部分演奏情報が生成されて出力される。
 また、図16のフローチャートに示すように、複数の入力画像により構成されるフレーズ、曲の一部または全部の複合演奏情報を生成する処理においても図15のフローチャートにおけるステップS301とステップS302と同様の処理が行われる。
 この第3の実施の形態によれば、入力画像において楽器の一部が映っていなくても第1の実施の形態と同様に演奏情報、楽譜情報の生成を行うことができる。
<4.変形例>
 以上、本技術の実施の形態について具体的に説明したが、本技術は上述の実施の形態に限定されるものではなく、本技術の技術的思想に基づく各種の変形が可能である。
 実施の形態では演奏の音がなくても複数枚の連続する静止画像または動画を構成する複数のフレーム画像から演奏情報および楽譜情報を生成できると説明したが、本技術は音の使用を除外するものではない。演奏情報および楽譜情報を生成の際の補助情報として音情報を用いてもよいし、生成した演奏情報および楽譜情報の精度を確認する際に音情報を用いてもよい。例えば、入力映像の音声に対して音声認識処理を施し、音の周波数から音階を認識する、音量から強弱や演奏しているか否かを認識するなどである。
 第2の実施の形態と第3の実施の形態を組み合わせることにより、入力画像において演奏者の手の一部および楽器の演奏領域の一部が映っていない場合でも演奏情報の生成を行うことができる。
 本技術は実施の形態で挙げたピアノ、ギター、ドラムに限られず、木琴、鉄琴、パーカッションなどの楽器の演奏に対しても使用可能である。
 実施の形態では主に押す、叩くなどのピアノの演奏方法、手をストロークさせる、爪弾くなどのギターの演奏方法を例にして説明を行ったが、それら以外の演奏方法、例えば、引っ張る、弾くなどの演奏動作を認識して演奏情報を生成してもよい。入力画像から認識できる楽器の演奏の動作であればどのような動作に基づいて演奏情報を生成してもよい。
 第3の実施の形態においては、入力画像に写っていない楽器の一部を推定し、その推定結果に基づいて演奏情報生成部107が演奏情報を生成するようにしてもよい。
 本技術は以下のような構成も取ることができる。
(1)
 入力画像から演奏者の身体の部位の位置を認識する位置認識部と、
 前記入力画像から楽器を認識する楽器認識部と、
 前記部位の位置と前記楽器との関連性に基づき、前記演奏者による前記楽器の演奏を示す演奏情報を生成する演奏情報生成部と
を備える情報処理装置。
(2)
 前記位置認識部により認識された前記部位の形状を認識する形状認識部を備え、
 前記演奏情報生成部は、前記部位の形状と前記楽器の関連性に基づき前記演奏情報を生成する(1)に記載の情報処理装置。
(3)
 前記位置認識部により認識された前記部位の動きを認識する動き認識部を備え、
 前記演奏情報生成部は、前記部位の動きと前記楽器の関連性に基づき前記演奏情報を生成する(1)または(2)に記載の情報処理装置。
(4)
 前記演奏情報は、前記演奏者が前記楽器を演奏している状態に対応した第1演奏要素を含む(1)から(3)のいずれかに記載の情報処理装置。
(5)
 前記第1演奏要素は、前記演奏者により演奏されている音階を含む(4)に記載の情報処理装置。
(6)
 前記演奏情報は、前記演奏者が前記楽器を演奏してない状態に対応した第2演奏要素を含む(1)から(5)のいずれかに請求項1に記載の情報処理装置。
(7)
 前記第2演奏要素は、前記演奏者により演奏されていない休みの長さを含む(6)に記載の情報処理装置。
(8)
 前記演奏情報は、複数の前記入力画像間に跨る要素である第3演奏要素を含む(1)から(7)のいずれかに記載の情報処理装置。
(9)
 前記第3演奏要素は、前記演奏者により演奏されている曲のテンポを含む(8)に記載の情報処理装置。
(10)
 前記演奏情報生成部は、一の前記入力画像に対応した前記演奏情報を生成する(1)から(9)のいずれかに記載の情報処理装置。
(11)
 前記演奏情報生成部は、複数の前記入力画像により構成される前記楽器の演奏の一部または全部に対応する演奏情報を生成する(1)から(9)のいずれかに記載の情報処理装置。
(12)
 前記関連性は、前記楽器に対する前記部位の接触位置である(1)から(11)のいずれかに記載の情報処理装置。
(13)
 前記関連性は、前記楽器に対する前記部位の動作の方向である(1)から(12)のいずれかに記載の情報処理装置。
(14)
 前記部位は前記演奏者の手である(1)から(13)のいずれかに記載の情報処理装置。
(15)
 前記演奏情報から楽譜情報を生成する楽譜情報生成部を備える(1)から(14)のいずれかに記載の情報処理装置。
(16)
 前記入力画像において前記部位の一部が映っていない場合、前記部位の一部の位置を推定し、前記演奏情報生成部は推定結果に基づき前記演奏情報を生成する(1)から(15)のいずれかに記載の情報処理装置。
(17)
 前記入力画像において前記楽器の一部が映っていない場合、前記演奏情報生成部は、前記部位と前記楽器の一部との前記関連性を推定し、推定結果に基づき前記演奏情報を生成する(1)から(16)のいずれかに記載の情報処理装置。
(18)
 前記演奏情報生成部は、補助情報として音情報を用いて前記演奏情報を生成する(1)から(17)のいずれかに記載の情報処理装置。
(19)
 入力画像から演奏者の身体の部位の位置を認識し、
 前記入力画像から楽器を認識し、
 前記部位の位置と前記楽器との関連性に基づき、前記演奏者による前記楽器の演奏を示す演奏情報を生成する
情報処理方法。
(20)
 入力画像から演奏者の身体の部位の位置を認識し、
 前記入力画像から楽器を認識し、
 前記部位の位置と前記楽器との関連性に基づき、前記演奏者による前記楽器の演奏を示す演奏情報を生成する
情報処理方法をコンピュータに実行させる情報処理プログラム。
100、200、300・・・情報処理装置
102・・・位置認識部
103・・・形状認識部
104・・・動き認識部
105・・・楽器認識部
107・・・演奏情報生成部
108・・・楽譜情報生成部
202・・・第1位置認識部
203・・・第2位置認識部

Claims (20)

  1.  入力画像から演奏者の身体の部位の位置を認識する位置認識部と、
     前記入力画像から楽器を認識する楽器認識部と、
     前記部位の位置と前記楽器との関連性に基づき、前記演奏者による前記楽器の演奏を示す演奏情報を生成する演奏情報生成部と
    を備える情報処理装置。
  2.  前記位置認識部により認識された前記部位の形状を認識する形状認識部を備え、
     前記演奏情報生成部は、前記部位の形状と前記楽器の関連性に基づき前記演奏情報を生成する
    請求項1に記載の情報処理装置。
  3.  前記位置認識部により認識された前記部位の動きを認識する動き認識部を備え、
     前記演奏情報生成部は、前記部位の動きと前記楽器の関連性に基づき前記演奏情報を生成する
    請求項1に記載の情報処理装置。
  4.  前記演奏情報は、前記演奏者が前記楽器を演奏している状態に対応した第1演奏要素を含む
    請求項1に記載の情報処理装置。
  5.  前記第1演奏要素は、前記演奏者により演奏されている音階を含む
    請求項4に記載の情報処理装置。
  6.  前記演奏情報は、前記演奏者が前記楽器を演奏してない状態に対応した第2演奏要素を含む
    請求項1に記載の情報処理装置。
  7.  前記第2演奏要素は、前記演奏者により演奏されていない休みの長さを含む
    請求項6に記載の情報処理装置。
  8.  前記演奏情報は、複数の前記入力画像間に跨る要素である第3演奏要素を含む
    請求項1に記載の情報処理装置。
  9.  前記第3演奏要素は、前記演奏者により演奏されている曲のテンポを含む
    請求項8に記載の情報処理装置。
  10.  前記演奏情報生成部は、一の前記入力画像に対応した前記演奏情報を生成する
    請求項1に記載の情報処理装置。
  11.  前記演奏情報生成部は、複数の前記入力画像により構成される前記楽器の演奏の一部または全部に対応する演奏情報を生成する
    請求項1に記載の情報処理装置。
  12.  前記関連性は、前記楽器に対する前記部位の接触位置である
    請求項1に記載の情報処理装置。
  13.  前記関連性は、前記楽器に対する前記部位の動作の方向である
    請求項1に記載の情報処理装置。
  14.  前記部位は前記演奏者の手である
    請求項1に記載の情報処理装置。
  15.  前記演奏情報から楽譜情報を生成する楽譜情報生成部を備える
    請求項1に記載の情報処理装置。
  16.  前記入力画像において前記部位の一部が映っていない場合、前記部位の一部の位置を推定し、前記演奏情報生成部は推定結果に基づき前記演奏情報を生成する
    請求項1に記載の情報処理装置。
  17.  前記入力画像において前記楽器の一部が映っていない場合、前記演奏情報生成部は、前記部位と前記楽器の一部との前記関連性を推定し、推定結果に基づき前記演奏情報を生成する
    請求項1に記載の情報処理装置。
  18.  前記演奏情報生成部は、補助情報として音情報を用いて前記演奏情報を生成する
    請求項1に記載の情報処理装置。
  19.  入力画像から演奏者の身体の部位の位置を認識し、
     前記入力画像から楽器を認識し、
     前記部位の位置と前記楽器との関連性に基づき、前記演奏者による前記楽器の演奏を示す演奏情報を生成する
    情報処理方法。
  20.  入力画像から演奏者の身体の部位の位置を認識し、
     前記入力画像から楽器を認識し、
     前記部位の位置と前記楽器との関連性に基づき、前記演奏者による前記楽器の演奏を示す演奏情報を生成する
    情報処理方法をコンピュータに実行させる情報処理プログラム。
PCT/JP2019/026290 2018-09-18 2019-07-02 情報処理装置、情報処理方法および情報処理プログラム WO2020059245A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-173676 2018-09-18
JP2018173676A JP2020046500A (ja) 2018-09-18 2018-09-18 情報処理装置、情報処理方法および情報処理プログラム

Publications (1)

Publication Number Publication Date
WO2020059245A1 true WO2020059245A1 (ja) 2020-03-26

Family

ID=69886908

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/026290 WO2020059245A1 (ja) 2018-09-18 2019-07-02 情報処理装置、情報処理方法および情報処理プログラム

Country Status (2)

Country Link
JP (1) JP2020046500A (ja)
WO (1) WO2020059245A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022130128A1 (en) 2020-12-17 2022-06-23 3M Innovative Properties Company Sound attenuation rating systems and methods

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2022070769A1 (ja) * 2020-09-30 2022-04-07
JP2022149158A (ja) * 2021-03-25 2022-10-06 ヤマハ株式会社 画像処理方法、画像処理システムおよびプログラム
JP2022149159A (ja) * 2021-03-25 2022-10-06 ヤマハ株式会社 画像処理方法、画像処理システムおよびプログラム
JP2023037162A (ja) * 2021-09-03 2023-03-15 キヤノン株式会社 処理方法、プログラムおよび処理装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0314698U (ja) * 1989-06-27 1991-02-14
JP2002215139A (ja) * 2001-01-17 2002-07-31 Casio Comput Co Ltd 演奏操作記録装置および演奏操作記録方法
JP2004177546A (ja) * 2002-11-26 2004-06-24 Casio Comput Co Ltd 演奏教習装置、演奏教習方法および演奏教習プログラム
JP2006091632A (ja) * 2004-09-27 2006-04-06 Casio Comput Co Ltd 演奏データ作成システムおよび演奏データ作成処理のプログラム
JP2006091633A (ja) * 2004-09-27 2006-04-06 Casio Comput Co Ltd 演奏評価システムおよび演奏評価処理のプログラム
JP2007256411A (ja) * 2006-03-22 2007-10-04 Yamaha Corp 楽音制御装置
US20120007884A1 (en) * 2010-07-06 2012-01-12 Samsung Electronics Co., Ltd. Apparatus and method for playing musical instrument using augmented reality technique in mobile terminal
JP2016224686A (ja) * 2015-05-29 2016-12-28 キヤノン株式会社 情報処理装置、その制御方法、プログラム、及び記憶媒体

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0314698U (ja) * 1989-06-27 1991-02-14
JP2002215139A (ja) * 2001-01-17 2002-07-31 Casio Comput Co Ltd 演奏操作記録装置および演奏操作記録方法
JP2004177546A (ja) * 2002-11-26 2004-06-24 Casio Comput Co Ltd 演奏教習装置、演奏教習方法および演奏教習プログラム
JP2006091632A (ja) * 2004-09-27 2006-04-06 Casio Comput Co Ltd 演奏データ作成システムおよび演奏データ作成処理のプログラム
JP2006091633A (ja) * 2004-09-27 2006-04-06 Casio Comput Co Ltd 演奏評価システムおよび演奏評価処理のプログラム
JP2007256411A (ja) * 2006-03-22 2007-10-04 Yamaha Corp 楽音制御装置
US20120007884A1 (en) * 2010-07-06 2012-01-12 Samsung Electronics Co., Ltd. Apparatus and method for playing musical instrument using augmented reality technique in mobile terminal
JP2016224686A (ja) * 2015-05-29 2016-12-28 キヤノン株式会社 情報処理装置、その制御方法、プログラム、及び記憶媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022130128A1 (en) 2020-12-17 2022-06-23 3M Innovative Properties Company Sound attenuation rating systems and methods

Also Published As

Publication number Publication date
JP2020046500A (ja) 2020-03-26

Similar Documents

Publication Publication Date Title
WO2020059245A1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
US9905090B2 (en) Automatic fitting of haptic effects
Bretan et al. A survey of robotic musicianship
US9299330B2 (en) Apparatus and method to enhance the expressive qualities of digital music
EP3759707B1 (en) A method and system for musical synthesis using hand-drawn patterns/text on digital and non-digital surfaces
US20200365126A1 (en) Information processing method
US20170344113A1 (en) Hand-held controller for a computer, a control system for a computer and a computer system
Odowichuk et al. Sensor fusion: Towards a fully expressive 3d music control interface
Weinberg et al. Robotic musicianship: embodied artificial creativity and mechatronic musical expression
WO2022111260A1 (zh) 音乐筛选方法、装置、设备及介质
Overholt Advancements in violin-related human-computer interaction
Antoshchuk et al. Creating an interactive musical experience for a concert hall
Shang et al. A music performance method based on visual gesture recognition
CN214504972U (zh) 一种智能乐器
CN107404581B (zh) 移动终端的乐器模拟方法、装置及存储介质和移动终端
WO2023032422A1 (ja) 処理方法、プログラムおよび処理装置
Martin Touchless gestural control of concatenative sound synthesis
Schiesser et al. Sabre: affordances, realizations and Perspectives.
JP6634897B2 (ja) 歌詞生成装置および歌詞生成方法
Kshirsagar et al. Survey on Music Conducting Gestures using Dynamic Time Warping
CN114822454A (zh) 一种智能乐器演奏方法及智能乐器
Gillian et al. Kinect-ed piano
CN117121090A (zh) 信息处理方法、信息处理系统及程序
Dasari Gestural musical interfaces using real time machine learning
Angell Combining Acoustic Percussion Performance with Gesture Control Electronics

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19861824

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19861824

Country of ref document: EP

Kind code of ref document: A1