WO2023053632A1 - 情報処理装置、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理方法、及びプログラム Download PDF

Info

Publication number
WO2023053632A1
WO2023053632A1 PCT/JP2022/025728 JP2022025728W WO2023053632A1 WO 2023053632 A1 WO2023053632 A1 WO 2023053632A1 JP 2022025728 W JP2022025728 W JP 2022025728W WO 2023053632 A1 WO2023053632 A1 WO 2023053632A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
learner
moving image
performer
image data
Prior art date
Application number
PCT/JP2022/025728
Other languages
English (en)
French (fr)
Inventor
頌平 栗山
Original Assignee
キヤノン株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by キヤノン株式会社 filed Critical キヤノン株式会社
Publication of WO2023053632A1 publication Critical patent/WO2023053632A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B15/00Teaching music
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass

Definitions

  • the present invention relates to an information processing device, an information processing method, and a program for improving the performance skills of learners of playing musical instruments.
  • Patent Literature 1 discloses a configuration in which a learner can select an advanced learner to receive guidance based on age, gender, musical history, favorite song, and the like.
  • An object of the present invention is to provide an information processing device, an information processing method, and a program that allow a learner to select an appropriate performance video.
  • An information processing apparatus includes: a first acquisition unit that acquires moving image data recording sounds and body parts of a performer when playing a musical instrument; 2 acquisition unit, and a first processing unit that generates information that associates the moving image data with information on the player's body part.
  • an information processing device an information processing method, and a program that allow a learner to select an appropriate performance video.
  • FIG. 1 is a block diagram of an information processing system; FIG. It is a block diagram of a terminal device. 1 is a block diagram of an information processing apparatus according to a first embodiment; FIG. 4 is a flowchart showing processing up to storing information in an information storage unit; It is a flowchart which shows the process which produces
  • FIG. 4 is a diagram showing how two fingers are used to tap two keys of a keyboard instrument.
  • FIG. 4 is a diagram showing an example of a screen for inputting information by a performer of Example 1; 4 is an explanatory diagram of data stored in an information storage unit of Example 1.
  • FIG. 4 is a diagram showing an example of a search condition screen input by a learner in Example 1;
  • FIG. 10 is a diagram showing an example of a screen presented to the learner of Example 1; It is a figure which shows an example of a comparison moving image.
  • FIG. 11 is a block diagram of an information processing apparatus according to a second embodiment;
  • FIG. 10 is an explanatory diagram of processing for correcting information about body parts in a stringed instrument;
  • FIG. 10 is an explanatory diagram showing an example of a search condition screen input by a learner in Example 1;
  • FIG. 10 is a diagram showing an example of a screen presented to the learner of Example 1; It is
  • FIG. 12 is a diagram showing an example of a screen for inputting information by a performer of Example 3;
  • FIG. 11 is an explanatory diagram of data stored in an information storage unit of Example 3;
  • FIG. 13 is a diagram showing an example of a search condition screen input by a learner in Example 3;
  • FIG. 12 is a diagram showing an example of a screen presented to the learner of Example 3;
  • FIG. 1 is a block diagram of the information processing system of this embodiment.
  • the information processing system has a plurality of terminal devices 11 , a network 12 and an information processing device 13 .
  • the terminal device 11 is a personal computer, a notebook computer, a tablet terminal, a smartphone, or other device for users (students and performers) to acquire, input, and transmit information, and view sent information. It is a device.
  • the network 12 is configured to connect the terminal device 11 and the information processing device 13 such as the Internet, a public line, and a LAN.
  • the information processing device 13 is configured as a device separate from the terminal device 11 in this embodiment, but may be incorporated as a part of the terminal device 11 .
  • FIG. 2 is a block diagram of the terminal device 11.
  • the terminal device 11 has a control/calculation unit 21 , a storage unit 22 , a communication unit 23 , a moving image capturing unit 24 , an input unit 25 and a display unit 26 .
  • the control/calculation unit 21 is composed of a CPU (Central Processing Unit), a RAM (Random Access Memory), a ROM (Read Only Memory), and the like.
  • the ROM stores programs and the like that are read and executed by the CPU.
  • the RAM is used as work memory for the CPU.
  • the CPU controls the entire terminal device 11 by executing various processes and issuing commands according to programs stored in the ROM.
  • the storage unit 22 is a large-capacity storage medium using a hard disk, semiconductor memory, or the like.
  • the storage unit 22 can store still images, videos, and the like captured by the moving image capturing unit 24 .
  • the communication unit 23 is a communication module, a communication connector, etc. for communicating with other devices, the Internet, and the like. Communication by the communication unit 23 includes wired communication such as USB communication, wireless LAN such as Wi-Fi, Bluetooth (registered trademark), ZigBee, 4G (fourth generation mobile communication system), 5G (fifth generation mobile communication system). , wireless communication such as broadband.
  • wired communication such as USB communication, wireless LAN such as Wi-Fi, Bluetooth (registered trademark), ZigBee, 4G (fourth generation mobile communication system), 5G (fifth generation mobile communication system).
  • wireless communication such as broadband.
  • the video shooting unit 24 includes an imaging device, an image processing LSI, etc., and has a camera function capable of shooting still images and videos.
  • the moving image capturing unit 24 has a microphone function capable of recording sound. Note that the moving image capturing unit 24 is not an essential component of the terminal device 11 . A user who simply browses moving images does not need the moving image capturing unit 24 .
  • the input unit 25 is, for example, a touch panel integrated with the display unit 26, a pointing device that operates by tracing a flat sensor that is not integrated with the display unit 26, called a track pad or touch pad, with a finger, A keyboard, a mouse, and the like.
  • the input unit 25 receives an operation input to the terminal device 11 from the user.
  • an input signal corresponding to the input is generated and output to the control/calculation unit 21 .
  • the control/calculation unit 21 performs calculation processing corresponding to the acquired input signal and controls the terminal device 11 .
  • the display unit 26 is a display device configured by, for example, an LCD (Liquid Crystal Display), a PDP (Plasma Display Panel), an organic EL (Electro Luminescence) panel, or the like.
  • the display unit 26 displays the user interface and the like of the terminal device 11 .
  • FIG. 3 is a block diagram of the information processing device 13 of this embodiment.
  • the information processing device 13 includes a performer moving image data acquisition unit (first acquisition unit) 301, a performer music information acquisition unit 302, a performer information acquisition unit (second acquisition unit) 303, an information recording processing unit (first processing unit ) 307 and an information storage unit (storage unit) 308 .
  • the performer moving image data acquisition unit 301 acquires moving image data that stores sounds and body part movements of the performer when playing a musical instrument.
  • the moving image data may be captured by the moving image capturing unit 24, or may be captured by a general moving image capturing device. may be reconfigured. Note that, in this embodiment, a keyboard instrument is assumed as the performance instrument.
  • the performer's music information acquisition unit 302 acquires information (music information) of the music performed by the performer.
  • the music information here is, for example, the name of the music and the tempo of the performance of the moving image data.
  • the performer information acquisition unit 303 acquires information about the body part of the performer who is performing the performance recorded in the moving image data.
  • the information on the player's body part is, for example, information on the size and range of motion of the player's body part.
  • the information recording processing unit 307 generates information that associates the moving image data acquired by the performer moving image data acquiring unit 301 with the information acquired by the performer music information acquiring unit 302 and the performer information acquiring unit 303 .
  • the information storage unit 308 stores information generated by the information recording processing unit 307 .
  • the information processing device 13 also includes a learner music information acquisition unit 304 , a learner information acquisition unit 305 , a learner video data acquisition unit 306 , a match calculation processing unit (second processing unit) 309 , and a presentation information generation unit 310 .
  • the learner's music information acquisition unit 304 acquires music information for searching for video data in which a music that the learner wants to view is played.
  • the music information here is, for example, the music name including the composer, the arranger, and the title of the work, and the performance tempo of the moving image data to be browsed.
  • the learner information acquisition unit 305 acquires information about body parts of the learner in order to search for video data of a performer whose body characteristics are similar to those of the learner.
  • the information about the learner's body part here is, for example, the size and range of motion of the learner's body part.
  • the learner video data acquisition unit 306 acquires the learner's video data.
  • the matching degree calculation processing unit 309 calculates the degree of matching between the information stored in the information storage unit 308 and the learner information using the information acquired by the learner music information acquiring unit 304 and the learner information acquiring unit 305. It calculates and extracts from the information storage unit 308 information that has a high degree of matching with the learner's information.
  • the presentation information generation unit 310 generates information for presenting the information extracted by the degree-of-match calculation processing unit 309 to the learner. In addition, the presentation information generation unit 310 generates a comparison video for comparing the video data of the learner acquired by the learner video data acquisition unit 306 and the video data selected using the information to be presented to the learner. You may
  • FIG. 4 is a flow chart showing processing up to storing information in the information storage unit 308 .
  • the performer moving image data acquisition unit 301 acquires moving image data.
  • the performer's music information acquisition unit 302 acquires music information of the music recorded by the performer as video data.
  • the performer information acquisition unit 303 acquires information on the body parts of the performer.
  • the information storage unit 308 stores the moving image data.
  • the information storage unit 308 stores the moving image data storage destination. As the moving image data storage destination, for example, it is assumed that the URL on the server that stores the moving image data is automatically assigned.
  • step S406 the information recording processing unit 307 generates information that associates the moving image data with the music information.
  • step S407 the information recording processing unit 307 generates information that associates the moving image data with the information on the player's body part.
  • FIG. 5 is a flow chart showing the process of generating presentation information for a learner's search conditions.
  • the learner's music information acquisition unit 304 acquires music information according to the input by the learner.
  • the learner information acquisition unit 305 acquires information about body parts of the learner.
  • the degree-of-match calculation processing unit 309 determines whether or not there is video data with matching music information acquired in step S ⁇ b>501 among the video data stored in the information storage unit 308 . If there is video data with matching music information, the process proceeds to step S504, and if otherwise, the process proceeds to step S506.
  • step S504 the degree-of-match calculation processing unit 309 calculates the degree of match between the information about the body parts of the performer and the information about the body parts of the learner in the video data whose music information matches.
  • the degree-of-match calculation processing unit 309 calculates the degree of match using an evaluation function defined by Equation (1) below. The smaller the value of the evaluation function, the higher the degree of matching.
  • is an evaluation function.
  • n is the number of items to be evaluated among the information on the body parts of the performer and the learner.
  • w i is the weighting factor for the i-th evaluation target.
  • V player_i is a value obtained by converting the player's i-th evaluation target into a score.
  • V learner_i is a value obtained by scoring the i-th evaluation object of the learner. Note that the evaluation function for calculating the degree of matching is not limited to Equation (1).
  • step S505 the presentation information generation unit 310 generates information to be presented to the learner based on the degree of matching calculated in step S504.
  • the presentation information generating unit 310 generates, for example, information presenting a specific number of pieces of video data in descending order of matching.
  • the generated information includes, for example, the URL of the moving image data storage destination for browsing the moving image data.
  • the generated information may also include music information, information about body parts of the performer, and the like.
  • step S ⁇ b>506 the presentation information generation unit 310 generates information indicating that there is no video data with matching music information in the information storage unit 308 .
  • FIG. 6 is a diagram showing how two keys of a keyboard instrument are tapped with two fingers.
  • FIG. 6(a) shows how a keyboard 601A is played by spreading the thumb and little finger of the right hand 602A.
  • FIG. 6(b) shows how the index finger and middle finger of the right hand 602B are spread to press the keyboard 601B.
  • Table 1 shows specific two-finger spacings and weighting factors when using equation (1).
  • the size of two keyboards that can be hit with the thumb and little finger spread is often evaluated as the size of the extended hand.
  • the values V player_i and V learner_i in Equation (1) the spread of two fingers expressed in pitch width (degrees) is used.
  • the weighting coefficients w1 and w6 are set to 6, and the others are set to 1.
  • the size of the right hand and the left hand are often different, so they are evaluated separately.
  • the right-hand evaluation function ⁇ R is represented by the following equation (2).
  • the overall evaluation function ⁇ that evaluates the degree of matching between the learner and the performer is expressed by the following formula (4).
  • the weighting factor wi can be set arbitrarily.
  • the dominant hand may be taken into account to increase the weighting factor for either the left or right hand.
  • the absolute value of the value V player_i - V learner_i or any exponential power may be calculated.
  • contact sensors attached to the performer's hand are used, and the movement of each finger is recognized by image processing. You may
  • FIG. 7 is a diagram showing an example of the screen of the input section 25 where the performer inputs information.
  • Reference numeral 701 denotes a video uploaded by the performer and a video storage destination. The performer inputs and uploads the name of the video to be uploaded.
  • the issue URL is a moving image storage destination that is automatically issued at the same time as the upload, and does not need to be input by the performer.
  • 702 is the basic information of the performer. The player inputs, for example, gender and age. As the basic information of the performer, the nationality, piano performance history, dominant hand, etc. may be input.
  • 703 is music information.
  • the performer inputs music information (for example, the name of the composer, the title of the music, the tempo of the performance, etc.) of the music recorded in the moving image data.
  • the performance tempo can be input by the performer by measuring the performance tempo in the moving image data.
  • the performer's music information acquisition unit 302 may automatically detect and record the moving image data using a tempo detection technique based on sound analysis.
  • the tempo may change during the performance, but for example, the tempo at the beginning of the song may be recorded as a representative.
  • the length of time of the moving image data may be input.
  • 704 is information about the player's body part.
  • the performer inputs, for example, information about the size and range of motion of the performer's body parts. For example, the opening of the right hand is entered in units of "degrees" that indicate intervals.
  • the thumb and little finger, the thumb and index finger, the index finger and middle finger, the middle finger and ring finger, and the ring finger and little finger are input. The same is true for the left hand.
  • FIG. 8 is an explanatory diagram of data stored in the information storage unit 308.
  • FIG. 8A shows moving image data 802 stored in the moving image data storage server 801 in the information storage unit 308.
  • the moving image data 802 are assigned moving image data numbers such as 001, 002, and 003, for example.
  • FIG. 8B shows the database in the information storage unit 308.
  • FIG. 9 is a diagram showing an example of the search condition screen of the input unit 25 entered by the learner. Even if a part of the search condition is blank, it may be set so that the search can be performed only with the input information.
  • Reference numeral 901 denotes the number of displayed search results indicating how many pieces of moving image data matching the search condition are to be displayed at the top. If the column is blank, a predetermined upper limit number may be set automatically. This prevents the display from becoming unnecessarily complicated.
  • 902 is the basic information of the performer.
  • the learner inputs, for example, gender and age.
  • 903 is music information.
  • the learner inputs, for example, the name of the composer and the title of the song.
  • the learner may input the tempo of the performance.
  • 904 is information about the learner's body part.
  • the learner inputs, for example, information on the size and range of motion of the body part. Specifically, the learner spreads two specific fingers and inputs the pitch reached on the keyboard.
  • the information about the body part may be obtained from the learner's performance video using image recognition technology, or may be obtained from a contact sensor attached to the hand.
  • FIG. 10 is a diagram showing an example of the screen of the display unit 26 (information generated by the presentation information generation unit 310) presented to the learner.
  • Reference numeral 1001 denotes a list of search results of moving image data suitable for learners. The learner can browse the video data by pressing the issued URL. Note that only the recommendation order and the issued URL may be displayed.
  • Reference numeral 1002 denotes a thumbnail display field for moving image data. Clicking on a row of moving image data displays thumbnails of the moving image data.
  • An input field 1003 is used when creating a comparative moving image. If you want to create a comparison video, put a check in it, and enter the recommendation order of the search results and your own video data name in the fields below it, and the comparison video will be generated.
  • the video data stored in the information storage unit 308 can be input as the own video data.
  • FIG. 11 is a diagram showing an example of a comparative moving image displayed on the display unit 26.
  • FIG. Reference numeral 1101 denotes a display column for comparative moving images.
  • 1102 is a display column for moving image data suitable for the learner selected in FIG. 1103 is a display column of the learner's moving image data.
  • the learner can select an appropriate performance video.
  • the basic configuration of the information processing system of this embodiment is the same as that of the information processing system of Embodiment 1, and the configuration different from that of Embodiment 1 will be described in this embodiment.
  • the musical instrument is assumed to be a keyboard instrument.
  • FIG. 12 is a block diagram of the information processing device 13 of this embodiment.
  • the information processing apparatus 13 of the present embodiment has a musical instrument information acquisition section 1201 and a correction processing section (correction section) 1202 in addition to the configuration of the first embodiment.
  • the musical instrument information acquisition unit 1201 acquires the performance operation area of the musical instrument played by the performer, which is shown in the moving image data.
  • a correction processing unit 1202 corrects the information about the player's body part acquired by the player information acquisition unit 303 using the performance operation area acquired by the musical instrument information acquisition unit 1201 .
  • the information recording processing unit 307 performs processing for matching information obtained or corrected by the performer music information obtaining unit 302 and the correction processing unit 1202 to the moving image data obtained by the performer moving image data obtaining unit 301. .
  • a plurality of methods for acquiring information by the performer's music information acquisition unit 302 and the performer's information acquisition unit 303 are conceivable.
  • a method of acquiring from moving image data acquired by the performer moving image data acquiring unit 301 will be described.
  • FIG. 13 is an explanatory diagram of the process of correcting the information on the player's body part.
  • 1301 is an image of one frame included in the moving image data.
  • Reference numeral 1302 denotes a musical instrument performance operation area shown in the moving image data.
  • the performance operation area in FIG. 13 is a keyboard area including black keys and white keys to be struck by the player.
  • 1303 is the player's body part. Although the body part 1303 is the hand in FIG. 13, it may be the player's upper body, shoulder, arm, or the like.
  • the musical instrument information acquisition unit 1201 prepares a characteristic pattern of the keyboard area as an image and recognizes it by pattern matching, recognizes the black and white edges of the keyboard area by image analysis, or uses other machine learning.
  • the performance operation area 1302 is obtained by using image recognition or the like. Further, the musical instrument information acquisition section 1201 may acquire the performance operation area 1302 by displaying a moving image of a marker placed around the keyboard area. Further, the musical instrument information acquisition section 1201 may acquire a performance operation area manually designated by the player.
  • the performer information acquisition unit 303 acquires the size or range of motion of the performer's body part 1303 by recognizing the position of each joint of the human skeleton using motion capture technology based on image recognition, for example.
  • the method of acquiring information in the performer's music information acquisition unit 302 and the performer information acquisition unit 303 may be a method of acquiring from information researched by the performer, or information actually measured by the performer. It may be a method of acquiring from
  • FIG. 14 is a flow chart showing the process of correcting the information regarding the player's body part.
  • the musical instrument information acquisition section 1201 acquires a performance operation area.
  • the performer information acquisition unit 303 acquires information on the body parts of the performer.
  • the correction processing section 1202 extracts the reference length from the performance operation area.
  • a representative length of the performance operation area that is as independent as possible of the model may be used as the reference length. For example, a piano has 88 keys except for special musical instruments, and the size of the keyboard is almost the same regardless of the model. Therefore, the distance between both ends of the keyboard area should be set as the reference length.
  • step S1404 the correction processing unit 1202 calculates the ratio (relative amount) of the information regarding the player's body part to the reference length.
  • step S1405 the correction processing unit 1202 corrects the information on the player's body part using the ratio calculated at step S1404.
  • step S1406 the information storage unit 308 stores the information corrected in step S1405 as information on the player's body part.
  • the learner information acquisition unit 305 may perform the same processing as the musical instrument information acquisition unit 1201, the performer information acquisition unit 303, and the correction processing unit 1202 described above. Also, the learner information acquisition unit 305 may use corrected information input by the learner.
  • information other than the size of the hand when it is stretched and the range of motion when each finger is rotated for example, the height of the player or learner, the height when sitting, the height of both shoulders, etc.
  • width, and arm length for example, the height of the player or learner, the height when sitting, the height of both shoulders, etc.
  • FIG. 15 is an explanatory diagram of the player's or learner's height, sitting height, shoulder width, and arm length.
  • 1501 is the height.
  • 1502 is the sitting height.
  • 1503 is the position of both shoulders.
  • 1504 is the elbow position.
  • 1505 is the position of the wrist.
  • 1506 is the width of both shoulders (the distance between the positions 1503 of both shoulders).
  • 1507 is the length of the upper arm (the distance from the position 1503 of both shoulders to the position 1504 of the elbow).
  • 1508 is the length from the elbow to the wrist (the distance from the elbow position 1504 to the wrist position 1505).
  • the above information is considered to roughly represent the difference in physique between Europeans and Americans and Asians, for example.
  • the learner can select an appropriate performance video.
  • the basic configuration of the information processing system of this embodiment is the same as that of the information processing system of Embodiment 2, and the configuration different from that of Embodiment 2 will be described in this embodiment.
  • the musical instrument to be played is assumed to be a stringed instrument such as a violin or a guitar, especially a cello.
  • FIG. 16 is an explanatory diagram of processing for correcting information about body parts of a player using a stringed instrument.
  • 1601 is the fingerboard of the cello.
  • 1602 is a string.
  • 1603 is the player's hand.
  • an instruction is given to press a specific pitch.
  • the state of the hand 1603 at that time and the state of the cello fingerboard 1601 as a whole are photographed as moving images. Then, using a moving image, the size of the hand 1603 relative to the cello fingerboard area can be obtained.
  • the size of the hand 1603 may be obtained by fixing a moving image capturing device to a predetermined position from the player's chair or an end pin and capturing the image.
  • the size of the hand 1603 holding down a specific pitch may be acquired using a contact sensor attached to the hand.
  • the performer or learner may measure the size of his/her left hand in advance and input the numerical value.
  • the height which is considered to represent the size of the whole body, is included in the evaluation items.
  • V player_i and V learner_i of formula (1) for evaluating the degree of matching of the information on the body parts of the performer and the learner are expressed in semitone units as the height or how much the index finger and little finger of the left hand spread. be expressed as These scale differences are accommodated by appropriately setting the weighting factors. Table 2 shows specific coefficients when using equation (1).
  • the weighting coefficients w1 and w2 are set to 1,400, respectively.
  • n is 2
  • the evaluation function ⁇ is represented by the following equation (5).
  • FIG. 17 is a diagram showing an example of a screen for inputting information by the performer of this embodiment.
  • Reference numeral 1701 denotes a video uploaded by the performer and a video storage destination.
  • 1702 is the basic information of the performer.
  • 1703 is music information.
  • 1704 is information about the player's body part. The player inputs, for example, the height of the player and the distance between the index finger and little finger of the left hand, which are particularly important physical conditions when pressing the strings or operating the bow in playing the cello.
  • FIG. 18 is an explanatory diagram of data stored in the information storage unit 308.
  • FIG. 18A shows moving image data 1802 stored in the moving image data storage server 1801 in the information storage unit 308.
  • the moving image data 1802 is assigned moving image data numbers such as 001, 002, and 003, for example.
  • FIG. 8B shows the database in the information storage unit 308.
  • FIG. 18A shows moving image data 1802 stored in the moving image data storage server 1801 in the information storage unit 308.
  • the moving image data 1802 is assigned moving image data numbers such as 001, 002, and 003, for example.
  • FIG. 8B shows the database in the information storage unit 308.
  • FIG. 8B shows the database in the information storage unit 308.
  • FIG. 19 is a diagram showing an example of the search condition screen of the input unit 25 entered by the learner.
  • 1901 is the search result display count indicating how many moving image data matching the search condition are to be displayed at the top.
  • 1902 is the basic information of the performer.
  • 1903 is music information.
  • 1904 is information about a learner's body part.
  • FIG. 20 is a diagram showing an example of the screen of the display unit 26 (information generated by the presentation information generation unit 310) presented to the learner.
  • 2001 is a list of search results of moving image data suitable for learners.
  • 2002 is a thumbnail display column of moving image data. Clicking on a row of moving image data displays thumbnails of the moving image data.
  • An input field 2003 is used when creating a comparative moving image.
  • the learner can select an appropriate performance video.
  • the present invention supplies a program that implements one or more functions of the above-described embodiments to a system or apparatus via a network or a storage medium, and one or more processors in the computer of the system or apparatus reads and executes the program. It can also be realized by processing to It can also be implemented by a circuit (for example, ASIC) that implements one or more functions.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Educational Technology (AREA)
  • Multimedia (AREA)
  • Educational Administration (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】学習者が適切な演奏動画を選択可能な情報処理装置、情報処理方法、及びプログラムを提供すること。 【解決手段】情報処理装置は、演奏者の楽器演奏時の音及び身体部位の動作を記録した動画データを取得する第1取得部と、演奏者の身体部位に関する情報を取得する第2取得部と、動画データと演奏者の身体部位に関する情報とを対応させる情報を生成する第1処理部とを有する。

Description

情報処理装置、情報処理方法、及びプログラム
 本発明は、楽器演奏の学習者の演奏技術を向上させるための情報処理装置、情報処理方法、及びプログラムに関する。
 楽器演奏の学習者が演奏技術を向上させるために上級者の演奏動画を参照する場合、演奏動画を適切に選択することが重要である。特許文献1には、学習者が年齢、性別、音楽歴、及び得意な曲等から指導を受ける上級者を選択可能な構成が開示されている。
特許第3799980号公報
 しかしながら、特許文献1の構成では、学習者が上級者を選択する際に参照する情報が不十分であり、適切な上級者を選択できるとは言えない。
 本発明は、学習者が適切な演奏動画を選択可能な情報処理装置、情報処理方法、及びプログラムを提供することを目的とする。
 本発明の一側面としての情報処理装置は、演奏者の楽器演奏時の音及び身体部位の動作を記録した動画データを取得する第1取得部と、演奏者の身体部位に関する情報を取得する第2取得部と、動画データと演奏者の身体部位に関する情報とを対応させる情報を生成する第1処理部とを有することを特徴とする。
 本発明によれば、学習者が適切な演奏動画を選択可能な情報処理装置、情報処理方法、及びプログラムを提供することができる。
情報処理システムのブロック図である。 端末装置のブロック図である。 実施例1の情報処理装置のブロック図である。 情報記憶部に情報を記憶するまでの処理を示すフローチャートである。 学習者の検索条件に対する提示情報を生成する処理を示すフローチャートである。 鍵盤楽器の2つの鍵盤を2本の指で打鍵する様子を示す図である。 実施例1の演奏者が情報を入力する画面の一例を示す図である。 実施例1の情報記憶部に保存されているデータの説明図である。 実施例1の学習者が入力する検索条件画面の一例を示す図である。 実施例1の学習者に提示する画面の一例を示す図である。 比較動画の一例を示す図である。 実施例2の情報処理装置のブロック図である。 演奏者の身体部位に関する情報を補正する処理の説明図である。 演奏者の身体部位に関する情報を補正する処理を示すフローチャートである。 演奏者又は学習者の身長、座高、両肩の幅、及び腕の長さの説明図である。 弦楽器で身体部位に関する情報を補正する処理の説明図である。 実施例3の演奏者が情報を入力する画面の一例を示す図である。 実施例3の情報記憶部に保存されているデータの説明図である。 実施例3の学習者が入力する検索条件画面の一例を示す図である。 実施例3の学習者に提示する画面の一例を示す図である。
 以下、本発明の実施例について、図面を参照しながら詳細に説明する。各図において、同一の部材については同一の参照番号を付し、重複する説明は省略する。
 各実施例において、「学習者」は楽器演奏を学ぶ生徒等を想定し、「演奏者」は楽器演奏を指導する先生、演奏家、及び一般の上級演奏者等を想定している。また、以下の実施例では、演奏楽器が鍵盤楽器又は弦楽器である場合について説明するが、本発明はドラム等の他の楽器にも適用可能である。
 図1は、本実施例の情報処理システムのブロック図である。情報処理システムは、複数の端末装置11、ネットワーク12、及び情報処理装置13を有する。端末装置11は、パーソナルコンピュータ、ノートパソコン、タブレット端末、及びスマートフォン等のユーザー(学習者や演奏者)が情報の取得、入力、送信をしたり、送られてきた情報を閲覧したりするための装置である。ネットワーク12は、インターネット、公衆回線、及びLAN等の端末装置11と情報処理装置13とを接続する構成である。情報処理装置13は、本実施例では端末装置11とは別の装置として構成されているが、端末装置11の一部として組み込まれていてもよい。
 図2は、端末装置11のブロック図である。端末装置11は、制御・演算部21、記憶部22、通信部23、動画撮影部24、入力部25、及び表示部26を有する。
 制御・演算部21は、CPU(Central Processing Unit)、RAM(Random Access Memory)、及びROM(Read Only Memory)等より構成されている。ROMには、CPUにより読み込まれ実行されるプログラム等が保存されている。RAMは、CPUのワークメモリとして用いられる。CPUは、ROMに保存されたプログラムに従い様々な処理を実行してコマンドの発行を行うことによって端末装置11全体の制御を行う。
 記憶部22は、ハードディスクや半導体メモリ等を用いた大容量記憶媒体である。記憶部22は、動画撮影部24により撮影された静止画像や映像等を保存することができる。
 通信部23は、他の装置やインターネット等と通信するための通信モジュールや通信用コネクタ等である。通信部23による通信は、USB通信等の有線通信、Wi-Fi等の無線LAN、及びBluetooth(登録商標)、ZigBee、4G(第4世代移動通信システム)、5G(第5世代移動通信システム)、ブロードバンド等の無線通信等である。
 動画撮影部24は、撮像素子や画像処理用LSI等を含み、静止画像及び映像の撮影が可能なカメラ機能を備える。また、動画撮影部24は、音声の録音が可能なマイク機能を備える。なお、動画撮影部24は、端末装置11の必須の構成要素ではない。単に動画を閲覧するだけのユーザーには、動画撮影部24は不要である。
 入力部25は、例えば、表示部26と一体に構成されたタッチパネル、トラックパッドやタッチパッドと称される表示部26と一体となっていない平板状のセンサーを指でなぞって操作するポインティングデバイス、キーボード、及びマウス等である。入力部25は、ユーザーの端末装置11に対する操作入力を受け付ける。入力部25に対してユーザーから入力がなされると、その入力に応じた入力信号が生成されて制御・演算部21に出力される。制御・演算部21は、取得した入力信号に対応する演算処理と端末装置11の制御を行う。
 表示部26は、例えば、LCD(Liquid Crystal Display)、PDP(Plasma Display Panel)、有機EL(Electro Luminescence)パネル等により構成された表示デバイスである。表示部26には、端末装置11のユーザーインターフェース等が表示される。
 図3は、本実施例の情報処理装置13のブロック図である。情報処理装置13は、演奏者動画データ取得部(第1取得部)301、演奏者楽曲情報取得部302、演奏者情報取得部(第2取得部)303、情報記録処理部(第1処理部)307、及び情報記憶部(記憶部)308を有する。演奏者動画データ取得部301は、演奏者の楽器演奏時の音及び身体部位の動作を記憶した動画データを取得する。動画データは、動画撮影部24により撮影されたものでもよいし、一般の動画撮影機器により撮影されたものでもよいし、三次元情報として取得された演奏者の身体部位の動作を、視点を変えて再構成したものでもよい。なお、本実施例では、演奏楽器として鍵盤楽器を想定している。演奏者楽曲情報取得部302は、演奏者が演奏した楽曲の情報(楽曲情報)を取得する。ここでの楽曲情報とは、例えば、楽曲名や、動画データの演奏のテンポである。演奏者情報取得部303は、動画データに収録された演奏を行っている演奏者の身体部位に関する情報を取得する。演奏者の身体部位に関する情報とは、例えば、演奏者の身体部位の大きさや可動域の情報である。情報記録処理部307は、演奏者動画データ取得部301で取得した動画データと、演奏者楽曲情報取得部302と演奏者情報取得部303により取得された情報とを対応させる情報を生成する。情報記憶部308は、情報記録処理部307で生成された情報を記憶する。
 また、情報処理装置13は、学習者楽曲情報取得部304、学習者情報取得部305、学習者動画データ取得部306、一致度算出処理部(第2処理部)309、及び提示情報生成部310を有する。学習者楽曲情報取得部304は、学習者が閲覧したい楽曲を演奏している動画データを検索するための楽曲情報を取得する。ここでの楽曲情報とは、例えば、作曲者、編曲者、及び作品名等を含む楽曲名や閲覧したい動画データの演奏のテンポである。学習者情報取得部305は、学習者に身体の特徴が近い演奏者の動画データを検索するために、学習者の身体部位に関する情報を取得する。ここでの学習者の身体部位に関する情報とは、例えば、学習者の身体部位の大きさや可動域である。学習者動画データ取得部306は、学習者の動画データを取得する。一致度算出処理部309は、学習者楽曲情報取得部304及び学習者情報取得部305により取得された情報を用いて情報記憶部308に保存されている情報と学習者の情報との一致度を算出し、学習者の情報と一致度が高い情報を情報記憶部308から抽出する。提示情報生成部310は、一致度算出処理部309により抽出された情報を学習者に提示する情報を生成する。また、提示情報生成部310は、学習者動画データ取得部306により取得された学習者の動画データと学習者に提示する情報を用いて選択された動画データとを比較するための比較動画を生成してもよい。
 図4は、情報記憶部308に情報を記憶するまでの処理を示すフローチャートである。ステップS401では、演奏者動画データ取得部301は、動画データを取得する。ステップS402では、演奏者楽曲情報取得部302は、演奏者が動画データで収録した曲の楽曲情報を取得する。ステップS403では、演奏者情報取得部303は、演奏者の身体部位に関する情報を取得する。ステップS404では、情報記憶部308は、動画データを記憶する。ステップS405では、情報記憶部308は、動画データ保存先を記憶する。動画データ保存先としては、例えば、動画データを保存するサーバー上のURLを自動で割り振ることを想定している。これにより、実際に動画データが保存されている場所と、該動画データを読み出すためのURLを用意することができる。ステップS406では、情報記録処理部307は、動画データと楽曲情報とを対応させる情報を生成する。ステップS407では、情報記録処理部307は、動画データと演奏者の身体部位に関する情報とを対応させる情報を生成する。
 図5は、学習者の検索条件に対する提示情報を生成する処理を示すフローチャートである。ステップS501では、学習者楽曲情報取得部304は、学習者による入力に応じた楽曲情報を取得する。ステップS502では、学習者情報取得部305は、学習者の身体部位に関する情報を取得する。ステップS503では、一致度算出処理部309は、情報記憶部308に保存されている動画データのうちステップS501で取得した楽曲情報が一致した動画データが存在するかどうかを判定する。楽曲情報が一致した動画データが存在する場合、ステップS504に進み、そうでないと判定された場合、ステップS506に進む。ステップS504では、一致度算出処理部309は、楽曲情報が一致した動画データのうち演奏者の身体部位に関する情報と学習者の身体部位に関する情報との一致度を算出する。一致度算出処理部309は、本実施例では、以下の式(1)で定義した評価関数を用いて一致度を算出する。評価関数の値が小さい方が、一致度が高いとみなされる。
Figure JPOXMLDOC01-appb-M000002
 ここで、φは、評価関数である。nは、演奏者と学習者の身体部位に関する情報のうち評価対象とする項目数である。wは、i番目の評価対象の重み付け係数である。Vplayer_iは、演奏者のi番目の評価対象を点数化した値である。Vlearner_iは、学習者のi番目の評価対象を点数化した値である。なお、一致度を算出するための評価関数は、式(1)に限定されない。
 ステップS505では、提示情報生成部310は、ステップS504で算出した一致度に基づいて学習者に提示する情報を生成する。提示情報生成部310は、例えば、一致度が高い順に特定の数の動画データを提示する情報を生成する。生成された情報には、動画データを閲覧するための動画データ保存先のURL等が含まれる。また、生成された情報には、楽曲情報や演奏者の身体部位に関する情報等が含まれていてもよい。ステップS506では、提示情報生成部310は、情報記憶部308に楽曲情報が一致する動画データが存在しないことを示す情報を生成する。
 ここで、演奏者と学習者の身体部位に関する情報について説明する。楽器演奏時において、全身の様々な部位が動くが、特に手や指先を細かく動かすことが求められる。鍵盤楽器の演奏では、指同士の間隔を広げて、複数の異なる鍵盤を同時に操作することも多い。したがって、手の伸張時の大きさや、各指を回したときの可動域が異なると、演奏動作も大きく異なる。例えば、5本の指のうち特定の2本の指を広げてどの2つの鍵盤に届くかを調べることで、手の伸張時の大きさや、各指を回したときの可動域を評価することができる。具体的には、白鍵だけを打鍵することとし、特定の2本の指を広げて届く2つの鍵盤を、音楽用語の音程の幅(度)で数値化すればよい。なお、5本の指から2本を選ぶ組み合わせは10通りあり、左右それぞれの手で考えると20通りあるが、そのうち必要なものを絞ればよい。
 図6は、鍵盤楽器の2つの鍵盤を2本の指で打鍵する様子を示す図である。図6(a)は、鍵盤601Aを右手602Aの親指と小指を広げて打鍵する様子を示している。図6(b)は、鍵盤601Bを右手602Bの人差し指と中指を広げて打鍵する様子を示している。表1は、式(1)を使う際の具体的な2本の指の間隔と重み付け係数を示している。
Figure JPOXMLDOC01-appb-T000003
 鍵盤楽器の演奏では、親指と小指を広げて打鍵できた2つ鍵盤を、手の伸張時の大きさとして評価することが多い。本実施例では、式(1)の値Vplayer_i,Vlearner_iとして、2本の指の開きを音程の幅(度)で表したものを使用する。また、重み付け係数w1,w6を例えば6、その他を1とする。また、右手と左手は大きさが異なることも多く、それぞれで評価する。このとき、右手の評価関数φは、以下の式(2)で表される。
Figure JPOXMLDOC01-appb-M000004
 また、左手の評価関数φは、以下の式(3)で表される。
Figure JPOXMLDOC01-appb-M000005
 学習者と演奏者の一致度を評価する全体の評価関数φは、以下の式(4)で表される。
Figure JPOXMLDOC01-appb-M000006
 なお、重み付け係数wは、任意に設定可能である。例えば、利き手を加味して、左右どちらかの手の重み付け係数を大きくしてもよい。また、値Vplayer_i-Vlearner_iの絶対値や任意の指数乗を算出してもよい。
 また、手の伸張時の大きさや、各指を回したときの可動域を評価するために、演奏者の手に付けた接触式センサーを用いたり、画像処理により各指の動きを認識したりしてもよい。
 図7は、演奏者が情報を入力する入力部25の画面の一例を示す図である。701は、演奏者がアップロードする動画と動画保存先である。演奏者は、アップロードする動画名を入力してアップする。発行URLは、アップロードと同時に自動で発行される動画保存先であり、演奏者が入力する必要はない。702は、演奏者の基本情報である。演奏者は、例えば、性別と年齢を入力する。なお、演奏者の基本情報として、国籍、ピアノ演奏歴、及び利き手等を入力できるようにしてもよい。703は、楽曲情報である。演奏者は、動画データで収録した曲の楽曲情報(例えば、作曲者名、曲名、及び演奏のテンポ等)を入力する。演奏のテンポは、演奏者が動画データでの演奏のテンポを測定して入力すればよい。また、演奏者が入力せずに、音解析によるテンポ検出の技術を利用して、演奏者楽曲情報取得部302で動画データから自動で検出して記録してもよい。演奏中にテンポが変化することもあるが、例えば代表として曲の出だしのテンポを記録しておけばよい。また、演奏のテンポの代わりに、動画データの時間的な長さを入力できるようにしてもよい。704は、演奏者の身体部位に関する情報である。演奏者は、例えば、演奏者の身体部位の大きさや可動域の情報を入力する。例えば、右手の開きを、音程を示す「度」を単位として入力する。図7では、親指と小指、親指と人差し指、人差し指と中指、中指と薬指、及び薬指と小指の開きを入力する。左手も同様である。
 図8は、情報記憶部308に保存されているデータの説明図である。図8(a)は、情報記憶部308内の動画データ格納サーバー801に保存されている動画データ802を示している。動画データ802は、例えば、001,002,003等の動画データ番号が付けられている。図8(b)は、情報記憶部308内のデータベースである。
 図9は、学習者が入力する入力部25の検索条件画面の一例を示す図である。検索条件の一部が空欄であっても入力された情報のみで検索できるように設定されていてもよい。901は、検索条件に一致する動画データを上位何件表示するかの検索結果表示数である。空欄の場合、自動的に所定の上限数を設定してもよい。これにより、表示が必要以上に煩雑にならなくて済む。902は、演奏者の基本情報である。学習者は、例えば、性別と年齢を入力する。903は、楽曲情報である。学習者は、例えば、作曲者名や曲名を入力する。なお、これらの情報は一般的な楽曲検索技術を使用して、自動で判定し記録するようにしてもよい。また、学習者は、演奏のテンポを入力してもよい。904は、学習者の身体部位に関する情報である。学習者は、例えば、身体部位の大きさや可動域の情報を入力する。学習者は、具体的には、特定の2本の指を広げて鍵盤上で届く音程を入力する。なお、身体部位に関する情報は、学習者自身の演奏動画から画像認識技術を用いて取得されてもよいし手に付ける接触式センサーから取得されもよい。
 図10は、学習者に提示される表示部26の画面(提示情報生成部310により生成された情報)の一例を示す図である。1001は、学習者に適した動画データの検索結果の一覧である。学習者は発行URLを押すと、動画データを閲覧することができる。なお、推薦順位と発行URLだけ表示させてもよい。1002は、動画データのサムネイル表示欄である。動画データの行をクリックすると、該動画データのサムネイルが表示される。1003は、比較動画を作成する場合に使用する入力欄である。比較動画を作成する場合はチェックを入れ、その下の欄に、検索結果の推薦順位と、自分の動画データ名を入力することで、比較動画が生成される。なお、自分の動画データには、学習者の端末装置11に保存されている動画データ名の他、情報記憶部308に保存されている動画データ等を入力することができる。
 図11は、表示部26に表示される比較動画の一例を示す図である。1101は、比較動画の表示欄である。1102は、図10で選択された学習者に適した動画データの表示欄である。1103は、学習者の動画データの表示欄である。
 以上説明したように、本実施例の構成によれば、学習者が適切な演奏動画を選択可能である。
 本実施例の情報処理システムの基本的な構成は実施例1の情報処理システムの構成と同様であり、本実施例では実施例1の構成と異なる構成について説明する。本実施例では、実施例1と同様に、演奏楽器は鍵盤楽器を想定している。
 図12は、本実施例の情報処理装置13のブロック図である。本実施例の情報処理装置13は、実施例1の構成に加えて、楽器情報取得部1201と補正処理部(補正部)1202を有する。楽器情報取得部1201は、動画データに映っている、演奏者が演奏している楽器の演奏操作領域を取得する。補正処理部1202は、楽器情報取得部1201で取得した演奏操作領域を用いて、演奏者情報取得部303で取得した演奏者の身体部位に関する情報を補正する。情報記録処理部307は、演奏者動画データ取得部301で取得した動画データに対して、演奏者楽曲情報取得部302と補正処理部1202により取得又は補正された情報を対応させるための処理を行う。
 演奏者楽曲情報取得部302や演奏者情報取得部303で情報を取得する方法は複数考えられる。本実施例では、演奏者動画データ取得部301により取得された動画データから取得する方法について説明する。動画データから演奏者や学習者の身体部位に関する情報を取得する場合、動画データに映っているそれ自体を評価するのではなく、鍵盤領域に対しての相対的な量として評価することが必要である。
 図13は、演奏者の身体部位に関する情報を補正する処理の説明図である。1301は、動画データに含まれる1フレームの画像である。1302は、動画データに映っている楽器の演奏操作領域である。図13における演奏操作領域は、演奏者が打鍵する黒鍵・白鍵を含んだ鍵盤領域である。1303は、演奏者の身体部位である。なお、図13では、身体部位1303は手であるが、演奏者の上半身、肩、及び腕等であってもよい。楽器情報取得部1201は、例えば、鍵盤領域の特徴的なパターンを画像で用意しておきパターンマッチングで認識させたり、鍵盤領域の黒と白のエッジを画像解析で認識させたり、その他機械学習による画像認識を活用したりして演奏操作領域1302を取得する。また、楽器情報取得部1201は、鍵盤領域の周辺に設置された目印となるマーカーを動画で映すことによって演奏操作領域1302を取得してもよい。また、楽器情報取得部1201は、演奏者が手動で指定した演奏操作領域を取得してもよい。演奏者情報取得部303は、例えば、画像認識によるモーションキャプチャ技術を用いて人間の骨格の各関節の位置を認識することで、演奏者の身体部位1303の大きさ又は可動域を取得する。
 また、演奏者楽曲情報取得部302や演奏者情報取得部303で情報を取得する方法は、演奏者により調べられた情報から取得する方法であってよいし、演奏者により実際に測定された情報から取得する方法であってもよい。
 図14は、演奏者の身体部位に関する情報を補正する処理を示すフローチャートである。ステップS1401では、楽器情報取得部1201は、演奏操作領域を取得する。ステップ1402では、演奏者情報取得部303は、演奏者の身体部位に関する情報を取得する。ステップS1403では、補正処理部1202は、演奏操作領域から基準長を抽出する。機種にできるだけ依存しない演奏操作領域の代表的な長さを基準長とすればよい。例えば、ピアノであれば、特殊な楽器を除いて鍵盤の数は88鍵であり機種に依らず鍵盤の大きさはほぼ同じである。したがって、鍵盤領域の両端の距離を基準長とすればよい。ステップS1404では、補正処理部1202は、基準長に対する演奏者の身体部位に関する情報の比率(相対量)を算出する。ステップS1405では、補正処理部1202は、ステップS1404で算出した比率を用いて演奏者の身体部位に関する情報を補正する。ステップS1406では、情報記憶部308は、ステップS1405で補正された情報を、演奏者の身体部位に関する情報として記憶する。なお、学習者情報取得部305が上述した楽器情報取得部1201、演奏者情報取得部303、及び補正処理部1202と同じ処理を行ってもよい。また、学習者情報取得部305は、学習者により入力された補正された情報を用いてもよい。
 本実施例では、演奏者の身体部位に関する情報として、手の伸張時の大きさや、各指を回したときの可動域以外の情報(例えば、演奏者又は学習者の身長、座高、両肩の幅、及び腕の長さ)を加えてもよい。
 図15は、演奏者又は学習者の身長、座高、両肩の幅、及び腕の長さの説明図である。1501は、身長である。1502は、座高である。1503は、両肩の位置である。1504は、肘の位置である。1505は、手首の位置である。1506は、両肩の幅(両肩の位置1503の距離)である。1507は、上腕の長さ(両肩の位置1503から肘の位置1504までの距離)である。1508は、肘から手首までの長さ(肘の位置1504から手首の位置1505までの距離)である。上記情報は、例えば、欧米人とアジア人の体格の違い等がおおよそ表れると考えられる。
 以上説明したように、本実施例の構成によれば、学習者が適切な演奏動画を選択可能である。
 本実施例の情報処理システムの基本的な構成は実施例2の情報処理システムの構成と同様であり、本実施例では実施例2の構成と異なる構成について説明する。本実施例では、演奏楽器はヴァイオリンやギター等の弦楽器、特にチェロを想定している。
 チェロを演奏する場合の演奏者や学習者の身体部位に関する情報について説明する。楽器演奏時において、全身の様々な部位が動くが、特に手や指先を細かく動かすことが求められる。チェロの演奏では、指同士の間隔を広げて弦を押さえることが頻繁にある。したがって、手の伸張時の大きさが異なると、演奏動作も大きく異なる。例えば、左手の人差し指と小指がどれくらい広がるかを調べることで、手の伸張時の大きさや、各指を回したときの可動域を評価することができる。
 図16は、弦楽器で演奏者の身体部位に関する情報を補正する処理の説明図である。1601は、チェロの指板である。1602は、弦である。1603は、演奏者の手である。チェロの指板1601上の弦1602を手1603で押さえる場合に、例えば、特定の音程を押さえるように指示する。そのときの手1603の様子と、チェロの指板1601全体の様子を動画で撮影しておく。そして、動画を用いて、チェロの指板領域に対する手1603の大きさを取得すればよい。また、動画撮影機器を演奏者の椅子やエンドピンから所定の位置に固定して撮影して、手1603の大きさを取得してもよい。また、手に付けた接触式センサーで、特定の音程を押さえた手1603の大きさを取得してもよい。また、演奏者や学習者が自分の左手の大きさをあらかじめ測定して、数値を入力するようにしてもよい。また、チェロの演奏では弓を大きく動かしたりする必要もあるので、全身の大きさ等も関係してくると考えられる。そこで、全身の大きさを代表すると考えられる身長も評価項目に入れておく。
 演奏者と学習者の身体部位に関する情報の一致度を評価する式(1)の値Vplayer_i,Vlearner_iを、本実施例では、身長、又は左手の人差し指と小指がどれくらい広がるかを半音単位で表したもの、とする。これらのスケールの違いは重み付け係数を適切に設定することにより吸収する。表2は、式(1)を使用する際の具体的な係数を示している。
Figure JPOXMLDOC01-appb-T000007
 例えば、重み付け係数w1,w2をそれぞれ、1,400と設定する。このとき、nは2であり、評価関数φは以下の式(5)で表される。
Figure JPOXMLDOC01-appb-M000008
 図17は、本実施例の演奏者が情報を入力する画面の一例を示す図である。1701は、演奏者がアップロードする動画と動画保存先である。1702は、演奏者の基本情報である。1703は、楽曲情報である。1704は、演奏者の身体部位に関する情報である。演奏者は、例えば、チェロの演奏で弦を押さえたり弓の操作をしたりする際に特に重要となる身体条件である、演奏者の身長と、左手の人差し指と小指の開きを入力する。
 図18は、情報記憶部308に保存されているデータの説明図である。図18(a)は、情報記憶部308内の動画データ格納サーバー1801に保存されている動画データ1802を示している。動画データ1802は、例えば、001,002,003等の動画データ番号が付けられている。図8(b)は、情報記憶部308内のデータベースである。
 図19は、学習者が入力する入力部25の検索条件画面の一例を示す図である。1901は、検索条件に一致する動画データを上位何件表示するかの検索結果表示数である。1902は、演奏者の基本情報である。1903は、楽曲情報である。1904は、学習者の身体部位に関する情報である。
 図20は、学習者に提示される表示部26の画面(提示情報生成部310により生成された情報)の一例を示す図である。2001は、学習者に適した動画データの検索結果の一覧である。2002は、動画データのサムネイル表示欄である。動画データの行をクリックすると、該動画データのサムネイルが表示される。2003は、比較動画を作成する場合に使用する入力欄である。
 以上説明したように、本実施例の構成によれば、学習者が適切な演奏動画を選択可能である。
[その他の実施例]
 本発明は、上述の実施例の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
 以上、本発明の好ましい実施形態について説明したが、本発明はこれらの実施形態に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。
 

Claims (16)

  1.  演奏者の楽器演奏時の音及び身体部位の動作を記録した動画データを取得する第1取得部と、
     前記演奏者の身体部位に関する情報を取得する第2取得部と、
     前記動画データと前記演奏者の身体部位に関する情報とを対応させる情報を生成する第1処理部とを有することを特徴とする情報処理装置。
  2.  前記第1処理部は、前記動画データと前記演奏者が演奏した楽曲の情報とを対応させる情報を生成することを特徴とする請求項1に記載の情報処理装置。
  3.  前記動画データと前記第1処理部により生成された情報とを記憶する記憶部を更に有することを特徴とする請求項1又は2に記載の情報処理装置。
  4.  学習者の身体部位に関する情報を取得する第3取得部と、
     前記記憶部に保存されている動画データごとに前記演奏者の身体部位に関する情報と前記学習者の身体部位に関する情報との一致度を算出する第2処理部と、
     前記一致度を用いて前記学習者に提示する情報を生成する生成部とを更に有することを特徴とする請求項3に記載の情報処理装置。
  5.  前記生成部は、前記学習者の動画データと前記学習者に提示する情報を用いて選択された動画データとを比較するための比較動画を生成することを特徴とする請求項4に記載の情報処理装置。
  6.  前記第2処理部は、評価関数を用いて前記一致度を算出することを特徴とする請求項4又は5に記載の情報処理装置。
  7.  前記評価関数は、前記評価関数をφ、前記演奏者と前記学習者の身体部位に関する情報のうち評価対象とする項目数をn、i番目の評価対象の重み付け係数をw、前記演奏者のi番目の評価対象を点数化した値をVplayer_i、前記学習者のi番目の評価対象を点数化した値をVlearner_iとするとき、
    Figure JPOXMLDOC01-appb-M000001

    なる式で表されることを特徴とする請求項6に記載の情報処理装置。
  8.  前記第2処理部は、前記記憶部に保存されている動画データのうち前記演奏者が演奏した楽曲の情報と学習者が閲覧したい楽曲の情報とが一致する動画データを抽出することを特徴とする請求項4乃至7の何れか一項に記載の情報処理装置。
  9.  前記第2処理部は、前記記憶部に保存されている動画データのうち前記演奏者が演奏した楽曲の演奏のテンポと学習者が閲覧したい楽曲の演奏のテンポとが一致する動画データを抽出することを特徴とする請求項4乃至8の何れか一項に記載の情報処理装置。
  10.  前記学習者の身体部位に関する情報は、前記学習者の身長、座高、両肩の幅、腕の長さ、手の伸張時の大きさ、及び各指を回したときの可動域の少なくとも一つであることを特徴とする請求項4乃至9の何れか一項に記載の情報処理装置。
  11.  前記演奏者の身体部位に関する情報は、前記演奏者の身長、座高、両肩の幅、腕の長さ、手の伸張時の大きさ、各指を回したときの可動域、及び前記演奏者の身体部位と前記演奏者が演奏する楽器の演奏操作領域との相対量の少なくとも一つであることを特徴とする請求項1乃至10の何れか一項に記載の情報処理装置。
  12.  前記手の伸張時の大きさは、鍵盤楽器において2本の指を用いて同時に打鍵できる2つの鍵盤の情報であることを特徴とする請求項10又は11に記載の情報処理装置。
  13.  前記演奏操作領域は、鍵盤楽器における鍵盤が存在する領域であることを特徴とする請求項11に記載の情報処理装置。
  14.  前記演奏者が演奏する楽器の演奏操作領域を用いて前記演奏者の身体部位に関する情報を補正する補正部を更に有し、
     前記補正部は、前記動画データと前記補正部により補正された前記演奏者の身体部位に関する情報とを対応させる情報を生成することを特徴とする請求項1乃至13の何れか一項に記載の情報処理装置。
  15.  演奏者の楽器演奏時の音及び身体部位の動作を記録した動画データを取得するステップと、
     前記演奏者の身体部位に関する情報を取得するステップと、
     前記動画データと前記演奏者の身体部位に関する情報とを対応させる情報を生成するステップとを有することを特徴とする情報処理方法。
  16.  請求項15に記載の情報処理方法をコンピュータに実行させることを特徴とするプログラム。
     
PCT/JP2022/025728 2021-10-01 2022-06-28 情報処理装置、情報処理方法、及びプログラム WO2023053632A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021162767A JP2023053619A (ja) 2021-10-01 2021-10-01 情報処理装置、情報処理方法、及びプログラム
JP2021-162767 2021-10-01

Publications (1)

Publication Number Publication Date
WO2023053632A1 true WO2023053632A1 (ja) 2023-04-06

Family

ID=85780569

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/025728 WO2023053632A1 (ja) 2021-10-01 2022-06-28 情報処理装置、情報処理方法、及びプログラム

Country Status (2)

Country Link
JP (1) JP2023053619A (ja)
WO (1) WO2023053632A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019053170A (ja) * 2017-09-14 2019-04-04 京セラドキュメントソリューションズ株式会社 楽器練習装置
WO2019130755A1 (ja) * 2017-12-27 2019-07-04 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
JP2019152860A (ja) * 2018-02-28 2019-09-12 株式会社デザインMプラス 楽譜提供システム、方法およびプログラム
WO2020100671A1 (ja) * 2018-11-15 2020-05-22 ソニー株式会社 情報処理装置、情報処理方法及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019053170A (ja) * 2017-09-14 2019-04-04 京セラドキュメントソリューションズ株式会社 楽器練習装置
WO2019130755A1 (ja) * 2017-12-27 2019-07-04 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
JP2019152860A (ja) * 2018-02-28 2019-09-12 株式会社デザインMプラス 楽譜提供システム、方法およびプログラム
WO2020100671A1 (ja) * 2018-11-15 2020-05-22 ソニー株式会社 情報処理装置、情報処理方法及びプログラム

Also Published As

Publication number Publication date
JP2023053619A (ja) 2023-04-13

Similar Documents

Publication Publication Date Title
US9454912B2 (en) Stringed instrument practice device and system
US20220398937A1 (en) Information processing device, information processing method, and program
CN112805765B (zh) 信息处理装置
MacRitchie The art and science behind piano touch: A review connecting multi-disciplinary literature
Weiss et al. Motion types of ancillary gestures in clarinet playing and their influence on the perception of musical performance
MacRitchie et al. Efficient tracking of pianists’ finger movements
Marky et al. Let’s frets! Mastering guitar playing with capacitive sensing and visual guidance
JP2019053170A (ja) 楽器練習装置
WO2023053632A1 (ja) 情報処理装置、情報処理方法、及びプログラム
CN114170868A (zh) 智能钢琴训练的方法和系统
WO2022202264A1 (ja) 演奏解析方法、演奏解析システムおよびプログラム
US10319352B2 (en) Notation for gesture-based composition
WO2023032422A1 (ja) 処理方法、プログラムおよび処理装置
Volta et al. Automated analysis of postural and movement qualities of violin players
JP6715874B2 (ja) 情報提供装置、情報提供方法、およびプログラム
Emad et al. Note Frequency Recognition and Finger Motion Capture of a Guitarist: A Survey and Challenges Ahead
Nordstrom et al. From the beginning: Building foundational technique in violin and viola students
KR102564330B1 (ko) 사운드 인식 기반의 전자 악보 자동 넘김 장치
Shirmohammadi et al. MIDIATOR: A Tool for Analyzing Students' Piano Performance
Zhao et al. A study on attention-based fine-grained image recognition: Towards musical instrument performing hand shape assessment
WO2022202266A1 (ja) 画像処理方法、画像処理システムおよびプログラム
Mirazimzadeh et al. Automatic Page-Turner for Pianists with Wearable Motion Detector
JP3221331U (ja) アニメーション絵図式携帯型演奏練習装置
WO2022202265A1 (ja) 画像処理方法、画像処理システムおよびプログラム
EP4332957A2 (en) Virtual, augmented or mixed reality instrument teaching system and method

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22875511

Country of ref document: EP

Kind code of ref document: A1