WO2023080080A1 - 演奏解析方法、演奏解析システムおよびプログラム - Google Patents

演奏解析方法、演奏解析システムおよびプログラム Download PDF

Info

Publication number
WO2023080080A1
WO2023080080A1 PCT/JP2022/040473 JP2022040473W WO2023080080A1 WO 2023080080 A1 WO2023080080 A1 WO 2023080080A1 JP 2022040473 W JP2022040473 W JP 2022040473W WO 2023080080 A1 WO2023080080 A1 WO 2023080080A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
performance
video data
percussion instrument
metrical
Prior art date
Application number
PCT/JP2022/040473
Other languages
English (en)
French (fr)
Inventor
右士 三浦
Original Assignee
ヤマハ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤマハ株式会社 filed Critical ヤマハ株式会社
Publication of WO2023080080A1 publication Critical patent/WO2023080080A1/ja
Priority to US18/656,748 priority Critical patent/US20240290303A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10GREPRESENTATION OF MUSIC; RECORDING MUSIC IN NOTATION FORM; ACCESSORIES FOR MUSIC OR MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR, e.g. SUPPORTS
    • G10G1/00Means for the representation of music
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10DSTRINGED MUSICAL INSTRUMENTS; WIND MUSICAL INSTRUMENTS; ACCORDIONS OR CONCERTINAS; PERCUSSION MUSICAL INSTRUMENTS; AEOLIAN HARPS; SINGING-FLAME MUSICAL INSTRUMENTS; MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR
    • G10D13/00Percussion musical instruments; Details or accessories therefor
    • G10D13/01General design of percussion musical instruments
    • G10D13/02Drums; Tambourines with drumheads
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10GREPRESENTATION OF MUSIC; RECORDING MUSIC IN NOTATION FORM; ACCESSORIES FOR MUSIC OR MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR, e.g. SUPPORTS
    • G10G3/00Recording music in notation form, e.g. recording the mechanical operation of a musical instrument
    • G10G3/04Recording music in notation form, e.g. recording the mechanical operation of a musical instrument using electrical means
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel

Definitions

  • the present disclosure relates to technology for analyzing performances of musical instruments.
  • Patent Literature 1 discloses a configuration for synchronizing video data with audio data representing performance sounds of a musical instrument.
  • reference information such as a time code is used.
  • Patent Document 1 In the technique of Patent Document 1, it is necessary to generate reference information independently of video data. However, it is practically not easy to generate reference information that serves as a temporal reference for video data with high precision. In the above description, the case of synchronizing video data and audio data was exemplified, but similar problems are assumed in various situations where video data is processed on the time axis. In consideration of the above circumstances, one aspect of the present disclosure aims to generate, from video data, data that serves as a temporal reference for performance of a percussion instrument.
  • a performance analysis method acquires video data generated by capturing images of a percussion instrument, and analyzes the video data to obtain the performance of the percussion instrument. generating performance data representing the performance according to the result of the detection; and generating metrical data representing a metrical structure from the performance data.
  • a performance analysis method includes acquiring video data generated by imaging a percussion instrument, and processing the video data to generate performance data representing a performance of the percussion instrument. and generating metrical data representing a metrical structure from the performance data. Further, a performance analysis method according to another aspect of the present disclosure obtains video data generated by imaging a percussion instrument, and processes the video data to generate metrical data representing a metrical structure. Including things.
  • a performance analysis system includes a video data acquisition unit that acquires video data generated by imaging a percussion instrument, and an analysis that detects changes in the percussion instrument due to performance by analyzing the video data. a processing unit; a performance data generation unit that generates performance data representing the performance according to the detection result; and a metric data generation unit that generates metric data representing a metrical structure from the performance data. .
  • a program includes a video data acquisition unit that acquires video data generated by imaging a percussion instrument, an analysis processing unit that detects changes in the percussion instrument due to performance by analyzing the video data,
  • the computer system functions as a performance data generation unit that generates performance data representing the performance according to the detection result, and a metric data generation unit that generates metric data representing a metric structure from the performance data. .
  • FIG. 1 is a block diagram illustrating the configuration of an information processing system according to a first embodiment
  • FIG. 1 is a block diagram illustrating the configuration of a performance analysis system
  • FIG. 1 is a block diagram illustrating the functional configuration of a performance analysis system
  • FIG. 10 is a flowchart illustrating a detailed procedure of performance detection processing
  • FIG. 4 is an explanatory diagram of processing by an analysis processing unit and a performance data generation unit
  • 9 is a flowchart illustrating a detailed procedure of synchronization control processing
  • 4 is a flow chart illustrating a detailed procedure of performance analysis processing
  • 10 is a flowchart illustrating detailed procedures of performance detection processing in the second embodiment.
  • FIG. 11 is a block diagram illustrating the functional configuration of a performance analysis system in a third embodiment
  • FIG. 11 is a block diagram illustrating the functional configuration of a performance analysis system in a third embodiment
  • FIG. 10 is a flowchart illustrating detailed procedures of synchronization control processing in the third embodiment
  • 14 is a flowchart illustrating detailed procedures of performance analysis processing in the third embodiment
  • FIG. 12 is a block diagram illustrating the functional configuration of a performance analysis system in a fourth embodiment
  • FIG. FIG. 14 is a flowchart illustrating detailed procedures of performance analysis processing in the fourth embodiment
  • FIG. 21 is a block diagram illustrating the functional configuration of a performance analysis system according to a fifth embodiment
  • FIG. FIG. 14 is a flowchart illustrating detailed procedures of synchronization adjustment processing in the fifth embodiment
  • FIG. FIG. 16 is a flow chart illustrating a detailed procedure of performance analysis processing in the fifth embodiment
  • FIG. 21 is an explanatory diagram of a learned model in the sixth embodiment
  • FIG. FIG. 11 is a block diagram illustrating a functional configuration of a performance analysis system in a modified example
  • FIG. 11 is a block diagram illustrating a functional configuration of a performance analysis system in a modified example
  • FIG. 1 is a block diagram illustrating the configuration of an information processing system 100 according to the first embodiment.
  • the information processing system 100 is a computer system for recording and analyzing the performance of the percussion instrument 1 by the user U.
  • FIG. 1 is a block diagram illustrating the configuration of an information processing system 100 according to the first embodiment.
  • the information processing system 100 is a computer system for recording and analyzing the performance of the percussion instrument 1 by the user U.
  • FIG. 1 is a block diagram illustrating the configuration of an information processing system 100 according to the first embodiment.
  • the information processing system 100 is a computer system for recording and analyzing the performance of the percussion instrument 1 by the user U.
  • FIG. 1 is a block diagram illustrating the configuration of an information processing system 100 according to the first embodiment.
  • the information processing system 100 is a computer system for recording and analyzing the performance of the percussion instrument 1 by the user U.
  • the percussion instrument 1 includes a drum set 10 and foot pedals 12.
  • a drum set 10 is composed of a plurality of drums including a bass drum 11 .
  • the bass drum 11 is a percussion instrument having a body 111 and a head 112 .
  • the body portion 111 is a cylindrical structure (shell).
  • the head 112 is a plate-like elastic member that closes the opening of the body portion 111 .
  • the opening of the body portion 111 on the side opposite to the head 112 is closed by a back head, but illustration of the back head is omitted in FIG.
  • the user U hits the head 112 using the foot pedal 12 to play the percussion part of the music.
  • the head 112 may be a mesh head for noise reduction. That is, the opening of the body portion 111 need not be completely sealed.
  • the foot pedal 12 comprises a beater 121 and a pedal 122.
  • the beater 121 is a hitting body that hits the bass drum 11 .
  • the pedal 122 receives depression by the user U.
  • the beater 121 strikes the head 112 in conjunction with the depression of the pedal 122 by the user U.
  • the head 112 vibrates when hit by the beater 121 . That is, the head 112 is a vibrating body that vibrates when the user U plays.
  • the subject of the performance of the drum set 10 is not limited to the user U.
  • the drum set 10 may be played by a performance robot capable of automatically playing music.
  • the information processing system 100 includes a recording device 20, a recording device 30, and a performance analysis system 40.
  • the performance analysis system 40 is a computer system for analyzing the performance of the percussion instrument 1 by the user U.
  • FIG. Performance analysis system 40 communicates with each of recording device 20 and recording device 30 .
  • Communication between the performance analysis system 40 and the recording device 20 or recording device 30 is short-range wireless communication such as Wi-Fi (registered trademark) or Bluetooth (registered trademark).
  • performance analysis system 40 may communicate with recording device 20 or recording device 30 by wire.
  • the performance analysis system 40 may be realized by a server device that communicates with the recording device 20 and the recording device 30 via a communication network such as the Internet.
  • Each of the recording device 20 and the recording device 30 records the performance of the drum set 10 by the user U.
  • Recording device 20 and recording device 30 are installed at different positions and angles with respect to drum set 10 .
  • the recording device 20 includes an imaging device 21 and a communication device 22 .
  • the imaging device 21 generates video data X by imaging the user U playing the percussion instrument 1 . That is, the image data X is generated by imaging the percussion instrument 1 .
  • the range captured by the imaging device 21 includes the head 112 of the bass drum 11 . Therefore, the image represented by the image data X includes the head 112 .
  • the imaging device 21 includes, for example, an optical system such as a photographing lens, an imaging element that receives incident light from the optical system, and a processing circuit that generates image data X according to the amount of light received by the imaging element.
  • the imaging device 21 starts and ends recording in response to an instruction from the user U.
  • imaging by the imaging device 21 is started and ended according to instructions from the user U.
  • the image represented by the image data X may include only a part of the bass drum 11, may include drums other than the bass drum 11 in the drum set 10, or may include musical instruments other than the drum set 10. may be included. Also, an operator other than the user U may instruct the imaging device 21 to start or end recording.
  • the communication device 22 transmits the video data X to the performance analysis system 40.
  • an information device such as a smart phone, tablet terminal, or personal computer is used as the recording device 20 .
  • video equipment such as a video camera dedicated to recording, for example, may be used as the recording device 20 .
  • the imaging device 21 and the communication device 22 may be separate devices.
  • the recording device 30 includes a sound collection device 31 and a communication device 32 .
  • the sound pickup device 31 picks up surrounding sounds. Specifically, the sound collection device 31 generates the sound data Y by collecting the performance sound of the percussion instrument 1 (drum set 10). The performance sound is a musical sound produced by the percussion instrument 1 as the user U performs the performance.
  • the sound collecting device 31 includes a microphone that generates an acoustic signal by collecting sound, and a processing circuit that generates acoustic data Y from the acoustic signal.
  • the sound collection device 31 starts and ends recording in response to an instruction from the user U. An operator other than the user U may instruct the sound collecting device 31 to start or end recording.
  • the communication device 32 transmits the acoustic data Y to the performance analysis system 40.
  • an information device such as a smart phone, a tablet terminal, or a personal computer is used as the recording device 30 .
  • an audio device such as a single microphone may be used as the recording device 30 .
  • the sound collecting device 31 and the communication device 32 may be separate devices.
  • the imaging by the imaging device 21 and the sound collection by the sound collection device 31 are performed in parallel with the performance of the drum set 10 by the user U. That is, the video data X and the audio data Y are generated in parallel for a common piece of music.
  • the performance analysis system 40 generates synthesized data Z by synthesizing the video data X and the sound data Y.
  • the imaging device 21 and the sound collection device 31 should start recording at the same time before the performance of the percussion instrument 1 starts, and end recording at the same time after the performance ends. is desirable.
  • the start and end of recording are instructed individually to each of the imaging device 21 and the sound collecting device 31 . Therefore, the recording start and end points may differ between the imaging device 21 and the sound collecting device 31 .
  • the video represented by the video data X and the performance sound represented by the audio data Y may differ in position on the time axis.
  • the performance analysis system 40 synchronizes the video data X and the audio data Y with each other on the time axis.
  • FIG. 2 is a block diagram illustrating the configuration of the performance analysis system 40.
  • the performance analysis system 40 includes a control device 41 , a storage device 42 , a communication device 43 , an operating device 44 , a display device 45 and a sound emitting device 46 .
  • the performance analysis system 40 can be realized by a single device, or by a plurality of devices configured separately from each other. Recording device 20 or recording device 30 may be installed in performance analysis system 40 .
  • the control device 41 is composed of one or more processors that control each element of the performance analysis system 40 .
  • the control device 41 may be a CPU (Central Processing Unit), GPU (Graphics Processing Unit), SPU (Sound Processing Unit), DSP (Digital Signal Processor), FPGA (Field Programmable Gate Array), or ASIC (Application Specific Integrated Circuit). ) and the like.
  • the communication device 43 communicates with each of the recording device 20 and the recording device 30. Specifically, the communication device 43 receives the video data X transmitted from the recording device 20 and the sound data Y transmitted from the recording device 30 .
  • the storage device 42 is a single or multiple memories that store programs executed by the control device 41 and various data used by the control device 41 .
  • the video data X and the audio data Y received by the communication device 43 are stored in the storage device 42 .
  • the storage device 42 is composed of a known recording medium such as a magnetic recording medium or a semiconductor recording medium, or a combination of a plurality of types of recording media.
  • a portable recording medium that is detachable from the performance analysis system 40 may be used as the storage device 42 .
  • a recording medium for example, cloud storage
  • a communication network such as the Internet
  • the operation device 44 is an input device that receives instructions from the user U.
  • the operation device 44 is, for example, an operator operated by the user U or a touch panel that detects contact by the user U.
  • An operation device 44 (for example, a mouse or a keyboard) separate from the performance analysis system 40 may be connected to the performance analysis system 40 by wire or wirelessly.
  • An operator other than the user U playing the percussion instrument 1 may operate the operating device 44 .
  • the display device 45 displays various images under the control of the control device 41.
  • the display device 45 displays an image represented by the image data X of the synthesized data Z.
  • FIG. Various display panels such as a liquid crystal display panel or an organic EL (Electroluminescence) panel are used as the display device 45 .
  • a display device 45 separate from the performance analysis system 40 may be connected to the performance analysis system 40 by wire or wirelessly.
  • the sound emitting device 46 reproduces the sound represented by the sound data Y in the synthesized data Z.
  • the sound emitting device 46 is, for example, a speaker or headphones.
  • a sound emitting device 46 separate from the performance analysis system 40 may be connected to the performance analysis system 40 by wire or wirelessly.
  • the display device 45 and the sound emitting device 46 function as a reproducing device 47 that reproduces the synthesized data Z.
  • FIG. 3 is a block diagram illustrating the functional configuration of the performance analysis system 40.
  • the control device 41 executes a program stored in the storage device 42, thereby providing a plurality of functions (video data acquisition unit 51, sound data acquisition unit 52, analysis processing unit 53, performance data It implements the generation unit 54 and the synchronization control unit 55).
  • the video data acquisition unit 51 acquires the video data X. Specifically, the video data acquisition unit 51 receives the video data X transmitted by the recording device 20 through the communication device 43 .
  • the acoustic data acquisition unit 52 acquires acoustic data Y. FIG. Specifically, the acoustic data acquisition unit 52 receives the acoustic data Y transmitted by the recording device 30 through the communication device 43 .
  • the analysis processing unit 53 analyzes the video data X to detect vibrations generated in the bass drum 11 due to the performance. Specifically, the analysis processing unit 53 detects vibration of the head 112 of the bass drum 11 .
  • FIG. 4 is a flow chart illustrating a detailed procedure of a process of detecting vibration of the bass drum 11 by the analysis processing unit 53 (hereinafter referred to as "performance detection process").
  • the analysis processing section 53 identifies the area where the bass drum 11 exists (hereinafter referred to as "target area") from the image represented by the image data X (Sa31).
  • the target area is the area of the head 112 of the bass drum 11 .
  • the target area can also be rephrased as an area that vibrates when the percussion instrument 1 is played.
  • a known object detection process is arbitrarily employed to identify the target area. For example, object detection processing using a deep neural network (DNN) such as a convolutional neural network (CNN) is used to identify the target area.
  • DNN deep neural network
  • CNN convolutional neural network
  • the analysis processing unit 53 detects vibration of the head 112 according to changes in the image in the target area (Sa32). Specifically, as illustrated in FIG. 5, the analysis processing unit 53 calculates the feature amount F of the image in the target area, and detects vibration according to the change in the feature amount F over time.
  • the feature amount F is an index representing the feature of the image represented by the image data X.
  • FIG. the feature amount F is information representing the optical characteristics of the image, such as the average value of the gradation (luminance) in the target area.
  • the amount of reflected light reaching the imaging device 21 from the head 112 of the bass drum 11 changes due to the vibration of the head 112 .
  • the analysis processing unit 53 detects the point of time ⁇ at which the amount of change (for example, the amount of increase or the amount of decrease) of the feature amount F exceeds a predetermined threshold as the point of time of vibration of the head 112 .
  • the head 112 of the bass drum 11 vibrates each time the beater 121 hits it. Therefore, the time point ⁇ of the vibration sequentially specified by the analysis processing unit 53 corresponds to the time point when the user U hits the drum set 10 with the beater 121 .
  • the amplitude of the vibration generated in the head 112 depends on the intensity with which the user U strikes the bass drum 11 (hereinafter referred to as "strike intensity").
  • the amount of change in the amount of reflected light reaching the imaging device 21 from the head 112 of the bass drum 11 depends on the striking intensity.
  • the analysis processing unit 53 calculates the impact intensity in accordance with the amount of change in the feature amount F in consideration of the above relationship. For example, the analysis processing unit 53 sets the impact strength to a larger numerical value as the amount of change in the feature amount F increases.
  • the performance detection process includes the process of specifying the target area of the bass drum 11 from the image represented by the image data X (Sa31), and the detection of the vibration of the head 112 according to the change in the image in the target area. and processing (Sa32).
  • the kind of the feature-value F is not limited to the above illustration.
  • the analysis processing unit 53 may extract the feature points of the percussion instrument 1 by analyzing the video data X and calculate the feature amount F regarding the movement of the feature points. For example, the moving speed or acceleration of the feature point is calculated as the feature quantity F. A well-known technique such as optical flow, for example, is used to calculate the feature quantity F illustrated above.
  • the characteristic point of the percussion instrument 1 is a characteristic point extracted from the image of the percussion instrument 1 by performing predetermined image processing on the image data X, for example.
  • the performance data generation unit 54 in FIG. 3 generates performance data Q representing the performance of the percussion instrument 1 by the user U according to the detection result by the analysis processing unit 53 .
  • the performance data Q is, as illustrated in FIG. 5, time-series data in which sounding data q1 representing the sounding of the drum set 10 and time point data q2 specifying the time point of the sounding are arranged.
  • the pronunciation data q1 is event data specifying the impact strength detected by the analysis processing unit 53.
  • the time point data q2 specifies the time point of each sounding of the drum set 10, for example, by the time interval between successive soundings, or the elapsed time from the time the percussion instrument 1 started playing.
  • the performance data generation unit 54 generates performance data Q that designates the time point ⁇ of the vibration detected from the video data X as the sounding time point of the drum set 10 (hereinafter referred to as “sounding point”).
  • the performance data Q is, for example, time series data conforming to the MIDI standard.
  • FIG. 6 is a flowchart illustrating a detailed procedure of a process of synchronizing the video data X and the audio data Y by the synchronization control unit 55 (hereinafter referred to as "synchronization control process").
  • the synchronization control section 55 identifies the sounding point of the bass drum 11 by analyzing the sound data Y (Sa71). For example, the synchronization control unit 55 sequentially identifies points in the sound data Y at which the amount of volume increase exceeds a predetermined value as sounding points.
  • a well-known beat tracking technique is arbitrarily adopted for specifying the pronunciation point using the acoustic data Y.
  • FIG. Note that the procedure of the synchronization control process is arbitrary, and the process such as beat tracking is not essential.
  • the synchronization control section 55 uses the performance data Q to synchronize the video data X and the sound data Y (Sa72). Specifically, the synchronization control unit 55 synchronizes the timing of the sound data Y with respect to the video data X so that each sound generation point specified by the performance data Q and each sound generation point specified from the sound data Y coincide on the time axis. Determine the position on the axis.
  • the synchronization between the video data X and the audio data Y means that the audio represented by the audio data Y at an arbitrary point in the song and the video represented by the video data X at that point in time are synchronized.
  • the processing by the synchronization control unit 55 can also be expressed as processing for adjusting the temporal correspondence between the video data X and the audio data Y.
  • FIG. As described above, according to the first embodiment, it is possible to synchronize the video data X and the audio data Y which are individually prepared with each other.
  • the synchronization control unit 55 generates synthesized data Z including video data X and audio data Y synchronized with each other (Sa73).
  • the synthesized data Z is reproduced by the reproduction device 47 .
  • video data X and audio data Y are synchronized with each other. Therefore, at the time when the image of the specific portion of the music piece in the image data X is displayed by the display device 45, the performance sound of the particular portion in the sound data Y is reproduced by the sound emitting device 46.
  • FIG. 7 is a flowchart illustrating a detailed procedure of processing executed by the control device 41 (hereinafter referred to as "performance analysis processing"). For example, an instruction from the user U to the operating device 44 triggers the performance analysis process.
  • the performance analysis process of FIG. 7 is an example of the "performance analysis method”.
  • the control device 41 acquires the video data X by functioning as the video data acquisition section 51 (S1). Further, the control device 41 acquires the acoustic data Y by functioning as the acoustic data acquisition section 52 (S2).
  • the control device 41 executes the performance detection process described above (S3). Specifically, the control device 41 analyzes the image data X to detect the vibration of the drum set 10 (head 112). That is, the control device 41 functions as the analysis processing section 53 . The control device 41 generates performance data Q using the result of the performance detection process (S4). That is, the control device 41 functions as a performance data generator 54 .
  • the control device 41 executes the synchronization control process described above (S7). Specifically, the control device 41 uses the performance data Q to synchronize the video data X and the sound data Y, thereby generating the synthetic data Z. As shown in FIG. That is, the control device 41 functions as the synchronization control section 55 . The control device 41 causes the synthesized data Z to be reproduced by the reproducing device 47 (S9).
  • the vibration of the bass drum 11 (head 112) is detected by analyzing the image data X generated by imaging the percussion instrument 1, and the performance data Q representing the performance of the bass drum 11 is detected. is generated according to the result of the detection. That is, the performance data Q, which serves as a temporal reference for the performance of the percussion instrument 1, can be generated from the video data X.
  • FIG. 1 the performance data Q, which serves as a temporal reference for the performance of the percussion instrument 1, can be generated from the video data X.
  • non-percussion instruments musical instruments other than percussion instruments
  • stringed instruments or wind instruments move moment by moment according to movement or posture change of the player. That is, the bass drum 11 tends to be less likely to move as compared to, for example, non-percussion instruments. Therefore, according to the first embodiment in which the video data X of the bass drum 11 is analyzed, the load required to generate the performance data Q is reduced compared to the case of generating performance data by analyzing the video data of non-percussion instruments.
  • the target area of the bass drum 11 is specified from the image represented by the image data X. Therefore, the vibration of the bass drum 11 can be detected with high accuracy as compared with the form of detecting the vibration without specifying the target area. As described above, the bass drum 11 tends to be less likely to move as compared to non-percussion instruments. Therefore, the target area in which the bass drum 11 exists can be specified easily and accurately from the video data X. FIG. That is, by using the bass drum 11 as a detection target, the processing load for detecting vibration is reduced.
  • the form in which the imaging device 21 images the bass drum 11 is exemplified.
  • the imaging device 21 of the second embodiment generates video data X by imaging the foot pedal 12 used for playing the bass drum 11 .
  • a form in which the imaging device 21 images both the bass drum 11 and the foot pedal 12 is also assumed.
  • the configuration of the performance analysis system 40 is the same as that of the first embodiment (Fig. 3).
  • the control device 41 executes a plurality of functions (video data acquisition unit 51, sound data acquisition unit 52, , an analysis processing unit 53, a performance data generation unit 54, and a synchronization control unit 55).
  • the video data acquisition unit 51 acquires the video data X as in the first embodiment.
  • the acoustic data acquisition unit 52 acquires the acoustic data Y as in the first embodiment.
  • the analysis processing unit 53 of the first embodiment detects vibrations generated in the bass drum 11 due to performance.
  • the analysis processing unit 53 of the second embodiment detects the hitting of the bass drum 11 by the beater 121 of the foot pedal 12 by analyzing the image data X generated by imaging the foot pedal 12 .
  • the analysis processing unit 53 detects the hitting of the bass drum 11 by the beater 121 through the performance detection process illustrated in FIG. That is, the performance detection process of FIG. 3 in the first embodiment is replaced with the performance detection process of FIG. 8 in the second embodiment.
  • the analysis processing unit 53 detects the beater 121 from the video represented by the video data X (Sb31).
  • a known object detection process is arbitrarily employed to identify the beater 121 .
  • object detection processing using a deep neural network such as a convolutional neural network is used to identify the beater 121 .
  • the analysis processing unit 53 detects the impact of the beater 121 on the drum set 10 according to the change in the position of the beater 121 detected from the video data X (Sb32). Specifically, the analysis processing unit 53 detects the time when the movement of the beater 121 reverses from the predetermined direction to the opposite direction as the time when the beater 121 strikes. Also, the strength of the hit by the user U depends on the moving speed of the beater 121 . The analysis processing unit 53 calculates the impact intensity according to the moving speed of the beater 121 detected from the video data X in consideration of the above relationship. For example, the analysis processing unit 53 sets the hitting intensity to a larger numerical value as the movement speed of the beater 121 increases.
  • the performance detection process of the second embodiment consists of the process of detecting the beater 121 from the video represented by the video data X (Sb31) and the process of detecting the hit according to the change in the position of the beater 121 (Sb31). Sb32).
  • the performance data generation unit 54 of the second embodiment generates performance data Q representing the performance of the percussion instrument 1 by the user U according to the detection result of the analysis processing unit 53, as in the first embodiment. Specifically, the performance data generator 54 generates performance data Q that designates the point of impact detected from the video data X as the sounding point of the bass drum 11 . As in the first embodiment, the performance data Q is composed of sounding data q1 designating the impact strength and time point data q2 designating the sounding time point.
  • the synchronization control unit 55 uses the performance data Q to synchronize the video data X and the sound data Y. Specifically, the synchronization control unit 55 synchronizes the video data X and the sound data Y by the same synchronization control processing (FIG. 6) as in the first embodiment.
  • the performance analysis processing in the second embodiment is the same as the performance analysis processing in the first embodiment illustrated in FIG. However, in the second embodiment, as described above, the performance detection process of FIG. 3 in the performance analysis process is replaced with the performance detection process of FIG.
  • the hit by the beater 121 is detected by analyzing the video data X generated by imaging the beater 121, and the performance data Q representing the performance of the bass drum 11 is generated by the detection. Generated according to the result.
  • the performance data Q which serves as a temporal reference for the video data X, can be generated from the video data X.
  • FIG. 9 is a block diagram illustrating the functional configuration of a performance analysis system 40 according to a third embodiment.
  • the control device 41 of the third embodiment performs the same elements as in the first embodiment (video data acquisition unit 51, sound data acquisition unit 52, analysis processing unit 53, It also functions as a metrical data generator 56 in addition to the performance data generator 54 and synchronization controller 55).
  • the metrical data generation unit 56 generates metrical data R from the performance data Q.
  • the metrical data R is data representing the metrical structure of the music played using the percussion instrument 1 .
  • a metrical structure means a metrical structure in a piece of music. Specifically, the metrical structure is the structure (beat) of a rhythm pattern defined by a combination of a plurality of beats, such as strong beats or weak beats, and the time points at which each beat occurs. The metrical structure is typically repeated periodically within a piece of music, for periods such as bars, but repetitiveness is not required.
  • the metrical data generator 56 generates metrical data R by analyzing the performance data Q. FIG.
  • the metrical data generation unit 56 distinguishes between strong beats and weak beats of strikes specified in time series by the performance data Q, and generates a periodic pattern composed of strong beats and weak beats.
  • the metrical data R is generated by specifying the metrical structure. Any known technique may be employed to generate the metrical data R using the performance data Q (that is, to analyze the metrical structure).
  • the synchronization control unit 55 of the first embodiment uses the performance data Q to synchronize the video data X and the sound data Y as described above.
  • the synchronization control unit 55 of the second embodiment synchronizes the video data X and the audio data Y using the metrical data R.
  • FIG. FIG. 10 is a flowchart illustrating detailed procedures of synchronization control processing executed by the synchronization control unit 55 of the third embodiment. That is, the synchronous control process of FIG. 6 in the first embodiment is replaced with the synchronous control process of FIG. 10 in the third embodiment.
  • the synchronization control section 55 identifies the sounding point and sounding intensity of the bass drum 11 by analyzing the sound data Y (Sb71).
  • the pronunciation intensity is the intensity of pronunciation specified from the sound data Y (for example, volume).
  • the synchronization control unit 55 sequentially identifies points in the sound data Y at which the amount of volume increase exceeds a predetermined value as sounding points, and identifies the volume at the sounding points as the sounding intensity.
  • the synchronization control unit 55 synchronizes the video data X and the audio data Y using the metrical data R (Sb72). For example, the synchronization control unit 55 identifies from the acoustic data Y a period during which the pronunciation intensity pattern of each pronunciation point approximates the metrical structure specified by the metrical data R. FIG. Then, the synchronization control unit 55 synchronizes the time of the audio data Y with respect to the video data X so that the period specified from the audio data Y and the section of the video data X corresponding to the metrical structure match on the time axis. Determine the position on the axis. That is, the synchronization between the video data X and the audio data Y is controlled taking into consideration not only the simple time series of sounding points but also the metrical structure within the music.
  • the synchronization control unit 55 generates synthesized data Z including video data X and audio data Y synchronized with each other (Sb73).
  • the synthesized data Z is reproduced by the reproduction device 47 .
  • video data X and audio data Y are synchronized with each other. Therefore, at the time when the image of the specific portion of the music piece in the image data X is displayed by the display device 45, the performance sound of the particular portion in the sound data Y is reproduced by the sound emitting device 46.
  • FIG. 11 is a flowchart illustrating the procedure of performance analysis processing in the third embodiment.
  • the control device 41 performs acquisition of video data X (S1), acquisition of sound data Y (S2), performance detection process (S3), and Generating performance data Q (S4) is executed.
  • the controller 41 After generating the performance data Q, the controller 41 generates metrical data R from the performance data Q (S5). That is, the control device 41 functions as a metrical data generator 56 .
  • the control device 41 executes the synchronization control process of FIG. 10 by functioning as the synchronization control unit 55 (S7). Specifically, the control device 41 uses the metrical data R to synchronize the video data X and the audio data Y, thereby generating the synthesized data Z.
  • FIG. The reproduction of synthesized data Z (S9) is the same as in the first embodiment.
  • the performance data Q that serves as a temporal reference for the video data X can be generated.
  • the metrical data R is used for synchronizing the video data X and the audio data Y.
  • FIG. synchronization between the video data X and the audio data Y is realized by considering the metrical structure of the music. Therefore, compared to the first embodiment in which the performance data Q specifying the timing of sounding the bass drum 11 is used for synchronizing the video data X and the audio data Y, the video data X and the audio data Y can be synchronized with high precision. can be synchronized to
  • the generation of the metrical data R is added to the first embodiment in which the vibration of the drum set 10 (head 112) is detected by analyzing the image data X representing the percussion instrument 1. .
  • the second embodiment in which the hit of the drum set 10 is detected by analyzing the video data X representing the beater 121 generation of the metrical data R is added as in the example of the third embodiment.
  • FIG. 12 is a block diagram illustrating the functional configuration of a performance analysis system 40 according to a fourth embodiment.
  • the control device 41 of the fourth embodiment performs the same functions as in the third embodiment (video data acquisition unit 51, sound data acquisition unit 52, analysis processing unit 53, It also functions as an acoustic processing section 57 in addition to the performance data generation section 54, the synchronization control section 55, and the metrical data generation section 56).
  • the sound represented by the sound data Y includes the performance sound of the bass drum 11 (hereinafter referred to as “target sound”), which is the original purpose of sound collection, and the performance sound of musical instruments other than the bass drum 11 (hereinafter referred to as “non-target sound”). )including.
  • the non-target sound is, for example, the performance sound of a drum other than the bass drum 11 in the drum set 10 or the performance sound of various musical instruments played in the vicinity of the drum set 10 .
  • the acoustic processing unit 57 performs acoustic processing on the acoustic data Y to generate acoustic data Ya.
  • Acoustic processing is processing that emphasizes target sounds relative to non-target sounds.
  • the target sound which is the performance sound of the bass drum 11, exists in a lower range than the non-target sounds. Therefore, the acoustic processing unit 57 performs low-pass filter processing on the acoustic data Y with the cutoff frequency set to the maximum value of the range of the bass drum 11 . Since the non-target sound exceeding the cut-off frequency is reduced or removed by the acoustic processing, the target sound is emphasized or extracted from the acoustic data Ya after the acoustic processing.
  • Sound source separation processing for emphasizing the target sound with respect to the non-target sound by utilizing the difference between the direction from which the target sound arrives and the direction from which the non-target sound arrives with respect to the sound collection device 31 is also performed. used as acoustic processing for
  • the synchronization control unit 55 of the fourth embodiment synchronizes the video data X and the audio data Ya after the audio processing.
  • the synchronous control process in the fourth embodiment is the same as the synchronous control process in the third embodiment, except that the processing target is changed from the sound data Y to the sound data Ya. That is, the synchronization control unit 55 uses the metrical data R to synchronize the video data X and the audio data Ya.
  • FIG. 13 is a flowchart illustrating the procedure of performance analysis processing in the fourth embodiment.
  • acoustic processing (S6) for acoustic data Y is added to the performance analysis processing of the third embodiment.
  • the control device 41 performs acoustic processing on the acoustic data Y to generate the acoustic data Ya. That is, the control device 41 functions as the acoustic processing section 57 .
  • the control device 41 generates synthesized data Z by a synchronous control process to which the metrical data R is applied (S7). Other operations in the performance analysis process are the same as in the third embodiment.
  • the form in which the acoustic processing for the acoustic data Y is added to the first embodiment was exemplified, but the acoustic processing for the acoustic data Y may be applied in the second embodiment as well.
  • the form including the generation of the metrical data R illustrated in the third embodiment was exemplified, but the generation of the metrical data R may be omitted from the fourth embodiment. That is, the synchronization control unit 55 may use the performance data Q to synchronize the video data X and the sound data Y after the sound processing.
  • the acoustic processing exemplified above is applied to both the first embodiment and the second embodiment.
  • the form including the generation of the metrical data R in the third embodiment was exemplified, but the generation of the metrical data R (S5) may be omitted in the fourth embodiment. That is, in the fourth embodiment, the synchronization control section 55 may use the performance data Q to synchronize the video data X and the sound data Y, as in the first or second embodiment.
  • FIG. 14 is a block diagram illustrating the functional configuration of a performance analysis system 40 according to a fifth embodiment.
  • the control device 41 of the fifth embodiment performs the same functions as in the fourth embodiment (video data acquisition unit 51, sound data acquisition unit 52, analysis processing unit 53, It also functions as a synchronization adjustment section 58 in addition to the performance data generation section 54, synchronization control section 55, metric data generation section 56, and sound processing section 57).
  • the synchronization control unit 55 of the fifth embodiment synchronizes the video data X and the audio data Ya, as in the fourth embodiment. However, if the temporal relationship between the video data X and the audio data Ya after processing by the synchronization control unit 55 (hereinafter referred to as "synchronization relationship") does not match the intention of the user U, or if the video data X and the audio data It is assumed that the data Ya is not exactly synchronized.
  • the synchronization adjustment unit 58 in FIG. 14 changes the position (that is, the synchronization relationship) of one of the video data X and the audio data Ya on the time axis with respect to the other after the synchronization control process.
  • FIG. 15 is a flowchart illustrating a detailed procedure of a process (hereinafter referred to as "synchronization adjustment process") for the synchronization adjustment unit 58 to adjust the temporal relationship between the video data X and the audio data Ya.
  • synchronization adjustment process When the synchronization adjustment process is started, the synchronization adjustment section 58 sets the adjustment value ⁇ (S81).
  • the user U operates the operating device 44 while viewing the video and audio of the composite data Z reproduced by the reproducing device 47 to instruct adjustment of the synchronous relationship between the video data X and the audio data Ya. Specifically, the user U instructs adjustment of the synchronous relationship so that the temporal relationship between the video data X and the audio data Ya in the synthesized data Z becomes a desired relationship. For example, when judging that the audio data Ya is delayed with respect to the video data X, the user U moves the audio data Ya forward (in the reverse direction of the time axis) with respect to the video data X by a predetermined amount.
  • the synchronization adjustment unit 58 sets the adjustment value ⁇ according to an instruction from the user U. For example, when the audio data Ya is instructed to move forward with respect to the video data X, the synchronization adjusting section 58 sets the adjustment value ⁇ to a negative number according to the instruction from the user U. Further, when an instruction is given to move the audio data Ya backward with respect to the video data X, the synchronization adjustment unit 58 sets the adjustment value ⁇ to a positive number according to the instruction from the user U.
  • the synchronization control unit 55 adjusts the position of one of the video data X and the audio data Ya on the time axis (that is, the synchronization relationship) with respect to the other according to the adjustment value ⁇ (S82). Specifically, when the adjustment value ⁇ is a negative number, the synchronization control unit 55 moves the sound data Ya forward with respect to the video data X by a movement amount corresponding to the absolute value of the adjustment value ⁇ . Further, when the adjustment value ⁇ is a positive number, the synchronization control unit 55 moves the sound data Ya backward with respect to the video data X by a movement amount corresponding to the absolute value of the adjustment value ⁇ .
  • the synchronization control unit 55 generates synthesized data Z including the video data X and the audio data Y whose synchronization relationship has been adjusted (S83).
  • FIG. 16 is a flowchart illustrating the procedure of performance analysis processing in the fifth embodiment.
  • synchronization adjustment processing illustrated in FIG. 15 is added to the performance analysis processing of the fourth embodiment. That is, the control device 41 functions as the synchronization adjustment unit 58 to adjust the synchronization relationship between the video data X and the audio data Ya according to the adjustment value ⁇ (S8). Other operations in the performance analysis process are the same as in the fourth embodiment.
  • Synthetic data Z generated by the synchronization adjustment process is reproduced by the reproducing device 47 (S9).
  • the position on the time axis of one of the video data X and the audio data Ya can be adjusted after the synchronization control process. Furthermore, in the fifth embodiment, since the adjustment value ⁇ is set according to an instruction from the user U, the position of one of the video data X and the sound data Ya with respect to the other can be changed according to the intention of the user U. Adjustable.
  • the synchronization relationship adjustment illustrated above is applied to both the first embodiment and the second embodiment.
  • the generation of metrical data R (S5) may be omitted. That is, in the fifth embodiment, the synchronization control section 55 may use the performance data Q to synchronize the video data X and the sound data Y, as in the first or second embodiment.
  • the acoustic processing (S6) for the acoustic data Y may also be omitted. That is, in the fifth embodiment, the synchronization control section 55 may synchronize the video data X and the sound data Y as in the first embodiment or the second embodiment.
  • the synchronization adjustment unit 58 of the fifth embodiment sets the adjustment value ⁇ according to the instruction from the user U as described above.
  • the synchronization adjustment unit 58 of the sixth embodiment uses the learned model M to set the adjustment value ⁇ .
  • the configuration and operation other than the setting of the adjustment value ⁇ are the same as those of the fifth embodiment.
  • FIG. 17 is an explanatory diagram regarding setting of the adjustment value ⁇ in the sixth embodiment.
  • the synchronization adjustment unit 58 processes the input data C using the learned model M to generate the adjustment value ⁇ .
  • video data X is supplied to a trained model M as input data C.
  • the temporal relationship (synchronous relationship) between the video data X and the audio data Ya synchronized by the synchronization control unit 55 tends to depend on the conditions regarding the bass drum 11 .
  • the condition of the bass drum 11 is, for example, the type (model of product) or size of the bass drum 11 .
  • the synchronized audio data Ya tends to be delayed with respect to the video data X more easily with electronic drums than with acoustic drums. Therefore, the adjustment value ⁇ for appropriately adjusting the synchronous relationship changes according to the condition of the bass drum 11 represented by the video data X.
  • the trained model M of the sixth embodiment is a statistical estimation model that learns the relationship between the input data C (video data X) and the adjustment value ⁇ by machine learning. That is, the trained model M outputs a statistically valid adjustment value ⁇ for the input data C.
  • FIG. Video data X is used as input data C indicating the condition of the bass drum 11 . Since the image data X reflects external conditions such as the type or model of the bass drum 11, the trained model M can generate an adjustment value ⁇ that is statistically appropriate for the conditions.
  • Information such as the type (model) or size of the bass drum 11 represented by the video data X may be supplied to the learned model M as the input data C.
  • FIG. also, the feature amount F calculated from the video data X may be supplied to the learned model M as the input data C.
  • the learned model M is a combination of a program that causes the control device 41 to execute a calculation for generating the adjustment value ⁇ from the input data C, and a plurality of variables (weights and biases) applied to the calculation.
  • the trained model M is composed of, for example, a deep neural network.
  • a deep neural network for example, any type of deep neural network such as a recurrent neural network (RNN) or a convolutional neural network is used as the trained model M.
  • RNN recurrent neural network
  • the trained model M may be configured by combining multiple types of deep neural networks. Further, additional elements such as long short-term memory (LSTM) or attention may be installed in the learned model M.
  • LSTM long short-term memory
  • the learned model M described above is established by machine learning using a plurality of learning data.
  • Each of the plurality of learning data includes learning input data C (video data X) representing the bass drum 11 and a learning adjustment value ⁇ (correct value) appropriate for the bass drum 11 .
  • the learned model M is adjusted so that the error between the adjustment value ⁇ generated by the provisional learned model M from the input data C of each learning data and the adjustment value ⁇ of the learning data is reduced.
  • Multiple variables are iteratively updated. That is, the learned model M learns the relationship between the learning input data C corresponding to the image of the percussion instrument and the learning adjustment value ⁇ .
  • the synchronization adjustment unit 58 acquires the adjustment value ⁇ by inputting the video data X as the input data C to the learned model M (S81).
  • the process of adjusting the synchronization relationship according to the adjustment value ⁇ (S82) and the process of generating synthesized data Z from the adjusted video data X and audio data Ya (S83) are the same as in the fifth embodiment. .
  • the synchronization relationship adjustment illustrated above is applied to both the first embodiment and the second embodiment.
  • the generation of metrical data R (S5) may be omitted. That is, in the sixth embodiment, the synchronization control section 55 may synchronize the video data X and the sound data Y using the performance data Q, as in the first or second embodiment.
  • the acoustic processing (S6) for the acoustic data Y may be omitted. That is, in the sixth embodiment, the synchronization control section 55 may synchronize the video data X and the audio data Y as in the first embodiment or the second embodiment.
  • synthesized data Z is generated from one piece of video data X and one piece of audio data Y. It may be used to generate Z.
  • the performance data generation section 54 For each of the plurality of video data X, the performance data generation section 54 generates the performance data Q and the metric data generation section 56 generates the metric data R.
  • the synchronization control unit 55 generates synthesized data Z by synchronizing a plurality of pieces of video data X and sound data Y.
  • FIG. According to the above embodiment, it is possible to generate a multi-angle image in which a plurality of images shot at different locations and angles are arranged in parallel.
  • the synchronization control unit 55 may generate synthesized data Z in which a plurality of video data X are sequentially switched in a time division manner.
  • the synchronization control unit 55 generates synthesized data Z in which images are switched for each period corresponding to the metrical structure represented by the metrical data R.
  • the period corresponding to the metrical structure is, for example, a period corresponding to n metrical structures (n is a natural number equal to or greater than 1).
  • synthesized data Z is generated from one piece of video data X and one piece of audio data Y. It may be used to generate Z.
  • the synchronization control unit 55 mixes a plurality of sound data Y at a predetermined ratio, and synchronizes the mixed sound data Y with the video data X.
  • the synchronization control unit 55 may synchronize each of the plurality of sound data Y with the video data X to generate synthesized data Z in which the plurality of sound data Y are sequentially switched in a time division manner.
  • the recording device 20 generates the video data X and the recording device 30 generates the audio data Y, but one or both of the recording device 20 and the recording device 30 Both video data X and audio data Y may be generated.
  • the video data X or the sound data Y may be transmitted to the performance analysis system 40 from each of a plurality of recording devices.
  • the number of recording devices is arbitrary, and the type of data (one or both of video data X and sound data Y) transmitted by each recording device is also arbitrary. Therefore, as illustrated in Modification (1) or Modification (2) above, the total number of video data X or the total number of sound data Y acquired by the performance analysis system 40 is also arbitrary.
  • the video data acquisition unit 51 acquires the video data X from the recording device 20, but the video data X may be data stored in the storage device .
  • the video data acquisition unit 51 acquires the video data X from the storage device 42 .
  • the video data acquisition unit 51 is arbitrary means for acquiring the video data X, and includes an element that receives the video data X from an external device such as the recording device 20 and and the element that obtains the data X.
  • the acoustic data acquisition unit 52 acquires the acoustic data Y from the recording device 30, but the acoustic data Y may be data stored in the storage device .
  • the acoustic data acquisition unit 52 acquires the acoustic data Y from the storage device 42 .
  • the acoustic data acquisition unit 52 is arbitrary means for acquiring the acoustic data Y, and includes an element that receives the acoustic data Y from an external device such as the recording device 30 and and an element that obtains data Y.
  • the video data X and the audio data Y are recorded in parallel, but it is not always necessary to record the video data X and the audio data Y in parallel. . Even if the video data X and the audio data Y are recorded at different times or places, it is possible to synchronize the two by using the performance data Q or the metrical data R. Also, the tempo of the performance represented by the video data X and the performance represented by the sound data Y may be different.
  • the synchronization control unit 55 matches the tempo of the audio data Y with the tempo of the video data X by a known time stretch, and then synchronizes the video data X with the tempo. Acoustic data Y is synchronized.
  • the synchronization control unit 55 identifies the tempo of the video data X from the performance data Q or the metrical data R, and time-stretches the audio data Y so as to match the tempo. That is, the performance data Q or the metrical data R used for synchronizing the video data X and the audio data Y is also used for the time stretch of the audio data Y.
  • the vibration of the head 112 of the bass drum 11 is detected, but the target of detection using the video data X is not limited to the bass drum 11 .
  • vibrations of other drums for example, toms, floor toms, snare drums, etc.
  • the bass drum 11 as an acoustic drum, but a form in which the image data X represents an image of an electronic drum is also assumed.
  • the electronic drum has a pad (for example, a rubber pad) in place of the head 112 described above.
  • the analysis processing unit 53 analyzes the video data X to detect vibration of the pads of the electronic drum.
  • the image of the image data X may include an idiophone such as a cymbal, or a keyboard percussion instrument such as a xylophone.
  • the analysis processing unit 53 analyzes the video data X to detect vibrations occurring in the body sounds.
  • the analysis processing unit 53 is comprehensively expressed as an element that detects vibrations generated in percussion instruments by performance, and any type of percussion instrument can be used.
  • an idiophonetic instrument such as a cymbal tends to have a larger vibration amplitude and a longer duration of vibration than the head 112 of a membranophone such as the bass drum 11 . Therefore, the processing load for the analysis processing unit 53 to detect the vibration of the idiophone exceeds the processing load for detecting the vibration of the membranophone.
  • Vibration-generating elements in percussion instruments are generically expressed as vibrating bodies.
  • percussion instruments also includes supports that support various instrument bodies such as idiophones or membranophones.
  • a cymbal stand that supports a cymbal or a hi-hat stand that supports a hi-hat is a vibrating body that vibrates when played, and is considered as an element forming part of a percussion instrument.
  • the concept of the vibrating body also includes the rear head or the body 111 that vibrates in conjunction with the impact of the head 112 .
  • the vibrating body whose vibration is to be detected by the analysis processing unit 53 includes not only the element directly hit by the user U, but also other elements that vibrate in conjunction with the relevant element. contain. That is, the vibrating body is comprehensively expressed as an element that vibrates due to performance.
  • the image data X represents the image of the foot pedal 12 , but the beater 121 included in the image of the image data X is not limited to the foot pedal 12 .
  • the image of the image data X may include sticks used for playing various percussion instruments such as tom-toms, floor toms, and snare drums.
  • the analysis processing unit 53 analyzes the video data X to detect vibrations occurring in the stick.
  • the image of the image data X may include a mallet used for playing a keyboard percussion instrument such as a xylophone.
  • the analysis processing unit 53 analyzes the video data X to detect vibrations occurring in the mallet.
  • the analysis processing section 53 is comprehensively expressed as an element that detects the impact by the impacting body.
  • Beaters 121, sticks and mallets are examples of striking bodies. That is, the striking body is comprehensively expressed as an element used for striking for performance.
  • the analysis processing unit 53 is comprehensively expressed as an element that detects changes in the percussion instrument due to performance. Changes in the percussion instrument due to performance include vibration of the vibrating body or impact by the striking body. Note that the striking body may be interpreted as the vibrating body of a percussion instrument.
  • the bass drum 11 or the foot pedal 12 may not be included in a partial section of the video represented by the video data X.
  • the image of the video data X includes the bass drum 11 or the foot pedal 12 at the starting point.
  • the synchronization control section 55 can also estimate the starting point of the music.
  • the analysis processing unit 53 identifies the target area from the image of the image data X, but the identification of the target area (Sa31) may be omitted.
  • the identification of the target area Sa31
  • the image represented by the image data X includes only the head 112 of the bass drum 11, the vibration of the head 112 can be detected by analyzing the image data X without specifying the target area. Therefore, the identification of the target area is omitted.
  • the identification of the target region by the analysis processing unit 53 may be omitted.
  • the trained model M in the sixth embodiment is not limited to a deep neural network.
  • a statistical estimation model such as HMM (Hidden Markov Model) or SVM (Support Vector Machine) may be used as the trained model M.
  • the video data X is used as the input data C, but the input data C is not limited to the above examples.
  • the synchronizing relationship tends to depend on the conditions with respect to the bass drum 11 .
  • the synchronization control section 55 may specify the condition regarding the bass drum 11 by analyzing the video data X, and supply the learned model M with the input data C representing the condition.
  • the conditions regarding the bass drum 11 are conditions such as the size or type of the bass drum 11, for example.
  • Synchronization control unit 55 specifies the conditions for bass drum 11 by performing object detection processing on video data X.
  • FIG. As can be understood from the above description, the input data C is comprehensively expressed as data corresponding to the video data X, and includes data generated from the video data X in addition to the video data X itself.
  • the order of each process in the performance analysis process may be appropriately changed from the order illustrated in each of the above embodiments.
  • the order of acquiring video data X (S1) and acquiring audio data Y (S2) may be reversed.
  • the order of acquisition of sound data Y (S2) and performance detection processing (S3) by the analysis processing unit 53 may be reversed.
  • the first trained model M1 is a statistical estimation model that learns the relationship between the input data D and the performance data Q by machine learning.
  • the input data D supplied to the first trained model M1 is data corresponding to the video data X.
  • FIG. Specifically, for example, the video data X itself or the above-described feature amount F calculated from the video data X is used as the input data D.
  • the control device 41 (performance data generator 54) generates performance data Q by processing the input data D using the first trained model M1.
  • the analysis processing unit 53 exemplified in each of the above embodiments is omitted.
  • the image represented by the image data X includes at least one of the vibrating body and the impacting body of the percussion instrument.
  • the first trained model M1 is realized by a combination of a program that causes the control device 41 to execute an operation for generating performance data Q from input data D, and a plurality of variables (weights and biases) applied to the operation. be.
  • the first trained model M1 is composed of a deep neural network such as a convolutional neural network or a recurrent neural network.
  • the first trained model M1 is established by machine learning using multiple learning data.
  • Each of the plurality of learning data includes learning input data D and learning performance data Q (correct value) suitable for the input data D.
  • FIG. In machine learning the first learning is performed so as to reduce the error between the performance data Q generated by the provisional first trained model M1 from the input data D of each learning data and the performance data Q of the learning data.
  • a plurality of variables that define the finished model M1 are iteratively updated. That is, the first trained model M1 learns the relationship between the input data D for learning and the performance data Q for learning corresponding to the image of the percussion instrument.
  • Generation of metrical data R using performance data Q and synchronization control processing using metrical data R are the same as those described above.
  • the performance data Q is generated by processing the input data D corresponding to the video data X of the percussion instrument 1 with the first trained model M1. That is, performance data Q, which serves as a temporal reference for the performance of the percussion instrument 1, can be generated from the video data X in the same manner as in the first embodiment or the second embodiment.
  • the configuration of the fourth embodiment in which the sound processing unit 57 processes the acoustic data Y, and the configuration of the fifth or sixth embodiment in which the synchronization adjustment unit 58 executes the synchronization adjustment process are the configurations shown in FIG. applies equally to
  • the performance data Q is generated by processing the input data D with the first trained model M1, but as illustrated in FIG.
  • the metrical data R may be generated by processing.
  • the second trained model M2 is a statistical estimation model in which the relationship between the input data D and the metrical data R is learned by machine learning.
  • the input data D supplied to the second trained model is data corresponding to the video data X.
  • FIG. Specifically, for example, the video data X itself or the above-described feature amount F calculated from the video data X is used as the input data D.
  • the control device 41 (the metrical data generator 56) generates the metrical data R by processing the input data D using the second trained model M2.
  • the analysis processing section 53 and the performance data generation section 54 exemplified in the above embodiments are omitted.
  • the image represented by the image data X includes at least one of the vibrating body and the impacting body of the percussion instrument.
  • the second trained model M2 is realized by a combination of a program that causes the control device 41 to execute an operation for generating the metric data R from the input data D, and a plurality of variables (weights and biases) applied to the operation. be done.
  • the second trained model M2 is composed of a deep neural network such as a convolutional neural network or a recurrent neural network.
  • the second trained model M2 is established by machine learning using multiple learning data.
  • Each of the plurality of learning data includes input data D for learning and metrical data R for learning suitable for the input data D (correct value).
  • a first 2 A plurality of variables that define the trained model are iteratively updated. That is, the second trained model M2 learns the relationship between the learning input data D and the learning metrical data R corresponding to the image of the percussion instrument. Synchronization control processing using the metrical data R is the same as in each of the above-described modes.
  • the metrical data R is generated by processing the input data D corresponding to the video data X of the percussion instrument 1 with the second trained model M2. That is, like the third embodiment, the metrical data R, which serves as a temporal reference for the performance of the percussion instrument 1, can be generated from the video data X.
  • FIG. The configuration of the fourth embodiment in which the acoustic processing unit 57 processes the acoustic data Y, and the configuration of the fifth or sixth embodiment in which the synchronization adjustment unit 58 executes the synchronization adjustment process are the configurations shown in FIG. applies equally to
  • the percussion instrument 1 includes a vibrating body (head 112) and a striking body (beater 121).
  • the performance data Q or the metrical data R can be generated even if the percussion instrument 1 does not include a vibrating body. Therefore, for example, the above-described modes are similarly applied to air drums in which performance sounds are reproduced by the user U's swinging action of the striking body.
  • the "percussion instrument” in the present disclosure also includes an air drum. In other words, the image of the percussion instrument and the detection of the vibration are not essential for the configuration for generating the performance data Q or the metrical data R from the image data X representing the image of the striking object.
  • the functions of the performance analysis system 40 are realized by the cooperation of one or more processors constituting the control device 41 and programs stored in the storage device 42, as described above.
  • the above program can be provided in a form stored in a computer-readable recording medium and installed in the computer.
  • the recording medium is, for example, a non-transitory recording medium, and an optical recording medium (optical disc) such as a CD-ROM is a good example.
  • recording media in the form of The non-transitory recording medium includes any recording medium other than transitory (propagating signal), and does not exclude volatile recording media.
  • a recording medium for storing the program in the distribution device corresponds to the non-transitory recording medium described above.
  • a performance analysis method comprises acquiring video data generated by imaging a percussion instrument, analyzing the video data to detect changes in the percussion instrument due to performance, generating performance data representing the performance according to the detection result; and generating metrical data representing a metrical structure from the performance data.
  • the change in the percussion instrument is detected by analyzing the video data generated by imaging the percussion instrument, and the performance data Q representing the performance of the percussion instrument is generated according to the result of the detection.
  • performance data that serves as a temporal reference for video data X can be generated from the video data.
  • metrical data representing the metrical structure is generated from the performance data. Therefore, various types of processing using the metrical structure are realized.
  • “Changes in the percussion instrument” are, for example, vibrations generated in the vibrating body of the percussion instrument, or impact by the striking body of the percussion instrument.
  • a vibrator is a part of a percussion instrument that vibrates when played.
  • the vibrating body includes not only the head (striking surface) that is hit during playing, but also the backside head that vibrates coupled with the hitting.
  • the vibrating body includes the body of the instrument that is struck during performance.
  • the "vibration of a percussion instrument” is not limited to the vibration of a vibrating body of a percussion instrument directly hit by a user.
  • "vibration of a percussion instrument” includes vibration of a member that supports a vibrating body of the percussion instrument.
  • the striking body is an element that is used for striking to play a percussion instrument.
  • a stick or beater for hitting a drum, or a mallet for hitting a keyboard percussion instrument such as a xylophone are examples of the hitting body.
  • the player's body can also be included in the concept of "striking body.”
  • Performance data is data in any format that represents the performance of a percussion instrument.
  • performance data is time-series data in which pronunciation data representing percussion strikes and point-in-time data specifying the positions of the percussion strikes on the time axis are arranged.
  • the pronunciation data may specify not only the occurrence of a strike, but also the strength of that strike.
  • “Male structure” means the structure (rhythm) of a metric in a piece of music. Specifically, a rhythm pattern structure (beat) defined by a combination of a plurality of beats, such as strong beats or weak beats, and the time points at which each beat occurs is a typical example of the “metrical structure”.
  • the percussion instrument includes a vibrating body that vibrates due to the performance, and detecting a change in the percussion instrument is performed by identifying the vibrating body of the percussion instrument from an image represented by the video data. Identifying an existing target area; and detecting vibration of the vibrating body in response to a change in an image in the target area.
  • the target area of the vibrating body of the percussion instrument is specified from the image represented by the image data. Therefore, the vibration of the vibrating body can be detected with high accuracy by analyzing the image data.
  • the percussion instrument includes a striking body that is used for striking for the performance, and detecting a change in the percussion instrument is based on an image represented by the video data. Identifying the impacting body; and detecting impact by the impacting body according to a change in an image of the impacting body.
  • the impact by the impacting object is detected by analyzing the image data generated by imaging the impacting object, and the performance data representing the performance of the percussion instrument is generated according to the result of the detection. That is, it is possible to generate performance data, which serves as a temporal reference for video data, from the video data. Also, metrical data representing the metrical structure is generated from the performance data. Therefore, various types of processing using the metrical structure are realized.
  • a musical performance analysis method comprises acquiring acoustic data representing a performance sound, and analyzing the video data and the acoustic data using the metrical data. and synchronizing.
  • the metrical data is used for synchronizing the video data and the audio data.
  • synchronization between the video data and the audio data is realized taking into account the metrical structure of the music. Therefore, it is possible to synchronize the video data and the audio data with a higher degree of accuracy than in the case where the performance data is used for synchronizing the video data and the audio data.
  • Acoustic data is arbitrary data representing performance sounds.
  • data representing the performance sound of the same music as the music to be played in the video represented by the video data is exemplified as the "sound data”.
  • the musical piece to be played in the image of the video data and the musical piece representing the performance sound in the audio data completely match. Note that the order of acquiring the video data and acquiring the audio data is arbitrary.
  • Synchronization between video data and audio data means the process of adjusting the temporal correspondence between video data and audio data.
  • a typical example of “synchronization” is that the performance sound represented by the audio data at an arbitrary point in the song and the image represented by the video data at that point correspond to each other on the time axis (for example, they match on the time axis). ) means adjusting the position of one of the video data and the audio data with respect to the other on the time axis. Note that the video data and the audio data do not necessarily need to be completely synchronized over the entire interval.
  • the relationship between the video data and the audio data can be interpreted as "synchronization".
  • "synchronization” is not limited to the relationship in which video data and audio data are temporally matched. That is, the concept of "synchronization” also includes a process of adjusting the temporal correspondence between video data and audio data so that the time difference between one of the video data and the audio data is a predetermined value.
  • the performance sound represented by the acoustic data includes the performance sound of the percussion instrument and the performance sound of the musical instrument other than the percussion instrument, and the performance sound of the percussion instrument is the performance sound of the musical instrument other than the percussion instrument.
  • the performance sound represented by the sound data is sufficiently included in the performance sound of the musical instrument other than the percussion instrument. High-precision synchronization is possible.
  • Acoustic processing means any processing that emphasizes the performance sound of a percussion instrument relative to the performance sound of an instrument other than the percussion instrument.
  • acoustic processing low-pass filter processing in which the cutoff frequency is set to the maximum value of the range of percussion instruments.
  • sound source separation processing for separating performance sounds of percussion instruments and performance sounds of musical instruments other than percussion instruments is also exemplified as “acoustic processing”. Note that it is not necessary to completely remove the performance sounds of instruments other than percussion instruments. In other words, any processing that suppresses (ideally eliminates) the performance sound of an instrument other than the percussion instrument relative to the performance sound of the percussion instrument is included in the "acoustic processing”.
  • a performance analysis method comprises setting an adjustment value, and determining a position of one of the synchronized video data and the audio data on the time axis of the other, changing according to the adjustment value.
  • the position of one of the video data and the audio data on the time axis relative to the other can be adjusted after synchronization using the metrical data.
  • setting the adjustment value includes setting the adjustment value according to an instruction from the user.
  • the adjustment value since the adjustment value is set according to the user's instruction, the position on the time axis of one of the video data and the audio data relative to the other can be adjusted according to the user's intention.
  • setting the adjustment value is performed by using a trained model that has learned the relationship between the input data for learning according to the image of the percussion instrument and the adjustment value for learning. and setting the adjustment value by processing the input data in response to the data.
  • the input data includes, for example, the video data itself generated by imaging the percussion instrument, or feature amounts calculated from the video data.
  • the feature amount is a video feature amount that changes in conjunction with the performance of the percussion instrument.
  • the input data may also include conditions such as the type or size of the percussion instrument estimated from the video data.
  • a “learned model” is a trained model that has learned the relationship between input data and adjustment values through machine learning.
  • various statistical estimation models such as deep neural networks (DNN: Deep Neural Network), hidden Markov models (HMM: Hidden Markov Models), or SVM (Support Vector Machine) are used as "learned models”.
  • “Input data” is arbitrary data corresponding to video data.
  • video data itself is used as input data.
  • feature amounts extracted from video data may be used as input data.
  • a feature amount such as the size or type of percussion instrument represented by video data is input to the trained model as input data.
  • the distance (shooting distance) between the imaging device and the percussion instrument when imaging the percussion instrument may be input to the trained model as input data.
  • a performance analysis method acquires video data generated by imaging a percussion instrument, and processes the video data to generate performance data representing a metrical structure. and generating metrical data representing a metrical structure from the performance data.
  • performance data is generated by processing video data, and metrical data is generated from the performance data. That is, it is possible to generate performance data and metrical data, which serve as a temporal reference for percussion performance, from video data.
  • the step of generating the performance data is to generate the performance data by using a trained model that has learned the relationship between the learning input data and the learning performance data corresponding to the video of the percussion instrument. It includes generating the performance data by processing input data corresponding to the data. According to the above aspect, it is possible to generate statistically valid performance data for unknown input data based on the relationship between the input data and the performance data in the plurality of learning data for machine learning.
  • the input data includes, for example, the video data itself generated by imaging the percussion instrument, or feature amounts calculated from the video data.
  • the feature amount is a video feature amount that changes in conjunction with the performance of the percussion instrument.
  • a performance analysis method obtains video data generated by imaging a percussion instrument, and processes the video data to obtain metrical data representing a metrical structure. generating.
  • the metrical data is generated by processing the video data.
  • metrical data that serves as a temporal reference for percussion performance can be generated from video data.
  • generating the metrical data includes: using a trained model that has learned the relationship between learning input data and learning metrical data corresponding to an image of a percussion instrument, generating the metrical data by processing input data corresponding to the video data;
  • statistically valid metrical data is generated for unknown input data based on the relationship between input data and metrical data in a plurality of learning data for machine learning.
  • the input data includes, for example, the video data itself generated by imaging the percussion instrument, or feature amounts calculated from the video data.
  • the feature amount is a video feature amount that changes in conjunction with the performance of the percussion instrument.
  • the input data processed by the trained model includes image data representing an image of the percussion instrument and image data calculated from the image data. and at least one of the feature amount.
  • the feature amount of the image is, for example, a feature amount relating to the movement of the feature point of the percussion instrument.
  • the percussion instrument includes a vibrating body vibrated by the performance and a striking body used for striking for the performance
  • the video data includes:
  • the image to represent includes the impacting body.
  • performance data or metrical data can be generated from the image of the striking object. Therefore, images of vibrating bodies in percussion instruments are unnecessary. Also, performance data or metrical data can be generated even in situations where the percussion instrument does not include a vibrating body (for example, an air drum).
  • the performance analysis method according to each aspect illustrated above is also implemented as a performance analysis system. Moreover, the performance analysis method according to each aspect illustrated above is also implemented as a program for causing a computer system to execute the performance analysis method.
  • DESCRIPTION OF SYMBOLS 100... Information processing system, 1... Percussion instrument, 10... Drum set, 11... Bass drum, 111... Body part, 112... Head, 12... Foot pedal, 121... Beater, 122... Pedal, 20... Recording device, 21... Imaging Apparatus 22... Communication device 30... Recording device 31... Sound collecting device 32... Communication device 40... Performance analysis system 41... Control device 42... Storage device 43... Communication device 44... Operation device 45 Display device 46 Sound emitting device 47 Reproducing device 51 Video data acquisition unit 52 Acoustic data acquisition unit 53 Analysis processing unit 54 Performance data generation unit 55 Synchronization control unit 56 A metrical data generation unit, 57... Acoustic processing unit, 58... Synchronization adjustment unit, M... Learned model.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

演奏解析システム40は、打楽器の撮像により生成された映像データXを取得する映像データ取得部51と、映像データXを解析することで、演奏により打楽器に発生する振動を検出する解析処理部53と、演奏を表す演奏データQを検出の結果に応じて生成する演奏データ生成部54と、拍節構造を表す拍節データRを演奏データQから生成する拍節データ生成部56とを具備する。

Description

演奏解析方法、演奏解析システムおよびプログラム
 本開示は、楽器の演奏を解析する技術に関する。
 楽器演奏の映像を表す映像データを処理するための各種の技術が、従来から提案されている。例えば特許文献1には、楽器の演奏音を表す音響データに映像データを同期させる構成が開示されている。映像データと音響データとの同期には、例えばタイムコード等の基準情報が利用される。
特開2017-44765号公報
 特許文献1の技術においては、映像データとは独立に基準情報を生成する必要がある。しかし、映像データについて時間的な基準となる基準情報を高精度に生成することは、現実的には容易ではない。なお、以上の説明においては、映像データと音響データとを同期させる場合を例示したが、映像データを時間軸上において処理する各種の場面において同様の問題が想定される。以上の事情を考慮して、本開示のひとつの態様は、打楽器の演奏の時間的な基準となるデータを映像データから生成することを目的とする。
 以上の課題を解決するために、本開示のひとつの態様に係る演奏解析方法は、打楽器の撮像により生成された映像データを取得することと、前記映像データを解析することで、演奏による前記打楽器の変化を検出することと、前記演奏を表す演奏データを前記検出の結果に応じて生成することと、拍節構造を表す拍節データを前記演奏データから生成することとを含む。
 本開示の他の態様に係る演奏解析方法は、打楽器の撮像により生成された映像データを取得することと、前記映像データを処理することで、前記打楽器の演奏を表す演奏データを生成することと、拍節構造を表す拍節データを前記演奏データから生成することとを含む。また、本開示の他の態様に係る演奏解析方法は、打楽器の撮像により生成された映像データを取得することと、前記映像データを処理することで、拍節構造を表す拍節データを生成することとを含む。
 本開示のひとつの態様に係る演奏解析システムは、打楽器の撮像により生成された映像データを取得する映像データ取得部と、 前記映像データを解析することで、演奏による前記打楽器の変化を検出する解析処理部と、前記演奏を表す演奏データを前記検出の結果に応じて生成する演奏データ生成部と、拍節構造を表す拍節データを前記演奏データから生成する拍節データ生成部とを具備する。
 本開示のひとつの態様に係るプログラムは、打楽器の撮像により生成された映像データを取得する映像データ取得部、前記映像データを解析することで、演奏による前記打楽器の変化を検出する解析処理部、前記演奏を表す演奏データを前記検出の結果に応じて生成する演奏データ生成部、および、拍節構造を表す拍節データを前記演奏データから生成する拍節データ生成部、としてコンピュータシステムを機能させる。
第1実施形態における情報処理システムの構成を例示するブロック図である。 演奏解析システムの構成を例示するブロック図である。 演奏解析システムの機能的な構成を例示するブロック図である。 演奏検出処理の詳細な手順を例示するフローチャートである。 解析処理部および演奏データ生成部による処理の説明図である。 同期制御処理の詳細な手順を例示するフローチャートである。 演奏解析処理の詳細な手順を例示するフローチャートである。 第2実施形態における演奏検出処理の詳細な手順を例示するフローチャートである。 第3実施形態における演奏解析システムの機能的な構成を例示するブロック図である。 第3実施形態における同期制御処理の詳細な手順を例示するフローチャートである。 第3実施形態における演奏解析処理の詳細な手順を例示するフローチャートである。 第4実施形態における演奏解析システムの機能的な構成を例示するブロック図である。 第4実施形態における演奏解析処理の詳細な手順を例示するフローチャートである。 第5実施形態における演奏解析システムの機能的な構成を例示するブロック図である。 第5実施形態における同期調整処理の詳細な手順を例示するフローチャートである。 第5実施形態における演奏解析処理の詳細な手順を例示するフローチャートである。 第6実施形態における学習済モデルの説明図である。 変形例における演奏解析システムの機能的な構成を例示するブロック図である。 変形例における演奏解析システムの機能的な構成を例示するブロック図である。
A:第1実施形態
 図1は、第1実施形態に係る情報処理システム100の構成を例示するブロック図である。情報処理システム100は、利用者Uによる打楽器1の演奏を収録および解析するためのコンピュータシステムである。
 打楽器1は、ドラムセット10とフットペダル12とを含む。ドラムセット10は、バスドラム11を含む複数のドラムで構成される。バスドラム11は、胴体部111とヘッド112とを具備する打楽器である。胴体部111は、円筒状の構造体(シェル)である。ヘッド112は、胴体部111の開口を閉塞する板状の弾性部材である。なお、胴体部111のうちヘッド112とは反対側の開口は裏面ヘッドにより閉塞されるが、図1では裏面ヘッドの図示は省略されている。利用者Uは、フットペダル12を利用してヘッド112を打撃することにより、楽曲における打楽器のパートを演奏する。なお、ヘッド112は、消音用のメッシュヘッドでもよい。すなわち、胴体部111の開口が完全に密閉される必要はない。
 フットペダル12は、ビーター121とペダル122とを具備する。ビーター121は、バスドラム11を打撃する打撃体である。ペダル122は、利用者Uによる踏込を受付ける。利用者Uによるペダル122の踏込に連動してビーター121がヘッド112を打撃する。ビーター121による打撃でヘッド112は振動する。すなわち、ヘッド112は、利用者Uによる演奏で振動する振動体である。また、ドラムセット10の演奏の主体は利用者Uに限定されない。例えば、楽曲の自動演奏を実行可能な演奏ロボットがドラムセット10を演奏してもよい。
 情報処理システム100は、収録装置20と収録装置30と演奏解析システム40とを具備する。演奏解析システム40は、利用者Uによる打楽器1の演奏を解析するためのコンピュータシステムである。演奏解析システム40は、収録装置20および収録装置30の各々と通信する。演奏解析システム40と収録装置20または収録装置30との間の通信は、例えばWi-Fi(登録商標)またはBluetooth(登録商標)等の近距離無線通信である。ただし、演奏解析システム40は、収録装置20または収録装置30との間で有線により通信してもよい。また、例えばインターネット等の通信網を介して収録装置20および収録装置30と通信するサーバ装置により、演奏解析システム40が実現されてもよい。
 収録装置20および収録装置30の各々は、利用者Uによるドラムセット10の演奏を収録する。収録装置20および収録装置30は、ドラムセット10に対して相異なる位置および角度で設置される。
 収録装置20は、撮像装置21と通信装置22とを具備する。撮像装置21は、利用者Uが打楽器1を演奏する様子を撮像することで映像データXを生成する。すなわち、映像データXは、打楽器1の撮像により生成される。撮像装置21が撮像する範囲には、バスドラム11のヘッド112が含まれる。したがって、映像データXが表す映像は、ヘッド112を含む。撮像装置21は、例えば、撮影レンズ等の光学系と、光学系からの入射光を受光する撮像素子と、撮像素子による受光量に応じた映像データXを生成する処理回路とを具備する。撮像装置21は、利用者Uからの指示を契機として収録を開始および終了する。すなわち、撮像装置21による撮像は、利用者Uからの指示に応じて開始および終了される。なお、映像データXが表す映像には、バスドラム11の一部のみが含まれてもよいし、ドラムセット10におけるバスドラム11以外のドラムが含まれてもよいし、ドラムセット10以外の楽器が含まれてもよい。また、利用者U以外の操作者が、撮像装置21に収録の開始または終了を指示してもよい。
 通信装置22は、映像データXを演奏解析システム40に送信する。例えばスマートフォン、タブレット端末またはパーソナルコンピュータ等の情報装置が、収録装置20として利用される。ただし、例えば収録に専用されるビデオカメラ等の映像機器が、収録装置20として利用されてもよい。なお、撮像装置21と通信装置22とは相互に別体の装置でもよい。
 収録装置30は、収音装置31と通信装置32とを具備する。収音装置31は、周囲の音響を収音する。具体的には、収音装置31は、打楽器1(ドラムセット10)の演奏音を収音することで音響データYを生成する。演奏音は、利用者Uによる演奏で打楽器1が発音する楽音である。例えば、収音装置31は、音響の収音により音響信号を生成するマイクロホンと、当該音響信号から音響データYを生成する処理回路とを具備する。収音装置31は、利用者Uからの指示を契機として収録を開始および終了する。なお、利用者U以外の操作者が、収音装置31に収録の開始または終了を指示してもよい。
 通信装置32は、音響データYを演奏解析システム40に送信する。例えばスマートフォン、タブレット端末またはパーソナルコンピュータ等の情報装置が、収録装置30として利用される。なお、例えば単体のマイクロホン等の音響機器が、収録装置30として利用されてもよい。また、収音装置31と通信装置32とは相互に別体の装置でもよい。
 撮像装置21による撮像と収音装置31による収音とは、利用者Uによるドラムセット10の演奏に並行して実行される。すなわち、映像データXと音響データYとは、共通の楽曲について並列に生成される。演奏解析システム40は、映像データXと音響データYとを合成することで合成データZを生成する。具体的には、合成データZは、映像データXが表す映像と音響データYが表す音響とを含む動画を表す。
 映像データXと音響データYとの合成を想定すると、撮像装置21と収音装置31とは、打楽器1の演奏の開始前に同時に収録を開始し、当該演奏の終了後に同時に収録を終了することが望ましい。しかし、収録の開始および終了は、撮像装置21および収音装置31の各々に対して個別に指示される。したがって、収録の開始および終了の時点は、撮像装置21と収音装置31との間で相違し得る。すなわち、映像データXが表す映像と、音響データYが表す演奏音との間においては、時間軸上の位置が相違し得る。以上の事情を背景として、演奏解析システム40は、映像データXと音響データYとを時間軸上で相互に同期させる。
 図2は、演奏解析システム40の構成を例示するブロック図である。演奏解析システム40は、制御装置41と記憶装置42と通信装置43と操作装置44と表示装置45と放音装置46とを具備する。なお、演奏解析システム40は、単体の装置で実現されるほか、相互に別体で構成された複数の装置でも実現される。なお、収録装置20または収録装置30は、演奏解析システム40に搭載されてもよい。
 制御装置41は、演奏解析システム40の各要素を制御する単数または複数のプロセッサで構成される。例えば、制御装置41は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、SPU(Sound Processing Unit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)、またはASIC(Application Specific Integrated Circuit)等の1種類以上のプロセッサにより構成される。
 通信装置43は、収録装置20および収録装置30の各々と通信する。具体的には、通信装置43は、収録装置20から送信される映像データXと、収録装置30から送信される音響データYとを受信する。
 記憶装置42は、制御装置41が実行するプログラムと、制御装置41が使用する各種のデータとを記憶する単数または複数のメモリである。例えば、通信装置43が受信した映像データXおよび音響データYが、記憶装置42に記憶される。記憶装置42は、例えば磁気記録媒体もしくは半導体記録媒体等の公知の記録媒体、または、複数種の記録媒体の組合せで構成される。なお、演奏解析システム40に対して着脱される可搬型の記録媒体が、記憶装置42として利用されてもよい。また、例えばインターネット等の通信網を介して制御装置41が書込または読出を実行可能な記録媒体(例えばクラウドストレージ)が、記憶装置42として利用されてもよい。
 操作装置44は、利用者Uからの指示を受付ける入力機器である。操作装置44は、例えば、利用者Uが操作する操作子、または、利用者Uによる接触を検知するタッチパネルである。なお、演奏解析システム40とは別体の操作装置44(例えばマウスまたはキーボード)を、演奏解析システム40に対して有線または無線により接続してもよい。なお、打楽器1を演奏する利用者U以外の操作者が操作装置44を操作してもよい。
 表示装置45は、制御装置41による制御のもとで各種の画像を表示する。例えば、表示装置45は、合成データZの映像データXが表す映像を表示する。液晶表示パネルまたは有機EL(Electroluminescence)パネル等の各種の表示パネルが、表示装置45として利用される。なお、演奏解析システム40とは別体の表示装置45を演奏解析システム40に対して有線または無線により接続してもよい。
 放音装置46は、合成データZにおける音響データYが表す音響を再生する。放音装置46は、例えばスピーカまたはヘッドホンである。なお、演奏解析システム40とは別体の放音装置46を、演奏解析システム40に対して有線または無線により接続してもよい。以上の説明から理解される通り、表示装置45および放音装置46は、合成データZを再生する再生装置47として機能する。
 図3は、演奏解析システム40の機能的な構成を例示するブロック図である。制御装置41は、記憶装置42に記憶されたプログラムを実行することで、合成データZを生成するための複数の機能(映像データ取得部51,音響データ取得部52,解析処理部53,演奏データ生成部54,同期制御部55)を実現する。
 映像データ取得部51は、映像データXを取得する。具体的には、映像データ取得部51は、収録装置20が送信する映像データXを、通信装置43により受信する。音響データ取得部52は、音響データYを取得する。具体的には、音響データ取得部52は、収録装置30が送信する音響データYを、通信装置43により受信する。
 解析処理部53は、映像データXを解析することで、演奏によりバスドラム11に発生する振動を検出する。具体的には、解析処理部53は、バスドラム11におけるヘッド112の振動を検出する。図4は、解析処理部53がバスドラム11の振動を検出する処理(以下「演奏検出処理」という)の詳細な手順を例示するフローチャートである。
 演奏検出処理が開始されると、解析処理部53は、映像データXが表す映像からバスドラム11が存在する領域(以下「目標領域」という)を特定する(Sa31)。目標領域は、バスドラム11のヘッド112の領域である。目標領域は、打楽器1の演奏により振動する領域とも換言される。目標領域の特定には、公知の物体検出処理が任意に採用される。例えば、畳込ニューラルネットワーク(CNN:Convolutional Neural Network)等の深層ニューラルネットワーク(DNN:Deep Neural Network)を利用した物体検出処理が、目標領域の特定に利用される。
 解析処理部53は、目標領域における映像の変化に応じてヘッド112の振動を検出する(Sa32)。具体的には、解析処理部53は、図5に例示される通り、目標領域における映像の特徴量Fを算定し、当該特徴量Fの時間的な変化に応じて振動を検出する。特徴量Fは、映像データXが表す映像の特徴を表す指標である。例えば、特徴量Fは、目標領域における階調(輝度)の平均値等、映像の光学特性を表す情報である。バスドラム11のヘッド112から撮像装置21に到達する反射光の光量は、当該ヘッド112の振動に起因して変化する。解析処理部53は、特徴量Fの変化量(例えば増加量または減少量)が所定の閾値を上回る時点τを、ヘッド112の振動の時点として検出する。バスドラム11のヘッド112は、ビーター121による打撃毎に振動する。したがって、解析処理部53が順次に特定する振動の時点τは、利用者Uがビーター121によりドラムセット10を打撃した時点に相当する。また、ヘッド112に発生する振動の振幅は、利用者Uがバスドラム11を打撃する強度(以下「打撃強度」という)に依存する。したがって、バスドラム11のヘッド112から撮像装置21に到達する反射光の光量の変化量は、打撃強度に依存する。以上の関係を考慮して、解析処理部53は、特徴量Fの変化量に応じて打撃強度を算定する。例えば、解析処理部53は、特徴量Fの変化量が大きいほど打撃強度を大きい数値に設定する。以上に説明した通り、演奏検出処理は、映像データXが表す映像からバスドラム11の目標領域を特定する処理(Sa31)と、当該目標領域における映像の変化に応じてヘッド112の振動を検出する処理(Sa32)とを含む。なお、特徴量Fの種類は以上の例示に限定されない。例えば、解析処理部53は、映像データXの解析により打楽器1の特徴点を抽出し、当該特徴点の移動に関する特徴量Fを算定してもよい。例えば特徴点の移動の速度または加速度が特徴量Fとして算定される。以上に例示した特徴量Fの算定には、例えばオプティカルフロー等の公知の技術が利用される。また、打楽器1の特徴点は、例えば映像データXに対する所定の画像処理により打楽器1の映像から抽出される特徴的な地点である。
 図3の演奏データ生成部54は、利用者Uによる打楽器1の演奏を表す演奏データQを、解析処理部53による検出の結果に応じて生成する。演奏データQは、図5に例示される通り、ドラムセット10の発音を表す発音データq1と、当該発音の時点を指定する時点データq2とが配列された時系列データである。発音データq1は、解析処理部53が検出した打撃強度を指定するイベントデータである。時点データq2は、例えば相前後する発音の時間間隔、または、打楽器1の演奏が開始された時点からの経過時間により、ドラムセット10の各発音の時点を指定する。演奏データ生成部54は、映像データXから検出した振動の時点τをドラムセット10の発音の時点(以下「発音点」という)として指定する演奏データQを生成する。演奏データQは、例えばMIDI規格に準拠した形式の時系列データである。
 図3の同期制御部55は、演奏データQを利用して映像データXと音響データYとを同期させる。図6は、同期制御部55が映像データXと音響データYとを同期させる処理(以下「同期制御処理」という)の詳細な手順を例示するフローチャートである。
 同期制御処理が開始されると、同期制御部55は、音響データYの解析によりバスドラム11の発音点を特定する(Sa71)。例えば、同期制御部55は、音響データYのうち音量の増加量が所定値を上回る時点を発音点として順次に特定する。なお、音響データYを利用した発音点の特定には、公知の拍追跡(ビートトラッキング)技術が任意に採用される。なお、同期制御処理の手順は任意であり、拍追跡等の処理は必須ではない。
 同期制御部55は、演奏データQを利用して映像データXと音響データYとを同期させる(Sa72)。具体的には、同期制御部55は、演奏データQが指定する各発音点と音響データYから特定した各発音点とが時間軸上において一致するように、映像データXに対する音響データYの時間軸上の位置を決定する。以上の説明から理解される通り、映像データXと音響データYとの同期とは、楽曲内の任意の時点について音響データYが表す音響と、当該時点について映像データXが表す映像とが、時間軸上において相互に対応するように、映像データXおよび音響データYの一方に対する他方の時間軸上の位置を調整することを意味する。したがって、同期制御部55による処理は、映像データXと音響データYとの時間的な対応を調整する処理とも表現される。以上に説明した通り、第1実施形態によれば、個別に用意された映像データXと音響データYとを相互に同期させることが可能である。
 同期制御部55は、相互に同期された映像データXと音響データYとを含む合成データZを生成する(Sa73)。合成データZは、再生装置47により再生される。以上の説明の通り、合成データZにおいては、映像データXと音響データYとが相互に同期する。したがって、映像データXのうち楽曲内の特定の箇所の映像が表示装置45により表示される時点では、音響データYのうち当該箇所の演奏音が放音装置46により再生される。
 図7は、制御装置41が実行する処理(以下「演奏解析処理」という)の詳細な手順を例示するフローチャートである。例えば操作装置44に対する利用者Uからの指示を契機として演奏解析処理が開始される。図7の演奏解析処理は、「演奏解析方法」の一例である。
 演奏解析処理が開始されると、制御装置41は、映像データ取得部51として機能することで映像データXを取得する(S1)。また、制御装置41は、音響データ取得部52として機能することで音響データYを取得する(S2)。
 制御装置41は、前述の演奏検出処理を実行する(S3)。具体的には、制御装置41は、映像データXを解析することでドラムセット10(ヘッド112)の振動を検出する。すなわち、制御装置41は、解析処理部53として機能する。制御装置41は、演奏検出処理の結果を利用して演奏データQを生成する(S4)。すなわち、制御装置41は、演奏データ生成部54として機能する。
 制御装置41は、前述の同期制御処理を実行する(S7)。具体的には、制御装置41は、演奏データQを利用して映像データXと音響データYとを同期させることで、合成データZを生成する。すなわち、制御装置41は、同期制御部55として機能する。制御装置41は、合成データZを再生装置47により再生させる(S9)。
 以上に説明した通り、第1実施形態においては、打楽器1の撮像により生成された映像データXの解析によりバスドラム11(ヘッド112)の振動が検出され、バスドラム11の演奏を表す演奏データQが当該検出の結果に応じて生成される。すなわち、打楽器1の演奏に関する時間的な基準となる演奏データQを、映像データXから生成できる。
 なお、バスドラム11は、一般的には固定的に設置された状態で演奏される。他方、例えば弦楽器または管楽器等の打楽器以外の楽器(以下「非打楽器」という)は、演奏者の移動または姿勢の変化に応じて刻々と移動する。すなわち、バスドラム11は、例えば非打楽器と比較して、楽器自体の移動が発生し難い傾向がある。したがって、バスドラム11の映像データXを解析する第1実施形態によれば、非打楽器の映像データの解析により演奏データを生成する場合と比較して、演奏データQの生成に必要な負荷が低減されるという利点もある。
 また、第1実施形態においては、映像データXが表す映像からバスドラム11の目標領域が特定される。したがって、目標領域を特定せずに振動を検出する形態と比較して、バスドラム11の振動を高精度に検出できる。前述の通り、バスドラム11は、非打楽器と比較して楽器自体の移動が発生し難い傾向がある。したがって、映像データXからバスドラム11が存在する目標領域を容易かつ高精度に特定できる。すなわち、バスドラム11を検出対象とすることで、振動を検出するための処理負荷が軽減される。
B:第2実施形態
 第2実施形態を説明する。なお、以下に例示する各態様において機能が第1実施形態と同様である要素については、第1実施形態の説明と同様の符号を流用して各々の詳細な説明を適宜に省略する。
 第1実施形態においては、撮像装置21がバスドラム11を撮像する形態を例示した。第2実施形態の撮像装置21は、バスドラム11の演奏に利用されるフットペダル12の撮像により映像データXを生成する。なお、第1実施形態または第2実施形態において、撮像装置21が、バスドラム11およびフットペダル12の双方を撮像する形態も想定される。
 演奏解析システム40の構成は第1実施形態(図3)と同様である。制御装置41は、記憶装置42に記憶されたプログラムを実行することで、第1実施形態と同様に、合成データZを生成するための複数の機能(映像データ取得部51,音響データ取得部52,解析処理部53,演奏データ生成部54,同期制御部55)を実現する。映像データ取得部51は、第1実施形態と同様に映像データXを取得する。音響データ取得部52は、第1実施形態と同様に音響データYを取得する。
 第1実施形態の解析処理部53は、前述の通り、演奏によりバスドラム11に発生する振動を検出する。第2実施形態の解析処理部53は、フットペダル12の撮像により生成された映像データXを解析することで、当該フットペダル12のビーター121によるバスドラム11の打撃を検出する。具体的には、解析処理部53は、図8に例示される演奏検出処理により、ビーター121によるバスドラム11の打撃を検出する。すなわち、第1実施形態における図3の演奏検出処理が、第2実施形態においては図8の演奏検出処理に置換される。
 演奏検出処理が開始されると、解析処理部53は、映像データXが表す映像からビーター121を検出する(Sb31)。ビーター121の特定には、公知の物体検出処理が任意に採用される。例えば、畳込ニューラルネットワーク等の深層ニューラルネットワークを利用した物体検出処理が、ビーター121の特定に利用される。
 解析処理部53は、映像データXから検出されたビーター121の位置の変化に応じてビーター121によるドラムセット10の打撃を検出する(Sb32)。具体的には、解析処理部53は、ビーター121の移動が所定の方向から逆方向に反転する時点を、ビーター121による打撃の時点として検出する。また、利用者Uによる打撃強度は、ビーター121の移動速度に依存する。以上の関係を考慮して、解析処理部53は、映像データXから検出されるビーター121の移動速度に応じて打撃強度を算定する。例えば、解析処理部53は、ビーター121の移動速度が大きいほど打撃強度を大きい数値に設定する。以上に説明した通り、第2実施形態の演奏検出処理は、映像データXが表す映像からビーター121を検出する処理(Sb31)と、当該ビーター121の位置の変化に応じて打撃を検出する処理(Sb32)とを含む。
 第2実施形態の演奏データ生成部54は、第1実施形態と同様に、利用者Uによる打楽器1の演奏を表す演奏データQを、解析処理部53による検出の結果に応じて生成する。具体的には、演奏データ生成部54は、映像データXから検出した打撃の時点をバスドラム11の発音点として指定する演奏データQを生成する。第1実施形態と同様に、演奏データQは、打撃強度を指定する発音データq1と、当該発音の時点を指定する時点データq2とで構成される。
 同期制御部55は、演奏データQを利用して映像データXと音響データYとを同期させる。具体的には、同期制御部55は、第1実施形態と同様の同期制御処理(図6)により、映像データXと音響データYとを同期させる。
 第2実施形態における演奏解析処理は、図7に例示した第1実施形態の演奏解析処理と同様である。ただし、第2実施形態においては、前述の通り、演奏解析処理における図3の演奏検出処理が、図8の演奏検出処理に置換される。
 以上に説明した通り、第2実施形態においては、ビーター121の撮像により生成された映像データXの解析により当該ビーター121による打撃が検出され、バスドラム11の演奏を表す演奏データQが当該検出の結果に応じて生成される。すなわち、映像データXの時間的な基準となる演奏データQを当該映像データXから生成できる。
C:第3実施形態
 図9は、第3実施形態における演奏解析システム40の機能的な構成を例示するブロック図である。第3実施形態の制御装置41は、記憶装置42に記憶されたプログラムを実行することで、第1実施形態と同様の要素(映像データ取得部51,音響データ取得部52,解析処理部53,演奏データ生成部54,同期制御部55)に加えて拍節データ生成部56としても機能する。
 拍節データ生成部56は、演奏データQから拍節データRを生成する。拍節データRは、打楽器1を利用して演奏される楽曲の拍節構造を表すデータである。拍節構造は、楽曲における拍節の構造を意味する。具体的には、拍節構造は、強拍または弱拍等の複数の拍の組合せと各拍が発生する時点とで規定されるリズムパターンの構造(拍子)である。拍節構造は、典型的には、楽曲内において1小節等の期間毎に周期的に反復されるが、反復性は必須ではない。拍節データ生成部56は、演奏データQの解析により拍節データRを生成する。具体的には、拍節データ生成部56は、演奏データQが時系列に指定する打撃を強拍と弱拍とに区別し、強拍と弱拍とで構成される周期的なパターンを拍節構造として特定することで、拍節データRを生成する。なお、演奏データQを利用した拍節データRの生成(すなわち拍節構造の解析)には、公知の技術が任意に採用される。例えば、浜中ほか2名,“GTTMに基づく楽曲構造分析の実装 : グルーピング構造と拍節構造の獲得”,情報処理学会研究報告 MUS,[音楽情報科学] 56, 1-8, 2004-08-02、または、後藤ほか1名,“音響信号を対象としたリアルタイムビートトラッキングシステム -コード変化検出による打楽器音を含まない音楽への対応-”,電子情報通信学会論文誌 D-2,情報・システム 2-情報処理 00081(00002), 227-237, 1998-02-25、等の技術が、拍節構造の解析に利用される。
 第1実施形態の同期制御部55は、前述の通り、演奏データQを利用して映像データXと音響データYとを同期させる。第2実施形態の同期制御部55は、拍節データRを利用して映像データXと音響データYとを同期させる。図10は、第3実施形態の同期制御部55が実行する同期制御処理の詳細な手順を例示するフローチャートである。すなわち、第1実施形態における図6の同期制御処理が、第3実施形態においては図10の同期制御処理に置換される。
 同期制御処理が開始されると、同期制御部55は、音響データYの解析によりバスドラム11の発音点と発音強度とを特定する(Sb71)。発音強度は、音響データYから特定される発音の強度(例えば音量)である。例えば、同期制御部55は、音響データYのうち音量の増加量が所定値を上回る時点を発音点として順次に特定し、当該発音点における音量を発音強度として特定する。
 同期制御部55は、拍節データRを利用して映像データXと音響データYとを同期させる(Sb72)。例えば、同期制御部55は、各発音点の発音強度のパターンが、拍節データRにより指定される拍節構造に近似する期間を、音響データYから特定する。そして、同期制御部55は、音響データYから特定した期間と、映像データXのうち当該拍節構造に対応する区間とが時間軸上において一致するように、映像データXに対する音響データYの時間軸上の位置を決定する。すなわち、単純な発音点の時系列だけでなく、楽曲内の拍節構造も加味して、映像データXと音響データYとの同期が制御される。
 同期制御部55は、第1実施形態と同様に、相互に同期された映像データXと音響データYとを含む合成データZを生成する(Sb73)。合成データZは、再生装置47により再生される。以上の説明の通り、合成データZにおいては、映像データXと音響データYとが相互に同期する。したがって、映像データXのうち楽曲内の特定の箇所の映像が表示装置45により表示される時点では、音響データYのうち当該箇所の演奏音が放音装置46により再生される。
 図11は、第3実施形態における演奏解析処理の手順を例示するフローチャートである。演奏解析処理が開始されると、制御装置41は、第1実施形態と同様に、映像データXの取得(S1)と、音響データYの取得(S2)と、演奏検出処理(S3)と、演奏データQの生成(S4)とを実行する。演奏データQを生成すると、制御装置41は、当該演奏データQから拍節データRを生成する(S5)。すなわち、制御装置41は、拍節データ生成部56として機能する。
 制御装置41は、同期制御部55として機能することで図10の同期制御処理を実行する(S7)。具体的には、制御装置41は、拍節データRを利用して映像データXと音響データYとを同期させることで、合成データZを生成する。合成データZの再生(S9)は、第1実施形態と同様である。
 第3実施形態によれば、第1実施形態と同様に、映像データXの解析により、当該映像データXの時間的な基準となる演奏データQを生成できる。また、第3実施形態においては、映像データXと音響データYとの同期に拍節データRが利用される。すなわち、楽曲の拍節構造を加味して映像データXと音響データYとの同期が実現される。したがって、バスドラム11の発音の時点を指定する演奏データQが映像データXと音響データYとの同期に利用される第1実施形態と比較して、映像データXと音響データYとを高精度に同期させることが可能である。
 なお、以上の説明においては、打楽器1を表す映像データXの解析によりドラムセット10(ヘッド112)の振動が検出される第1実施形態に、拍節データRの生成を追加した形態を例示した。ビーター121を表す映像データXの解析によりドラムセット10の打撃が検出される第2実施形態にも、第3実施形態の例示と同様に、拍節データRの生成が追加される。
D:第4実施形態
 図12は、第4実施形態における演奏解析システム40の機能的な構成を例示するブロック図である。第4実施形態の制御装置41は、記憶装置42に記憶されたプログラムを実行することで、第3実施形態と同様の要素(映像データ取得部51,音響データ取得部52,解析処理部53,演奏データ生成部54,同期制御部55,拍節データ生成部56)に加えて音響処理部57としても機能する。
 音響データYが表す音響は、本来の収音の目的となるバスドラム11の演奏音(以下「目的音」という)のほか、バスドラム11以外の楽器の演奏音(以下「非目的音」という)を含む。非目的音は、例えば、ドラムセット10におけるバスドラム11以外のドラムの演奏音、または、ドラムセット10の近傍において演奏される多種の楽器の演奏音である。音響処理部57は、音響データYに対して音響処理を実行することで音響データYaを生成する。
 音響処理は、非目的音に対して目的音を相対的に強調する処理である。例えばバスドラム11の演奏音である目的音は、非目的音と比較して低音域に存在する。そこで、音響処理部57は、遮断周波数がバスドラム11の音域の最大値に設定されたローパスフィルタ処理を、音響データYに対して実行する。遮断周波数を上回る非目的音は音響処理により低減または除去されるから、音響処理後の音響データYaにおいては目的音が強調または抽出される。また、収音装置31に対して目的音が到来する方向と非目的音が到来する方向との相違を利用して、目的音を非目的音に対して強調する音源分離処理も、音響データYに対する音響処理として利用される。
 また、第4実施形態の同期制御部55は、映像データXと音響処理後の音響データYaとを同期させる。第4実施形態における同期制御処理は、処理対象が音響データYから音響データYaに変更される点以外、第3実施形態の同期制御処理と同様である。すなわち、同期制御部55は、拍節データRを利用して映像データXと音響データYaとを同期させる。
 図13は、第4実施形態における演奏解析処理の手順を例示するフローチャートである。第4実施形態においては、第3実施形態の演奏解析処理に、音響データYに対する音響処理(S6)が追加される。具体的には、制御装置41は、音響データYに対する音響処理により音響データYaを生成する。すなわち、制御装置41は、音響処理部57として機能する。制御装置41は、拍節データRを適用した同期制御処理により合成データZを生成する(S7)。演奏解析処理における他の動作は、第3実施形態と同様である。
 第4実施形態によれば、第3実施形態と同様の効果が実現される。また、第4実施形態においては、音響データYについてバスドラム11の演奏音(目的音)が強調されるから、音響データYが表す演奏音が非目的音も充分に含む形態と比較して、映像データXと音響データYとを高精度に同期させることが可能である。
 なお、以上の説明においては、音響データYに対する音響処理を第1実施形態に追加した形態を例示したが、第2実施形態においても同様に、音響データYに対する音響処理が適用されてよい。また、以上の説明においては、第3実施形態に例示した拍節データRの生成を含む形態を例示したが、拍節データRの生成は第4実施形態から省略されてよい。すなわち、同期制御部55は、演奏データQを利用して映像データXと音響処理後の音響データYとを同期させてもよい。
 なお、以上に例示した音響処理は、第1実施形態および第2実施形態の何れにも適用される。また、以上の説明においては、第3実施形態における拍節データRの生成を含む形態を例示したが、第4実施形態において、拍節データRの生成(S5)は省略されてよい。すなわち、第4実施形態において、同期制御部55は、第1実施形態または第2実施形態と同様に、演奏データQを利用して映像データXと音響データYとを同期させてもよい。
E:第5実施形態
 図14は、第5実施形態における演奏解析システム40の機能的な構成を例示するブロック図である。第5実施形態の制御装置41は、記憶装置42に記憶されたプログラムを実行することで、第4実施形態と同様の要素(映像データ取得部51,音響データ取得部52,解析処理部53,演奏データ生成部54,同期制御部55,拍節データ生成部56,音響処理部57)に加えて同期調整部58としても機能する。
 第5実施形態の同期制御部55は、第4実施形態と同様に、映像データXと音響データYaとを同期させる。しかし、同期制御部55による処理後の映像データXと音響データYaとの時間的な関係(以下「同期関係」という)が、利用者Uの意図に適合しない場合、または、映像データXと音響データYaとが正確に同期しない場合も想定される。図14の同期調整部58は、同期制御処理後における映像データXおよび音響データYaの一方に対する他方の時間軸上における位置(すなわち同期関係)を変更する。
 図15は、同期調整部58が映像データXと音響データYaとの時間的な関係を調整する処理(以下「同期調整処理」という)の詳細な手順を例示するフローチャートである。同期調整処理が開始されると、同期調整部58は、調整値αを設定する(S81)。
 利用者Uは、再生装置47が再生する合成データZの映像および音響を視聴しながら、操作装置44を操作することで、映像データXと音響データYaとの同期関係の調整を指示する。具体的には、合成データZにおける映像データXと音響データYaとの時間的な関係が所望の関係となるように、利用者Uは、同期関係の調整を指示する。例えば、音響データYaが映像データXに対して遅延していると判断した場合、利用者Uは、音響データYaを映像データXに対して前方(時間軸の逆方向)に所定量だけ移動することを指示する。他方、音響データYaが映像データXに対して先行していると判断した場合、利用者Uは、音響データYaを映像データXに対して後方(時間軸の方向)に所定量だけ移動することを指示する。同期調整部58は、利用者Uからの指示に応じて調整値αを設定する。例えば、音響データYaを映像データXに対して前方に移動することが指示された場合、同期調整部58は、調整値αを、利用者Uからの指示に応じた負数に設定する。また、音響データYaを映像データXに対して後方に移動することが指示された場合、同期調整部58は、調整値αを、利用者Uからの指示に応じた正数に設定する。
 同期制御部55は、映像データXおよび音響データYaの一方に対する他方の時間軸上における位置(すなわち同期関係)を、調整値αに応じて調整する(S82)。具体的には、同期制御部55は、調整値αが負数である場合、当該調整値αの絶対値に応じた移動量だけ、音響データYaを映像データXに対して前方に移動する。また、同期制御部55は、調整値αが正数である場合、当該調整値αの絶対値に応じた移動量だけ、音響データYaを映像データXに対して後方に移動する。同期制御部55は、同期関係が調整された映像データXと音響データYとを含む合成データZを生成する(S83)。
 図16は、第5実施形態における演奏解析処理の手順を例示するフローチャートである。第5実施形態においては、第4実施形態の演奏解析処理に、図15に例示した同期調整処理が追加される。すなわち、制御装置41は、同期調整部58として機能することで、映像データXおよび音響データYaの同期関係を、調整値αに応じて調整する(S8)。演奏解析処理における他の動作は、第4実施形態と同様である。同期調整処理により生成された合成データZが、再生装置47により再生される(S9)。
 第5実施形態によれば、第4実施形態と同様の効果が実現される。また、第5実施形態においては、映像データXおよび音響データYaの一方に対する他方の時間軸上における位置を同期制御処理後に調整できる。さらに、第5実施形態においては、利用者Uからの指示に応じて調整値αが設定されるから、映像データXおよび音響データYaの一方に対する他方の位置を、利用者Uの意図に応じて調整できる。
 なお、以上に例示した同期関係の調整は、第1実施形態および第2実施形態の何れにも適用される。また、第5実施形態において、拍節データRの生成(S5)は省略されてよい。すなわち、第5実施形態において、同期制御部55は、第1実施形態または第2実施形態と同様に、演奏データQを利用して映像データXと音響データYとを同期させてもよい。また、第5実施形態において、音響データYに対する音響処理(S6)も省略されてよい。すなわち、第5実施形態において、同期制御部55は、第1実施形態または第2実施形態と同様に、映像データXと音響データYとを同期させてもよい。
F:第6実施形態
 第5実施形態の同期調整部58は、前述の通り、利用者Uからの指示に応じて調整値αを設定する。第6実施形態の同期調整部58は、学習済モデルMを利用して調整値αを設定する。調整値αの設定以外の構成および動作は、第5実施形態と同様である。
 図17は、第6実施形態における調整値αの設定に関する説明図である。同期調整部58は、学習済モデルMを利用して入力データCを処理することで、調整値αを生成する。第6実施形態においては、映像データXが入力データCとして学習済モデルMに供給される。
 同期制御部55により同期された映像データXと音響データYaとの時間的な関係(同期関係)は、バスドラム11に関する条件に依存するという傾向がある。バスドラム11の条件とは、例えばバスドラム11の種類(製品の型式)またはサイズ等の条件である。例えば、アコースティックドラムよりも電子ドラムのほうが、同期後の音響データYaが映像データXに対して遅延し易いといった傾向が想定される。したがって、映像データXが表すバスドラム11の条件に応じて、同期関係を適切に調整するための調整値αは変化する。以上の相関を考慮して、第6実施形態の学習済モデルMは、入力データC(映像データX)と調整値αとの関係を機械学習により学習した統計的推定モデルである。すなわち、学習済モデルMは、入力データCに対して統計的に妥当な調整値αを出力する。バスドラム11の条件を示す入力データCとして、映像データXが利用される。映像データXにはバスドラム11の種類または型式等の外観上の条件が反映されるから、当該条件に対して統計的に妥当な調整値αを学習済モデルMにより生成できる。なお、映像データXが表すバスドラム11の種類(型式)またはサイズ等の情報が、入力データCとして学習済モデルMに供給されてもよい。また、映像データXから算定される特徴量Fが、入力データCとして学習済モデルMに供給されてもよい。
 具体的には、学習済モデルMは、入力データCから調整値αを生成する演算を制御装置41に実行させるプログラムと、当該演算に適用される複数の変数(加重値およびバイアス)との組合せで実現される。学習済モデルMは、例えば深層ニューラルネットワークで構成される。例えば、再帰型ニューラルネットワーク(RNN:Recurrent Neural Network)、または畳込ニューラルネットワーク等の任意の形式の深層ニューラルネットワークが学習済モデルMとして利用される。複数種の深層ニューラルネットワークの組合せで学習済モデルMが構成されてもよい。また、長短期記憶(LSTM:Long Short-Term Memory)またはAttention等の付加的な要素が学習済モデルMに搭載されてもよい。
 以上に説明した学習済モデルMは、複数の学習データを利用した機械学習により確立される。複数の学習データの各々は、バスドラム11を表す学習用の入力データC(映像データX)と、当該バスドラム11に対して適切な学習用の調整値α(正解値)とを含む。機械学習においては、各学習データの入力データCから暫定的な学習済モデルMが生成する調整値αと、当該学習データの調整値αとの誤差が低減されるように、学習済モデルMの複数の変数が反復的に更新される。すなわち、学習済モデルMは、打楽器の映像に応じた学習用の入力データCと学習用の調整値αとの関係を学習する。
 同期調整処理において、同期調整部58は、映像データXを入力データCとして学習済モデルMに入力することで調整値αを取得する(S81)。同期関係を調整値αに応じて調整する処理(S82)、および、調整後の映像データXと音響データYaとから合成データZを生成する処理(S83)は、第5実施形態と同様である。
 第6実施形態によれば、第5実施形態と同様の効果が実現される。また、第6実施形態においては、学習済モデルMを利用して調整値αが設定されるから、入力データCに対して統計的に妥当な調整値αを設定できる。
 なお、以上に例示した同期関係の調整は、第1実施形態および第2実施形態の何れにも適用される。また、第6実施形態において、拍節データRの生成(S5)は省略されてよい。すなわち、第6実施形態において、同期制御部55は、第1実施形態または第2実施形態と同様に、演奏データQを利用して映像データXと音響データYとを同期させてもよい。また、第6実施形態において、音響データYに対する音響処理(S6)も省略されてよい。すなわち、第6実施形態において、同期制御部55は、第1実施形態または第2実施形態と同様に、映像データXと音響データYとを同期させてもよい。
G:変形例
 以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された複数の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
(1)前述の各形態においては、1個の映像データXと1個の音響データYとから合成データZを生成したが、相異なる収録装置20が生成した複数の映像データXが、合成データZの生成に利用されてもよい。複数の映像データXの各々について、演奏データ生成部54による演奏データQの生成と拍節データ生成部56による拍節データRの生成とが実行される。同期制御部55は、複数の映像データXと音響データYとを同期させることで合成データZを生成する。以上の形態によれば、相異なる場所および角度で撮影された複数の映像が並列に配置されたマルチアングル映像を生成できる。また、複数の映像データXが時分割で順次に切替わる合成データZを同期制御部55が生成してもよい。例えば、同期制御部55は、拍節データRが表す拍節構造に対応する期間毎に映像が切替わる合成データZを生成する。拍節構造に対応する期間は、例えば、拍節構造のn個分(nは1以上の自然数)に相当する期間である。
(2)前述の各形態においては、1個の映像データXと1個の音響データYとから合成データZを生成したが、相異なる収録装置30が生成した複数の音響データYが、合成データZの生成に利用されてもよい。同期制御部55は、複数の音響データYを所定の比率で混合し、混合後の音響データYを映像データXに同期させる。また、同期制御部55は、複数の音響データYの各々を映像データXに同期させ、複数の音響データYが時分割で順次に切替わる合成データZを生成してもよい。
(3)前述の各形態においては、収録装置20が映像データXを生成し、収録装置30が音響データYを生成する形態を例示したが、収録装置20および収録装置30の一方または双方が、映像データXおよび音響データYの双方を生成してもよい。また、複数の収録装置の各々から演奏解析システム40に映像データXまたは音響データYが送信されてもよい。以上の通り、収録装置の個数は任意であり、各収録装置が送信するデータの種類(映像データXおよび音響データYの一方または双方)も任意である。したがって、前述の変形例(1)または変形例(2)の例示の通り、演奏解析システム40が取得する映像データXの総数または音響データYの総数も任意である。
(4)前述の各形態においては、映像データ取得部51が収録装置20から映像データXを取得したが、映像データXは、記憶装置42に記憶されたデータでもよい。映像データ取得部51は、記憶装置42から映像データXを取得する。以上の説明から理解される通り、映像データ取得部51は、映像データXを取得する任意の手段であり、収録装置20等の外部装置から映像データXを受信する要素と、記憶装置42から映像データXを取得する要素との双方を包含する。
(5)前述の各形態においては、音響データ取得部52が収録装置30から音響データYを取得したが、音響データYは、記憶装置42に記憶されたデータでもよい。音響データ取得部52は、記憶装置42から音響データYを取得する。以上の説明から理解される通り、音響データ取得部52は、音響データYを取得する任意の手段であり、収録装置30等の外部装置から音響データYを受信する要素と、記憶装置42から音響データYを取得する要素との双方を包含する。
(6)前述の各形態においては、映像データXと音響データYとが相互に並列に収録される場合を例示したが、映像データXと音響データYとが並列に収録される必要は必ずしもない。映像データXと音響データYとが、相異なる時間または場所において収録された場合でも、演奏データQまたは拍節データRを利用することで両者を同期させることが可能である。また、映像データXが表す演奏と音響データYが表す演奏との間においてテンポが相違してもよい。映像データXと音響データYとの間でテンポが相違する場合、同期制御部55は、公知のタイムストレッチにより音響データYのテンポを映像データXのテンポに一致させたうえで、映像データXと音響データYとを同期させる。なお、同期制御部55は、映像データXのテンポを演奏データQまたは拍節データRから特定し、当該テンポに一致するように音響データYに対するタイムストレッチを実行する。すなわち、映像データXと音響データYとの同期に使用される演奏データQまたは拍節データRが、音響データYのタイムストレッチにも流用される。
(7)第1実施形態においては、バスドラム11におけるヘッド112の振動を検出したが、映像データXを利用した検出の対象はバスドラム11に限定されない。例えば、ドラムセット10を構成する他のドラム(例えばタムタム,フロアタム,またはスネアドラム等)の振動が、映像データXの解析により検出されてもよい。すなわち、映像データXが表す映像には、ドラムセット10におけるバスドラム11以外のドラムが含まれてもよい。
 また、前述の各形態においては、アコースティックドラムとしてのバスドラム11に着目したが、映像データXが電子ドラムの映像を表す形態も想定される。電子ドラムは、前述のヘッド112に代えてパッド(例えばゴムパッド)を具備する。解析処理部53は、映像データXを解析することで、電子ドラムにおけるパッドの振動を検出する。また、シンバル等の体鳴楽器、または木琴等の鍵盤打楽器が、映像データXの映像に含まれてもよい。解析処理部53は、映像データXを解析することで体鳴楽器に発生する振動を検出する。以上の例示から理解される通り、解析処理部53は、演奏により打楽器に発生する振動を検出する要素として包括的に表現され、打楽器の種類は任意である。なお、シンバル等の体鳴楽器は、バスドラム11等の膜鳴楽器のヘッド112と比較して振動の振幅が大きく、かつ、振動が継続する時間も長いという傾向がある。したがって、解析処理部53が体鳴楽器の振動を検出するための処理負荷は、膜鳴楽器の振動を検出するための処理負荷を上回る。以上の傾向を考慮すると、打楽器の振動を検出するための処理負荷を低減する観点からは、膜鳴楽器の振動を検出する形態が好適である。打楽器において振動が発生する要素は、振動体として包括的に表現される。
 なお、体鳴楽器または膜鳴楽器等の各種の楽器本体を支持する支持体も「打楽器」の概念には包含される。例えば、シンバルを支持するシンバルスタンド、またはハイハットを支持するハイハットスタンドは、演奏により振動する振動体であり、打楽器の一部を構成する要素として観念される。また、ヘッド112の打撃により連成的に振動する裏面ヘッドまたは胴体部111も振動体の概念に包含される。以上の例示から理解される通り、解析処理部53が振動を検出する対象となる振動体は、利用者Uが直接的に打撃する要素のほか、当該要素に連動して振動する他の要素も包含する。すなわち、振動体は、演奏により振動する要素として包括的に表現される。
(8)第2実施形態においては、映像データXがフットペダル12の映像を表す場合を例示したが、映像データXの映像に含まれるビーター121は、フットペダル12に限定されない。例えば、タムタム,フロアタムまたはスネアドラム等の各種の打楽器の演奏に利用されるスティックが、映像データXの映像に含まれてもよい。解析処理部53は、映像データXを解析することで、スティックに発生する振動を検出する。また、例えば木琴等の鍵盤打楽器の演奏に利用されるマレットが、映像データXの映像に含まれてもよい。解析処理部53は、映像データXを解析することで、マレットに発生する振動を検出する。以上の例示から理解される通り、解析処理部53は、打撃体による打撃を検出する要素として包括的に表現される。ビーター121、スティックおよびマレットは、打撃体の例示である。すなわち、打撃体は、演奏のための打撃に利用される要素として包括的に表現される。
 以上に例示した変形例(7)および変形例(8)から理解される通り、解析処理部53は、演奏による打楽器の変化を検出する要素として包括的に表現される。演奏による打楽器の変化は、振動体の振動または打撃体による打撃を包含する。なお、打撃体を打楽器の振動体と解釈してもよい。
(9)前述の各形態において、映像データXが表す映像の一部の区間には、バスドラム11またはフットペダル12が含まれなくてもよい。ただし、楽曲の開始点において映像データXと音響データYとを正確に同期させる観点からは、当該開始点においては映像データXの映像にバスドラム11またはフットペダル12が含まれることが望ましい。ただし、演奏データQおよび拍節データRを解析することで、同期制御部55が楽曲の開始点を推定することも可能である。
(10)第1実施形態においては、解析処理部53が映像データXの映像から目標領域を特定する形態を例示したが、目標領域の特定(Sa31)は省略されてよい。例えば、映像データXが表す映像にバスドラム11のヘッド112のみが含まれる場合には、目標領域を特定しなくても、映像データXの解析によりヘッド112の振動を検出できる。したがって、目標領域の特定は省略される。解析処理部53が振動を検出する任意の形態において、解析処理部53による目標領域の特定は省略されてよい。
(11)第6実施形態における学習済モデルMは、深層ニューラルネットワークに限定されない。例えば、HMM(Hidden Markov Model)またはSVM(Support Vector Machine)等の統計的推定モデルを、学習済モデルMとして利用してもよい。
(12)第6実施形態においては、映像データXを入力データCとして利用したが、入力データCは以上の例示に限定されない。前述の通り、同期関係はバスドラム11に関する条件に依存する傾向がある。以上の傾向を考慮すると、同期制御部55は、映像データXの解析によりバスドラム11に関する条件を特定し、当該条件を表す入力データCを学習済モデルMに供給してもよい。バスドラム11に関する条件は、例えばバスドラム11のサイズまたは種類等の条件である。同期制御部55は、映像データXに対する物体検出処理によりバスドラム11に関する条件を特定する。以上の説明から理解される通り、入力データCは、映像データXに応じたデータとして包括的に表現され、映像データX自体のほか、映像データXから生成されるデータが包含される。
(13)演奏解析処理における各処理の順番は、前述の各形態に例示した順番から適宜に変更される。例えば、映像データXの取得(S1)と音響データYの取得(S2)との順序は逆転されてよい。また、音響データYの取得(S2)と解析処理部53による演奏検出処理(S3)との順序は逆転されてよい。
(14)第1実施形態および第2実施形態においては、打楽器の変化を映像データXの解析により検出し、当該検出の結果を利用して演奏データQを生成したが、図18に例示される通り、演奏データQの生成に学習済モデル(以下「第1学習済モデル」という)M1が利用されてもよい。第1学習済モデルM1は、入力データDと演奏データQとの関係を機械学習により学習した統計的推定モデルである。第1学習済モデルM1に供給される入力データDは、映像データXに応じたデータである。具体的には、例えば映像データX自体、または映像データXから算定される前述の特徴量Fが、入力データDとして利用される。制御装置41(演奏データ生成部54)は、第1学習済モデルM1を利用して入力データDを処理することで、演奏データQを生成する。なお、図18の構成において、前述の各形態で例示した解析処理部53は省略される。また、映像データXが表す映像は、打楽器の振動体および打撃体の少なくとも一方を含む。
 第1学習済モデルM1は、入力データDから演奏データQを生成する演算を制御装置41に実行させるプログラムと、当該演算に適用される複数の変数(加重値およびバイアス)との組合せで実現される。第1学習済モデルM1は、例えば畳込ニューラルネットワークまたは再帰型ニューラルネットワーク等の深層ニューラルネットワークにより構成される。
 第1学習済モデルM1は、複数の学習データを利用した機械学習により確立される。複数の学習データの各々は、学習用の入力データDと、当該入力データDに対して適切な学習用の演奏データQ(正解値)とを含む。機械学習においては、各学習データの入力データDから暫定的な第1学習済モデルM1が生成する演奏データQと、当該学習データの演奏データQとの誤差が低減されるように、第1学習済モデルM1を規定する複数の変数が反復的に更新される。すなわち、第1学習済モデルM1は、打楽器の映像に応じた学習用の入力データDと学習用の演奏データQとの関係を学習する。演奏データQを利用した拍節データRの生成、および拍節データRを利用した同期制御処理は、前述の各形態と同様である。
 図18の構成においては、打楽器1の映像データXに応じた入力データDを第1学習済モデルM1により処理することで演奏データQが生成される。すなわち、第1実施形態または第2実施形態と同様に、打楽器1の演奏に関する時間的な基準となる演奏データQを、映像データXから生成できる。
 なお、音響処理部57が音響データYを処理する第4実施形態の構成、および、同期調整部58が同期調整処理を実行する第5実施形態または第6実施形態の構成は、図18の構成にも同様に適用される。
(15)図18においては、第1学習済モデルM1により入力データDを処理することで演奏データQを生成したが、図19に例示される通り、第2学習済モデルM2により入力データDを処理することで拍節データRを生成してもよい。第2学習済モデルM2は、入力データDと拍節データRとの関係を機械学習により学習した統計的推定モデルである。第2学習済モデルに供給される入力データDは、映像データXに応じたデータである。具体的には、例えば映像データX自体、または映像データXから算定される前述の特徴量Fが、入力データDとして利用される。制御装置41(拍節データ生成部56)は、第2学習済モデルM2を利用して入力データDを処理することで、拍節データRを生成する。なお、図19の構成において、前述の各形態において例示した解析処理部53および演奏データ生成部54は省略される。また、映像データXが表す映像は、打楽器の振動体および打撃体の少なくとも一方を含む。
 第2学習済モデルM2は、入力データDから拍節データRを生成する演算を制御装置41に実行させるプログラムと、当該演算に適用される複数の変数(加重値およびバイアス)との組合せで実現される。第2学習済モデルM2は、例えば畳込ニューラルネットワークまたは再帰型ニューラルネットワーク等の深層ニューラルネットワークにより構成される。
 第2学習済モデルM2は、複数の学習データを利用した機械学習により確立される。複数の学習データの各々は、学習用の入力データDと、当該入力データDに対して適切な学習用の拍節データR(正解値)とを含む。機械学習においては、各学習データの入力データDから暫定的な第2学習済モデルM2が生成する拍節データRと、当該学習データの拍節データRとの誤差が低減されるように、第2学習済モデルを規定する複数の変数が反復的に更新される。すなわち、第2学習済モデルM2は、打楽器の映像に応じた学習用の入力データDと学習用の拍節データRとの関係を学習する。拍節データRを利用した同期制御処理は、前述の各形態と同様である。
 図19の構成においては、打楽器1の映像データXに応じた入力データDを第2学習済モデルM2により処理することで拍節データRが生成される。すなわち、第3実施形態と同様に、打楽器1の演奏に関する時間的な基準となる拍節データRを、映像データXから生成できる。なお、音響処理部57が音響データYを処理する第4実施形態の構成、および、同期調整部58が同期調整処理を実行する第5実施形態または第6実施形態の構成は、図19の構成にも同様に適用される。
(16)前述の各形態においては、打楽器1が振動体(ヘッド112)と打撃体(ビーター121)とを含む構成を例示した。打撃体を表す映像データXから演奏データQまたは拍節データRを生成する構成においては、打楽器1が振動体を含まない場合でも演奏データQまたは拍節データRを生成できる。したがって、例えば利用者Uが打撃体を振る動作により演奏音が再生されるエアドラムにも、前述の各形態は同様に適用される。以上の説明から理解される通り、本開示における「打楽器」にはエアドラムも包含される。すなわち、打撃体の映像を表す映像データXから演奏データQまたは拍節データRを生成する構成にとって、打楽器の映像および振動の検出は必須ではない。
(17)演奏解析システム40の機能は、前述の通り、制御装置41を構成する単数または複数のプロセッサと、記憶装置42に記憶されたプログラムとの協働により実現される。以上のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体も包含される。なお、非一過性の記録媒体とは、一過性の伝搬信号(transitory, propagating signal)を除く任意の記録媒体を含み、揮発性の記録媒体も除外されない。また、配信装置が通信網を介してプログラムを配信する構成では、当該配信装置においてプログラムを記憶する記録媒体が、前述の非一過性の記録媒体に相当する。
H:付記
 以上に例示した形態から、例えば以下の構成が把握される。
 ひとつの態様(態様1)に係る演奏解析方法は、打楽器の撮像により生成された映像データを取得することと、前記映像データを解析することで、演奏による前記打楽器の変化を検出することと、前記演奏を表す演奏データを前記検出の結果に応じて生成することと、拍節構造を表す拍節データを前記演奏データから生成することとを含む。
 以上の態様によれば、打楽器の撮像により生成された映像データの解析により当該打楽器の変化が検出され、打楽器の演奏を表す演奏データQが当該検出の結果に応じて生成される。すなわち、映像データXの時間的な基準となる演奏データを当該映像データから生成できる。また、拍節構造を表す拍節データが演奏データから生成される。したがって、拍節構造を利用した各種の処理が実現される。
 「打楽器の変化」は、例えば、打楽器の振動体に発生する振動、または、打楽器の打撃体による打撃である。振動体は、打楽器において演奏により振動する部分である。例えばドラム等の膜鳴楽器においては、演奏時に打撃されるヘッド(打撃面)のほか、当該打撃により連成的に振動する裏面ヘッドも、振動体に包含される。また、シンバル等の体鳴楽器においては、演奏時に打撃される楽器本体が、振動体に包含される。なお、「打楽器の振動」は、打楽器のうち利用者が直接的に打撃する振動体の振動に限定されない。例えば、打楽器のうち振動体を支持する部材の振動も「打楽器の振動」には包含される。
 また、打撃体は、打楽器の演奏のための打撃に利用される要素である。例えば、ドラムを打撃するスティックやビーター、または木琴等の鍵盤打楽器を打撃するマレットが、打撃体として例示される。また、演奏者の身体(例えば手)により打撃される打楽器を想定すると、演奏者の身体も「打撃体」の概念に包含され得る。
 「演奏データ」は、打楽器の演奏を表す任意の形式のデータである。例えば、打楽器の打撃を表す発音データと、時間軸上における当該打撃の位置を指定する時点データとが配列された時系列データが、演奏データとして例示される。発音データは、打撃の発生を表すだけでなく当該打撃の強度を指定してもよい。
 「拍節構造」とは、楽曲における拍節の構造(リズム)を意味する。具体的には、強拍または弱拍等の複数の拍の組合せと各拍が発生する時点とで規定されるリズムパターンの構造(拍子)が、「拍節構造」の典型例である。
 態様1の具体例(態様2)において、前記打楽器は、前記演奏により振動する振動体を含み、前記打楽器の変化を検出することは、前記映像データが表す映像から前記打楽器のうち前記振動体が存在する目標領域を特定することと、前記目標領域における映像の変化に応じて前記振動体の振動を検出することとを含む。以上の態様によれば、映像データが表す映像から打楽器における振動体の目標領域が特定される。したがって、映像データの解析により振動体の振動を高精度に検出できる。
 態様1または態様2の具体例(態様3)において、前記打楽器は、前記演奏のための打撃に利用される打撃体を含み、前記打楽器の変化を検出することは、前記映像データが表す映像から前記打撃体を特定することと、前記打撃体の映像の変化に応じて当該打撃体による打撃を検出することとを含む。以上の態様においては、打撃体の撮像により生成された映像データの解析により当該打撃体による打撃が検出され、打楽器の演奏を表す演奏データが当該検出の結果に応じて生成される。すなわち、映像データの時間的な基準となる演奏データを当該映像データから生成できる。また、拍節構造を表す拍節データが演奏データから生成される。したがって、拍節構造を利用した各種の処理が実現される。
 態様1から態様3の何れかの具体例(態様4)に係る演奏解析方法は、演奏音を表す音響データを取得することと、前記拍節データを利用して前記映像データと前記音響データとを同期させることとをさらに含む。以上の態様によれば、映像データと音響データとの同期に拍節データが利用される。すなわち、楽曲の拍節構造を加味して映像データと音響データとの同期が実現される。したがって、映像データと音響データとの同期に演奏データが利用される形態と比較して、映像データと音響データとを高精度に同期させることが可能である。
 「音響データ」は、演奏音を表す任意のデータである。例えば、映像データが表す映像において演奏の対象とされる楽曲と同じ楽曲の演奏音を表すデータが「音響データ」として例示される。ただし、映像データの映像において演奏の対象とされる楽曲と、音響データが演奏音を表す楽曲とが完全に一致する必要は必ずしもない。なお、映像データの取得と音響データの取得との順序は任意である。
 映像データと音響データとの「同期」とは、映像データと音響データとの時間的な対応を調整する処理を意味する。「同期」の典型例は、楽曲内の任意の時点について音響データが表す演奏音と、当該時点について映像データが表す映像とが、時間軸上において相互に対応する(例えば時間軸上で一致する)ように、映像データおよび音響データの一方に対する他方の時間軸上の位置を調整することを意味する。なお、映像データと音響データとが全区間にわたり完全に同期する必要は必ずしもない。例えば、時間軸上の特定の時点において映像データと音響データとが相互に対応する状況であれば、映像データと音響データとの時間的なズレが当該時点から経時的に拡大していく場合でも、映像データと音響データとの関係は「同期」と解釈できる。また、「同期」は、映像データと音響データとが時間的に整合した関係に限定されない。すなわち、映像データおよび音響データの一方に対する他方の時間差が所定値となるように、映像データと音響データとの時間的な対応を調整する処理も「同期」の概念に包含される。
 態様4の具体例(態様5)において、前記音響データが表す演奏音は、前記打楽器の演奏音と前記打楽器以外の楽器の演奏音とを含み、前記打楽器の演奏音を前記打楽器以外の楽器の演奏音に対して強調する音響処理を前記音響データに対して実行すること、をさらに含み、前記映像データと前記音響データとを同期させることは、前記映像データと前記音響処理後の音響データとを同期させることを含む。以上の態様においては、音響データについて打楽器の演奏音が強調されるから、音響データが表す演奏音が打楽器以外の楽器の演奏音も充分に含む形態と比較して、映像データと音響データとを高精度に同期させることが可能である。
 「音響処理」は、打楽器の演奏音を打楽器以外の楽器の演奏音に対して相対的に強調する任意の処理を意味する。例えば、遮断周波数が打楽器の音域の最大値に設定されたローパスフィルタ処理が、「音響処理」として例示される。また、打楽器の演奏音と打楽器以外の楽器の演奏音とを分離する音源分離処理も、「音響処理」として例示される。なお、打楽器以外の楽器の演奏音が完全に除去される必要はない。すなわち、打楽器以外の楽器の演奏音を打楽器の演奏音に対して抑制(理想的には除去)する任意の処理が、「音響処理」には包含される。
 態様4または態様5の具体例(態様6)に係る演奏解析方法は、調整値を設定することと、前記同期後の前記映像データおよび前記音響データの一方に対する他方の時間軸上における位置を、前記調整値に応じて変更することとをさらに含む。以上の態様によれば、映像データおよび音響データの一方に対する他方の時間軸上における位置を、拍節データを利用した同期後に調整できる。
 態様6の具体例(態様7)において、前記調整値を設定することは、利用者からの指示に応じて前記調整値を設定することを含む。以上の態様においては、利用者からの指示に応じて調整値が設定されるから、映像データおよび音響データの一方に対する他方の時間軸上の位置を、利用者の意図に応じて調整できる。
 態様6の具体例(態様8)において、前記調整値を設定することは、打楽器の映像に応じた学習用の入力データと学習用の調整値との関係を学習した学習済モデルにより、前記映像データに応じた入力データを処理することで、前記調整値を設定することを含む。以上の態様においては、機械学習済の学習済モデルを利用して調整値が生成されるから、機械学習用の複数の学習データにおける入力データと調整値との間の関係のもとで、統計的に妥当な調整値を、未知の入力データに対して生成できる。なお、入力データは、例えば、打楽器の撮像により生成された映像データ自体、または映像データから算定される特徴量を含む。特徴量は、打楽器の演奏に連動して変化する映像特徴量である。また、映像データから推定される打楽器の種類またはサイズ等の条件を入力データが含んでもよい。
 「学習済モデル」は、入力データと調整値との関係を機械学習により習得した学習済モデルである。例えば深層ニューラルネットワーク(DNN:Deep Neural Network)、隠れマルコフモデル(HMM:Hidden Markov Model)、またはSVM(Support Vector Machine)等の各種の統計的推定モデルが、「学習済モデル」として利用される。
 「入力データ」は、映像データに応じた任意のデータである。例えば映像データ自体が入力データとして利用される。また、映像データから抽出される特徴量が入力データとして利用されてもよい。例えば、映像データが表す打楽器のサイズまたは種類等の特徴量が、入力データとして学習済モデルに入力される。また、打楽器の撮像時における撮像装置と打楽器との距離(撮影距離)が、入力データとして学習済モデルに入力されてもよい。
 本開示の他の態様(態様9)に係る演奏解析方法は、打楽器の撮像により生成された映像データを取得することと、前記映像データを処理することで、拍節構造を表す演奏データを生成することと、拍節構造を表す拍節データを前記演奏データから生成することとを含む。以上の態様においては、映像データの処理により演奏データが生成され、当該演奏データから拍節データが生成される。すなわち、打楽器の演奏に関する時間的な基準となる演奏データおよび拍節データを、映像データから生成できる。
 態様9の具体例(態様10)において、前記演奏データを生成することは、打楽器の映像に応じた学習用の入力データと学習用の演奏データとの関係を学習した学習済モデルにより、前記映像データに応じた入力データを処理することで、前記演奏データを生成することを含む。以上の態様によれば、機械学習用の複数の学習データにおける入力データと演奏データとの間の関係のもとで、統計的に妥当な演奏データを、未知の入力データに対して生成できる。なお、入力データは、例えば、打楽器の撮像により生成された映像データ自体、または映像データから算定される特徴量を含む。特徴量は、打楽器の演奏に連動して変化する映像特徴量である。
 本開示の他の態様(態様11)に係る演奏解析方法は、打楽器の撮像により生成された映像データを取得することと、前記映像データを処理することで、拍節構造を表す拍節データを生成することとを含む。以上の態様においては、映像データの処理により拍節データが生成される。すなわち、打楽器の演奏に関する時間的な基準となる拍節データを、映像データから生成できる。
 態様11の具体例(態様12)において、前記拍節データを生成することは、打楽器の映像に応じた学習用の入力データと学習用の拍節データとの関係を学習した学習済モデルにより、前記映像データに応じた入力データを処理することで、前記拍節データを生成することを含む。以上の態様によれば、機械学習用の複数の学習データにおける入力データと拍節データとの間の関係のもとで、統計的に妥当な拍節データを、未知の入力データに対して生成できる。なお、入力データは、例えば、打楽器の撮像により生成された映像データ自体、または映像データから算定される特徴量を含む。特徴量は、打楽器の演奏に連動して変化する映像特徴量である。
 態様9から態様12の何れかの具体例(態様13)において、前記学習済モデルにより処理される入力データは、前記打楽器の映像を表す映像データ、および、前記映像データから算定される前記映像の特徴量、の少なくとも一方を含む。また、態様9から態様13の何れかの具体例(態様14)において、前記映像の特徴量は、例えば、前記打楽器の特徴点の移動に関する特徴量である。
 態様9から態様14の何れかの具体例(態様15)において、前記打楽器は、前記演奏により振動する振動体と、当該演奏のための打撃に利用される打撃体とを含み、前記映像データが表す映像は、前記打撃体を含む。以上の態様によれば、打撃体の映像から演奏データまたは拍節データを生成できる。したがって、打楽器における振動体の映像は不要である。また、打楽器が振動体を含まない状況(例えばエアドラム)においても、演奏データまたは拍節データを生成できる。
 以上に例示した各態様に係る演奏解析方法は、演奏解析システムとしても実現される。また、以上に例示した各態様に係る演奏解析方法は、コンピュータシステムに当該演奏解析方法を実行させるためのプログラムとしても実現される。
100…情報処理システム、1…打楽器、10…ドラムセット、11…バスドラム、111…胴体部、112…ヘッド、12…フットペダル、121…ビーター、122…ペダル、20…収録装置、21…撮像装置、22…通信装置、30…収録装置、31…収音装置、32…通信装置、40…演奏解析システム、41…制御装置、42…記憶装置、43…通信装置、44…操作装置、45…表示装置、46…放音装置、47…再生装置、51…映像データ取得部、52…音響データ取得部、53…解析処理部、54…演奏データ生成部、55…同期制御部、56…拍節データ生成部、57…音響処理部、58…同期調整部、M…学習済モデル。

Claims (17)

  1.  打楽器の撮像により生成された映像データを取得することと、
     前記映像データを解析することで、演奏による前記打楽器の変化を検出することと、
     前記演奏を表す演奏データを前記検出の結果に応じて生成することと、
     拍節構造を表す拍節データを前記演奏データから生成することと
     を含む、コンピュータシステムにより実現される演奏解析方法。
  2.  前記打楽器は、前記演奏により振動する振動体を含み、
     前記打楽器の変化を検出することは、
     前記映像データが表す映像から前記打楽器のうち前記振動体が存在する目標領域を特定することと、
     前記目標領域における映像の変化に応じて前記振動体の振動を検出することとを含む
     請求項1の演奏解析方法。
  3.  前記打楽器は、前記演奏のための打撃に利用される打撃体を含み、
     前記打楽器の変化を検出することは、
     前記映像データが表す映像から前記打撃体を特定することと、
     前記打撃体の映像の変化に応じて当該打撃体による打撃を検出することとを含む
     請求項1または請求項2の演奏解析方法。
  4.  演奏音を表す音響データを取得することと、
     前記拍節データを利用して前記映像データと前記音響データとを同期させることと
     をさらに含む、請求項1から請求項3の何れかの演奏解析方法。
  5.  前記音響データが表す演奏音は、前記打楽器の演奏音と前記打楽器以外の楽器の演奏音とを含み、
     前記打楽器の演奏音を前記打楽器以外の楽器の演奏音に対して強調する音響処理を前記音響データに対して実行すること、をさらに含み、
     前記映像データと前記音響データとを同期させることは、前記映像データと前記音響処理後の音響データとを同期させることを含む
     請求項4の演奏解析方法。
  6.  調整値を設定することと、
     前記同期後の前記映像データおよび前記音響データの一方に対する他方の時間軸上における位置を、前記調整値に応じて変更することと
     をさらに含む、請求項4または請求項5の演奏解析方法。
  7.  前記調整値を設定することは、
     利用者からの指示に応じて前記調整値を設定することを含む
     請求項6の演奏解析方法。
  8.  前記調整値を設定することは、
     打楽器の映像に応じた学習用の入力データと、映像データおよび音響データの一方に対する他方の時間軸上における位置を変更するための学習用の調整値との関係を学習した学習済モデルにより、前記映像データに応じた入力データを処理することで、前記調整値を設定することを含む
     請求項6の演奏解析方法。
  9.  打楽器の撮像により生成された映像データを取得することと、
     前記映像データを処理することで、前記打楽器の演奏を表す演奏データを生成することと、
     拍節構造を表す拍節データを前記演奏データから生成することと
     を含む、コンピュータシステムにより実現される演奏解析方法。
  10.  前記演奏データを生成することは、
     打楽器の映像に応じた学習用の入力データと学習用の演奏データとの関係を学習した学習済モデルにより、前記映像データに応じた入力データを処理することで、前記演奏データを生成することを含み、
     前記学習済モデルにより処理される入力データは、前記打楽器の映像を表す映像データ、および、前記映像データから算定される前記映像の特徴量、の少なくとも一方を含み、
     前記演奏データは、前記打楽器の発音の時点を表すデータである
     請求項9の演奏解析方法。
  11.  打楽器の撮像により生成された映像データを取得することと、
     前記映像データを処理することで、拍節構造を表す拍節データを生成することと
     を含む、コンピュータシステムにより実現される演奏解析方法。
  12.  前記拍節データを生成することは、
     打楽器の映像に応じた学習用の入力データと学習用の拍節データとの関係を学習した学習済モデルにより、前記映像データに応じた入力データを処理することで、前記拍節データを生成することを含む
     請求項11の演奏解析方法。
  13.  前記学習済モデルにより処理される入力データは、前記打楽器の映像を表す映像データ、および、前記映像データから算定される前記映像の特徴量、の少なくとも一方を含む
     請求項12の演奏解析方法。
  14.  前記映像の特徴量は、前記打楽器の特徴点の移動に関する特徴量である
     請求項10または請求項13の演奏解析方法。
  15.  前記打楽器は、前記演奏により振動する振動体と、当該演奏のための打撃に利用される打撃体とを含み、
     前記映像データが表す映像は、前記打撃体を含む
     請求項9から請求項14の何れかの演奏解析方法。
  16.  打楽器の撮像により生成された映像データを取得する映像データ取得部と、
     前記映像データを解析することで、演奏による前記打楽器の変化を検出する解析処理部と、
     前記演奏を表す演奏データを前記検出の結果に応じて生成する演奏データ生成部と、
     拍節構造を表す拍節データを前記演奏データから生成する拍節データ生成部と
     を具備する演奏解析システム。
  17.  打楽器の撮像により生成された映像データを取得する映像データ取得部、
     前記映像データを解析することで、演奏による前記打楽器の変化を検出する解析処理部、
     前記演奏を表す演奏データを前記検出の結果に応じて生成する演奏データ生成部、および、
     拍節構造を表す拍節データを前記演奏データから生成する拍節データ生成部、
     としてコンピュータシステムを機能させるプログラム。
PCT/JP2022/040473 2021-11-08 2022-10-28 演奏解析方法、演奏解析システムおよびプログラム WO2023080080A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US18/656,748 US20240290303A1 (en) 2021-11-08 2024-05-07 Performance Analysis Method, Performance Analysis System, and Non-Transitory Computer-Readable Storage Medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021-181699 2021-11-08
JP2021181699A JP2023069663A (ja) 2021-11-08 2021-11-08 演奏解析方法、演奏解析システムおよびプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/656,748 Continuation US20240290303A1 (en) 2021-11-08 2024-05-07 Performance Analysis Method, Performance Analysis System, and Non-Transitory Computer-Readable Storage Medium

Publications (1)

Publication Number Publication Date
WO2023080080A1 true WO2023080080A1 (ja) 2023-05-11

Family

ID=86241090

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/040473 WO2023080080A1 (ja) 2021-11-08 2022-10-28 演奏解析方法、演奏解析システムおよびプログラム

Country Status (3)

Country Link
US (1) US20240290303A1 (ja)
JP (1) JP2023069663A (ja)
WO (1) WO2023080080A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110018795A1 (en) * 2009-07-27 2011-01-27 Samsung Electronics Co., Ltd. Method and apparatus for controlling electronic device using user interaction
JP2017167519A (ja) * 2016-03-11 2017-09-21 ヤマハ株式会社 発音制御装置及び方法、プログラム
JP2019028374A (ja) * 2017-08-02 2019-02-21 ヤマハ株式会社 学習モデル生成方法、プログラムおよび自動演奏ロボット
JP2021028649A (ja) * 2019-08-09 2021-02-25 株式会社Nttドコモ 情報処理装置及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110018795A1 (en) * 2009-07-27 2011-01-27 Samsung Electronics Co., Ltd. Method and apparatus for controlling electronic device using user interaction
JP2017167519A (ja) * 2016-03-11 2017-09-21 ヤマハ株式会社 発音制御装置及び方法、プログラム
JP2019028374A (ja) * 2017-08-02 2019-02-21 ヤマハ株式会社 学習モデル生成方法、プログラムおよび自動演奏ロボット
JP2021028649A (ja) * 2019-08-09 2021-02-25 株式会社Nttドコモ 情報処理装置及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YASUHIKO TSUJI, ATSUHIRO NISHIKATA: "Development and evaluation of percussion instrument learning support system based on rhythm and beat form", DENSHI JOHO TSUSHIN GAKKAI RONBUNSHI, D-1 - TRANSACTIONS OF THEIEICE, PART D-1, DENSHI JOHO TSUSHIN GAKKAI, TOKYO, JP, vol. J88-D-I, no. 2, 1 February 2005 (2005-02-01), JP , pages 508 - 516, XP009546010, ISSN: 0915-1915 *

Also Published As

Publication number Publication date
JP2023069663A (ja) 2023-05-18
US20240290303A1 (en) 2024-08-29

Similar Documents

Publication Publication Date Title
JP5966465B2 (ja) 演奏装置、プログラム及び演奏方法
US9536509B2 (en) Systems and methods for capturing and interpreting audio
US8785761B2 (en) Sound-generation controlling apparatus, a method of controlling the sound-generation controlling apparatus, and a program recording medium
US11120780B2 (en) Emulation of at least one sound of a drum-type percussion instrument
AU2021205035B2 (en) Systems and methods for capturing and interpreting audio
US20230401975A1 (en) Evaluating percussive performances
WO2023080080A1 (ja) 演奏解析方法、演奏解析システムおよびプログラム
JP2007520691A (ja) 共振および/または振動測定装置
US20170263230A1 (en) Sound production control apparatus, sound production control method, and storage medium
JP6111526B2 (ja) 楽音発生装置
WO2015111657A1 (ja) 音響効果設定方法
JP2004354613A (ja) 実楽器演奏ロボットと実楽器演奏ロボット群
JP4054852B2 (ja) 楽音生成方法およびその装置
JP2022096204A (ja) 譜面生成装置及びプログラム
WO2023195333A1 (ja) 制御装置
JP2006106411A (ja) 音出力制御装置、楽曲再生装置、音出力制御方法、そのプログラム、および、そのプログラムを記録した記録媒体
JP2011107445A (ja) 演奏装置
EP3220385B1 (en) System and method for stringed instruments' pickup
JP5935399B2 (ja) 楽音発生装置
JP4198645B2 (ja) カラオケ装置用の電子打楽器装置
JP2008225005A (ja) 音楽練習用電子装置及び音楽練習プログラム
JP2018097157A (ja) 電子打楽器、テンポ設定方法およびテンポ設定プログラム
JP2004294833A (ja) 電子ピアノ

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22889900

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE