WO2019017242A1 - 楽曲解析方法、楽曲解析装置およびプログラム - Google Patents

楽曲解析方法、楽曲解析装置およびプログラム Download PDF

Info

Publication number
WO2019017242A1
WO2019017242A1 PCT/JP2018/026002 JP2018026002W WO2019017242A1 WO 2019017242 A1 WO2019017242 A1 WO 2019017242A1 JP 2018026002 W JP2018026002 W JP 2018026002W WO 2019017242 A1 WO2019017242 A1 WO 2019017242A1
Authority
WO
WIPO (PCT)
Prior art keywords
points
point
music
selection
probability
Prior art date
Application number
PCT/JP2018/026002
Other languages
English (en)
French (fr)
Inventor
陽 前澤
Original Assignee
ヤマハ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤマハ株式会社 filed Critical ヤマハ株式会社
Publication of WO2019017242A1 publication Critical patent/WO2019017242A1/ja
Priority to US16/743,909 priority Critical patent/US11328699B2/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10GREPRESENTATION OF MUSIC; RECORDING MUSIC IN NOTATION FORM; ACCESSORIES FOR MUSIC OR MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR, e.g. SUPPORTS
    • G10G3/00Recording music in notation form, e.g. recording the mechanical operation of a musical instrument
    • G10G3/04Recording music in notation form, e.g. recording the mechanical operation of a musical instrument using electrical means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/061Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of musical phrases, isolation of musically relevant segments, e.g. musical thumbnail generation, or for temporal structure analysis of a musical piece, e.g. determination of the movement sequence of a musical work
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/076Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation

Definitions

  • the present invention relates to a technology for analyzing an acoustic signal representing the sound of music.
  • Patent Document 1 discloses a configuration in which a time point at which a change amount of a power spectrum of an acoustic signal is large is detected as a beat point.
  • beats are generated from an acoustic signal using a probability model (for example, a hidden Markov model) in which the transition probability of a code between beats is set and a Viterbi algorithm for estimating a maximum likelihood state sequence.
  • a probability model for example, a hidden Markov model
  • Viterbi algorithm for estimating a maximum likelihood state sequence.
  • Patent Document 1 and Patent Document 2 have an advantage that the amount of calculation required to estimate a beat point is small, but there is a problem that accurate estimation of a beat point is actually difficult.
  • the technique of Non-Patent Document 1 has the advantage of being able to estimate the beat point with high accuracy as compared to the techniques of Patent Document 1 or Patent Document 2, but has the problem of a large amount of computation.
  • the above description focuses on the estimation of the beat in the music, the same problem occurs in identifying scenes having a musical meaning in the music, such as the beginning of a bar, as well as the beat. It can occur.
  • a preferred aspect of the present invention aims to estimate the time in the music with high accuracy while reducing the amount of calculation.
  • a computer in order to solve the above problems, in a music analysis method according to a preferred aspect of the present invention, a computer generates a plurality of provisional points which become candidates for specific points having musical meaning in music as sound signals of the music From a plurality of candidate points including the plurality of provisional points and the plurality of division points dividing the intervals of the plurality of provisional points, as the plurality of selection points. For each of the selection points, a plurality of specific points in the music are estimated from the result of calculating the probability that the selection point is a specific point by a second process different from the first process.
  • a program is a first processing unit that estimates, by a first process, a plurality of provisional points which become candidates for specific points having musical meaning in music from the sound signal of the music,
  • a candidate point selection unit for selecting a part of a plurality of candidate points including a plurality of provisional points including a plurality of provisional points and a plurality of time points for dividing the plurality of provisional points, for each of the plurality of selection points
  • the computer functions as a specific point estimation unit that estimates a plurality of specific points in the music from the result of calculating the probability that the selected point is the specific point by the second process different from the first process.
  • FIG. 1 is a block diagram showing the configuration of a music analysis device 100 according to a preferred embodiment of the present invention.
  • the music analysis device 100 of the present embodiment is realized by a computer system including a control device 11 and a storage device 12.
  • various information processing devices such as a personal computer are used as the music analysis device 100.
  • the control device 11 is configured to include a processing circuit such as a CPU (Central Processing Unit), for example.
  • the controller 11 is realized by one or more chips.
  • the storage device 12 stores a program executed by the control device 11 and various data used by the control device 11.
  • a known recording medium such as a semiconductor recording medium and a magnetic recording medium, or a combination of a plurality of types of recording mediums can be arbitrarily adopted as the storage device 12.
  • the storage device 12 of the present embodiment stores an acoustic signal A representing the sound of a music (for example, an instrument sound or a singing sound).
  • the music analysis device 100 of the present embodiment analyzes the sound signal A to estimate the beat of the music.
  • the beat points are points on the time axis which is the basis of the rhythm of the music, and basically exist at equal intervals on the time axis.
  • the control device 11 of the present embodiment executes a program stored in the storage device 12 to calculate a plurality of beat points in the music by analyzing the sound signal A.
  • a part of the functions of the control device 11 may be realized by a dedicated electronic circuit.
  • the first processing unit 21 estimates a plurality of time points Pa (hereinafter referred to as “temporary points”) which are candidates for beat points in the music by the first process on the sound signal A of the music.
  • temporary points a provisional point Pa throughout the music is estimated by the first process.
  • the plurality of temporary points Pa may correspond to the actual beat points (front beats) of the music, but may also correspond to, for example, back beats. That is, there may be a phase difference between the time series of the plurality of provisional points Pa and the time series of the actual plurality of beat points.
  • the time length of one beat of the music hereinafter referred to as "beat cycle" is likely to approximate or to coincide with the interval between two successive provisional points Pa.
  • the candidate point selection unit 22 in FIG. 1 selects a part of the plurality (N) of candidate points Pb including the plurality of provisional points Pa estimated by the first processing unit 21 as a plurality of selection points Pc (N is 2 or more natural numbers).
  • the N candidate points Pb are configured by a plurality of provisional points Pa estimated by the first processing unit 21 and a plurality of division points Pd that divide the intervals of the plurality of provisional points Pa. Ru.
  • the candidate point selection unit 22 selects K (K ⁇ N) candidate points Pb out of the N candidate points Pb as selection points Pc (K is a natural number of 2 or more).
  • the estimation processing unit 24 in FIG. 1 estimates a plurality of beat points in the music from the result of the second processing by the second processing unit 23. Specifically, the estimation processing unit 24 determines each candidate point Pb not selected by the candidate point selection unit 22 from the probability B n calculated for each selection point Pc by the second processing unit 23 (hereinafter referred to as “non-selected point Pe ), The probability B n at which the non-selected point Pe is a beat point is calculated. That is, the probability B n is calculated for each of N candidate points Pb composed of K selection points Pc and (N ⁇ K) non-selection points Pe.
  • the estimation processing unit 24 estimates beat points in the music from the probabilities B n (B 1 to B N ) of each of the N candidate points Pb. That is, some of the N candidate points Pb are selected as beat points in the music.
  • the second processing unit 23 and the estimation processing unit 24 estimate the beat points in the music from the result of calculating the probability B n for each of the K selection points Pc by the second process. It functions as the specific point estimation unit 25.
  • the first process and the second process are different processes. Specifically, the first process is a process with a smaller amount of computation compared to the second process. On the other hand, the second process is a process with high estimation accuracy of the beat point as compared with the first process.
  • the first process is, for example, a process of estimating a sounding point of a musical instrument sound or singing sound represented by the sound signal A as a provisional point Pa.
  • a process of estimating a point in time when the signal strength or spectrum of the acoustic signal A changes as the provisional point Pa is preferable as the first process.
  • a process of estimating a point at which the harmony changes as the provisional point Pa may be executed as the first process.
  • a process of estimating a provisional point Pa from an acoustic signal A using a probability model such as a hidden Markov model and a Viterbi algorithm may be adopted as the first process.
  • the second process is, for example, a process of estimating a beat point using a neural network.
  • FIG. 3 is an explanatory view of a second process using the neural network 30.
  • the neural network 30 illustrated in FIG. 3 stacks three or more layers of processing units U including a convolution layer L1 and a maximum value pooling layer L2, and a first total joint layer L3 and a batch normalization layer L4 and a second It is a deep layer neural network (DNN: Deep Neural Network) of the structure which connected all the connection layers L5.
  • DNN Deep Neural Network
  • the activation function of the convolutional layer L1 and the first total bonding layer L3 is, for example, a normalized linear unit (ReLU), and the activation function of the second total bonding layer L5 is, for example, a soft max function .
  • ReLU normalized linear unit
  • the neural network 30 of the present embodiment is a mathematical model that outputs a probability B n at which the candidate point Pb is a beat point in music from the feature amount F at an arbitrary candidate point Pb of the acoustic signal A.
  • the probability B n calculated by the second process is set to either 0 or 1.
  • the feature amount F at any one candidate point Pb is a spectrogram within a unit period including the candidate point Pb on the time axis.
  • the feature amount F of the candidate point Pb is a time series of a plurality of intensity spectra f corresponding to a plurality of candidate points Pb in a unit period.
  • the arbitrary one intensity spectrum f is, for example, a logarithmic spectrum (MSLS: Mel-Scale Log-Spectrum) scaled at the mel frequency.
  • the neural network 30 used in the second process is generated by machine learning using a plurality of teacher data including the feature amount F and the probability B n (that is, correct data). That is, the neural network 30 is a learned model obtained by learning the relationship between the feature amount F of the acoustic signal A and the probability B n at which the candidate point Pb is a beat point (an example of a specific point).
  • a non-recursive neural network 30 that does not include recursive (recurrent) connections is used. Therefore, for any candidate point Pb of the acoustic signal A, it is possible to output the probability B n without requiring the result of the processing for the past time points.
  • the candidate point selection unit 22 selects K selection points Pc from N candidate points Pb including the plurality of provisional points Pa estimated in the first process.
  • the second processing unit 23 executes the second process for each of the K selection points Pc to calculate the probability B n . That is, while the first process is performed over the entire section of the music, the second process is limitedly performed for a part of the music (K selection points Pc among N candidate points Pb). Ru.
  • the selection point Pc it is examined which one of the N candidate points Pb should be selected as the selection point Pc.
  • the probability B n of the non-selected point Pe appropriately from the probability B n, which is calculated for the selected point Pc It is important to be able to calculate.
  • the sequence Gc of the probability B n corresponding to the K selection points Pc and the (NK) numbers corresponding to the (N ⁇ K) non-selection points Pe The K selection points Pc are selected from the N candidate points Pb such that mutual information I (Gc; Ge) between the probability B n and the series Ge is maximized.
  • the probability B n is modeled as a Gaussian process.
  • the Gaussian process is a random process expressed by the following equation (1) for arbitrary variables X and Y.
  • the symbol N (a, b) in equation (1) means a normal distribution (Gaussian distribution) of the mean a and the variance b.
  • the symbol X X, Y in equation (1) is a cross correlation between variable X and variable Y. That is, the cross correlation X X, Y means the degree to which two arbitrary candidate points Pb (Xth and Yth) selected from N candidate points Pb are co-occurred.
  • the cross correlation X X, Y is learned in advance (specifically, before processing according to the present embodiment), for example, for a known music. For example, the probability B n is calculated for all the candidate points Pb in the music by the above-mentioned second processing, and the cross correlation X X, Y is calculated by machine learning using the probability B n of each candidate point Pb Held at twelve.
  • the method of generating the cross correlation ⁇ X, Y is not limited to the machine learning exemplified above.
  • the autocorrelation matrix of the feature amount F can be used approximately as the cross correlation X X, Y.
  • the mutual information between the sequence Gc of the probability B n of each selection point Pc and the sequence Ge of the probability B n of each non-selection point Pe is such that the number K of selection points Pc is sufficiently smaller than the number N of candidate points Pb In the case, it is an evaluation index that satisfies the submodularity.
  • the submodularity is a property in which the increase amount of the function when one element is added to the set decreases in conjunction with the extension of the set (the increase of the element).
  • the problem of maximizing mutual information is NP-hard, but focusing on the submodularity of mutual information as described above, greedy algorithm ) Can be obtained more efficiently.
  • Equation (2) means that the candidate point Pb of the identifier n maximizing the amount of increase in mutual information is added as the selection point Pc to the immediately preceding set S k-1 to set the operation as the set S k Do.
  • Expression (2) is expressed as the following expression (3).
  • Equation (1) Considering Equation (1) and Equation (2), the following Equation (4) expressing the function ⁇ n of Equation (3) is derived.
  • the probability B n that any candidate point Pb in the music is a beat point is unnecessary for the operation of the equation (4). Therefore, it is possible to select K selection points Pc from N candidate points Pb using Equations (3) and (4) before execution of the second process for calculating the probability B n is there.
  • FIG. 4 is a flowchart illustrating the contents of processing (music analysis method) in which the control device 11 estimates beats in music. For example, the process of FIG. 4 is started in response to an instruction from the user.
  • the first processing unit 21 performs the first process on the sound signal A to estimate a plurality of provisional points Pa as candidates for beats in the music (S1).
  • the candidate point selection unit 22 selects K selection points Pc from N candidate points Pb including the plurality of provisional points Pa estimated in the first process and the plurality of division points Pd (S2).
  • the candidate point selection unit 22 selects K selection points Pc (set S K ) by repeating the operation of Formula (3). That is, mutual information (example of evaluation index of submodularity) between the set S K of K selection points Pc and the set of (N ⁇ K) non-selection points Pe is maximized
  • the candidate point selection unit 22 selects K selection points Pc from the N candidate points Pb.
  • the second processing unit 23 calculates the probability B n for each of the K selection points Pc selected by the candidate point selection unit 22 by the second process using the non-recursive neural network 30 (S3). Specifically, the second processing unit 23 calculates the feature amount F of each selection point Pc by analyzing the acoustic signal A, and applies the feature amount F to the neural network 30 to thereby determine the probability B n of the selection point Pc. Calculate
  • the estimation processing unit 24 estimates a beat point in the music from the result of the second processing by the second processing unit 23 (probability B n where each selection point Pc is a beat point) (S4). Specifically, in the process of the estimation processing unit 24 estimating a plurality of beat points in the music, a process of calculating the probability B n for each of the plurality of non-selected points Pe (S41), and N candidate points Pb And a process (S42) of estimating a beat point from the probability B n calculated for. Specific examples of each process will be described in detail below.
  • the estimation processing unit 24 selects (NK) non-selection points not selected by the candidate point selection unit 22.
  • the probability B n is calculated for each of the Pe (S41). Specifically, the estimation processing unit 24 calculates a probability distribution regarding the probability B n of each non-selected point Pe.
  • the probability distribution of the probability B n of the non-selected point Pe is defined by the expected value E (B n ) expressed by the following equation (5) and the variance V (B n ) expressed by the equation (6) .
  • the estimation processing unit 24 selects some of the N candidate points Pb as beat points in the music according to the probability B n of each candidate point Pb. Specifically, the estimation processing unit 24 estimates, as a plurality of beat points in the music, a time series of a plurality of candidate points Pb at which the total sum of the probability B n is maximum.
  • the N candidate points Pb are configured by a plurality of provisional points Pa estimated by the first processing unit 21 and a plurality of division points Pd for dividing the intervals of the provisional points into ⁇ n. Therefore, assuming that it is possible to estimate that the second one candidate point (hereinafter referred to as a “specified candidate point”) Pb among the N candidate points Pb corresponds to a beat point, a beat is identified after the specified candidate point Pb
  • the identifier n of the candidate point Pb presumed to be a point is expressed by the following equation (7).
  • the identifier ⁇ of the specific candidate point Pb is set to a variable ⁇ that maximizes the probability index R ( ⁇ ), as expressed by the following equation (8).
  • the probability index R ( ⁇ ) of equation (8) is expressed by the following equation (9).
  • the probability index R ( ⁇ ) is a numerical value obtained by summing the probabilities B n for a plurality of candidate points Pb existing for each beat cycle from the ⁇ th candidate point Pb.
  • the probability index R ( ⁇ ) is the probability that the time series of a plurality of candidate points Pb existing from the ⁇ th candidate point Pb every beat cycle corresponds to the beat point in the music Is an indicator of That is, as the probability index R ( ⁇ ) is larger, there is a high possibility that the plurality of candidate points Pb existing from the ⁇ th candidate point Pb for each beat cycle correspond to the beat point of the music.
  • the estimation processing unit 24 calculates the probability index R ( ⁇ ) of Expression (9) for each of the plurality of candidate points Pb, and uses the variable ⁇ with the highest probability index R ( ⁇ ) as the identifier ⁇ of the specific candidate point Pb. Select (Equation (8)). Then, as shown in Equation (7), the beat of the second candidate candidate point Pb among the N candidate points Pb, and the candidate point Pb existing for each beat cycle from the candidate candidate point Pb Estimated as
  • K selection points Pc are selected from N candidate points Pb including a plurality of provisional points Pa estimated by the first process, and each of the K selection points Pc is selected.
  • the plurality of beat points in the music are estimated according to the probability B n calculated by the second process for. Therefore, it is possible to estimate the beat point in the music with high accuracy while reducing the amount of calculation of the second processing, as compared with the configuration in which the second processing is performed over the entire section in the music.
  • the beat point since the estimation accuracy of the beat point is higher than that of the first process, the beat point can be estimated with high accuracy as compared with the configuration in which the beat point in the music is estimated by only the first process. That is, the effect that the beat point can be estimated with high accuracy while reducing the amount of calculation is particularly remarkable.
  • K selection points are selected from the N candidate points Pb such that the evaluation index of the submodularity (specifically, the mutual information amount) is maximized. Therefore, there is an advantage that an appropriate selection point can be efficiently selected by, for example, a method such as a greedy method.
  • the probability B n unselected point Pe is beat point is calculated in accordance with the probability B n of the selected point Pc. That is, probabilities B n (B 1 to B N ) are calculated for each of the N candidate points Pb in the music. According to the above aspects, there is an advantage that by adding the probability B n of the non-selected point Pe in addition to the probability B n of the selected point Pc, it estimates the beat positions in the music with high accuracy.
  • FIG. 5 is a chart showing estimation accuracy of beats in music.
  • K N, 4, 8, 16, 32
  • a plurality of music pieces are selected.
  • the ratio of music pieces for which the beat point could not be accurately estimated (hereinafter referred to as "mis-estimate rate") is described.
  • the result 1 in FIG. 5 is the case where the provisional point Pa estimated in the first process for the acoustic signal A is determined as the beat point.
  • the number N of candidate points Pb is about 1700.
  • the pulse point is estimated by the first process alone (comparison with result 1). It is possible to estimate beat points with accuracy. Also, when 32 out of N candidate points Pb are selected as the selection point Pc, the same accuracy as in the case where the probability B is calculated in the second process for all of the N candidate points Pb (result 2) It can be confirmed from FIG. 5 that the beat point can be estimated at (a false estimation rate of 6.1%). That is, it is possible to reduce the number of selection points Pc to be subjected to the second process by about 98% (1700 ⁇ 32) while maintaining the estimation accuracy of the beat points in the music equally.
  • the time in the music specified by the suitable mode of the present invention is not limited to a beat point.
  • the present invention can be applied to the case of specifying the top time point of a measure in a music.
  • the preferred embodiment of the present invention is suitably used to estimate a specific point (for example, a beat, the beginning of a bar, etc.) having musical meaning in music.
  • the beats estimated by the above-described embodiment are effectively used for various purposes such as music reproduction and sound processing.
  • the evaluation index of submodularity is not limited to mutual information content.
  • entropy or variance may be maximized as a measure of submodularity.
  • the music analysis device 100 can also be realized by a server device that communicates with a terminal device (for example, a mobile phone or a smartphone) via a communication network such as a mobile communication network or the Internet. Specifically, the music analysis device 100 estimates a plurality of beats in the music by processing the sound signal A received from the terminal device, and transmits the estimation result (for example, data indicating the position of each beat) to the terminal Send.
  • a terminal device for example, a mobile phone or a smartphone
  • a communication network such as a mobile communication network or the Internet.
  • the music analysis device 100 estimates a plurality of beats in the music by processing the sound signal A received from the terminal device, and transmits the estimation result (for example, data indicating the position of each beat) to the terminal Send.
  • the computer (computer system consisting of a single computer or a plurality of computers) is a candidate for a specific point having musical meaning in music.
  • a plurality of provisional points are estimated by the first process from the acoustic signal of the music, and a plurality of candidate points including a plurality of division points dividing the intervals of the plurality of provisional points and the plurality of provisional points are plurality
  • a plurality of identification points in the music based on the result of calculating the probability that the selection point is a specific point for each of the plurality of selection points by a second process different from the first process Estimate points.
  • a part of the plurality of candidate points including the plurality of provisional points estimated by the first process is selected as the plurality of selection points, and the probability calculated by the second process for each of the plurality of selection points In response, a plurality of specific points in the music are estimated. Therefore, it is possible to reduce the amount of calculation of the second process as compared with the configuration in which the second process is performed over the entire music.
  • the second processing is processing for calculating the probability that the selected point is a specific point from the feature amount corresponding to the selected point of the acoustic signal. According to the above aspect, since the probability that the selected point is the specific point is calculated from the feature amount corresponding to each selected point in the sound signal, it is possible to appropriately estimate the specific point in the music. .
  • the second processing uses the learned model obtained by learning the relationship between the feature amount of the acoustic signal and the probability that the selection point is a specific point, and the plurality of selection points Is a process of calculating the probability that each of the points is the specific point.
  • the probability corresponding to the feature amount of the unknown acoustic signal is calculated. It is possible to identify.
  • Aspect 4 in the selection of the plurality of selection points, a plurality of sets of the plurality of selection points and a plurality of non-selected points among the plurality of candidate points
  • the plurality of selection points are selected from the plurality of candidate points such that the evaluation index of submodularity with the set of non-selection points is maximized.
  • a plurality of selection points are selected such that the submodularity evaluation index is maximized. Therefore, there is an advantage that an appropriate selection point can be efficiently selected by, for example, a method such as a greedy method.
  • the probability that the non-selection point is a specific point according to the probability calculated for each of the selection points by the second process are estimated according to the probability calculated for each of the selected points and the probability calculated for each of the non-selected points.
  • the probability that the non-selection point is the specific point is calculated according to the probability of the selection point, and the probability that each of the plurality of provisional points including the selection point and the non-selection point is the specific point , The specific point in the music is estimated. Therefore, there is an advantage that the plurality of specific points in the music can be estimated with high accuracy.
  • the first processing has a smaller amount of calculation compared to the second processing.
  • the second processing has high estimation accuracy of the specific point as compared with the first processing.
  • the specific point can be estimated with high accuracy as compared with the configuration in which the specific point in the music is estimated only by the first process. According to the configuration including both of the sixth aspect and the seventh aspect, there is an advantage that the specific point can be estimated with high accuracy while reducing the amount of calculation.
  • the preferred embodiment of the present invention is also realized as a music analysis device that executes the music analysis method of each aspect illustrated above or a program that causes a computer to execute the music analysis method of each aspect illustrated above.
  • the music analysis apparatus performs a first process of estimating a plurality of provisional points which become candidates for specific points having musical meaning in music from the sound signal of the music by the first process.
  • a candidate point selection unit for selecting, as a plurality of selection points, a part of a plurality of candidate points including a part, the plurality of provisional points and a plurality of division points dividing the intervals of the plurality of provisional points;
  • a specific point estimation unit configured to estimate a plurality of specific points in the music from a result of calculating the probability that each of the plurality of selected points is a specific point by a second process different from the process.
  • a program is a first processing unit that estimates a plurality of provisional points which become candidates for specific points having musical meaning in music from the sound signal of the music by the first processing, For each of the candidate point selecting units for selecting a part of the plurality of candidate points including the plurality of provisional points and the plurality of time points for dividing the intervals of the plurality of provisional points as the plurality of selection points
  • the computer functions as a specific point estimation unit that estimates a plurality of specific points in the music from the result of calculating the probability that the selected point is a specific point by a second process different from the first process.
  • a program according to a preferred aspect of the present invention is provided, for example, in the form of being stored in a computer readable recording medium, and installed in the computer.
  • the recording medium is, for example, a non-transitory recording medium, and is preferably an optical recording medium (optical disc) such as a CD-ROM, but any known medium such as a semiconductor recording medium or a magnetic recording medium may be used.
  • Recording media of the form Note that non-transitory recording media include any recording media except transient propagation signals, and do not exclude volatile recording media.
  • the program may be provided to the computer in the form of distribution via a communication network.
  • control device 12 storage device 21: first processing unit 22: candidate point selection unit 23: second processing unit 24: estimation processing unit 25: specific point estimation unit Pa: temporary point, Pb: candidate point, Pc: selected point, Pd: division point, Pe: non-selected point.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

楽曲解析装置は、楽曲内で音楽的な意味をもつ特定点(例えば拍点)の候補となる複数の暫定点を当該楽曲の音響信号から第1処理により推定し、複数の暫定点と複数の暫定点の間隔を分割する複数の分割点とを含む複数の候補点の一部を複数の選択点として選択し、複数の選択点の各々について、当該選択点が特定点である確率を、第1処理とは異なる第2処理により算定した結果から、楽曲内の複数の特定点を推定する。

Description

楽曲解析方法、楽曲解析装置およびプログラム
 本発明は、楽曲の音を表す音響信号を解析する技術に関する。
 楽曲の音を表す音響信号を解析することで楽曲内の複数の拍点を推定する技術が従来から提案されている。例えば特許文献1には、音響信号のパワースペクトルの変化量が大きい時点を拍点として検出する構成が開示されている。特許文献2には、拍点間におけるコードの遷移確率が設定された確率モデル(例えば隠れマルコフモデル)と、最尤の状態系列を推定するビタビアルゴリズムとを利用して、音響信号から拍点を推定する技術が開示されている。また、非特許文献1には、再帰型のニューラルネットワークを利用して音響信号から拍点を推定する技術が開示されている。
特開2007-033851号公報 特開2015-114361号公報
S. Bock, F. Krebs, and G. Widmer, "Joint beat and downbeat tracking with recurrent neural networks," In Proc. of the 17th Int. Society for Music Information Retrieval Conf.(ISMIR), 2016
 特許文献1または特許文献2の技術においては、拍点の推定に必要な演算量が少ないという利点はあるものの、拍点の高精度な推定は実際には困難であるという問題がある。他方、非特許文献1の技術においては、特許文献1または特許文献2のような技術と比較して高精度に拍点を推定できるという利点はあるものの、演算量が多いという問題がある。なお、以上の説明では楽曲内の拍点の推定に着目したが、拍点だけでなく、例えば小節の先頭など、楽曲内で音楽的に意味のある時点を特定する場面では、同様の問題が発生し得る。以上の事情を考慮して、本発明の好適な態様は、演算量を削減しながら楽曲内の時点を高精度に推定することを目的とする。
 以上の課題を解決するために、本発明の好適な態様に係る楽曲解析方法は、コンピュータが、楽曲内で音楽的な意味をもつ特定点の候補となる複数の暫定点を当該楽曲の音響信号から第1処理により推定し、前記複数の暫定点と前記複数の暫定点の間隔を分割する複数の分割点とを含む複数の候補点の一部を複数の選択点として選択し、前記複数の選択点の各々について、当該選択点が特定点である確率を、前記第1処理とは異なる第2処理により算定した結果から、前記楽曲内の複数の特定点を推定する。
 本発明の他の態様に係るプログラムは、楽曲内で音楽的な意味をもつ特定点の候補となる複数の暫定点を当該楽曲の音響信号から第1処理により推定する第1処理部、前記複数の暫定点と前記複数の暫定点の間隔を分割する複数の時点とを含む複数の候補点の一部を複数の選択点として選択する候補点選択部、前記複数の選択点の各々について、当該選択点が特定点である確率を、前記第1処理とは異なる第2処理により算定した結果から、前記楽曲内の複数の特定点を推定する特定点推定部としてコンピュータを機能させる。
本発明の好適な形態に係る楽曲解析装置の構成を示すブロック図である。 楽曲解析装置の動作の説明図である。 第2処理に利用されるニューラルネットワークの構成を示すブロック図である。 制御装置が楽曲内の拍点を推定する処理のフローチャートである。 実施形態の効果を示す図表である。
 図1は、本発明の好適な形態に係る楽曲解析装置100の構成を示すブロック図である。図1に例示される通り、本実施形態の楽曲解析装置100は、制御装置11と記憶装置12とを具備するコンピュータシステムで実現される。例えばパーソナルコンピュータ等の各種の情報処理装置が楽曲解析装置100として利用される。
 制御装置11は、例えばCPU(Central Processing Unit)等の処理回路を含んで構成される。例えば単数または複数のチップで制御装置11が実現される。記憶装置12は、制御装置11が実行するプログラムと制御装置11が使用する各種のデータとを記憶する。例えば半導体記録媒体および磁気記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せが、記憶装置12として任意に採用され得る。
 本実施形態の記憶装置12は、楽曲の音(例えば楽器音または歌唱音)を表す音響信号Aを記憶する。本実施形態の楽曲解析装置100は、音響信号Aを解析することで楽曲の拍点を推定する。拍点は、楽曲のリズムの基礎となる時間軸上の時点であり、基本的には時間軸上に等間隔に存在する。
 図1に例示される通り、本実施形態の制御装置11は、記憶装置12に記憶されたプログラムを実行することで、音響信号Aの解析により楽曲内の複数の拍点を推定するための複数の要素(第1処理部21,候補点選択部22,第2処理部23および推定処理部24)として機能する。なお、制御装置11の一部の機能を専用の電子回路により実現してもよい。
 第1処理部21は、楽曲内の拍点の候補となる複数の時点(以下「暫定点」という)Paを、当該楽曲の音響信号Aに対する第1処理により推定する。図2に例示される通り、楽曲の全体にわたる暫定点Paが第1処理により推定される。複数の暫定点Paは、楽曲の実際の拍点(表拍)に該当する可能性もあるが、例えば裏拍に該当する可能性もある。すなわち、複数の暫定点Paの時系列と、実際の複数の拍点の時系列との間には、位相差が存在する可能性がある。ただし、楽曲の1拍の時間長(以下「拍周期」という)は、相前後する2個の暫定点Paの間隔に近似または合致する可能性が高いという傾向がある。
 図1の候補点選択部22は、第1処理部21が推定した複数の暫定点Paを含む複数(N個)の候補点Pbの一部を、複数の選択点Pcとして選択する(Nは2以上の自然数)。図2に例示される通り、N個の候補点Pbは、第1処理部21が推定した複数の暫定点Paと、複数の暫定点Paの間隔を区分する複数の分割点Pdとで構成される。本実施形態の分割点Pdは、時間軸上で相前後する2個の暫定点Paの間隔(拍周期)をΔn個に等分する時点である。すなわち、楽曲の1拍がΔn個(図2においてはΔn=4)に区分される。
 候補点選択部22は、N個の候補点PbのうちK個(K<N)の候補点Pbを選択点Pcとして選択する(Kは2以上の自然数)。第2処理部23は、候補点選択部22が選択したK個の選択点Pcの各々について、第1処理とは異なる第2処理により、当該選択点Pcが拍点である確率(事後確率)Bを算定する(n=1~N)。なお、図2においては、確率Bが符号Bで表記されている。
 図1の推定処理部24は、第2処理部23による第2処理の結果から楽曲内の複数の拍点を推定する。具体的には、推定処理部24は、第2処理部23が各選択点Pcについて算定した確率Bから、候補点選択部22が選択しなかった各候補点Pb(以下「非選択点Pe」という)について、当該非選択点Peが拍点である確率Bを算定する。すなわち、K個の選択点Pcと(N-K)個の非選択点Peとで構成されるN個の候補点Pbの各々について確率Bが算定される。そして、推定処理部24は、N個の候補点Pbの各々の確率B(B~B)から楽曲内の拍点を推定する。すなわち、N個の候補点Pbの一部が楽曲内の拍点として選択される。以上の説明から理解される通り、第2処理部23および推定処理部24は、K個の選択点Pcの各々について第2処理により確率Bを算定した結果から楽曲内の拍点を推定する特定点推定部25として機能する。
 第1処理および第2処理の具体例について説明する。第1処理と第2処理とは相異なる処理である。具体的には、第1処理は、第2処理と比較して演算量が少ない処理である。他方、第2処理は、第1処理と比較して拍点の推定精度が高い処理である。
 第1処理は、例えば、音響信号Aが表す楽器音または歌唱音の発音点を暫定点Paとして推定する処理である。具体的には、音響信号Aの信号強度またはスペクトルが変化する時点を暫定点Paとして推定する処理が第1処理として好適である。和声が変化する時点を暫定点Paとして推定する処理を第1処理として実行してもよい。また、特許文献2の開示のように隠れマルコフモデル等の確率モデルとビタビアルゴリズムとを利用して音響信号Aから暫定点Paを推定する処理を第1処理として採用してもよい。
 第2処理は、例えばニューラルネットワークを利用して拍点を推定する処理である。図3は、ニューラルネットワーク30を利用した第2処理の説明図である。図3に例示されたニューラルネットワーク30は、畳込み層L1と最大値プーリング層L2とを含む処理単位Uの3層以上を積層し、第1全結合層L3とバッチ正規化層L4と第2全結合層L5とを接続した構造の深層ニューラルネットワーク(DNN:Deep Neural Network)である。畳込み層L1および第1全結合層L3の活性化関数は、例えば正規化線形ユニット(ReLU:Rectified Linear Unit)であり、第2全結合層L5の活性化関数は、例えばソフトマックス関数である。
 本実施形態のニューラルネットワーク30は、音響信号Aの任意の候補点Pbにおける特徴量Fから、当該候補点Pbが楽曲内の拍点である確率Bを出力する数理モデルである。第2処理により算定される確率Bは0または1の何れかに設定される。任意の1個の候補点Pbにおける特徴量Fは、時間軸上で当該候補点Pbを含む単位期間内のスペクトログラムである。具体的には、候補点Pbの特徴量Fは、単位期間内の複数の候補点Pbに対応する複数の強度スペクトルfの時系列である。任意の1個の強度スペクトルfは、例えばメル周波数でスケーリングされた対数スペクトル(MSLS:Mel-Scale Log-Spectrum)である。
 特徴量Fと確率B(すなわち正解データ)とを含む複数の教師データを利用した機械学習により、第2処理で利用されるニューラルネットワーク30が生成される。すなわち、ニューラルネットワーク30は、音響信号Aの特徴量Fと候補点Pbが拍点(特定点の例示)である確率Bとの関係を学習した学習済モデルである。本実施形態では、再帰的(リカレント)な接続を含まない非再帰型のニューラルネットワーク30が利用される。したがって、音響信号Aの任意の候補点Pbについて、過去の時点に関する処理の結果を必要とすることなく確率Bを出力することが可能である。
 前述の通り、第2処理は第1処理と比較して拍点の推定精度が高いから、推定精度の向上という観点のみからすれば、楽曲の全区間にわたり第2処理を実行することが望ましい。しかし、第2処理は第1処理と比較して演算量が多いから、楽曲の全区間にわたり第2処理を実行することは現実的ではない。以上の事情を考慮して、本実施形態では、第1処理で推定された複数の暫定点Paを含むN個の候補点Pbから、候補点選択部22がK個の選択点Pcを選択し、K個の選択点Pcの各々について第2処理部23が第2処理を実行することで確率Bを算定する。すなわち、第1処理は楽曲の全区間にわたり実行されるのに対し、第2処理は、楽曲の一部(N個の候補点PbのなかのK個の選択点Pc)について限定的に実行される。
 N個の候補点Pbのうち何れの候補点Pbを選択点Pcとして選択すべきかを検討する。選択点Pcの選択においては、第2処理で確率Bを算定する選択点Pcの個数を削減しながら、選択点Pcについて算定された確率Bから非選択点Peの確率Bを適切に算定できることが重要である。以上の事情を考慮して、本実施形態では、K個の選択点Pcに対応する確率Bの系列Gcと、(N-K)個の非選択点Peに対応する(N-K)個の確率Bの系列Geとの間の相互情報量I(Gc;Ge)が最大化されるように、N個の候補点PbからK個の選択点Pcを選択する。
 いま、確率Bをガウス過程としてモデル化する。ガウス過程とは、任意の変数Xおよび変数Yに対して、以下の数式(1)で表現される確率過程である。なお、数式(1)の記号N(a,b)は、平均aおよび分散bの正規分布(ガウス分布)を意味する。
Figure JPOXMLDOC01-appb-M000001
 数式(1)の記号ΣX,Yは、変数Xと変数Yとの相互相関である。すなわち、相互相関ΣX,Yは、N個の候補点Pbから選択された任意の2個の候補点Pb(第X番目および第Y番目)が共起される度合を意味する。相互相関ΣX,Yは、例えば既知の楽曲について事前(具体的には本実施形態による処理前)に学習される。例えば、楽曲内の全部の候補点Pbについて前述の第2処理により確率Bを算定し、各候補点Pbの確率Bを利用した機械学習により相互相関ΣX,Yが算定されて記憶装置12に保持される。楽曲内の相関の構造が時不変であり、かつ、相異なる楽曲間で共通であると仮定すると、既知の楽曲について学習された相互相関ΣX,Yを、任意の未知の楽曲について適用することが可能である。なお、相互相関ΣX,Yを生成する方法は、以上に例示した機械学習に限定されない。例えば、特徴量Fの自己相関行列を相互相関ΣX,Yとして近似的に利用することもできる。
 各選択点Pcの確率Bの系列Gcと各非選択点Peの確率Bの系列Geとの相互情報量は、選択点Pcの個数Kが候補点Pbの個数Nに対して充分に小さい場合には、劣モジュラ性を満たす評価指標である。劣モジュラ性とは、集合に1個の要素が追加された場合における関数の増加量が、集合の拡大(要素の増加)に連動して減少する性質である。相互情報量を最大化する問題(いわゆるセンサ配置問題)はNP困難であるが、以上のように相互情報量の劣モジュラ性に着目すると、最適解に充分に近似する結果を貪欲法(greedy algorithm)により効率的に取得することが可能である。以上の知見を背景として、K個の選択点Pcに対応する系列Gcと、(N-K)個の非選択点Peに対応する系列Geとの間における相互情報量I(Gc;Ge)の最大化を以下に検討する。
 N個の候補点Pbから順次に選択された選択点Pcの集合Sを想定し(k=1~K)、K個の選択点Pcに対応する系列Gcと(N-K)個の非選択点Peに対応する系列Geとの間の相互情報量I(Gc;Ge)が最大化されるように候補点Pb(識別子n)を選択点Pcとして逐次的に集合Sに追加する。選択点PcがK個に到達した時点で集合Sが確定する。系列Gcと系列Geとの間の相互情報量I(Gc;Ge)が最大化されるように候補点Pb(識別子n)を集合Sに追加する処理は、以下の数式(2)で表現される。なお、数式(2)における記号I(Sk-1)は、N個の候補点Pbから選択された(k-1)個の選択点Pcの集合Sk-1と、集合Sk-1以外の残余の候補点Pbの集合との間の相互情報量である。
Figure JPOXMLDOC01-appb-M000002
 数式(2)内の括弧{}内は、識別子nの候補点Pbを集合Sk-1に追加する前後における相互情報量の増加量(I(Sk-1)-I(Sk-1))が最大となる識別子nを選択する演算である。したがって、数式(2)は、相互情報量の増加量を最大化する識別子nの候補点Pbを、直前の集合Sk-1に選択点Pcとして追加することで集合Sとする演算を意味する。
 数式(2)を以下の数式(3)のように表現する。
Figure JPOXMLDOC01-appb-M000003
 数式(1)および数式(2)を考慮すると、数式(3)の関数δを表現する以下の数式(4)が導出される。
Figure JPOXMLDOC01-appb-M000004
 数式(4)から理解される通り、楽曲内の任意の候補点Pbが拍点である確率Bは、数式(4)の演算に不要である。したがって、確率Bを算定する第2処理の実行前に、数式(3)および数式(4)を利用して、N個の候補点PbからK個の選択点Pcを選択することが可能である。
 図4は、制御装置11が楽曲内の拍点を推定する処理(楽曲解析方法)の内容を例示するフローチャートである。例えば利用者からの指示を契機として図4の処理が開始される。
 まず、第1処理部21は、音響信号Aについて第1処理を実行することで、楽曲内の拍点の候補となる複数の暫定点Paを推定する(S1)。候補点選択部22は、第1処理で推定された複数の暫定点Paと複数の分割点Pdとを含むN個の候補点PbからK個の選択点Pcを選択する(S2)。具体的には、候補点選択部22は、数式(3)の演算を反復することでK個の選択点Pc(集合S)を選択する。すなわち、K個の選択点Pcの集合Sと(N-K)個の非選択点Peの集合との間における相互情報量(劣モジュラ性の評価指標の例示)が最大化されるように、候補点選択部22はN個の候補点PbからK個の選択点Pcを選択する。
 第2処理部23は、候補点選択部22が選択したK個の選択点Pcの各々について、非再帰型のニューラルネットワーク30を利用した第2処理により確率Bを算定する(S3)。具体的には、第2処理部23は、音響信号Aの解析により各選択点Pcの特徴量Fを算定し、特徴量Fをニューラルネットワーク30に付与することで当該選択点Pcの確率Bを算定する。
 推定処理部24は、第2処理部23による第2処理の結果(各選択点Pcが拍点である確率B)から楽曲内の拍点を推定する(S4)。具体的には、推定処理部24が楽曲内の複数の拍点を推定する処理は、複数の非選択点Peの各々について確率Bを算定する処理(S41)と、N個の候補点Pbについて算定された確率Bから拍点を推定する処理(S42)とを含む。各処理の具体例を以下に詳述する。
 まず、推定処理部24は、第2処理部23が第2処理により各選択点Pcについて算定した確率Bから、候補点選択部22が選択しなかった(N-K)個の非選択点Peの各々について確率Bを算定する(S41)。具体的には、推定処理部24は、各非選択点Peの確率Bに関する確率分布を算定する。非選択点Peの確率Bの確率分布は、以下の数式(5)で表現される期待値E(B)と数式(6)で表現される分散V(B)とで規定される。
Figure JPOXMLDOC01-appb-M000005
 推定処理部24は、各候補点Pbの確率Bに応じてN個の候補点Pbの一部を楽曲内の拍点として選択する。具体的には、推定処理部24は、確率Bの総和が最大となる複数の候補点Pbの時系列を、楽曲内の複数の拍点として推定する。
 前述の通り、N個の候補点Pbは、第1処理部21が推定した複数の暫定点Paと、各暫定点の間隔をΔn個に区分する複数の分割点Pdとで構成される。したがって、N個の候補点Pbのうち第Λ番目の1個の候補点(以下「特定候補点」という)Pbが拍点に該当することを推定できたと仮定すると、特定候補点Pb以降において拍点と推定される候補点Pbの識別子nは、以下の数式(7)で表現される。数式(7)の記号mは非負の整数(m=0,1,2,…)である。例えば拍周期が4等分される場合(Δn=4)を想定すると、N個の候補点Pbのうち、第Λ番目(特定候補点Pb),第(Λ+4)番目,第(Λ+8)番目,第(Λ+12)番目,…の各候補点Pbが楽曲内の拍点に該当する。
Figure JPOXMLDOC01-appb-M000006
 特定候補点Pbの識別子Λは、以下の数式(8)で表現される通り、確度指標R(λ)を最大化する変数λに設定される。
Figure JPOXMLDOC01-appb-M000007
 数式(8)の確度指標R(λ)は、以下の数式(9)で表現される。
Figure JPOXMLDOC01-appb-M000008
 数式(9)から理解される通り、確度指標R(λ)は、第λ番目の候補点Pbから拍周期毎に存在する複数の候補点Pbについて確率Bを総和した数値である。以上の説明から理解される通り、確度指標R(λ)は、第λ番目の候補点Pbから拍周期毎に存在する複数の候補点Pbの時系列が、楽曲内の拍点に該当する確度の指標である。すなわち、確度指標R(λ)が大きいほど、第λ番目の候補点Pbから拍周期毎に存在する複数の候補点Pbが楽曲の拍点に該当する可能性が高い。
 推定処理部24は、数式(9)の確度指標R(λ)を複数の候補点Pbの各々について算定し、確度指標R(λ)が最大となる変数λを特定候補点Pbの識別子Λとして選択する(数式(8))。そして、数式(7)の通り、N個の候補点Pbのうち第Λ番目の特定候補点Pbと、当該特定候補点Pbから拍周期毎に存在する候補点Pbとを、楽曲内の拍点として推定する。
 以上に説明した通り、本実施形態では、第1処理により推定された複数の暫定点Paを含むN個の候補点PbからK個の選択点Pcが選択され、K個の選択点Pcの各々について第2処理により算定された確率Bに応じて楽曲内の複数の拍点が推定される。したがって、楽曲内の全区間にわたり第2処理を実行する構成と比較して、第2処理の演算量を削減しながら楽曲内の拍点を高精度に推定することが可能である。
 本実施形態では特に、第1処理は第2処理と比較して演算量が少ないから、楽曲の全体にわたり第2処理を実行する構成と比較して、楽曲内の拍点の推定に必要な演算量が削減される。他方、第2処理は第1処理と比較して拍点の推定精度が高いから、第1処理のみで楽曲内の拍点を推定する構成と比較して拍点を高精度に推定できる。すなわち、演算量を削減しながら拍点を高精度に推定できるという効果は格別に顕著である。
 また、本実施形態では、劣モジュラ性の評価指標(具体的には相互情報量)が最大化されるようにN個の候補点PbからK個の選択点が選択される。したがって、例えば貪欲法等の手法により適切な選択点を効率的に選択できるという利点がある。
 また、本実施形態では、非選択点Peが拍点である確率Bが、選択点Pcの確率Bに応じて算定される。すなわち、楽曲内のN個の候補点Pbの各々について確率B(B~B)が算定される。以上の態様によれば、選択点Pcの確率Bに加えて非選択点Peの確率Bも加味することで、楽曲内の拍点を高精度に推定できるという利点がある。
 図5は、楽曲内の拍点の推定精度を示す図表である。図5には、N個の候補点Pbから選択される選択点Pcの個数Kを相違させた複数の場合(K=N,4,8,16,32)の各々について、複数の楽曲のうち拍点を正確に推定できなかった楽曲の比率(以下「誤推定率」という)が表記されている。図5の結果1は、音響信号Aに対する第1処理で推定された暫定点Paを拍点として確定した場合である。また、結果2(K=N)は、N個の候補点Pbの全部について第2処理により確率Bを算定したうえで拍点を推定した場合である。なお、候補点Pbの個数Nは1700個程度である。
 図5から理解される通り、N個の候補点Pbのうちの8個以上を選択点Pcとして選択することで、第1処理のみで拍点を推定する場合(結果1)と比較して高精度に拍点を推定することが可能である。また、N個の候補点Pbのうちの32個を選択点Pcとして選択した場合に、N個の候補点Pbの全部について第2処理で確率Bを算定する場合(結果2)と同等の精度(誤推定率6.1%)で拍点を推定できることが、図5から確認できる。すなわち、楽曲内の拍点の推定精度を同等に維持しながら、第2処理の対象となる選択点Pcの個数を約98%も削減する(1700個→32個)ことが可能である。
<変形例>
 以上に例示した各態様は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様は、相互に矛盾しない範囲で適宜に併合され得る。
(1)前述の形態では、楽曲内の拍点を推定したが、本発明の好適な態様により特定される楽曲内の時点は拍点に限定されない。例えば、楽曲内の小節の先頭の時点を特定する場合にも本発明を適用することができる。以上の説明から理解される通り、本発明の好適な態様は、楽曲内で音楽的な意味をもつ特定点(例えば拍点、小節の先頭など)を推定するために好適に利用される。なお、前述の形態により推定される拍点は、音楽再生または音響処理等の各種の用途に有効に利用される。
(2)前述の形態では、相互情報量を最大化する場合を例示したが、劣モジュラ性の評価指標は相互情報量に限定されない。例えばエントロピーまたは分散を、劣モジュラ性の評価指標として最大化してもよい。
(3)前述の形態では、移動体通信網またはインターネット等の通信網を介して端末装置(例えば携帯電話機またはスマートフォン)と通信するサーバ装置により楽曲解析装置100を実現することも可能である。具体的には、楽曲解析装置100は、端末装置から受信した音響信号Aに対する処理で楽曲内の複数の拍点を推定し、推定結果(例えば各拍点の位置を示すデータ)を端末装置に送信する。
(4)以上に例示した形態から、例えば以下の構成が把握される。
 本発明の好適な態様(態様1)に係る楽曲解析方法は、コンピュータ(単体のコンピュータまたは複数のコンピュータで構成されるコンピュータシステム)が、楽曲内で音楽的な意味をもつ特定点の候補となる複数の暫定点を当該楽曲の音響信号から第1処理により推定し、前記複数の暫定点と前記複数の暫定点の間隔を分割する複数の分割点とを含む複数の候補点の一部を複数の選択点として選択し、前記複数の選択点の各々について、当該選択点が特定点である確率を、前記第1処理とは異なる第2処理により算定した結果から、前記楽曲内の複数の特定点を推定する。以上の態様では、第1処理により推定された複数の暫定点を含む複数の候補点の一部が複数の選択点として選択され、複数の選択点の各々について第2処理により算定された確率に応じて楽曲内の複数の特定点が推定される。したがって、楽曲の全体にわたり第2処理を実行する構成と比較して、第2処理の演算量を削減することが可能である。
 態様1の好適例(態様2)において、前記第2処理は、当該選択点が特定点である確率を、前記音響信号の当該選択点に対応する特徴量から算定する処理である。以上の態様によれば、音響信号における各選択点に対応する特徴量から、当該選択点が特定点である確率が算定されるから、楽曲内の特定点を適切に推定することが可能である。
 態様2の好適例(態様3)において、前記第2処理は、音響信号の特徴量と選択点が特定点である確率との関係を学習した学習済モデルを利用して、前記複数の選択点の各々が前記特定点である確率を算定する処理である。以上の態様によれば、学習済モデルの機械学習に利用された教師データに潜在する特徴量と確率との間の傾向のもとで、未知の音響信号の特徴量に対して妥当な確率を特定することが可能である。
 態様1から態様3の何れかの好適例(態様4)において、前記複数の選択点の選択では、前記複数の選択点の集合と、前記複数の候補点のうち前記選択点として選択されない複数の非選択点の集合との間における劣モジュラ性の評価指標が最大化されるように、前記複数の候補点から前記複数の選択点を選択する。以上の態様では、劣モジュラ性の評価指標が最大化されるように複数の選択点が選択される。したがって、例えば貪欲法等の手法により適切な選択点を効率的に選択できるという利点がある。
 態様4の好適例(態様5)において、前記複数の非選択点の各々について、前記第2処理により前記各選択点について算定された確率に応じて、当該非選択点が特定点である確率を算定し、前記複数の特定点の推定においては、前記各選択点について算定された確率と前記各非選択点について算定された確率とに応じて前記楽曲内の複数の特定点を推定する。以上の態様では、非選択点が特定点である確率が、選択点の確率に応じて算定され、選択点と非選択点とを含む複数の暫定点の各々が特定点である確率に応じて、楽曲内の特定点が推定される。したがって、楽曲内の複数の特定点を高精度に推定できるという利点がある。
 態様1から態様5の何れかの好適例(態様6)において、前記第1処理は、前記第2処理と比較して演算量が少ない。以上の態様では、第1処理は第2処理と比較して演算量が少ないから、楽曲の全体にわたり第2処理を実行する構成と比較して、楽曲内の特定点の推定に必要な演算量が低減される。
 態様1から態様6の何れかの好適例(態様7)において、第2処理は第1処理と比較して特定点の推定精度が高い。以上の態様では、第1処理のみで楽曲内の特定点を推定する構成と比較して特定点を高精度に推定できる。態様6および態様7の双方を具備する構成によれば、演算量を削減しながら特定点を高精度に推定できるという利点がある。
 以上に例示した各態様の楽曲解析方法を実行する楽曲解析装置、または、以上に例示した各態様の楽曲解析方法をコンピュータに実行させるプログラムとしても、本発明の好適な態様は実現される。
 例えば、本発明の好適な態様に係る楽曲解析装置は、楽曲内で音楽的な意味をもつ特定点の候補となる複数の暫定点を当該楽曲の音響信号から第1処理により推定する第1処理部と、前記複数の暫定点と前記複数の暫定点の間隔を分割する複数の分割点とを含む複数の候補点の一部を複数の選択点として選択する候補点選択部と、前記第1処理とは異なる第2処理により前記複数の選択点の各々が特定点である確率を算定した結果から、前記楽曲内の複数の特定点を推定する特定点推定部とを具備する。
 また、本発明の好適な態様に係るプログラムは、楽曲内で音楽的な意味をもつ特定点の候補となる複数の暫定点を当該楽曲の音響信号から第1処理により推定する第1処理部、前記複数の暫定点と前記複数の暫定点の間隔を分割する複数の時点とを含む複数の候補点の一部を複数の選択点として選択する候補点選択部、前記複数の選択点の各々について、当該選択点が特定点である確率を、前記第1処理とは異なる第2処理により算定した結果から、前記楽曲内の複数の特定点を推定する特定点推定部としてコンピュータを機能させる。
 本発明の好適な態様に係るプログラムは、例えばコンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされる。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。なお、非一過性の記録媒体とは、一過性の伝搬信号(transitory, propagating signal)を除く任意の記録媒体を含み、揮発性の記録媒体を除外するものではない。また、通信網を介した配信の形態でプログラムをコンピュータに提供してもよい。
100…楽曲解析装置、11…制御装置、12…記憶装置、21…第1処理部、22…候補点選択部、23…第2処理部、24…推定処理部、25…特定点推定部、Pa…暫定点、Pb…候補点、Pc…選択点、Pd…分割点、Pe…非選択点。

Claims (15)

  1.  楽曲内で音楽的な意味をもつ特定点の候補となる複数の暫定点を当該楽曲の音響信号から第1処理により推定し、
     前記複数の暫定点と前記複数の暫定点の間隔を分割する複数の分割点とを含む複数の候補点の一部を複数の選択点として選択し、
     前記第1処理とは異なる第2処理により前記複数の選択点の各々が特定点である確率を算定した結果から、前記楽曲内の複数の特定点を推定する、
     コンピュータにより実現される楽曲解析方法。
  2.  前記第2処理は、前記各選択点が特定点である確率を、前記音響信号の当該選択点に対応する特徴量から算定する処理である
     請求項1の楽曲解析方法。
  3.  前記第2処理は、音響信号の特徴量と選択点が特定点である確率との関係を学習した学習済モデルを利用して、前記複数の選択点の各々が前記特定点である確率を算定する処理である
     請求項2の楽曲解析方法。
  4.  前記複数の選択点の選択においては、前記複数の選択点の集合と、前記複数の候補点のうち前記選択点として選択されない複数の非選択点の集合との間における劣モジュラ性の評価指標が最大化されるように、前記複数の候補点から前記複数の選択点を選択する
     請求項1から請求項3の何れかの楽曲解析方法。
  5.  前記複数の非選択点の各々について、前記第2処理により前記各選択点について算定された確率に応じて、当該非選択点が特定点である確率を算定し、
     前記複数の特定点の推定においては、前記各選択点について算定された確率と前記各非選択点について算定された確率とに応じて前記楽曲内の複数の特定点を推定する
     請求項4の楽曲解析方法。
  6.  前記第1処理は、前記第2処理と比較して演算量が少ない
     請求項1から請求項5の何れかの楽曲解析方法。
  7.  前記第2処理は、前記第1処理と比較して特定点の推定精度が高い
     請求項1から請求項6の何れかの楽曲解析方法。
  8.  楽曲内で音楽的な意味をもつ特定点の候補となる複数の暫定点を当該楽曲の音響信号から第1処理により推定する第1処理部と、
     前記複数の暫定点と前記複数の暫定点の間隔を分割する複数の分割点とを含む複数の候補点の一部を複数の選択点として選択する候補点選択部と、
     前記第1処理とは異なる第2処理により前記複数の選択点の各々が特定点である確率を算定した結果から、前記楽曲内の複数の特定点を推定する特定点推定部と
     を具備する楽曲解析装置。
  9.  前記第2処理は、当該選択点が特定点である確率を、前記音響信号の当該選択点に対応する特徴量から算定する処理である
     請求項8の楽曲解析装置。
  10.  前記第2処理は、音響信号の特徴量と選択点が特定点である確率との関係を学習した学習済モデルを利用して、前記複数の選択点の各々が前記特定点である確率を算定する処理である
     請求項9の楽曲解析装置。
  11.  前記候補点選択部は、前記複数の選択点の集合と、前記複数の候補点のうち前記選択点として選択されない複数の非選択点の集合との間における劣モジュラ性の評価指標が最大化されるように、前記複数の候補点から前記複数の選択点を選択する
     請求項8から請求項10の何れかの楽曲解析装置。
  12.  前記特定点推定部は、
     前記複数の非選択点の各々について、前記第2処理により前記各選択点について算定された確率に応じて、当該非選択点が特定点である確率を算定し、
     前記各選択点について算定された確率と前記各非選択点について算定された確率とに応じて前記楽曲内の複数の特定点を推定する
     請求項11の楽曲解析装置。
  13.  前記第1処理は、前記第2処理と比較して演算量が少ない
     請求項8から請求項12の何れかの楽曲解析装置。
  14.  前記第2処理は、前記第1処理と比較して特定点の推定精度が高い
     請求項8から請求項13の何れかの楽曲解析装置。
  15.  楽曲内で音楽的な意味をもつ特定点の候補となる複数の暫定点を当該楽曲の音響信号から第1処理により推定する第1処理部、
     前記複数の暫定点と前記複数の暫定点の間隔を分割する複数の時点とを含む複数の候補点の一部を複数の選択点として選択する候補点選択部、および、
     前記複数の選択点の各々について、当該選択点が特定点である確率を、前記第1処理とは異なる第2処理により算定した結果から、前記楽曲内の複数の特定点を推定する特定点推定部
     としてコンピュータを機能させるプログラム。
PCT/JP2018/026002 2017-07-19 2018-07-10 楽曲解析方法、楽曲解析装置およびプログラム WO2019017242A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/743,909 US11328699B2 (en) 2017-07-19 2020-01-15 Musical analysis method, music analysis device, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017-140368 2017-07-19
JP2017140368A JP6729515B2 (ja) 2017-07-19 2017-07-19 楽曲解析方法、楽曲解析装置およびプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US16/743,909 Continuation US11328699B2 (en) 2017-07-19 2020-01-15 Musical analysis method, music analysis device, and program

Publications (1)

Publication Number Publication Date
WO2019017242A1 true WO2019017242A1 (ja) 2019-01-24

Family

ID=65015942

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/026002 WO2019017242A1 (ja) 2017-07-19 2018-07-10 楽曲解析方法、楽曲解析装置およびプログラム

Country Status (3)

Country Link
US (1) US11328699B2 (ja)
JP (1) JP6729515B2 (ja)
WO (1) WO2019017242A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11749240B2 (en) * 2018-05-24 2023-09-05 Roland Corporation Beat timing generation device and method thereof
US11024288B2 (en) * 2018-09-04 2021-06-01 Gracenote, Inc. Methods and apparatus to segment audio and determine audio segment similarities
JP7318253B2 (ja) 2019-03-22 2023-08-01 ヤマハ株式会社 楽曲解析方法、楽曲解析装置およびプログラム
WO2022181477A1 (ja) * 2021-02-25 2022-09-01 ヤマハ株式会社 音響解析方法、音響解析システムおよびプログラム

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010122629A (ja) * 2008-11-21 2010-06-03 Sony Corp 情報処理装置、音声解析方法、及びプログラム
JP2014178394A (ja) * 2013-03-14 2014-09-25 Yamaha Corp 音響信号分析装置及び音響信号分析プログラム
JP2014178395A (ja) * 2013-03-14 2014-09-25 Yamaha Corp 音響信号分析装置及び音響信号分析プログラム
US20140358265A1 (en) * 2013-05-31 2014-12-04 Dolby Laboratories Licensing Corporation Audio Processing Method and Audio Processing Apparatus, and Training Method
JP2015079151A (ja) * 2013-10-17 2015-04-23 パイオニア株式会社 楽曲判別装置、楽曲判別装置の判別方法、プログラム
JP2015114361A (ja) * 2013-12-09 2015-06-22 ヤマハ株式会社 音響信号分析装置及び音響信号分析プログラム
JP2015114360A (ja) * 2013-12-09 2015-06-22 ヤマハ株式会社 音響信号分析装置、音響信号分析方法、及び音響信号分析プログラム
JP2015200803A (ja) * 2014-04-09 2015-11-12 ヤマハ株式会社 音響信号分析装置及び音響信号分析プログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4940588B2 (ja) 2005-07-27 2012-05-30 ソニー株式会社 ビート抽出装置および方法、音楽同期画像表示装置および方法、テンポ値検出装置および方法、リズムトラッキング装置および方法、音楽同期表示装置および方法
US8478012B2 (en) * 2009-09-14 2013-07-02 General Electric Company Methods, apparatus and articles of manufacture to process cardiac images to detect heart motion abnormalities
US20160086086A1 (en) * 2014-09-18 2016-03-24 Victor Ferdinand Gabillon Multi-media content-recommender system that learns how to elicit user preferences
WO2017178598A1 (en) * 2016-04-13 2017-10-19 Universität Hamburg Cluster analysis based on tangles in abstract separations systems
US10713703B2 (en) * 2016-11-30 2020-07-14 Apple Inc. Diversity in media item recommendations
CN106875406B (zh) * 2017-01-24 2020-04-14 北京航空航天大学 图像引导的视频语义对象分割方法及装置
US11055317B2 (en) * 2017-06-01 2021-07-06 Adobe Inc. Methods and systems for determining and outputting correlations between metrics in a web analytic dataset

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010122629A (ja) * 2008-11-21 2010-06-03 Sony Corp 情報処理装置、音声解析方法、及びプログラム
JP2014178394A (ja) * 2013-03-14 2014-09-25 Yamaha Corp 音響信号分析装置及び音響信号分析プログラム
JP2014178395A (ja) * 2013-03-14 2014-09-25 Yamaha Corp 音響信号分析装置及び音響信号分析プログラム
US20140358265A1 (en) * 2013-05-31 2014-12-04 Dolby Laboratories Licensing Corporation Audio Processing Method and Audio Processing Apparatus, and Training Method
JP2015079151A (ja) * 2013-10-17 2015-04-23 パイオニア株式会社 楽曲判別装置、楽曲判別装置の判別方法、プログラム
JP2015114361A (ja) * 2013-12-09 2015-06-22 ヤマハ株式会社 音響信号分析装置及び音響信号分析プログラム
JP2015114360A (ja) * 2013-12-09 2015-06-22 ヤマハ株式会社 音響信号分析装置、音響信号分析方法、及び音響信号分析プログラム
JP2015200803A (ja) * 2014-04-09 2015-11-12 ヤマハ株式会社 音響信号分析装置及び音響信号分析プログラム

Also Published As

Publication number Publication date
US11328699B2 (en) 2022-05-10
JP6729515B2 (ja) 2020-07-22
JP2019020631A (ja) 2019-02-07
US20200152162A1 (en) 2020-05-14

Similar Documents

Publication Publication Date Title
WO2019017242A1 (ja) 楽曲解析方法、楽曲解析装置およびプログラム
JP6017687B2 (ja) オーディオ信号分析
CN111680187B (zh) 乐谱跟随路径的确定方法、装置、电子设备及存储介质
Stark et al. Real-time beat-synchronous analysis of musical audio
JP2013047938A (ja) 楽曲解析装置
US20100300271A1 (en) Detecting Beat Information Using a Diverse Set of Correlations
US10586519B2 (en) Chord estimation method and chord estimation apparatus
CN113223485B (zh) 节拍检测模型的训练方法、节拍检测方法及装置
CN108028051A (zh) 评估装置和记录介质
CN104143339B (zh) 音乐信号处理设备和方法
JP6392450B2 (ja) マッチング装置、判定装置、これらの方法、プログラム及び記録媒体
CN107210029B (zh) 用于处理一连串信号以进行复调音符辨识的方法和装置
JP2017090848A (ja) 楽曲解析装置および楽曲解析方法
CN104143340B (zh) 一种音频测评方法及装置
CN111785237B (zh) 音频节奏确定方法、装置、存储介质和电子设备
CN111462775B (zh) 音频相似度确定方法、装置、服务器及介质
US11837205B2 (en) Musical analysis method and music analysis device
CN106663110B (zh) 音频序列对准的概率评分的导出
JP2019028107A (ja) 演奏解析方法およびプログラム
Shiu et al. Robust on-line beat tracking with kalman filtering and probabilistic data association (kf-pda)
JP7243147B2 (ja) コード推定方法、コード推定装置およびプログラム
EP4270373A1 (en) Method for identifying a song
Cantri et al. Cumulative Scores Based for Real-Time Music Beat Detection System
JP5262875B2 (ja) 追従性評価システム,カラオケシステムおよびプログラム
JP2015040970A (ja) 小節間隔推定およびその推定のための特徴量抽出を行う装置、方法、およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18834557

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18834557

Country of ref document: EP

Kind code of ref document: A1