WO2022038958A1 - 楽曲構造解析装置および楽曲構造解析方法 - Google Patents

楽曲構造解析装置および楽曲構造解析方法 Download PDF

Info

Publication number
WO2022038958A1
WO2022038958A1 PCT/JP2021/027379 JP2021027379W WO2022038958A1 WO 2022038958 A1 WO2022038958 A1 WO 2022038958A1 JP 2021027379 W JP2021027379 W JP 2021027379W WO 2022038958 A1 WO2022038958 A1 WO 2022038958A1
Authority
WO
WIPO (PCT)
Prior art keywords
music
boundary
likelihood
unit
acoustic signal
Prior art date
Application number
PCT/JP2021/027379
Other languages
English (en)
French (fr)
Inventor
康平 須見
Original Assignee
ヤマハ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤマハ株式会社 filed Critical ヤマハ株式会社
Priority to CN202180056193.0A priority Critical patent/CN116034421A/zh
Publication of WO2022038958A1 publication Critical patent/WO2022038958A1/ja
Priority to US18/164,575 priority patent/US20230186877A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10GREPRESENTATION OF MUSIC; RECORDING MUSIC IN NOTATION FORM; ACCESSORIES FOR MUSIC OR MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR, e.g. SUPPORTS
    • G10G1/00Means for the representation of music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/036Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal of musical genre, i.e. analysing the style of musical pieces, usually for selection, filtering or classification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/051Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or detection of onsets of musical sounds or notes, i.e. note attack timings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/056Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or identification of individual instrumental parts, e.g. melody, chords, bass; Identification or separation of instrumental parts by their characteristic voices or timbres
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/061Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of musical phrases, isolation of musically relevant segments, e.g. musical thumbnail generation, or for temporal structure analysis of a musical piece, e.g. determination of the movement sequence of a musical work
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/066Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/081Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for automatic key or tonality recognition, e.g. using musical rules or a knowledge base
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/571Chords; Chord sequences
    • G10H2210/576Chord progression
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/135Autocorrelation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation

Definitions

  • the present disclosure relates to a music structure analysis device and a music structure analysis method for analyzing the structure of a music.
  • Patent Document 1 describes a method of determining a highlight section of a sound source by using a neural network that learns the relationship between a plurality of sound sources and the classification information of each sound source.
  • the sound source is divided into a plurality of sections by the neural network processing unit, and the feature values for each section are extracted for each section. Further, by using the attention model that calculates the weighted value sum of the feature values for each section in the neural network processing unit, the weighted value information indicating the degree to which each section contributes to the estimation of the classification information of the sound source is acquired. An important section is determined by the weighted value information for each section of the sound source, and a highlight section is determined based on the determined important section. Special Table 2020-516004 Japanese Unexamined Patent Publication No. 2020-112683
  • An object of the present disclosure is to provide a music structure analysis device and a music structure analysis method that facilitate analysis of the structure of a music.
  • the music structure analysis device includes an acquisition unit that acquires the acoustic signal of the music, and a first extraction unit that extracts a first feature amount indicating a change in tone color from the acquired acoustic signal of the music.
  • a first extraction unit that extracts the second feature amount indicating the change of the chord from the acquired acoustic signal of the music piece and the first learning model, the likelihood of the composition boundary of the music piece from the first feature amount.
  • the first boundary likelihood output unit that outputs the first boundary likelihood indicating the degree and the second learning model, the second boundary that indicates the likelihood of the composition boundary of the music from the second feature quantity.
  • the second boundary likelihood output unit that outputs the likelihood, the specific unit that specifies the constituent boundary of the music by weighting and synthesizing the first boundary likelihood and the second boundary likelihood, and the sound of the music. It includes a dividing section that divides the signal into a plurality of sections at a specified configuration boundary.
  • a music structure analysis device resembles an acquisition unit that acquires an acoustic signal of a musical piece, a division unit that divides the acquired acoustic signal of the music into a plurality of sections, and a plurality of divided sections. It includes a classification unit that classifies into clusters based on the degree, and an estimation unit that estimates a section corresponding to a specific composition type part of the music from a plurality of divided sections based on the classification result of the section.
  • the music structure analysis device includes an acquisition unit that acquires an acoustic signal of a music divided into a plurality of sections, and a classification unit that classifies the divided sections into clusters based on the degree of similarity. And an estimation unit that estimates the section corresponding to the chorus of the music from a plurality of sections based on the number of sections belonging to the classified cluster.
  • the acquisition unit for acquiring the acoustic signal of the music divided into a plurality of sections and the key of the head code or the end code in the section of the sound signal of the acquired music are used.
  • FIG. 1 is a block diagram showing a configuration of a music structure analysis system including a music structure analysis device according to an embodiment of the present disclosure.
  • FIG. 2 is a block diagram showing the configuration of the music structure analysis device.
  • FIG. 3 is a block diagram showing an example of the first and second learning models.
  • FIG. 4 is a diagram showing a display example of the display unit by the division result output unit.
  • FIG. 5 is a diagram for explaining the determination of the degree of similarity by the maximum value search method.
  • FIG. 6 is a diagram showing a display example of the display unit by the classification result output unit.
  • FIG. 7 is a block diagram showing an example of the third learning model.
  • FIG. 8 is a flowchart showing an example of the music structure analysis process by the music structure analysis device of FIG. FIG.
  • FIG. 9 is a flowchart showing an example of the music structure analysis process by the music structure analysis device of FIG.
  • FIG. 10 is a diagram showing the evaluation results of Example 1 and Comparative Examples 1 and 2.
  • FIG. 11 is a diagram showing the evaluation results of Example 2 and Comparative Examples 3 and 4.
  • FIG. 12 is a diagram showing the evaluation results of Example 3 and Comparative Examples 5 and 6.
  • FIG. 13 is a diagram showing the evaluation results of Examples 4 to 7.
  • FIG. 1 is a block diagram showing a configuration of a music structure analysis system including a music structure analysis device according to an embodiment of the present disclosure.
  • the music structure analysis system 1 includes a RAM (random access memory) 2, a ROM (read-only memory) 3, a CPU (central processing unit) 4, a storage device 5, an operation unit 6, and a display unit 7. To prepare for.
  • the RAM 2, ROM 3, CPU 4, storage device 5, operation unit 6, and display unit 7 are connected to the bus 8.
  • the RAM 2 is composed of, for example, a volatile memory, is used as a work area of the CPU 4, and temporarily stores various data.
  • the ROM 3 is composed of, for example, a non-volatile memory, and stores a music structure analysis program for executing a music structure analysis process.
  • the CPU 4 performs the music structure analysis process by executing the music structure analysis program stored in the ROM 3 on the RAM 2. The details of the music structure analysis process will be described later.
  • the storage device 5 includes a storage medium such as a hard disk, an optical disk, a magnetic disk, or a memory card, and stores one or a plurality of music data MDs.
  • the music data MD includes an acoustic signal (audio signal) of the music.
  • the storage device 5 may store the music structure analysis program instead of the ROM 3. Further, the storage device 5 stores the first learning model M1, the second learning model M2, and the third learning model M3 created in advance by machine learning.
  • the music structure analysis program is provided in a form stored in a recording medium readable by a computer, and may be installed in the ROM 3 or the storage device 5.
  • the music structure analysis program distributed from the server connected to the communication network may be installed in the ROM 3 or the storage device 5.
  • the music structure analysis device 100 is configured by the RAM 2, the ROM 3, and the CPU 4.
  • the operation unit 6 includes a pointing device such as a mouse or a keyboard, and is operated by the user to make a predetermined selection or designation.
  • the display unit 7 includes, for example, a liquid crystal display, and displays the result of the music structure analysis process.
  • the operation unit 6 and the display unit 7 may be configured by a touch panel display.
  • FIG. 2 is a block diagram showing the configuration of the music structure analysis device 100.
  • the music structure analysis device 100 includes a section division unit 10, a section classification unit 20, and a configuration type estimation unit 30.
  • the functions of the section division unit 10, the section classification unit 20, and the configuration type estimation unit 30 are realized by the CPU 4 of FIG. 1 executing the music structure analysis program.
  • a part or all of the section division unit 10, the section classification unit 20, and the configuration type estimation unit 30 may be realized by hardware such as an electronic circuit.
  • the section dividing unit 10 specifies a constituent boundary of the acoustic signal of the music, and divides the acoustic signal into a plurality of sections at the specified constituent boundary.
  • the section classification unit 20 classifies the sections divided into a plurality of sections by the section division unit 10 into clusters based on the degree of similarity. Hereinafter, classifying sections into clusters is referred to as clustering.
  • the composition type estimation unit 30 estimates a section corresponding to a specific composition type portion of the music from the sections clustered by the section classification unit 20.
  • the details of the section division unit 10, the section classification unit 20, and the configuration type estimation unit 30 will be described.
  • the section division unit 10 includes an acquisition unit 11, a first extraction unit 12, a second extraction unit 13, a first boundary likelihood output unit 14, and a second. It includes a boundary likelihood output unit 15, a specific unit 16, a reception unit 17, a division unit 18, and a division result output unit 19.
  • the acquisition unit 11 acquires the music data MD selected by the user from the music data MD stored in the storage device 5. The user can select a desired music data MD by operating the operation unit 6.
  • the first extraction unit 12 extracts a first feature amount indicating a change in timbre from the acoustic signal of the music data MD acquired by the acquisition unit 11.
  • the first feature quantity is, for example, a Mel-Scale Log-Spectrum (MSLS).
  • MSLS Mel-Scale Log-Spectrum
  • a complex spectrum is obtained by performing a discrete Fourier transform on the acoustic signal for each beat.
  • the MSLS is extracted by calculating the logarithm of the filter bank energy obtained by applying the Melscale filter bank to the absolute value of the complex spectrum.
  • MSLS is an 80-dimensional vector.
  • the second extraction unit 13 extracts a second feature amount indicating a change in the code from the acoustic signal of the music data MD acquired by the acquisition unit 11.
  • the second feature quantity is, for example, a chroma vector.
  • 12 values obtained by adding the intensity of the frequency component corresponding to each 12 semitones of equal temperament contained in the acoustic signal for each beat over a plurality of octaves, and the value of the intensity of the acoustic signal.
  • the chroma vector is a 26-dimensional vector.
  • the first boundary likelihood output unit 14 inputs the first feature amount extracted by the first extraction unit 12 into the first learning model M1 stored in the storage device 5, thereby forming a music composition boundary.
  • the first boundary likelihood indicating the likelihood of is output for each beat.
  • the second boundary likelihood output unit 15 inputs the second feature amount extracted by the second extraction unit 13 into the second learning model M2 stored in the storage device 5, so that the likelihood of the music is The second boundary likelihood indicating is output for each beat.
  • the specific unit 16 specifies the constituent boundaries of the music by weighting and synthesizing the first and second boundary likelihood output by the first and second boundary likelihood output units 14 and 15, respectively, for each beat. .. In this example, it is specified that the beat in which the weighted combined value is equal to or higher than a predetermined threshold value is the constituent boundary of the music.
  • the weighting coefficient may be a predetermined constant value or a variable value.
  • the reception unit 17 receives the designation of the weighting coefficient from the operation unit 6.
  • the user can specify the weighting coefficient by operating the operation unit 6.
  • the section dividing unit 10 may not include the receiving unit 17.
  • the specific unit 16 weights and synthesizes the first boundary likelihood and the second boundary likelihood based on the accepted weighting coefficient.
  • the division unit 18 divides the acoustic signal of the music into a plurality of sections at the configuration boundary specified by the specific unit 16. Further, the division unit 18 gives an acoustic signal divided into a plurality of sections to the section classification unit 20.
  • the division result output unit 19 causes the display unit 7 to visually display the division result of the section by the division unit 18. When the section division result does not have to be displayed on the display unit 7, the section division unit 10 may not include the division result output unit 19.
  • FIG. 3 is a block diagram showing an example of the first and second learning models M1 and M2.
  • the CNN Convolutional Neural Network
  • the linear layer M12 the linear layer M12
  • the bidirectional GRU Gate Recurrent Unit
  • the linear layer M14 is arranged in this order from the input to the output.
  • the linear layer M21, the bidirectional GRU layer M22, and the linear layer M23 are arranged in this order from the input to the output.
  • a large number of learning music data with labels indicating the composition boundaries of the music are prepared in advance as learning data.
  • the label "1" is assigned to the portion corresponding to the beat which is the constituent boundary
  • the label "0" is assigned to the portion corresponding to the beat which is not the constituent boundary.
  • Deep learning is performed using the first feature quantity extracted from a large number of training data, so that the first learning model M1 for outputting the first boundary likelihood is created.
  • deep learning is performed using the second feature amount extracted from a large number of training data, so that a second learning model M2 for outputting the second boundary likelihood is created.
  • FIG. 4 is a diagram showing a display example of the display unit 7 by the division result output unit 19.
  • the division result of the section by the division unit 18 is displayed on the display unit 7 by the division result output unit 19.
  • the music data MD is indicated by a band-shaped index extending in the time axis direction (left-right direction in this example).
  • the waveform of the acoustic signal to be analyzed is shown above the index of the music data MD.
  • the waveform of the acoustic signal may be displayed below the index or may be displayed so as to overlap the index.
  • the waveform of the acoustic signal may be displayed in other embodiments capable of presenting a relevance to the index.
  • the music data MD is divided into a plurality of sections s1 to s12 at the configuration boundary specified by the specific unit 16. Each section s1 to s12 is indicated by a rectangular index with a unique color. The user can easily recognize the composition boundary of the music by visually recognizing the display unit 7.
  • the section classification unit 20 includes an acquisition unit 21, a determination unit 22, a classification unit 23, and a classification result output unit 24.
  • the acquisition unit 21 acquires the acoustic signal of the music divided into a plurality of sections from the section division unit 10.
  • the determination unit 22 determines the similarity of a plurality of divided sections of the acoustic signal acquired by the acquisition unit 21.
  • the Euclidean distances of the first features in the plurality of sections are compared, and the cosine similarity of the second features in the plurality of sections is compared.
  • the editing distances (Levenshtein distance) of the chord labels in the plurality of sections are compared.
  • the chord label may be attached to the music data MD by chord analysis. Based on the overall result of these comparisons, the similarity of multiple sections is determined.
  • the classification unit 23 clusters a plurality of sections based on the similarity determined by the determination unit 22. Further, the classification unit 23 gives a clustered acoustic signal to the configuration type estimation unit 30.
  • the classification result output unit 24 visually displays the result of clustering by the classification unit 23 on the display unit 7. When the clustering result does not have to be displayed on the display unit 7, the section classification unit 20 may not include the classification result output unit 24.
  • FIG. 5 is a diagram for explaining the determination of the degree of similarity by the maximum value search method.
  • the degree of similarity between the section s1 and the section s2 is determined.
  • section s2 is longer than section s1.
  • the similarity between the section s1 and each portion having the same size as the section s1 in the section s2 is sequentially evaluated.
  • the degree of similarity between the section s1 and the section A of the section s2 is the largest. In this case, it is determined that the degree of similarity between the section s1 and the section A of the section s2 is the degree of similarity between the section s1 and the section s2. According to this determination method, even if there is an error in specifying the composition boundary of the music by the section dividing portion 10, the influence can be mitigated. Further, if the difference in length between the two sections to be compared is greater than or equal to a predetermined value, a penalty for reducing the similarity may be introduced. This allows similar sections to be more appropriately clustered.
  • the comparison of a plurality of sections is performed using the maximum value search method, but the embodiment is not limited to this.
  • a comparison of a plurality of sections may be performed using a dynamic programming method such as a dynamic time warping (DTW) method.
  • DTW dynamic time warping
  • FIG. 6 is a diagram showing a display example of the display unit 7 by the classification result output unit 24.
  • the result of clustering by the classification unit 23 is displayed on the display unit 7 by the classification result output unit 24.
  • a unique identifier consisting of an alphabet and a number such as “A0” or “B0” is assigned to each section s1 to s12.
  • the alphabets of the identifiers of the sections belonging to the same cluster, such as "B0" and "B1", are the same.
  • the user can easily recognize the sections belonging to the same cluster by visually recognizing the alphabet of the identifier.
  • the user can easily recognize the size of the number of sections belonging to the same cluster by visually recognizing the number following the alphabet.
  • the configuration type estimation unit 30 includes an acquisition unit 31, a calculation unit 32, an estimation unit 33, and an estimation result output unit 34.
  • the acquisition unit 31 acquires the clustered acoustic signal from the section classification unit 20.
  • the calculation unit 32 calculates a score S indicating the likelihood of a specific configuration type portion for each cluster based on the acoustic signal acquired by the acquisition unit 31.
  • the estimation unit 33 estimates a section corresponding to a specific configuration type portion from a plurality of sections based on the score S calculated by the calculation unit 32.
  • the specific configuration type is the first chorus (hereinafter referred to as the first chorus).
  • the estimation result output unit 34 causes the display unit 7 to visually display the estimation result of the section by the estimation unit 33.
  • the configuration type estimation unit 30 may not include the estimation result output unit 34.
  • a score S indicating the likelihood of rust as a specific configuration type is calculated for each cluster.
  • the chorus of popular music has the following characteristics. Climax often occurs, and the power of the acoustic signal is relatively large.
  • rust often occurs repeatedly and appears multiple times in a song.
  • the start or end code is often a key tonic code.
  • singing voices (vocals) are often included in singing songs.
  • the score S indicating the likelihood of rust is expressed by the following equation (1).
  • Sp is a score indicating the magnitude of the power of the acoustic signal, and is acquired as, for example, the median value of the first feature amount integrated and normalized for each beat.
  • Sc is a score indicating the similarity of the key of the head code or the end code to the tonic code, and is represented by, for example, the following equation (2).
  • is a coefficient determined based on the number of sections belonging to the same cluster, that is, the number of repetitions of similar sections. The value of the coefficient ⁇ increases as the number of sections increases.
  • S c1 and S c2 are scores indicating the similarity of the key of the head code and the end code to the tonic code, respectively. Note that min (S c1 and S c2 ) means the smaller of the scores S c1 and Sc2 .
  • Each score S c1 and S c2 is calculated based on the basic space of TPS (Tonal Pitch Space).
  • the values of the respective scores S c1 and S c2 are 0 to 8.5, and the larger the similarity, the smaller the value. Therefore, when the start code or the end code matches the key tonic code, the value of the score S c1 or the score S c2 becomes 0.
  • the key may be detected using a learning model created by learning the relationship between the time series of a predetermined feature amount of an acoustic signal and the key, as disclosed in Patent Document 2.
  • Sv is an average value for each beat of the likelihood that the music contains vocals (hereinafter, referred to as vocal likelihood).
  • the vocal likelihood is acquired, for example, by inputting the first feature amount into the third learning model M3 stored in the storage device 5.
  • W p , W c , and W v are weighting coefficients for the scores Sp , Sc , and S v , respectively.
  • P d is a penalty for reducing the score when the section is extremely short. The value of the penalty P d is negative when the section length is less than the predetermined value, and 0 when the section length is longer than the predetermined value.
  • FIG. 7 is a block diagram showing an example of the third learning model M3. As shown in FIG. 7, in this example, in the third learning model M3, the CNN layer M31, the linear layer M32, the bidirectional GRU layer M33, and the linear layer M34 are arranged in this order from the input to the output. To.
  • a large number of learning music data with a label indicating the presence or absence of vocals are prepared in advance as learning data.
  • the label "1" is assigned to the portion corresponding to the beat including the vocal
  • the label "0" is assigned to the portion corresponding to the beat not including the vocal.
  • the estimation unit 33 selects a cluster corresponding to rust based on the above score S. Further, the estimation unit 33 estimates that the first section including the vocal among the sections belonging to the selected cluster is the section corresponding to the first chorus, based on the vocal likelihood.
  • FIGS. 8 and 9 are flowcharts showing an example of music structure analysis processing by the music structure analysis device 100 of FIG.
  • the music structure analysis process of FIGS. 8 and 9 is performed by the CPU 4 of FIG. 1 executing a music structure analysis program stored in the ROM 3 or the storage device 5.
  • the acquisition unit 11 determines whether or not the music data MD has been selected based on the operation of the operation unit 6 by the user (step S1). If the music data MD is not selected, the acquisition unit 11 waits until the music data MD is selected. When the music data MD is selected, the acquisition unit 11 acquires the selected music data MD from the storage device 5 (step S2).
  • the first extraction unit 12 extracts the first feature amount from the acoustic signal of the music data MD acquired in step S2 (step S3).
  • the second extraction unit 13 extracts the second feature amount from the acoustic signal of the music data MD acquired in step S2 (step S4). Either step S3 or step S4 may be executed first, or may be executed at the same time.
  • the first boundary likelihood output unit 14 sets the first boundary likelihood beat by beat based on the first feature amount extracted in step S3 and the first learning model M1 stored in the storage device 5. Is output to (step S5).
  • the second boundary likelihood output unit 15 sets the second boundary likelihood beat by beat based on the second feature amount extracted in step S4 and the second learning model M2 stored in the storage device 5. Is output to (step S6). Either step S5 or step S6 may be executed first, or may be executed at the same time.
  • the reception unit 17 determines whether or not the designation of the weighting coefficient has been accepted based on the operation of the operation unit 6 by the user (step S7).
  • the specific unit 16 composes the music based on the first and second boundary likelihoods output in steps S5 and S6 for each beat and the designated weighting coefficient.
  • the boundary is specified (step S8).
  • the specific unit 16 determines the music based on the first and second boundary likelihoods output in steps S5 and S6 for each beat and the preset weighting coefficient.
  • the configuration boundary is specified (step S9).
  • the division unit 18 divides the acoustic signal of the music into a plurality of sections at the configuration boundary specified in step S8 or step S9 (step S10).
  • the division result output unit 19 causes the display unit 7 to display the division result of the section in step S10 (step S11). Step S11 may be omitted.
  • the determination unit 22 determines the similarity of the plurality of sections divided in step S10 (step S12).
  • the classification unit 23 clusters a plurality of sections divided in step S10 based on the similarity determined in step S12 (step S13).
  • the classification result output unit 24 causes the display unit 7 to display the result of clustering in step S13 (step S14). Step S14 may be omitted.
  • the calculation unit 32 calculates a score S indicating the likelihood of a specific configuration type for each cluster based on the acoustic signal in which a plurality of sections are classified into clusters in step S13 (step S15).
  • the estimation unit 33 estimates a section corresponding to a specific configuration type portion from a plurality of sections based on the score S calculated in step S15 (step S16).
  • the estimation result output unit 34 causes the display unit 7 to display the estimation result of the section in step S16 (step S17), and ends the music structure analysis process. Step S17 may be omitted.
  • the acquisition unit 11 for acquiring the acoustic signal of the music and the change in tone color from the acquired acoustic signal of the music.
  • the second boundary likelihood output unit 15 that outputs the second boundary likelihood indicating the likelihood of the constituent boundary of the music from the second feature amount, the first boundary likelihood and the second boundary likelihood.
  • a specific unit 16 for specifying the composition boundary of the music and a division unit 18 for dividing the acoustic signal of the music into a plurality of sections at the specified composition boundary are provided. This makes it possible to easily analyze the structure of the music.
  • the music structure analysis device 100 may further include an estimation unit 33 that estimates a section corresponding to the chorus of the music from a plurality of divided sections. In this case, the user can easily recognize the section corresponding to the chorus of the music.
  • the music structure analysis device 100 further includes a reception unit 17 that accepts the designation of the weighting coefficient, and the specific unit 16 weights the first boundary likelihood and the second boundary likelihood based on the accepted weighting coefficient. It may be synthesized. In this case, the weighting coefficient can be appropriately changed according to the music.
  • the music structure analysis device 100 includes a classification unit 23 that classifies the divided plurality of sections into clusters based on the degree of similarity, and the estimation unit 33 includes the divided plurality of sections based on the section classification results.
  • the section corresponding to the part of a specific composition type of the music may be estimated from. In this case, the user can easily recognize the section corresponding to the part of a specific composition type of the music.
  • the music structure analysis device 100 may further include a classification result output unit 24 that visually outputs the section classification results. In this case, the user can more easily recognize the classification result of the section.
  • the music structure analysis device 100 includes a classification unit 23 that classifies a plurality of divided sections into clusters based on the degree of similarity, and the estimation unit 33 includes a plurality of sections based on the number of sections belonging to the classified clusters.
  • the section corresponding to the chorus of the music may be estimated from the section of. In this case, the section corresponding to the chorus of the music can be more easily identified.
  • the music structure analysis apparatus 100 is based on at least one of the similarity of the beginning code or the ending code to the tonic code in the section of the acoustic signal of the acquired music and the probability that the section contains vocals.
  • a calculation unit 32 for calculating the score of each section may be provided, and the estimation unit 33 may estimate a section corresponding to a specific composition type portion of the music from a plurality of sections based on the calculated score. In this case, it is possible to more easily identify the section corresponding to the part of a specific composition type of the music.
  • composition boundary of the music is specified by the weighted composition of the first boundary likelihood and the second boundary likelihood, but the embodiment is Not limited to this.
  • the composition boundaries of the music may be specified by other methods.
  • the music structure analysis device 100 includes the section division unit 10, but the embodiment is not limited to this. As long as the acquisition unit 21 can acquire the acoustic signal of the music divided into a plurality of sections, the music structure analysis device 100 may not include the section division unit 10.
  • the estimation unit 33 corresponds to the chorus of the music by using all of the number of sections belonging to the cluster, the similarity of the head code or the end code to the tonic code, and the vocal likelihood.
  • the section to be used is estimated, but the embodiment is not limited to this.
  • the estimation unit 33 may estimate the section corresponding to the chorus of the music by using the number of sections belonging to the cluster, the similarity of the key of the head code or the end code to the tonic code, and a part of the vocal likelihood. ..
  • the music structure analysis device 100 may not include the section classification unit 20.
  • the estimation unit 33 estimates the section corresponding to the chorus of the music from a plurality of sections, but the embodiment is not limited to this.
  • the estimation unit 33 may estimate a section corresponding to a portion of another configuration type such as an intro, an A melody, a B melody, or an outro of a music from a plurality of sections.
  • first and second learning models M1 and M2 were created using a large number of learning data.
  • music data for evaluation with a label indicating the composition boundary of the music was prepared as evaluation data.
  • the learning data includes 12593 songs of MIDI (Musical Instrument Digital Interface) data with a label converted by software, and 3938 songs of a set of actual music and MIDI data with a label.
  • some of the training data was inflated.
  • Example 1 the constituent boundaries of the acoustic signal were specified using the first and second learning models M1 and M2, using the set 409 songs of the labeled MIDI data and the actual music as the evaluation data.
  • the weighting coefficient of the first boundary likelihood is 0.4
  • the weighting coefficient of the second boundary likelihood is 0.6.
  • the recall, precision, and F-measure of the identified constituent boundaries were evaluated based on the labels of the evaluation data.
  • Comparative Examples 1 and 2 the same configuration boundaries as in Example 1 were specified and evaluated using only the first and second learning models M1 and M2, respectively.
  • FIG. 10 is a diagram showing the evaluation results of Example 1 and Comparative Examples 1 and 2.
  • Example 2 the same configuration boundaries as in Example 1 were specified and evaluated, except that 100 songs of the music data of the research music database were used as the evaluation data.
  • Comparative Examples 3 and 4 the same configuration boundaries as in Example 2 were specified and evaluated using only the first and second learning models M1 and M2, respectively.
  • FIG. 11 is a diagram showing the evaluation results of Example 2 and Comparative Examples 3 and 4.
  • Example 3 the same configuration boundaries as in Example 2 were specified and evaluated, except that 76 songs of music data of other genres of the research music database were used as the evaluation data.
  • Comparative Examples 5 and 6 the same configuration boundaries as in Example 3 were specified and evaluated using only the first and second learning models M1 and M2, respectively.
  • FIG. 12 is a diagram showing the evaluation results of Example 3 and Comparative Examples 5 and 6.
  • the first or second boundary likelihood is combined by performing the weighted synthesis of the first and second boundary likelihood. It was confirmed that the constituent boundaries of the acoustic signal can be specified with higher overall accuracy than when only the degree is used. On the other hand, it was confirmed that the specific accuracy of the constituent boundaries is reduced depending on the genre of the music. Even in such a case, it is possible to prevent a decrease in the specific accuracy of the constituent boundary by appropriately selecting the weighting coefficient between the first boundary likelihood and the second boundary likelihood according to the genre of the music. It is considered possible.
  • Example of estimation of composition type In the following Examples 4 to 7, MIDI data 3938 songs with a label indicating the composition boundary of the music and a label indicating the presence or absence of vocals are used as learning data for the third.
  • the learning model M3 of was created.
  • music data for evaluation to which the same label as the learning data was given was prepared as evaluation data.
  • Example 4 a set of 200 songs, which is a set of labeled MIDI data and actual music, was used as evaluation data.
  • the accuracy rate of the estimation result of the section corresponding to the leading chorus to the evaluation data when the vocal likelihood was not used and when the vocal likelihood was used was evaluated respectively.
  • the correct answer rate of the estimation result of the section corresponding to the leading chorus to the evaluation data when the vocal likelihood was not used and when the vocal likelihood was used was evaluated.
  • Example 5 the same evaluation as in Example 4 was performed except that the section corresponding to any of the rusts was estimated, not limited to the leading rust.
  • Example 6 the same evaluation as in Example 4 was performed except that 100 songs of the music data of the research music database were used as the evaluation data.
  • Example 7 the same evaluation as in Example 6 was performed except that the section corresponding to any of the rusts was estimated, not limited to the leading rust.
  • the vocal likelihood was obtained using the third learning model M3, and was considered to be the correct answer when 70% or more of the estimated section was rust.
  • FIG. 13 is a diagram showing the evaluation results of Examples 4 to 7. From the comparison results of Examples 4 to 7 shown in FIG. 13, it was confirmed that the correct answer rate of the estimation result of the section corresponding to the chorus is increased by using the vocal likelihood. In addition, it was confirmed that the correct answer rate of the estimation result of the section corresponding to the rust is greatly increased by performing clustering.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

楽曲の音響信号が取得部により取得される。取得された楽曲の音響信号から、音色の変化を示す第1の特徴量およびコードの変化を示す第2の特徴量が、第1および第2の抽出部によりそれぞれ抽出される。第1の学習モデルを用いて、第1の特徴量から楽曲の構成境界の尤度を示す第1の境界尤度が第1の境界尤度出力部により出力される。第2の学習モデルを用いて、第2の特徴量から楽曲の構成境界の尤度を示す第2の境界尤度が第2の境界尤度出力部により出力される。第1の境界尤度と第2の境界尤度とが重み付け合成されることにより、楽曲の構成境界が特定部により特定される。楽曲の音響信号が特定された構成境界で分割部により複数のセクションに分割される。

Description

楽曲構造解析装置および楽曲構造解析方法
 本開示は、楽曲の構造を解析するための楽曲構造解析装置および楽曲構造解析方法に関する。
 楽曲の特定の部分の再生または演奏を容易にするために、イントロ(intro)、Aメロ(verse)、Bメロ(bridge)、サビ(chorus)またはアウトロ(outro)等の楽曲の概略的な構造の解析が行われることがある。例えば、特許文献1には、複数の音源と、各音源の分類情報との関係を学習するニューラルネットワークを利用して、音源のハイライト区間を決定する方法が記載されている。
 特許文献1に記載された方法においては、音源がニューラルネットワーク処理部により複数の区間に分割され、各区間別に区間別特徴値が抽出される。また、ニューラルネットワーク処理部において、区間別特徴値の加重値和を計算するアテンションモデルが利用されることにより、音源の分類情報推測に各区間が寄与する程度を示す加重値情報が獲得される。音源の区間別に、加重値情報により重要区間が決定され、決定された重要区間に基づいて、ハイライト区間が決定される。
特表2020-516004号公報 特開2020-112683号公報
 楽曲のビートまたはコードを精密に解析するために、楽曲の概略的な構造をより容易に解析することが求められる。
 本開示の目的は、楽曲の構造の解析を容易にする楽曲構造解析装置および楽曲構造解析方法を提供することである。
 本開示の一局面に従う楽曲構造解析装置は、楽曲の音響信号を取得する取得部と、取得された楽曲の音響信号から音色の変化を示す第1の特徴量を抽出する第1の抽出部と、取得された楽曲の音響信号からコードの変化を示す第2の特徴量を抽出する第2の抽出部と、第1の学習モデルを用いて、第1の特徴量から楽曲の構成境界の尤度を示す第1の境界尤度を出力する第1の境界尤度出力部と、第2の学習モデルを用いて、第2の特徴量から楽曲の構成境界の尤度を示す第2の境界尤度を出力する第2の境界尤度出力部と、第1の境界尤度と第2の境界尤度とを重み付け合成することにより、楽曲の構成境界を特定する特定部と、楽曲の音響信号を特定された構成境界で複数のセクションに分割する分割部とを備える。
 本開示の他の局面に従う楽曲構造解析装置は、楽曲の音響信号を取得する取得部と、取得された楽曲の音響信号を複数のセクションに分割する分割部と、分割された複数のセクションを類似度に基づいてクラスタに分類する分類部と、セクションの分類結果に基づいて、分割された複数のセクションから楽曲の特定の構成種別の部分に該当するセクションを推定する推定部とを備える。
 本開示のさらに他の局面に従う楽曲構造解析装置は、複数のセクションに分割された楽曲の音響信号を取得する取得部と、分割された複数のセクションを類似度に基づいてクラスタに分類する分類部と、分類されたクラスタに属するセクションの数に基づいて、複数のセクションから楽曲のサビに該当するセクションを推定する推定部とを備える。
 本開示のさらに他の局面に従う楽曲構造解析装置は、複数のセクションに分割された楽曲の音響信号を取得する取得部と、取得された楽曲の音響信号のセクションにおける先頭コードまたは終端コードの調のトニックコードへの類似度と、セクションにボーカルが含まれる尤度との少なくとも1つに基づいて各セクションのスコアを算出する算出部と、算出されたスコアに基づいて、複数のセクションから楽曲の特定の構成種別の部分に該当するセクションを推定する推定部とを備える。
 本開示によれば、楽曲の構造の解析を容易にすることができる。
図1は本開示の一実施の形態に係る楽曲構造解析装置を含む楽曲構造解析システムの構成を示すブロック図である。 図2は楽曲構造解析装置の構成を示すブロック図である。 図3は第1および第2の学習モデルの一例を示すブロック図である。 図4は分割結果出力部による表示部の表示例を示す図である。 図5は最大値探索法による類似度の判定を説明するための図である。 図6は分類結果出力部による表示部の表示例を示す図である。 図7は第3の学習モデルの一例を示すブロック図である。 図8は図2の楽曲構造解析装置による楽曲構造解析処理の一例を示すフローチャートである。 図9は図2の楽曲構造解析装置による楽曲構造解析処理の一例を示すフローチャートである。 図10は実施例1および比較例1,2の評価結果を示す図である。 図11は実施例2および比較例3,4の評価結果を示す図である。 図12は実施例3および比較例5,6の評価結果を示す図である。 図13は実施例4~7の評価結果を示す図である。
 以下、本開示の実施の形態に係る楽曲構造解析装置について図面を用いて詳細に説明する。
 (1)楽曲構造解析システム
 図1は、本開示の一実施の形態に係る楽曲構造解析装置を含む楽曲構造解析システムの構成を示すブロック図である。図1に示すように、楽曲構造解析システム1は、RAM(ランダムアクセスメモリ)2、ROM(リードオンリメモリ)3、CPU(中央演算処理装置)4、記憶装置5、操作部6および表示部7を備える。RAM2、ROM3、CPU4、記憶装置5、操作部6および表示部7は、バス8に接続される。
 RAM2は、例えば揮発性メモリからなり、CPU4の作業領域として用いられるとともに、各種データを一時的に記憶する。ROM3は、例えば不揮発性メモリからなり、楽曲構造解析処理を実行するための楽曲構造解析プログラムを記憶する。CPU4は、ROM3に記憶された楽曲構造解析プログラムをRAM2上で実行することにより楽曲構造解析処理を行う。楽曲構造解析処理の詳細については後述する。
 記憶装置5は、ハードディスク、光学ディスク、磁気ディスクまたはメモリカード等の記憶媒体を含み、1または複数の楽曲データMDを記憶する。楽曲データMDは、楽曲の音響信号(オーディオ信号)を含む。記憶装置5は、楽曲構造解析プログラムをROM3の代わりに記憶してもよい。また、記憶装置5は、機械学習により予め作成された第1の学習モデルM1、第2の学習モデルM2および第3の学習モデルM3を記憶する。
 楽曲構造解析プログラムは、コンピュータが読み取り可能な記録媒体に格納された形態で提供され、ROM3または記憶装置5にインストールされてもよい。また、楽曲構造解析システム1が通信網に接続されている場合、通信網に接続されたサーバから配信された楽曲構造解析プログラムがROM3または記憶装置5にインストールされてもよい。RAM2、ROM3およびCPU4により楽曲構造解析装置100が構成される。
 操作部6は、マウス等のポインティングデバイスまたはキーボードを含み、所定の選択または指定を行うために使用者により操作される。表示部7は、例えば液晶ディスプレイを含み、楽曲構造解析処理の結果を表示する。操作部6および表示部7は、タッチパネルディスプレイにより構成されてもよい。
 図2は、楽曲構造解析装置100の構成を示すブロック図である。図2に示すように、楽曲構造解析装置100は、セクション分割部10、セクション分類部20および構成種別推定部30を含む。セクション分割部10、セクション分類部20および構成種別推定部30の機能は、図1のCPU4が楽曲構造解析プログラムを実行することにより実現される。セクション分割部10、セクション分類部20および構成種別推定部30の一部または全部が電子回路等のハードウエアにより実現されてもよい。
 セクション分割部10は、楽曲の音響信号の構成境界を特定し、特定された構成境界で音響信号を複数のセクションに分割する。セクション分類部20は、セクション分割部10により複数に分割されたセクションを類似度に基づいてクラスタに分類する。以下、セクションをクラスタに分類することをクラスタリングと呼ぶ。構成種別推定部30は、セクション分類部20によりクラスタリングされたセクションから楽曲の特定の構成種別の部分に該当するセクションを推定する。以下、セクション分割部10、セクション分類部20および構成種別推定部30の詳細を説明する。
 (2)セクション分割部
 図2に示すように、セクション分割部10は、取得部11、第1の抽出部12、第2の抽出部13、第1の境界尤度出力部14、第2の境界尤度出力部15、特定部16、受付部17、分割部18および分割結果出力部19を含む。取得部11は、記憶装置5に記憶された楽曲データMDのうち、使用者により選択された楽曲データMDを取得する。使用者は、操作部6を操作することにより、所望の楽曲データMDを選択することができる。
 第1の抽出部12は、取得部11により取得された楽曲データMDの音響信号から音色の変化を示す第1の特徴量を抽出する。第1の特徴量は、例えばメル周波数対数スペクトル(MSLS:Mel-Scale Log-Spectrum)である。拍ごとの音響信号が離散フーリエ変換されることにより複素スペクトルが得られる。複素スペクトルの絶対値にメルスケールフィルタバンクが適用されることにより得られるフィルタバンクエネルギーの対数が算出されることによりMSLSが抽出される。本例では、MSLSは80次元ベクトルである。
 第2の抽出部13は、取得部11により取得された楽曲データMDの音響信号からコードの変化を示す第2の特徴量を抽出する。第2の特徴量は、例えばクロマベクトルである。高周波領域において、拍ごとの音響信号に含まれる平均律の各12半音に対応する周波数成分の強度が複数のオクターブにわたって加算されることにより得られた12の値と、音響信号の強度の値とが配列されることによりクロマベクトルの一部が抽出される。また、低周波領域において同様の処理が行われることによりクロマベクトルの残りの部分が抽出される。したがって、本例では、クロマベクトルは26次元ベクトルである。
 第1の境界尤度出力部14は、第1の抽出部12により抽出された第1の特徴量を記憶装置5に記憶された第1の学習モデルM1に入力することにより、楽曲の構成境界の尤度を示す第1の境界尤度を拍ごとに出力する。第2の境界尤度出力部15は、第2の抽出部13により抽出された第2の特徴量を記憶装置5に記憶された第2の学習モデルM2に入力することにより、楽曲の尤度を示す第2の境界尤度を拍ごとに出力する。
 特定部16は、拍ごとに第1および第2の境界尤度出力部14,15によりそれぞれ出力された第1および第2の境界尤度を重み付け合成することにより、楽曲の構成境界を特定する。本例では、重み付け合成された値が所定の閾値以上となった拍が楽曲の構成境界であると特定される。重み係数は予め定められた一定値であってもよいし、可変値であってもよい。
 受付部17は、操作部6から重み係数の指定を受け付ける。使用者は、操作部6を操作することにより、重み係数を指定することができる。重み係数が予め定められた一定値である場合、セクション分割部10は受付部17を含まなくてもよい。受付部17により重み係数が受け付けられた場合、特定部16は、受け付けられた重み係数に基づいて第1の境界尤度と第2の境界尤度とを重み付け合成する。
 分割部18は、楽曲の音響信号を特定部16により特定された構成境界で複数のセクションに分割する。また、分割部18は、複数のセクションに分割された音響信号をセクション分類部20に与える。分割結果出力部19は、分割部18によるセクションの分割結果を視認可能に表示部7に表示させる。セクションの分割結果が表示部7に表示されなくてもよい場合、セクション分割部10は分割結果出力部19を含まなくてもよい。
 図3は、第1および第2の学習モデルM1,M2の一例を示すブロック図である。図3に示すように、本例では、第1の学習モデルM1においては、CNN(Convolutional Neural Network)層M11、線形層M12、双方向型GRU(Gated Recurrent Unit)層M13および線形層M14が入力から出力に向かってこの順で配列される。第2の学習モデルM2においては、線形層M21、双方向型GRU層M22および線形層M23が入力から出力に向かってこの順で配列される。
 楽曲の構成境界を示すラベルが付与された学習用の楽曲データが学習データとして予め多数準備される。各学習データにおいて、構成境界となる拍に対応する部分にはラベル“1”が付与され、構成境界とならない拍に対応がする部分にはラベル“0”が付与されている。多数の学習データから抽出された第1の特徴量を用いて深層学習が行われることにより、第1の境界尤度を出力するための第1の学習モデルM1が作成される。同様に、多数の学習データから抽出された第2の特徴量を用いて深層学習が行われることにより、第2の境界尤度を出力するための第2の学習モデルM2が作成される。
 図4は、分割結果出力部19による表示部7の表示例を示す図である。図4に示すように、楽曲構造解析処理の過程の結果として、分割部18によるセクションの分割結果が分割結果出力部19により表示部7に表示される。図4の表示例においては、楽曲データMDが時間軸方向(本例では左右方向)に延びる帯状の指標により示される。また、楽曲データMDの指標の上方には、解析対象の音響信号の波形が示される。なお、音響信号の波形は、指標の下方に表示されてもよいし、指標と重なるように表示されてもよい。あるいは、音響信号の波形は、指標との関連性を提示可能な他の態様で表示されてもよい。楽曲データMDは、特定部16により特定された構成境界で複数のセクションs1~s12に分割される。各セクションs1~s12は、固有の色が付与された矩形の指標により示される。使用者は、表示部7を視認することにより、楽曲の構成境界を容易に認識することができる。
 (3)セクション分類部
 図2に示すように、セクション分類部20は、取得部21、判定部22、分類部23および分類結果出力部24を含む。取得部21は、複数のセクションに分割された楽曲の音響信号をセクション分割部10から取得する。判定部22は、取得部21により取得された音響信号の分割された複数のセクションの類似度を判定する。
 本例では、複数のセクションにおける第1の特徴量のユークリッド距離が比較されるとともに、複数のセクションにおける第2の特徴量のコサイン類似度が比較される。また、楽曲データMDにコードを示すコードラベルが付与されている場合には、複数のセクションにおけるコードラベルの編集距離(レーベンシュタイン距離)が比較される。コードラベルは、コード解析により楽曲データMDに付与されてもよい。これらの比較の総合的な結果に基づいて、複数のセクションの類似度が判定される。
 分類部23は、判定部22により判定された類似度に基づいて、複数のセクションをクラスタリングする。また、分類部23は、クラスタリングされた音響信号を構成種別推定部30に与える。分類結果出力部24は、分類部23によるクラスタリングの結果を視認可能に表示部7に表示させる。クラスタリングの結果が表示部7に表示されなくてもよい場合、セクション分類部20は分類結果出力部24を含まなくてもよい。
 上記の複数のセクションの比較、すなわちユークリッド距離、コサイン類似度および編集距離の比較は、最大値探索法を用いて行われる。図5は、最大値探索法による類似度の判定を説明するための図である。図5の例では、セクションs1とセクションs2との類似度が判定される。ここで、セクションs2はセクションs1よりも長い。この場合、セクションs1がセクションs2の先頭から終端に向けてシフトされつつ、セクションs1と、セクションs2におけるセクションs1と同一のサイズを有する各部分との類似度が順次評価される。
 図5の例では、セクションs1とセクションs2のA部との類似度が最も大きくなる。この場合、セクションs1とセクションs2のA部との類似度が、セクションs1とセクションs2との類似度であると判定される。この判定方法によれば、セクション分割部10による楽曲の構成境界の特定に誤りがあった場合でも、その影響を緩和することができる。また、比較される2つのセクションの長さの差が所定値以上である場合には、類似度を減ずるペナルティが導入されてもよい。これにより、類似するセクションをより適切にクラスタリングすることができる。
 このように、本実施の形態においては、最大値探索法を用いて複数のセクションの比較が行われるが、実施の形態はこれに限定されない。例えば、動的時間伸縮(DTW:Dynamic Time Warping)法等の動的計画法を用いて複数のセクションの比較が行われてもよい。
 図6は、分類結果出力部24による表示部7の表示例を示す図である。図6に示すように、楽曲構造解析処理の過程の結果として、分類部23によるクラスタリングの結果が分類結果出力部24により表示部7に表示される。図6の表示例においては、“A0”または“B0”等のアルファベットと番号とからなる固有の識別子が各セクションs1~s12に付与される。“B0”および“B1”等のように、同一のクラスタに属するセクションの識別子のアルファベットは同じである。
 使用者は、識別子のアルファベットを視認することにより、同一のクラスタに属するセクションを容易に認識することができる。また、使用者は、アルファベットに続く番号を視認することにより、同一のクラスタに属するセクションの数の大小を容易に認識することができる。
 (4)構成種別推定部
 図2に示すように、構成種別推定部30は、取得部31、算出部32、推定部33および推定結果出力部34を含む。取得部31は、クラスタリングされた音響信号をセクション分類部20から取得する。算出部32は、取得部31により取得された音響信号に基づいて、特定の構成種別の部分の尤度を示すスコアSを各クラスタについて算出する。
 推定部33は、算出部32により算出されたスコアSに基づいて、複数のセクションから特定の構成種別の部分に該当するセクションを推定する。本例では、特定の構成種別は、最初のサビ(以下、先頭サビと呼ぶ。)である。推定結果出力部34は、推定部33によるセクションの推定結果を視認可能に表示部7に表示させる。セクションの推定結果が表示部7に表示されなくてもよい場合、構成種別推定部30は推定結果出力部34を含まなくてもよい。
 本例では、特定の構成種別としてサビの尤度を示すスコアSが各クラスタについて算出される。ここで、ポピュラ楽曲のサビには、以下の特徴があると考えられる。盛り上がり(climax)が発生することが多く、音響信号のパワーが比較的大きい。また、サビは繰り返し発生することが多く、楽曲中に複数回現れる。さらに、先頭コードまたは終端コードは、調のトニックコードになることが多い。また、歌唱曲においては、歌声(ボーカル)が含まれることが多い。これらの特徴を考慮して、サビの尤度を示すスコアSは、下記式(1)により表される。
Figure JPOXMLDOC01-appb-M000001
 式(1)において、Sは、音響信号のパワーの大きさを示すスコアであり、例えば拍ごとに積算されかつ正規化された第1の特徴量の中央値として取得される。Sは、先頭コードまたは終端コードの調のトニックコードへの類似度を示すスコアであり、例えば下記式(2)により表される。
Figure JPOXMLDOC01-appb-M000002
 式(2)において、αは、同一のクラスタに属するセクションの数、すなわち類似するセクションの繰り返し数に基づいて定まる係数である。係数αの値は、セクションの数が大きいほど大きくなる。Sc1,Sc2は、それぞれ先頭コードおよび終端コードの調のトニックコードへの類似度を示すスコアである。なお、min(Sc1,Sc2)は、スコアSc1,Sc2のうち小さい方のスコアを意味する。
 各スコアSc1,Sc2は、TPS(Tonal Pitch Space)のベーシックスペースに基づいて算出される。各スコアSc1,Sc2の値は、0~8.5であり、類似度が大きいほど小さくなる。したがって、先頭コードまたは終端コードが調のトニックコードと一致する場合には、スコアSc1またはスコアSc2の値は0となる。調は、特許文献2に開示されているように、音響信号の所定の特徴量の時系列と調との関係を学習することにより作成された学習モデルを用いて検出されてもよい。
 式(1)において、Sは、楽曲にボーカルが含まれる尤度(以下、ボーカル尤度と呼ぶ。)の拍ごとの平均値である。ボーカル尤度は、例えば第1の特徴量を記憶装置5に記憶された第3の学習モデルM3に入力することにより取得される。W,W,Wは、それぞれスコアS,S,Sに対する重み係数である。Pは、セクションが極端に短い場合にスコアを減ずるためのペナルティである。ペナルティPの値は、セクションの長さが所定値未満の場合には負となり、セクションの長さが所定値以上の場合には0となる。
 図7は、第3の学習モデルM3の一例を示すブロック図である。図7に示すように、本例では、第3の学習モデルM3においては、CNN層M31、線形層M32、双方向型GRU層M33および線形層M34が入力から出力に向かってこの順で配列される。
 ボーカルの有無を示すラベルが付与された学習用の楽曲データが学習データとして予め多数準備される。各学習データにおいて、ボーカルが含まれる拍に対応する部分にはラベル“1”が付与され、ボーカルが含まれない拍に対応がする部分にはラベル“0”が付与されている。多数の学習データから抽出された第1の特徴量を用いて深層学習が行われることにより、拍ごとのボーカル尤度を出力するための第3の学習モデルM3が作成される。
 推定部33は、上記のスコアSに基づいてサビに該当するクラスタを選択する。また、推定部33は、ボーカル尤度に基づいて、選択されたクラスタに属するセクションのうちボーカルが含まれる先頭のセクションを先頭サビに該当するセクションであると推定する。
 (5)楽曲構造解析処理
 図8および図9は、図2の楽曲構造解析装置100による楽曲構造解析処理の一例を示すフローチャートである。図8および図9の楽曲構造解析処理は、図1のCPU4がROM3または記憶装置5に記憶された楽曲構造解析プログラムを実行することにより行われる。
 まず、取得部11は、使用者による操作部6の操作に基づいて楽曲データMDが選択されたか否かを判定する(ステップS1)。楽曲データMDが選択されない場合、取得部11は、楽曲データMDが選択されるまで待機する。楽曲データMDが選択された場合、取得部11は、選択された楽曲データMDを記憶装置5から取得する(ステップS2)。
 第1の抽出部12は、ステップS2で取得された楽曲データMDの音響信号から第1の特徴量を抽出する(ステップS3)。第2の抽出部13は、ステップS2で取得された楽曲データMDの音響信号から第2の特徴量を抽出する(ステップS4)。ステップS3とステップS4とは、いずれが先に実行されてもよいし、同時に実行されてもよい。
 第1の境界尤度出力部14は、ステップS3で抽出された第1の特徴量と記憶装置5とに記憶された第1の学習モデルM1に基づいて、第1の境界尤度を拍ごとに出力する(ステップS5)。第2の境界尤度出力部15は、ステップS4で抽出された第2の特徴量と記憶装置5に記憶された第2の学習モデルM2とに基づいて、第2の境界尤度を拍ごとに出力する(ステップS6)。ステップS5とステップS6とは、いずれが先に実行されてもよいし、同時に実行されてもよい。
 受付部17は、使用者による操作部6の操作に基づいて重み係数の指定が受け付けられたか否かを判定する(ステップS7)。重み係数の指定が受け付けられた場合、特定部16は、拍ごとにステップS5,S6でそれぞれ出力された第1および第2の境界尤度と、指定された重み係数とに基づいて楽曲の構成境界を特定する(ステップS8)。重み係数の指定が受け付けられない場合、特定部16は、拍ごとにステップS5,S6でそれぞれ出力された第1および第2の境界尤度と、予め設定された重み係数とに基づいて楽曲の構成境界を特定する(ステップS9)。
 分割部18は、楽曲の音響信号をステップS8またはステップS9で特定された構成境界で複数のセクションに分割する(ステップS10)。分割結果出力部19は、ステップS10におけるセクションの分割結果を表示部7に表示させる(ステップS11)。ステップS11は、省略されてもよい。
 判定部22は、ステップS10で分割された複数のセクションの類似度を判定する(ステップS12)。分類部23は、ステップS12で判定された類似度に基づいて、ステップS10で分割された複数のセクションをクラスタリングする(ステップS13)。分類結果出力部24は、ステップS13におけるクラスタリングの結果を表示部7に表示させる(ステップS14)。ステップS14は、省略されてもよい。
 算出部32は、ステップS13で複数のセクションがクラスタに分類された音響信号に基づいて、特定の構成種別の尤度を示すスコアSを各クラスタについて算出する(ステップS15)。推定部33は、ステップS15で算出されたスコアSに基づいて、複数のセクションから特定の構成種別の部分に該当するセクションを推定する(ステップS16)。推定結果出力部34は、ステップS16におけるセクションの推定結果を表示部7に表示させ(ステップS17)、楽曲構造解析処理を終了する。ステップS17は、省略されてもよい。
 (6)実施の形態の効果
 以上説明したように、本実施の形態に係る楽曲構造解析装置100は、楽曲の音響信号を取得する取得部11と、取得された楽曲の音響信号から音色の変化を示す第1の特徴量を抽出する第1の抽出部12と、取得された楽曲の音響信号からコードの変化を示す第2の特徴量を抽出する第2の抽出部13と、第1の学習モデルM1を用いて、第1の特徴量から楽曲の構成境界の尤度を示す第1の境界尤度を出力する第1の境界尤度出力部14と、第2の学習モデルM2を用いて、第2の特徴量から楽曲の構成境界の尤度を示す第2の境界尤度を出力する第2の境界尤度出力部15と、第1の境界尤度と第2の境界尤度とを重み付け合成することにより、楽曲の構成境界を特定する特定部16と、楽曲の音響信号を特定された構成境界で複数のセクションに分割する分割部18とを備える。これにより、楽曲の構造の解析を容易に行うことが可能になる。
 楽曲構造解析装置100は、分割された複数のセクションから楽曲のサビに該当するセクションを推定する推定部33をさらに備えてもよい。この場合、使用者は、楽曲のサビに該当するセクションを容易に認識することができる。
 楽曲構造解析装置100は、重み係数の指定を受け付ける受付部17をさらに備え、特定部16は、受け付けられた重み係数に基づいて、第1の境界尤度と第2の境界尤度とを重み付け合成してもよい。この場合、楽曲に応じて重み係数を適切に変更することができる。
 また、楽曲構造解析装置100は、分割された複数のセクションを類似度に基づいてクラスタに分類する分類部23を備え、推定部33は、セクションの分類結果に基づいて、分割された複数のセクションから楽曲の特定の構成種別の部分に該当するセクションを推定してもよい。この場合、使用者は、楽曲の特定の構成種別の部分に該当するセクションを容易に認識することができる。
 楽曲構造解析装置100は、セクションの分類結果を視認可能に出力する分類結果出力部24をさらに備えてもよい。この場合、使用者は、セクションの分類結果をより容易に認識することができる。
 また、楽曲構造解析装置100は、分割された複数のセクションを類似度に基づいてクラスタに分類する分類部23を備え、推定部33は、分類されたクラスタに属するセクションの数に基づいて、複数のセクションから楽曲のサビに該当するセクションを推定してもよい。この場合、楽曲のサビに該当するセクションをより容易に特定することができる。
 あるいは、楽曲構造解析装置100は、取得された楽曲の音響信号のセクションにおける先頭コードまたは終端コードの調のトニックコードへの類似度と、セクションにボーカルが含まれる尤度との少なくとも1つに基づいて各セクションのスコアを算出する算出部32を備え、推定部33は、算出されたスコアに基づいて、複数のセクションから楽曲の特定の構成種別の部分に該当するセクションを推定してもよい。この場合、楽曲の特定の構成種別の部分に該当するセクションをより容易に特定することができる。
 (7)他の実施の形態
 (a)上記実施の形態において、楽曲の構成境界は、第1の境界尤度と第2の境界尤度との重み付け合成により特定されるが、実施の形態はこれに限定されない。楽曲の構成境界は、他の方法により特定されてもよい。
 (b)上記実施の形態において、楽曲構造解析装置100はセクション分割部10を含むが、実施の形態はこれに限定されない。取得部21が複数のセクションに分割された楽曲の音響信号を取得可能である限り、楽曲構造解析装置100は、セクション分割部10を含まなくてもよい。
 (c)上記実施の形態において、推定部33は、クラスタに属するセクションの数、先頭コードまたは終端コードの調のトニックコードへの類似度、およびボーカル尤度の全部を用いて楽曲のサビに該当するセクションを推定するが、実施の形態はこれに限定されない。推定部33は、クラスタに属するセクションの数、先頭コードまたは終端コードの調のトニックコードへの類似度、およびボーカル尤度の一部を用いて楽曲のサビに該当するセクションを推定してもよい。推定部33がクラスタに属するセクションの数を用いずに楽曲のサビに該当するセクションを推定する場合には、楽曲構造解析装置100はセクション分類部20を含まなくてもよい。
 (d)上記実施の形態において、推定部33は、複数のセクションから楽曲のサビに該当するセクションを推定するが、実施の形態はこれに限定されない。推定部33は、複数のセクションから楽曲のイントロ、Aメロ、Bメロまたはアウトロ等の他の構成種別の部分に該当するセクションを推定してもよい。
 (8)構成境界の特定についての実施例
 以下の実施例1~3および比較例1~6では、多数の学習データを用いて第1および第2の学習モデルM1,M2が作成された。また、楽曲の構成境界を示すラベルが付与された評価用の楽曲データが評価データとして準備された。なお、学習データは、ソフトウエアにより音声化されたラベル付きのMIDI(Musical Instrument Digital Interface)データ12593曲、および実楽曲とラベル付きのMIDIデータとのセット3938曲を含む。また、一部の学習データには、水増し処理が行われた。
 実施例1では、ラベル付きMIDIデータと実楽曲とのセット409曲を評価データとして、第1および第2の学習モデルM1,M2を用いて音響信号の構成境界が特定された。ここで、第1の境界尤度の重み係数は0.4とされ、第2の境界尤度の重み係数は0.6とされた。また、評価データのラベルに基づいて、特定された構成境界の再現率(Recall)、適合率(Precision)およびF値(F-measure)が評価された。比較例1,2では、それぞれ第1および第2の学習モデルM1,M2のみを用いて、実施例1と同様の構成境界の特定および評価が行われた。図10は、実施例1および比較例1,2の評価結果を示す図である。
 実施例2では、評価データとして、研究用音楽データベースの楽曲データ100曲が用いられた点を除いて、実施例1と同様の構成境界の特定および評価が行われた。比較例3,4では、それぞれ第1および第2の学習モデルM1,M2のみを用いて、実施例2と同様の構成境界の特定および評価が行われた。図11は、実施例2および比較例3,4の評価結果を示す図である。
 実施例3では、評価データとして、研究用音楽データベースの他のジャンルの楽曲データ76曲が用いられた点を除いて、実施例2と同様の構成境界の特定および評価が行われた。比較例5,6では、それぞれ第1および第2の学習モデルM1,M2のみを用いて、実施例3と同様の構成境界の特定および評価が行われた。図12は、実施例3および比較例5,6の評価結果を示す図である。
 図10~図12に示される実施例1~3および比較例1~6の比較結果から、第1および第2の境界尤度の重み付け合成が行われることにより、第1または第2の境界尤度のみが用いられる場合よりも総合的に高い精度で音響信号の構成境界を特定できることが確認された。一方で、楽曲のジャンルによっては、構成境界の特定の精度が低下することが確認された。このような場合でも、楽曲のジャンルに応じて第1の境界尤度と第2の境界尤度との重み係数を適切に選択することにより、構成境界の特定の精度の低下を防止することが可能であると考えられる。
 (9)構成種別の推定についての実施例
 以下の実施例4~7では、楽曲の構成境界を示すラベルおよびボーカルの有無を示すラベルが付与されたMIDIデータ3938曲を学習データとして用いて第3の学習モデルM3が作成された。また、学習データと同様のラベルが付与された評価用の楽曲データが評価データとして準備された。
 実施例4では、ラベル付きMIDIデータと実楽曲とのセット200曲が評価データとされた。クラスタリングされない場合に、ボーカル尤度が用いられないとき、およびボーカル尤度が用いられたときの評価データに対する先頭サビに該当するセクションの推定結果の正解率がそれぞれ評価された。また、クラスタリングされた場合に、ボーカル尤度が用いられないとき、およびボーカル尤度が用いられたときの評価データに対する先頭サビに該当するセクションの推定結果の正解率がそれぞれ評価された。
 実施例5では、先頭サビに限定されず、いずれかのサビに該当するセクションが推定された点を除いて、実施例4と同様の評価が行われた。実施例6では、評価データとして、研究用音楽データベースの楽曲データ100曲が用いられた点を除いて、実施例4と同様の評価が行われた。実施例7では、先頭サビに限定されず、いずれかのサビに該当するセクションが推定された点を除いて、実施例6と同様の評価が行われた。なお、ボーカル尤度は第3の学習モデルM3を用いて取得され、推定されたセクションの7割以上の部分がサビである場合に正解とされた。
 図13は、実施例4~7の評価結果を示す図である。図13に示される実施例4~7の比較結果から、ボーカル尤度を用いることにより、サビに該当するセクションの推定結果の正解率が上昇することが確認された。また、クラスタリングを行うことによりサビに該当するセクションの推定結果の正解率が大きく上昇することが確認された。

Claims (14)

  1. 楽曲の音響信号を取得する取得部と、
     取得された楽曲の音響信号から音色の変化を示す第1の特徴量を抽出する第1の抽出部と、
     取得された楽曲の音響信号からコードの変化を示す第2の特徴量を抽出する第2の抽出部と、
     第1の学習モデルを用いて、前記第1の特徴量から楽曲の構成境界の尤度を示す第1の境界尤度を出力する第1の境界尤度出力部と、
     第2の学習モデルを用いて、前記第2の特徴量から楽曲の構成境界の尤度を示す第2の境界尤度を出力する第2の境界尤度出力部と、
     前記第1の境界尤度と前記第2の境界尤度とを重み付け合成することにより、楽曲の構成境界を特定する特定部と、
     楽曲の音響信号を特定された構成境界で複数のセクションに分割する分割部とを備える、楽曲構造解析装置。
  2. 分割された前記複数のセクションから楽曲のサビに該当するセクションを推定する推定部をさらに備える、請求項1記載の楽曲構造解析装置。
  3. 重み係数の指定を受け付ける受付部をさらに備え、
     前記特定部は、受け付けられた前記重み係数に基づいて、前記第1の境界尤度と前記第2の境界尤度とを重み付け合成する、請求項1または2記載の楽曲構造解析装置。
  4. 楽曲の音響信号を取得する取得部と、
     取得された楽曲の音響信号を複数のセクションに分割する分割部と、
     分割された前記複数のセクションを類似度に基づいてクラスタに分類する分類部と、
     セクションの分類結果に基づいて、分割された前記複数のセクションから楽曲の特定の構成種別の部分に該当するセクションを推定する推定部とを備える、楽曲構造解析装置。
  5. セクションの分類結果を視認可能に出力する分類結果出力部をさらに備える、請求項4記載の楽曲構造解析装置。
  6. 複数のセクションに分割された楽曲の音響信号を取得する取得部と、
     分割された前記複数のセクションを類似度に基づいてクラスタに分類する分類部と、
     分類されたクラスタに属するセクションの数に基づいて、前記複数のセクションから楽曲のサビに該当するセクションを推定する推定部とを備える、楽曲構造解析装置。
  7. 複数のセクションに分割された楽曲の音響信号を取得する取得部と、
     取得された楽曲の音響信号のセクションにおける先頭コードまたは終端コードの調のトニックコードへの類似度と、セクションにボーカルが含まれる尤度との少なくとも1つに基づいて各セクションのスコアを算出する算出部と、
     算出されたスコアに基づいて、前記複数のセクションから楽曲の特定の構成種別の部分に該当するセクションを推定する推定部とを備える、楽曲構造解析装置。
  8. 楽曲の音響信号を取得し、
     取得された楽曲の音響信号から音色の変化を示す第1の特徴量を抽出し、
     取得された楽曲の音響信号からコードの変化を示す第2の特徴量を抽出し、
     第1の学習モデルを用いて、前記第1の特徴量から楽曲の構成境界の尤度を示す第1の境界尤度を出力し、
     第2の学習モデルを用いて、前記第2の特徴量から楽曲の構成境界の尤度を示す第2の境界尤度を出力し、
     前記第1の境界尤度と前記第2の境界尤度とを重み付け合成することにより、楽曲の構成境界を特定し、
     楽曲の音響信号を特定された構成境界で複数のセクションに分割する、
     コンピュータにより実行される、楽曲構造解析方法。
  9. 分割された前記複数のセクションから楽曲のサビに該当するセクションをさらに推定する、請求項8記載の楽曲構造解析方法。
  10. 重み係数の指定をさらに受け付け、
     前記楽曲の構成境界の特定は、受け付けられた前記重み係数に基づいて、前記第1の境界尤度と前記第2の境界尤度とを重み付け合成することにより行われる、請求項8または9記載の楽曲構造解析方法。
  11. 楽曲の音響信号を取得し、
     取得された楽曲の音響信号を複数のセクションに分割し、
     分割された前記複数のセクションを類似度に基づいてクラスタに分類し、
     セクションの分類結果に基づいて、分割された前記複数のセクションから楽曲の特定の構成種別の部分に該当するセクションを推定する、
     コンピュータにより実行される、楽曲構造解析方法。
  12. セクションの分類結果を視認可能にさらに出力する、請求項11記載の楽曲構造解析方法。
  13. 複数のセクションに分割された楽曲の音響信号を取得し、
     分割された前記複数のセクションを類似度に基づいてクラスタに分類し、
     分類されたクラスタに属するセクションの数に基づいて、前記複数のセクションから楽曲のサビに該当するセクションを推定する
     コンピュータにより実行される、楽曲構造解析方法。
  14. 複数のセクションに分割された楽曲の音響信号を取得し、
     取得された楽曲の音響信号のセクションにおける先頭コードまたは終端コードの調のトニックコードへの類似度と、セクションにボーカルが含まれる尤度との少なくとも1つに基づいて各セクションのスコアを算出し、
     算出されたスコアに基づいて、前記複数のセクションから楽曲の特定の構成種別の部分に該当するセクションを推定する、
     コンピュータにより実行される、楽曲構造解析方法。
PCT/JP2021/027379 2020-08-17 2021-07-21 楽曲構造解析装置および楽曲構造解析方法 WO2022038958A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202180056193.0A CN116034421A (zh) 2020-08-17 2021-07-21 乐曲构造解析装置及乐曲构造解析方法
US18/164,575 US20230186877A1 (en) 2020-08-17 2023-02-04 Musical piece structure analysis device and musical piece structure analysis method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020137552A JP2022033579A (ja) 2020-08-17 2020-08-17 楽曲構造解析装置
JP2020-137552 2020-08-17

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/164,575 Continuation US20230186877A1 (en) 2020-08-17 2023-02-04 Musical piece structure analysis device and musical piece structure analysis method

Publications (1)

Publication Number Publication Date
WO2022038958A1 true WO2022038958A1 (ja) 2022-02-24

Family

ID=80350361

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/027379 WO2022038958A1 (ja) 2020-08-17 2021-07-21 楽曲構造解析装置および楽曲構造解析方法

Country Status (4)

Country Link
US (1) US20230186877A1 (ja)
JP (1) JP2022033579A (ja)
CN (1) CN116034421A (ja)
WO (1) WO2022038958A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023229522A1 (en) * 2022-05-26 2023-11-30 Lemon Inc. Neural network model for audio track label generation

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007055238A1 (ja) * 2005-11-08 2007-05-18 Sony Corporation 情報処理装置および方法、並びにプログラム
JP2014006480A (ja) * 2012-06-27 2014-01-16 Sony Corp 情報処理装置、情報処理方法及びプログラム
JP2017090848A (ja) * 2015-11-17 2017-05-25 ヤマハ株式会社 楽曲解析装置および楽曲解析方法
JP2020516004A (ja) * 2017-04-07 2020-05-28 ネイバー コーポレーションNAVER Corporation 音源のハイライト区間を決定する方法、その装置及び該コンピュータプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007055238A1 (ja) * 2005-11-08 2007-05-18 Sony Corporation 情報処理装置および方法、並びにプログラム
JP2014006480A (ja) * 2012-06-27 2014-01-16 Sony Corp 情報処理装置、情報処理方法及びプログラム
JP2017090848A (ja) * 2015-11-17 2017-05-25 ヤマハ株式会社 楽曲解析装置および楽曲解析方法
JP2020516004A (ja) * 2017-04-07 2020-05-28 ネイバー コーポレーションNAVER Corporation 音源のハイライト区間を決定する方法、その装置及び該コンピュータプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
PAULUS, JOUNI ET AL.: "Music Structure Analysis Using a Probabilistic Fitness Measure and a Greedy Search Algorithm", IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, vol. 17, no. 6, 23 June 2009 (2009-06-23), pages 1159 - 1170, XP011263248, [retrieved on 20090800], DOI: 10.1109/TASL.2009.2020533 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023229522A1 (en) * 2022-05-26 2023-11-30 Lemon Inc. Neural network model for audio track label generation

Also Published As

Publication number Publication date
US20230186877A1 (en) 2023-06-15
CN116034421A (zh) 2023-04-28
JP2022033579A (ja) 2022-03-02

Similar Documents

Publication Publication Date Title
Lee et al. Acoustic chord transcription and key extraction from audio using key-dependent HMMs trained on synthesized audio
Benetos et al. Automatic music transcription: challenges and future directions
Jensen Multiple scale music segmentation using rhythm, timbre, and harmony
Papadopoulos et al. Joint estimation of chords and downbeats from an audio signal
JP4243682B2 (ja) 音楽音響データ中のサビ区間を検出する方法及び装置並びに該方法を実行するためのプログラム
Lee et al. A Unified System for Chord Transcription and Key Extraction Using Hidden Markov Models.
Oudre et al. Chord recognition by fitting rescaled chroma vectors to chord templates
Bosch et al. A comparison of melody extraction methods based on source-filter modelling
Gowrishankar et al. An exhaustive review of automatic music transcription techniques: Survey of music transcription techniques
Abeßer et al. Instrument-centered music transcription of solo bass guitar recordings
CN112185321A (zh) 歌曲生成
Durand et al. Downbeat Detection with Conditional Random Fields and Deep Learned Features.
KR100512143B1 (ko) 멜로디 기반 음악 검색방법과 장치
Heydarian Automatic recognition of Persian musical modes in audio musical signals
WO2022038958A1 (ja) 楽曲構造解析装置および楽曲構造解析方法
Lee et al. Korean traditional music genre classification using sample and MIDI phrases
Gajjar et al. Computational musicology for raga analysis in Indian classical music: a critical review
Nagavi et al. Overview of automatic Indian music information recognition, classification and retrieval systems
WO2019053544A1 (en) IDENTIFICATION OF AUDIOS COMPONENTS IN AN AUDIO MIX
Foster et al. Sequential complexity as a descriptor for musical similarity
Kitahara et al. Instrument Identification in Polyphonic Music: Feature Weighting with Mixed Sounds, Pitch-Dependent Timbre Modeling, and Use of Musical Context.
Ikemiya et al. Transcribing vocal expression from polyphonic music
Kitahara et al. Instrogram: Probabilistic representation of instrument existence for polyphonic music
Kumar et al. Melody extraction from music: A comprehensive study
Waghmare et al. Raga identification techniques for classifying indian classical music: A survey

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21858107

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21858107

Country of ref document: EP

Kind code of ref document: A1