WO2016071085A1 - Recherche automatisée d'une sous-séquence sonore la plus représentative au sein d'une bande sonore - Google Patents

Recherche automatisée d'une sous-séquence sonore la plus représentative au sein d'une bande sonore Download PDF

Info

Publication number
WO2016071085A1
WO2016071085A1 PCT/EP2015/073784 EP2015073784W WO2016071085A1 WO 2016071085 A1 WO2016071085 A1 WO 2016071085A1 EP 2015073784 W EP2015073784 W EP 2015073784W WO 2016071085 A1 WO2016071085 A1 WO 2016071085A1
Authority
WO
WIPO (PCT)
Prior art keywords
sequence
elementary
sequences
soundtrack
representative
Prior art date
Application number
PCT/EP2015/073784
Other languages
English (en)
Inventor
Pierre HANNA
Pascal FERRARO
Matthias ROBINE
Julien ALLALI
Original Assignee
Universite de Bordeaux
Centre National De La Recherche Scientifique (Cnrs)
Institut Polytechnique De Bordeaux
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Universite de Bordeaux, Centre National De La Recherche Scientifique (Cnrs), Institut Polytechnique De Bordeaux filed Critical Universite de Bordeaux
Publication of WO2016071085A1 publication Critical patent/WO2016071085A1/fr

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • G10H1/0025Automatic or semi-automatic music composition, e.g. producing random music, applying rules from music theory or modifying a musical piece
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/041Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal based on mfcc [mel -frequency spectral coefficients]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/061Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of musical phrases, isolation of musically relevant segments, e.g. musical thumbnail generation, or for temporal structure analysis of a musical piece, e.g. determination of the movement sequence of a musical work
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/101Music Composition or musical creation; Tools or processes therefor
    • G10H2210/105Composing aid, e.g. for supporting creation, edition or modification of a piece of music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
    • G10H2240/141Library retrieval matching, i.e. any of the steps of matching an inputted segment or phrase with musical database contents, e.g. query by humming, singing or playing; the steps may include, e.g. musical analysis of the input, musical feature extraction, query formulation, or details of the retrieval process

Definitions

  • the invention generally relates to methods of analyzing and processing soundtracks.
  • Soundtracks may be musical productions, for example music tracks, and may be marketed as audio CDs. It is also possible to market soundtracks by digital means of online sales.
  • extracts of the titles are made available to potential buyers. These extracts, of relatively short durations, for example ranging from 30 to 45 seconds, are intended to offer an overview of the works offered for sale.
  • Extracts chosen in this way are rarely representative of the works from which they come, and they may mislead customers. Some potential buyers may be discouraged from making the purchase. Other potential buyers may be disappointed to have acquired works that would not meet their expectations. These frustrated buyers may then turn away permanently from such a music sales system.
  • the document FR 2 856 8 17 describes the automated processing of a soundtrack in which a processing of Spectral transformation can identify a repeated subsequence, and locate the beginning and end of this repeated subsequence.
  • the repeated sub-sequences generally coincide with either the choruses or the verses of the tracks or titles analyzed, when the latter actually include a chorus and verses.
  • the present invention therefore aims to overcome the disadvantages presented above, and in particular to allow the automatic determination of a sub-sequence representative of a soundtrack within this soundtrack in a simple manner, with a duration that can be chosen.
  • the subject of the invention is therefore an automated search method for at least one sound sub-sequence within at least one soundtrack, the desired sound sub-sequence being representative of said soundtrack, comprising an elementary search phase.
  • automated system comprising:
  • N the number of elementary sequences forming said soundtrack
  • said decomposition being implemented so that the beginning of the first substring of said sequence coincides with a particular elementary sequence of said symbol string
  • the substring having the highest score being the representative representative sound sub-sequence.
  • sequential decomposition is meant in particular an ordered decomposition or division (e), that is to say of successive elements.
  • the sequential decomposition into a sequence of substrings is implemented so that the elementary start sequences of two consecutive substrings are separated by n-1 elementary sequences, n corresponds to the jump of elementary sequences between two consecutive substrings .
  • the method according to the invention determines a subsequence having a duration of sc previously chosen, and which has a better musical homogeneity with the whole of the soundtrack.
  • Sub-sequences obtained using the method described above can be used to promote musical works.
  • the method can be applied, either directly or with some obvious adaptations, to any type of soundtrack, for example audio computer files, or symbolic representations of note sequences or guitar tab files, for example, MIDI files.
  • HPCP tonal descriptors
  • the process described above is suitable regardless of the length of the desired subsequence, that is to say the duration of the extract (or the sample).
  • the method according to the invention is adapted for a length of 45 seconds, but it can also be used for any other subsequence length, whether it is shorter or longer than 45 seconds.
  • the method according to the invention allows for example to choose a second length (different from 45 seconds), which can be determined according to the intended application.
  • a second length different from 45 seconds
  • the at least one inherent sample parameter is selected from the group consisting of tone, rhythm, timbre, chord, lyrics, and pitch context.
  • the calculation of the score corresponding to a cumulative sequence identity rate can be performed by means of an alignment algorithm, for example the Smith-Waterman lo cal alignment algorithm.
  • the computation of the score corresponding to a cumulative sequence identity rate can be performed using a chaining algorithm such as that described in Dan Gusfield's book entitled “Algorithm on Strings, Trees and Sequences”. Cambridge University Press, 1997, 59, 60, 78, 8, 82, 83.
  • the duration d can be between 50 and 1000 milliseconds.
  • a may be equal to 0 and the elementary sequences are not then overlapping.
  • a is between 0, 1 and 0.9 and the sequences are overlapping, a is typically on the order of 0.5.n can be between 1 and 100.
  • n is between 20 and 50.
  • the process according to the invention which is particularly simple and quick to implement and use, advantageously makes it possible to generate a particular sound extract of adjustable duration (that is to say which can be freely fixed by an operator ), possibly standardized, musically representative of a piece and / or a specific musical title.
  • the automated search method defined above can advantageously be used to generate a "summary" of a defined set of soundtracks (in particular, titles of the same album, titles of a compilation of albums, titles of a "playlist", the complete or partial work of an artist / group ).
  • a generation of such a summary then comprises a compilation of extracts, each obtained by means of the elementary phase of automated search of the automated search method defined above.
  • N' repetitive sound sub-sequences in respectively N 'sequences or soundtracks.
  • N 'repetitive sound sub-sequences can form a summary of all N' sound sequences.
  • This summary generation may further comprise a concatenation of said repetitive N 'sound sub-sequences as a single subsequence.
  • the invention also relates to a computer system comprising means configured to implement the method as defined above, for example a computer, comprising means such as a central unit and memory means, configured to implement the method defined above.
  • a computer comprising means such as a central unit and memory means, configured to implement the method defined above.
  • the invention also relates to a computer program product that can be loaded directly into a memory of a computer system, comprising portions of software code for executing the method as defined above when said program is run on said computer system.
  • the invention is obj and a support readable by a computer system, having computer executable instructions adapted to cause the execution by the computer system of the method as defined above.
  • FIGS. 1 and 2 schematically represent the steps of FIG. different modes of implementation of an automated search method according to the invention.
  • the present invention can be implemented to process soundtracks referenced S I in FIG.
  • Such a soundtrack can be a piece of music. It should be noted that such a soundtrack can be obtained after sampling an audio signal, for example at 44.1 kHz as is the case for audio CDs.
  • the soundtrack S I has several well defined portions in the field of music, including a chorus and verses.
  • FIG. 1 schematically shows different steps of an elementary phase 10 of an embodiment of a method according to the invention.
  • the reference SINF generally designates a computer system, for example a computer, comprising means such as a central unit and memory means, configured to implement a mode of implementation of the method according to the invention.
  • Such a method according to the invention makes it possible to automatically search in a soundtrack IF for a representative sub-sequence having a chosen length.
  • the sound sequence SI can be a sampled signal stored on a computer medium.
  • a sequential decomposition is implemented in a first step E l.
  • This sequential decomposition E 1 of the soundtrack comprises a sequential decomposition into an ordered succession of elementary sequences possibly partially overlapping, so that the following formula is verified:
  • N the number of elementary sequences forming said soundtrack.
  • the soundtrack S I is cut into a plurality of elementary sequences all having a chosen length d, for example of the order of 300 milliseconds. This gives a limited number of elementary sequences to be processed.
  • an alphabet Prior to the implementation of the process, an alphabet has been defined. Any alphabet can be used for the implementation of the method. This alphabet contains symbols intended to be assigned to elementary sequences as a function of at least one inherent parameter of these elementary sequences. As an indication, the parameter can be chosen from the group formed by the tone, the rhythm, the timbre, the chord, the words and the tonal context.
  • MCP Meter Class Profiles
  • MFCC Mel Frequency Cepstral Coefficients
  • the inherent parameter is the tonal context
  • each elementary sequence obtained at the output of step E1 is processed to determine the value of the inherent parameter (s) associated with this elementary sequence and then to assign a symbol to this elementary sequence.
  • a string of symbols is thus obtained, which corresponds to a simplified representation of the sound track S I and which is therefore processable automatically in a reasonable time.
  • step E3 is then implemented, in which a sequential decomposition of the symbol chain obtained in step E2 is implemented.
  • the sequential decomposition E3 of said symbol chain comprises a sequential decomposition into a regular sequence of consecutive substrings having a duration dsc corresponding to n elementary sequences, dsc being greater than d.
  • the decomposition is implemented so that the beginning of the first substring of said sequence coincides with a particular elementary sequence of said symbol string.
  • dsc can be 45 seconds.
  • the choice of the second length depends on the user who implements the process.
  • the particular elementary sequence may be the first elementary sequence or another elementary sequence.
  • step E4 the substrings obtained by the step E3 are processed so that a calculation (E4) is implemented.
  • a score corresponding to a cumulative sequence identity rate of the substring is computed with respect to the other substrings.
  • step E5 the substring having the highest score is selected, the substring having the highest score being the representative representative sound sub-sequence S S2.
  • S S2 can contain the chorus.
  • a representative sub-sequence is thus obtained in a soundtrack because of its repetition, and an extract having a chosen length.
  • the elementary phase 10 of automated search described above can be advantageously used to generate a "summary" of a defined set of N 'soundtracks (in particular, titles of the same album, titles a compilation of albums, titles of a "playlist", the complete or partial work of an artist / group ).
  • a generation of such a summary then comprises a compilation of extracts, each obtained by means of said elementary phase of automated search 10.
  • N'elementary phases of automated search 10 N' repetitive sound sub-sequences SS2i-SS2 N 'in respectively N' sequences or soundtracks S1 I -S1N ' .
  • the N 'repetitive sound sub-sequences SS2i-SS2 N ' can form a summary of all the N 'sound sequences S1 I -S1N'.
  • This summary generation may further comprise a concatenation of said N 'repetitive sound sub-sequences SS2-SS2 N ' in the form of a single SSR subsequence.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

Procédé de recherche automatisée d'au moins une sous-séquence (SS2) représentative au sein d'une bande son (S1), comprenant : - une décomposition séquentielle (E1) en une succession ordonnée de séquences élémentaires éventuellement partiellement chevauchantes, - une attribution (E2) d'un symbole choisi dans un alphabet à chaque séquence élémentaire, - une décomposition séquentielle (E3) en sous chaines de n chaines élémentaires, - un calcul (E4) d'un score correspondant à un cumul de taux d'identité de séquence de la sous-chaîne par rapport aux autres sous-chaînes - une détermination (E5) de la sous-chaîne la plus représentative. Application à une collection de N' bandes son et concaténation des N' sous séquences représentatives en une seule séquence, formant un résumé de la collection de bandes son.

Description

RECHERCHE AUTOMATISÉE D'UNE SOUS-SÉQUENCE SONORE LA PLUS REPRÉSENTATIVE AU SEIN D'UNE BANDE SONORE
L 'invention concerne de façon générale les méthodes d' analyse et de traitement des bandes sonores.
Des bandes sonores peuvent correspondre à des productions musicales, par exemple des morceaux de musique, et elles peuvent être commercialisées sous la forme de CD audio . Il est également possible de commercialiser les bandes sonores par des moyens numériques de vente en ligne.
Généralement, aux fins de promouvoir la vente d' œuvres musicales, des extraits des titres sont mis à la disposition d' acheteurs potentiels . Ces extraits, de durées relativement courtes, par exemp le allant de 30 à 45 secondes, sont destinés à offrir un aperçu des œuvres proposées à la vente.
Le choix de ces extraits peut être réalisé de manière plus ou moins arbitraire, par exemple en optant pour un échantillon provenant des premiers instants des titres . Les extraits ainsi choisis, c'est-à-dire de manière arbitraire, sont rarement représentatifs des œuvres dont ils sont issus, et ils peuvent donner un aperçu erroné aux clients. Certains acheteurs potentiels peuvent ainsi être dissuadés de procéder à l ' achat. D ' autres acheteurs potentiels pourraient être déçus d' avoir acquis des œuvres qui ne répondraient nullement à leurs attentes. Ces acheteurs frustrés risquent alors de se détourner définitivement d'un tel système de vente de musique.
Alternativement, il a été proposé de sélectionner des extraits qui correspondent à des refrains et/ou des couplets des titres . Ces passages, du fait de leurs répétitions au sein d'un même morceau, sont censés être musicalement les plus attractifs voire les plus représentatifs du morceau considéré. Des moyens automatisés ont ainsi été développés en vue d 'identifier ces sous-séquences sonores répétées, qui peuvent alors être utilisées comme résumé sonore.
A cet égard, le document FR 2 856 8 17 décrit le traitement automatisé d'une bande sonore dans lequel un traitement de transformée spectrale permet d' identifier une sous-séquence répétée, et de localiser le début et la fin de cette sous-séquence répétée . Les sous- séquences répétées coïncident généralement soit avec les refrains soit avec les couplets des morceaux ou des titres analysés, lorsque ces derniers comprennent effectivement un refrain et des couplets.
La so lution décrite dans le document FR 2 856 8 1 7 a pour inconvénient de fournir des sous-séquences ayant des durées non- standardisées, qui peuvent grandement varier d'un titre à l ' autre. La durée des sous-séquences est totalement indépendante de la volonté de l ' opérateur, elle est en effet intrinsèque au morceau/titre de référence. Un autre inconvénient à cette solution est qu ' elle ne peut être généralisée à tout type de bande sonore, car toutes les bandes sonores ne sont pas constituées d'un refrain et de couplets.
La présente invention a donc pour but de remédier aux inconvénients présentés ci-avant, et en particulier de permettre la détermination automatique d'une sous-séquence représentative d 'une bande sonore au sein de cette bande sonore de manière simple, avec une durée qui peut être choisie.
L 'invention a donc pour objet un procédé de recherche automatisée d' au moins une sous-séquence sonore au sein d' au moins une bande sonore, la sous-séquence sonore recherchée étant représentative de ladite bande sonore, comprenant une phase élémentaire de recherche automatisée comportant :
- une décomposition séquentielle de la bande sonore en une succession ordonnée de séquences élémentaires éventuellement partiellement chevauchantes, de sorte que :
(D - d) 1
N = + 1
d a -a)
avec
D, la durée de la bande sonore,
d, la durée de chacune des séquences élémentaires, , le taux de chevauchement de chaque séquence élémentaire avec la séquence élémentaire qui la précède, a étant supérieur ou égal à 0 et inférieur à 1 , et
N, le nombre de séquences élémentaires formant ladite bande sonore,
- une attribution à chaque séquence élémentaire d'un symbole choisi dans un alphabet en fonction d' au moins un paramètre inhérent de la séquence élémentaire de façon à obtenir une chaîne de symboles représentative de la bande sonore,
- une décomposition séquentielle de ladite chaîne de symboles en une suite régulière de sous-chaînes consécutives ayant une durée dsc correspondant à n séquences élémentaires, dsc étant supérieure à d,
ladite décomposition étant mise en œuvre de façon à ce que le début de la première sous-chaîne de ladite suite coïncide avec une séquence élémentaire particulière de ladite chaîne de symbo les,
- pour chaque sous-chaîne de ladite suite régulière de sous- chaînes, un calcul d'un score correspondant à un cumul de taux d' identité de séquence de la sous-chaîne par rapport aux autres sous- chaînes,
- une sélection de la sous-chaîne ayant le score le plus élevé, la sous-chaîne ayant le score le plus élevé étant la sous-séquence sonore représentative recherchée.
Par décomposition séquentielle, on entend notamment une décomposition ou un découpage ordonné(e), c'est-à-dire d' éléments successifs.
La décomposition séquentielle en une suite de sous-chaînes est mise en œuvre de sorte que les séquences élémentaires de début de deux sous-chaînes consécutives sont séparées par n- 1 séquences élémentaires , n correspond au saut de séquences élémentaires entre deux sous-chaînes consécutives .
Ainsi, contrairement au procédé de traitement décrit dans document FR 2 856 8 17, qui est basé sur une identification de passages répétés, le procédé selon l' invention détermine une sous-séquence ayant une durée dsc choisie préalablement, et qui a une meilleure homogénéité musicale avec l ' ensemble de la bande sonore.
Les sous-séquences obtenues au moyen du procédé décrit ci- avant peuvent être utilisées pour faire la promotion d' œuvres musicales .
On peut noter que le procédé peut être appliqué, soit directement soit moyennant quelques adaptations évidentes, à tout type de bande sonore, par exemple des fichiers informatiques audio , ou encore des représentations symbo liques de suites de notes ou des fichiers de tablature de guitare, par exemple des fichiers MIDI .
A titre indicatif, lors du traitement d'une série de notes ou d' accords formant une bande sonore, on peut obtenir une sous- séquence représentative sous la forme de descripteurs tonaux (HPCP) .
On peut aussi noter que le procédé décrit ci-avant est adapté quelle que soit la longueur de la sous-séquence recherchée, c ' est-à- dire la durée de l ' extrait (ou l ' échantillon) . Typiquement, le procédé selon l' invention est adapté pour une longueur de 45 secondes, mais il peut également être utilisé pour n' importe quelle autre longueur de sous-séquence, qu ' elle soit plus courte ou plus longue que 45 secondes. Ainsi, le procédé selon l' invention permet par exemple de choisir une deuxième longueur (différente de 45 secondes), qui peut être déterminée en fonction de l ' application visée. Aujourd' hui, il est classique de proposer uniquement des échantillons de la même longueur, par exemple uniquement des échantillons de 45 secondes.
Par ailleurs, contrairement au procédé du document mentionné ci-dessus, il est possible ici d' obtenir une sous-séquence d'un morceau de musique qui comporte à la fois le refrain ainsi que quelques secondes précédant le refrain et quelques secondes suivant ce refrain (si le refrain a une longueur inférieure à la deuxième longueur) . On peut obtenir ainsi une sous-séquence qui peut être plus agréable à écouter qu'une sous-séquence qui démarre directement avec le refrain.
On peut noter que pour obtenir la sous-séquence sonore la plus représentative, on peut déterminer à quel instant de la bande sonore correspond le début de la sous-chaîne ayant le score le plus élevé, pour ensuite identifier dans la bande sonore la sous-séquence représentative.
Ledit au moins un paramètre inhérent d' échantillon est choisi dans le groupe formé par la tonalité, le rythme, le timbre, l ' accord, les paroles et le contexte tonal.
Le calcul du score correspondant à un cumul de taux d' identité de séquence peut être effectué au moyen d'un algorithme d' alignement, par exemple l ' algorithme d' alignement lo cal Smith- Waterman.
Alternativement, le calcul du score correspondant à un cumul de taux d' identité de séquence peut être effectué au moyen d'un algorithme de chaînage tel que celui décrit dans l ' ouvrage de Dan Gusfield intitulé « Algorithme on Strings, Trees and Séquences » . Cambridge University Press, 1997,59,60,78 , 8 1 , 82, 83.
II est possible d 'utiliser des algorithmes connus de l' homme du métier qui permettent d'obtenir ces scores . A titre indicatif, on peut mettre en œuvre l ' algorithme BLAST (décrit dans l' article de Altschul SF, Gish W, Miller W, Myers EW et Lipman DJ intitulé « Basic lo cal alignment search tool » J Mo l Bio l. 1990) ou l ' algorithme FASTA (décrit dans l ' article « Rapid and sensitive protein similarity searches » de D J Lipman et W R Pearson, Science 04/ 1985), utilisés dans le domaine de la bio logie.
On peut notamment utiliser pour la détermination de la sous- chaîne la plus répétée un algorithme de détermination de correspondance de chaîne. On obtient ainsi de manière automatique un score de répétition permettant de déduire la sous-chaîne la plus répétée. La séquence élémentaire particulière de ladite chaîne de symbo les peut ne pas être la première séquence élémentaire de ladite chaîne de symbo les. Ainsi, on ne prend pas en compte le début de la bande sonore.
La durée d peut être comprise entre 50 et 1000 millisecondes . Selon un mode de mise en œuvre, a peut être égal à 0 et les séquences élémentaires ne sont alors pas chevauchantes . En variante, a est compris entre 0 , 1 et 0,9 et les séquences sont chevauchantes , a est typiquement de l ' ordre de 0,5.n peut être compris entre 1 et 100. De préférence, n est compris entre 20 et 50.
Le procédé selon l 'invention, de mise en œuvre et d'utilisation particulièrement simples et rapides, permet avantageusement de générer un extrait sonore particulier, d'une durée ajustable (c ' est-à- dire qui peut être librement fixée par un opérateur), éventuellement standardisée, musicalement représentatif d'un morceau et/ou d'un titre musical spécifique.
Selon une autre application particulière, le procédé de recherche automatisé défini ci-avant peut être avantageusement utilisé en vue de générer un « résumé » d'un ensemble défini de bandes sonores (notamment, des titres d 'un même album, des titre d'une compilation d' albums, des titres d'une « playlist », l 'œuvre complète ou partielle d'un artiste/groupe ... ) . Une génération d'un tel résumé comprend alors une compilation d' extraits, chacun obtenu au moyen de la phase élémentaire de recherche automatisée du procédé de recherche automatisée défini ci-avant.
Pour cela, on peut rechercher automatiquement grâce à N ' phases élémentaires de recherche automatisée, N ' sous-séquences sonores répétitives dans respectivement N ' séquences ou bandes sonores . Les N ' sous-séquences sonores répétitives peuvent former un résumé de l ' ensemble des N ' séquences sonores . Cette génération de résumé peut comprendre en outre une concaténation desdites N ' sous- séquences sonores répétitives sous la forme d'une seule sous-séquence. Ainsi, dans le cas du traitement d'un album de musique comprenant N ' séquences ou bandes sonores, on peut obtenir une sous-séquence qui est un résumé de l ' album entier. On peut ainsi obtenir une sous- séquence pouvant comporter plusieurs refrains, représentative de l ' album entier.
L 'invention a également pour obj et un système informatique comprenant des moyens configurés pour mettre en œuvre le procédé tel que défini ci-avant, par exemple un ordinateur, comportant des moyens tels qu'une unité centrale et des moyens de mémoire, configurés pour mettre en œuvre le procédé défini ci-avant . L 'invention a également pour obj et un produit programme d' ordinateur chargeable directement dans une mémoire d'un système informatique, comprenant des portions de code de logiciel pour l ' exécution du procédé tel que défini ci-avant lorsque ledit programme est exécuté sur ledit système informatique .
Enfin, l 'invention a pour obj et un support lisible par un système informatique, ayant des instructions exécutables par ordinateur adaptées pour provoquer l ' exécution par le système informatique du procédé tel que défini ci-avant.
D ' autres avantages et caractéristiques de l ' invention apparaîtront à l ' examen de la description détaillée de modes de mise en œuvre et de réalisation, nullement limitatifs, et des dessins annexés sur lesquels les figures 1 et 2 représentent de manière schématique les étapes de différents modes de mise en œuvre d'un procédé de recherche automatisée selon l' invention.
La présente invention peut être mise en œuvre pour traiter des bandes sonores référencées S I sur la figure 1 .
Une telle bande sonore peut être un morceau de musique. I l convient de noter qu'une telle bande sonore peut être obtenue après un échantillonnage d'un signal audio, par exemple à 44, 1 kHz comme tel est le cas pour les CD audio .
La bande sonore S I a plusieurs portions bien définies dans le domaine de la musique, notamment un refrain et des couplets.
Sur la figure 1 , on a représenté de manière schématique différentes étapes d'une phase élémentaire 10 d'un mode de mise en œuvre d'un procédé selon l ' invention.
Par ailleurs, sur la figure 1 , la référence SINF désigne globalement un système informatique, par exemple un ordinateur, comportant des moyens tels qu'une unité centrale et des moyens de mémoire, configurés pour mettre en œuvre un mode de mise en œuvre du procédé selon l' invention.
Un tel procédé selon l' invention permet de rechercher automatiquement dans une bande sonore S I une sous-séquence représentative ayant une longueur choisie. La séquence sonore S I peut être un signal échantillonné stocké sur un support informatique. Pour rendre possible la recherche de la sous-séquence, une décomposition séquentielle est mise en œuvre dans une première étape E l .
Cette décomposition séquentielle E l de la bande sonore comporte une décomposition séquentielle en une succession ordonnée de séquences élémentaires éventuellement partiellement chevauchantes, de sorte que la formule suivante soit vérifiée :
Figure imgf000010_0001
avec :
D, la durée de la bande sonore (S I ),
d, la durée de chacune des séquences élémentaires,
a, le taux de chevauchement de chaque séquence élémentaire avec la séquence élémentaire qui la précède, a étant supérieur ou égal à 0 et inférieur à 1 , et
N, le nombre de séquences élémentaires formant ladite bande sonore.
Dans cette étape, on découpe la bande sonore S I en une pluralité de séquences élémentaires ayant toutes une longueur choisie d, par exemple de l ' ordre de 300 millisecondes. On obtient ainsi un nombre limité de séquences élémentaires à traiter.
Préalablement à la mise en œuvre du procédé, un alphabet a été défini. N ' importe quel alphabet peut être utilisé pour la mise en œuvre du procédé. Cet alphabet comporte des symboles destinés à être attribués à des séquences élémentaires en fonction d' au mo ins un paramètre inhérent de ces séquences élémentaires. A titre indicatif, le paramètre peut être choisi dans le groupe formé par la tonalité, le rythme, le timbre, l ' accord, les paro les et le contexte tonal.
On peut noter que pour la tonalité, il est possible de considérer des descripteurs de type « Pitch Class Profile » (PCP ou chroma), bien connus de l' homme du métier et qui pourra à toutes fins utiles se référer notamment à l ' article de T . Fujishima, intitulé « Realtime chord récognition of musical sound: a System using common lisp music », Proc. of ICMC, pp . 464-467 ( 1999) .
Si le paramètre inhérent est le rythme, il est possible de considérer des descripteurs de type Meter Class Profiles (MCP) tels que ceux décrits dans l ' article de M. Robine, M . Lagrange, P . Hanna, intitulé « Meter Class Profiles For Music Similarity And Retrieval », Proc . of the International Society for Music Information Retrieval Conférence (ISMIR), pp . 639-644, Kobe, Japan, October 2009.
Si le paramètre inhérent est le timbre, on peut considérer des descripteurs de type Mel Frequency Cepstral Coefficients (MFCC), bien connus de l 'homme de l ' art.
Si le paramètre inhérent est le contexte tonal, on peut attribuer un symbo le en fonction du contexte tonal, chaque symbole pouvant être associé notamment à une amplitude de spectre et à une octave.
Ainsi, lors d'une deuxième étape E2, chaque séquence élémentaire obtenue en sortie de l ' étape E l est traitée pour déterminer la valeur du ou des paramètres inhérents associés à cette séquence élémentaire pour ensuite attribuer un symbo le à cette séquence élémentaire. On obtient ainsi une chaîne de symbo les, qui correspond à une représentation simplifiée de la bande sonore S I et qui est donc traitable de façon automatique en un temps raisonnable.
L ' homme du métier sait déterminer les valeurs de ces paramètres pour une séquence élémentaire. A titre d' exemple, on peut mettre en œuvre une étape de mesure du paramètre de la séquence élémentaire, et lire ensuite dans une cartographie ayant en entrée des valeurs de paramètre inhérent et délivrant en sortie le symbo le à associer.
Une étape E3 est ensuite mise en œuvre, dans laquelle on met en œuvre une décomposition séquentielle de la chaîne de symboles obtenue à l ' étape E2.
La décomposition séquentielle E3 de ladite chaîne de symboles comporte une décomposition séquentielle en une suite régulière de sous-chaînes consécutives ayant une durée dsc correspondant à n séquences élémentaires, dsc étant supérieure à d. La décomposition est mise en œuvre de façon à ce que le début de la première sous- chaîne de ladite suite coïncide avec une séquence élémentaire particulière de ladite chaîne de symboles.
A titre indicatif, dsc peut être 45 secondes . Le choix de la deuxième longueur dépend de l 'utilisateur qui met en œuvre le procédé. La séquence élémentaire particulière peut être la première séquence élémentaire ou une autre séquence élémentaire.
Au cours d'une étape E4, les sous-chaînes obtenues par l ' étape E3 sont traitées pour qu'un calcul (E4) soit mis en œuvre. Dans l ' étape E4, on calcule un score correspondant à un cumul de taux d ' identité de séquence de la sous-chaîne par rapport aux autres sous-chaînes.
La détermination de ces scores peut être mise en œuvre au moyen d' algorithmes de détermination de correspondance de chaîne ou d' algorithmes d' alignement local. Comme on le conçoit, l 'utilisation d'un alphabet restreint permet de limiter la comp lexité de la mise en œuvre du procédé. À titre indicatif, on peut mettre en œuvre les algorithmes BLAST ou FASTA, utilisés dans le domaine de la bio logie, on encore l ' algorithme Smith-Waterman. Il convient de noter qu' il est possible, en utilisant de tels algorithmes, de déterminer la sous-séquence répétitive avec une complexité notée 0(|x|2log(|x |)), où O correspond à la notation de Landau et x correspond à la longueur de la chaîne de symbo les obtenue en sortie de l' étape E2.
Enfin, dans l ' étape E5 on sélectionne la sous-chaîne ayant le score le plus élevé, la sous-chaîne ayant le score le plus élevé étant la sous-séquence sonore représentative recherchée S S2.
Si S I est un morceau de musique, alors S S2 peut contenir le refrain.
On obtient ainsi une sous-séquence représentative dans une bande sonore du fait de sa répétition, et un extrait ayant une longueur choisie.
Selon une autre application particulière, la phase élémentaire 10 de recherche automatisé décrite ci-avant peut être avantageusement utilisée en vue de générer un « résumé » d'un ensemble défini de N ' bandes sonores (notamment, des titres d 'un même album, des titres d'une compilation d'albums, des titres d'une « playlist », l'œuvre complète ou partielle d'un artiste/groupe...). Une génération d'un tel résumé comprend alors une compilation d'extraits, chacun obtenu au moyen de ladite phase élémentaire de recherche automatisée 10.
Pour cela, comme illustré sur la figure 2, on peut rechercher automatiquement grâce à N' phases élémentaires de recherche automatisée 10, N' sous-séquences sonores répétitives SS2i-SS2N' dans respectivement N' séquences ou bandes sonores S1I-S1N'.
Les N' sous-séquences sonores répétitives SS2i-SS2N' peuvent former un résumé de l'ensemble des N' séquences sonores S1I-S1N'.
Cette génération de résumé peut comprendre en outre une concaténation 20 desdites N' sous-séquences sonores répétitives SS2i- SS2N' sous la forme d'une seule sous-séquence SSR.
Ainsi, dans le cas du traitement d'un album de musique comprenant N' séquences ou bandes sonores S1I-S1N', on peut obtenir une sous-séquence SSR qui est un résumé de l'album entier.
On peut ainsi obtenir une sous-séquence SSR pouvant comporter plusieurs refrains, représentative de l'album entier.

Claims

REVENDICATIONS
1 . Procédé de recherche automatisée d' au moins une sous- séquence sonore (S S2) au sein d' au moins une bande sonore (S I ), la sous-séquence sonore recherchée étant représentative de ladite au moins une bande sonore, comprenant une phase élémentaire de recherche automatisée comportant :
une décomposition séquentielle (E l ) de la bande sonore en une succession ordonnée de séquences élémentaires éventuellement partiellement chevauchantes, de sorte que :
Figure imgf000014_0001
avec :
D, la durée de la bande sonore (S I ),
d, la durée de chacune des séquences élémentaires,
a, le taux de chevauchement de chaque séquence élémentaire avec la séquence élémentaire qui la précède, a étant supérieur ou égal à 0 et inférieur à 1 , et
N, le nombre de séquences élémentaires formant ladite bande sonore,
une attribution (E2) à chaque séquence élémentaire d'un symbo le choisi dans un alphabet en fonction d ' au moins un paramètre inhérent de la séquence élémentaire, de façon à obtenir une chaîne de symbo les,
une décomposition séquentielle (E3) de ladite chaîne de symbo les en une suite régulière de sous-chaînes consécutives ayant une durée dsc correspondant à n séquences élémentaires, dsc étant supérieure à d, ladite décomposition étant mise en œuvre de façon à ce que le début de la première sous-chaîne de ladite suite coïncide avec une séquence élémentaire particulière de ladite chaîne de symbo les,
pour chaque sous-chaîne de ladite suite régulière de sous-chaînes, un calcul (E4) d'un score correspondant à un cumul de taux d'identité de séquence de la sous- chaîne par rapport aux autres sous-chaînes,
une sélection (E5) de la sous-chaîne ayant le score le plus élevé, la sous-chaîne ayant le score le p lus élevé étant la sous-séquence sonore représentative recherchée.
2. Procédé selon la revendication 1 , dans lequel ledit au moins un paramètre inhérent d' échantillon est choisi dans le groupe formé par la tonalité, le rythme, le timbre, l ' accord, les paroles et le contexte tonal.
3. Procédé selon la revendication 2 , dans lequel le paramètre inhérent est le contexte tonal, et dans lequel on attribue un symbo le en fonction du contexte tonal.
4. Procédé selon la revendication 3 , dans lequel chaque symbo le est associé à une amplitude de spectre et à une octave.
5. Procédé selon l 'une quelconque des revendications précédentes, dans lequel le calcul du score correspondant à un cumul de taux d' identité de séquence est effectué au moyen d'un algorithme d' alignement.
6. Procédé selon l 'une quelconque des revendications 1 à 4, dans lequel le calcul du score correspondant à un cumul de taux d' identité de séquence est effectué au moyen d'un algorithme de chaînage.
7. Procédé selon l 'une quelconque des revendications précédentes, dans lequel la séquence élémentaire particulière de ladite chaîne de symbo les n' est pas la première séquence élémentaire de ladite chaîne de symbo les.
8. Procédé selon l 'une quelconque des revendications précédentes, dans lequel la durée d est comprise entre 50 et 1000 millisecondes .
9. Procédé selon l 'une quelconque des revendications précédentes, dans lequel a est égal à 0 et dans lequel les séquences élémentaires ne sont pas chevauchantes .
10. Procédé selon l 'une quelconque des revendications précédentes, dans lequel a est compris entre 0, 1 et 0 ,9 et dans lequel les séquences sont chevauchantes .
1 1 . Procédé selon l 'une quelconque des revendications précédentes, dans lequel n est compris entre 1 et 100.
12. Procédé selon l 'une quelconque des revendications précédentes, comprenant N ' phases élémentaires de recherche automatisée délivrant respectivement N ' sous-séquences sonores respectivement représentatives de N' bandes sonores de façon à générer un résumé de l ' ensemble des N ' bandes sonores .
13. Procédé selon la revendication 12, comprenant en outre une concaténation des N ' sous-séquences en une seule sous-séquence.
14. Système informatique comprenant des moyens configurés pour mettre en œuvre le procédé selon l 'une des revendications 1 à 13.
15. Produit programme d' ordinateur chargeable directement dans une mémoire d'un système informatique, comprenant des portions de code de logiciel pour l ' exécution du procédé selon l 'une des revendications 1 à 13 lorsque ledit programme est exécuté sur ledit système informatique.
16. Support lisible par un système informatique, ayant des instructions exécutables par ordinateur adaptées pour provoquer l ' exécution par le système informatique du procédé selon l 'une des revendications 1 à 13.
PCT/EP2015/073784 2014-11-04 2015-10-14 Recherche automatisée d'une sous-séquence sonore la plus représentative au sein d'une bande sonore WO2016071085A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1460622A FR3028086B1 (fr) 2014-11-04 2014-11-04 Procede de recherche automatise d'au moins une sous-sequence sonore representative au sein d'une bande sonore
FR1460622 2014-11-04

Publications (1)

Publication Number Publication Date
WO2016071085A1 true WO2016071085A1 (fr) 2016-05-12

Family

ID=52423876

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2015/073784 WO2016071085A1 (fr) 2014-11-04 2015-10-14 Recherche automatisée d'une sous-séquence sonore la plus représentative au sein d'une bande sonore

Country Status (2)

Country Link
FR (1) FR3028086B1 (fr)
WO (1) WO2016071085A1 (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115294947A (zh) * 2022-07-29 2022-11-04 腾讯科技(深圳)有限公司 音频数据处理方法、装置、电子设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6225546B1 (en) * 2000-04-05 2001-05-01 International Business Machines Corporation Method and apparatus for music summarization and creation of audio summaries
FR2856817A1 (fr) * 2003-06-25 2004-12-31 France Telecom Procede de traitement d'une sequence sonore, telle qu'un morceau musical
US20110276864A1 (en) * 2010-04-14 2011-11-10 Orange Vallee Process for creating a media sequence by coherent groups of media files
US20120167748A1 (en) * 2010-12-30 2012-07-05 International Business Machines Corporation Automatically acquiring feature segments in a music file
CN103440313A (zh) * 2013-08-27 2013-12-11 复旦大学 基于音频指纹特征的音乐检索系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6225546B1 (en) * 2000-04-05 2001-05-01 International Business Machines Corporation Method and apparatus for music summarization and creation of audio summaries
FR2856817A1 (fr) * 2003-06-25 2004-12-31 France Telecom Procede de traitement d'une sequence sonore, telle qu'un morceau musical
US20110276864A1 (en) * 2010-04-14 2011-11-10 Orange Vallee Process for creating a media sequence by coherent groups of media files
US20120167748A1 (en) * 2010-12-30 2012-07-05 International Business Machines Corporation Automatically acquiring feature segments in a music file
CN103440313A (zh) * 2013-08-27 2013-12-11 复旦大学 基于音频指纹特征的音乐检索系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ARONOWITZ H: "Segmental Modeling for Audio Segmentation", 2007 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING 15-20 APRIL 2007 HONOLULU, HI, USA, IEEE, PISCATAWAY, NJ, USA, 15 April 2007 (2007-04-15), pages IV - 393, XP031463869, ISBN: 978-1-4244-0727-9 *
BENJAMIN MARTIN ET AL: "Indexing musical pieces using their major repetition", DIGITAL LIBRARIES, ACM, 2 PENN PLAZA, SUITE 701 NEW YORK NY 10121-0701 USA, 13 June 2011 (2011-06-13), pages 153 - 156, XP058003961, ISBN: 978-1-4503-0744-4, DOI: 10.1145/1998076.1998106 *
JULIEN ALLALI ET AL: "Polyphonic Alignment Algorithms for Symbolic Music Retrieval", 18 May 2009, AUDITORY DISPLAY, SPRINGER BERLIN HEIDELBERG, BERLIN, HEIDELBERG, PAGE(S) 466 - 482, ISBN: 978-3-642-12438-9, XP019141402 *
PIERRE HANNA ET AL: "Recherche de documents musicaux par similarité mélodique", DOCUMENT NUMÉRIQUE 3/2008 (VOL. 11), 1 March 2008 (2008-03-01), Bordeaux, pages 107 - 125, XP055225669, Retrieved from the Internet <URL:http://www.cairn.info/revue-document-numerique-2008-3-page-107.htm> [retrieved on 20151104] *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115294947A (zh) * 2022-07-29 2022-11-04 腾讯科技(深圳)有限公司 音频数据处理方法、装置、电子设备及介质
CN115294947B (zh) * 2022-07-29 2024-06-11 腾讯科技(深圳)有限公司 音频数据处理方法、装置、电子设备及介质

Also Published As

Publication number Publication date
FR3028086A1 (fr) 2016-05-06
FR3028086B1 (fr) 2019-06-14

Similar Documents

Publication Publication Date Title
Gómez et al. Towards computer-assisted flamenco transcription: An experimental comparison of automatic transcription algorithms as applied to a cappella singing
Lin et al. A unified model for zero-shot music source separation, transcription and synthesis
Hargreaves et al. Structural segmentation of multitrack audio
Hsieh et al. Addressing the confounds of accompaniments in singer identification
FR3098973A1 (fr) Procédé de séparation d’un signal acoustique de mélange en une pluralité de M contributions sonores ; Produit programme d’ordinateur et support lisible d’informations associés.
JP2007520727A (ja) 楽曲のようなサウンドシーケンスを処理する方法
FR3028086B1 (fr) Procede de recherche automatise d&#39;au moins une sous-sequence sonore representative au sein d&#39;une bande sonore
Bielecki Few-shot bioacoustic event detection with prototypical networks, knowledge distillation and attention transfer loss
Rao et al. Structural Segmentation of Alap in Dhrupad Vocal Concerts.
Makris et al. The greek audio dataset
Sha et al. Singing voice timbre classification of Chinese popular music
Müller et al. A Cross-version Approach for Stabilizing Tempo-based Novelty Detection.
Vasudevan et al. A hybrid cluster-classifier model for Carnatic raga classification
Maia et al. SAMBASET: A dataset of historical samba de enredo recordings for computational music analysis
Gong et al. Towards an efficient deep learning model for musical onset detection
Ujlambkar et al. Automatic mood classification model for indian popular music
Zhang et al. The JinYue database for huqin music emotion, scene and imagery recognition
Nguyen et al. Approximate nearest neighbour-based index tree: a case study for instrumental music search
Fuentes Multi-scale computational rhythm analysis: a framework for sections, downbeats, beats, and microtiming
Peiris et al. Musical genre classification of recorded songs based on music structure similarity
Krishnan et al. Multimodal fusion for segment classification in folk music
Peiris et al. Supervised learning approach for classification of Sri Lankan music based on music structure similarity
Salamon et al. A chroma-based salience function for melody and bass line estimation from music audio signals
Lai [Retracted] Automatic Music Classification Model Based on Instantaneous Frequency and CNNs in High Noise Environment
Desblancs Self-supervised beat tracking in musical signals with polyphonic contrastive learning

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15781071

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15781071

Country of ref document: EP

Kind code of ref document: A1