WO2005004002A2 - Procede de traitement d’une sequence sonore, telle qu’un morceau musical - Google Patents

Procede de traitement d’une sequence sonore, telle qu’un morceau musical Download PDF

Info

Publication number
WO2005004002A2
WO2005004002A2 PCT/FR2004/001493 FR2004001493W WO2005004002A2 WO 2005004002 A2 WO2005004002 A2 WO 2005004002A2 FR 2004001493 W FR2004001493 W FR 2004001493W WO 2005004002 A2 WO2005004002 A2 WO 2005004002A2
Authority
WO
WIPO (PCT)
Prior art keywords
sequence
sub
subsequence
piece
sound
Prior art date
Application number
PCT/FR2004/001493
Other languages
English (en)
Other versions
WO2005004002A3 (fr
Inventor
Geoffroy Peeters
Original Assignee
France Telecom
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom filed Critical France Telecom
Priority to JP2006516296A priority Critical patent/JP2007520727A/ja
Priority to US10/562,242 priority patent/US20060288849A1/en
Priority to EP04767355A priority patent/EP1636789A2/fr
Publication of WO2005004002A2 publication Critical patent/WO2005004002A2/fr
Publication of WO2005004002A3 publication Critical patent/WO2005004002A3/fr

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/061Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of musical phrases, isolation of musically relevant segments, e.g. musical thumbnail generation, or for temporal structure analysis of a musical piece, e.g. determination of the movement sequence of a musical work

Definitions

  • the present invention relates to the processing of a sound sequence, such as a piece of music or, more generally, a sound sequence comprising the repetition of a sub-sequence.
  • the distributors of musical productions make available to potential customers kiosks where customers can listen to music of their choice, or even music promoted because of their novelty.
  • customers can listen to music of their choice, or even music promoted because of their novelty.
  • a customer recognizes a verse or a chorus of the musical piece he is listening to, he can decide to buy the corresponding musical production.
  • .Des sound summaries can be downloaded .a 'station communicating with a remote server via an extensive network of the Internet type. The user of the computer station can thus order a musical production, 11 of which appreciates the sound summary.
  • the present invention improves the situation.
  • One of the aims of the present invention is to propose an automated detection of a repeated subsequence in a sound sequence.
  • Another object of the present invention is to propose an automated creation of sound summaries of the type described above.
  • the present invention relates firstly to a method of processing a sound sequence, in which: a) a spectral transform is applied to said sequence in order to obtain spectral coefficients varying as a function of time in said sequence.
  • the method within the meaning of the invention further comprises the following steps: b) at least 'a subsequence repeated in said sequence is determined by statistical analysis of said spectral coefficients, and ' 'c) moments are evaluated start and end of said sub-sequence in the sound sequence.
  • the above-mentioned sub-sequence is extracted to store, in a memory, sound samples representing said 'sub-sequence. . J
  • the extraction of step d) relates to at least one subsequence ' the duration of which is the greatest and / or a subsequence of which the repetition frequency is the greatest in said sequence.
  • the present invention finds an advantageous application in assisting in the detection of failures of industrial machines or of engines, in particular by obtaining sound recording sequences of acceleration and deceleration phases of the engine speed.
  • the application of the method within the meaning of the invention makes it possible to isolate a sound sub-sequence corresponding for example to a full speed or to an acceleration phase, this sub-sequence being, if necessary, compared to a sub- reference sequence.
  • the sequence The aforementioned sound is a piece of music comprising a succession of sub-sequences among at least an introduction, a verse, a chorus, a transition bridge, a theme, a motif, or a movement which is repeated in the sequence.
  • step c) the respective instants for the start and end of a first sub-sequence and of a second sub-sequence are preferably determined at least.
  • step d) a first and a second sub-sequence are then extracted to obtain, on a memory medium, a sound summary of said piece of music comprising at least the first sub-sequence chained with the second subsequence.
  • the first sub-sequence corresponds to a verse and the second sub-sequence corresponds to a chorus.
  • first and second subsequences extracted from a sound sequence, are not contiguous in time.
  • dl detecting at least one cadence of the first sub-sequence and / or of the second sub-sequence to estimate the average duration of a measurement at said cadence, as well as at least one end segment of the first sub-sequence and at least one start segment of the second sub-sequence, of respective durations corresponding substantially to said average and isolated duration in ' "the sequence of a whole number of average durations, d2) . generate at least one .
  • transition measure of duration corresponding to said average duration comprising an addition of sound samples "&" at least said segment end and at least said starting segment, d3) and concatenating the first 'sub-sequence, or • the transition measures and the second sub-sequence to obtain the sequence of the first and the second subsequence.
  • steps dl) to d3) finds, beyond the automatic generation of sound summaries, an advantageous application to computer-assisted musical creation.
  • a user can create two subsequences of a musical piece himself, while software comprising instructions for carrying out steps dl) to d3) ensures a concatenation of the two subsequences, without artifact and pleasant to the ear.
  • the present invention also relates to a computer program product, stored in a computer memory or on a removable medium suitable for cooperating with a homologous computer reader, and comprising instructions for carrying out the steps of the method. within the meaning of the invention.
  • the audio signal in FIG. 1a represents the sound intensity (on the ordinate) as a function of time (on the abscissa) a musical piece (here, the song "head over feet” ® by artist Alanis Morissette).
  • a musical piece here, the song "head over feet” ® by artist Alanis Morissette.
  • a spectral transform is applied (for example of the fast Fourier transform FFT type) to obtain a temporal variation of the spectral energy of the type represented in FIG. 1b.
  • the result of which is applied to a filter bank over several frequency ranges (preferably of increasing bandwidths such as the logarithmic of the frequency).
  • Another Fourier transform is then applied to obtain dynamic parameters of the audio signal (referenced PD in FIG. 1b).
  • the ordinate scale of FIG. 1b indicates the amplitude of the variations of the components at different speeds in a given frequency domain.
  • the index 0 or 2 of the arbitrary ordinate scale of FIG. 1b corresponds to a slow variation in the low frequencies
  • the index 12 of this same scale corresponds to a rapid variation in the high frequencies.
  • These variations are expressed as a function of time, on the abscissa (seconds).
  • the intensities associated with these dynamic parameters PD, over time are illustrated by different levels of gray including the values relative "are indicated by there " COL reference column (on the right of figure lb). •
  • the variables deduced from the audio signal and 'making it possible to characterize the. piece of music can be 'of different types, including said coefficients "Mel Frequency Cepstral Coefficients". Overall, it is indicated that these coefficients (known per se) are still obtained by fast Fourier transform, in the short term.
  • the figure le provides a visual representation of the evolution of the spectral energy of figure lb.
  • the abscissa represents time (in seconds) and the ordinates represent the different parts of the piece, such as verses, choruses, introduction, theme, or others.
  • the repetition over time of a similar part, such as a verse or a chorus, is represented by shaded rectangles which appear at different abscissa in time (and which can be of different temporal widths), but similarly ordered .
  • a statistical analysis is implemented using for example the "K-means” algorithm, or even the algorithm “FUZZY K-means”, or a hidden Markov chain, with learning by the BAUM-ELSH algorithm, followed by an evaluation by the VITERBI algorithm.
  • the determination of the number of states ' (the parts of the piece of music) which are necessary for the representation of a piece of music is performed in an automated manner, by comparison of the similarity of the states found at each iteration of the algorithms above, and eliminating redundant states.
  • This technique known as "pruning” thus makes it possible to isolate each redundant part of the piece of music and to determine its time coordinates (its start and end times, as indicated above).
  • a chorus part For most variety pieces, we can choose to isolate the chorus parts, whose repetition is generally the most frequent, then the verse parts, whose repetition is frequent, then, if necessary, d 'other parts if they are repeated. Others are indicated. types of sub-sequences representative of the piece of music can be extracted, as soon as these "sub-sequences are repeated in the piece of music. For example, one can choose to extract a musical motif ', generally more short, a verse or a chorus, such as a pass. percussion repeated in the song, or a phrase "voice punctuated several times in the song. also, a theme can also be extracted from piece of music, for example a musical phrase repeated in a piece of jazz or classical music In classical music, a passage such as a movement can also be extracted.
  • the shaded rectangles indicate the presence of a part of the song such as the introduction ("intro"), a verse or a chorus in a window time indicated by the time abscissa (in seconds).
  • introduction a part of the song
  • abscissa in seconds
  • the piece of music starts with an introduction (indexed by the number 2 on the ordinate scale).
  • the introduction is followed by two alternations of verse (indexed by the number 3) and refrain (indexed by the number 1) up to approximately 100 seconds.
  • FIG. 5 we get the audio signals on the left channel “audio L” and on the right channel “audio R” in the respective steps 10 and 11, when the initial sound sequence is represented in stereophonic mode.
  • the signals from these two channels are added in step 12 to obtain an audio signal of the type shown in the figure there.
  • This audio signal is, if necessary, stored in sampled form in a working memory with sound intensity values arranged as a function of their associated time coordinates (step 14).
  • a spectral transform (of FFT type in the example shown) is applied, in step 1.6, to obtain, in step 18, the spectral coefficients Fi (t) and / or their variation ⁇ Fi ( t) as a function of time.
  • a statistical analysis module operates on the basis of the coefficients obtained in step 18 to isolate instants t 0, t,. , ..., t 7 which correspond to instants of start and end of the various subsequences which are repeated in the audio signal of stage 14.
  • the piece of music has a structure (classic in variety) of the type comprising: - an introduction at the start of the piece between an instant t 0 and an instant t 1 # - a verse between tj and t 2 , - a refrain between t 2 and t 3 , - a second verse between t 3 and t 4 , - a second refrain between t 4 and t s , - an introduction, again, if necessary with an instrumental solo, between the instants t 5 and t 6 , and - the repetition of two 'refrains end. of piece between instants t 6 and t 7 .
  • step 22 the instants t p '- to t 7 are listed and indexed as a function of the • ' pa ⁇ sagé '• corresponding music (introduction, verse or .refrain) • and stored, if necessary, in a working memory .
  • step '23 we can then construct a visual summary of this piece of music, as shown in ' Figure'.
  • the sound summary is constructed from a verse extracted from the piece, followed by a chorus extracted from the piece.
  • a concatenation of the sound samples of the audio signal is prepared between the instants ti and t 2 , on the one hand, and between the instants t 2 and t 3 , on the other hand, in the example described . If necessary, the result of this concatenation is stored in a permanent memory MEM for later use, in step 26.
  • the end time of an isolated verse and the start time of an isolated chorus are not necessarily identical, or alternatively, one can choose to construct the sound summary from the first verse and the second chorus (between t 4 and t 5 ) or the end chorus
  • One of the aims of this concatenation construction is to locally preserve the tempo of the sound signal.
  • Another aim is to ensure a temporal distance between concatenation points (or "alignment” points) equal to an integer multiple of the duration of a measurement.
  • this concatenation is carried out by superposition / addition of selected sound segments and isolated from the two aforementioned respective parts of the piece of music.
  • beat synchronization (called “beat -synchronous")
  • measurement synchronization according to a preferred embodiment.
  • - bpm the number of beats per minute of a piece of music
  • - T the duration (expressed in seconds) of a beat, that is to say of the reference D: in the example, previous where D ⁇ noire
  • the segments s ⁇ (t) and ⁇ j (t) are first formed by cutting the audio signal using a time window h L (t), of width L and defined ( of non-zero value) between 0 and L.
  • This window can be of rectangular type, of so-called “hanning” type, of so-called “level hanning” type, or other.
  • a preferred type of time window is obtained by concatenating a rising edge, a landing and a falling edge. The preferred time width of this window is shown below.
  • bi and bj be two respective positions inside the first and second segments, called “synchronization positions", with respect to which the superposition / addition takes place, such as: 0 ⁇ bi ⁇ L and 0 ⁇ b j ⁇ L [2]
  • T duration of a beat
  • kT duration of a beat
  • the distance between the instants mi and ⁇ i j is chosen equal to an integer multiple of k'NT, in which N denotes the numerator of the metric.
  • FIG. 4 illustrates this situation. Note in FIG. 4 that the width L of the aforementioned time window is close to k'NT (near the rising and falling sides). However, one will preferentially choose in this case sidewall ramps such that k 'T ⁇ L-2 (b ⁇ - ⁇ ii).
  • the instants mi and m j are chosen so that they correspond to the first measurement times. Under these conditions, a so-called “aligned" beat-synchronous superposition / addition is advantageously obtained.
  • Each integer kj ' is defined as the largest integer t such that kj " ' T ⁇ Lj - (bj - ⁇ ij), where L j corresponds to the width of the window of the jth musical passage to be concatenated.
  • the first measurement times, or the metric, or even the tempo of a piece of music can be detected automatically, for example by using existing software applications.
  • the MPEG-7 standard (Audio Version 2) provides for the determination and description of the tempo and the metric of a piece of music, using such software applications.
  • the sound summary may include more than two musical passages, for example an introduction, a verse and a chorus, or even two different passages of a verse and a chorus, such as the introduction and a chorus, for example.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

L'invention concerne le traitement d'une séquence sonore, telle qu'un morceau de musique. Après avoir appliqué une transformée spectrale à cette séquence, on détermine, par analyse statistique des coefficients spectraux résultant, au moins une sous-séquence répétée dans la séquence précitée, telle qu'un refrain et/ou un couplet du morceau de musique, et on évalue des instants de début et de fin de cette sous-séquence notamment pour préparer un résumé sonore du morceau de musique.

Description

Procédé de traitement d'une séquence sonore, telle qu'un morceau musical
La présente invention concerne le traitement d'une séquence sonore, telle qu'un morceau de musique ou, de façon plus générale, une séquence sonore comportant la répétition d'une sous-séquence .
Les distributeurs de productions musicales, par exemple enregistrées sur CD, cassette ou autre support, mettent à la disposition des clients potentiels des kiosques où les clients peuvent écouter une musique de leur choix, ou encore des musiques promues en raison de leur nouveauté. Lorsqu'un client reconnaît un couplet ou un refrain du morceau musical qu'il écoute, il peut décider d'acheter la production musicale correspondante.
De façon plus générale, un auditeur d'attention moyenne concentre davantage son attention sur un enchaînement de couplet et refrain, que sur l'introduction du morceau, notamment. On comprendra ainsi qu'un résumé sonore comportant au moins un couplet et un refrain suffirait pour être diffusé dans des kiosques du type précité, plutôt que prévoir la production musicale complète à diffuser.
Dans une autre application telle que la transmission de données sonores par téléphonie mobile, on comprendra que le téléchargement du morceau de musique complet sur un terminal mobile, à partir d'un serveur distant, est beaucoup plus long et, de là, plus onéreux que le téléchargement d'un résumé sonore du type précité.
De même, dans un contexte de commerce électronique, .des résumés sonores peuvent être téléchargés sur .un 'poste communiquant avec un serveur distant, via un réseau étendu du type INTERNET. L'utilisateur du poste informatique peut ainsi passer commande d'une production musicale dont 11 apprécie le résumé sonore.
Toutefois, détecter à l'oreille un couplet et un refrain et créer ainsi un résumé sonore pour toutes les productions musicales distribuées serait une tâche d'une lourdeur prohibitive.
La présente invention vient améliorer la situation.
L'un des buts de la présente invention est de proposer une détection automatisée d'une sous-séquence répétée dans une séquence sonore .
Un autre but de la présente invention est de proposer une création automatisée de résumés sonores du type décrit ci- avant .
A cet effet, la présente invention porte d'abord sur un procédé de traitement d'une séquence sonore, dans lequel : a) on applique une transformée spectrale à ladite séquence pour obtenir des coefficients spectraux variant en fonction du .temps dans ladite séquence. Le procédé au sens de l'invention comporte, en outre les étapes suivantes : b) on détermine, par .analyse statistique desdits coefficients spectraux, au moins' une sous-séquence répétée dans ladite séquence, et ' ' c) on évalue des instants de début et de fin de ladite sous-séquence dans la séquence sonore.
Avantageusement, selon une étape supplémentaire : d) on .extrait la sous-séquence précitée pour stocker, dans une mémoire, des échantillons sonores représentant ladite' sous-séquence. . J
Préférentiellement , l'extraction de l'étape d) concerne au moins une sous-séquence' dont la durée est la plus importante et/ou une sous-séquence dont la fréquence de répétition est la plus importante dans ladite séquence.
La présente invention trouve une application avantageuse dans l'aide à la détection de défaillances de machines industrielles ou de moteurs, notamment en obtenant des séquences d'enregistrement sonore de phases d'accélération et de décélération du régime moteur. L'application du procédé au sens de l'invention permet d'isoler une sous- séquence sonore correspondant par exemple à un plein régime ou à une phase d'accélération, cette sous-séquence étant, le cas échéant, comparée à une sous-séquence de référence .
Dans une aut-re application avantageuse à l'obtention de données musicales du type décrit ci-avant, la séquence sonore précitée est un morceau de musique comportant une succession de sous-séquences parmi au moins une introduction, un couplet, un refrain, un pont de transition, un thème, un motif, ou un mouvement qui se répète dans la séquence .
A l'étape c) , on détermine préférentiellement au moins les instants respectifs de début et de fin d'une première sous-séquence et d'une seconde sous-séquence .
Dans une réalisation particulièrement avantageuse, à l'étape d) , on extrait alors une première et ' une seconde sous-séquence pour obtenir, sur un support mémoire, un résumé sonore dudit morceau de musique comportant au moins la première sous-séquence enchaînée avec la seconde sous- séquence .
Préférentiellement, la première sous-séquence correspond à un couplet et la seconde sous-séquence correspond à un refrain.
Toutefois, il peut advenir que des première et seconde sous-séquences, extraites d'une séquence sonore, ne soient pas contiguës dans le temps .
A cet effet, on prévoit en outre les étapes suivantes : dl) détecter au moins une cadence de la première sous- séquence et/ou de la seconde sous-séquence pour estimer la durée moyenne d'une mesure à ladite cadence, ainsi qu'au moins un segment de fin de la première sous-séquence et au moins un segment de début de la seconde sous-séquence, de durées respectives correspondant sensiblement à ladite durée .moyenne et isolés dans '"la séquence .d'un nombre entier de durées moyennes, d2) . générer au moins une .mesure' de transition de durée correspondant à ladite durée" moyenne et comportant une addition des échantillons sonores '&' au moins ledit segment de fin et d'au moins ledit segment de début, d3) et concaténer la première ' sous-séquence, la ou les mesures de transition et la seconde sous-séquence pour obtenir l'enchaînement de la première et de la seconde sous-séquence.
On constatera que la succession des étapes dl) à d3) trouve, au-delà de la génération automatique de résumés sonores, une application avantageuse à la création musicale assistée par ordinateur. Dans cette application, un utilisateur peut créer lui-même deux sous-séquences d'un morceau musical, tandis qu'un logiciel comportant des instructions pour dérouler les étapes dl) à d3) assure un enchaînement des deux sous-séquences par concaténation, sans artefact et agréable à l'oreille.
De façon plus générale, la présente invention vise aussi un produit programme d'ordinateur, stocké dans une mémoire d'ordinateur ou sur un support amovible propre à coopérer avec un lecteur homologue d'ordinateur, et comportant des instructions pour dérouler les étapes du procédé au sens de 1 ' invention.
D'autres caractéristiques et avantages de l'invention apparaîtront à l'examen de la description détaillée ci- après, et des dessins annexés sur lesquels : - la figure la représente un signal audio d'un morceau de musique correspondant, dans l'exemple représenté, à une chanson de variété ; - la figure lb représente la variation d'énergie spectrale en fonction du temps,- pour le morceau de musique dont le signal audio est représenté sur la figure la ; - la figure le illustre les durées occupées par les différents passages du morceau de musique de la figure la et qui se répètent dans ce morceau ; - la figure 2 représente schématiquement des fenêtres temporelles sélectionnées dans deux parties respectives du morceau musical pour préparer la concaténation de ces deux parties, selon la succession des étapes dl) à d3) ci-avant ,- - la figure 3a représente schématiquement des segments Si(t) et Sj (t) sélectionnés dans les parties respectives du morceau précitées, pour préparer une concaténation des deux parties par super- position/addition ; - la figure 3b illustre schématiquement par le signe "Θ" la superposition/addition précitée ; - la figure 4 illustre une fenêtre temporelle pour la concaténation précitée, de forme et de largeur préférées ; et - la figure 5 représente un organigramme de traitement d'une séquence sonore, dans un mode de réalisation préféré de la présente invention.
Le signal audio de la figure la représente 1 ' intensité sonore (en ordonnées) en fonction du temps (en abscisses) d'un morceau musical (ici, le morceau "head over feet "® de l'artiste Alanis Morissette) . Pour construire .ce signal audio, les signaux respectifs des voies droite et gauche (en mode stéréophonique) ont été synchronisés . et additionnés.
Au signal audio représenté sur la figure la, on applique une transformée spectrale (par exemple de type transformée de Fourier rapide FFT) pour obtenir une variation temporelle de 1 ' énergie spectrale du type représenté sur la figure lb.
Dans un mode de réalisation, il s'agit d'une pluralité de FFT à court terme, successives, dont le résultat . est appliqué à un banc de filtres sur plusieurs gammes de fréquences (préférentiellement de largeurs de bande croissantes comme le logarithmique de la fréquence) . Une autre transformée de Fourier est ensuite appliquée pour obtenir des paramètres dynamiques du signal audio (référencés PD sur la figure lb) . En particulier, l'échelle en ordonnées de la figure lb indique l'amplitude des variations des composantes à différentes vitesses dans un domaine de fréquences donné. Ainsi, l'indice 0 ou 2 de l'échelle arbitraire en ordonnées de la figure lb correspond à une variation lente dans les basses fréquences, tandis que l'indice 12 de cette même échelle correspond à une variation rapide dans les hautes fréquences. Ces variations sont exprimées en fonction du temps, en abscisses (secondes) . Les intensités associées à ces paramètres dynamiques PD, au cours du temps, sont illustrées par différents niveaux de gris dont les valeurs relatives" sont indiquées par là" colonne de référence COL (à droite de la figure lb) . •
On indique que les paramètres dynamiques du type représenté sur la figure b permettent d'identifier complètement un morceau de musique. Dans ce contexte d ' " empreinte" d'un morceau de musique, la demande FR- 2834363 de la Demanderesse décrit de façon détaillée ces paramètres1 et la manière de les Obtenir.
En variante, les variables déduites du signal audio et' permettant de caractériser le. morceau de musique peuvent être 'de type différent, notamment des coefficients dits "Mel Frequency Cepstral Coefficients " . Globalement, on indique que ces coefficients (connus en soi) sont encore obtenus par transformée de Fourier rapide, à court terme.
La figure le offre une représentation visuelle de l'évolution de l'énergie spectrale de la figure lb. Sur la figure le, l'abscisse représente le temps (en secondes) et les ordonnées représentent les différentes parties du morceau, tels que les couplets, les refrains, l'introduction, un thème, ou autres. La répétition au cours du temps d'une partie similaire, tel qu'un couplet ou un refrain, est représentée par des rectangles grisés qui apparaissent à différentes abscisses dans le temps (et qui peuvent être de largeurs temporelles différentes) , mais de même ordonnées. Pour passer de la représentation de la figure lb à la représentation de la figure le, on met en œuvre une analyse statistique en utilisant par exemple l'algorithme des "K-means " , ou encore l'algorithme "FUZZY K-means " , ou encore une chaîne de Markov cachée, avec un apprentissage par l'algorithme BAUM- ELSH, suivi d'une évaluation par l'algorithme de VITERBI .
Typiquement, la détermination du nombre d'états' (les parties du morceau de musique) qui sont nécessaires à la représentation d'un morceau de musique s'effectue de façon automatisée, par comparaison de la similarité des états trouvés à chaque itération des algorithmes précités, et en éliminant les états redondants. Cette technique, dite de "pruning" permet ainsi d'isoler chaque partie redondante du morceau de musique et de déterminer ses coordonnées temporelles (ses instants de début et de fin, comme indiqué ci-avant) .
Ainsi, on étudie les variations, par exemple dans les fréquences tonales (d'une voix humaine), de l'énergie spectrale pour déterminer la répétition d'un passage musical particulier dans le signal audio.
Préférentiellement , on cherche à extraire un ou plusieurs passages musicaux dont la durée est la plus importante dans le morceau de musique et/ou dont la fréquence de répétition est la plus importante.
Par exemple, pour la plupart des morceaux de variété, on pourra choisir d'isoler les parties de refrain, dont la répétition est généralement la plus fréquente, puis les parties de couplet, dont la répétition est fréquente, puis, le cas échéant, d'autres parties encore si elles se répètent . On indique que d'autres . types de sous-séquences représentatives du morceau de musique peuvent être extraites,, dès lors que ces " sous-séquences se répètent dans- le morceau de musique. Par , exemple, on peut choisir d'extraire un motif musical', généralement de plus courte durée, qu'un couplet ou un refrain, tel qu'un passage . de percussions répété dans le morceau de musique, ou encore une phrase' vocale scandée plusieurs fois dans le morceau. En outre, un thème peut aussi ' être extrait du morceau de musique, par exemple une phrase musicale répétée dans un' morceau de jazz ou de musique classique. En musique classique, un . passage tel qu'un mouvement peut en outre être extrait .
Sur le résumé visuel représenté à titre d'exemple sur la figure le, les rectangles grisés indiquent la présence d'une partie du morceau telle que l'introduction ("intro"), d'un couplet ou d'un refrain dans une fenêtre temporelle indiquée par l'abscisse temporelle (en secondes) . Ainsi, entre 0 et environ 15 secondes, le morceau de musique démarre par une introduction (indexée par le chiffre 2 sur l'échelle en ordonnées) . L'introduction est suivie de deux alternances de couplet (indexé par le chiffre 3) et de refrain (indexé par le chiffre 1) jusqu'à environ 100 secondes.
On se réfère maintenant à la figure 5 pour décrire les étapes principales du procédé pour obtenir le résumé sonore précité, selon un mode de réalisation préféré. Tout d'abord, on obtient les signaux audio sur la voie gauche "audio L " et sur la voie droite "audio R" aux étapes respectives 10 et 11, lorsque la séquence sonore initiale est représentée en mode stéréophonique. Les signaux de ces deux voies sont additionnés à l'étape 12 pour obtenir, un signal audio du type représenté sur la figure là. Ce signal audio est, le cas échéant, stocké sous forme échantillonnée dans une mémoire de travail avec des valeurs d'intensité sonores rangées en fonction de leurs coordonnées temporelles associées (étape 14) . A ces données audio, on applique une transformée spectrale (de type FFT dans l'exemple représenté), à l'étape 1.6, pour obtenir, à l'étape 18, les coefficients spectraux Fi(t) et/ou leur variation ΔFi(t) en fonction du temps. A l'étape 20, un module d'analyse statistique opère sur la base des coefficients obtenus à l'étape 18 pour isoler des instants t0, t-,., ..., t7 qui correspondent à des instants de début et de fin des différentes sous-séquences qui se répètent dans le signal audio de l'étape 14.
Dans l'exemple représenté, le morceau de musique présente une structure (classique en variété) du type comportant : - une introduction dans le début du morceau entre un instant t0 et un instant t1# - un couplet entre tj et t2, - un refrain entre t2 et t3, - un second couplet entre t3 et t4, - un second refrain entre t4 et ts, - une introduction, à nouveau, le cas échéant agrémentée d'un solo instrumental, entre les instants t5 et t6, et - la répétition de deux ' refrains de fin. de morceau entre les instants t6 et t7.
A l'étape 22, les instants tp '-à t7 sont répertoriés et indexés en fonction du •' paësagé' • musical correspondant (introduction, couplet ou .refrain) et stockés, le cas échéant, dans une mémoire de travail. A l'étape '23, , on peut construire alors un résumé visuel de ce morceau de musique, tel que représenté sur 'la' figure 5.
Dans l'exemple décrit ci-avant d'un morceau de variété' comportant une structure typique, on construit le résumé sonore à partir d'un couplet extrait du morceau, suivi d'un refrain extrait du morceau. A l'étape 24, on prépare une concaténation des échantillons sonores du signal audio entre les instants ti et t2, d'.une part, et entre les instants t2 et t3, d'autre part, dans l'exemple décrit. Le cas échéant, le résultat de cette concaténation est mémorisé dans une mémoire permanente MEM pour une utilisation ultérieure, à l'étape 26.
Toutefois, en règle générale, l'instant de fin d'un couplet isolé et l'instant de début d'un refrain isolé ne sont pas forcément identiques, ou encore, on peut choisir de construire le résumé sonore à partir du premier couplet et du second refrain (entre t4 et t5) ou du refrain de fin
(entre t6 et t7) . Ainsi, les deux passages sélectionnés pour construire le résumé sonore ne sont pas forcément contigus . Une concaténation aveugle de signaux sonores, correspondant à deux parties d'un morceau de musique donne un ressenti désagréable à l'oreille. On .décret ci-après, en référence aux figures 2, 3a, 3b et 4, 'la construction, d'un signal sonore par- concaténation de' deu 'parties d'un morceau de musique, de manière à surmonter ce problème..
L'un des buts de cette construction par concaténation est de préserver localement le tempo du signal sonore .
Un autre but est d'assurer une distance temporelle entre points de concaténation (ou points d' " alignement" ) égale à un multiple entier de la durée d'une mesure.
Préférentiellement , cette concaténation s'effectue par superposition/addition de segments sonores choisis et isolés des deux parties respectives précitées du morceau de musique.
On décrit ci-après une superposition/addition de tels segments sonores, dans un premier temps par synchronisation de beat (dite "beat -synchrone") , puis par synchronisation de mesure selon une réalisation préférée .
On note ci-après : - bpm, le nombre de beats par minute d'un morceau de musique, D, la référence de ce nombre bpm (par exemple dans le cas d'un morceau noté " 120=noire" , bpm=120 et D=noire) , - T, la durée (exprimée en secondes) d'un beat, c'est- à-dire de la référence D : dans l'exemple, précédent où D≈noire, on a r= 60 bpm - N, le numérateur de la métrique du morceau de musique (par exemple, dans le cas d'une mesure notée "3/4", N=3) , M, la durée (exprimée en secondes) d'une mesure, donnée par la relation M≈N.T (soit M=3*60/l20 dans l'exemple précédent), s(t) , le signal audio d'un morceau de musique, s(t) , le signal reconstruit par superposition/addition, et - sι(t) et Sj (t) , les ieme et jeme segments qui comportent des signaux audio respectifs appartenant à un premier et' à un second passage d'un morceau de musique, et qui sont utilisés pour la construction de s(t) par superposition/addition.
En principe, les premier et second passages précités ne sont pas contigus. s(t) est alors obtenu comme suit.
En se référant à la figure 2, les segments sι(t) et Ξj (t) sont d'abord formés par découpage du signal audio à l'aide d'une fenêtre temporelle hL(t), de largeur L et définie (de valeur non nulle) entre 0 et L. Cette fenêtre peut être de type rectangulaire, de type dit "de hanning" , de type dit "de hanning en palier" , ou autre. En se référant à la figure 4, un type préféré de fenêtre temporelle est obtenu par concaténation d'un flanc montant, d'un pallier et d'un flanc descendant. La largeur temporelle préférée de cette fenêtre est indiquée ci-après.
On définit alors le premier segment : si (t) de sorte que :
où mi est l'instant de début".du premier segment.
Comme le montre la figure | 3a, on construit S (t) sensiblement de la même manière : ' Sj(t) = s(t + mj).hL(t) [Ibis] où mj est -L'instant de début du second segment.
Même si la durée L de la fenêtre temporelle est la même pour les deux segments, op. indique toutefois que la forme de la fenêtre peut être • différente d'un segment Sι(t) à l'autre sj (t) , comme le montre d'ailleurs la figure 2.
Soit bi et bj deux positions respectives à l'intérieur des premier et second segments, appelées "posi tions de synchronisation" , par rapport auxquelles s'effectue la superposition/addition, telles que : 0 ≤ bi ≤ L et 0 ≤ bj ≤ L [2]
Avantageusement, la distance temporelle entre bi et bj est choisie égale à un multiple entier de la durée T d'un beat (bj - bi = kT) . Dans ces conditions, on dit qu'il y a reconstruction "beat -synchrone" si J( = ∑ ('- '-1)'(*' + C) [4] 1 avec s ' i (t) = Si (t+bi) [5] et où k' est le plus grand entier tel que k' T ≤ L- (bi -mi) , c est une constante de temps telle que c ≈ -bi-mi.. Avantageusement, la distance entre les instants mi et πij est choisie égale à un multiple entier de k'NT, dans lequel N désigne le numérateur de la métrique.
Ainsi, le signal reconstruit s'écrit : S(t) = ∑st'(t-(i-l)-(k'NT) + c) i
On obtient alors une superposition/addition synchrone à la mesure. La figure 3b illustre cette situation. On remarque sur la figure 4 que la largeur L de la fenêtre temporelle précitée est voisine de k'NT (aux flancs montant et descendant près) . Toutefois, on choisira préférentiellement dans ce cas des rampes de flancs telles que k' T ≤ L-2 (bχ -πii)..
Plus particulièrement, on choisit les instants mi et mj de sorte qu'ils correspondent à des premiers temps de mesures. Dans ces conditions, on obtient avantageusement une superposition/addition beat-synchrone dite " alignée" .
Ainsi, en déterminant en outre la métrique du premier passage et/ou du second passage, on peut effectuer une reconstruction beat-synchrone à la mesure. Si, de plus, on choisit les premier et second segments de sorte qu'ils commencent par un premier temps de mesure, cette reconstruction beat-synchrone est alignée. On indique qu'une reconstruction du signal s(t) peut être menée sur la base de plus' de deux passages musicaux à concaténer. Pour i passages musicaux (i>2) , la généralisation du procédé ci-avant s'exprime par la relation : s(t) = s1'(t + c) + s2'(t-ki ,T + c) + s3 t -k1'T + k2'T + c) + ...
Figure imgf000018_0001
Chaque entier kj ' est défini comme l'entier le plus grand t tel que kj"' T ≤ Lj - (bj -πij) , où Lj correspond à la largeur de la fenêtre du jème passage musical à concaténer.
On indique que les premie s temps de mesure, ou encore la métrique, ou encore le tempo d'un morceau de musique, peuvent être détectés automatiquement, par exemple en utilisant des applications logicielles existantes. Par exemple, la norme MPEG-7 (Audio Version 2) prévoit la détermination et la description du tempo et de la métrique d'un morceau de musique, en utilisant de telles applications logicielles.
Bien entendu, la présente invention ne se limite pas à la forme de réalisation décrite ci-avant à titre d'exemple ; elle s'étend à d'autres variantes.
Ainsi, on comprendra que le résumé sonore peut comporter plus de deux passages musicaux, par exemple une introduction, un couplet et un refrain, ou encore deux passages différents d'un couplet et d'un refrain, tels que l'introduction et un refrain, par exemple.
On remarquera aussi que les étapes représentées sous forme d'organigramme sur la figure 5 peuvent être implémèntées par un logiciel informatique dont l'algorithme reprend globalement la structure de l'organigramme. A ce titre, la présente invention vise aussi un tel programme informatique.

Claims

Revendications
1. Procédé de traitement d'une .séquence sonore, dans lequel : a) on applique une transformée spectrale à ladite séquence pour obtenir des coefficients spectraux variant en fonction du temps dans ladite séquence, caractérisé en ce qu'il, comporte en outre les étapes suivantes : b) on détermine, par analyse statistique desdits coefficients spectraux, au moins une sous-séquence. répétée dans ladite séquence, et c) on évalue des instants de début et de fin de ladite sous-séquence dans la séquence sonore.
2. Procédé selon la revendication 1, caractérisé en ce qu'il comporte en outre une étape : d) d'extraction de la sous-séquence pour stocker, dans une mémoire, des échantillons sonores représentant ladite sous-séquence.
3. Procédé selon la revendication 2, caractérisé en ce que l'extraction de l'étape d) concerne au moins une sous- séquence dont la durée est la plus importante et/ou une sous-séquence dont la fréquence de répétition est la plus importante dans ladite séquence.
4. Procédé selon l'une des revendications 1 à 3, dans lequel la séquence sonore est un morceau de musique comportant une succession de sous-séquences parmi au moins une introduction, un couplet, -un refrain, un pont de transition, un thème, un motif., un mouvement, caractérisé en ce que, à, l'étape c) , on détermine au moins les instants respectifs de début et de fin d'une première sous-séquence et d'une seconde sous-séquence .
5. Procédé selon la revendication '4 , prise en combinaison avec la revendication 3, caractérisé en ce que la première sous-séquence correspond à un couplet et la seconde sous- séquence correspond à un refrain.
6. Procédé selon l'une des revendications 4 et 5, prises en combinaison, avec la revendication 2, caractérisé en ce que, à l'étape d) , on extrait une première et une seconde sous-séquence pour obtenir, sur un support mémoire, un résumé sonore dudit morceau de musique comportant au moins la première sous-séquence enchaînée avec la seconde sous- séquence .
7. Procédé selon la revendication 6, dans lequel les extraits des sous-séquences sont non contigus dans le temps, caractérisé en ce qu'il comporte en outre les étapes suivantes : dl) détecter au moins une cadence de la première sous- séquence et/ou de la seconde sous-séquence pour estimer la durée moyenne d'une mesure à ladite cadence, ainsi qu'au moins un segment de fin de la première sous-séquence et au moins un segment de début de la seconde sous-séquence, de durées respectives correspondant sensiblement à ladite durée moyenne et isolés dans la séquence d'un nombre entier de durées moyennes, d2.) générer au moins une mesure de transition de durée correspondant à ladite durée moyenne et comportant une addition des échantillons sonores d'au moins ledit segment de fin et d'au moins ledit segment de début, d3) et concaténer la première sous-séquence, la où les mesures de transition et la seconde sous-séquence pour obtenir un enchaînement de la première et de la seconde sous-séquence .
8. Procédé selon la revendication 7, caractérisé en ce que l'étape dl) comporte un découpage en au 'moins deux fenêtres, de type rectangulaire, de type de Hanning, de type de Hanning en palier, ou préférentiellement de type comportant un flanc montant, un pallier et un flanc descendant dans le temps .
9. Procédé selon l'une des revendications 7 et 8, caractérisé en ce que l'étape d2) comporte une reconstruction beat-synchrone.
10. Procédé selon la revendication 9, caractérisé en ce que, à l'étape dl) , on détermine en outre la métrique de la première sous-séquence et/ou de la seconde sous- séquence, et en ce que l'étape d2) comporte une reconstruction beat-synchrone à la mesure.
11. Procédé selon l'une des revendications 9 et 10, caractérisé en ce que, à l'étape dl) , on détermine lesdits segments de fin et de début de sorte qu'ils commencent par un premier temps de mesure, et en ce que l'étape d2) comporte une reconstruction beat-synchrone alignée. 05/004002
22
12. Produit programme -d'ordinateur, stocké dans une mémoire d'ordinateur ou sur . un s'upport amovible propre à coopérer avec un lecteur d'ordinateur, caractérisé en ce qu'il comporte - des instructions pour dérouler les étapes du procédé selon l'une des revendications précédentes.
O 2005 0 1/3
Alanis Morissette "Head Over Feet"
Figure imgf000024_0001
Figure imgf000024_0002
55.12 105.12 155.12 205.12 255.12 TEMPS (SECONDES)
Figure imgf000024_0003
Figure imgf000024_0004
FIG. 2 2/3
Figure imgf000025_0001
Figure imgf000025_0002
Figure imgf000025_0004
Figure imgf000025_0003
k'NT
FIG.4
Figure imgf000026_0001
ε/ε ε6noo/oozîi-ι/i3<ι zootoo/soo∑: OΛV
PCT/FR2004/001493 2003-06-25 2004-06-16 Procede de traitement d’une sequence sonore, telle qu’un morceau musical WO2005004002A2 (fr)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2006516296A JP2007520727A (ja) 2003-06-25 2004-06-16 楽曲のようなサウンドシーケンスを処理する方法
US10/562,242 US20060288849A1 (en) 2003-06-25 2004-06-16 Method for processing an audio sequence for example a piece of music
EP04767355A EP1636789A2 (fr) 2003-06-25 2004-06-16 Procede de traitement d'une sequence sonore, telle qu'un morceau musical

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0307667A FR2856817A1 (fr) 2003-06-25 2003-06-25 Procede de traitement d'une sequence sonore, telle qu'un morceau musical
FR03/07667 2003-06-25

Publications (2)

Publication Number Publication Date
WO2005004002A2 true WO2005004002A2 (fr) 2005-01-13
WO2005004002A3 WO2005004002A3 (fr) 2005-03-24

Family

ID=33515393

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2004/001493 WO2005004002A2 (fr) 2003-06-25 2004-06-16 Procede de traitement d’une sequence sonore, telle qu’un morceau musical

Country Status (5)

Country Link
US (1) US20060288849A1 (fr)
EP (1) EP1636789A2 (fr)
JP (1) JP2007520727A (fr)
FR (1) FR2856817A1 (fr)
WO (1) WO2005004002A2 (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009536368A (ja) * 2006-05-08 2009-10-08 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 歌曲を歌詞と並べる方法及び電気デバイス

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7521623B2 (en) 2004-11-24 2009-04-21 Apple Inc. Music synchronization arrangement
US7563971B2 (en) * 2004-06-02 2009-07-21 Stmicroelectronics Asia Pacific Pte. Ltd. Energy-based audio pattern recognition with weighting of energy matches
US7626110B2 (en) * 2004-06-02 2009-12-01 Stmicroelectronics Asia Pacific Pte. Ltd. Energy-based audio pattern recognition
DE102004047069A1 (de) * 2004-09-28 2006-04-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ändern einer Segmentierung eines Audiostücks
DE102004047032A1 (de) * 2004-09-28 2006-04-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Bezeichnen von verschiedenen Segmentklassen
US7668610B1 (en) 2005-11-30 2010-02-23 Google Inc. Deconstructing electronic media stream into human recognizable portions
US7826911B1 (en) 2005-11-30 2010-11-02 Google Inc. Automatic selection of representative media clips
US7645929B2 (en) * 2006-09-11 2010-01-12 Hewlett-Packard Development Company, L.P. Computational music-tempo estimation
US8084677B2 (en) * 2007-12-31 2011-12-27 Orpheus Media Research, Llc System and method for adaptive melodic segmentation and motivic identification
EP2096626A1 (fr) * 2008-02-29 2009-09-02 Sony Corporation Procédé de visualisation de données audio
EP2491560B1 (fr) * 2009-10-19 2016-12-21 Dolby International AB Metadonnes avec marqueurs temporels pour indiquer des segments audio
CN102541965B (zh) 2010-12-30 2015-05-20 国际商业机器公司 自动获得音乐文件中的特征片断的方法和系统
FR3028086B1 (fr) * 2014-11-04 2019-06-14 Universite de Bordeaux Procede de recherche automatise d'au moins une sous-sequence sonore representative au sein d'une bande sonore
US10681408B2 (en) 2015-05-11 2020-06-09 David Leiberman Systems and methods for creating composite videos
US9691429B2 (en) * 2015-05-11 2017-06-27 Mibblio, Inc. Systems and methods for creating music videos synchronized with an audio track

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001069575A1 (fr) * 2000-03-13 2001-09-20 Perception Digital Technology (Bvi) Limited Systeme d'extraction de melodie

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4633749A (en) * 1984-01-12 1987-01-06 Nippon Gakki Seizo Kabushiki Kaisha Tone signal generation device for an electronic musical instrument
JPS61204693A (ja) * 1985-03-08 1986-09-10 カシオ計算機株式会社 自動演奏装置を備えた電子楽器
US4926737A (en) * 1987-04-08 1990-05-22 Casio Computer Co., Ltd. Automatic composer using input motif information
US6316712B1 (en) * 1999-01-25 2001-11-13 Creative Technology Ltd. Method and apparatus for tempo and downbeat detection and alteration of rhythm in a musical segment
US7212972B2 (en) * 1999-12-08 2007-05-01 Ddi Corporation Audio features description method and audio video features description collection construction method

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001069575A1 (fr) * 2000-03-13 2001-09-20 Perception Digital Technology (Bvi) Limited Systeme d'extraction de melodie

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BARTSCH M A ET AL: "To catch a chorus: using chroma-based representations for audio thumbnailing" IEEE WORKSHOP ON APPLICATIONS OF SIGNAL PROCESSING TO AUDIO AND ACOUSTICS, 21 octobre 2001 (2001-10-21), pages 15-18, XP010566863 New Paltz, NY *
SHIH H-H ET AL: "COMPARISON OF DICTIONARY-BASED APPROACHES TO AUTOMATIC REPEATING MELODY EXTRACTION" PROCEEDINGS OF THE SPIE, SPIE, BELLINGHAM, VA, US, vol. 4676, janvier 2002 (2002-01), pages 306-317, XP001189011 ISSN: 0277-786X *
YANASE T ET AL: "Phrase based feature extraction for musical information retrieval" COMMUNICATIONS, COMPUTERS AND SIGNAL PROCESSING, 1999 IEEE PACIFIC RIM CONFERENCE ON VICTORIA, BC, CANADA 22-24 AUG. 1999, PISCATAWAY, NJ, USA,IEEE, US, 22 août 1999 (1999-08-22), pages 396-399, XP010356677 ISBN: 0-7803-5582-2 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009536368A (ja) * 2006-05-08 2009-10-08 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 歌曲を歌詞と並べる方法及び電気デバイス

Also Published As

Publication number Publication date
US20060288849A1 (en) 2006-12-28
FR2856817A1 (fr) 2004-12-31
JP2007520727A (ja) 2007-07-26
WO2005004002A3 (fr) 2005-03-24
EP1636789A2 (fr) 2006-03-22

Similar Documents

Publication Publication Date Title
EP1636789A2 (fr) Procede de traitement d&#39;une sequence sonore, telle qu&#39;un morceau musical
US6910035B2 (en) System and methods for providing automatic classification of media entities according to consonance properties
US7065416B2 (en) System and methods for providing automatic classification of media entities according to melodic movement properties
CA2563420C (fr) Procede de recherche de contenu, notamment d&#39;extraits communs entre deux fichiers informatiques
US20040060426A1 (en) System and methods for providing automatic classification of media entities according to tempo properties
US20030045953A1 (en) System and methods for providing automatic classification of media entities according to sonic properties
LU88189A1 (fr) Procédés de codage de segments de parole et de controlôle de hauteur de son pour des synthèse de la parole
JP2002014691A (ja) ソース音声信号内の新規点の識別方法
CA2909401C (fr) Correction de perte de trame par injection de bruit pondere
EP1970894A1 (fr) Procédé et dispositif de modification d&#39;un signal audio
KR20080066007A (ko) 재생용 오디오 프로세싱 방법 및 장치
BE1010336A3 (fr) Procede de synthese de son.
FR2911426A1 (fr) Modification d&#39;un signal de parole
EP3040989A1 (fr) Procédé de séparation amélioré et produit programme d&#39;ordinateur
FR2827069A1 (fr) Dispositifs et procede de production de musique en fonction de parametres physiologiques
FR3013885A1 (fr) Procede et systeme de separation de contributions specifique et de fond sonore dans un signal acoustique de melange
WO2012143659A1 (fr) Procede d&#39;analyse et de synthese de bruit de moteur, son utilisation et systeme associe
WO2022129104A1 (fr) Procédé et système de synchronisation automatique d&#39;un contenu vidéo et d&#39;un contenu audio
FR3028086B1 (fr) Procede de recherche automatise d&#39;au moins une sous-sequence sonore representative au sein d&#39;une bande sonore
Desblancs Self-supervised beat tracking in musical signals with polyphonic contrastive learning
FR2713006A1 (fr) Appareil et procédé de synthèse de la parole.
WO2002097793A1 (fr) Procede d&#39;extraction de la frequence fondamentale d&#39;un signal sonore
WO2007068861A2 (fr) Procede d&#39;estimation de phase pour la modelisation sinusoidale d&#39;un signal numerique
CN114677995A (zh) 音频处理方法、装置、电子设备及存储介质
Schweitzer Lully et la prosodie française à la fin du XVIIe siècle

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A2

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A2

Designated state(s): GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2004767355

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2006516296

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 2006288849

Country of ref document: US

Ref document number: 10562242

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 2004767355

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 10562242

Country of ref document: US

WWW Wipo information: withdrawn in national office

Ref document number: 2004767355

Country of ref document: EP