WO2002097793A1 - Procede d'extraction de la frequence fondamentale d'un signal sonore - Google Patents

Procede d'extraction de la frequence fondamentale d'un signal sonore Download PDF

Info

Publication number
WO2002097793A1
WO2002097793A1 PCT/FR2002/001854 FR0201854W WO02097793A1 WO 2002097793 A1 WO2002097793 A1 WO 2002097793A1 FR 0201854 W FR0201854 W FR 0201854W WO 02097793 A1 WO02097793 A1 WO 02097793A1
Authority
WO
WIPO (PCT)
Prior art keywords
minimum
function
value
fundamental
fundamental period
Prior art date
Application number
PCT/FR2002/001854
Other languages
English (en)
Inventor
Alain De Cheveigne
Original Assignee
France Telecom
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom filed Critical France Telecom
Publication of WO2002097793A1 publication Critical patent/WO2002097793A1/fr

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients

Definitions

  • the invention relates to a method of extracting the fundamental frequency from a sound signal x t varying as a function of time t, by means of a device implementing an autocorrelation algorithm.
  • the field of the invention is that of the estimation or extraction of the fundamental frequency of a sound signal.
  • the fundamental frequency corresponds to the frequency of
  • the estimation of the fundamental frequency is applied to speech analysis and / or recognition, automatic musical transcription, etc.
  • indexing of multimedia documents also uses the fundamental frequency as indexing metadata. It is also used in many signal processing algorithms.
  • 25 x t can be defined by:
  • r t o ( ⁇ ) is the autocorrelation function of shift ⁇ calculated on an integration window of width W starting at time tO. This function is shown in figure lb) for - a signal x t shown in figure la).
  • the first two terms are signal energy terms.
  • the difference function d t o ("t) varies as the opposite of the function autocorrelation r t o ( ⁇ ) and looking for the minima of the function d t o ( ⁇ ) is like looking for the maxima of r t o ( ⁇ ): this reasoning is the basis of the classic autocorrelation method.
  • the second energy term varies as a function of ⁇ ; then, looking for the minima of the function d t o ( ⁇ ) and looking for the maxima of r t o ( ⁇ ) sometimes give different results.
  • This method thus induces an error rate which, even low, is often unacceptable for certain applications. Applied to a small database, this method induced an error rate of 10%.
  • the object of the present invention is to provide a more robust fundamental frequency estimate, more precise, that is to say having a lower error rate, and more flexible in use.
  • the subject of the invention is a method for extracting the fundamental frequency based on successive improvements to the conventional autocorrelation method.
  • the subject of the invention is a method of extracting the fundamental frequency from a sound signal xt varying as a function of time t, by means of a device implementing an autocorrelation algorithm based on the calculation of
  • step c) consists in choosing as the fundamental period, the value of ⁇ for which the function of t o ( ⁇ ) is minimal.
  • step c) comprises the following steps: c) determining the set of values of ⁇ for which the function of t o ( ⁇ ) has a minimum, c2) choosing as fundamental period the smallest value of x.
  • step c) advantageously comprises the following steps: cl) determining a threshold for the difference function of to ( ⁇ ) / 'and establishing -all of the values ⁇ for which the function of to ( ⁇ ) has a minimum below said threshold, c2) when the set of values of ⁇ is not empty, choose the smallest value of ⁇ as the fundamental period, otherwise choose the value corresponding to the global minimum as the fundamental period from d'to ( ⁇ ).
  • the threshold can be fixed or vary depending on ⁇ .
  • the signal x t and the difference functions d t o ( ⁇ ) and d ' t o ( ⁇ ) being sampled, we insert between steps cl) and c2), step c' ) consists in :
  • step d) comprises the following steps:
  • step b) is repeated for several values of tO included in an interval centered around t a and of determined width and in that step c2) is replaced by the step which consists in considering that the fundamental period is the value of ⁇ corresponding to the minimum of d ' t o ( ⁇ ) obtained.
  • the width can be that of the longest expected fundamental period or that of the fundamental period resulting from the first calculation or more generally from a previous calculation.
  • the fundamental period having already been calculated, the extraction of the fundamental frequency is reiterated according to the method as described by varying ⁇ in an interval centered around said fundamental period.
  • the " W " window can be rectangular or triangular or "Gaussian".
  • the window W is divided into at least two segments and the offset ⁇ differs according to said segments, ⁇ varying within limits depending on the change maximum expected of the fundamental frequency from one of said segments to another.
  • the difference function d t o ( ⁇ ) can then be of the form:
  • the method consists in carrying out the following steps:
  • step c2 replaces step c2) with the step which consists in choosing from the set of minima of d ' t o (O r l smallest minimum and consider that the fundamental period is the value ⁇ corresponding to said smallest minimum of d 'to ( ⁇ ).
  • the method consists in carrying out the following steps:
  • step c2) replace step c2) with the step which consists in choosing from the set of minima of d ' t o ( ⁇ ), the smallest minimum called the first minimum
  • D) for h (t) ⁇ (t) + ⁇ (tv), and for each value of v included in said predetermined interval, carry out steps a), b), cl) and optionally c ') and determine the most small minimum of d ' t o ( ⁇ )
  • step c2) with the step which consists in choosing from the set of minima of d' t o ( ⁇ ), the smallest minimum called second minimum,
  • step B) is carried out by expressing the difference function d t o ( ⁇ ) in the form:
  • step D) is performed by expressing the function difference d t0 ( ⁇ ) in the form:
  • FIGS. 1 a) and 1 b) are respectively schematic representations of a example of signal x t and of the corresponding autocorrelation function r t o ( ⁇ )
  • FIG. 2 is a comparative table of the error rates obtained at the end of the conventional autocorrelation method (step 0) and of the different steps of the method according to the invention (steps 1 to 4)
  • FIGS. 3a) and 3b) are respectively schematic representations of the difference functions dto ( ⁇ ) and d'to ( ⁇ ) corresponding to the signal x t represented in FIG. 1a)
  • FIGS. 5a) and 5b) are respectively schematic representations of a signal x t whose amplitude varies with time and of the corresponding difference function
  • FIGS. 6a) 6b) and 6c) are respectively representations schematics of the signal x t , of an additive noise in the form of a slow-varying continuous component and of the difference function making it possible to eliminate the noise.
  • improvements to the conventional autocorrelation method are made in several stages, each of the stages contributing to reducing the error rate.
  • the first step of the method according to the invention consists first of all in not neglecting in equation 1, the first two terms which are energy terms and in particular the term r t o + ⁇ (0) which depends on ⁇ .
  • This new difference function of t o ( ⁇ ) is obtained by dividing each value of the old difference function d t o ( ⁇ ) by the average calculated for shorter offset values ⁇ . We then determine the value of ⁇ for which the function of t o ( ⁇ ) has a minimum; this value is the fundamental period. Of course, the fundamental frequency is the inverse of the fundamental period.
  • d t o ( ⁇ ) and d ' t o ( ⁇ ) calculated from the signal x t represented in figure la), are respectively represented in figures 3a) and 3b):
  • d' t o ( ⁇ ) differs from dto ( ⁇ ) in that it starts at 1 rather than 0 and tends to remain large as long as ⁇ is small. Its value drops below 1 only when d t o ( ⁇ ) is lower than the average.
  • d ' t o ( ⁇ ) Another advantage of d ' t o ( ⁇ ) is that the upper limit of the fundamental frequency search interval is no longer necessary and that the function is normalized.
  • d'to ( ⁇ ) at the fundamental frequency gives a measure of confidence: when d 'is large, the estimate of the fundamental frequency risks being erroneous. This measure can be used in error correction algorithms.
  • a solution corresponding to the second step of the method according to the invention is to determine a threshold for d'to ( ⁇ ), to establish the set of values ⁇ which minimize d ' t o ( ⁇ ) below this threshold , and when the set of values of ⁇ is not empty, to choose as the fundamental period the smallest value of ⁇ , otherwise to choose as fundamental period the value corresponding to the global minimum of d ' t o ( ⁇ ).
  • This threshold can be interpreted as being the proportion of aperiodic power tolerated in a "periodic" signal.
  • the threshold can be fixed or depend on ⁇ .
  • the signal x t is in practice a sampled signal, that is to say a discrete signal: likewise the difference function and its minima.
  • the discrete values are then called samples.
  • the fundamental frequency can then be estimated with an error of up to half the sampling frequency or more if the error in determining the depth of the minimum located at the period results in the choice of another incorrect minimum.
  • the solution corresponding to the third step of the method according to the invention, consists in using the parabolic interpolation, that is to say in completing each of the minima of d ' t o ( ⁇ ), with two other samples of d' t o ( ⁇ ) neighbors of the minimum, to calculate the parabola on which these three samples are located, to replace each of the minima by a new minimum provided by parabolic interpolation (the new minimum is the minimum of the parabola), to calculate the period fundamental from these new minima.
  • the error rate of the method according to the invention including this third step drops to 0.77% as shown in Figure 2 (Etp 3): the gain is not significant because the fundamental frequencies of the database to which the method is applied, are small compared to the sampling frequency.
  • This third step of parabolic interpolation is relatively independent of the other steps and can be applied in the third step as proposed or at another time.
  • the estimation of the fundamental period may prove to be correct at time t and incorrect at time t '.
  • the fourth step also called the best local estimation step, takes this case into account.
  • t a It is based on the analysis time t a at which the process is carried out. It consists in reiterating the calculation of d ' t o ( ⁇ ) for several values of tO included in an interval centered around t a and of determined width and in calculating the fundamental period from the minimum of d'to obtained.
  • the width can be that of the longest expected period, or that of the fundamental period resulting from the first calculation or from the previous calculation.
  • the error rate of the method according to the invention including this fourth step drops to 0.5% as indicated in Figure 2 (Etp 4).
  • the offset ⁇ varies within a predetermined interval.
  • the extraction of the fundamental frequency can be repeated by varying ⁇ in an interval of for example ⁇ 10%, centered around said fundamental period.
  • the shape of the window W can be rectangular or triangular or Gaussian or other.
  • the method according to the invention has been compared to other fundamental frequency extraction methods implementing algorithms: each algorithm has been applied to four referenced databases.
  • Database 1 (BD1) consists of a set of 30 sentences in Japanese, each sentence being spoken by 14 male and 14 female speakers; it is presented in the publication by Ata e et al (2000) "Robust fundamental frequency estimation using instantaneous frequencies of harmonie co ponents", Proc. ICLSP, 907-910
  • database 2 (BD2) consists of a set of 50 sentences in English, each sentence being spoken by a male speaker and a female speaker; it can be downloaded from the website http: // www. cstr.ed.ac.uk/pcb/fda_eval. tar.
  • database 3 (BD3) consists of a set of 45 to 55 sentences in French, each sentence being spoken by two male speakers and two female speakers; it is presented in a publication by Vu Ngoc Tuan and d'Alessandro (2000)
  • database 4 (BD4) consists of a speech in English, spoken by two male speakers and a Japanese speech by a male speaker and a speaker feminine ; it is presented in the publication by N. Campbell "Processing a speech corpus for CHATR synthesis", Proc. ICSP'97.
  • the "fxac” and “fcep” algorithms are elements of the "Speech Filing System” accessible from the website "http://www.phon.ucl.ac.uk/resource/sfs/”; the “acf” algorithm implements the classic autocorrelation method . as described in the prior art with an integration window of 25 s; the autocorrelation function has been multiplied by a linear ramp so that the autocorrelation function is worth 0 to 35 ms so as to minimize the error rate, the "nacf” algorithm which is a version of the " acf ”with normalization, is implemented under the same conditions as the previous algorithm, the" YIN “algorithm implements the method according to the invention with the following parameters.
  • the integration window is 25 ms wide, the threshold has been set to 0.1, the lower limit of the fundamental frequency search interval has been set to 40 Hz, and the upper limit to a quarter of the frequency '' sampling, i.e. at 4 or
  • the method according to the invention has good flexibility: it applies in particular in cases where the signal x t has an amplitude or a fundamental frequency varying with time or when the signal x t comprises noise.
  • the method according to the invention can be further improved in these cases.
  • the signal x t as shown in FIG. 6a) comprises an additive noise in the form of a direct current varying slowly over time, represented in FIG. 6b) such as that produced by the breathing of a singer too close to the microphone, it is possible to eliminate this effect by replacing the difference function d t o ( ⁇ ) with the following function shown in Figure 6c):
  • the fundamental period is then estimated according to the method as previously described, for several values of v varying in a predetermined interval, depending in particular on the application: - for each value of v included in this predetermined interval, the functions d t are calculated o ( ⁇ ) and d'to ( ⁇ ) and we determine the smallest minimum of d ' t o ( ⁇ ),
  • the difference function d t o ( ⁇ ) is defined by t + w.
  • the signal x t comprises an additive noise whose spectral envelope differs over the time interval over which the analysis of that of the periodic target is made, the target being the signal whose fundamental frequency is sought
  • the final estimate of the fundamental period is the one corresponding to the smallest value between the first and second minima of d ' t o ( ⁇ ).
  • the first filtering is preferably integrated into the calculation of the difference function d t o ( ⁇ ) which is then of the form:
  • Dto ( ⁇ , v) r t0 (0) + r t0 + ⁇ (0) + r t0 + v (0) + r t0 + ⁇ + v (0) + 2r t0 ( ⁇ ) + 2r t0 ( ⁇ + v) + 2r t o + ⁇ ( ⁇ -v) + 2r t0 + ⁇ ( ⁇ + v) + 2r t0 + v ( ⁇ + v)
  • the second filtering is preferably integrated into the calculation of the difference function d t o ( ⁇ ) which is then of the form:
  • the method according to the invention is implemented in a conventional manner by means of a device capable of implementing an autocorrelation algorithm having the improvements described.
  • the device can be a computer.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Noise Elimination (AREA)
  • Complex Calculations (AREA)

Abstract

L'invention concerne un procédé d'extraction de la fréquence fondamentale d'un signal sonore xt variant en fonction du temps t, au moyen d'un dispositif mettant en oeuvre un algorithme d'autocorrélation basé sur le calcul de (I) variant en fonction du décalage τ sur une fenêtre de largeur W débutant au temps t0. Le procédé consiste à réaliser les étapes suivantes: a) calculer pour τ variant dans un intervalle déterminé, la fonction différence dt0 (τ) définie par dt0 (τ) = rt0 (0) + r¿t0+τ? (0) -2rt0 (τ), b) calculer la fréquence fondamentale à partir de la fonction d't0 (τ) égale à ladite fonction différence moyennée et normalisée, c'est-à-dire: pour τ = 0, d't0 (τ) = 1, pour τ ≠ 0, d't0 (τ) = (II).

Description

PROCEDE D ' EXTRACTION DE LA FREQUENCE FONDAMENTALE D ' UN SIGNAL SONORE
L'invention concerne un procédé d'extraction de la fréquence fondamentale d'un signal sonore xt variant en fonction du temps t, au moyen d'un dispositif mettant en œuvre un algorithme d'autocorrélation. 5 Le domaine de l'invention est celui de l'estimation ou extraction de la fréquence fondamentale d'un signal sonore.
Lorsque le signal sonore est un signal de parole, la fréquence fondamentale correspond à la fréquence de
10 vibration des cordes vocales ; pour un signal musical, la fréquence fondamentale détermine la hauteur perçue.
L'estimation de la fréquence fondamentale s'applique à l'analyse et/ou la reconnaissance de la parole, à la transcription musicale automatique, etc.
15 Une application récente, l'indexation de documents multimédia utilise aussi la fréquence fondamentale comme métadonnée d'indexation. Elle est en outre utilisée dans de nombreux algorithmes de traitement du signal .
20 De nombreux algorithmes dont certains sont basés sur la méthode d'autocorrélation, ont été proposés pour l'estimation de la fréquence fondamentale. On rappelle la méthode d'autocorrélation.
La fonction d'autocorrélation d'un signal discret
25 xt peut être définie par :
Figure imgf000002_0001
où rto(τ) est la fonction d'autocorrélation de décalage τ calculée sur une fenêtre d'intégration de largeur W débutant au temps tO. Cette fonction est représentée figure lb) pour - un signal xt représenté figure la) .
On calcule ensuite la fonction différence xt-Xt-τ ; lorsque le signal est périodique de période T, cette fonction est nulle pour tout t. Cette propriété reste vraie lorsqu'on élève au carré et que l'on moyenne sur une fenêtre de largeur W :
Figure imgf000003_0001
Inversement, on peut trouver une période (ou période fondamentale) inconnue en formant la fonction différence suivante :
Figure imgf000003_0002
et en cherchant les valeurs de τ pour lesquelles cette différence devient nulle. On obtient un ensemble infini de ces valeurs, toutes multiples de la période fondamentale. En développant le carré, on peut exprimer dto(τ) en termes de fonction d'autocorrélation : dto(τ)=rto(0)+rto+τ(0)-2rto(τ) (éq 1) Les deux premiers termes sont des termes d'énergie du signal. Lorsqu'ils sont constants, la fonction différence dto ("t) varie comme 1 ' opposé de la fonction d'autocorrélation rto(τ) et chercher les minima de la fonction dto (τ) revient à chercher les maxima de rto (τ) : ce raisonnement est la base de la méthode d'autocorrélation classique. En fait, le second terme d'énergie varie en fonction de τ ; alors, chercher les minima de la fonction dto (τ) et chercher les maxima de rto(τ) donnent parfois des résultats différents.
Cette méthode induit ainsi un taux d'erreur qui, même faible est souvent inacceptable pour certaines applications. Appliquée à une base de données de petite taille, cette méthode a induit un taux d'erreur de 10%.
Le but de la présente invention est de fournir une estimation de la fréquence fondamentale plus robuste, plus précise c'est-à-dire présentant un taux d'erreur plus faible, et plus souple d'utilisation.
L'invention a pour objet un procédé d'extraction de la fréquence fondamentale basé sur de successifs perfectionnements de la méthode d'autocorrélation classique.
Plus précisément l'invention a pour objet un procédé d'extraction de la fréquence fondamentale d'un signal sonore xt variant en fonction du temps t, au moyen d'un dispositif mettant en œuvre un algorithme d'autocorrélation basé sur le calcul de
Figure imgf000004_0001
variant en fonction du décalage τ sur une fenêtre de largeur W débutant au temps tO, principalement caractérisé en ce qu'il consiste à réaliser les étapes suivantes : a) calculer pour τ variant dans un intervalle déterminé, la fonction différence dto (τ) définie par dto(τ)=rto(0)+rto+τ(0)-2rto(τ) b) calculer la fonction d'to(τ) égale à ladite fonction différence moyennée et normalisée, c'est-à-dire : pour τ = 0, d'to(τ)=l
Figure imgf000005_0001
c) déterminer la période fondamentale à partir de d'to(τ), d) considérer que la fréquence fondamentale est l'inverse de la période fondamentale.
Selon un mode de réalisation de l'invention, l'étape c) consiste à choisir comme période fondamentale, la valeur de τ pour laquelle la fonction d'to(τ) est minimale .
Selon une caractéristique de l'invention, l'étape c) comprend les étapes suivantes : cl) déterminer l'ensemble des valeurs de τ pour lesquelles la fonction d'to(τ) présente un minimum, c2) choisir comme période fondamentale la plus petite valeur de x. Selon un autre mode de réalisation, l'étape c) comprend avantageusement les étapes suivantes : cl) déterminer un seuil pour la fonction différence d'to(τ)/' et établir -l'ensemble des valeurs τ pour lesquelles la fonction d'to(τ) présente un minimum en dessous dudit seuil, c2) lorsque l'ensemble des valeurs de τ n'est pas vide, choisir comme période fondamentale la plus petite valeur de τ, sinon choisir comme période fondamentale la valeur correspondant au minimum global de d'to(τ).
Le seuil peut être fixe ou varier en fonction de τ.
Selon une autre caractéristique de l'invention, le signal xt et les fonctions différences dto(τ) et d'to(τ) étant échantillonnés, on insère entre les étapes cl) et c2) , l'étape c' ) consistant à :
- pour chacun des minima de d't0(τ), compléter le minimum par deux autres échantillons de d'to(τ) voisins dudit minimum, calculer la parabole sur laquelle sont situés les trois échantillons, et remplacer ledit minimum par un nouveau minimum fourni par interpolation parabolique, considérer l'ensemble des valeurs de τ correspondant auxdits nouveaux minima.
Selon une caractéristique aditionnelle, l'étape d) comprend les étapes suivantes :
- considérer le minimum de la fonction différence dto(τ) sur un intervalle centré sur ladite période fondamentale, - compléter ledit minimum de dto(τ) par deux autres échantillons de dto (O voisins dudit minimum et calculer la parabole sur laquelle sont situés les trois échantillons, - remplacer ledit minimum: de dto (τ) par un nouveau minimum fourni par interpolation parabolique,
- considérer que la fréquence fondamentale est l'inverse de la valeur de τ correspondant à ce nouveau minimum. De manière avantageuse, le procédé étant réalisé à un instant d'analyse ta, on réalise l'étape de la meilleure estimation locale suivante : l'étape b) est réitérée pour plusieurs valeurs de tO comprises dans un intervalle centré autour de ta et de largeur déterminée et en ce que l'étape c2) est remplacée par l'étape qui consiste à considérer que la période fondamentale est la valeur de τ correspondant au minimum des d' to (τ) obtenus .
La largeur peut être celle de la plus longue période fondamentale attendue ou celle de la période fondamentale issue du premier calcul ou plus généralement d'un calcul précédent.
Selon une caractéristique de l'invention, la période fondamentale ayant déjà été calculée, on réitère l'extraction de la fréquence fondamentale selon le procédé tel que décrit en faisant varier τ dans un intervalle centré autour de ladite période fondamentale.
La fenêtre" W peut être de forme rectangulaire ou triangulaire ou"gaussienne. Lorsque le signal xt s'exprime en fonction de son amplitude at laquelle varie avec le temps t avec
Figure imgf000008_0001
et at+τ at indépendant de t, la fonction différence dto(τ) est alors avantageusement de la forme: dto(τ)=rto(0) [l-rt0 (τ) 2/rt0 (0) .rt0+τ(0)] De préférence, lorsque la fréquence fondamentale varie avec le temps t, la fenêtre W est divisée en au moins deux segments et le décalage τ diffère selon lesdits segments, τ variant dans des limites dépendant du changement maximum escompté de la fréquence fondamentale d'un desdits segments à l'autre.
Lorsque le signal xt comporte un bruit additif de la forme d'une composante continue à variation lente, la fonction différence dto(τ) peut alors être de la forme :
dt0(τ) -χjJ
Figure imgf000008_0002
Lorsque le signal sonore xt comporte un bruit additif périodique, le procédé consiste à réaliser les étapes suivantes :
- préalablement à l'étape a) filtrer le signal xt au moyen d'un filtre en peigne dont la réponse impulsionnelle est de la forme h(t) =δ(t) -δ(t-v) , v étant la période du bruit, pour chaque valeur de v comprise dans un intervalle prédéterminé, réaliser les étapes a) , b) , cl) et éventuellement c' ) et déterminer le plus petit minimum de d'to(τ),
- remplacer l'étape c2) par l'étape qui consiste à choisir parmi l'ensemble des minima de d'to (Or l plus petit minimum et considérer que la période fondamentale est la valeur τ correspondant audit plus petit minimum de d'to(τ) .
La fonction différence dto (τ) est alors avantageusement de la forme : Dt0 (τ, v) =rto ( 0 ) +rt0+τ ( 0 ) +rt0+v ( 0 ) +rt0+τ+v ( 0 )
-2rt0 (τ) -2rto (v) +2rt0 (τ+v) +2rt0+τ (τ-v) -2rt0+τ (τ+v) +2rt0+v (τ+v)
Lorsque le signal xt comporte un bruit additif dont l'enveloppe spectrale diffère de celle de la cible périodique, le procédé consiste à réaliser les étapes suivantes :
A) préalablement à l'étape a), filtrer le signal xt au moyen d'un filtre en peigne dont la réponse impulsionnelle est de la forme h(t)=δ(t)-δ(t-v), ou h(t) =δ (t) +δ (t-v) , v étant un paramètre donné que l'on fait varier,
B) pour h(t) =δ(t) -δ(t-v) , et pour chaque valeur de v comprise dans un intervalle prédéterminé, réaliser les étapes a) , b) , cl) et éventuellement c' ) et déterminer le plus petit minimum de d'to(O,
C) remplacer l'étape c2) par l'étape qui consiste à choisir parmi l'ensemble des minima de d'to(τ), le plus petit minimum appelé premier minimum, D) pour h(t)=δ (t) +δ(t-v) , et pour chaque valeur de v comprise dans ledit intervalle prédéterminé, réaliser les étapes a), b) , cl) et éventuellement c' ) et déterminer le plus petit minimum de d'to(τ), E) remplacer l'étape c2) par l'étape qui consiste à choisir parmi l'ensemble des minima de d'to(τ), le plus petit minimum appelé deuxième minimum,
F) considérer que la fréquence fondamentale est l'inverse de la valeur τ correspondant à la plus petite valeur entre lesdits premier et deuxième minima.
De préférence, l'étape B) est réalisée en exprimant la fonction différence dto (τ) sous la forme :
Dto (τ, v) =rt0 ( 0 ) +rt0+τ ( 0 ) +rt0+v ( 0 ) +rt0+τ+v ( 0 ) -2rt0 (τ) -2rt0 (v) +2rt0 (τ+v) +2rt0+τ (τ-v) -2rt0+τ (τ+v) +2rt0+v (τ+v) et l'étape D) est réalisée en exprimant la fonction différence dt0(τ) sous la forme :
Dto (τ , v) rto ( 0 ) +rt0+τ ( 0 ) +rt0+v ( 0 ) +rt0+τ+v ( 0 ) +2rt0 (τ) +2rt0 (v) +2rt0 (τ+v) +2rt0+τ (τ-v) +2rt0+τ (τ+v) +2rt0+v (τ+v) .
D'autres particularités et avantages de l'invention apparaîtront clairement à la lecture de la description faite à titre d'exemple non limitatif et en regard des dessins annexés sur lesquels : les figures la) et lb) sont respectivement des représentations schématiques d'un exemple de signal xt et de la fonction d'autocorrélation rto(τ) correspondante, la figure 2 est un tableau comparatif des taux d'erreur obtenus à l'issue de la méthode d'autocorrélation classique (étape 0) et des différentes étapes du procédé selon l'invention (étapes 1 à 4) , les figures 3a) et 3b) sont respectivement des représentations schématiques des fonctions différence dto(τ) et d'to(τ) correspondant au signal xt représenté figure la) , la figure 4 est un tableau comparatif de différents procédés d'extraction de fréquence fondamentale appliqués à différentes bases de données, les figures 5a) et 5b) sont respectivement des représentations schématiques d'un signal xt dont l'amplitude varie avec le temps et de la fonction différence correspondante, les figures 6a) 6b) et 6c) sont respectivement des représentations schématiques du signal xt, d'un bruit additif de la forme d'une composante continue à variation lente et de la fonction différence permettant d'éliminer le bruit.
Selon l'invention, des perfectionnements à la méthode d'autocorrélation classique sont apportés en plusieurs étapes, chacune des étapes contribuant à diminuer le taux d'erreur.
Un tableau comparatif des taux d'erreur obtenus en appliquant chacune de ces étapes à la même base de données de petite taille que celle décrite dans la présentation de" l'état de la technique, est présenté figure 2. Ces taux d'erreur ont été obtenus en mettant en œuvre le procédé selon l'invention de façon classique en utilisant pour les calculs, la transformation de Fourier rapide ou une formule de récursion selon que l'on . désire une estimation grossière et un temps de calcul réduit ou une estimation plus fine avec un temps de calcul plus long.
La première étape du procédé selon l'invention consiste tout d'abord à ne pas négliger dans l'équation 1, les deux premiers termes qui sont des termes d'énergie et notamment le terme rto(0) qui dépend de τ.
On remarque cependant que la fonction différence dto(τ) est nulle pour τ=0. Si l'intervalle de calcul de dto(τ) inclut 0, cette valeur nulle de τ sera alors choisie par l'algorithme d'autocorrélation comme période fondamentale, ce qui n'a pas de sens.
Une solution est de remplacer la fonction différence dto (τ) par la fonction différence moyennée et normalisée d'to(τ) définie par : pour τ=0, d'to(τ)=l pour τ ≠ 0,
Figure imgf000012_0001
Cette nouvelle fonction différence d'to(τ) est obtenue en divisant chaque valeur de l'ancienne fonction différence dto(τ) par la moyenne calculée pour des valeurs de décalage τ plus courts. On détermine alors la valeur de τ pour laquelle la fonction d'to(τ) présente un minimum ; cette valeur est la période fondamentale. Bien sûr, la fréquence fondamentale est l'inverse de la période fondamentale.
Les fonctions dto (τ) et d'to(τ) calculées à partir du signal xt représenté figure la) , sont respectivement représentées figures 3a) et 3b) : d'to(τ) diffère de dto(τ) en ce qu'elle débute à 1 plutôt que 0 et tend à rester grande tant que τ est petit. Sa valeur chute en dessous de 1 seulement lorsque dto(τ) est inférieur à la moyenne .
Un autre avantage de d'to(τ) est que la limite supérieure de l'intervalle de recherche de la fréquence fondamentale n'est plus nécessaire et que la fonction est normalisée.
En outre, la valeur de d'to(τ) à la fréquence fondamentale donne une mesure de confiance : lorsque d' est grand, 1 ' estimation de la fréquence fondamentale risque d'être erronée. On peut utiliser cette mesure dans les algorithmes de correction d'erreur.
En appliquant le procédé selon l'invention incluant cette première étape, on obtient comme indiqué figure 2 (Etp 1) un taux d'erreur de 1.69%. On peut aussi déterminer l'ensemble des valeurs de τ pour lesquelles la fonction d'to(τ) présente un minimum, et choisir comme période fondamentale la plus petite valeur de τ. La fonction différence d'to(τ) présente des puits pour des valeurs de τ, multiples de la période fondamentale ; mais un puits d'ordre supérieur, plus profond que le puits de la période fondamentale peut être considéré par erreur comme celui de la période fondamentale .
Une solution correspondant à la deuxième étape du procédé selon l'invention, est de déterminer un seuil pour d'to(τ), d'établir l'ensemble des valeurs τ qui minimisent d'to(τ) en dessous de ce seuil, et lorsque l'ensemble des valeurs de τ n'est pas vide, de choisir comme période fondamentale la plus petite valeur de τ, sinon choisir comme période fondamentale la valeur correspondant au minimum global de d'to(τ). Ce seuil peut être interprété comme étant la proportion de puissance apériodique tolérée dans un signal « périodique ».
Le seuil peut être fixe ou dépendre de τ.
Avec un seuil fixé à 0.1, le taux d'erreur du procédé selon l'invention incluant cette deuxième étape, chute à 0.78% comme indiqué figure 2 (Etp 2).
Bien sûr, le signal xt est dans la pratique un signal échantillonné, c'est-à-dire un signal discret : de même la fonction différence et ses minima. Les valeurs discrètes sont alors appelées échantillons.
La fréquence fondamentale peut alors être estimée avec une erreur pouvant atteindre la moitié de la fréquence d'échantillonnage ou plus si l'erreur de détermination de la profondeur du minimum situé à la période a pour conséquence le choix d'un autre minimum incorrect .
La solution, correspondant à la troisième étape du procédé selon l'invention, consiste à utiliser l'interpolation parabolique c'est-à-dire à compléter chacun des minima de d'to(τ), par deux autres échantillons de d'to(τ) voisins du minimum, à calculer la parabole sur laquelle sont situés ces trois échantillons, à remplacer chacun des minima par un nouveau minimum fourni par interpolation parabolique ( le nouveau minimum est le minimum de la parabole ) , à calculer la période fondamentale à partir de ces nouveaux minima .
Le taux d'erreur du procédé selon l'invention incluant cette troisième étape, chute à 0.77% comme indiqué figure 2 (Etp 3) : le gain n'est pas important car les fréquences fondamentales de la base de données à laquelle le procédé est appliqué, sont petites comparées à la fréquence d'échantillonnage. On peut affiner l'estimation de la période fondamentale obtenue en ajoutant à l'étape précédente, une étape d'interpolation parabolique de dto (τ) (dto(τ) a déjà été calculée) dans un intervalle centré autour de la période fondamentale que l'on vient d'obtenir. Cette troisième étape d'interpolation parabolique assortie ou non de l'estimation plus fine, est relativement indépendante des autres étapes et peut être appliquée en troisième étape comme proposé ou à un autre moment . Lorsque la période fondamentale varie avec le temps t, ce qui se produit dans le cas d'un signal t fortement non-stationnaire, l'estimation de la période fondamentale peut s'avérer correcte à un temps t et incorrecte au temps t' .
La quatrième étape aussi appelée étape de la meilleure estimation locale tient compte de ce cas.
Elle est basée sur l'instant d'analyse ta auquel le procédé est réalisé. Elle consiste à réitérer le calcul de d'to(τ) pour plusieurs valeurs de tO comprises dans un intervalle centré autour de ta et de largeur déterminée et à calculer la période fondamentale à partir du minimum des d'to obtenus. La largeur peut être celle de la plus longue période attendue, ou celle de la période fondamentale issue du premier calcul ou du calcul précédent.
Le taux d'erreur du procédé selon l'invention incluant cette quatrième étape, chute à 0.5% comme indiqué figure 2 (Etp 4) .
Selon un mode de réalisation particulier, le décalage τ varie dans un intervalle prédéterminé.
Lorsque la période fondamentale a déjà été calculée, on peut réitérer l'extraction de la fréquence fondamentale en faisant varier τ dans un intervalle de par exemple ±10%, centré autour de ladite période fondamentale.
La forme de la fenêtre W peut être rectangulaire ou triangulaire ou gaussienne ou autre. Le procédé selon l'invention a été comparé à d'autres procédés d'extraction de fréquence fondamentale mettant en œuvre des algorithmes : chaque algorithme a été appliqué à quatre bases de données référencées.
Un tableau comparatif des taux d'erreur obtenus sur chacune des bases de données et par chacun des programmes est présenté figure 4.
La base de données 1 (BD1) consiste en un ensemble de 30 phrases en japonais, chaque phrase étant prononcée par 14 locuteurs masculins et 14 locuteurs féminins ; elle est présentée dans la publication de Ata e et al (2000) "Robust fundamental frequency estimation using instantaneous frequencies of harmonie co ponents", Proc. ICLSP, 907-910, la base de données 2 (BD2) consiste en un ensemble de 50 phrases en anglais, chaque phrase étant prononcée par un locuteur masculin et un locuteur féminin ; elle peut être téléchargée à partir du site Internet http: //www. cstr.ed.ac.uk/pcb/fda_eval. tar . gz, la base de données 3 (BD3) consiste en un ensemble de 45 à 55 phrases en français, chaque phrase étant prononcée par deux locuteurs masculins et deux locuteurs féminins ; elle est présentée dans une publication de Vu Ngoc Tuan et d'Alessandro (2000) , la base de données 4 (BD4) consiste en un discours en anglais, prononcé par deux locuteurs masculins et un discours japonais prononcé par un locuteur masculin et un locuteur féminin ; elle est présentée dans la publication de N. Campbell "Processing a speech corpus for CHATR synthésis", Proc. ICSP'97. Les algorithmes "fxac" et "fcep" sont des éléments du "Speech Filing System" accessible à partir du site Internet "http://www.phon.ucl.ac.uk/resource/sfs/" ; l'algorithme "acf" met en œuvre la méthode d'autocorrélation classique .telle que décrite dans l'état de la technique avec une fenêtre d'intégration de 25 s ; la fonction d'autocorrélation a été multipliée par une rampe linéaire de sorte que la fonction d'autocorrélation vaut 0 à 35 ms de façon à minimiser le taux d'erreur, l'algorithme "nacf" qui est une version de l'algorithme « acf » avec normalisation, est mis en œuvre dans les mêmes conditions que l'algorithme précédent, l'algorithme "YIN" met en œuvre le procédé selon l'invention avec les paramètres suivants.
La fonction d'autocorrélation est obtenue par j=tO+W/2 rto V") = 2-i X j-rf2X j+τ 2 j≈tO-W/2
qui calcule le produit scalaire entre deux fenêtres qui se décalent symétriquement par rapport à un point d' analyse.
La fenêtre d'intégration a une largeur de 25 ms, le seuil a été fixé à 0.1, la limite inférieure de l'intervalle de recherche de la fréquence fondamentale a été fixé à 40 Hz, et la limite supérieure à un quart de la fréquence' d'échantillonnage, c'est-à-dire à 4 ou
5 kHz selon la base de données. Il ressort du tableau comparatif figure 4, que le procédé selon l'invention dénommé « YIN », permet d'obtenir un meilleur taux d'erreur, quelle que soit la base de données considérée.
De plus, le procédé selon l'invention présente une bonne flexibilité : il s'applique notamment dans les cas où le signal xt a une amplitude ou une fréquence fondamentale variant avec le temps ou lorsque le signal xt comporte du bruit .
Le procédé selon l'invention peut encore être perfectionné dans ces cas-là.
Lorsque l'amplitude du signal xt varie en fonction du temps, comme représenté figure 5a) c'est-à-dire
Figure imgf000019_0001
indépendant de t, la fonction différence peut s'exprimer de la manière suivante :
Figure imgf000019_0002
Lorsqu'on ne connaît pas α, on calcule la valeur de α pour laquelle la dérivée de cette fonction par rapport à α est nulle, on obtient :
2α rt0+τ(0)-2 rto(τ)=0, soit α= rt0 (τ) /rt0+τ (0) . En remplaçant α dans la fonction différence, on obtient : dto(τ)=rto(0) [l-rt0 (τ) 2/rt0 (0) .rto+τ(0) J
On utilise alors de préférence cette nouvelle expression de la fonction différence représentée figure 5b) en remplacement de celle de l'équation 1 (Eq 1).
Lorsque la fréquence fondamentale varie avec le temps t, il est intéressant de diviser la fenêtre W en au moins deux segments et d'utiliser un décalage τ diffèrent selon les segments, τ variant dans des limites dépendant du changement maximum escompté de la fréquence fondamentale d'un segment à l'autre. On prévoit parfois un- changement maximal de fréquence de ± 8 octaves ; un changement maximal de +1 octave a rarement été dépassé dans le cas de la base de données utilisée pour la figure 2.
Lorsque le signal xt comme représenté figure 6a) comporte un bruit additif de la forme d'un courant continu variant lentement avec le temps, représenté figure 6b) tel que celui produit par la respiration d'un chanteur trop proche du microphone, on peut éliminer cet effet en remplaçant la fonction différence dto(τ) par la fonction suivante représentée figure 6c) :
dt0(τ) = rt0(0)+rt0+τ(0)-2rt0(τ)+
Figure imgf000020_0001
Lorsque le signal xt comporte un bruit additif périodique provoqué par exemple par une voix ou un instrument, les effets de ce bruit peuvent être éliminés en filtrant le signal xt au moyen d'un filtre en peigne dont la réponse impulsionnelle est de la forme h(t)=δ(t)-δ(t-v) , v étant la période du bruit . On estime alors la période fondamentale selon le procédé tel que précédemment décrit, pour plusieurs valeurs de v variant dans un intervalle prédéterminé, dépendant notamment de l'application : - pour chaque valeur de v comprise dans cet intervalle prédéterminé, on calcule les fonctions dto(τ) et d'to(τ) et on détermine le plus petit minimum de d'to(τ),
- on choisit parmi l'ensemble des minima de d'to(τ) obtenus, le plus petit minimum et on considère que la fréquence fondamentale est l'inverse de la valeur τ correspondant audit plus petit minimum de d'to(τ).
En outre dans ce cas, la fonction différence dto(τ) est définie par t+w .
2-1lXJ Xj-τ Xj-v+Xj-τ-vj j=t+l
En développant, on peut exprimer la fonction différence par la formule suivante qui intègre le filtrage :
Dto (τ, v) =rt0 ( 0 ) +rt0+τ ( 0 ) +rt0+v ( 0 ) +rt0+τ+v ( 0 ) -2rt0 (τ) -2rt0 (v) +2rt0 (τ+v) +2rt0+τ (τ-v) -2rt0+τ (τ+v) +2rto+v (τ+v)
Lorsque le signal xt comporte un bruit additif dont l'enveloppe spectrale diffère sur l'intervalle temporel sur lequel se fait l'analyse de celle de la cible périodique, la cible étant le signal dont on cherche la fréquence fondamentale, les effets de ce bruit peuvent être éliminés en filtrant le signal xt au moyen d' un filtre en peigne dont la réponse impulsionnelle est de la forme h(t)=δ(t)±δ(t-v) , v étant le paramètre qui maximise le rapport d'énergie entre la cible et le bruit.
On considère d'abord le cas où h (t) =δ (t) +δ (t-v) , et comme dans le cas précédent, on fait varier v dans un intervalle prédéterminé dépendant également de l'application et on choisit finalement parmi l'ensemble des minima de d'to(τ) obtenus, le plus petit minimum que l'on appelle premier minimum.
On considère ensuite le cas où h (t) =δ (t) -δ(t-v) , et on fait varier v dans le même intervalle prédéterminé et on choisit finalement parmi l'ensemble des minima de d'to(τ) obtenus, le plus petit minimum que l'on appelle deuxième minimum.
On retient comme estimation finale de la période fondamentale, celle correspondant à la plus petite valeur entre les premier et deuxième minima de d'to(τ). Le premier filtrage est de préférence intégré au calcul de la fonction différence dto(τ) qui est alors de la forme :
Dto (τ, v) =rt0 ( 0 ) +rt0+τ ( 0 ) +rt0+v ( 0 ) +rt0+τ+v ( 0 ) +2rt0 (τ) +2rt0 (v) +2rt0 (τ+v) +2rto+τ (τ-v) +2rt0+τ (τ+v) +2rt0+v (τ+v) De même, le deuxième filtrage est de préférence intégré au calcul de la fonction différence dto(τ) qui est alors de la forme :
Dto (τ, v) =rt0 ( 0 ) +rt0+τ ( 0 ) +rt0+v ( 0 ) +rto+τ+v ( 0 ) -2rt0 (τ) -2rt0 (v) +2rt0 (τ+v) +2rt0+τ (τ-v) -2rt0+, (τ+v) +2rto+v (τ+v) . On peut bien sûr inverser l'ordre des calculs et commencer par le cas où h (t) =δ(t) - δ (t-v) .
On peut par exemple, dans le cas d'une application de traitement de la parole, avec une fréquence fondamentale inférieure à 1000 Hz, considérer que les valeurs de v sont comprises dans l'intervalle 0.2-2 millisecondes .
Le procédé selon l'invention est implémenté de manière classique au moyen d'un dispositif apte à mettre en œuvre un algorithme d'autocorrélation présentant les perfectionnements décrits. Le dispositif peut être un ordinateur.

Claims

REVENDICATIONS
1. Procédé d'extraction de la fréquence fondamentale d'un signal sonore xt variant en fonction du temps t, au moyen d'un dispositif mettant en œuvre un algorithme d'autocorrélation basé sur le calcul de j=tO+W rtθ(τ) = ΣXjXj+τ j=t0+l variant en fonction du décalage τ sur une fenêtre de largeur W débutant au temps tO, caractérisé en ce qu'il consiste à réaliser les étapes suivantes : a) calculer pour τ variant dans un intervalle déterminé, la fonction différence dto(τ) définie par dt0 (τ) =rt0 (0) +rt0+τ(0) -2rt0 (τ) b) calculer la fonction d'to(τ) égale à ladite fonction différence moyennée et normalisée, c'est-à-dire : pour τ = 0, d'to(τ)=l
pour τ ≠ 0, d't0(τ) = ?^
(XfedoO)
H c) déterminer la période fondamentale à partir de d'to(τ), d) considérer que la fréquence fondamentale est l'inverse de la période fondamentale.
2. Procédé selon la revendication précédente, caractérisé en ce que l'étape c) consiste à choisir comme période fondamentale, la valeur de τ pour laquelle la fonction d'to(τ) est minimale.
3. Procédé selon la revendication 1, caractérisé en ce que l'étape c) comprend les' étapes suivantes : cl) déterminer l'ensemble des valeurs de τ pour lesquelles la fonction d'to(τ) présente un minimum, c2) choisir comme période fondamentale la plus petite valeur de τ.
4. Procédé selon la revendication 1, caractérisé en ce que l'étape c) comprend les étapes suivantes : cl) déterminer un seuil pour la fonction différence d'to(τ), et établir l'ensemble des valeurs τ pour lesquelles la fonction d'to(τ) présente un minimum en dessous dudit seuil, c2) lorsque l'ensemble des valeurs de τ n'est pas vide, choisir comme période fondamentale la plus petite valeur de τ, sinon choisir comme période fondamentale la valeur correspondant au minimum global de d'to(τ).
5. Procédé selon la revendication précédente, caractérisé en ce que le seuil est fixe.
6. Procédé selon la revendication 4, caractérisé en ce que le seuil varie en fonction de τ.
7. Procédé' selon l'une des revendications 3 à 6, et selon lequel le signal xt et les fonctions différences dto(τ) et d'to(τ) sont échantillonnés, caractérisé en ce qu'il consiste à insérer entre les étapes cl) et c2) , 1' étape c' ) consistant à :
- pour chacun des minima de d'to(τ), compléter le minimum par deux autres échantillons de d'to(τ) voisins dudit minimum, calculer la parabole sur laquelle sont situés les trois échantillons, et remplacer ledit minimum par un nouveau minimum fourni par interpolation parabolique, - considérer l'ensemble des valeurs de τ correspondant auxdits nouveaux minima.
8. Procédé selon la revendication précédente, caractérisé en ce que l'étape d) comprend les étapes suivantes :
- considérer le minimum de la fonction différence dto(τ) sur un intervalle centré sur ladite période fondamentale,
- compléter ledit minimum de dto (τ) par deux autres échantillons de dto(τ) voisins dudit minimum et calculer la parabole sur laquelle sont situés les trois échantillons,
- remplacer ledit minimum de dto (τ) par un nouveau minimum fourni par interpolation parabolique, - considérer que la fréquence fondamentale est l'inverse de la valeur de τ correspondant à ce nouveau minimum.
9. Procédé selon l'une des revendications 3 à 8, et selon lequel l'extraction est réalisée à un instant d'analyse ta, caractérisé en ce qu'il consiste à réaliser l'étape de la meilleure estimation locale suivante : l'étape b) est réitérée pour plusieurs valeurs de tO comprises dans un intervalle centré autour de ta et de largeur déterminée et en ce que l'étape c2) est remplacée par l'étape qui consiste à considérer que la période fondamentale est la valeur de τ correspondant au minimum des d'to (τ) obtenus.
10. Procédé selon la revendication précédente, caractérisé en ce que la largeur est celle de la plus longue période fondamentale attendue.
11. Procédé selon la revendication 9, caractérisé en ce que la largeur est celle de la période fondamentale issue du premier calcul ou du calcul précédent.
12. Procédé selon l'une des revendications précédentes, et selon lequel la période fondamentale a déjà été calculée, caractérisé en ce qu'il consiste à réitérer l'extraction de la fréquence fondamentale selon l'une des revendications précédentes en faisant varier τ dans un intervalle centré autour de ladite période fondamentale.
13. Procédé selon l'une des revendications précédentes, caractérisé en ce que la fenêtre W est de forme rectangulaire ou triangulaire ou gaussienne.
14. Procédé selon l'une des revendications précédentes, et selon lequel le signal xt s'exprime en fonction de son amplitude at laquelle varie avec le temps t avec et at+τ/at indépendant de t, caractérisé en ce que la fonction différence dto(τ) est alors de la forme : dto(τ)=rto(0) [l-rt0(τ)2/rto(0) .rto+τ(0)]
15. Procédé selon l'une des revendications précédentes, et selon lequel la fréquence fondamentale varie avec le temps t, caractérisé en ce que la fenêtre W est divisée en au moins deux segments et en ce que le décalage τ diffère selon lesdits segments, τ variant dans des limites dépendant du changement maximum escompté de la fréquence fondamentale d'un desdits segments à l'autre.
16. Procédé ' selon l'une des revendications précédentes, et selon lequel le signal xt comporte un bruit additif de la forme d'une composante continue à variation lente, caractérisé en ce que la fonction différence dto (τ) est alors de la forme :
Figure imgf000028_0002
17. Procédé selon l'une des revendications 3 à 15, et selon lequel le signal sonore xt comporte un bruit additif périodique, caractérisé en ce qu'il consiste à réaliser les étapes suivantes .:
- préalablement à l'étape a) filtrer le signal xt au moyen d'un filtre en peigne dont la réponse impulsionnelle est de la forme h(t) =δ(t) -δ (t-v) , v étant la période du bruit, - pour chaque valeur de v comprise dans un intervalle prédéterminé, réaliser les étapes a) , b) , cl) et éventuellement c' ) et déterminer le plus petit minimum de d'to(τ),
- remplacer l'étape c2) par l'étape qui consiste à choisir parmi l'ensemble des minima de d'to(τ), le plus petit minimum et considérer que la période fondamentale est la valeur τ correspondant audit plus petit minimum de d'to(τ) .
18. Procédé selon la revendication précédente, caractérisé en ce que la fonction différence dto(τ) est alors de la forme :
Dto (τ, v) =rt0 ( 0 ) +rt0+τ ( 0 ) +rt0+v ( 0 ) +rt0+τ+v ( 0 ) -2rt0 (τ) -2rto (v) +2rt0 (τ+v) +2rt0+τ (τ-v) -2rt0+x (τ+v) +2rt0+v (τ+v)
19. Procédé selon l'une des revendications 3 à 15, et selon lequel' le signal xt comporte un bruit additif dont l'enveloppé spectrale diffère de celle de la cible périodique, caractérisé en ce qu'il consiste à réaliser les étapes suivantes :
A) préalablement à l'étape a), filtrer le signal xt au moyen d'un filtre en peigne dont la réponse impulsionnelle est de la forme (t)=δ(t)-δ(t-v), ou h (t) =δ (t) +δ (t-v) , v étant un paramètre donné que l'on fait varier,
B) pour h (t) =δ (t) -δ(t-v) , et pour chaque valeur de v comprise dans un intervalle prédéterminé, réaliser les étapes a) , b) , cl) et éventuellement c' ) et déterminer le plus petit minimum de d'to(τ),
C) remplacer l'étape c2) par l'étape qui consiste à choisir parmi l'ensemble des minima de d'to(τ), le plus petit minimum appelé premier minimum,
D) pour h (t)=δ(t) +δ(t-v) , et pour chaque valeur de v comprise dans ledit intervalle prédéterminé, réaliser les étapes a) , b) , cl) et éventuellement c' ) et déterminer le plus petit minimum de d'to(τ), E) remplacer l'étape c2) par l'étape qui consiste à choisir parmi l'ensemble des minima de d'to(τ), le plus petit minimum appelé deuxième minimum,
F) considérer que la fréquence fondamentale est l'inverse de la valeur τ correspondant à la plus petite valeur entre lesdits premier et deuxième minima.
20. Procédé selon la revendication précédente, caractérisé en ce que l'étape B) est réalisée en exprimant la fonction différence dto (τ) sous la forme : Dto (τ, v) =rt0 ( 0 ) +rt0+τ ( 0 ) +rt0+v ( 0 ) +rto+τ+v ( 0 ) -2rt0 (τ) -2rt0 (v) +2rto (τ+v) +2rt0+τ (τ-v) -2rt0+τ (τ+v) +2rt0+v (τ+v) et en ce que l'étape D) est réalisée en exprimant la fonction différence dto(τ) sous la forme :
Dto (τ, v) =rt0 ( 0 ) +rt0+τ ( 0 ) +rt0+v ( 0 ) +rto+τ+v ( 0 ) +2rt0 (τ) +2rt0 (v) +2rt0 (τ+v) +2rt0+τ (τ-v) +2rt0+τ (τ+v) +2rt0+v (τ+v) .
PCT/FR2002/001854 2001-06-01 2002-05-31 Procede d'extraction de la frequence fondamentale d'un signal sonore WO2002097793A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR01/07284 2001-06-01
FR0107284A FR2825505B1 (fr) 2001-06-01 2001-06-01 Procede d'extraction de la frequence fondamentale d'un signal sonore au moyen d'un dispositif mettant en oeuvre un algorithme d'autocorrelation

Publications (1)

Publication Number Publication Date
WO2002097793A1 true WO2002097793A1 (fr) 2002-12-05

Family

ID=8863929

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2002/001854 WO2002097793A1 (fr) 2001-06-01 2002-05-31 Procede d'extraction de la frequence fondamentale d'un signal sonore

Country Status (2)

Country Link
FR (1) FR2825505B1 (fr)
WO (1) WO2002097793A1 (fr)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105513604A (zh) * 2016-01-05 2016-04-20 浙江诺尔康神经电子科技股份有限公司 一种基频轮廓提取的人工耳蜗言语处理方法和系统
CN110322898A (zh) * 2019-05-28 2019-10-11 平安科技(深圳)有限公司 婴儿哭声检测方法、装置及计算机可读存储介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2988894B1 (fr) * 2012-03-30 2014-03-21 Adeunis R F Procede de detection de la voix
FR3014237B1 (fr) 2013-12-02 2016-01-08 Adeunis R F Procede de detection de la voix
CN111597874A (zh) * 2020-03-30 2020-08-28 潘镇元 基于ecg的身份识别方法及用户在ecg识别设备中注册的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0628947A1 (fr) * 1993-06-10 1994-12-14 SIP SOCIETA ITALIANA PER l'ESERCIZIO DELLE TELECOMUNICAZIONI P.A. Procédé et dispositif pour estimer et classifier la période de la hauteur du son fourni par des signeaux du langage dans des codeurs digitaux du langage
EP0821345A1 (fr) * 1996-07-24 1998-01-28 France Telecom Procédé d'extraction de la fréquence fondamentale d'un signal de parole

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0628947A1 (fr) * 1993-06-10 1994-12-14 SIP SOCIETA ITALIANA PER l'ESERCIZIO DELLE TELECOMUNICAZIONI P.A. Procédé et dispositif pour estimer et classifier la période de la hauteur du son fourni par des signeaux du langage dans des codeurs digitaux du langage
EP0821345A1 (fr) * 1996-07-24 1998-01-28 France Telecom Procédé d'extraction de la fréquence fondamentale d'un signal de parole

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ATKINSON I A ET AL: "Pitch detection of speech signals using segmented autocorrelation", ELECTRONICS LETTERS, IEE STEVENAGE, GB, vol. 31, no. 7, 30 March 1995 (1995-03-30), pages 533 - 535, XP006002624, ISSN: 0013-5194 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105513604A (zh) * 2016-01-05 2016-04-20 浙江诺尔康神经电子科技股份有限公司 一种基频轮廓提取的人工耳蜗言语处理方法和系统
CN105513604B (zh) * 2016-01-05 2022-11-18 浙江诺尔康神经电子科技股份有限公司 一种基频轮廓提取的人工耳蜗言语处理方法和系统
CN110322898A (zh) * 2019-05-28 2019-10-11 平安科技(深圳)有限公司 婴儿哭声检测方法、装置及计算机可读存储介质

Also Published As

Publication number Publication date
FR2825505B1 (fr) 2003-09-05
FR2825505A1 (fr) 2002-12-06

Similar Documents

Publication Publication Date Title
US9317561B2 (en) Scene change detection around a set of seed points in media data
JP5429309B2 (ja) 信号処理装置及び信号処理方法、プログラム及び記録媒体、並びに再生装置
EP0918317B1 (fr) Procédé de filtrage fréquentiel appliqué au débruitage de signaux sonores mettant en oeuvre un filtre de Wiener
CA2563420C (fr) Procede de recherche de contenu, notamment d'extraits communs entre deux fichiers informatiques
EP1593116B1 (fr) Procédé pour le traitement numérique différencié de la voix et de la musique, le filtrage de bruit, la création d'effets spéciaux et dispositif pour la mise en oeuvre dudit procédé
EP2603862B1 (fr) Procédé d'analyse de signaux fournissant des fréquences instantanées et des transformées de fourier glissantes et dispositif d'analyse de signaux
US8193436B2 (en) Segmenting a humming signal into musical notes
FR2522179A1 (fr) Procede et appareil de reconnaissance de paroles permettant de reconnaitre des phonemes particuliers du signal vocal quelle que soit la personne qui parle
CN109065071B (zh) 一种基于迭代k-means算法的歌曲聚类方法
CA2491036A1 (fr) Procede et appareil pour la classification de signaux sonores
FR2940498A1 (fr) Procede et systeme pour authentifier un utilisateur et/ou une donnee cryptographique
KR20140080429A (ko) 오디오 보정 장치 및 이의 오디오 보정 방법
WO2003048711A2 (fr) System de detection de parole dans un signal audio en environnement bruite
WO2002097793A1 (fr) Procede d'extraction de la frequence fondamentale d'un signal sonore
EP1636789A2 (fr) Procede de traitement d'une sequence sonore, telle qu'un morceau musical
EP2436004B1 (fr) Procede pour detecter des paroles chantees et utilisation de ce procede dans un jeu de karaoke
FR2627887A1 (fr) Systeme de reconnaissance de parole et procede de formation de modeles pouvant etre utilise dans ce systeme
Wang et al. Novel music genre classification system using transfer learning on a small dataset
Penttilä et al. A speech/music discriminator-based audio browser with a degree of certainty measure
EP1438707A2 (fr) Procede de caracterisation du timbre d'un signal sonore selon au moins un descripteur
Ge et al. Design and Implementation of Intelligent Singer Recognition System
FR3028086B1 (fr) Procede de recherche automatise d'au moins une sous-sequence sonore representative au sein d'une bande sonore
EP0595950B1 (fr) Procede et dispositif de reconnaissance de la parole en temps reel
FR2988894A1 (fr) Procede de detection de la voix
Adams Time Series Representations for Music Information Retrieval

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NO NZ OM PH PL PT RO RU SD SE SG SI SK SL TJ TM TN TR TT TZ UA UG US UZ VN YU ZA ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GH GM KE LS MW MZ SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
REG Reference to national code

Ref country code: DE

Ref legal event code: 8642

122 Ep: pct application non-entry in european phase
NENP Non-entry into the national phase

Ref country code: JP

WWW Wipo information: withdrawn in national office

Country of ref document: JP