WO2002091362A1 - Procede d'extraction de parametres d'un signal audio, et codeur mettant en oeuvre un tel procede - Google Patents

Procede d'extraction de parametres d'un signal audio, et codeur mettant en oeuvre un tel procede Download PDF

Info

Publication number
WO2002091362A1
WO2002091362A1 PCT/FR2002/001486 FR0201486W WO02091362A1 WO 2002091362 A1 WO2002091362 A1 WO 2002091362A1 FR 0201486 W FR0201486 W FR 0201486W WO 02091362 A1 WO02091362 A1 WO 02091362A1
Authority
WO
WIPO (PCT)
Prior art keywords
harmonic
spectrum
frequency
band
signal
Prior art date
Application number
PCT/FR2002/001486
Other languages
English (en)
Inventor
Delphine Derrien
Dominique Massaloux
Original Assignee
France Telecom
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom filed Critical France Telecom
Publication of WO2002091362A1 publication Critical patent/WO2002091362A1/fr

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation

Definitions

  • the present invention relates to techniques for coding and decoding audio signals, in particular, but not exclusively, speech signals.
  • the invention is particularly applicable in devices making it possible to compress audio signals in a range of bit rates of the order of a few kilobits per second, with good quality, increasing as a function of bit rate.
  • a hierarchical variation of such a device that is to say with an output bit stream composed of bit layers allowing a gradual improvement in quality is also possible.
  • the ear works in frequency, so that the spectral representation of a signal is well suited to hearing.
  • the frequency representation of the signal therefore makes it easier to introduce knowledge about perception and therefore makes it possible to approach a perceptually more efficient coding.
  • the MBE coder is inspired by harmonic models (see: LB Almeida and JM Tribolet, “Harmonie coding: a low bit rate, good-quality speech coding technique", Proc. ICASSP, 1982, pages 1664-1667; LB Almeida and JM Tribolet, "Nonstationnary spectral modeling of voiced speech", IEEE Transactions on Acoustics, Speech, and Signal Processing, 1983, pages 664-677; LB Almeida and FM Silva, “Variable-Frequency Synthesis: An Improved Harmonie Coding Scheme", Proc.
  • the MBE model represents a speech signal as the multiplication of a spectral envelope by an excitation spectrum.
  • the MBE model divides the spectrum into frequency bands and decides whether a frequency band is voiced or not.
  • the excitation spectrum is modeled either by a periodic spectrum if the frequency band is declared voiced, or by a spectrum of white noise if the frequency band is declared unvoiced.
  • the output parameters of the MBE model are the fundamental frequency, the voicing decisions and the spectral amplitudes. They are calculated by minimizing the mean square error ⁇ between the original spectrum and the spectrum modeled according to the following relation:
  • N A represents the length of a signal analysis window
  • S w (n) represents the spectrum of the original signal weighted by the analysis window
  • S w (n) represents the modeled spectrum, the integer n indexing the frequencies of the discrete spectrum.
  • the parameters ⁇ p of the spectral envelope are estimated according to:
  • W ( ⁇ ) is the spectrum of the analysis window and ⁇ 0 represents the estimated fundamental frequency of the signal.
  • the ideal estimator therefore consists in generating the complex spectral amplitudes according to (2).
  • the frequency response of the analysis window centered on the p-th harmonic of the fundamental frequency and weighted by the complex spectral amplitude ⁇ p of the p-th harmonic is used to construct the spectrum of the synthetic signal, according to equation (3).
  • the minimum value of ⁇ given by (1) corresponds to the best fundamental frequency among all the candidates, with which the amplitudes at p are associated.
  • the synthesized spectrum is divided into frequency bands [a k , b k ] each containing three harmonics, and the total number of bands is capped at twelve.
  • the synthetic signal Since the synthetic signal is supposed to be voiced, it is very similar to the original signal in the voiced spectral regions and very different in the unvoiced spectral regions. This similarity measure is used for the band voicing decision, by comparing D k to an adaptive threshold. If the normalized error D k is less than the threshold, then the frequency band k has a harmonic structure and it is declared voiced; otherwise it is declared unvoiced.
  • the MBE coder has a number of drawbacks, mainly due to very constrained signal modeling. This results in audible signal distortions: female voices, in particular, sometimes have poor quality. Generally speaking, the voice coded in MBE suffers from a certain lack of naturalness. The present inventors have observed that these defects appear even if the coding parameters are not quantified ( ⁇ 0 and the ⁇ p for the voiced bands). They therefore come from the model and not only from quantification.
  • the unvoiced spectrum is constructed by multiplying an estimated spectral envelope by a white noise spectrum, and the unvoiced signal is obtained by an inverse Fourier transform.
  • the synthesis method makes it possible to ensure the continuity of the signal from frame to frame.
  • a weighted addition method with overlap which consists in constructing the time signal by multiplying it by a synthesis window of length twice the frame is used in the MBE coder.
  • the weighted components of the signal of the current frame corresponding to the increasing part of the synthesis window are added to the weighted components of the previous frame corresponding to the decreasing part of the synthesis window.
  • the continuity of the signal from frame to frame is then guaranteed by adding the weighted contributions of the signals from two successive frames.
  • a main aim of the present invention is to adapt the modeling part of MBE or similar type coders, in order to obtain a good representation of the energy distribution in the spectrum of the audio signal.
  • the invention thus proposes a method for extracting parameters from an audio signal, comprising the following steps:
  • the criterion for comparison between a portion of the spectrum and its harmonic representation is determined by the ratio between the energies of said harmonic representation and of said portion of the spectrum.
  • This criterion is very simple for the selection between voiced sounds and unvoiced sounds.
  • the object of the criterion is not strictly speaking to discriminate the voiced regions from the unvoiced regions, but rather the well-modeled regions from the poorly modeled regions by the description of the amplitudes of spectral lines corresponding to the harmonics ⁇ 0 , 2 ⁇ 0 ) 3 ⁇ Q , ... of an estimate ⁇ 0 of the fundamental frequency of the signal.
  • the synthesized signal was voiced, it is very similar to the original signal in the voiced regions. If the spectrum of the original signal has a structure harmonic in a frequency band, then the ratio of the energies involved in the criterion is close to 1.
  • this ratio can be close to 1 without, however, the spectrum of the original signal having a harmonic structure.
  • the representation of noisy signals can be made using a sinusoidal model as soon as the spectral lines, corresponding to the sinusoids, are fairly close.
  • the energy ratio is low, then the spectrum of the original signal necessarily has a noisy structure, while if it is relatively high, the spectrum of the original signal can have either a noisy structure or a harmonic structure.
  • the criterion recommended by the invention which is based on these considerations, gives an image of the energy distribution in the spectrum so that it has the best possible representation.
  • the inventors have indeed found that it was more important to properly represent this energy distribution in the spectrum than to carry out a precise adjustment on the shape of the spectral lines corresponding to the harmonics.
  • a spectral analysis shows that the lines of the spectrum synthesized in the harmonic modeling and the lines of the original spectrum are sometimes offset in particular at high frequencies.
  • the slope of the line being relatively steep in the case of a voiced signal, a small error of positioning of the harmonic can cause a strong underestimation of its amplitude.
  • a voiced band in which the spectral lines are offset leads to a bad calculation of the spectral amplitudes and can even have the band declared as unvoiced.
  • the evaluation of the amplitudes of spectral lines comprises obtaining a first estimate of the fundamental frequency for the audio signal frame and, for at minus a harmonic of the first estimate of the fundamental frequency, the positioning, in the vicinity of said harmonic, of a spectral line having a minimum distance with the spectrum of the signal, the amplitude evaluated for said harmonic being that of the line thus positioned.
  • the methods implemented by the invention make it possible to achieve a signal quality very close to that of the original, at the model level.
  • Various known quantization modes can be applied to communicate quantized values of the parameters extracted to the decoder.
  • the method can be used for any type of signal, in particular noisy or non-noisy speech signal, and a music signal.
  • Another aspect of the present invention relates to an audio coder, comprising means for extracting parameters from an audio signal and means for quantifying the extracted parameters, the extraction means being arranged to implement a method such as set out above.
  • FIG. 1 is a block diagram of an audio encoder according to the invention.
  • FIG. 2 is a block diagram of a corresponding audio decoder.
  • the invention is described below in its non-limiting application to an improvement of the standardized MBE code. In the absence of any particular mention, the elements of this code may be the same as those provided in the document Digital Voice Systems, "Inmarsat-M voice coded specifications", 1991, which is incorporated here for reference.
  • the audio signal s (t) which is assumed to be available in digital form at a sampling rate of 8 kHz for example, is divided into successive frames to which a module 1 applies a predefined windowing function .
  • This function corresponds for example to a classic Hamming window applied to a frame of 16 ms (128 samples).
  • a module 2 applies a transformation to the frequency domain to each weighted signal frame, such as a fast Fourier transform (TFR).
  • TFR fast Fourier transform
  • the number of points of the TFR is for example 256, including the 128 samples of the current frame.
  • a module 3 calculates a first estimate ⁇ 0 of the fundamental frequency of the signal on the current frame. As shown in Figure 1, this estimate can be made in the frequency domain from the spectrum S w (n). It could also be carried out in the time domain, by known methods.
  • a module 4 of the coder performs a harmonic analysis of the spectrum S w (n) using the estimate ⁇ 0 of the fundamental frequency.
  • this analysis amounts to evaluating a fundamental frequency for each harmonic, in a limited frequency zone around ⁇ 0 , rather than evaluating a fundamental frequency for the entire frame as it is done in the MBE coder. This makes it possible to properly frame the harmonics for the case where these are not found exactly on the integer multiples of the estimate ⁇ 0 .
  • the search can be carried out by scanning ten possible values ⁇ j of the frequency around ⁇ 0 , indexed by an integer j
  • amplitude ⁇ p is calculated by a projection similar to (2):
  • Module 4 makes it possible to obtain the optimal fundamental frequency for which the line of the synthesized spectrum coincides at best with the line of the original spectrum.
  • the calculation of the amplitudes is much more precise. This appreciably improves the decision of subsequent voicing since a significant error between the synthesized spectrum and the original spectrum can no longer come from the shift between the spectral lines but rather from the fact that the signal is actually unvoiced.
  • the coder of FIG. 1 uses a subdivision of the spectrum of the signal into portions corresponding to K contiguous frequency bands.
  • the signal synthesized according to the representation harmonic is given by
  • the number K of bands considered is for example limited to twelve.
  • a module 5 of the coder calculates a comparison criterion p k with a view to a decision to model the spectrum in the band, taken by a module 6.
  • the expression of the criterion p k can in particular be:
  • the criterion p k according to (8) is governed by the ratio between the energy Num k of the approximate harmonic representation S ⁇ (n) of the portion of the spectrum and the energy Den k of this portion of the spectrum S w (n).
  • the K bits ⁇ k are supplied to module 7 which extracts the spectral samples which will be sent to the decoder.
  • the estimated fundamental frequency is quantified by a module 8 to be transmitted to the decoder in order to enable it to find the subdivision into frequency bands and the positions of the harmonics.
  • the transmitted value advantageously corresponds to that which was retained for the first line of the harmonic spectrum, namely ⁇ 1 .
  • Module 8 can apply various scalar quantization methods well known in the field of signal coding. For each band k which presents a harmonic modeling
  • C is a coefficient chosen according to the predetermined number Q of samples extracted by module 7 (1 ⁇ q ⁇ Q).
  • This coefficient C can itself have an exponential growth as a function of Q.
  • C "90 for Q 70, which gives a faithful representation of an unvoiced spectrum.
  • abs (q) values can be read by the coder and the decoder in a pre-calculated table and memorized once and for all.
  • This non-uniform sampling of the unvoiced portions of the spectrum makes it possible to clearly improve the quality of the synthesized signal which then tends towards the quality of the original signal while retaining a reasonable number of parameters extracted during the analysis for quantification at low bit rate.
  • the inventors have indeed found that the use of a very low sampling step at low frequencies and a much higher sampling step at high frequencies (rather than the same very low sampling step at all the spectrum) does not degrade the quality of the synthesized signal, even if its spectral modeling at high frequencies has many energy gaps. This observation is explained by the fact that the ear is much more sensitive to low frequencies than to high frequencies.
  • the modeling decisions ⁇ k are coded by a module 9 to be transmitted to the remote decoder. This encoding can consist of a simple bitmap.
  • a quantization module 10 also operates the quantization of the spectral samples extracted by the module 7. This module 10 can apply various vector quantization methods well known in the field of signal coding.
  • the coding data relating to the current frame, inserted into the output stream of the coder by the module 11 of FIG. 1 includes the decisions ⁇ k coded by the module 9, the parameters for quantifying the spectral samples delivered by the module 10 and , if there is at least one band modeled by the harmonic representation, the quantization parameters of the fundamental frequency ⁇ 1 delivered by the module 8.
  • the synthesis signal is obtained by the decoder by generating a signal in the frequency domain solely composed of the spectral lines selected for analysis. Each line is represented by a module and a phase.
  • a module 20 recovers the modeling decisions ⁇ k provided in the coding parameters of the current frame.
  • the spectral samples with non-uniform distribution are determined by a module 21: their quantized modules are calculated according to the data d input of the decoder and their phases are generated randomly.
  • a module 22 recovers the quantized estimate ⁇ 1 of the fundamental frequency in the input data of the decoder.
  • This value ⁇ 1 is used to position in frequency the spectral lines whose amplitudes are determined by the module 23.
  • the quantized modules of these amplitudes are extracted from the input data of the decoder using the decisions ⁇ k .
  • the phases are generated randomly, unless they are indicated in the coding data.
  • the module 24 From the frequency / amplitude couples describing the lines to be restored, the module 24 operates in a known manner the sinusoidal synthesis of a block of 256 samples relative to the current frame.
  • a synthesis window (for example a Hamming window of size 256) is applied to the resulting block by the module 25.
  • the module 26 After temporal shift of a frame (128 samples), the module 26 adds the weighted and shifted block to that obtained relatively to the previous frame, which produces the estimate s (t) of the original audio signal s (t) relative to the overlay frame.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Le codeur évalue des amplitudes (αp) de raies spectrales correspondant, dans le spectre du signal audio (s(t)), à des harmoniques d'une fréquence fondamentale estimée. Le spectre est subdivisé en plusieurs portions correspondant à différentes bandes fréquentielles. Pour chaque bande, un type de modélisation est sélectionné en fonction d'un critère de comparaison des énergies de la portion du spectre et d'une représentation harmonique de cette portion, définie par des quantités incluant les amplitudes de raies spectrales correspondant aux harmoniques comprises dans la bande. Les types de modélisation sélectionnés sont transmis au décodeur, de même que des échantillons spectraux dont les positions dépendent de ces types de modélisation.

Description

PROCEDE D'EXTRACTION DE PARAMETRES D'UN SIGNAL AUDIO, ET CODEUR METTANT EN ŒUVRE UN TEL PROCEDE
La présente invention concerne les techniques de codage et décodage des signaux audio, en particulier, mais non exclusivement, de signaux de parole.
L'invention est notamment applicable dans des dispositifs permettant de compresser des signaux audio dans une gamme de débit de l'ordre de quelques kilobits par seconde, avec une bonne qualité, croissante en fonction du débit. Une déclinaison hiérarchique d'un tel dispositif, c'est-à-dire avec un train binaire de sortie composé de couches de bits permettant une amélioration progressive de la qualité est également possible.
Le domaine du codage de la parole et des sons a connu beaucoup d'activité au cours de la dernière décennie. Les progrès des processeurs ont permis la mise au point d'algorithmes de plus en plus complexes mais aussi de plus en plus performants.
La distinction entre les codeurs de parole et les codeurs de sons existe encore mais a tendance à se réduire. Dans les années passées, les codeurs de parole reposaient plutôt sur des techniques temporelles. A très bas débit, on rencontre également des codeurs reposant sur une analyse fréquentielle du signal : codeurs de type harmonique, sinusoïdal ou MBE (« Multi-Band Excitation »). L'invention relève de cette catégorie de techniques.
L'oreille travaille en fréquence, de sorte que la représentation spectrale d'un signal est bien adaptée à l'audition. Ainsi, l'essentiel des données sur la perception, aussi bien en ce qui concerne la perception des sons harmoniques, des bruits, que des phénomènes de masquage fréquentiel, sont expliquées dans le domaine fréquentiel. La représentation fréquentielle du signal permet donc d'introduire plus facilement des connaissances sur la perception et donc permet de se rapprocher d'un codage perceptuellement plus efficace.
En outre, la structure fréquentielle de ces codeurs se prête bien à la conception de codeurs à des débits différents, voire hiérarchiques.
Le codeur MBE s'inspire de modèles harmoniques (voir : L.B. Almeida et J.M. Tribolet, « Harmonie coding: a low bit rate, good-quality speech coding technique », Proc. ICASSP, 1982, pages 1664-1667 ; L.B. Almeida et J.M. Tribolet, « Nonstationnary spectral modeling of voiced speech », IEEE Transactions on Acoustics, Speech, and Signal Processing, 1983, pages 664-677; L.B. Almeida et F. M. Silva, « Variable-Frequency Synthesis: An Improved Harmonie Coding Scheme », Proc. ICASSP, 1984, pages 27.5.1- 27.5.4) et sinusoïdaux (voir R.J. McAulay et T.F. Quatieri, « Speech Analysis / Synthesis based on a sinusoïdal représentation », IEEE Transactions on Acoustics, Speech, and Signal Processing, 1986, pages 744-754 ; T.F. Quatieri and R.J. McAulay, « Speech Transformation Based on a Sinusoïdal Représentation », IEEE Transactions on Acoustics, Speech, and Signal Processing, 1986, pages 1449-1464 ; R.J. McAulay and T.F. Quatieri, « Multirate sinusoïdal transform coding at rates from 2.4 KBPS to 8 KBPS », Proc. ICASSP, 1987, pages 38.7.1-38.7.4).
Depuis la première apparition du modèle MBE (D.W. Griffin et J.S. Lim, « Multiband Excitation Vocoder », IEEE Transactions on Acoustics, Speech, and Signal Processing, Vol. 36, No. 8, août 1988, pages 1223-1225), de nombreux codeurs se sont développés basés sur des principes similaires (voir J.C. Hardwick et J.S. Lim, « A 4.8 kbps Multi-Band Excitation speech coder », Proc. ICASSP, 1988, pages 374-377 ; P.C. Meuse, « A 2400 bps Multi-Band Excitation Vocoder », Proc. ICASSP, 1990, pages 9-12 ; M.S. Brandstein, P.A. Montea, J.C. Hardwick et J.S. Lim, « A Real-Time Implementation of the Improved MBE Speech Coder », Proc. ICASSP, 1990, pp. 5-8 ; M. Nishiguchi, J. Matsumoto, R. Wakatsuki et S. Ono, « Vector Quantized MBE With Simplified V/UV Division at 3.0 KBPS », Proc. ICASSP, 1990, pp.151-154, brevet US 5 754 974), jusqu'à l'apparition de la normalisation du codeur MBE en 1991 (voir Digital Voice Systems, « Inmarsat-M voice codée spécifications », 1991).
Le modèle MBE représente un signal de parole comme la multiplication d'une enveloppe spectrale par un spectre d'excitation.
Contrairement aux vocodeurs traditionnels qui utilisent une seule décision de voisement pour le spectre entier du signal, le modèle MBE divise le spectre en bandes fréquentielles et décide si une bande fréquentielle est voisée ou non. Le spectre d'excitation est modélisé soit par un spectre périodique si la bande fréquentielle est déclarée voisée, soit par un spectre de bruit blanc si la bande fréquentielle est déclarée non voisée.
Les paramètres de sortie du modèle MBE sont la fréquence fondamentale, les décisions de voisement et les amplitudes spectrales. Ils sont calculés en minimisant l'erreur quadratique moyenne ε entre le spectre original et le spectre modélisé d'après la relation suivante :
Figure imgf000005_0001
où NA représente la longueur d'une fenêtre d'analyse du signal, Sw(n) représente le spectre du signal original pondéré par la fenêtre d'analyse, et
Sw(n) représente le spectre modélisé, l'entier n indexant les fréquences du spectre discret.
Sachant que le spectre d'un signal parfaitement voisé présente des raies dont la forme correspond à celle du lobe principal du module de la transformée de Fourier à court terme de la fenêtre d'analyse, les paramètres άp de l'enveloppe spectrale sont estimés selon :
Figure imgf000005_0002
où W(ω) est le spectre de la fenêtre d'analyse et ώ0 représente la fréquence fondamentale estimée du signal.
Le spectre synthétisé est alors donné par :
Figure imgf000005_0003
où L représente le nombre d'harmoniques pris en considération.
Pour chaque candidat de la fréquence fondamentale variant autour d'une valeur initiale estimée, l'estimateur idéal consiste donc à générer les amplitudes spectrales complexes selon (2). Ainsi, la réponse fréquentielle de la fenêtre d'analyse centrée sur la p-ième harmonique de la fréquence fondamentale et pondérée par l'amplitude spectrale complexe άp de la p-ième harmonique est utilisée pour construire le spectre du signal synthétique, d'après l'équation (3). A la valeur minimum de ε donnée par (1) correspond alors la meilleure fréquence fondamentale parmi tous les candidats, à laquelle sont associées les amplitudes âp . Dans le codeur MBE normalisé, le spectre synthétisé est divisé en bandes fréquentielles [ak, bk] contenant chacune trois harmoniques, et le nombre total de bandes est plafonné à douze. Une décision de voisement est déterminée pour chaque bande d'indice k (k = 1 , 2, ...), sur la base de l'erreur spectrale normalisée Dk entre le spectre du signal original et le spectre du signal synthétisé sur la largeur de la bande considérée, donnée par :
Figure imgf000006_0001
Le signal synthétique étant supposé voisé, il est très similaire au signal original dans les régions spectrales voisées et très différent dans les régions spectrales non voisées. Cette mesure de similarité est utilisée pour la décision de voisement par bandes, en comparant Dk à un seuil adaptatif. Si l'erreur normalisée Dk est inférieure au seuil, alors la bande fréquentielle k a une structure harmonique et elle est déclarée voisée ; sinon elle est déclarée non voisée.
Le codeur MBE présente un certain nombre d'inconvénients, essentiellement dus à une modélisation très contrainte du signal. Il en résulte des distorsions audibles du signal : les voix de femme, en particulier, présentent parfois une qualité médiocre. De manière générale, la voix codée en MBE souffre d'un certain manque de naturel. Les présents inventeurs ont observé que, ces défauts apparaissent même si on ne quantifie pas les paramètres du codage (ώ0 et les άp pour les bandes voisées). Ils proviennent donc du modèle et non pas seulement de la quantification.
Dans « Speech Coding using Bi-harmonic spectral modeling », par C. Garcia-Mateo, J.L. Alba-Castro et E. R-Banga, (Proc. EUROSPEECH, 1994, pages 391-394) et dans « Wideband speech coding based on the MBE structure », par A. Amodio et G. Feng, (Proc. EUROSPEECH, 1997, pages 1499-1502), il a été observé que les raies du spectre synthétisé et les raies du spectre original peuvent être décalées, surtout aux hautes fréquences. Ainsi, une bande voisée dans laquelle les raies spectrales sont décalées conduit à un mauvais calcul des amplitudes ou même à une prise de décision de voisement erronée. Aussi, durant les dernières années, plusieurs auteurs se sont intéressés à de nouveaux critères de voisement. Beaucoup de propositions ont été faites, mais toutes avec une complexité de calcul assez importante. Dans le modèle MBE normalisé, le spectre non voisé est construit en multipliant une enveloppe spectrale estimée par un spectre de bruit blanc, et le signal non voisé est obtenu par une transformée de Fourier inverse. Cependant, à cause de la variation temporelle des paramètres, qui amène des discontinuités du signal aux jonctions des trames, il est nécessaire d'utiliser une méthode de synthèse permettant d'assurer la continuité du signal de trame en trame. Une méthode par addition pondérée avec recouvrement qui consiste à construire le signal temporel en le multipliant par une fenêtre de synthèse de longueur deux fois la trame est utilisée dans le codeur MBE. Les composantes pondérées du signal de la trame courante correspondant à la partie croissante de la fenêtre de synthèse sont additionnées aux composantes pondérées de la trame précédente correspondant à la partie décroissante de la fenêtre de synthèse. La continuité du signal de trame en trame est alors garantie en additionnant les contributions pondérées des signaux issus de deux trames successives. Certains auteurs ont proposé de représenter les régions non voisées d'un signal audio par des méthodes de synthèse sinusoïdale à condition que les raies spectrales soient suffisamment proches (voir R.J. McAulay et T.F. Quatieri, « Speech Analysis/Synthesis based on a sinusoïdal représentation », IEEE Transactions on Acoustics, Speech, and Signal Processing, 1986, pages 744-754 ; J.S. Marques et L.B. Almeida, « Sinusoïdal Modeling of Voiced and Unvoiced Speech », Proc. EUROSPEECH, 1989, pages 203-206 ; J.S. Marques, « Sinusoïdal Modeling of Speech : Application to Médium to Low Bit Rate Coding », Thèse de Doctorat, Université Technique de Lisbonne, 1989 ; J.S. Marques, L.B. Almeida et J.M. Tribolet, « Harmonie Coding at 4.8 KP/S », Proc. ICASSP, 1990, pages 17-20. Ainsi, même si pour modéliser les régions non voisées d'un signal, le premier des trois articles ci-dessus montre que la représentation sinusoïdale peut être effectuée en espaçant les raies spectrales d'environ 100 Hz pour une trame de 20 ms. En fait, les présents inventeurs ont constaté qu'une modélisation des régions non voisées d'un signal en espaçant les raies de 100 Hz pour une trame de 20 ms ne suffit pas à produire une qualité de signal non voisé satisfaisante. Par contre elle est satisfaisante pour une trame d'analyse de 10 ms. Afin d'obtenir une qualité du signal non voisé synthétisé très proche de l'original, une représentation des signaux bruités doit être effectuée en générant des raies spectrales très proches. La modélisation sinusoïdale des spectres bruités a pour but non pas de modéliser une structure spectrale harmonique, puisque celle ci n'existe pas, mais permet de donner une image de la répartition d'énergie dans le spectre. Cette modélisation peut être vue comme un échantillonnage fin de l'énergie spectrale. Les publications précitées proposent alors d'utiliser un nombre fixe de raies spectrales régulièrement espacées pour modéliser le spectre.
Dans "Harmonic-Plus-Noise Décomposition and its Application in Voiced/Unvoiced Classification", (IEEE Tencon '97, Brisbane, décembre 1997), R. Ahn et W.H. Holmes ont présenté un autre modèle de représentation des signaux de parole voisés sous forme d'une somme d'une composante harmonique et d'une composante de bruit. A partir de ce modèle, le rapport entre les énergies de la composante harmonique et de la composante de bruit est calculé dans différentes sous-bandes puis totalisé dans l'ensemble de la bande pour déterminer si le signal de parole est voisé ou non.
Un but principal de la présente invention est d'adapter la partie modélisation des codeurs de type MBE ou analogues, afin d'obtenir une bonne représentation de la répartition énergétique dans le spectre du signal audio.
L'invention propose ainsi un procédé d'extraction de paramètres d'un signal audio, comprenant les étapes suivantes :
- déterminer un spectre du signal par transformation d'une trame du signal audio dans le domaine fréquentiel ; - évaluer des amplitudes de raies spectrales correspondant, dans le spectre du signal, à des harmoniques d'une fréquence fondamentale estimée ;
- subdiviser le spectre du signal en plusieurs portions correspondant à différentes bandes fréquentielles comprenant chacune au moins une harmonique de la fréquence fondamentale estimée ;
- sélectionner un type de modélisation pour chaque bande fréquentielle en fonction d'un critère de comparaison entre la portion du spectre correspondant à ladite bande et une représentation harmonique de ladite portion, définie par des quantités incluant chaque amplitude de raie spectrale correspondant à une harmonique comprise dans ladite bande ;
- inclure une indication des types de modélisation respectivement sélectionnés pour les différentes bandes fréquentielles dans des paramètres de sortie relatifs à la trame du signal audio ; - si un type de modélisation harmonique a été sélectionné pour au moins une bande fréquentielle, inclure dans les paramètres de sortie relatifs à la trame chaque amplitude de raie spectrale correspondant à une harmonique comprise dans une bande pour laquelle le type de modélisation harmonique a été sélectionné et, si le type de modélisation harmonique n'a pas été sélectionné pour au moins une autre bande fréquentielle, des grandeurs décrivant une représentation non- harmonique de la portion du spectre correspondant à ladite autre bande. Selon l'invention, le critère de comparaison entre une portion du spectre et sa représentation harmonique est déterminé par le rapport entre les énergies de ladite représentation harmonique et de ladite portion du spectre.
Ce critère est très simple pour la sélection entre sons voisés et sons non voisés. En fait l'objet du critère n'est pas à proprement parler de discriminer les régions voisées des régions non voisées, mais plutôt les régions bien modélisées des régions mal modélisées par la description des amplitudes de raies spectrales correspondant aux harmoniques ώ0 , 2ώ0 )Q , ... d'une estimation ώ0 de la fréquence fondamentale du signal. Ayant supposé que le signal synthétisé était voisé, il est très similaire au signal original dans les régions voisées. Si le spectre du signal original présente une structure harmonique dans une bande fréquentielle, alors le rapport des énergies intervenant dans le critère est proche de 1. Cependant, ce rapport peut être proche de 1 sans pour autant que le spectre du signal original présente une structure harmonique. En effet, on a vu que la représentation des signaux bruités peut être faite à l'aide d'un modèle sinusoïdal dès l'instant que les raies spectrales, correspondant aux sinusoïdes, sont assez proches. En résumé, si le rapport des énergies est faible, alors le spectre du signal original présente nécessairement une structure bruitée, tandis que s'il est relativement élevé, le spectre du signal original peut présenter soit une structure bruitée soit une structure harmonique.
Le critère préconisé par l'invention, qui repose sur ces considérations, donne une image de la répartition d'énergie dans le spectre afin que celle-ci ait la meilleure représentation possible. Les inventeurs ont en effet constaté qu'il était plus important de bien représenter cette distribution énergétique dans le spectre que de réaliser un ajustement précis sur la forme des raies spectrales correspondant aux harmoniques.
Une analyse spectrale montre que les raies du spectre synthétisé dans la modélisation harmonique et les raies du spectre original sont parfois décalées notamment aux hautes fréquences. La pente de la raie étant relativement raide dans le cas d'un signal voisé, une petite erreur de positionnement de l'harmonique peut provoquer une forte sous-estimation de son amplitude. Ainsi, dans le codeur MBE, une bande voisée dans laquelle les raies spectrales sont décalées conduit à un mauvais calcul des amplitudes spectrales et peut même faire déclarer la bande comme non voisée. Pour éviter un tel inconvénient, dans un mode de réalisation préféré du procédé selon l'invention, l'évaluation des amplitudes de raies spectrales comprend l'obtention d'une première estimation de la fréquence fondamentale pour la trame de signal audio et, pour au moins une harmonique de la première estimation de la fréquence fondamentale, le positionnement, dans un voisinage de ladite harmonique, d'une raie spectrale ayant une distance minimale avec le spectre du signal, l'amplitude évaluée pour ladite harmonique étant celle de la raie ainsi positionnée.
Afin de limiter le nombre de paramètres extraits, pour optimiser le débit du codeur, on peut ne transmettre au décodeur qu'une seule fréquence harmonique par trame, à savoir celle de la première harmonique, étant remarqué que l'oreille est beaucoup plus sensible aux basses fréquences qu'aux hautes fréquences. Cette fréquence transmise représente une estimation affinée de la fréquence fondamentale résultant de la recherche du maximum local autour de la première raie spectrale. Les études menées ont montré que la transmission au décodeur de davantage de valeurs des fréquences harmoniques (les fréquences des maxima locaux) ne conduit pas à une amélioration perceptible du signal de parole synthétisé. Selon un autre aspect de l'invention, il est proposé de modéliser les régions non voisées du signal par des méthodes de synthèse sinusoïdale utilisant une répartition non uniforme du pas d'échantillonnage en fréquence, cette répartition non uniforme permettant une bonne qualité de synthèse pour un nombre relativement restreint de raies à coder. Ainsi, lorsque le type de modélisation harmonique n'a été sélectionné pour aucune des bandes fréquentielles, on inclut dans les paramètres de sortie relatifs à la trame courante des échantillons du spectre du signal à des fréquences ayant un espacement croissant vers les hautes fréquences.
Les méthodes mises en œuvre par l'invention permettent d'atteindre une qualité du signal très proche de celle de l'original, au niveau du modèle. Divers modes de quantification connus peuvent être appliqués pour communiquer des valeurs quantifiées des paramètres extraits au décodeur. Le procédé est utilisable pour tout type de signal, notamment signal de parole bruité ou non bruité, et un signal de musique. Un autre aspect de la présente invention se rapporte à un codeur audio, comprenant des moyens d'extraction de paramètres d'un signal audio et des moyens de quantification des paramètres extraits, les moyens d'extraction étant agencés pour mettre en œuvre un procédé tel qu'exposé ci-dessus.
D'autres particularités et avantages de la présente invention apparaîtront dans la description ci-après d'exemples de réalisation non limitatifs, en référence aux dessins annexés, dans lesquels :
- la figure 1 est un schéma synoptique d'un codeur audio selon l'invention ;
- la figure 2 est un schéma synoptique d'un décodeur audio correspondant. L'invention est décrite ci-après dans son application non limitative à une amélioration du codée MBE normalisé. En l'absence de mention particulière, les éléments de ce codée peuvent être les mêmes que ceux prévus dans le document Digital Voice Systems, « Inmarsat-M voice codée spécifications », 1991 , qui est incorporé ici à titre de référence.
En référence à la figure 1 , le signal audio s(t), qu'on suppose disponible sous forme numérique à une cadence d'échantillonnage de 8 kHz par exemple, est réparti en trames successives auxquelles un module 1 applique une fonction de fenêtrage prédéfinie. Cette fonction correspond par exemple à une fenêtre de Hamming classique appliquée à une trame de 16 ms (128 échantillons).
Au niveau du codeur, un module 2 applique à chaque trame de signal pondéré une transformation vers le domaine fréquentiel, telle qu'une transformée de Fourier rapide (TFR). Le nombre de points de la TFR est par exemple de 256, incluant les 128 échantillons de la trame courante.
Un module 3 calcule une première estimation ώ0 de la fréquence fondamentale du signal sur la trame courante. Comme représenté sur la figure 1 , cette estimation peut être opérée dans le domaine fréquentiel à partir du spectre Sw(n). Elle pourrait aussi être effectuée dans le domaine temporel, par des méthodes connues.
Un module 4 du codeur effectue une analyse harmonique du spectre Sw(n) à l'aide de l'estimation ώ0 de la fréquence fondamentale.
On peut considérer que cette analyse revient à évaluer une fréquence fondamentale pour chaque harmonique, dans une zone fréquentielle limitée autour de ώ0 , plutôt que d'évaluer une fréquence fondamentale pour la trame entière comme il est fait dans le codeur MBE. Ceci permet de bien cadrer les harmoniques pour le cas où celles-ci ne se trouverait pas exactement sur les multiples entiers de l'estimation ώ0.
On prend en considération un nombre P de raies spectrales correspondant aux harmoniques de ώ0 . Pour chaque raie p (1 < p ≤ P), le module 4 recherche la fréquence ώp = ώ0 + Δωp pour laquelle la raie spectrale du spectre à synthétiser, centrée sur p.ώp ) coïncide au mieux avec la raie du spectre original. A titre d'exemple, la recherche peut être effectuée en balayant dix valeurs possibles ωj de la fréquence autour de ώ0 , indexées par un entier j
et de la forme ώ^ = ?• _ < » avec 1 ≤ j ≤ 10. Pour chaque index j, une ώ0 8
amplitude άp est calculée par une projection similaire à (2) :
Figure imgf000013_0001
La fréquence fondamentale ώp retenue pour la p-ième raie est alors celle qui minimise la distance :
(p+1/2).ώj
FJ = Sw(n) α t^p..W /(tnn--pp. ω (6) n=(p-1/2). j L'amplitude spectrale correspondant au minimum, donnée par (5), est notée άp , et la p-ième raie spectrale synthétisée Sp(n) = âp.w(n-p.ώp ).
Le module 4 permet d'obtenir la fréquence fondamentale optimale pour laquelle la raie du spectre synthétisé coïncide au mieux avec la raie du spectre original. Ainsi, le calcul des amplitudes est beaucoup plus précis. Cela améliore sensiblement la prise de décision de voisement ultérieure puisqu'une erreur importante entre le spectre synthétisé et le spectre original ne peut plus provenir du décalage entre les raies spectrales mais bien du fait que le signal est réellement non voisé.
Le codeur de la figure 1 utilise une subdivision du spectre du signal en portions correspondant à K bandes fréquentielles contiguës. Par exemple, chacune de ces bandes k (1 ≤ k ≤ K) comprend trois harmoniques de la fréquence fondamentale, à savoir les harmoniques de rang p = 3k-2, p = 3k— 1 et p = 3k. Dans chaque bande k, le signal synthétisé suivant la représentation harmonique est donné par
3k Λ sw(n) = ∑ Sp(n) (7) p=3k-2
Le nombre K de bandes considérées est par exemple limité à douze.
Pour chaque bande k, un module 5 du codeur calcule un critère de comparaison pk en vue d'une décision de modélisation du spectre dans la bande, prise par un module 6. L'expression du critère pk peut notamment être :
Figure imgf000014_0001
où le coefficient Coefk = 1/kP traduit une décroissance générale du critère pk en fonction de la fréquence (β > 0). On voit que pour chaque bande k, le critère pk selon (8) est gouverné par le rapport entre l'énergie Numk de la représentation harmonique approchée S^(n) de la portion du spectre et l'énergie Denk de cette portion du spectre Sw(n).
Pour prendre la décision de modélisation dans chaque bande fréquentielle, le module 6 compare le critère pk à un seuil R qui peut être fixe ou adaptatif. Dans une réalisation particulière où pk est donné par (8) avec β = 1/8, ce seuil R est fixé à 0,65. Chaque décision de modélisation est exprimée par un bit γk, avec γk = 1 pour une modélisation harmonique (pk ≥ R) et γk = 0 pour une modélisation non harmonique (pk < R).
Les K bits γk sont fournis au module 7 qui extrait les échantillons spectraux qui seront adressés au décodeur.
Dès lors qu'au moins une bande k présente une modélisation harmonique (γk = 1 ), la fréquence fondamentale estimée est quantifiée par un module 8 pour être transmise au décodeur afin de lui permettre de retrouver la subdivision en bandes fréquentielles et les positions des harmoniques. Pour optimiser la représentation de la fréquence fondamentale, la valeur transmise correspond avantageusement à celle qui a été retenue pour la première raie du spectre harmonique, soit ώ1. Le module 8 peut appliquer diverses méthodes de quantification scalaire bien connues dans le domaine du codage des signaux. Pour chaque bande k qui présente une modélisation harmonique
k = 1 ), les échantillons extraits par le module 7 sont constitués par les modules des amplitudes άp des trois raies correspondantes (p = 3k-2, p = 3k-1 et p = 3k). Si au moins une autre bande k' ne présente pas de modélisation harmonique d'après le critère de comparaison (γk> = 0), les échantillons extraits représentent le la portion correspondante du spectre Sw(n) échantillonnée à intervalles réguliers égaux à un ou plusieurs intervalles élémentaires de la transformée de Fourier. Ces derniers échantillons sont par exemple constitués par des modules du spectre.
Quand aucune bande ne présente une modélisation harmonique (γk = 0 pour 1 ≤ k ≤ K), il n'est pas nécessaire de transmettre une fréquence fondamentale au décodeur. Le spectre Sw(n) est alors échantillonné par le module 7 avec un pas en fréquence variable. Plus précisément, ce pas augmente avec la fréquence. L'échantillonnage peut ne porter que sur le module du spectre. La variation du pas d'échantillonnage est par exemple gouvernée par la fonction :
Figure imgf000015_0001
où C est un coefficient choisi en fonction du nombre prédéterminé Q d'échantillons extraits par le module 7 (1 ≤ q ≤ Q). Ce coefficient C peut lui- même avoir une croissance exponentielle en fonction de Q. A titre d'exemple, C « 90 pour Q = 70, ce qui donne une représentation fidèle d'un spectre non voisé. Les positions en fréquence abs(q) des échantillons extraits sont déterminées de façon récursive. On commence par prendre abs(1) = roι/nc/[f(1 )], round[x] désignant l'entier le plus proche du réel x, puis on calcule la q-ième position après avoir obtenu les q-1 précédentes : abs(q) = abs(q-1 ) + rot/t7d[f(q)-f(q-1 )] (10)
En pratique, les valeurs abs(q) peuvent être lues par le codeur et le décodeur dans un tableau pré-calculé et mémorisé une fois pour toutes.
Cet échantillonnage non uniforme des portions non voisées du spectre permet d'améliorer nettement la qualité du signal synthétisé qui tend alors vers la qualité du signal original tout en conservant un nombre raisonnable de paramètres extraits lors de l'analyse pour une quantification à bas débit. Les inventeurs ont en effet constaté que l'utilisation d'un pas d'échantillonnage très faible aux basses fréquences et d'un pas d'échantillonnage beaucoup plus élevé aux hautes fréquences (plutôt qu'un même pas d'échantillonnage très faible sur tout le spectre) ne dégrade pas la qualité du signal synthétisé, même si sa modélisation spectrale aux hautes fréquences présente de nombreux trous d'énergie. Cette observation est s'explique par le fait que l'oreille est beaucoup plus sensible aux basses fréquences qu'aux hautes fréquences. Les décisions de modélisation γk sont codées par un module 9 pour être transmises au décodeur distant. Ce codage peut consister en un bitmap simple. Un module de quantification 10 opère d'autre part la quantification des échantillons spectraux extraits par le module 7. Ce module 10 peut appliquer diverses méthodes de quantification vectorielle bien connues dans le domaine du codage des signaux.
Les données de codage relatives à la trame courante, insérées dans le flux de sortie du codeur par le module 11 de la figure 1 comprennent les décisions γk codées par le module 9, les paramètres de quantification des échantillons spectraux délivrés par le module 10 et, s'il y a au moins une bande modélisée par la représentation harmonique, les paramètres de quantification de la fréquence fondamentale ώ1 délivrés par le module 8.
Le signal de synthèse est obtenu par le décodeur en générant un signal dans le domaine fréquentiel uniquement composé des raies spectrales sélectionnées à l'analyse. Chaque raie est représentée par un module et une phase.
Dans le décodeur illustré par la figure 2, un module 20 récupère les décisions de modélisation γk fournies dans les paramètres de codage de la trame courante.
Lorsque aucune bande n'est représentée dans la modélisation harmonique (γ1 = γ2 = ... = 0), les échantillons spectraux à répartition non uniforme sont déterminés par un module 21 : leurs modules quantifiés sont calculés d'après les données d'entrée du décodeur et leurs phases sont générées aléatoirement.
Sinon, un module 22 récupère l'estimation quantifiée ώ1 de la fréquence fondamentale dans les données d'entrée du décodeur. Cette valeur ώ1 sert à positionner en fréquence les raies spectrales dont les amplitudes sont déterminées par le module 23. Les modules quantifiés de ces amplitudes sont extraits des données d'entrée du décodeur à l'aide des décisions γk. Les phases sont générées aléatoirement, à moins qu'elles soient indiquées dans les données de codage.
A partir des couples fréquence/amplitude décrivant les raies à restituer, le module 24 opère de façon connue la synthèse sinusoïdale d'un bloc de 256 échantillons relativement à la trame courante. Une fenêtre de synthèse (par exemple une fenêtre de Hamming de taille 256) est appliquée au bloc résultant par le module 25. Après décalage temporel d'une trame (128 échantillons), le module 26 ajoute le bloc pondéré et décalé à celui obtenu relativement à la trame précédente, ce qui produit l'estimation s(t) du signal audio original s(t) relativement à la trame de recouvrement.

Claims

R E V E N D I C A T I O N S
1. Procédé d'extraction de paramètres d'un signal audio (s(t)), comprenant les étapes suivantes :
- déterminer un spectre du signal par transformation d'une trame du signal audio dans le domaine fréquentiel ;
- évaluer des amplitudes (âp) de raies spectrales correspondant, dans le spectre du signal, à des harmoniques d'une fréquence fondamentale estimée ;
- subdiviser le spectre du signal en plusieurs portions correspondant à différentes bandes fréquentielles comprenant chacune au moins une harmonique de la fréquence fondamentale estimée ;
- sélectionner un type de modélisation pour chaque bande fréquentielle en fonction d'un critère de comparaison entre la portion du spectre correspondant à ladite bande et une représentation harmonique de ladite portion, définie par des quantités incluant chaque amplitude de raie spectrale correspondant à une harmonique comprise dans ladite bande ;
- inclure une indication (γk) des types de modélisation respectivement sélectionnés pour les différentes bandes fréquentielles dans des paramètres de sortie relatifs à la trame du signal audio ; - si un type de modélisation harmonique a été sélectionné pour au moins une bande fréquentielle, inclure dans les paramètres de sortie relatifs à la trame chaque amplitude de raie spectrale correspondant à une harmonique comprise dans une bande pour laquelle le type de modélisation harmonique a été sélectionné et, si le type de modélisation harmonique n'a pas été sélectionné pour au moins une autre bande fréquentielle, des grandeurs décrivant une représentation non- harmonique de la portion du spectre correspondant à ladite autre bande, caractérisé en ce que le critère de comparaison (pk) entre une portion du spectre et sa représentation harmonique est déterminé par le rapport entre les énergies de ladite représentation harmonique et de ladite portion du spectre.
2. Procédé selon la revendication 1 , dans lequel l'évaluation des amplitudes de raies spectrales comprend l'obtention d'une première estimation (ώ0) de la fréquence fondamentale pour la trame de signal audio et, pour au moins une harmonique de la première estimation de la fréquence fondamentale, le positionnement, dans un voisinage de ladite harmonique, d'une raie spectrale ayant une distance minimale avec le spectre du signal, l'amplitude (άp) évaluée pour ladite harmonique étant celle de la raie positionnée ayant la distance minimale.
3. Procédé selon la revendication 2, dans lequel, lorsqu'un type de modélisation harmonique a été sélectionné pour au moins une bande fréquentielle, on inclut dans les paramètres de sortie relatifs à la trame une indication (ώ.,) de la fréquence à laquelle est positionnée la raie pour la première harmonique de la première estimation de la fréquence fondamentale.
4. Procédé selon l'une quelconque des revendications précédentes, dans lequel, dans le critère de comparaison (pk) entre une portion du spectre correspondant à la k-ième bande fréquentielle (k > 1) et sa représentation harmonique, le rapport entre les énergies de ladite représentation harmonique et de ladite portion du spectre est pondéré par un coefficient décroissant en fonction de l'index k.
5. Procédé selon l'une quelconque des revendications précédentes, dans lequel, lorsque le type de modélisation harmonique a été sélectionné pour au moins une bande fréquentielle, les grandeurs décrivant la représentation non-harmonique d'une portion du spectre correspondant à une autre bande fréquentielle pour laquelle le type de modélisation harmonique n'a pas été sélectionné comprennent des échantillons du spectre du signal audio à des fréquences régulièrement espacées dans ladite autre bande.
6. Procédé selon l'une quelconque des revendications précédentes, dans lequel, lorsque le type de modélisation harmonique n'a été sélectionné pour aucune des bandes fréquentielles, on inclut dans les paramètres de sortie relatifs à la trame de signal audio des échantillons du spectre du signal à des fréquences ayant un espacement croissant vers les hautes fréquences.
7. Codeur audio, comprenant des moyens (2-7) d'extraction de paramètres d'un signal audio (s(t)) et des moyens (8-10) de quantification des paramètres extraits, les moyens d'extraction étant agencés pour mettre en œuvre un procédé selon l'une quelconque des revendications précédentes.
PCT/FR2002/001486 2001-05-07 2002-04-29 Procede d'extraction de parametres d'un signal audio, et codeur mettant en oeuvre un tel procede WO2002091362A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0106073A FR2824432B1 (fr) 2001-05-07 2001-05-07 Procede d'extraction de parametres d'un signal audio, et codeur mettant en oeuvre un tel procede
FR01/06073 2001-05-07

Publications (1)

Publication Number Publication Date
WO2002091362A1 true WO2002091362A1 (fr) 2002-11-14

Family

ID=8863045

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2002/001486 WO2002091362A1 (fr) 2001-05-07 2002-04-29 Procede d'extraction de parametres d'un signal audio, et codeur mettant en oeuvre un tel procede

Country Status (2)

Country Link
FR (1) FR2824432B1 (fr)
WO (1) WO2002091362A1 (fr)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008069468A1 (fr) * 2006-12-04 2008-06-12 Samsung Electronics Co., Ltd. Procédé et appareil d'extraction de composante de fréquence importante d'un signal audio et procédé et appareil de codage et/ou décodage de signal audio au moyen de celle-ci
WO2010130225A1 (fr) * 2009-05-14 2010-11-18 华为技术有限公司 Procede de decodage audio et decodeur audio

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006005337A1 (fr) * 2004-06-11 2006-01-19 Nanonord A/S Procede d'analyse de frequences fondamentale et application de ce procede

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5754974A (en) * 1995-02-22 1998-05-19 Digital Voice Systems, Inc Spectral magnitude representation for multi-band excitation speech coders
US6098037A (en) * 1998-05-19 2000-08-01 Texas Instruments Incorporated Formant weighted vector quantization of LPC excitation harmonic spectral amplitudes

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5754974A (en) * 1995-02-22 1998-05-19 Digital Voice Systems, Inc Spectral magnitude representation for multi-band excitation speech coders
US6098037A (en) * 1998-05-19 2000-08-01 Texas Instruments Incorporated Formant weighted vector quantization of LPC excitation harmonic spectral amplitudes

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
AHN ET AL: "Harmonic-plus-noise decomposition and its application in voiced/unvoiced classification", TENCON '97. IEEE REGION 10 ANNUAL CONFERENCE. SPEECH AND IMAGE TECHNOLOGIES FOR COMPUTING AND TELECOMMUNICATIONS., PROCEEDINGS OF IEEE BRISBANE, QLD., AUSTRALIA 2-4 DEC. 1997, NEW YORK, NY, USA,IEEE, US, 2 December 1997 (1997-12-02), pages 587 - 590, XP010264254, ISBN: 0-7803-4365-4 *
D. DERRIEN AND D. MASSALOUX: "A new method for unvoiced modeling", ICASSP'2001, SPEECH SF3.6, vol. 6, 7 May 2001 (2001-05-07) - 11 May 2001 (2001-05-11), Salt Lake City, Utah, USA, pages 4020, XP002185678 *
ETEMOGLU C O ET AL: "Speech coding with an analysis-by-synthesis sinusoidal model", 2000 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING. PROCEEDINGS (CAT. NO.00CH37100), ISTANBUL, TURKEY, 5-9 JUNE 2000, 2000, Piscataway, NJ, USA, IEEE, USA, pages 1371 - 1374 vol.3, XP002185400, ISBN: 0-7803-6293-4 *
TEAGUE ET AL: "Enhanced spectral modeling for MBE speech coders", SIGNALS, SYSTEMS & COMPUTERS, 1997. CONFERENCE RECORD OF THE THIRTY-FIRST ASILOMAR CONFERENCE ON PACIFIC GROVE, CA, USA 2-5 NOV. 1997, LOS ALAMITOS, CA, USA,IEEE COMPUT. SOC, US, 2 November 1997 (1997-11-02), pages 1071 - 1074, XP010280646, ISBN: 0-8186-8316-3 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008069468A1 (fr) * 2006-12-04 2008-06-12 Samsung Electronics Co., Ltd. Procédé et appareil d'extraction de composante de fréquence importante d'un signal audio et procédé et appareil de codage et/ou décodage de signal audio au moyen de celle-ci
US8612215B2 (en) 2006-12-04 2013-12-17 Samsung Electronics Co., Ltd. Method and apparatus to extract important frequency component of audio signal and method and apparatus to encode and/or decode audio signal using the same
WO2010130225A1 (fr) * 2009-05-14 2010-11-18 华为技术有限公司 Procede de decodage audio et decodeur audio
CN101556799B (zh) * 2009-05-14 2013-08-28 华为技术有限公司 一种音频解码方法和音频解码器
US8620673B2 (en) 2009-05-14 2013-12-31 Huawei Technologies Co., Ltd. Audio decoding method and audio decoder

Also Published As

Publication number Publication date
FR2824432A1 (fr) 2002-11-08
FR2824432B1 (fr) 2005-04-08

Similar Documents

Publication Publication Date Title
US8856049B2 (en) Audio signal classification by shape parameter estimation for a plurality of audio signal samples
EP2951813B1 (fr) Correction perfectionnée de perte de trame au décodage d&#39;un signal
WO2015197989A1 (fr) Ré-échantillonnage par interpolation d&#39;un signal audio pour un codage /décodage à bas retard
EP2727107B1 (fr) Fenêtres de pondération en codage/décodage par transformée avec recouvrement, optimisées en retard
EP1051703B1 (fr) Procede decodage d&#39;un signal audio avec correction des erreurs de transmission
EP1997103B1 (fr) Procede de codage d&#39;un signal audio source, dispositif de codage, procede et dispositif de decodage, signal, produits programme d&#39;ordinateur correspondants
FR2596936A1 (fr) Systeme de transmission d&#39;un signal vocal
WO2003063134A1 (fr) Procede d&#39;evaluation qualitative d&#39;un signal audio numerique.
EP2795618B1 (fr) Procédé de détection d&#39;une bande de fréquence prédéterminée dans un signal de données audio, dispositif de détection et programme d&#39;ordinateur correspondant
EP2080194B1 (fr) Attenuation du survoisement, notamment pour la generation d&#39;une excitation aupres d&#39;un decodeur, en absence d&#39;information
WO2006114494A1 (fr) Procede d’adaptation pour une interoperabilite entre modeles de correlation a cout terme de signaux numeriques
EP2347411B1 (fr) Attenuation de pre-echos dans un signal audionumerique
WO2000021077A1 (fr) Procede de quantification des parametres d&#39;un codeur de parole
EP1385150B1 (fr) Procédé et dispositif pour la caractérisation des signaux audio transitoires
EP1836699B1 (fr) Procédé et dispositif de codage audio optimisé entre deux modèles de prediction à long terme
EP3138095B1 (fr) Correction de perte de trame perfectionnée avec information de voisement
WO2002091362A1 (fr) Procede d&#39;extraction de parametres d&#39;un signal audio, et codeur mettant en oeuvre un tel procede
WO2023165946A1 (fr) Codage et décodage optimisé d&#39;un signal audio utilisant un auto-encodeur à base de réseau de neurones
EP1021805B1 (fr) Procede et disposition de conditionnement d&#39;un signal de parole numerique
FR2783651A1 (fr) Dispositif et procede de filtrage d&#39;un signal de parole, recepteur et systeme de communications telephonique
EP1192619B1 (fr) Codage et decodage audio par interpolation
EP1194923B1 (fr) Procedes et dispositifs d&#39;analyse et de synthese audio
FR2980620A1 (fr) Traitement d&#39;amelioration de la qualite des signaux audiofrequences decodes
FR2796189A1 (fr) Procedes et dispositifs de codage et de decodage audio
CA2079884A1 (fr) Procede et dispositif de codage bas debit de la parole

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NO NZ OM PH PL PT RO RU SD SE SG SI SK SL TJ TM TN TR TT TZ UA UG US UZ VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GH GM KE LS MW MZ SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
REG Reference to national code

Ref country code: DE

Ref legal event code: 8642

122 Ep: pct application non-entry in european phase
NENP Non-entry into the national phase

Ref country code: JP

WWW Wipo information: withdrawn in national office

Country of ref document: JP