WO2007107670A2

WO2007107670A2 - Procede de post-traitement d'un signal dans un decodeur audio

Info

Publication number: WO2007107670A2
Application number: PCT/FR2007/050959
Authority: WO
Inventors: Stéphane RAGOT; Cyril Guillaume
Original assignee: France Telecom
Priority date: 2006-03-20
Filing date: 2007-03-20
Publication date: 2007-09-27
Also published as: KR20080109038A; CN101405792A; US20090299755A1; KR101373207B1; WO2007107670A3; JP5457171B2; JP2009530679A; CN101405792B; EP2005424A2

Abstract

L'invention traite d'un procédé de post-traitement, dans un décodeur audio, d'un signal reconstruit par mises en forme temporelle et fréquentielle (805,807) d'un signal d'excitation obtenu à partir d'au moins un paramètre estimé dans une première bande de fréquence, lesdites mises en forme temporelle et fréquentielle étant réalisées à partir, au moins, d'une enveloppe temporelle et d'une enveloppe fréquentielle reçues et décodées (801, 802) dans une deuxième bande de fréquence. Le procédé est tel qu'il comprend, après lesdites mises en forme (805,807), les étapes consistant à comparer l'amplitude dudit signal reconstruit à ladite enveloppe temporelle reçue et décodée (s), et, en cas de dépassement d'au moins un seuil fonction de ladite enveloppe temporelle, à appliquer audit signal reconstruit une compression d'amplitude. L'invention se rapporte à un module de post traitement apte à mettre en oevre le procédé selon l'invention ainsi qu'à un décodeur audio. Application à la transmission et au stockage des signaux numériques tels que les signaux audio-fréquences : parole, musique, etc.

Description

PROCEDE DE POST-TRAITEMENT D'UN SIGNAL DANS UN DECODEUR

AUDIO

La présente invention concerne un procédé de post-traitement d'un signal dans un décodeur audio.

L'invention trouve une application particulièrement avantageuse dans le domaine de la transmission et du stockage des signaux numériques tels que les signaux audio-fréquences : parole, musique, etc.

Différentes techniques existent pour convertir sous forme numérique un signal audio-fréquences, tel que parole, musique, etc. Les techniques les plus courantes sont les méthodes de « codage de forme d'onde », comme le codage MIC ou MICDA (PCM ou ADPCM en anglais), les méthodes de « codage paramétrique par analyse par synthèse » comme le codage CELP (Code Excited Linear Prédiction), et les méthodes de « codage perceptuel en sous-bandes ou par transformée ». Ces techniques classiques de codage et de quantification des signaux audio-fréquences sont décrites par exemple dans les ouvrages de A. Gersho and R.M. Gray, Vector Quantization and Signal Compression, Kluwer Académie Publisher, 1992, et de B. Kleijn and K.K. Paliwal editors, Speech Coding and Synthesis, Elsevier, 1995.

En codage de parole conventionnel, le codeur génère un flux binaire à débit fixe. Cette contrainte de débit fixe simplifie la mise en œuvre et l'utilisation du codeur et du décodeur (appelés ensemble « codée »). Des exemples de tels systèmes sont : le codage UIT-T G.711 à 64 kbit/s, le codage UIT-T G.729 à 8 kbit/s ou le système GSM-EFR à 12.2 kbit/s.

Dans certaines applications, comme la téléphonie mobile ou la voix sur IP, il est préférable de générer un flux binaire à débit variable, les valeurs du débit étant prises dans un ensemble prédéfini. On peut distinguer plusieurs techniques de codage multi-débits, plus flexibles que le codage à débit fixe :

- le codage multi-modes contrôlé par la source et/ou le canal, tel que mis en œuvre dans les systèmes AMR-NB, AMR-WB, SMV₁ ou VMR-WB, - le codage hiérarchique, ou codage "scalable", qui génère un flux binaire dit hiérarchique car il comprend un débit cœur et une ou plusieurs couche(s) d'amélioration. Le système G.722 à 48, 56 et 64 kbit/s est un exemple simple de codage scalable en débit. Le codée MPEG-4 CELP est quant à lui scalable en débit et en largeur de bande. On trouve d'autres exemples de tels codeurs dans les articles de B. Kovesi, D. Massaloux, A. Sollaud, A scalable speech and audio coding scheme with continuous bitrate flexibility, ICASSP 2004, et de H. Taddéi et al, A Scalable Three Bitrate (8, 14.2 and 24 kbit/s) Audio Coder; 107th Convention AES, 1999. - le codage à descriptions multiples.

L'invention s'intéresse plus particulièrement au codage hiérarchique. Le concept de base du codage audio hiérarchique est par exemple illustré dans l'article de Y. Hiwasaki, T. Mori, H. Ohmuro, J. Ikedo, D. Tokumoto, and A. Kataoka, Scalable Speech Coding Technology for High- Quality Ubiquitous Communications, NTT Technical Review, March 2004. Le flux binaire comprend une couche de base et une ou plusieurs couches d'amélioration. La couche de base est générée par un codée à bas débit fixe, qualifié de « codée cœur », garantissant la qualité minimale du codage ; cette couche doit être reçue par le décodeur pour maintenir un niveau de qualité acceptable. Les couches d'amélioration servent à améliorer la qualité ; il peut arriver qu'elles ne soient pas toutes reçues par le décodeur. L'intérêt principal du codage hiérarchique est qu'il permet une adaptation du débit par simple troncature du flux binaire. Le nombre de couches, c'est-à-dire le nombre de troncatures possibles du flux binaire, définit la granularité du codage : on parle de codage à « granularité forte » si le flux binaire comprend peu de couches, de l'ordre de 2 à 4 avec des pas de l'ordre de 4 à 8 kbit/s; un codage à « granularité fine » permet un grand nombre de couches avec un pas de l'ordre de 1 kbit/s.

L'invention concerne plus particulièrement les techniques de codage scalable en débit et en largeur de bande avec un codeur cœur de type CELP en bande téléphonique et une ou plusieurs couche(s) d'amélioration en bande élargie. Des exemples de tels systèmes sont donnés dans l'article précité de H. Taddéi et al avec une granuiarité forte de 8, 14.2, 24 kbit/s, et dans l'article précité de B. Kovesi avec granuiarité fine de 6.4 à 32 kbit/s.

L'UIT-T a lancé en 2004 un projet de codeur hiérarchique à cœur normalisé. Ce codeur, appelé G.729EV (EV pour « Embedded Variable bitrate ») est une annexe du codeur G.729 connu. L'objectif de la normalisation G.729EV est d'obtenir un codeur hiérarchique à cœur G.729, produisant un signal dont la bande s'étend de la bande étroite (300-3400 Hz) à la bande élargie (50-7000 Hz) à un débit de 8 à 32 kbit/s pour les services conversationnels. Ce codeur est par nature inter-opérable avec la recommandation G.729, ce qui assure la compatibilité avec les équipements de voix sur IP existants.

En réponse à ce projet, il a été proposé notamment un système de codage à trois couches, à savoir un codage CELP en cascade à 8-12 kbit/s, suivi d'une extension de bande paramétrique à 14 kbit/s, puis d'un codage par transformée de 14 à 32 kbit/s. Ce codeur est connu sous la référence ITU-T SG16/WP3 D214 (UIT-T, COM 16, D214 (WP 3/16), "High level description of the scalable 8-32 kbit/s algorithm submitted to the Qualification Test by Matsushita, Mindspeed and Siemens," Q.10/16, Study Period 2005-2008, Geneva, 26 JuIy - 5 August 2005). La notion d'extension de bande fait référence au codage de la bande haute d'un signal. Dans le contexte de l'invention, les signaux audio d'entrée sont échantillonnés à 16 kHz sur une bande utile de 50 à 7000 Hz. Pour le codeur ITU-T SG16/WP3 D214 précité, la bande haute correspond typiquement aux fréquences entre 3400 et 7000 Hz. Cette bande est codée suivant une technique d'extension de bande reposant sur l'extraction au codeur d'enveloppes temporelle et fréquentielle, ces enveloppes étant ensuite appliquées au décodeur à un signal d'excitation synthétique reconstruit dans la bande haute à partir des paramètres estimés dans la bande basse (entre 50 et 3400 Hz), échantillonnée à 8 kHz. La bande basse sera désignée dans la suite « première bande de fréquence » ; la bande haute étant alors appelée « deuxième bande de fréquence ».

Cette technique d'extension de bande est schématisée à la figure 1. Au codeur, les composantes hautes fréquences du signal original sont isolées par un filtre (100) passe-bande entre 3400 et 7000 Hz. Ensuite, les enveloppes temporelle et fréquentielle du signal sont calculées respectivement par les modules (101 ) et (102). Ces enveloppes sont quantifiées conjointement à 2 kbit/s au niveau du bloc (103).

Au décodeur, une excitation synthétique est reconstruite par le module

(104) de reconstruction à partir des paramètres du décodeur CELP en cascade. Les enveloppes temporelle et fréquentielle sont décodées par le bloc

(105) de quantification inverse. L'excitation synthétique issue du module (104) de reconstruction est ensuite mise en forme par un module (106) de mise à l'échelle à partir de l'enveloppe temporelle et par un module (107) de filtrage à partir de l'enveloppe fréquentielle.

Le mécanisme d'extension de bande qui vient d'être décrit en référence au codée ITU-T SG16/WP3 D214 repose donc sur la mise en forme d'une excitation synthétique par des enveloppes temporelle et fréquentielle. Cependant, en l'absence de couplage entre l'excitation et la mise en forme, l'application d'un tel modèle est délicate et provoque l'apparition d'artefacts sous la forme de "clics" ponctuels très audibles dus à de forts dépassements d'amplitude. Aussi, le problème technique à résoudre par l'objet de la présente invention est de proposer un procédé de post-traitement, dans un décodeur audio, d'un signal reconstruit par mises en forme temporelle et fréquentielle d'un signal d'excitation obtenu à partir d'au moins un paramètre estimé dans une première bande de fréquence, qui permettrait d'éviter les artefacts induits par les mises en forme du signal d'excitation synthétique, les dites mises en forme temporelle et fréquentielle étant réalisées à partir d'une enveloppe temporelle et d'une enveloppe fréquentielle reçues et décodées dans une deuxième bande de fréquence.

La solution au problème technique posé consiste, selon la présente invention, en ce que ledit procédé comprend les étapes consistant à comparer l'amplitude dudit signal reconstruit à ladite enveloppe temporelle reçue et décodée, et, en cas de dépassement d'au moins un seuil fonction de ladite enveloppe temporelle, à appliquer audit signal reconstruit une compression d'amplitude.

Ainsi, le procédé conforme à l'invention compense l'absence de couplage adéquat entre l'excitation et les fonctions de mise en forme au moyen d'un post-traitement par compression d'amplitude du signal audio fourni par le décodeur dans la deuxième bande de fréquence, ou bande haute.

Selon un mode de réalisation, ladite compression d'amplitude consiste à appliquer à l'amplitude dudit signal au moins une atténuation linéaire si ladite amplitude est supérieure à au moins un seuil de déclenchement fonction de ladite enveloppe temporelle reçue et décodée.

On remarquera qu'outre le fait de limiter l'amplitude du signal et donc les artefacts associés aux fortes amplitudes, le procédé de l'invention a l'avantage d'être adaptatif au sens où le seuil de déclenchement est variable puisqu'il suit la valeur de l'enveloppe temporelle reçue et décodée.

L'invention concerne également un programme d'ordinateur comprenant des instructions de code de programme pour la mise en œuvre du procédé de post-traitement selon l'invention lorsque ledit programme est exécuté sur un ordinateur. L'invention concerne en outre un module de post-traitement, dans un décodeur audio, d'un signal reconstruit par mises en forme d'un signal d'excitation obtenu à partir d'au moins un paramètre estimé dans une première bande de fréquence, les dites mises en forme temporelle et fréquentielle étant réalisées à partir d'une enveloppe temporelle et d'une enveloppe fréquentielle reçues et décodées dans une deuxième bande de fréquence, le module étant remarquable en ce qu'il comprend un comparateur de l'amplitude dudit signal reconstruit à ladite enveloppe temporelle reçue et décodée et des moyens de compression d'amplitude aptes, en cas de comparaison positive, à appliquer audit signal reconstruit une compression d'amplitude.

Enfin, l'invention concerne un décodeur audio, comprenant un module d'estimation d'au moins un paramètre d'un signal d'excitation dans une première bande de fréquence, un module de reconstruction d'un signal d'excitation à partir dudit paramètre, un module de décodage d'une enveloppe temporelle dans une deuxième bande de fréquence, un module (802) de décodage d'une enveloppe fréquentielle dans une deuxième bande de fréquence, un module (805) de mise en forme temporelle dudit signal d'excitation, au moyen, au moins, de ladite enveloppe temporelle décodée (σ) et un module (807) de mise en forme fréquentielle dudit signal d'excitation, au moyen, au moins, de ladite enveloppe fréquentielle décodée, remarquable en ce que ledit décodeur comprend un module de post-traitement selon l'invention. La description qui va suivre en regard des dessins annexés, donnés à titre d'exemples non limitatifs, fera bien comprendre en quoi consiste l'invention et comment elle peut être réalisée.

La figure 1 est un schéma d'un étage de codage-décodage en bande haute conforme à l'art antérieur. La figure 2 est un schéma haut niveau d'un codeur audio hiérarchique à

8, 12, 13.65 kbit/s.

La figure 3 est un schéma du codeur en bande haute pour le mode à 13.65 kbit/s du codeur de la figure 2.

La figure 4 est un schéma montrant le découpage par trames effectué par le codeur en bande haute de la figure 3.

La figure 5 est un schéma haut niveau d'un décodeur audio hiérarchique à 8, 12, 13.65 kbit/s associé au codeur de la figure 2.

La figure 6 est un schéma du décodeur en bande haute pour le mode à 13.65 kbit/s du décodeur de la figure 5. La figure 7 est un organigramme d'un premier mode de réalisation d'une fonction de compression d'amplitude.

La figure 8 est un graphe de la fonction de compression d'amplitude de la figure 7.

La figure 9 est un organigramme d'un deuxième mode de réalisation d'une fonction de compression d'amplitude.

La figure 10 est un graphe de la fonction de compression d'amplitude de la figure 9. La figure 11 est un organigramme d'un troisième mode de réalisation d'une fonction de compression d'amplitude.

La figure 12 est un graphe de la fonction de compression d'amplitude de la figure 11. On rappelle que la présente invention s'inscrit plus particulièrement dans un schéma global de codage et décodage audio hiérarchique en sous- bandes fonctionnant à trois débits possibles : 8, 12 ou 13.65 kbit/s. En pratique, le codeur fonctionne toujours au débit maximal de 13.65 kbit/s, tandis que le décodeur peut recevoir le cœur à 8 kbit/s ainsi qu'une ou deux couches d'amélioration à 12 ou 13.65 kbit/s.

Le codeur audio hiérarchique est schématisé à la figure 2.

Le signal d'entrée en bande élargie, échantillonné à 16 kHz, est d'abord décomposé en deux sous-bandes par filtrage QMF (« Quadrature Mirror

Filterbank »). La première bande de fréquence, ou bande basse, entre 0 et 4000 Hz est obtenue par le filtrage 400 passe-bas L et décimation 401 , et la deuxième bande de fréquence, ou bande haute, entre 4000 et 8000 Hz par filtrage 402 passe-haut H et décimation 403. Dans un mode de réalisation préféré, les filtres L et H sont de longueur 64 et conformes à ceux décrits dans l'article de J. Johnston, A filter family designed for use in quadrature mirror filter banks, ICASSP, vol. 5, pp. 291 - 294, 1980.

La bande basse est pré-traitée par un filtre 404 passe-haut éliminant les composantes en dessous de 50 Hz avant codage CELP 405 en bande étroite à 8 et 12 kbit/s. Ce filtrage passe-haut tient compte du fait que la bande élargie est définie comme couvrant l'intervalle 50-7000 Hz. Selon un mode de réalisation, le codage CELP en bande étroite correspond à celui du codeur ITU-T SG16/WP3 D135 (UIT-T, COM 16, D135 (WP 3/16), "France Telecom G729EV Candidate: High level description and complexity évaluation," Q.10/16, Study Period 2005-2008, Geneva, 26 JuIy - 5 August 2005) ; il s'agit d'un codage CELP en cascade comprenant comme premier étage à 8 kbit/s un codage G.729 modifié (ITU-T G729 Recommandation, Coding of Speech at 8 kbit/s using Conjugate Structure Algebraic Code Excited Linear Prédiction (CS-ACELP), March 1996) sans filtre de pré-traitement et comme deuxième étage à 12 kbit/s un dictionnaire CELP fixe supplémentaire. Le codage CELP permet de déterminer les paramètres du signal d'excitation dans la bande basse.

La bande haute est d'abord repliée spectralement 406 pour compenser le repliement dû au filtre 402 passe-haut combiné avec la décimation 403. La bande haute est ensuite pré-traitée par un filtre 407 passe-bas éliminant les composantes entre 3000 et 4000 Hz de la bande haute, c'est-à-dire les composantes entre 7000 et 8000 Hz du signal original. Une extension 408 de bande, ou codage en bande haute, à 13.65 kbit/s est réalisée.

Les différents flux binaires générés par les modules 405 et 408 de codage sont multiplexes et structurés en un train binaire hiérarchique dans le multiplexeur 409.

Le codage est réalisé par blocs d'échantillons, ou trames, de 20 ms, soit 320 échantillons. Le débit de codage hiérarchique est de 8, 12 et 13.65 kbit/s. Le codeur 408 en bande haute est détaillé à la figure 3. Son principe est similaire à l'extension de bande paramétrique du codeur ITU-T SG16/WP3 D214.

Le signal de bande haute x_hi est codé par trames de N/2 échantillons, où N est le nombre d'échantillons de la trame originale en bande élargie et la division par 2 est due à la décimation par 2 de la bande haute. Dans un mode de réalisation préféré, N/2 = 160 échantillons, soit 20 ms à 8 kHz d'échantillonnage. Pour chaque trame, soit toutes les 20 ms, des enveloppes temporelle et fréquentielle sont extraites par les modules 600 et 601 comme dans le codeur ITU-T SG16/WP3 D214. Ces enveloppes sont ensuite quantifiées conjointement dans le bloc 602.

On présente maintenant un aperçu du fonctionnement de l'extraction d'enveloppe fréquentielle par le module 600.

Cette opération nécessite de disposer d'échantillons futurs, couramment appelés « lookahead » car l'analyse spectrale utilise un fenêtrage temporel centré sur la trame courante qui déborde sur la trame future. Dans un mode de réalisation préféré, le « lookahead » dans la bande haute est fixé à L = 16 échantillons, soit 2 ms. L'extraction d'enveloppe fréquentîelle peut être réalisée par exemple de la manière suivante : - calcul du spectre court-terme avec fenêtrage de la trame courante et « lookahead », et transformée de Fourier discrète,

- découpage du spectre en sous-bandes,

- calcul de l'énergie court-terme de chacune des sous-bandes et conversion en valeur efficace (r.m.s.).

L'enveloppe fréquentielle est donc définie comme la valeur efficace de chacune des sous-bandes du signal Xh,.

L'extraction d'enveloppe temporelle par le module 601 est expliquée maintenant à l'aide de la figure 4 qui détaille le découpage temporelle du signal x_h,.

Chaque trame de 20 ms est constituée des 160 échantillons :

Xh₁ = [X₀ Xi ... X159]

Les 16 derniers échantillons de Xp₁, correspondent en fait au

« lookahead » pour la trame courante.

L'enveloppe temporelle de la trame courante est calculée de la manière suivante :

- découpage de Xm en 16 sous-trames de 10 échantillons, - calcul de l'énergie de chacune des sous-trames et conversion en valeur efficace (r.m.s.).

L'enveloppe temporelle est donc définie comme la valeur efficace de chacune des 16 sous-trames du signal X_h,.

La figure 5 représente un décodeur audio hiérarchique associé au codeur qui vient d'être décrit en référence aux figures 2 et 3.

Les bits décrivant chaque trame de 20 ms sont démultiplexés par le démultiplexeur 500. Le flux binaire des couches à 8 et 12 kbit/s est utilisé par le module 501 de décodage CELP pour générer les paramètres de synthèse du signal d'excitation dans la bande basse entre 0 et 4000 Hz. Le signal de parole synthétique en bande basse est ensuite postfiltré par le bloc 502.

La portion du flux binaire associé à la couche à 13.65 kbit/s est décodée par le module 503 d'extension de bande. Le signal de sortie en bande élargie, échantillonné à 16 kHz, est obtenu par l'intermédiaire du banc de filtres QMF de synthèse 504, 505, 507, 508 et 509, intégrant le repliement inverse 506.

Le décodeur en bande haute 503 de la figure 5 est décrit en détail à la figure 6.

Ce décodeur reprend le principe de synthèse de la bande haute décrit pour le codeur de la figure 1 avec cependant deux modifications : un module 806 d'interpolation d'enveloppe fréquentielle et un module 808 de posttraitement. Ces deux modules d'interpolation d'enveloppe fréquentielle et de post-traitement sont destinés à l'amélioration de la qualité du codage dans la bande haute. Le module 806 réalise une interpolation entre l'enveloppe fréquentielle de la trame précédente et l'enveloppe fréquentielle de la trame courante pour que cette enveloppe évolue toutes les 10 ms, au lieu de 20 ms

Le décodeur en bande haute de la figure 6 démultiplexe dans le démultiplexeur 800 les paramètres reçus dans le train binaire et décode les informations d'enveloppes temporelle et fréquentielle dans les modules 801 et

802 de décodage. Un signal d'excitation synthétique est généré dans un module 803 de reconstruction à partir des paramètres d'excitation CELP reçus par les couches à 8 et 12 kbit/s. Cette excitation est filtrée dans le filtre 804 passe-bas pour ne garder que les fréquences entre 0 et 3000 Hz qui correspondent à la bande 4000 à 7000 Hz du signal original. Comme dans le codeur de la figure 1 , le signal d'excitation synthétique est mis en forme par les modules 805 et 807 :

- la sortie du module 805 de mise en forme temporelle a idéalement une valeur efficace (r.m.s.) par sous-trames qui correspond à l'enveloppe temporelle décodée ; le module 805 correspond donc à l'application d'un gain adaptatif dans le temps,

- la sortie du module 807 de mise en forme fréquentielle a idéalement une valeur efficace (r.m.s.) par sous-bandes qui correspond à l'enveloppe fréquentielle décodée ; le module 807 peut être réalisé au moyen d'un banc de filtres ou d'une transformée avec recouvrement. Le signai x résultant de la mise en forme de l'excitation est finalement traité par le module 808 de post-traitement pour obtenir la bande haute reconstruite y.

Le module 808 de post-traitement va maintenant être décrit en détail. Le post-traitement réalisé par le module 808 consiste à appliquer au signal x issu du module 807 de mise en forme fréquentielle une compression d'amplitude de manière à limiter l'amplitude du signal et ainsi éviter les artefacts qui pourraient se produire du fait de l'absence de couplage entre l'excitation et la mise en forme. Le signal y de sortie du module 808 de post-traitement sera écrit sous la forme : y = C(x) = σ.F(x/σ)

où σ désigne l'enveloppe temporelle décodée. Les propriétés du post-traitement proposé par l'invention sont les suivantes :

- ce post-traitement agit de façon instantanée, c'est-à-dire échantillon par échantillon sans engendrer de retard de traitement,

- le seuil de déclenchement pour la compression d'amplitude est fourni par l'enveloppe temporelle telle que décodée par le module 801 de décodage d'enveloppe temporelle. Par définition, σ > 0,

- le post-traitement est de type adaptatif car la valeur de σ change à chaque sous-trame de 10 échantillons, à savoir toutes les 1.25 ms,

- l'enveloppe temporelle décodée pour la trame courante correspond à un support temporel décalé de 2 ms, soit 16 échantillons, comme illustré à la figure 4. Ainsi, le post-traitement adaptatif garde en mémoire la valeur efficace (r.m.s.) des deux sous-trames associées au « lookahead » : ces deux sous- trames correspondent aux deux sous-trames du début de la trame courante.

L'organigramme de la figure 7 détaille une première fonction de compression, notée C₁(X), de post-traitement. Les début et fin du calcul sont identifiés par les bloc 1000 et 1006. La valeur de la sortie y est d'abord initialisée à x (bloc 1001). Ensuite, deux tests sont effectués (blocs 1002 et

1004) pour vérifier si y est dans l'intervalle [-σ, σ]. Trois cas sont possibles : - si y est dans l'intervalle [-σ, σ], le calcul de y est terminé : y = x et Ci(x) = x ; F^x/σ) = x/σ

- si y > σ, sa valeur est modifiée tel que défini dans le bloc 1003 ; l'écart entre y et +σ est atténué par un facteur 16. - si y < -σ, sa valeur est modifiée tel que défini dans le bloc 1005 ; l'écart entre y et -σ est atténué par un facteur 16.

Pour bien illustrer le fonctionnement de l'opération y = Ci(x), on montre à la figure 8 la courbe de y/σ en fonction de x/σ. Les données sont normalisées par σ pour rendre la caractéristique d'entrée/sortie indépendante de la valeur de σ. Cette caractéristique normalisée est notée F-ι(x/σ) ; on a par suite: Ci(x) = σ Fi(x/σ).

La figure 8 montre bien que la fonction Ci(x) réalise une compression d'amplitude symétrique avec un "seuil de déclenchement" fixé à +/-σ. Plus précisément la pente de Fi(x/σ) est de 1 entre [-1.+1] et de 1/16 ailleurs. De façon équivalente, la pente de Ci(x) est de 1 entre [-σ,+σ] et de 1/16 ailleurs.

Deux variantes de réalisation du post-traitement sont décrites aux figures 9 à 12. Les fonctions correspondantes sont notées respectivement C₂(X) et C₃(X).

Le post-traitement C₂(x) montré aux figures 9 et 10 est identique à C-ι(x) mais avec une valeur du "seuil de déclenchement" qui passe de +/-σ à +/-2σ. Ainsi, la pente de C₂(x) est de 1 entre [-2σ,+2σ] et de 1/16 ailleurs.

Le post-traitement C₃(x) est une variante plus évoluée de Ci(x), dans laquelle la compression d'amplitude est réalisée en deux étapes successives. Comme montré à la figure 11 , l'intervalle de déclenchement est toujours fixé à [-σ,+σ] (blocs 1402 et 1406), par contre la valeur de y est atténuée seulement d'un facteur Vi, sauf si la valeur de y modifiée par les blocs 1403 et 1407 est en dehors de l'intervalle [-2,5 σ,+2,5 σ] auquel cas la valeur de y est encore modifiée par les blocs 1405 et 1409. Le fonctionnement de C₃(x) est illustré à la figure 12 où l'on peut voir que la pente de C₃(x) est de : - 1/16 sur [-∞, -4σ] et [4σ, +∞], - 1/2 sur [-Aa, -σ] et [σ, 4σ] et - 1 sur [-σ,+σ].

Claims

REVENDICATIONS

1. Procédé de post-traitement, dans un décodeur audio, d'un signal reconstruit par mises en forme temporelle et fréquentielle (805,807) d'un signal d'excitation obtenu à partir d'au moins un paramètre estimé dans une première bande de fréquence, lesdites mises en forme temporelle et fréquentielle étant réalisées à partir, au moins, d'une enveloppe temporelle et d'une enveloppe fréquentielle reçues et décodées (801 , 802) dans une deuxième bande de fréquence, caractérisé en ce que ledit procédé comprend, après lesdites mises en forme (805,807), les étapes consistant à comparer l'amplitude dudit signal reconstruit à ladite enveloppe temporelle reçue et décodée (σ), et, en cas de dépassement d'au moins un seuil fonction de ladite enveloppe temporelle, à appliquer audit signal reconstruit une compression d'amplitude.

2. Procédé selon la revendication 1 , caractérisé en ce que ladite enveloppe temporelle reçue et décodée (σ) est définie comme une valeur efficace (r.m.s.) par sous-trames du signal de la deuxième bande de fréquence (Xhi).

3. Procédé selon l'une quelconque des revendications 1 à 2, caractérisé en ce que ladite compression d'amplitude consiste à appliquer à l'amplitude dudit signal reconstruit au moins une atténuation linéaire si ladite amplitude est supérieure à au moins un seuil de déclenchement fonction de ladite enveloppe temporelle reçue et décodée (σ).

4. Procédé selon l'une des revendications 1 à 3, caractérisé en ce que ladite compression d'amplitude s'effectue selon une loi d'atténuation linéaire par morceaux déclenchée par une pluralité de seuils de déclenchement fonction de ladite enveloppe temporelle reçue et décodée.

5. Programme d'ordinateur comprenant des instructions de code de programme pour la mise en œuvre du procédé de post-traitement selon l'une quelconque des revendications 1 à 4 lorsque ledit programme est exécuté sur un ordinateur.

6. Module de post-traitement, dans un décodeur audio, d'un signai reconstruit par mises en forme temporelle et fréquentielle d'un signal d'excitation obtenu à partir d'au moins un paramètre estimé dans une première bande de fréquence, lesdites mises en forme temporelle et fréquentielle étant réalisées à partir, au moins, d'une enveloppe temporelle et d'une enveloppe fréquentielle reçues et décodées dans une deuxième bande de fréquence, caractérisé en ce que ledit module (808) de post-traitement comprend un comparateur de l'amplitude dudit signal reconstruit à ladite enveloppe temporelle reçue et décodée (σ) et des moyens de compression d'amplitude aptes, en cas de dépassement d'au moins un seuil fonction de ladite enveloppe temporelle, à appliquer audit signal reconstruit une compression d'amplitude.

7. Décodeur audio, comprenant un module (501 ) d'estimation d'au moins un paramètre d'un signal d'excitation dans une première bande de fréquence, un module (803) de reconstruction d'un signal d'excitation à partir dudit paramètre, un module (801 ) de décodage d'une enveloppe temporelle (σ) dans une deuxième bande de fréquence, un module (802) de décodage d'une enveloppe fréquentielle dans une deuxième bande de fréquence, un module (805) de mise en forme temporelle dudit signal d'excitation, au moyen, au moins, de ladite enveloppe temporelle décodée (σ) et un module (807) de mise en forme fréquentielle dudit signal d'excitation, au moyen, au moins, de ladite enveloppe fréquentielle décodée, caractérisé en ce que ledit décodeur comprend en outre un module (808) de post-traitement selon la revendication 6.

8. Décodeur selon la revendication 7, caractérisé en ce qu'il comprend un module (806) d'interpolation d'enveloppe fréquentielle.