WO2007096550A2

WO2007096550A2 - Codage/decodage perfectionnes d'un signal audionumerique, en technique celp

Info

Publication number: WO2007096550A2
Application number: PCT/FR2007/050780
Authority: WO
Inventors: Dominique Massaloux; Romain Trilling; Claude Lamblin
Original assignee: France Telecom
Priority date: 2006-02-22
Filing date: 2007-02-13
Publication date: 2007-08-30
Also published as: US8271274B2; ATE520121T1; KR20080110757A; JP5188990B2; WO2007096550A3; US20090222273A1; KR101370017B1; CN101401153A; CN101401153B; JP2009527784A; EP1994531A2; EP1994531B1

Abstract

L'invention vise la construction de dictionnaires de vecteurs d'excitation CELP, perfectionnés, pour le codage/décodage de signaux audionumériques. Habituellement, chaque vecteur de dimension N comporte des impulsions susceptibles d'occuper N positions valides. L'invention propose de construire des dictionnaires de structure particulière en : - prévoyant une même suite d'impulsions formant un motif de base, - et en affectant le motif de base à chaque vecteur d'excitation du dictionnaire, selon une ou plusieurs occurrences à une ou plusieurs positions respectives parmi les N positions valides précitées. L'invention propose aussi une combinaison de dictionnaires ainsi construits avec éventuellement des dictionnaires multi-impulsionnels classiques, par union ou somme ou mise en cascade.

Description

Codage/décodage perfectionnés d'un signal audionumériαue, en technique CELP

La présente invention concerne le codage/décodage de signaux audionumériques, en technique dite "CELP" (pour "Code Excited Linear Prédiction").

Le codage en compression de tels signaux peut intervenir pour leur transmission ou leur stockage. Les signaux peuvent être des signaux de parole ou plus généralement des signaux sonores digitalisés. Plus particulièrement, cette invention concerne la technique du codage prédictif dans laquelle :

- une prédiction à court terme d'un signal d'entrée est tout d'abord effectuée pour estimer un filtre de synthèse (dit filtre "LPC" pour "Linear Prédiction Coding"),

- puis le signal résiduel obtenu par filtrage du signal original par le filtre LPC est modélisé (par un signal dit "d'excitation" qui produit par filtrage le signal reconstruit) et codé.

Plus précisément, l'invention concerne la famille des codeurs CELP (pour "Code Excited Linear Prédiction"), qui sélectionnent le signal d'excitation parmi un ensemble de signaux candidats en comparant la sortie du filtre de synthèse, excité par ce signal, au signal original, avec introduction d'une pondération perceptuelle. De tels codeurs ont été largement employés pour le codage des signaux de parole dans des débits de 6 à 24 kbit/s, et adoptés notamment dans les normes UIT-T G.729, GSM-EFR, 3GPP/WB-AMR.

L'invention trouve une application avantageuse dans des systèmes de codage hiérarchique décrits en détail plus loin et pour lesquels le train binaire est formé d'une couche de base suivie de couches supplémentaires permettant d'améliorer la qualité. Etat de la technique antérieure

Un schéma général d'un codeur CELP est donné à la figure 1. La figure 2 présente le décodeur associé.

Des détails quant à ce type de codeur/décodeur sont donnés notamment dans une référence de base :

"Code-Excited Linear Prédiction (CELP): High Quality Speech at Very Low Bit Rates", B. S. Atal et M R. Schroeder, ICASSP, 1985, pp.937-940.

En référence à la figure 1 , le codeur segmente un signal d'entrée S(n) en blocs d'échantillons ou "trames" (typiquement de l'ordre de 10 à 20 ms de signal). Ensuite, une analyse LPC 10 est effectuée pour estimer et quantifier les paramètres du filtre de prédiction linéaire à court terme. Dans la plupart des cas, la modélisation du signal d'excitation exc(z) s'effectue ensuite à l'aide de deux dictionnaires :

- le dictionnaire adaptatif DICa destiné à modéliser la périodicité des sons harmoniques, et

- le dictionnaire DICf dit "fixe" pour la partie non harmonique et les sons non voisés.

La présente invention vise plutôt le dictionnaire "fixe" DICf, tandis que ce qui concerne le dictionnaire adaptatif DICa n'est préférentiellement pas traité dans ce qui suit.

La modélisation du signal d'excitation s'effectue en général sur des blocs d'échantillons correspondant à des sous-trames de signal typiquement de l'ordre de 5 ms. Dans ce qui suit, on considérera le cas d'une sous-trame de signal comprenant Λ/ échantillons (par exemple N=40 échantillons à 8 kHz de fréquence d'échantillonnage). Dans un tel codeur, la sélection d'un mot de code optimal dans un dictionnaire (que l'on dénomme également "vecteur- code", ou "forme d'onde") s'effectue par minimisation de l'énergie du signal d'erreur pondéré perceptuellement, ce qui s'exprime par une relation du type :

E(_z) =W(z)(S(z) - S(z)) , où les notations E(z), S(z), S(z) représentent les transformées en z, respectivement, du signal d'erreur pondéré, du signal original à coder et du signal reconstruit.

Le filtre W(z) est le filtre de pondération perceptuelle 1 1 (classiquement du

A(z I y ) type — - — — , A(z) désignant le filtre d'analyse LPC, et les facteurs γ_x et γ₂

réglant le degré de pondération perceptuelle).

On peut exprimer le signal d'erreur pondéré E(z) par une relation du type :

- \l A_q(z) correspond au filtre 12 de synthèse LPC,

- res(z) est le signal résiduel LPC,

- exc(z) est le signal d'excitation défini par :

[^eXC _courant O) = g * C(rt) Sl 0 < H ≤ N ^~ 1

Les signaux exc_passê (n) et exc_courant(n) représentent respectivement le signal d'excitation passé (signal nul sur le bloc courant) et courant (signal à mémoire nulle).

Ainsi, on applique des gains respectifs appropriés g = g_a' et g = g_f ^ι aux

signaux c(n) = c_a' (n) et c(n)= cf' (n) en sortie des dictionnaires adaptatif DICa et fixe DICf. Puis, ces signaux sont additionnés pour obtenir le signal d'excitation exc(n) . Plus particulièrement, dans l'exemple de la figure 1 , on définit le signal S(n) dont la transformée en z, S(z) , représente la prédiction de l'excitation passée selon une relation du type : exe _^M)

S(z) = passe

A_q(z)

W(z) On définit classiquement aussi le filtre composé : H(z) = — — (1 )

^A _q (z) et le "signal cible filtré" par une relation du type : x(z) = H(z)(res(z) - exc_passé (z)) .

Il découle de ces relations, pour le signal d'erreur pondéré, une expression du type :

E(z) = x(z) - H(z) x exc_courant (z) .

Le critère de minimisation CELP (modules subséquents 13 et 14) s'exprime alors par la recherche dans un dictionnaire de la forme d'onde {c(n); 0 ≤ n ≤ N-l} qui minimise la quantité :

E = £(x(tt) - £ XC^*(tt))² ,

B=O

. . . . Num j-t ou encore, qui maximise le rapport - "^"°

Den /V-I

∑c"(n)²

B=O

avec c^w (n) = h(n) * c(n) = ∑h(i) x c(n - i)

Les éléments {h(n}} représentent la réponse impulsionnelle du filtre H (défini ci-avant par la relation (1 ) ci-dessus).

On considère généralement que le filtre H est causal, c'est-à-dire que les éléments h(n) tels que n < 0 sont nuls. Cependant, dans ce qui suit, on se placera dans un cas plus général où tout ou partie des éléments h(ή) tels que n < 0 peuvent être non nuls.

Classiquement, la technique dite du "backward filtering" exposée dans : "Fast CELP coding based on algebraic codes", J. P. Adoul, P.

Mabilleau, M. Delprat, S. Morissette, ICASSP 1987, pp. 1957-1960, permet de pré-calculer des éléments communs à tous les vecteurs (en particulier l'intercorrélation entre le vecteur cible et le filtre H{z)) pour le numérateur, par :

N-I N-I Num = ∑c(k) χ d(k) avec d(k) = ∑x(n) χ h(n- k); pour k allant de 0 à N -I k=0 n=k

De la même façon, il est possible de calculer l'autocorrélation du filtre H(z) en préalable à la recherche dans le dictionnaire, et de l'utiliser pour accélérer les calculs du dénominateur, avec :

N-I N-2 N-I

Den = ∑c(k)² xφ(k,k) + 2∑ ∑c(k) x c(k') xφ(k,k') , k=0 k=O k'=k+l

N-I où : φ(k,k') = ∑h(n- k) χ h(n- k') , pour k et k' allant de 0 à N -I

B=O

Le gain optimal associé au vecteur-code sélectionné est quantifié. Un indice de quantification ainsi que l'indice associé au vecteur-code sélectionné sont transmis (via un réseau de télécommunication) ou simplement stockés pour une transmission ultérieure. C'est sur la base de ces indices que le décodage peut ensuite intervenir.

Au décodage, en référence à la figure 2, les gains respectifs g_α ^ι , g_f ^ι sont

décodés et les indices i°^pt Jf des vecteurs-code respectivement sélectionnés permettent de retrouver les éléments qui les composent, pour reconstruire le signal d'excitation, puis le signal reconstruit (modules subséquents 21 et 22). Le choix du dictionnaire d'excitation est guidé par des contraintes de débit, de qualité (ou d'efficacité pour un débit donné) et de complexité. Pour un débit restreint, il sera difficile d'obtenir une bonne qualité de reproduction pour tout signal à coder. La complexité est également un facteur important. Pour toutes les applications de communication, la contrainte de temps réel impose des limitations sur le temps de calcul. Les premiers dictionnaires CELP proposés dans la littérature étaient formés de vecteurs-code tirés aléatoirement, ce qui imposait le calcul du numérateur et du dénominateur du critère pour chaque vecteur du dictionnaire. La recherche du meilleur mot de code était alors d'une complexité prohibitive.

Des dictionnaires structurés ont ensuite été proposés pour accélérer la recherche de la forme d'onde optimale, certains calculs de recherche étant réalisés une fois pour différents signaux d'entrée (ou "calculs mutualisés") grâce aux relations induites entre les vecteurs de par la structure du dictionnaire. Une des catégories les plus populaires de dictionnaires structurés est la famille des dictionnaires algébriques, composés d'impulsions dont la position est définie par un code algébrique ou encore selon un réseau de points (typiquement un réseau de Gosset), régulier ou non. Les représentants les plus classiques de tels dictionnaires sont connus sous le nom d'ACELP (pour "Algebraic CELP"). Ces dictionnaires structurés permettent d'éviter le stockage des mots de code, une relation bi-univoque permettant de calculer les éléments des vecteurs-code à partir de leur indice.

Par ailleurs, ces dictionnaires ont donné lieu à des recherches rapides accélérées par des algorithmes d'exploration focalisée sous-optimaux mais très efficaces. Ainsi, pour un dictionnaire multi-impulsionnel, les expressions du numérateur et dénominateur définies plus haut se simplifient si l'on suppose que les vecteurs d'un tel dictionnaire sont constitués de K impulsions, d'amplitudes s_k avec k compris entre 0 et K-I (ces amplitudes étant en pratique souvent réduites à un simple signe), avec :

K-I

Num = ∑s_k x d(a_k) k=0

K-I K-IK-I et Den = ∑s_k ² χφ(a_k,a_k) + 2χ ∑∑s_k χ s_ι χφ(a_k,a_ι) , k=0 k=0 I=I où α^ et a, représentent les positions auxquelles apparaissent les impulsions.

Cependant, ces dictionnaires, lorsque la contrainte de débit en limite la taille, présentent l'inconvénient d'un certain manque de richesse au niveau du contenu. Les impulsions deviennent peu nombreuses, et, de ce fait, très clairsemées. On parle alors de "Sparse Codebooks" (ou "dictionnaires clairsemés"). Tous les échantillons non nuls ont la même amplitude et il est difficile de bien représenter l'équilibre en amplitude entre les échantillons du bloc avec très peu d'impulsions. Les dégradations induites par l'usage de dictionnaires algébriques trop pauvres sont alors très audibles. Elles se caractérisent par exemple par une certaine raucité du signal.

Pour pallier ces inconvénients, la technique dite de "sparseness réduction" (que l'on pourrait traduire par "réduction du caractère clairsemé") a été proposée dans US-6,029,125. Elle propose d'enrichir un dictionnaire multi- impulsionnel comportant un faible nombre d'impulsions (et donc présentant un "caractère clairsemé") soit par l'addition avec un signal de bruit, soit par filtrage à l'aide d'un filtre passe-tout, qui disperse les impulsions sans modifier le module du spectre du signal. Un tel filtrage agit essentiellement au niveau de la phase. Ces modifications du dictionnaire peuvent être introduites a posteriori au décodage ou peuvent être introduites dans le processus de sélection (donc au codage).

Toutefois, lorsqu'elle est introduite dans le codeur, l'addition de bruit empêche l'usage d'algorithmes rapides de sélection de la forme d'onde optimale. Par ailleurs, le filtrage du dictionnaire fixe suppose a priori une certaine continuité du processus car les filtres tendent à élargir le support du signal filtré, et comme il n'est généralement pas possible de corriger l'excitation du bloc précédent, des irrégularités au bord des blocs d'échantillons codés, mal contrôlées par le processus, peuvent apparaître.

En outre, si l'on souhaite adapter le type de modification apportée au dictionnaire en fonction du signal, il n'y a pas d'autres solutions que de prévoir des filtres différents et passer de filtres à d'autres, ce qui peut également engendrer des distorsions.

Par ailleurs, comme indiqué déjà plus haut, la technique présentée dans ce document US-6,029,125 vise certes à remédier au manque d'impulsions d'un dictionnaire en appliquant une modification qui conserve l'allure spectrale du dictionnaire. Or, il est souvent nécessaire d'enrichir les dictionnaires multi- impulsionnels, en incluant des vecteurs-code qui encodent mieux certaines parties du spectre, en particulier les hautes fréquences, ce qui est incompatible avec la solution retenue dans US-6,029,125.

D'autres types de dictionnaires ont été proposés pour accroître les performances en maintenant des complexités de recherche acceptables. Ainsi, les dictionnaires cascades (ou "multi-stage" en vocable anglo-saxon), éventuellement différents, donnent lieu à plusieurs recherches CELP successives, chaque recherche produisant l'indice d'un vecteur-code sélectionné avec son gain associé. Le vecteur d'excitation s'exprime alors par :

/-1 exc_courant (n) = ∑g_ι x c Xn) ; 0 ≤ n ≤ N -l , si l'on suppose que l'on met en

cascade un nombre / de dictionnaires.

La recherche conjointe des sous-vecteurs-codes (c,(n)} dans les / dictionnaires peut être complexe. En pratique, une méthode sous-optimale de recherche en série est utilisée et consiste à sélectionner la forme d'onde optimale dans le premier dictionnaire et calculer le gain associé, puis à quantifier ce gain et soustraire la contribution connue de ce premier dictionnaire, ce qui, en reprenant les expressions présentées plus haut, se traduit par :

W(z) {exe_*™, (ⁿ) si n < 0

^E& = T A_qT{zT) (^res& ^{~ exc}^ ^ ^{" exc}2 (»)) ' ^{avΘC exc}ι (») = Ig₁ X C₁ (H /) si ^• nO /≤ n /≤ N Λ, - 1I

Le "signal cible filtré" est modifié en x'(z) = H(z)(res(z) - exc_ι(z)) et la sélection du sous-vecteur du second dictionnaire est ainsi effectuée. Le processus est ensuite itéré pour tous les dictionnaires successifs.

Il est à noter que l'usage de dictionnaires orthogonaux peut aussi être prévue dans ce contexte.

On décrit brièvement maintenant les structures de codage hiérarchique. De telles structures, encore appelées "scalables", fournissent au codage des données binaires qui se répartissent en couches successives. Une couche de base est formée des éléments binaires absolument nécessaires au décodage du train binaire, et déterminant une qualité minimum de décodage. Les couches suivantes permettent d'améliorer progressivement la qualité du signal décodé, chaque nouvelle couche amenant de nouvelles informations, qui, exploitées au décodage, fournissent en sortie un signal de qualité croissante. L'une des particularités des codeurs hiérarchiques est la possibilité d'intervenir à un niveau quelconque de la chaîne de transmission ou de stockage pour supprimer une partie du train binaire sans devoir fournir d'indication particulière au codeur ni au décodeur. Le décodeur utilise les informations binaires qu'il reçoit et produit un signal de qualité correspondante. On retrouve dans la composition des traitements de codage hiérarchique la notion de "couches" de codage. Ces couches peuvent être construites par la mise en œuvre de procédés issus de techniques différentes. En variante, les différentes couches de codage peuvent être issues d'un même type de traitement, dans lequel il est possible d'améliorer la qualité en fournissant simplement des données supplémentaires. Ainsi les codeurs CELP hiérarchiques, encore dénommés "CELP imbriqués", utilisent en général plusieurs dictionnaires, qui peuvent être différents à chaque étage ou identiques.

Néanmoins, les dictionnaires cascades et les dictionnaires intervenant dans les structures de codage hiérarchique présentent encore les mêmes problèmes que ceux décrits précédemment.

La présente invention vient améliorer la situation.

Elle vise en particulier à remédier au manque de richesse, en termes de formes d'onde et de contenu spectral, des dictionnaires CELP à bas débits, tout en conservant la grande facilité de décodage et la faible complexité associées à ces dictionnaires. Elle offre en outre un enrichissement progressif de ces dictionnaires, ce qui est particulièrement intéressant dans le contexte des structures de codage hiérarchique. Elle a également pour objet de proposer une alternative séduisante aux techniques dites "anti-sparseness" et, dans un cadre plus général, peut contribuer à l'enrichissement des dictionnaires clairsemés, avec un meilleur contrôle de la continuité entre blocs successifs.

Elle propose à cet effet un procédé de construction d'un dictionnaire de vecteurs d'excitation de type CELP, pour le codage/décodage de signaux audionumériques, chaque vecteur de dimension N comportant des impulsions susceptibles d'occuper N positions valides. Dans le procédé au sens de l'invention, un dictionnaire initial (appelé aussi ci- après "dictionnaire de base") est construit en : - prévoyant une même suite d'impulsions formant un motif de base,

- et en affectant le motif de base à chaque vecteur d'excitation du dictionnaire, selon une ou plusieurs occurrences à une ou plusieurs positions respectives parmi lesdites N positions valides.

On entend ici par "suite d'impulsions" une succession d'échantillons comportant des impulsions et éventuellement un ou plusieurs échantillons nuls entre les impulsions, et/ou en début et/ou en fin de la succession.

Préférentiellement, le dictionnaire ainsi construit est un dictionnaire d'excitation CELP de type dit "fixe" (référencé DICf par exemple sur les figures 1 et 2 décrites ci-avant).

Préférentiellement, le motif de base apparaissant à chaque occurrence dans un vecteur d'excitation est multiplié par une amplitude associée à ladite occurrence, cette amplitude étant par exemple choisie parmi un ensemble comportant les valeurs +1 et -1.

Préférentiellement encore, tous les vecteurs du dictionnaire initial comportent un même nombre d'occurrences du motif de base.

Ainsi, un dictionnaire initial peut être défini par :

- la suite d'impulsions formant le motif de base,

- le nombre d'occurrences du motif dans chaque vecteur, - des ensembles de positions admises pour les occurrences desdits motifs, et

- des ensembles d'amplitudes à associer aux occurrences desdits motifs.

L'invention propose ainsi la construction de dictionnaires de vecteurs d'excitation CELP, ces dictionnaires étant définis par la donnée d'un motif de base, apparaissant selon une ou plusieurs occurrences, chaque occurrence étant multipliée par une amplitude. Les motifs apparaissant éventuellement en bordure de bloc (trames ou sous-trames d'échantillons) sont tronqués pour s'insérer exactement dans le bloc.

En termes plus génériques, on comprendra que les motifs apparaissant en bordure de bloc d'un vecteur sont tronqués et les impulsions restantes des motifs tronqués occupent le début ou la fin du bloc.

Un dictionnaire obtenu par le procédé au sens de l'invention, rassemblant des vecteurs de dimension N, est alors défini par un motif de base, que l'on "déplace" dans le bloc de longueur N. Chaque motif apparaît selon K occurrences que l'on additionne, chaque occurrence étant elle-même définie par :

- un terme d'amplitude (éventuellement de polarité), c'est-à-dire que le motif est multiplié par une valeur donnée (par exemple ± 1 ) pour chaque occurrence,

- et la position du motif dans l'occurrence.

On relèvera toutefois qu'un dictionnaire multi-impulsionnel, bien connu de l'état de l'art, constitue un cas particulier d'un dictionnaire ainsi obtenu, dans la mesure où la longueur d'un motif dans le cas d'un dictionnaire multi- impulsionnel est simplement de 1. Ce type de dictionnaire multi-impulsionnel sera désigné ci-après sous le nom de "dictionnaire de base trivial".

Par ailleurs, le procédé au sens de l'invention permet de construire des combinaisons de dictionnaires (initiaux et construits comme décrit ci-avant sans exclure aussi le recours à un ou plusieurs dictionnaires supplémentaires multi-impulsionnels classiques).

Ainsi, un dictionnaire obtenu par le procédé au sens de l'invention peut consister en : - un unique dictionnaire de base, non trivial, défini par un motif de base (de longueur supérieure à 1 ), par les positions du motif et par l'amplitude associée selon les différentes occurrences, ou

- une union de dictionnaires de base, dans laquelle au moins l'un des dictionnaires de base est un dictionnaire de base non trivial, ou

- ou une somme de dictionnaires de base, éventuellement pondérée, dans laquelle au moins l'un des dictionnaires de base est un dictionnaire de base non trivial, les occurrences de tous les motifs étant sommées entre elles.

En termes plus génériques, un dictionnaire global peut être construit par une somme de dictionnaires de base dont l'un au moins est un dictionnaire initial défini par un motif de base. Les vecteurs du dictionnaire global sont formés dans ce cas par addition des impulsions de positions communes des vecteurs des dictionnaires de base, préférentiellement pondérés un à un par un gain associé chacun à un dictionnaire.

En variante, un dictionnaire global peut être construit par une union de dictionnaires de base dont l'un au moins est un dictionnaire initial défini par un motif de base. Dans ce cas, le dictionnaire global comporte simplement tous les vecteurs de tous les dictionnaires de base.

La construction de tels dictionnaires permet déjà de prévoir des types variés de contenus. Selon la forme des motifs de base et leur nombre d'occurrences, on pourra obtenir des vecteurs d'excitation d'allures variées, possédant éventuellement un nombre relativement élevé d'impulsions non nulles. Par exemple, le choix du motif de base peut être guidé par des considérations d'ordre spectral. Cette richesse de contenu ne nécessite pas, pour autant, une taille particulièrement importante du dictionnaire car, par le jeu de l'addition des occurrences des motifs, on peut varier les formes des vecteurs d'excitation avec un nombre modéré de motifs et d'occurrences. Ainsi, il est possible de représenter des vecteurs d'excitation ayant un contenu spectral sensiblement différent de celui des dictionnaires multi-impulsionnels classiques, pour des ensembles d'indices équivalents.

Dans une telle réalisation, on peut prévoir que le motif de base comporte au moins une impulsion centrale, précédée et succédée d'au moins une impulsion de signe opposé au signe de l'impulsion centrale. Plus précisément, le motif peut comporter en tout trois impulsions dont :

- une impulsion centrale,

- une seconde impulsion précédant l'impulsion centrale, - et une troisième impulsion succédant l'impulsion centrale, les signes des seconde et troisième impulsions étant opposés à celui de l'impulsion centrale, l'amplitude des seconde et troisième impulsions étant inférieure, en valeur absolue, à celle de l'impulsion centrale et, de façon avantageuse, variable entre 0 (non compris) et environ la moitié de l'amplitude de l'impulsion centrale, en valeur absolue.

Il s'est alors avéré avantageux de prévoir un dispositif de codage/décodage comportant une mise en cascade de dictionnaires, dont au moins un dictionnaire initial est subséquent dans la cascade, ce dictionnaire initial comportant un tel motif symétrique à impulsion centrale et impulsions précédente et suivante d'amplitudes opposées à celle de l'amplitude centrale. Ce dispositif peut comporter avantageusement un filtrage passe-haut dans un filtre global de pondération perceptuel intervenant notamment au codage dans la recherche d'un vecteur d'excitation optimal. Un exemple d'une telle réalisation sera décrit en détails plus loin, en référence aux figures 8a, 8b, 8c et 9. Cette réalisation a permis de focaliser la recherche dans le dictionnaire initial par l'usage d'un filtre passe-haut.

On indique simplement ici que cette réalisation propose une mise en cascade d'un dictionnaire multi-impulsionnel avec un dictionnaire défini par un motif symétrique par rapport à son centre, dont les occurrences du centre du motif décrivent le même ensemble que les occurrences des impulsions du dictionnaire multi-impulsionnel.

Cette mise en œuvre permet d'élargir le domaine spectral du dictionnaire de base initial par l'apport d'un ou plusieurs dictionnaires de base supplémentaires, la recherche dans ces dictionnaires de base supplémentaires étant alors focalisée spectralement par la modification du filtre de pondération perceptuel intervenant dans la recherche du vecteur optimal, le choix de cette modification et celui du motif de ces dictionnaires de base supplémentaires étant éventuellement liés.

De manière plus générale, dans le cas d'une union ou sommation de plusieurs dictionnaires de base, on utilise des dictionnaires de base dont les centres des motifs et les amplitudes associées décrivent les mêmes ensembles mais pour des motifs différents.

Ainsi, en termes plus génériques, les positions des motifs et/ou des impulsions dans les vecteurs des dictionnaires, notamment lorsqu'ils sont mis en cascade, décrivent des ensembles préférentiellement identiques, la position d'un motif étant repérée sensiblement par la position d'une impulsion centrale dans la suite d'impulsions formant le motif.

Il est alors possible de mutualiser les calculs et les algorithmes de traitements rapides car les techniques de recherche d'un vecteur d'excitation meilleur candidat restent rapides dans les dictionnaires construits au sens de l'invention, puisque ces derniers exploitent la structure particulière des dictionnaires multi-impulsionnels classiques, et permettent l'utilisation de traitements efficaces mis en place pour le cas des dictionnaires multi- impulsionnels.

On indique ici que la position d'un motif peut être repérée par la position dans le bloc de l'échantillon du centre du motif, si le motif comprend un nombre impair d'échantillons. Toutefois, de manière strictement équivalente, un éventuel motif de longueur paire pourra être complété par un zéro afin de produire une longueur impaire. Plus généralement, toute autre variante pour repérer la position des motifs peut être envisagée.

L'invention propose des techniques très simples de décodage de l'indice des vecteurs de tels dictionnaires, par addition des occurrences mises à l'échelle du ou des motifs dont la position et le facteur d'amplitude pour chaque occurrence sont transmis.

En termes génériques, au codage, après détermination d'un vecteur meilleur candidat dans un dictionnaire initial, on forme un indice comportant préférentiellement au moins des indications :

- de la ou des position(s) du motif de base dans le vecteur meilleur candidat, et

- de la ou des amplitude(s) associée(s) à la ou les position(s) du motif, ledit indice étant destiné à être transmis pour un décodage ultérieur.

Si l'on prévoit une pluralité de dictionnaires, l'indice comporte en outre une indication du dictionnaire dans lequel le vecteur meilleur candidat a été trouvé.

Ainsi, si le vecteur meilleur candidat a été trouvé dans un dictionnaire initial comportant un motif de base, l'indice comporte en particulier une indication relative au dictionnaire initial précité et, de là, une indication quant au motif de base qui a permis de construire le dictionnaire et donc le vecteur meilleur candidat.

Dans le cas d'un unique dictionnaire de base, l'indice reflète déjà l'amplitude et la position associées à chacune de ses occurrences. Pour décoder le vecteur meilleur candidat, il suffit alors de positionner le motif de base aux différentes positions qu'il doit occuper dans chaque occurrence, le multiplier par les amplitudes associées, et faire la somme des occurrences. Dans le cas d'une union de dictionnaires de base, l'indice informe en outre sur le dictionnaire de base sélectionné, comme indiqué précédemment. Dans le cas d'une somme de dictionnaires de base, on dispose des amplitudes et positions des occurrences de chaque motif de base et on procède de manière équivalente au cas de l'union, mais en sommant les contributions de tous les motifs.

Le décodage des indices des vecteurs d'un dictionnaire au sens de l'invention est très simple.

Au décodage, on reconstruit le meilleur vecteur candidat préférentiellement à partir de l'indice :

- éventuellement dans le cas d'une utilisation d'une union de dictionnaires, en déterminant déjà le motif de base correspondant au dictionnaire initial indiqué par l'indice,

- en positionnant le motif de base aux positions indiquées par l'indice,

- en multipliant le motif à chaque position par une amplitude associée indiquée par l'indice,

- et en additionnant les motifs multipliés et disposés auxdites positions indiquées.

Dans le cas d'une utilisation d'une somme de dictionnaires, on détermine préférentiellement les indices des vecteurs dans chacun des dictionnaires et, de là, on applique pour chaque indice, les trois dernières étapes décrites ci- avant.

II est possible d'accélérer la recherche dans des dictionnaires au sens de l'invention et il est apparu particulièrement intéressant de munir les ensembles de positions des motifs d'une structure forte, par exemple celle des dictionnaires ACELP, pour adapter les traitements rapides de recherche, très efficaces, mis en place habituellement dans les dictionnaires ACELP. Ainsi, en termes plus génériques, le dictionnaire construit au sens de l'invention comporte préférentiellement des positions admises de motif qui décrivent un ensemble fortement structuré, avantageusement comme un ensemble de positions d'impulsions d'un dictionnaire ACELP.

Comme indiqué ci-avant, dans le cas de l'utilisation d'une pluralité de dictionnaires, il est particulièrement intéressant de munir deux ou plusieurs dictionnaires de base d'ensembles identiques de positions de motifs, pour pouvoir réutiliser les mêmes traitements dans la recherche dans les dictionnaires. Ainsi, l'un de ces dictionnaires au moins peut avantageusement être de type ACELP.

La mise en cascade de dictionnaires incluant au moins un dictionnaire de base est très avantageuse. Cette variante est particulièrement adaptée au cas de structures de codage hiérarchique. Néanmoins, les différents dictionnaires de base ne jouent pas le même rôle car, typiquement, le premier dictionnaire assure le codage d'une qualité minimale des signaux qu'il est souhaité de reproduire. Les dictionnaires suivants sont plutôt destinés à améliorer cette qualité, et permettront de consolider le codage, de réduire la sensibilité au type de signal, ou autre.

En termes plus génériques, la mise en cascade d'une pluralité de dictionnaires revient à construire un unique dictionnaire global obtenu par sommation des dictionnaires pondérée par des gains, comme indiqué ci-avant.

Dans ce cas, chaque vecteur d'excitation correspond à la somme de vecteurs issus de dictionnaires de base multipliés par un gain, les dictionnaires de base étant explorés l'un après l'autre, en soustrayant la contribution connue de l'excitation partielle produite par les vecteurs des dictionnaires précédents. Ainsi, dans cette réalisation avantageuse, les dictionnaires mis en cascade sont explorés l'un après l'autre, en soustrayant, pour un dictionnaire courant, une contribution connue d'une excitation partielle produite par les vecteurs d'au moins un dictionnaire précédent, ce qui confère une structure de codage hiérarchique.

De façon particulièrement avantageuse, la recherche dans un dictionnaire au sens de l'invention d'un vecteur d'excitation meilleur candidat s'effectue selon une estimation d'un critère CELP, peu modifiée par rapport à l'art antérieur et comportant alors les étapes : a) calculer la convolution de la réponse impulsionnelle d'un filtre résultant du produit d'un filtre de synthèse LPC par un filtre perceptuel, avec le motif de base du dictionnaire, pour obtenir un vecteur de filtre convolué, b) calculer les éléments d'un vecteur d'inter-corrélation entre un vecteur cible candidat et le vecteur de filtre convolué, c) corriger éventuellement des éléments du vecteur d'inter-corrélation pour tenir compte d'une troncature du motif de base à au moins un bord de bloc, d) calculer les éléments d'une matrice d'autocorrélation du vecteur de filtre convolué, e) corriger éventuellement des éléments de ladite matrice pour tenir compte d'une troncature du motif de base à au moins un bord de bloc, f) effectuer une recherche du vecteur meilleur candidat à l'aide d'un critère CELP exprimé comme une maximisation d'un rapport dans lequel le numérateur fait intervenir les éléments du vecteur d'inter-corrélation et le dénominateur fait intervenir les éléments de la matrice d'autocorrélation.

On comprendra que, dès lors que la recherche peut faire apparaître des motifs de base en bordure de bloc, l'estimation du critère CELP est légèrement modifiée par l'ajout des étapes c) et e), par rapport à l'estimation du critère CELP au sens de l'art antérieur.

D'ailleurs, des simplifications aux algorithmes de recherche optimaux des dictionnaires de base sont en outre proposées lorsque l'énergie relative des parties à tronquer est faible devant celles des parties qui restent dans le bloc pour les motifs du bord. Dans ce cas, l'une des étapes c) et e), ou les deux, pourront être omises.

D'autres simplifications sont également proposées, visant à tronquer les réponses impulsionnelles des filtres de synthèse multipliés par le filtre perceptuel, et à tronquer le vecteur de filtre convolué calculé à l'étape a).

La présente invention vise non seulement le procédé défini ci-avant, mais aussi le dictionnaire, lui-même, de vecteurs d'excitation CELP, susceptible d'être construit par un dispositif de codage/décodage de signaux audionumériques, par une mise en œuvre du procédé au sens de l'invention.

Elle vise aussi un programme informatique comportant des instructions pour la mise en œuvre du procédé de construction d'un dictionnaire tel que défini ci- avant.

Elle vise aussi le dispositif de codage/décodage de signaux audionumériques, comportant au moins un dictionnaire au sens de l'invention. Typiquement, une réalisation avantageuse consiste à prévoir un dispositif incluant des moyens (tels qu'un processeur, une mémoire de calcul, etc) pour générer les vecteurs d'excitation CELP d'un ou plusieurs dictionnaires dont l'un au moins est un dictionnaire à construire par la mise en œuvre du procédé au sens de l'invention.

Avantageusement, ces dictionnaires peuvent être construits par l'exécution d'un programme informatique du type précité, stocké alors dans une mémoire d'un tel dispositif de codage/décodage, par exemple grâce à l'emploi d'une loi algébrique associant les indices de vecteurs aux vecteurs-code eux-mêmes (comme par exemple dans la technique ACELP). La présente invention vise aussi une utilisation d'un tel dispositif pour le codage/décodage de signaux audionumériques (donc typiquement un procédé de codage/décodage), ainsi que le programme informatique destiné à un dispositif de codage/décodage de signaux audionumériques, et comportant des instructions pour la mise en œuvre d'une telle utilisation.

De manière générale, tout ou partie des caractéristiques générales et optionnelles exprimées ci-avant peuvent s'appliquer aussi bien pour la construction du dictionnaire, que pour le dictionnaire lui-même ou pour le dispositif de codage/décodage comportant au moins un dictionnaire ainsi construit ou pour l'utilisation d'un tel dispositif, ou encore pour le programme informatique générant le dictionnaire ou pour le programme informatique permettant l'utilisation du dispositif.

Ainsi, l'invention propose des dictionnaires de vecteurs d'excitation de type CELP et leur utilisation, qui offrent une grande richesse potentielle de contenus pour une taille modérée. Le décodage des indices associés est de faible complexité, en dépit de cette variété de formes. On peut en outre mettre en place des algorithmes rapides de sélection du vecteur optimal, en tirant parti de la composition particulière de ces dictionnaires.

On retiendra alors que la présente invention propose une catégorie de dictionnaires CELP permettant l'encodage d'une grande variété de signaux d'excitation pour des débits relativement modérés, et offrant en outre des algorithmes rapides et efficaces pour la sélection du vecteur adéquat.

D'autres caractéristiques et avantages de l'invention apparaîtront à l'examen de la description détaillée ci-après, et des dessins annexés sur lesquels, outre les figures 1 et 2 décrites ci-avant : - la figure 3a illustre un motif de base pour la mise en œuvre de l'invention,

- les figures 3b et 3c illustrent respectivement un premier A₀ et un deuxième A₁ ensemble des positions de la première et de la deuxième occurrence d'un motif de base, - la figure 3d illustre un exemple de vecteur-code sélectionné par la mise en œuvre de l'invention,

- la figure 4 est une table des modifications de la matrice d'autocorrélation dans l'estimation du critère CELP utilisant un dictionnaire au sens de l'invention, - la figure 5 illustre les principales étapes de recherche du meilleur vecteur- code dans un dictionnaire au sens de l'invention, par application du critère CELP "corrigé" pour tenir compte de la présence de motifs dont une partie est située hors d'un bloc courant,

- la figure 6 illustre un exemple d'union de dictionnaires au sens de l'invention,

- la figure 7 illustre un exemple de somme de dictionnaires au sens de l'invention,

- les figures 8a et 8b illustrent un premier et un second dictionnaire de base dans un exemple de réalisation de la présente invention pour perfectionner un codeur CELP selon la norme G.729,

- la figure 8c compare l'allure des spectres moyens des formes d'ondes du dictionnaire de la figure 8a et du dictionnaire de la figure 8b,

- la figure 9 illustre un exemple de réalisation d'un codeur CELP selon la norme G.729 perfectionné par un exemple de mise en œuvre de la présente invention.

En référence tout d'abord aux figures 3a à 3d, on décrit ci-après le contenu d'un dictionnaire "de base" au sens de l'invention. Les vecteurs-code d'un dictionnaire de base sont obtenus en définissant un motif de base y(j) (-p ≤ j ≤ p) comme une suite d'échantillons (figure 3a) qui se déplace dans un bloc de longueur N, en tronquant le motif lorsqu'il déborde du bloc. On additionne K occurrences de ce même motif, multipliées par un facteur d'amplitude, pour former les vecteurs-code du dictionnaire.

A titre d'exemple, l'encadré en traits pointillés portant la référence D2 de la figure 7 illustre quelques vecteurs V21 , V22, V2n d'un dictionnaire de base ainsi construit. Le premier vecteur V21 comporte un motif de base Pat(D2) comportant une succession de onze impulsions. A gauche de ce motif, on remarque la "fin" d'un motif de polarité inverse et tronqué de sorte que seules ses neuvième à onzième impulsions apparaissent dans le vecteur V21. Le vecteur suivant V22 reprend le motif Pat(D2) entier et un autre motif tronqué à droite et de polarité inverse. Dans les vecteurs V21 et V22, les motifs sont disjoints. En revanche, dans le dernier vecteur V2n, deux motifs de base sont repris avec la même polarité, mais leurs centres respectifs occupent des positions suffisamment proches pour que les deux motifs se chevauchent partiellement. Dans ce cas, les impulsions qui se chevauchent s'additionnent entre elles, en tenant compte de leur signe. Par exemple, le dernier vecteur V2n du dictionnaire D2 dans l'exemple de la figure 7 comporte la somme des impulsions des deux motifs de base en leurs bords, droit pour l'un et gauche pour l'autre (dixième et onzième impulsions du motif global à partir de la gauche). De même, l'impulsion (négative) du centre du deuxième motif du vecteur V21 s'annule avec la deuxième impulsion (positive) du vecteur V12 dans la somme des vecteurs V21 +V12.

Ainsi, en termes plus génériques, parmi les positions admises des motifs de base dans chaque bloc d'un vecteur d'excitation, des positions de motifs sont telles que des motifs se recouvrent au moins partiellement (cas du vecteur V2n). Dans ce cas, les impulsions des motifs se recouvrant sont additionnées une à une. On remarquera que la formulation donnée ci-avant : y(j) (-p ≤ j ≤ p) , présentant l'avantage de rendre plus clairs les développements qui suivent, semble imposer a priori un nombre impair 2p+1 d'éléments dans le motif de base (-p ≤ j ≤ p) . En fait, comme mentionné auparavant, cette particularité n'est aucunement nécessaire pour la mise en œuvre de la présente invention. Si l'on souhaite utiliser un motif ayant un nombre pair d'éléments, il suffit de rajouter un élément nul sur l'un des bords, et la formulation appliquée ici est encore utilisable.

Chaque vecteur {c(n}} d'un dictionnaire de base, de dimension N, est construit en additionnant K vecteurs d'occurrence y^k tels que : _y ^k = {s_k χ y^k(_n)}, pour n allant de 0 à /V- 1 et k allant de 0 à K- 1

Ces vecteurs sont formés d'un motif de base affecté d'une amplitude donnée, tronqué si nécessaire au(x) bord(s) et complété par des zéros. Chaque occurrence k se caractérise: - par l'amplitude qui lui est affectée, s_k, prenant ses valeurs dans un ensemble S_k , - par la position du motif de base, qui peut être représentée, par exemple, par la position a_k à laquelle on place son centre. a_k prend ses valeurs dans un ensemble A_k , et peut éventuellement se situer à l'extérieur de l'intervalle [0,N -I] , la seule contrainte étant, bien entendu, que l'intersection des motifs et du bloc ne soit pas nulle.

Les figures 3b et 3c illustrent un tel dictionnaire pour lequel en particulier K=2. La première occurrence est caractérisée par le centre a₀ qui peut se placer aux cinq positions d'un ensemble de positions A₀ = fy,a%,al,cβ,c%j et par l'amplitude s₀ <= S₀ = {+ 1} (figure 3b). La seconde occurrence est caractérisée par le centre a_x qui peut se placer aux quatre positions de

(figure 3c). Le dictionnaire est alors composé de : 5 (positions AJ) X 4 (positions A₁) x 2 (polarités pour A₀) x 2 (polarités pour Ai) = 80 vecteurs-codes. Un exemple de vecteur-code de ce dictionnaire (défini par les positions α_o=αo et a_x-<\ et par les amplitudes s_o=+l et ^₁ =-1) est donné à la figure 3d.

On a donc : _k, ₎_[y(fi ^si n = a_k + j; Max(-p-a_k)≤j≤Min(p,N-l-a_k); a_k<=A_k { 0 si a_k £ A_k

Ce qui s'écrit aussi :

en utilisant les fonctions δ (.) de

Kroenecker et de troncature t(n) = 0 si ne[0,N-ï\

Chaque vecteur (c(n)} est défini par l'ensemble des positions des centres des motifs de base de chacune des occurrences qui le composent

K-I __^ (a_o,a_ι,...,a_κ__ι)Gγ[A_k , où γ[ désigne le produit cartésien des ensembles, et k=0

K-I par l'ensemble des amplitudes (S₀₇S₁,...,S^₁) G Y[S_k associées aux différentes

occurrences. Les composantes c(n) (O≤n≤N-ï) s'obtiennent par sommation des

(éventuelles) contributions des K vecteurs y^k à l'échantillon n, selon la relation :

K-I K-I P c(n) = ∑s_kχ y^k (n) = ∑s_k x ∑ y(j) x δin -cι_k- j) x t{n); 0≤n≤N-l k=0 k=0 j=-p

Si l'on définit les vecteurs {c_o(n)} de dimension (N + 2p) tels que :

K-I c_o(n) = ∑s_k χδ(n-a_k), avec -p≤n≤N-1 + p, k=0

alors c(n) = t(n)χ ∑y(j)χc₀ (n- j)

J=-P

Les vecteurs {c(n}} du dictionnaire de base se déduisent des vecteurs {c_o(n)} par convolution avec le motif de base y et troncature aux bornes du segment [0.Λ/-1].

On voit que les vecteurs {c_o(n)} sont définis par la donnée des centres

K-I

(a₀, Ci₁,..., Ci_x-1) <≡γ[ A_k des motifs de base et celle des amplitudes k=0 K-I (i'_o,^,...,^^)^]^^ . Si les centres s'ordonnent de manière structurée, on k=0 comprendra qu'il est possible de tirer parti de cette structure pour définir des algorithmes rapides afin d'accélérer la sélection du vecteur-code dans le dictionnaire.

La fonction de troncature t{n) introduit des non-linéarités dans l'expression de c{n), dont on peut s'affranchir en étendant le vecteur {c(n}} de dimension N au vecteur {c'(n)}, de dimension (N + 2p) :

On peut donc faire apparaître trois parties dans le vecteur {c\n)} : c\n) = c_c(n) + c_g(n) + c_d(n); -p≤n≤N-1+p

P La partie centrale c_c(n)= ∑y(j)χc₀ (n- j); -p≤n≤ N-l+p correspond à la

J=-P convolution de {c_o(n)} avec le motif de base et ses composantes dans les intervalles des bords, [-p,-l]et [N,N + p-l] sont non nulles a priori. Les deux autres termes annulent les éventuelles composantes non nulles des bords de c_c(n) et correspondent aux effets induits par la possible troncature du motif aux bords :

- avec l'effet du bord gauche du bloc :

- et celui du bord droit du bloc :

On décrit maintenant la recherche d'un vecteur-code dans un dictionnaire de base.

On rappelle que le critère CELP à maximiser : N-I

(∑x(n)c^»(n))²

Num _ «=0

^Dm ∑c"(nγ

H=O fait intervenir le calcul de deux quantités : le numérateur Num et le dénominateur Den.

On définit le vecteur {<?^*(«)} de dimension (N + 2p) par la convolution du vecteur {c'(n)} donné ci-dessus avec la réponse impulsionnelle du filtre H{z). Cependant, dans la sélection de la forme d'onde optimale, seuls les Λ/ éléments centraux de ce vecteur sont utilisés.

+00 c^*(n) = ∑h(i)χc'(n-i) = b_c(n) + b_g(n) + b_d(n), avec -p≤n≤N-1 + p

+00

Dans cette expression, le facteur central b_c(n)= ∑h(i)χc_c(n-i) se calcule en

(=—00 introduisant le vecteur {h'(i)}, correspondant à la convolution de la réponse

impulsionnelle du filtre H avec le motif de base (soit h'(i)= ∑h(i- j)χy(j)).

On obtient alors

= ∑ C₀(H-Ox ∑h(i'- j)χy(j)

On retiendra que le facteur central s'exprime alors de la manière suivante

K-I ^bM) = ∑Λ'(/) xc_o(n- i) = ∑s_kx h'(n - a_k) k=0

Le facteur "bord gauche" b_g (n) = ∑h(n - ï) x c_g (i) ,

p-l Mιn(-l,p+j) soit b_g(n) = - ∑ ∑c_o(j)χh(n-i)χy(i- j), s'écrit aussi : j=-2p ι=Max(-p+j,-p) Mιn(-l,a_t+p) ^bg (ⁿ) = ^~ ∑ ^sk ^x ∑Λ(Λ - /) x y(/ - a_k) , a_kέT ι=Max(-p+a_t,-p)

en introduisant l'ensemble T_g = rassemblant pour les K

ensembles A_k, k <= [θ,K -l] , les positions -2p≤a_k< p .

Le nombre de termes dans le facteur bJn) dépend des domaines de définition

A_k des centres a_k du motif de base dans les ACoccurrences. Cependant, pour que les motifs recouvrent au moins partiellement le bloc courant, il convient d'éviter que le centre soit trop éloigné du premier échantillon de ce bloc, de plus de p échantillons. Cette condition s'écrit a_k≥-p, ce qui entraîne:

K-I

Min(-l,a_k+p) = -l, et T_g = [JA_k n[-p,p-l] k=0

Mιn(p—a_k ,p)

Donc b_g (n) = - ∑ s_k x ∑ h(n + i) x y(-i - a_k )

Mιn(p-j, p)

En définissant la fonction h"(n,j)= ∑h(n + i)χy(-i- j) , ι=l

le facteur "bord gauche" s'exprime alors b_g(n) = - ∑s_kχh"(n,a_k).

On relèvera que cette dernière expression ne fait intervenir, pour chaque occurrence k, que les valeurs a_k des centres qui sont dans l'intervalle [-p, p-1].

Le facteur "bord droit" s'écrit au départ b_d(n) = -∑h(n-i)χc_d(i) et, en

reprenant les principes appliqués au bord gauche ci-avant :

N+2p-l Mιn(N+p-l,j+p) b_d(n) = - ∑ c₀U)x ∑h(n-i)^χy(i-j), so\t

]=N-p ι=Max(N, j-p) *>_-(«) = -∑ s_k x ∑h(n-i)x y(i-a_k), avec T_d = n[N-p,N + 2p-l]

De manière symétrique au cas précédent, le centre du motif est au plus distant de p échantillons du bord droit, ce qui entraîne a_k ≤N + p-l, donc :

Max(N,a_k-p) = N et T_d = n[N - p,N + p-l]

Mιn(N+p-ι.j+p)

En définissant une fonction h^m(n,j)= ∑h(n-ï)χy(i- j), on peut aussi ι=N écrire :

b_d(n) = -∑s_kxh^m(n,a_k)

Le nombre d'éléments h^m(n,j) non nuls dépend ainsi du nombre d'éléments non nuls h(ή) tels que n < 0.Si l'on suppose que le filtre H(z) est causal, tous les éléments b_d(ή) tels que n≤N-1 sont nuls.

Donc, dans le cas d'un filtre causal où h(ή) = 0 si n < 0 , les effets de bord droit n'ont aucune incidence sur ce calcul.

Dans ce qui suit, on supposera qu'un motif ne peut être tronqué des deux côtés à la fois. Le cas contraire signifierait qu'un motif puisse être de taille supérieure à la longueur N du bloc, l'invention pouvant néanmoins s'appliquer aussi pour ce dernier cas.

On décrit maintenant l'application du critère CELP avec un dictionnaire au sens de l'invention. Le calcul du numérateur peut être mené comme suit.

/V-I /V-I

Num = ∑x(n)c^w(n) = ∑x(n) x (b_c (n) + b_g (n) + b_d (n))

= xh^m(n,a_k)

N-I K-I Le terme "central" ∑x(n)χ∑s_kχh'(n-a_k) est similaire à l'expression

B=O k=0 habituelle du numérateur du critère de sélection de la forme d'onde optimale dans un dictionnaire multi-impulsionnel. Comme dans la recherche classique,

N-I on définit d(a_k) = ∑x(n)χh'(n-a_k) et ce terme "central" devient alors

II est possible d'obtenir une expression similaire pour tout le numérateur du dictionnaire au sens de l'invention en posant :

/V-I d(a_k)-∑x(n)xh"(n,a_k)) si a,, GT_n

/V-I d\a_k) = d(a_k)-∑x(n)xh^m(n,a_k) si a_k<≡T_d

B=O d{a_k) si a_k£T_eyjτ_d

ce qui revient à apporter une correction aux éléments d{a_k) pour les centres a_k qui appartiennent aux ensembles I^ et T_d, c'est-à-dire correspondant à des occurrences où le motif, placé sur le bord, nécessite une troncature.

K-I

On a alors Num = ∑s_kχd'{a_k) , ce qui est semblable au numérateur de la k=0 recherche de la meilleure forme d'onde d'un dictionnaire de type multi- impulsionnel classique.

Le calcul du dénominateur se fait comme suit. /V-I

Den = ∑(c"(n))² avec

e{nY s_k x h^m(n,a_k)

- 2 s_t x h'(n - a _k) l ∑ s, ^x h^m(n, a, )

+ 2 ]s_k x h"(n,a_k) ∑s, x h^m(n,a,) α_t eF. α, er.

Le terme "central" s'exprime de manière classique par

s_k x s, xφ(a_k,a,) .

N-I φ(i,j) = ∑h'(n-i) χ h'(n- j) est un élément de la matrice d'autocorrélation du

vecteur {h' (ri)}. Pour la recherche de la forme d'onde optimale, seuls les éléments de la matrice d'autocorrélation faisant intervenir les positions des centres du motif dans les différentes occurrences sont utilisés.

Cette dernière expression est encore semblable à celle du dénominateur dans le cas d'un dictionnaire multi-impulsionnel classique. En revanche, pour tout le dénominateur estimé dans le critère CELP avec un dictionnaire au sens de l'invention, on introduit une fonction d'autocorrélation modifiée de la façon présentée dans la table de la figure 4. Moyennant la prise en compte de cette modification de la fonction d'autocorrélation, il est possible d'obtenir une expression identique au cas d'un dictionnaire multi-impulsionnel classique.

La matrice modifiée permet ainsi d'écrire le dénominateur de la recherche dans le dictionnaire au sens de l'invention sous la forme : κ-ι K-I K-I

Den = ∑s_k ² xφ'(a_k,a_k) + 2x ∑ ∑s_k x s_ι xφ'(a_k,a_ι) k=0 k=0 l=k+l qui est identique à celle du dénominateur pour la recherche dans un dictionnaire multi-impulsionnel classique.

On décrit maintenant la recherche proprement dite dans le dictionnaire au sens de l'invention.

En référence à la figure 5, on prévoit préférentiellement les étapes suivantes, On calcule (étape 51 ) le vecteur convolution de la réponse impulsionnelle du

filtre H avec le motif de base: h'(ï) = ∑h(i - j) x y(j) .

/V-I

On calcule ensuite (étape 52) les éléments d(a_k) = ∑x(ή) χh'(n-a_k) , du

B=O vecteur de corrélation entre le vecteur cible x(n) et le vecteur {h'(i)} (obtenu à l'étape 51 ). On corrige éventuellement ces éléments (étape générale 53 de la figure 5) pour les motifs apparaissant en bordure de bloc. En effet, pour des valeurs de k ≡ {θ,l,...,K -l} telles que les centres a_k ^ A_k des motifs imposent une troncature des motifs aux bords d'un bloc (flèche O en sortie du test 54), on calcule des éléments corrigés d'(a_k) (étape 56). Sinon (flèche N en sortie du test 54), on impose d'(a_k) = d(a_k) (étape 55). On obtient dans les deux cas un vecteur {d'(a_k)} tenant avantageusement compte des effets de bord, à la fin de l'étape 53.

On calcule ensuite (étape 57) les éléments de la matrice d'autocorrélation de {h'(i)} pour la détermination du dénominateur : /V-I φ(a_k,a_k) = ∑h'(n - a_k)² , a_k e A_k; k = O → K -I , et

B=O

/V-I φ(a_k,a,) = ∑h'(n- a_k) χ h'(n -a_ι) avec

B=O α_t e A_j, α, e A,, H = 0 → I -l, / = έ + l → I -l .

On corrige éventuellement ces éléments (étape générale 63 de la figure 5) pour tenir compte encore des motifs apparaissant en bordure de bloc. En effet, pour tous les couples (%,α_/) dont l'un au moins des éléments correspond à l'occurrence d'un motif qui déborde sur l'un des bords de bloc (flèche O en sortie du test 58), on calcule à l'étape 60 des éléments corrigés φ'{a_k,ciι) .

Sinon (pas de motif en bordure de bloc, ce qui correspond à la flèche N en sortie du test 58), on impose φ'(a_k,a,) = φ(a_k, a,) à l'étape 59. On obtient dans les deux cas des éléments de matrice tenant avantageusement compte des effets de bord, à la fin de l'étape générale 63.

On effectue ensuite (étape 61 ) la recherche de la meilleure forme d'onde à l'aide du critère classique de recherche CELP, exprimé comme la maximisation d'un rapport dans lequel le numérateur met en œuvre le vecteur {d'(a_k)} et le dénominateur les éléments φ'(a_k,a_t) , pour obtenir finalement le meilleur vecteur-code VC (étape 62).

On indique ici que la figure 5 peut illustrer, en tant qu'organigramme, une partie de l'algorithme du programme informatique permettant l'utilisation d'un dispositif de codage/décodage comportant au moins un dictionnaire au sens de l'invention.

La recherche de la forme d'onde dans un dictionnaire de base au sens de l'invention se ramène finalement à celle, connue et efficace, de la recherche dans un dictionnaire multi-impulsionnel classique. En particulier, si les positions des centres a_k e A_t des occurrences k (allant de 0 à K-λ ) des motifs décrivent les positions des impulsions de dictionnaires structurés de type ACELP, il sera possible d'utiliser les algorithmes rapides efficaces qui ont été développés pour de tels dictionnaires ACELP.

On a supposé que le motif est d'une taille inférieure à celle du bloc. Toutefois, dans le cas contraire, il suffit d'introduire une zone ^ nF₁, où les deux corrections s'appliquent, sans perte de généralité du procédé.

Des simplifications du procédé ci-dessus peuvent aussi être prévues. Par exemple, lorsque l'énergie relative des éléments qui sont évincés dans l'opération de troncature est faible par rapport à l'énergie des éléments qui restent dans le bloc, pour les occurrences des bords, il peut être prévu simplement de négliger les effets de bord (sans mener alors les tests 54 et 58). Dans ce cas, l'une au moins (préférentiellement l'étape 63) ou les deux étapes de correction 53 et 63 peuvent être simplement supprimées.

On décrit maintenant quelques compositions possibles des dictionnaires de base.

Deux procédés de combinaison peuvent être prévus pour offrir un dictionnaire global capable de fournir des représentations variées des formes d'onde, en particulier pour offrir une richesse spectrale très satisfaisante. En effet, il est possible d'orienter le contenu de chaque dictionnaire de base vers une ou plusieurs catégories de signaux.

^* Union de dictionnaires de base

L'union de dictionnaires de base permet de fournir un dictionnaire unique dont chaque partie correspond à un dictionnaire de base. Pour une portion de signal qui sera mieux représentée par l'un des dictionnaires de base, on trouvera alors la meilleure forme d'onde dans ce dictionnaire de base pour représenter cette portion de signal.

La figure 6 illustre un tel dictionnaire, présentant l'union de deux dictionnaires de base D1 et D2, construits à partir des mêmes ensembles de positions pour les centres des occurrences et les mêmes ensembles d'amplitudes, et chacun à deux motifs comportant respectivement : - une impulsion unique Pat(D1 ) pour le premier dictionnaire de base D1 , - et la suite d'impulsions Pat(D2) selon le motif de la figure 3a pour le second dictionnaire de base D2.

Pour un vecteur d'excitation à coder donné, on explore préférentiellement chacun des dictionnaires de base séparément, les meilleures formes d'onde issues de la recherche dans chaque dictionnaire de base étant ensuite comparées entre elles pour en sélectionner la plus appropriée. La complexité de la recherche est dans ce cas équivalente à la somme des complexités des recherches dans chaque dictionnaire de base. Les recherches rapides, induites par la structure avantageuse des dictionnaires de base comme on l'a vu précédemment, se sont révélées très efficaces.

Des variantes d'exploration peuvent être aussi proposées. Par exemple, il est possible de déterminer en premier lieu un (ou plusieurs) dictionnaire(s) de base parmi les dictionnaires qui composent le dictionnaire global, puis de limiter ensuite la recherche aux dictionnaires de base ainsi présélectionnés.

Le décodage des index peut être mené en identifiant tout d'abord le dictionnaire de base qui a été sélectionné (par exemple en comparant l'indice du vecteur-code sélectionné à des valeurs stockées en mémoire correspondant aux frontières des dictionnaires de base dans le dictionnaire complet). Ensuite, on procède au décodage de l'indice du vecteur-code dans le dictionnaire de base de la manière indiquée précédemment.

^* Somme de dictionnaires de base Cette réalisation est avantageuse. Il s'agit de construire et utiliser des dictionnaires additionnant les vecteurs des dictionnaires de base pour tirer parti des caractéristiques propres aux dictionnaires de base qui le composent, mais aussi tirer parti de leurs caractéristiques conjointes.

Ainsi, dans le cas d'une somme de dictionnaires, les vecteurs des dictionnaires sont formés simplement en additionnant, un à un et échantillon par échantillon, tous les vecteurs des dictionnaires de base, éventuellement pondérés par des gains comme dans le second mode de réalisation qui est décrit plus loin.

En effet, deux modes de réalisation sont proposés ci-après pour la mener la somme de plusieurs dictionnaires.

Dans un premier mode de réalisation, le dictionnaire global D=D1 +D2 est obtenu en additionnant les formes d'ondes issues de chaque dictionnaire de base. La figure 7 illustre le principe d'une telle addition de dictionnaires de base. Dans l'exemple représenté, on additionne deux dictionnaires D1 , D2 seulement et on relèvera que les pondérations des impulsions des vecteurs V1 i du dictionnaire D1 sont les mêmes, dans la somme D1 +D2, que celles des impulsions des vecteurs V2j du dictionnaire D2.

On définit alors ici un gain unique associé à une somme donnée. Ainsi, on bénéficie toujours de l'avantage relatif à la simplicité du décodage utilisant des dictionnaires dont l'un au moins est un dictionnaire de base. En effet, un vecteur-code appartenant à un dictionnaire de base D2 pourra être représenté en indiquant les positions des centres des motifs et les amplitudes des occurrences dans les différents dictionnaires, c'est-à-dire pour les différents motifs, et en additionnant ensuite les motifs mis à l'échelle et ainsi placés. Les composantes des vecteurs-code d'un tel dictionnaire, obtenu par sommation de / dictionnaires de base, s'expriment par une relation du type :

/-1 c(n) = ^c₁ (n) ' ^Θt '^Θ vecteur d'excitation courant s'écrit :

1=0

/-1 exC_œuranM) = g x ^c, («) si 0 < n < N - 1 .

II peut être avantageux aussi d'adapter les algorithmes rapides proposés dans le cadre d'un unique dictionnaire de base à la somme de dictionnaires décrite ci-avant. A titre d'exemple illustratif, on considère la somme de deux dictionnaires de base, ce qui s'écrit :

c(n) = c_ι(n) + c₂ (n) = ∑s_k χ y{ (rή + ∑S_t χ y₂' (n) , où les indices 1 et 2 sont k=0 1=0 relatifs respectivement aux vecteurs issus du premier motif ^₁ et du second motif y₂ , rencontrés selon Ki et respectivement K₂ occurrences. Comme dans le cas d'un unique dictionnaire de base décrit précédemment, il est possible de définir des vecteurs {h[(i)},ψî(i,a_k);a_k <≡ T_g ^ι

<≡ T_d ^ι ] correspondant au premier motif et des vecteurs fyii)}, f%(i,a_k);a_k

correspondant au second motif. On retrouve encore les expressions classiques des numérateurs et dénominateurs des recherches dans des dictionnaires multi-impulsionnels, à condition d'adapter les expressions des vecteurs de corrélations comme suit. Pour l'intercorrélation avec le vecteur cible, il est possible de calculer des vecteurs modifiés {d[(a_k)} et [d₂'(a_k)} comme proposé plus haut et le

K₁ -1 K₂ -1 numérateur s'écrit alors : Num = ∑s_k x d[(a_k) + ∑s, x d₂' (a,) . k=0 1=0 Le cas du dénominateur est cependant plus compliqué car, outre les

1 1 O O autocorrélations φ[(a_k ,a[ ); a_k e A_k , a[ e A_t et φ₂' {a_k ,aι ); a_k G A_k , ai G A_{ définies plus haut, il convient de faire intervenir les corrélations entre les occurrences du premier motif et celles du second motif. Ainsi, par exemple, pour des valeurs de centres

e Aj telles que

<£ T_g ^ι ur] et af G Af telles

que af ^ Y¹ urj , avec k < I , il convient de calculer :

/V-I φ'(a_k ^ι ,af ) = ∑h[(n-a_k ^ι ) x h₂' (n- af ) .

B=O

Ces expressions peuvent devenir assez compliquées dans le cas général, même si elles restent à la portée de l'homme du métier, Le dénominateur peut toujours être exprimé selon une relation du type :

Den = ∑s_k 2 k² x φ'(a_k,a_k) + 2x ∑∑s_t x S₁ x φ'(a_k,a,) k kj k<l de sorte qu'il est toujours possible de calculer les éléments d'une matrice d'autocorrélation modifiée et, là encore, les algorithmes de recherche accélérée des codes multi-impulsionnels peuvent être utilisés.

Un second mode de réalisation d'une somme de dictionnaires de base donne lieu à des algorithmes de recherche plus simples. Le principe consiste à cascader la sommation des dictionnaires de base, un gain différent étant associé à chaque sous-vecteur issu des dictionnaires de base. Dans ce cas, le vecteur d'excitation s'exprime par :

/-1 ^eXC _couran, («) = ∑ £, * C, («) Si 0 ≤ Λ ≤ -V - 1 .

1=0

Cette variante est très avantageuse en termes de complexité. Elle présente encore d'autres avantages. Comme chaque dictionnaire de base est plus particulièrement destiné à enrichir le dictionnaire global et, par exemple selon un type particulier de signaux d'excitation, il peut être avantageux d'utiliser des filtres perceptuels différents W₁ (z) (pour / allant de 0 à /-1 ) pour les différentes recherches dans les dictionnaires de base. Par exemple, on peut utiliser un premier dictionnaire de base plutôt apte à bien représenter la partie basse fréquence du signal d'excitation, et un second dictionnaire de base plutôt destiné à représenter la partie haute fréquence. Il sera alors particulièrement avantageux dans un tel schéma de favoriser la partie haute fréquence du spectre dans la recherche dans le second dictionnaire de base. Par exemple, dans la seconde recherche, le filtre perceptuel classique peut être mis en cascade avec un filtre passe-haut. Une telle opération pourrait d'ailleurs être qualifiée de "focalisation spectrale". Elle sera décrite en détail plus loin, en référence à la figure 9, pour illustrer un exemple de réalisation particulier.

Enfin, ce second mode de réalisation s'adapte avantageusement aux structures de codage CELP hiérarchiques. En effet, dans ces structures, le train binaire est hiérarchisé et, dans la mise en œuvre de ce second mode de réalisation, les bits correspondant aux indices et aux gains de chacun des sous-vecteurs-code des dictionnaires de base peuvent constituer des couches hiérarchiques distinctes (ou "participer" à des couches distinctes). Si le décodeur ne reçoit qu'une partie de ces informations, il pourra reconstituer au moins une partie de l'excitation en décodant les indices et gains reçus associés aux sous-vecteurs-code des dictionnaires de base des premières couches et en additionnant les excitations partielles ainsi obtenues. Comme indiqué plus haut, le premier dictionnaire de base assure alors le codage de qualité minimale et les suivants permettront une augmentation progressive de la qualité et une meilleure prise en compte de la possible variété des signaux, par exemple en offrant un contenu spectral élargi.

On décrit maintenant un exemple de réalisation de l'invention appliquée à un codeur/décodeur existant. L'exemple de réalisation décrit ci-dessous se situe dans le contexte d'un codeur CELP hiérarchique produisant un train binaire formé de deux couches dont une première couche correspond au codage "cœur" de la structure hiérarchique, qui fonctionne au débit de 8 kbit/s et une seconde couche apporte une amélioration de la qualité pour 4 kbit/s supplémentaires, ce qui produit un débit total de 12 kbit/s. Le train binaire de la première couche est "compatible" avec celui du codeur normalisé UIT-T G.729 de sorte qu'un codeur ou respectivement un décodeur au sens de l'invention puisse opérer avec un décodeur ou respectivement un codeur conforme à la norme G.729 et ses annexes pour le débit de 8 kbit/s.

Dans l'exemple de réalisation proposé, la hiérarchie est assurée par l'usage d'un dictionnaire selon la variante de sommation cascadée des dictionnaires de base au sens de l'invention. La taille du bloc est de 5ms, soit 40 échantillons à 8 kHz.

Le premier dictionnaire de base D1 (figure 8a) est de type "trivial" et correspond simplement au dictionnaire ACELP du codeur G.729, dont les vecteurs s'obtiennent en additionnant quatre impulsions signées dont les positions appartiennent aux ensembles indiqués dans la table 2 donnée plus loin. Pour plus de détails, on pourra se référer utilement à la recommandation de I¹U IT-T G.729 {"Coding of Speech at 8 kbit/s using Conjugate Structure Algebraic Code Excited Linear Prédiction (CS-ACELP)", Mars 1996).

II s'agit donc d'un dictionnaire de base associé à un motif restreint à l'impulsion centrale (p = 0), avec K = 4 occurrences, les ensembles S₀, S^_! S_2, S₃ étant donnés dans la seconde colonne de la table 2, et les ensembles A), Ai₁ -A₂, A3 dans la dernière.

Table 2: Dictionnaire ACELP du codeur G.729

Le second dictionnaire de base D2 (figure 8b) est un dictionnaire non trivial, dont le motif de base (ou "tri-pulses"), de longueur trois, comporte trois impulsions d'amplitudes respectives -a, +1 et -a, avec préférentiellement 0 < α < 0,35. La valeur a peut avantageusement être choisie dynamiquement en fonction des caractéristiques du signal d'entrée. Le nombre d'occurrences, les amplitudes et les positions des centres du motif sont identiques à ceux du premier dictionnaire.

La figure 8c montre l'allure des spectres moyens des formes d'ondes du premier dictionnaire (flèche D1 ) et du second dictionnaire (flèche D2). On constate que le premier dictionnaire présente un contenu spectralement plat, tandis que le second dictionnaire est plus riche en hautes fréquences.

Cette observation permet d'améliorer la qualité obtenue par la première couche de codage, laquelle fournit une restitution de bonne qualité pour les signaux de parole dans la partie basse fréquence de la zone [300-3400 Hz], et tend à décroître en énergie et en fidélité lorsque l'on se rapproche des hautes fréquences. Pour mieux focaliser la recherche dans le second dictionnaire de base aux hautes fréquences du spectre, lors de l'exploration de ce second dictionnaire, un filtre passe-haut supplémentaire H_p(z) est appliqué au filtre W(z).

La figure 9 illustre un codeur selon cet exemple de réalisation. Un premier étage ET-1 introduit le dictionnaire adaptatif DICa (vecteur {p(n)}) et son gain associé g_p, puis le premier dictionnaire fixe D1 (vecteur [C₁(Ii))) et le gain associé g-i. Un second étage ET-2 présente la recherche dans le second dictionnaire fixe D2 (vecteur {c₂(n)}) et le gain associé g₂. Les recherches dans le dictionnaire adaptatif DICa et le premier dictionnaire fixe D1 utilisent le filtre perceptuel W₁[Z)=W[Z), tel que celui défini par exemple dans la norme G.729.

Le second dictionnaire D2 utilise une recherche focalisée dans les hautes fréquences par l'apport du filtre H_p(z) : W₂(z) = W(z) ^χ H_p(z) .

La recherche dans le premier dictionnaire de base D1 est connue et utilise par exemple l'un ou l'autre des algorithmes rapides et focalisés décrits dans la norme G.729 et son annexe A à complexité réduite (Recommandation UIT-T G.729, "Annex A: Reduced complexity 8 kbit/s CS-ACELP speech codée", Novembre 1996).

La recherche dans le second dictionnaire de base D2 tire également parti de cet algorithme rapide, comme décrit plus haut.

Par souci de lisibilité ci-après, tous les indices "2" relatifs au second dictionnaire seront omis dans ce qui suit (par exemple H₂ (z) devient H(z) , clin) devient c^*(n) , etc.).

Selon une première simplification, la réponse impulsionnelle du filtre

est tronquée aux éléments h(n) tels que 0 < n < 39 (en

rappelant que la longueur des blocs N = 40). Le vecteur {c^w(n)} est donc défini pour -l≤n<40. Comme mentionné plus haut, le bord droit n'intervient pas {b_d(ri) = 0) grâce au fait que h(n) = 0 pour n<0 (filtre causal). On voit aussi que les positions des centres a_k sont toutes dans le bloc [0, 39].

3 Dans ces conditions, l'ensemble T_g =[jA_t n[-l,θ] ne comporte qu'un seul k=0 élément, à savoir la position α_o=O, dans l'ensemble A₀ uniquement et correspondant à la première position du motif tri-pulses sur la première occurrence : T_g ={θ}.

La figure 9 peut alors représenter schématiquement un dispositif au sens de l'invention, en particulier ici un dispositif de codage.

Comme mentionné précédemment, on calcule d'abord (première étape référencée 51 sur la figure 5) le vecteur convolution de la réponse impulsionnelle du filtre H avec le motif de base, ce qui donne : h' (ri) = -ah(n + l) + h(ή) - ah(n-l)

Comme h(n)est nul pour n<0 ou n≥40, h' (ri) est en revanche non nul a priori pour -l≤n<40.

3 Pour calculer le numérateur Num = ∑s_kχ.d'(a_k) du critère CELP, on calcule

39 tout d'abord l'intercorrélation d(a_k) = ∑x(n)χh'(n-a_k) (étape 52), modifiée

(étape générale 53) en :

si a_k=0 (étape 56 de la figure 5)

si a_k≠0 (étape 55 de la figure 5) La correction à apporter se limite donc à corriger le premier élément :

39 d'(0) = d(0)-∑x(n)χh"(n,0) avec h"(n,0) = -a x h(n + 1) .

B=O

Les ensembles A_k couvrent toutes les positions du bloc [0, 39]. Il est donc nécessaire de calculer d'(j) pour tout 0 < j ≤ 39 , avec la relation :

39 39 d'(0) = ∑x(n) x h\n) + a∑x(n) x h(n + 1)

B=O B = O

39 et d'(j) = d(j)= ∑x(n)χh'(n-j) si 1 < 7 ≤ 39

B=J-I

Pour le dénominateur, on doit calculer les autocorrélations (étape 57) :

39 φ(a_k,a_k) = ∑h'(n-a_k)², k = 0→39 et

B=O

39

[Ci^a₁) = ∑h'(n- a_k)xh'(n- Ci₁), k = 0→38,l = k + l→39

B=O

(On rappelle que la notation k = x→ y signifie bien entendu : "pour k allant de x à y").

39

La contrainte h'(n) = 0 pour n<-\ entraîne φ(i,j)= ∑h'(n-i)χh'(n- j) n=Mαx(j-l,0) pour tout couple d'éléments (i,j) avec i<j, en gardant à l'esprit que φ(i,j) = φ(j,i).

La correction (étape 60) à apporter aux éléments φ'(α_k,ciι) pour tenir compte du bord gauche est la suivante :

38 38

^'(0,0) = 0(0,0) + α² x Yjι{n + V)² + 2α∑ h'(n) x h(n + V)

B=O B=O

38 φ'(0,α_ι) = φ(0,α_ι) + α ^Λ(n + l)xΛ'(n-α_;); l≤α_;<39 n=α_; — 1 II n'est donc finalement pas nécessaire de calculer h' (40) , seuls les éléments h' (ri) , avec -l ≤ n < 39 , intervenant dans le calcul. On rappelle que les autres éléments φ(a_k,a_k) , avec a_k ≠ O , et φ(a_k,a,) , avec a_k ≠ 0,a, ≠ O , n'ont pas à être corrigés et on fixe φ'(a_k,a,) = φ(a_k,a,) dans ce cas (étape 59 de la figure 5).

Des simplifications supplémentaires peuvent d'autre part être apportées, en particulier pour un coefficient a petit. En effet, pour le calcul du dénominateur, si l'on exprime les éléments h'(n) = -ah(n-l) + h(n) -ah(n + l) , il est possible de faire apparaître la fonction d'autocorrélation :

/V-I φ_o(i, j) = ∑h(n - i) χ h(n - j) i, j = O → _V -1 du filtre H(z). n=Max(ι,j)

On peut alors décider de négliger tous les termes faisant intervenir des éléments de cette matrice lorsqu'ils sont multipliés par a². En outre, on peut ne pas prendre en compte les effets de bord dans le calcul du dénominateur, considérant qu'ils interviennent peu dans la somme

39

∑(c"(n))² , sachant que p=1 et a est largement inférieur à 1.

B=O

De là, on peut négliger les effets de bord aussi bien au numérateur qu'au dénominateur.

Enfin, il est possible d'introduire une simplification supplémentaire qui permet de calculer les éléments de la matrice d'autocorrélation du second dictionnaire de base exactement de la même façon que celui du premier. Cette simplification consiste à tronquer {h' (ri)} dans l'intervalle [0,39} . L'erreur ainsi produite dépend de la valeur de a mais aussi de la pente du spectre.

Typiquement, pour un signal ayant une forte concentration en énergie dans les basses fréquences, la valeur de h(0) est du même ordre que celle des éléments voisins et on comprendra que h'(-l) = -a χ h(0) influence peu le calcul. Bien entendu, la présente invention ne se limite pas à la forme de réalisation décrite ci-avant à titre d'exemple ; elle s'étend à d'autres variantes.

De façon générale, les dictionnaires définis par la mise en œuvre de l'invention offrent une grande souplesse d'utilisation. Chaque bloc étant totalement indépendant de ceux qui le précèdent ou qui le suivent, il est possible d'utiliser pour un bloc un dictionnaire totalement différent de celui utilisé pour les blocs voisins sans précautions particulières. On s'affranchit ainsi d'éventuels problèmes de continuité. Il est alors très facile d'adapter les dictionnaires utilisés au signal à coder, par exemple en modifiant le ou les motifs utilisé(s) pour les dictionnaires de base. Il peut être prévu aussi de modifier les ensembles qui définissent les positions des centres des motifs dans les occurrences et/ou les ensembles d'amplitudes. Ces modifications possibles sont par exemple particulièrement adaptées au cas des codeurs à débit variable gouvernés par la source.

Claims

Revendications

1. Procédé de construction d'un dictionnaire de vecteurs d'excitation de type CELP, pour le codage/décodage de signaux audionumériques, chaque vecteur de dimension N comportant des impulsions susceptibles d'occuper N positions valides, caractérisé en ce qu'un dictionnaire initial est construit en :

- prévoyant une même suite d'impulsions formant un motif de base,

2. Procédé selon la revendication 1 , caractérisé en ce que le motif de base apparaissant à chaque occurrence dans un vecteur d'excitation est multiplié par une amplitude associée à ladite occurrence.

3. Procédé selon la revendication 2, caractérisé en ce que l'amplitude associée à une occurrence est choisie parmi un ensemble comportant les valeurs +1 et -1.

4. Procédé selon l'une des revendications 1 à 3, caractérisé en ce que tous les vecteurs du dictionnaire initial comportent un même nombre d'occurrences dudit motif.

5. Procédé selon la revendication 4, caractérisé en ce que le dictionnaire initial est défini par :

- la suite d'impulsions formant le motif de base,

- le nombre d'occurrences du motif dans chaque vecteur,

- des ensembles de positions admises pour les occurrences desdits motifs, et

- des ensembles d'amplitudes à associer aux occurrences desdits motifs.

6. Procédé selon l'une des revendications précédentes, caractérisé en ce que les motifs apparaissant en bordure de bloc d'un vecteur sont tronqués et les impulsions restantes des motifs tronqués occupent le début ou la fin du bloc.

7. Procédé selon l'une des revendications précédentes, caractérisé en ce que, parmi les positions admises des motifs dans chaque bloc d'un vecteur, des positions de motifs sont telles que des motifs se recouvrent au moins partiellement, et en ce que les impulsions des motifs se recouvrant sont additionnées une à une.

8. Procédé selon l'une des revendications précédentes, caractérisé en ce qu'un dictionnaire global est construit par une somme de dictionnaires de base dont l'un au moins est un dictionnaire initial défini par un motif de base, et en ce que les vecteurs du dictionnaire global sont formés par addition des impulsions de positions communes des vecteurs des dictionnaires de base.

9. Procédé selon la revendication 8, caractérisé en ce que les vecteurs des dictionnaires de base sont pondérés par un gain associé chacun à un dictionnaire, pour construire ladite somme.

10. Procédé selon l'une des revendications précédentes 1 à 7, caractérisé en ce qu'un dictionnaire global est construit par une union de dictionnaires de base dont l'un au moins est un dictionnaire initial défini par un motif de base, et en ce que le dictionnaire global comporte tous les vecteurs de tous les dictionnaires de base.

1 1. Procédé selon l'une des revendications 8 à 10, caractérisé en ce que l'un au moins des dictionnaires intervenant dans l'union ou la somme est de type ACELP.

12. Procédé selon l'une des revendications précédentes, caractérisé en ce que le dictionnaire construit comporte des positions admises de motif qui décrivent un ensemble qui est structuré comme un ensemble de positions d'impulsions d'un dictionnaire ACELP.

13. Procédé selon l'une des revendications précédentes, caractérisé en ce que le motif de base comporte au moins une impulsion centrale, précédée et succédée d'au moins une impulsion de signe opposé au signe de l'impulsion centrale.

14. Procédé selon la revendication 13, caractérisé en ce que le motif comporte trois impulsions dont :

- une impulsion centrale,

- une seconde impulsion précédant l'impulsion centrale,

- et une troisième impulsion succédant l'impulsion centrale, les signes des seconde et troisième impulsions étant opposés à celui de l'impulsion centrale, l'amplitude des seconde et troisième impulsions étant inférieure, en valeur absolue, à celle de l'impulsion centrale.

15. Procédé selon la revendication 14, caractérisé en ce que l'amplitude des première et seconde impulsions est variable entre 0 et environ la moitié de l'amplitude de l'impulsion centrale, en valeur absolue.

16. Programme informatique comportant des instructions pour la mise en œuvre du procédé de construction d'un dictionnaire, selon l'une des revendications 1 à 15.

17. Dictionnaire de vecteurs d'excitation de type CELP, pour le codage/décodage de signaux audionumériques, caractérisé en ce qu'il comprend des vecteurs d'excitation de dimension N comportant une même suite d'impulsions, formant un motif de base, selon une ou plusieurs occurrences à une ou plusieurs positions respectives parmi N positions valides.

18. Dispositif de codage/décodage de signaux audionumériques, comportant au moins un dictionnaire selon la revendication 17.

19. Dispositif selon la revendication 18, caractérisé en ce qu'il comporte une pluralité de dictionnaires mis en cascade et incluant au moins un dictionnaire initial obtenu par la mise en œuvre du procédé selon l'une des revendications 1 à 15.

20. Dispositif selon la revendication 19, caractérisé en ce que les positions des motifs et/ou des impulsions dans les vecteurs desdits dictionnaires en cascade décrivent des ensembles identiques, la position d'un motif étant repérée sensiblement par la position d'une impulsion centrale dans la suite d'impulsions formant le motif.

21. Dispositif selon l'une des revendications 19 et 20, caractérisé en ce qu'il comporte un dictionnaire initial, construit par la mise en œuvre du procédé selon l'une des revendications 13 à 15 et subséquent dans ladite cascade de dictionnaires.

22. Dispositif selon la revendication 21 , caractérisé en ce qu'il comporte, pour la recherche dans le dictionnaire subséquent, un filtrage passe-haut dans un filtre global de pondération perceptuel intervenant notamment au codage dans la recherche d'un vecteur d'excitation optimal.

23. Utilisation du dispositif selon l'une des revendications 18 à 22 pour le codage/décodage de signaux audionumériques, dans laquelle, au codage, après détermination d'un vecteur meilleur candidat dans un dictionnaire initial, on forme un indice comportant au moins des indications :

24. Utilisation selon la revendication 23, dans laquelle, au décodage, on reconstruit le meilleur vecteur candidat à partir de l'indice :

- en positionnant le motif de base aux positions indiquées par l'indice,

- en multipliant le motif à chaque position par une amplitude associée,

25. Utilisation selon l'une des revendications 23 et 24, dans laquelle le dispositif comporte une mise en cascade d'une pluralité de dictionnaires qui revient à construire un unique dictionnaire global obtenu par sommation des dictionnaires pondérée par des gains, selon une mise en œuvre du procédé selon la revendication 9.

26. Utilisation selon la revendication 25, dans laquelle les dictionnaires mis en cascade sont explorés l'un après l'autre, en soustrayant, pour un dictionnaire courant, une contribution connue d'une excitation partielle produite par les vecteurs d'au moins un dictionnaire précédent, ce qui confère une structure de codage hiérarchique.

27. Utilisation selon l'une des revendications 23 à 26, dans laquelle la recherche d'un vecteur d'excitation meilleur candidat dans un dictionnaire s'effectue selon une estimation d'un critère CELP comportant les étapes : - calculer la convolution d'une réponse impulsionnelle d'un filtre résultant de la multiplication d'un filtre de synthèse LPC par un filtre perceptuel, avec le motif de base du dictionnaire, pour obtenir un vecteur de filtre convolué,

- calculer les éléments d'un vecteur d'inter-corrélation entre un vecteur cible candidat et le vecteur de filtre convolué,

- calculer les éléments d'une matrice d'autocorrélation du vecteur de filtre convolué, et

- effectuer une recherche du vecteur meilleur candidat à l'aide d'un critère

CELP exprimé comme une maximisation d'un rapport dans lequel le numérateur fait intervenir les éléments du vecteur d'inter-corrélation et le dénominateur fait intervenir les éléments de la matrice d'autocorrélation.

28. Utilisation selon la revendication 27, dans laquelle ladite recherche est menée dans un dictionnaire obtenu par la mise en œuvre du procédé selon la revendication 6, et, pour tenir compte d'une troncature du motif de base à au moins un bord de bloc, on corrige, le cas échéant, des éléments du vecteur d'inter-corrélation et/ou des éléments de ladite matrice.

29. Programme informatique destiné à un dispositif de codage/décodage de signaux audionumériques, comportant des instructions pour la mise en œuvre de l'utilisation selon l'une des revendications 23 à 28.