WO2010012927A1

WO2010012927A1 - Reconstruction de donnees audio multicanal

Info

Publication number: WO2010012927A1
Application number: PCT/FR2009/051304
Authority: WO
Inventors: David Virette; Pierrick Philippe
Original assignee: France Telecom
Priority date: 2008-07-30
Filing date: 2009-07-03
Publication date: 2010-02-04
Also published as: EP2319037A1; KR20110065447A; JP2011529579A; CN102138177B; EP2319037B1; US20110129092A1; ATE557387T1; ES2387869T3; KR101590919B1; CN102138177A; JP5421367B2; US8867752B2

Abstract

Un procédé de traitement de données sonores, pour la reconstruction de données audio multicanal à partir au moins de données sur un nombre réduit de canaux et de données de spatialisation. On teste si des données de spatialisation reçues sont valables. Si le test est positif, on prédit selon par modèle respectif d'une pluralité de modèles une valeur de spatialisation. On choisit un modèle de prédiction, à partir des valeurs de spatialisation ainsi prédites et à partir des données de spatialisation reçues, de façon à pouvoir, en cas de réception ultérieure de données de spatialisation défectueuses, prédire selon ce modèle choisi une valeur de spatialisation et utiliser cette valeur de spatialisation prédite pour la reconstruction des données audio multicanal.

Description

RECONSTRUCTION DE DONNEES AUDIO MULTICANAL

L'invention se rapporte à la dissimulation de données de spatialisation défectueuses, pour la reconstruction de données audio muiticanai. Les données audîo multîcanal sont typiquement reconstruites à partir au moins de données de spatialisation et de données audio sur un nombre de canaux restreint, par exemple des données monocanal.

Les données audio muiticanai sont typiquement destinées à plusieurs pistes audio respectives. Plusieurs sources sonores respectives peuvent être utilisées pour contribuer à donner à l'auditeur l'illusion d'une immersion sonore.

Les données audio muiticanai peuvent par exemple comprendre des données stéréo sur deux canaux, ou bien encore des données 5.1 sur six canaux, en particulier pour des applications de Home Cinéma. L'invention peut également trouver une application dans le domaine des conférences audio spatialisées, où les données correspondant à un locuteur subissent un traitement de spatialisation afin de donner à l'auditeur l'illusion que la voix de ce locuteur provient d'une position particulière de l'espace.

Les données de spatialisation sont utilisées pour obtenir des données muiticanai à partir des données sur un nombre inférieur de canaux, par exemple des données monocanal. Ces données de spatialisation peuvent par exemple comprendre des différences de niveau inter-voies ou ILD (de l'anglais « Interchannel Level Différence »), des corrélations inter-voies ou ICC

(de l'anglais « Interchannel Cross Corrélation »), des retards entre voies ou ITD (de l'anglais « Interchannel Time Différence »), des différences de phases entre voies ou IPD (de l'anglais « Interchannel Phase Différence »), ou autre.

Il arrive que des données audio reçues, comprenant au moins les données monocanal et les données de spatialisation, soient défectueuses, c'est-à-dire que certaines données sont manquantes, ou bien erronées. La détection de cette transmission défectueuse peut être effectuée par le biais d'un code de type CRC (de l'anglais « Cyclic Redundancy Check »).

Il est connu de pallier à ces défauts en remplaçant des valeurs défectueuses par des vateurs prédites. Ces valeurs prédites peuvent être déterminées suivant un modèle de prédiction connu.

On connaît plusieurs modèles de prédiction. Par exemple, on choisit comme valeur prédite une valeur arbitraire, une valeur précédente, une valeur déterminée à partir des données audio précédemment reçues suivant par exemple des procédés de prédiction linéaire, ou autre.

Lorsque des données monocanal sont reçues de façon défectueuse, le remplacement des valeurs défectueuses par des valeurs prédites de données monocanal se révèle en général relativement satisfaisant.

Toutefois, lorsque des données de spatialisation sont reçues de façon défectueuse, le remplacement des valeurs défectueuses par des valeurs prédites peut se révéler insatisfaisant.

Des variations brutales des données de spatialisation au cours du temps se traduisent pour l'auditeur par la sensation de déplacements brusques des sources sonores. Par exemple, si des valeurs défectueuses sont remplacées par une valeur arbitraire correspondant à une absence de spatialisation, la sensation d'un retour à un son monocanal peut être dérangeante pour l'auditeur, en particulier dans le cas de signaux binauraux. En effet, les signaux binauraux, c'est-à-dire permettant une restitution fidèle de l'espace 3D au niveau des oreilles, correspondent souvent à des sources sonores virtuelles relativement fixes dans l'espace.

Il existe donc un besoin pour une meilleure dissimulation des défauts des données de spatialisation lors de la reconstruction de données audio multicanal. Selon un premier aspect, l'invention a pour objet un procédé de traitement de données sonores, pour la reconstruction de données audio multicanal à partir au moins de données sur un nombre de canaux restreint et de données de spatialisation, ce procédé comprenant une étape de test de la validité de données de spatialisation d'une trame reçue. Si ce test montre que ces données de spatialisation sont valables: a/ par modèle respectif d'une pluralité de modèles de prédiction, on prédit, selon ce modèle, une valeur de spatialisation, b/ on choisit un modèle de prédiction, à partir des valeurs de spatialisation ainsi prédites et à partir des données de spatialisation effectivement reçues, de façon à pouvoir, en cas de réception ultérieure de données de spatialisation défectueuses, prédire selon ce modèle choisi une valeur de spatialisation, et utiliser cette valeur de spatialisation prédite pour la reconstruction des données audio multicanal.

Ainsi, des données de spatialisation considérées comme valables sont utilisées pour choisir parmi une pluralité de modèles de prédiction un modèle de prédiction à adopter en cas de réception de données de spatialisation considérées comme défectueuses. Un tel procédé adaptatif suivant le contenu permet de pallier aux défauts des données de spatialisation de façon plus satisfaisante que dans l'art antérieur où un seul modèle de prédiction est utilisé. Par « un nombre de canaux restreint », on entend un nombre de canaux inférieur au nombre de canaux des données multicanal. Par exemple, les données sur un nombre de canaux restreint peuvent comprendre des données monocanal.

Les données de spatialisation, et plus généralement les données audio reçues, peuvent provenir d'un canal de transmission. Par exemple, ces données peuvent être reçues par Internet. Alternativement, les données audio reçues peuvent être lues sur un support de stockage, par exemple un DVD (de l'anglais « Digital Versatile Disk »), ou autre. L'invention n'est en rien limitée par la provenance des données audio reçues. Les données audio reçues peuvent comprendre un signal codé, un signal démultiplexé et/ou décodé, des valeurs numériques, ou autre. Les étapes a/ et b/ peuvent être effectuées systématiquement suite à la réception d'une trame considérée comme valide. Les traitements sont ainsi répartis dans le temps.

On peut prévoir, en particulier lorsque les étapes a/ et b/ sont effectuées pour chaque trame valide, d'écrire en mémoire un identifiant du modèle de prédiction choisi, et ce afin de pouvoir, en cas de réception ultérieure de données de spatialisation défectueuses, retrouver rapidement le modèle de prédiction à appliquer.

Alternativement, l'exécution des étapes a/ et/ou b/ peut être soumise à la réalisation de certaines conditions, ce qui peut permettre d'éviter d'effectuer des calculs inutiles.

Par exemple, lorsqu'une trame est considérée comme valable, les données de spatialisation sont stockées dans une mémoire, au moins de façon temporaire. Les étapes a/ et b/ sont effectuées (à partir des données ainsi stockées), seulement en cas de réception ultérieure de données de spatialisation considérées comme défectueuses. On évite ainsi d'effectuer en particulier les prédictions de l'étape a/ lorsque cela n'est pas nécessaire.

Selon un autre exemple, on peut prévoir d'effectuer les prédictions de l'étape a/ systématiquement suite à la réception d'une trame considérée comme valide, tandis que l'étape b/ n'est effectuée (à partir des données de spatialisation de la ou les trame(s) précédente(s), conservées en mémoire) qu'en cas de réception d'une trame défectueuse.

Avantageusement, lors de l'étape b/, on confronte chaque valeur de spatialisation prédite à une valeur estimée à partir des données de spatialisation reçues. En particulier, on peut prévoir de calculer, par modèle, une valeur de ressemblance à partir d'une part de la valeur de spatialisation prédite suivant ce modèle, et d'autre part d'une valeur estimée à partir des données de spatialisation reçues. On choisit alors le modèle de prédiction pour lequel la valeur de ressemblance indique une plus grande adéquation entre la valeur prédite et la valeur estimée. La valeur estimée peut être l'une des données de spatialisation, par exemple la valeur estimée peut comprendre un ILD. Dans ce cas, on peut prévoir, lors de l'étape b/ de comparer les valeurs de spatialisation prédites directement à des données de spatialisation reçues. Alternativement, la valeur estimée peut dériver seulement des données de spatialisation. Par exemple la valeur estimée peut comprendre un gain issu des ILDs pour une trame et une bande de fréquences données, un retard, ou autre. Dans ce cas, on peut prévoir, lors de l'étape b/ de comparer les valeurs de spatialisation prédites à des valeurs obtenues à partir de données de spatialisation reçues.

Avantageusement, pour au moins un modèle, on confronte en outre des valeurs de spatialisation précédemment prédites à des valeurs estimées correspondantes. Ainsi, le choix du modèle de prédiction le plus en adéquation avec le contenu peut être effectué avec davantage de justesse. Par exemple, on peut utiliser les données de spatialisation reçues sur plusieurs trames, et confronter pour plusieurs trames les valeurs prédites et les valeurs estimées.

En particulier, par trame d'une séquence de trames reçues, et pour au moins un modèle, on peut prédire suivant ce modèle une valeur de spatialisation, de sorte qu'une séquence de valeurs de spatialisation est prédite. Pour ce modèle, la valeur de ressemblance peut être calculée à partir d'une part de cette séquence de valeurs de spatialisation prédites, et d'autre part d'une séquence de valeurs estimées à partir des données de la séquence de trames. Avantageusement, on s'abstiendra d'utiliser des données de spatialisation défectueuses lors de l'étape de choix du modèle de prédiction, afin d'éviter de fausser ce choix.

Alternativement, on peut se contenter des données de spatialisation courantes, reçues par exemple dans une même trame, pour le choix du modèle de prédiction. Les données peuvent être défectueuses du fait de dégradations introduites lors de la transmission, ou de dégradations d'un support de stockage des données. L'invention n'est pas limitée à cette origine de défauts. Par exemple, dans le cas d'une transmission hiérarchisée en couches (« scaiabie coding» en anglais) pour laquelle un émetteur ou un autre élément d'un réseau de transmission peut choisir de ne pas transmettre un ensemble de données, des données peuvent manquer parmi les données de spatialisation reçues.

Le caractère défectueux des données de spatialisation peut être détecté suivant des procédés connus, par exemple par le biais d'un code de type CRC.

L'invention n'est en rien limitée par la forme de l'écriture en mémoire de l'identifiant du modèle de prédiction choisi. On peut par exemple recopier dans une mémoire programme toutes les instructions d'un programme correspondant à ce modèle, ou bien simplement mémoriser un nom de modèle dans une mémoire éventuellement volatile.

Lors de l'étape a/, la prédiction de la valeur de spatialisation est effectuée suivant un modèle de prédiction, c'est-à-dire en particulier que les données utilisées pour la prédiction peuvent varier suivant le modèle. Par exemple, pour un modèle qui consiste à affecter une valeur arbitraire à la valeur de spatialisation, aucune donnée n'est nécessaire à la prédiction. Pour un modèle qui consiste à reprendre une valeur de spatialisation précédente, et/ou à pondérer une valeur de spatialisation précédente, cette valeur de spatialisation précédente est utilisée lors de la prédiction. Avantageusement, l'étape a/ est effectuée pour des données de spatialisation correspondant à une bande de fréquences donnée. Ainsi plusieurs prédictions peuvent être menées en parallèle, dans différentes bandes de fréquences. En effet, dans le cas d'un signal stéréo, le choix du modèle de prédiction le plus juste peut être lié à la fréquence : suivant la bande de fréquences considérée, on peut être conduit à choisir des modèles de prédiction différents. Selon un autre aspect, l'invention a pour objet un programme d'ordinateur comportant des instructions pour la mise en œuvre du procédé exposé ci-dessus, lorsque ces instructions sont exécutées par un processeur.

Selon encore un autre aspect, l'invention a pour aspect un dispositif de dissimulation de données de spatialisation défectueuses. Ce dispositif comprend une unité de mémoire, laquelle peut comprendre une ou plusieurs mémoires, pour stocker une pluralité de jeux d'instructions, chaque jeu d'instructions correspondant à un modèle de prédiction. Ce dispositif comporte en outre des moyens de réception pour recevoir des données de spatialisation. Un module de test permet de tester la validité des données de spatialisation reçues par les moyens de réception. En cas de réception de données de spatialisation détectées comme valables par le module de test, un module d'estimation permet, par jeu d'instructions stocké dans l'unité de mémoire, d'exécuter ce jeu d'instructions de façon à prédire une valeur de spatialisation. Un module de sélection permet de choisir un modèle de prédiction, à partir des valeurs de spatialisation prédites par le module d'estimation et à partir des données de spatialisation reçues par les moyens de réception. Le dispositif de dissimulation comporte en outre un module de prédiction agencé pour, en cas de réception de données de spatialisation considérées comme défectueuses par le module de détection, prédire selon le modèle choisi par le module de sélection une valeur de spatialisation.

Selon encore un autre aspect, l'invention a pour objet un appareil de reconstruction de données audio multicanal. Cet appareil comporte des moyens de reconstruction multicanal, pour reconstruire des données audio multicanal à partir au moins de données sur un nombre de canaux restreint, par exemple des données monocanal. Cet appareil comporte en outre le dispositif de dissimulation décrit ci-dessus. Le module de prédiction est agencé pour, en cas de réception de données de spatialisation considérées comme défectueuses par le module de détection, fournir la valeur de spatialisation prédite aux moyens de reconstruction multicanal pour la reconstruction des données audio multicanal. L'appareil de reconstruction de données audio multicanal peut être intégré dans un processeur, ou bien encore comprendre un appareil de type ordinateur, chaîne Hi-Fi, ou autre.

Les divers composants de l'appareil de reconstruction, par exemple les moyens de reconstruction, le dispositif de dissimulation, le module de détection, ou autre, peuvent être distincts ou confondus.

D'autres particularités et avantages de la présente invention apparaîtront dans la description détaillée ci-après, faite en référence aux dessins annexés sur lesquels : - La figure 1 montre un exemple de dispositif de codage conversationnel,

- La figure 2 montre un exemple de dispositif de décodage comprenant un exemple d'appareil de reconstruction selon un mode de réalisation de l'invention, - La figure 3 est un exemple d'algorithme d'un procédé selon un mode de réalisation de l'invention,

- La figure 4 est un graphe montrant un exemple d'évolution possible du gain, et

- La figure 5 montre un dispositif apte à exécuter un programme d'ordinateur selon un aspect de l'invention.

Des références identiques désignent des objets identiques ou similaires d'une figure à l'autre.

Dans les exemples illustrés par les figures, le nombre de canaux des données audio multicanal est de deux exactement, mais on peut bien entendu en prévoir davantage. Les données audio multicanal peuvent par exemple comprendre des données 5.1 sur six canaux. L'invention peut également trouver une application dans le domaine des conférences audio spatialisées.

En particulier, on peut se référer à la norme MPEG Surround, c'est- à-dire qu'une structure en arbre peut être utilisée ou simulée pour générer plus de 2 voies. Dans les exemples représentés, les données audio sont regroupées par trames ou paquets, indicés n.

La figure 1 montre un exemple de codeur, pour lequel des informations stéréo sont transmises par bandes de fréquences et sont appliquées dans le domaine fréquentiel.

A cet effet, le codeur intègre des moyens de transformation temps fréquence 10, par exemple un DSP (de l'anglais « Digital Signal Processor ») apte à réaliser une transformée, par exemple être une transformée de Fourier discrète ou DFT (de l'anglais « Discrète Fourier Transform »), une transformée MDCT (de l'anglais « Modified Discrète Cosine Transform »), une transformée MCLT (de l'anglais « Modulated Complex Lapped Transform »).

On obtient ainsi, à partir des valeurs S_L(n), SR(Π) correspondant aux signaux temporels gauche et droit, des valeurs de signaux fréquentiels S__.(k) et droit S_R(k). Un matriçage est ensuite appliqué aux signaux de la voie gauche

Sι_.(k) et droite Sp(k), par des moyens de matriçage 11.

Ces moyens 11 permettent de déterminer à partir du signal stéréo

SUk), Sι_(k), un signal monocanal M(k) et un signal résiduel E(k). Le signal monocanal M(k) est typiquement la demi-somme des signaux gauche Sι_(k) et droit SR(k). Le signal résiduel E(k) peut être égal à la moitié de la différence entre les signaux gauche S_L(k) et droit S_R(k).

On peut prévoir que le matriçage soit adaptatif afin que le signal monocanal M(k) transporte davantage d'information. A cet effet le procédé mis en œuvre par les moyens de matriçage 11 peut évoluer au cours du temps, de façon à éviter l'annulation de composantes qui seraient en opposition de phase entre les voies gauches et droites.

Des moyens d'estimation de données de spatialisation 12 permettent d'estimer à partir du signal monocanal M(k) et du signal résiduel

E(k) des données de spatialisation, par exemple des paramètres stéréo. Ces paramètres stéréo peuvent être connus de l'homme du métier, et comprendre par exemple des différences de niveau inter-voies (ILD), des corrélations intervoies (ICC) et des retards ou différences de phase entre voies (IPD / ITD).

Ces paramètres stéréo ILD^(b) peuvent être déterminés par bandes de fréquences, indicées par la variable b. Ces bandes peuvent être constituées selon une échelle fréquentielle proche de la perception humaine.

Par exemple, on peut utiliser entre 8 et 20 bandes fréquentielles, suivant la précision voulue et la richesse du spectre considéré.

Des moyens de quantification, codage et multiplexage 13 permettent de quantifier et coder les paramètres stéréo ILD^(b) afin de permettre une transmission à un débit réduit.

Le signal monocanal M(k) est également quantifié et codé par les moyens 13, dans le domaine transformé comme présenté sur la figure 1 , ou alternativement dans le domaine temporel. On peut utiliser des algorithmes normalisés pour traiter ce signal monocanal M(k), par exemple un codeur de parole de type ITU G.729.1 ou G.718. Il pourra également s'agir d'un codeur audio générique de type MPEG-4 AAC ou HE-AAC.

Le signal résiduel E(k) est optionnellement transmis, faisant également appel à un codage normalisé ou une technique de transmission propre à ce signal dans le domaine fréquentiel ou temporel. Le signal encodé S_enc obtenu en sortie des moyens de quantification, codage et multiplexage 13 est transmis, par exemple par voie radio.

Alternativement, on pourrait prévoir que le codeur conduise à obtenir des données sur plus d'un canal monophonique, pourvu que le nombre de canaux des données obtenues en sortie du codeur soit inférieur au nombre de canaux des données en entrée du codeur.

La figure 2 montre un exemple de décodeur susceptible de recevoir un signal S'_enc correspondant au signal S_enc transmis.

Des moyens de décodage et de démultiplexage 29 permettent d'extraire du signal S'_enc reçu des données monocanal M'(k), des données de spatialisation ILD'^(b>, ainsi éventuellement que des données résiduelles E'(k). Le décodeur comprend en outre un appareil de reconstruction 26 pour reconstruire des données audio multicanal S'ι_(k), S'_R(k), à partir des données monocanal M'(k), des données de spatialisation ILD'^(b), et des éventuelles données résiduelles E'(k). La figure 3 montre un algorithme exécutable par l'appareil de reconstruction 26 de la figure 2. Ces deux figures seront donc commentées simultanément.

L'appareil de reconstruction 26 comporte un dispositif de dissimulation 20 pour fournir des valeurs de remplacement en cas de données de spatialisation ILD'^(b) défectueuses, et des moyens de reconstruction multicanal 27 pour la reconstruction proprement dite.

Les moyens de reconstruction multicanal 27 peuvent par exemple effectuer lors d'une étape 300 des combinaisons du type :

(S'_L (k) = E\ (k) + W_L(b,n).M_L(k) [S'_R (k) = E'_R (k) + W_Rφ,n).M_R(k) Où k désigne l'index fréquentiel considéré, b désigne la bande affectée par les paramètres stéréo transmis, ML(1<), un signal dans le domaine fréquentiel, obtenu lors d'une étape 301 à partir des données monocanal M'(k), en appliquant de façon connue de l'homme du métier un déphasage ou un retard correspondant à la voie gauche, ce déphasage ou ce retard étant obtenu de données de spatialisation non représentées, et

M_R(k), un signal dans le domaine fréquentiel, obtenu de façon équivalente lors de l'étape 301 , pour la voie droite.

En particulier, si aucun déphasage n'est appliqué, alors M_R(k)= M_L(k)=M'(k).

E'L est un signal spécifique à la voie gauche, issu de façon connue de l'homme du métier des données résiduelles E'(k) optionnellement transmises, et E'R, un signal spécifique à la voie droite, issu de façon connue de l'homme du métier des données résiduelles E'(k) optionnellement transmises. L'étape d'obtention des données E'_L, E'R n'est pas représentée sur la figure 3.

En cas de non transmission de données résiduelles : P(k), Pι= P_fl =0.

W_L et WR sont les gains issus de données de spatialisation ILD'(b,n) pour la bande b considérée et la trame n.

Les gains W_L et WR peuvent par exemple être déterminés comme suit, par l'intermédiaire de valeurs W'_L et WR , lors d'une étape 302 :

2JLD' (b, n)

W'_L φ,n) -- l + ILD'(b,n)

2 W'_R (b,n) l + ILD'(b,n)

Où ILD'(b,n) est la donnée de spatialisation ILD'^(b) reçue pour la trame n.

Est alors effectué lors d'une étape 304 un lissage avec une constante de temps a entre 0 et 1 , par exemple a =0,8, suivant :

W_L(b,n) = a.W'_L (b,n) + (l-a)W_L(b,n -l) , OÙ W_L(b,n-l) désigne la valeur obtenue pour la trame précédente.

Pour la voie droite, on peut effectuer lors de l'étape 304 le même lissage : W_R(b,n) = a.W'R(b,n) + (l-a).W_R(b,n-l) , OÙ W_R(b,n - l) désigne la valeur obtenue pour la trame précédente.

Alternativement, on peut utiliser la valeur obtenue pour la voie gauche, selon par exemple :

W_R(b,n) = 2 -W_R(b,n) Le dispositif de dissimulation 20 permet de parer à des pertes éventuelles de données ILD'(b,n), de sorte que des données W_R et W_L puissent malgré tout être déterminées. Le dispositif de dissimulation 20 comporte des moyens de réception non représentés pour recevoir lors d'une étape 305 les données de spatialisation ILD'(b,n), ainsi éventuellement que les données monocanal M'(k), et les données résiduelles E'(k). Ces moyens de réception peuvent par exemple comprendre un port d'entrée, des pins d'entrée, ou autre.

Un module de test 22 relié à ces moyens de réception permet de tester lors d'une étape 306 la validité des données de spatialisation ILD'^(b). Ce module de test peut mettre en oeuvre une vérification d'un encodage de type CRC, pour vérifier par exemple que la transmission n'a pas entraîné de dégradation des données de spatialisation.

Le module de test 22 peut également lire certaine valeurs (non représentées) extraites du signal S'_enc reçu, ces valeurs indiquant des éventuelles suppressions de couches de données transmises. En effet, on peut prévoir que certains éléments du réseau de transmission s'abstiennent de transmettre, en particulier en cas d'engorgement du réseau, ou de réduction de la bande passante du canal de transmission, tel ou tel ensemble de données. Les ensembles de données non transmis peuvent correspondre à des détails sonores par exemple. Lorsque le module de test 22 lit une valeur indiquant une suppression de certaines données, ces données sont considérées comme manquantes.

Le dispositif de dissimulation 20 comporte une unité de mémoire 21 stockant plusieurs jeux d'instructions, chaque jeu d'instructions correspondant à un modèle de prédiction. Par exemple, suivant un premier modèle de prédiction, lorsque des données de spatialisation ILD'(b,n) sont défectueuses pour une trame n et une bande de fréquence b donnée, on choisit

W[^l)φ,n) = W_L(b,n - l)

W^{b,n) = W_R (b,n - \) Les instructions correspondantes consistent alors à recopier les valeurs W_Rφ,n-ï), W_Lφ,n-\) obtenues pour la trame précédente.

Par exemple, suivant un deuxième modèle de prédiction, on choisit

W^ φ, n) = β + (l- β)W_L φ, n - 1) , et W_R ^{2) φ, n) = β + (l- β)W_R φ, n-\), avec β entre 0 et 1.

Ainsi, en cas d'une succession de trames pour lesquelles des données de spatialisation sont défectueuses, W[²⁾φ,n)e\ W^ φ, n) tendent vers 1, et par conséquent les données audio multicanal S'L(I<), S'_R(I<) se rapprochent des données monocanal M'(k). Dit autrement, on gomme peu à peu les effets de spatialisation pour revenir vers un signal monocanal.

Selon un autre exemple de modèle de prédiction, on choisit

Wt³⁾ φ, n) = 2W_L φ, n-ï)-W_Lφ,n-2), et

W™ φ, n) = 2W_R φ, n-l)-W_Rφ,n-2).

Ou bien encore: Wt⁴⁾φ,n) = -.W_Lφ,n-l) + -W_Lφ,n-2),et

W^φ,n) = ^.W_Rφ,n-l) + ^-W_Rφ,n-2).

Ou bien encore on utilise un filtre médian : Wt⁵⁾φ,n) = Median(W_Lφ,n-l),W_Lφ,n-2),...) , et W^⁵⁾φ,n) = Median(W_Rφ,n-l),W_Rφ,n- 2),...) . Eventuellement, pour assurer une meilleure stabilité, on utilisera à la place de W_Lφ,n-i)et W_Rφ,n-i) respectivement des valeurs atténuées, par exemple 0,9.W_Lφ,n-i) et 0,9. W_R φ, n - /) . On peut prévoir de conserver dans l'unité de mémoire ces valeurs atténuées, pour les utiliser directement en appliquant l'un des modèles exposés ci-dessus. D'autres modèles sont également possibles, par exemple une prédiction plus générale de la forme W[^m) = a_t.W_Rψ,n-i) , avec un ordre de

prédiction P est possible. Les coefficients a_t peuvent évoluer dans le temps, et être remis à jour en utilisant une méthode de type Levinson-Durbin.

Ces exemples de modèles conduisent à prédire des valeurs de WL et WR. Alternativement, les modèles peuvent permettre de prédire des valeurs des variables ILD'(b,n), de W'_L et W'_R, , ou autre.

Par exemple, suivant un modèle de prédiction équivalent au premier modèle exposé ci-dessus, lorsque des données de spatialisation ILD'(b,n) sont manquantes pour une trame n et une bande de fréquence b donnée, on choisit ILD'(b,n)=ILD'(b,n-1 ). L'instruction correspondante consiste alors à recopier cette valeur ILD'(b,n-1) obtenue pour la trame précédente.

Un module d'estimation 23 permet d'exécuter les instructions des différents jeux d'instruction. Ce module 23 est activé par exemple pour chaque trame telle que les données de spatialisation ILD'(b,n) correspondantes sont considérées comme valides par le module de test 22, ou bien encore seulement pour les trames considérées comme valides et qui précèdent une trame considérée comme défectueuse.

Lorsque ce module 23 est activé, tous les jeux d'instructions stockés sont exécutés, lors d'étapes 307 répétées dans une boucle parcourant les jeux d'instructions, avec les étapes classiques d'initialisation, de test et d'incrémentation, de façon à d'obtenir un ensemble de valeurs Ji^ '"',W^ "⁰J, m indiçant le modèle utilisé.

Un module de sélection 24 permet de choisir un de ces modèles en confrontant les valeurs de spatialisation prédites jw^"⁰,^"⁰} avec des valeurs de spatialisation estimées W_L, W_R à partir des données de spatialisation effectivement reçues ILD'(b,n).

Par exemple, pour chaque modèle, on peut calculer lors d'étapes 308 des valeurs de ressemblance σ_L ² _m , σ_R ² _m , à partir de valeurs prédites W["^ι) (b, n) , W_R ^(m) φ,n) et à partir de valeurs estimées W_L(b,n) , W_R(b,n) . Les valeurs de ressemblance peuvent par exemple comprendre la variance de chaque prédiction : σ_L ² _m = E[(W_L(b,n)

E représentant l'espérance mathématique, selon par exemple :

On utilise ainsi une séquence de N trames reçues pour déterminer N valeurs W[^m)(b,n) e\ les comparer à N valeurs estimées W_L(b,n) .

Une formule équivalente s'applique pour la voie droite. Alternativement, on peut prévoir de calculer une variance de façon récursive, par exemple suivant, pour chaque voie : σ%_u»

(n), où α est ici une constante de temps par exemple égale à 0.975, et σl,_n désigne l'estimation de la variance à la trame n. Selon un mode de réalisation alternatif et non représenté, au lieu d'estimer la variance, on estime une vraisemblance des données W_t ^(m),W_Λ ^(m) vis-à-vis des données W_L, WR obtenues à partir des valeurs effectivement reçues. On peut par exemple utiliser un ensemble d'estimateurs : P,!; = P<Wt^}(b,n)/W_L(b,n)) et P* = P(W<^m)(b,n)/W_R (b,n)) .

Par comparaison des estimateurs de type σl ou P_1n , on peut choisir le modèle de prédiction pour lequel la valeur de ressemblance indique une plus grande adéquation entre valeurs prédites et valeurs estimées. Par exemple, on détermine l'index m^* du modèle donnant la meilleure dissimulation: ce sera l'index qui minimisera σi ou maximisera p_m dans un autre mode de réalisation. A des fins de simplicité, on peut prévoir de choisir l'index qui minimisera σl sur une seule des voies, par exemple la voie gauche.

Cette valeur m constitue un identifiant du modèle de prédiction choisi et est stockée dans l'unité de mémoire 21 lors d'une étape 309. II est clair que les étapes 307 peuvent être exécutées avant les étapes 302, 304, ou bien encore en parallèle. Chaque étape 308 met ici en jeu des valeurs obtenues lors de l'étape 304, et est donc exécutée postérieurement à cette étape 304.

Le dispositif de dissimulation 20 comprend en outre un module de prédiction 25, pour, en cas de réception de données de spatialisation considérées comme défectueuses, prédire lors d'une étape 310 selon le modèle identifié par la valeur m des valeurs de spatialisation W^ (b, n) et

Cette valeur est fournie aux moyens de reconstruction multicanal 27, lesquels sont alors à même de reconstruire lors de l'étape 300 les données multicanal S'ι_(k), S'R(k) malgré les défauts des données de spatialisation.

Des moyens de transformation fréquence-temps 28, par exemple des DSPs, permettent de retrouver des données audio temporelles S'L(Π), S'R(Π) à partir des données multicanal S'ι_(k), S'R(k) reconstruites. La figure 4 montre un tracé représentant un exemple d'évolution de la valeur W_L(b,n) pour la deuxième sous-bande de fréquences, c'est-à-dire b=1. En abscisse figure l'index de trame n, et en ordonnée les valeurs W_L(1 ,n).

Pour la portion A correspondant grossièrement aux trames entre la ₅₀₀ ^ιèm^e _{et (a 81}o'^ème _trameS) |_es valeurs de W_L(1 ,n) sont pour la plupart égales à 1 , ce qui correspond à un signal sonore relativement monophonique.

Pour la portion B, les valeurs de W_L(1 ,n) correspondent à un signal localisé à gauche, tandis que pour la portion C, les valeurs de W_L(1 ,n) correspondent à un signal localisé à droite.

Pour la portion D, les valeurs de W_L(1 ,n) correspondent à une pluralité de sources sonores localisées à divers emplacements. Le meilleur modèle de prédiction choisi peut varier selon le type des variations du gain.

Ainsi, pour la portion A, le modèle consistant à répéter la valeur obtenue pour la trame précédente conduirait à répéter à tort les pics de valeurs de W_L(1 ,n). Un modèle plus judicieux consisterait à choisir une valeur arbitraire correspondant à un signal monocanal, ou bien à pondérer le gain obtenu pour la trame précédente de façon à se rapprocher peu à peu d'un gain de 1.

En revanche, pour les portions B et C, l'approche la plus judicieuse peut consister à répéter la valeur de gain obtenue pour la trame précédente.

Pour la portion D, lorsque l'évolution du gain est relativement lente, et donc relativement prédictible, une approche judicieuse consisterait à effectuer une moyenne pondérée des gains obtenus pour P trames précédentes. Lorsque les paramètres stéréo évoluent plus rapidement, l'approche la plus judicieuse consisterait à revenir vers un signal monocanal afin d'éviter tout artefact.

Ainsi, le modèle le plus judicieux peut changer selon le type de variations du gain d'une trame à l'autre. Le procédé de la figure 3 permet de sélectionner, sans intervention humaine, le modèle de prédiction le plus adapté.

Cette sélection du modèle de prédiction le plus adapté permet d'obtenir une dissimulation de meilleure qualité en cas de données défectueuses.

La figure 5 montre un ordinateur comprenant un écran 502, un clavier, et une unité centrale. Cette unité centrale comporte une mémoire 500 pour stocker un programme d'ordinateur comprenant des instructions correspondant aux étapes du procédé décrit ci-dessus. Cette unité centrale comporte en outre un processeur 501 relié à la mémoire 500, pour exécuter ces instructions.

Claims

REVENDICATIONS

1. Procédé de traitement de données sonores, pour la reconstruction de données audio multicanal à partir au moins de données sur un nombre de canaux restreint et de données de spatialisation, ledit procédé comprenant une étape de test (306) de validité de données de spatialisation d'une trame reçue, et, si ledit test montre que lesdites données de spatialisation reçues sont valables, des étapes de : a/ par modèle respectif d'une pluralité de modèles de prédiction, prédiction selon ledit modèle d'une valeur de spatialisation (307), et b/ choix d'un modèle de prédiction, à partir des valeurs de spatialisation ainsi prédites et à partir des données de spatialisation reçues, de façon à pouvoir, en cas de réception ultérieure de données de spatialisation défectueuses, prédire selon ledit modèle choisi une valeur de spatialisation et utiliser ladite valeur de spatialisation prédite pour la reconstruction des données audio multicanal.

2. Procédé selon la revendication 1 , comprenant en outre, si le test montre que les données de spatialisation reçues sont valables, et préalablement à l'étape a/, une étape de stockage des dites données de spatialisation valables, et dans lequel l'étape b/ est effectuée en cas de réception ultérieure de données de spatialisation défectueuses, à partir des dites données de spatialisation stockées.

3. Procédé selon la revendication 2, dans lequel l'étape a/ est effectuée en cas de réception ultérieure de données de spatialisation défectueuses, à partir des dites données de spatialisation stockées.

4. Procédé selon la revendication 1 , dans lequel les étapes a/ et b/ sont systématiquement effectuées suite à la réception d'une trame valide, le procédé comprenant en outre, suite à rétape b/, une étape d'écriture en mémoire d'un identifiant du modèle de prédiction choisi.

5. Procédé selon la revendication 1 , dans lequel la valeur de spatialisation prédite comprend un gain (W[^m)).

6. Procédé selon la revendication 1 , dans lequel la valeur de spatialisation prédite comprend un retard.

7. Procédé selon la revendication 1 , dans lequel, lors de l'étape b/ : par modèle respectif de la pluralité de modèles, on calcule une valeur de ressemblance (σ£_m , σ£_m), à partir d'une part de la valeur de spatialisation prédite suivant ledit modèle {W_L ^{m) (b,n) ,W_R ^{m) φ,n)), et d'autre part d'une valeur estimée (W_L(b,n) ,W_R(b,n) ) à partir des données de spatialisation reçues, et on choisit le modèle de prédiction pour lequel ladite valeur de ressemblance indique une plus grande adéquation entre la valeur de spatialisation prédite et ladite valeur estimée.

8. Procédé selon la revendication 7, dans lequel lors des étapes a/ et b/ : par trame d'une séquence de trames reçues, et pour au moins un modèle de la pluralité de modèles, on prédit selon ledit modèle une valeur de spatialisation {W[^m)(b,n) ,W<ⁿ⁾(b,n)), et, pour ledit modèle, la valeur de ressemblance (σ_L ² _m , σ_R ² _m) est calculée à partir d'une part de la séquence de valeurs de spatialisation prédites suivant ledit modèle, et d'autre part d'une séquence de valeurs estimées (W_L(b,n) ,W_R(b,n) ) à partir des données de spatialisation de la séquence de trames reçues.

9. Procédé selon la revendication 1 , dans lequel, l'étape a/ est effectuée pour des données de spatialisation correspondant à une bande de fréquences (b) donnée.

10. Programme d'ordinateur comportant des instructions pour la mise en oeuvre du procédé selon la revendication 1 , lorsque lesdites instructions sont exécutées par un processeur.

11. Dispositif de dissimulation (20) de données de spatialisation défectueuses, comprenant une unité de mémoire (21) pour stocker une pluralité de jeux d'instructions, chaque jeu d'instructions correspondant à un modèle de prédiction, des moyens de réception pour recevoir des données de spatialisation, un module de test (22) de la validité des données de spatialisation reçues par les moyens de réception, un module d'estimation (23) apte à, en cas de réception de données de spatialisation détectées comme valables par le module de détection, et par jeu d'instructions stocké dans l'unité de mémoire, exécuter ledit jeu d'instructions de façon à prédire une valeur de spatialisation, et un module de sélection (24) pour choisir un modèle de prédiction, à partir des valeurs de spatialisation prédites par le module d'estimation et à partir des données de spatialisation reçues par les moyens de réception, le dispositif de dissimulation comportant en outre un module de prédiction (25) agencé pour, en cas de réception ultérieure de données de spatialisation considérées comme défectueuses par le module de détection, prédire une valeur de spatialisation selon ledit modèle choisi par le module de sélection.

12. Appareil de reconstruction (26) de données audio multicanal, ledit appareil comportant des moyens de reconstruction multicanal (27), pour reconstruire des données audio multicanal à partir au moins de données monocanal, le dispositif de dissimulation (20) selon la revendication 11 , dans lequel le module de prédiction (25) est agencé pour, en cas de réception de données de spatialisation considérées comme défectueuses par le module de détection, fournir la valeur de spatialisation prédite aux moyens de reconstruction multicanal pour la reconstruction des données audio multicanal.