WO2010012927A1 - Reconstruction de donnees audio multicanal - Google Patents

Reconstruction de donnees audio multicanal Download PDF

Info

Publication number
WO2010012927A1
WO2010012927A1 PCT/FR2009/051304 FR2009051304W WO2010012927A1 WO 2010012927 A1 WO2010012927 A1 WO 2010012927A1 FR 2009051304 W FR2009051304 W FR 2009051304W WO 2010012927 A1 WO2010012927 A1 WO 2010012927A1
Authority
WO
WIPO (PCT)
Prior art keywords
spatialization
data
value
model
predicted
Prior art date
Application number
PCT/FR2009/051304
Other languages
English (en)
Inventor
David Virette
Pierrick Philippe
Original Assignee
France Telecom
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom filed Critical France Telecom
Priority to ES09802568T priority Critical patent/ES2387869T3/es
Priority to AT09802568T priority patent/ATE557387T1/de
Priority to CN200980134855.0A priority patent/CN102138177B/zh
Priority to JP2011520560A priority patent/JP5421367B2/ja
Priority to EP09802568A priority patent/EP2319037B1/fr
Priority to US13/056,169 priority patent/US8867752B2/en
Publication of WO2010012927A1 publication Critical patent/WO2010012927A1/fr

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/03Connection circuits to selectively connect loudspeakers or headphones to amplifiers

Definitions

  • the invention relates to the concealment of defective spatialisation data for the reconstruction of muiticanai audio data.
  • the multi-channel audio data is typically reconstructed from at least spatialization data and audio data over a restricted number of channels, for example, single channel data.
  • the muiticanai audio data is typically for a plurality of respective audio tracks.
  • Several different sound sources can be used to help give the listener the illusion of sound immersion.
  • the muiticanai audio data may for example comprise stereo data on two channels, or even 5.1 data on six channels, in particular for home theater applications.
  • the invention can also find an application in the field of spatialized audio conferencing, where the data corresponding to a speaker undergo a spatialization process in order to give the listener the illusion that the speaker's voice comes from a particular position from space.
  • Spatialization data is used to obtain muiticanai data from data on a smaller number of channels, for example single channel data.
  • These spatialization data may for example comprise differences in inter-channel level or ILD (of the English "Interchannel Level Difference"), inter-channel correlations or ICC
  • Interchannel Cross Correlation Interchannel Time Difference (ITD), Interchannel Phase Difference (IPD), or Inter-channel Phase Difference (IPD). Or other.
  • received audio data including at least the single channel data and the spatialization data, is defective, that is, some data is missing or erroneous.
  • the detection of this defective transmission can be carried out by means of a CRC type code (of the English "Cyclic Redundancy Check").
  • prediction models are known. For example, an arbitrary value, a previous value or a value determined from the previously received audio data, for example linear prediction or other methods, are chosen as predicted value.
  • Brutal variations of spatialisation data over time translate for the listener into the sensation of sudden displacements of the sound sources. For example, if defective values are replaced by an arbitrary value corresponding to an absence of spatialization, the feeling of returning to a single-channel sound can be disturbing for the listener, especially in the case of binaural signals. Indeed, the binaural signals, that is to say, allowing a faithful reproduction of the 3D space at the level of the ears, often correspond to relatively fixed virtual sound sources in the space.
  • the subject of the invention is a sound data processing method for reconstructing audio data. multichannel from at least data on a restricted number of channels and spatialization data, this method comprising a step of testing the validity of spatialization data of a received frame.
  • this test shows that these spatialization data are valid: a / by a respective model of a plurality of prediction models, according to this model, a spatialization value is predicted, b / a prediction model is chosen, based on spatialization values thus predicted and from the spatialization data actually received, so as to be able, in the event of subsequent reception of defective spatialization data, to predict, according to this chosen model, a spatialization value, and to use this predicted spatialization value for the spatialization value; reconstruction of multichannel audio data.
  • a restricted number of channels is meant a number of channels less than the number of channels of the multichannel data.
  • data on a restricted number of channels may include single channel data.
  • the spatialization data can come from a transmission channel.
  • this data can be received over the Internet.
  • the received audio data can be read on a storage medium, for example a DVD (Digital Versatile Disk), or other.
  • the invention is in no way limited by the origin of the audio data received.
  • the received audio data may comprise a coded signal, a demultiplexed and / or decoded signal, digital values, or the like.
  • the steps a / and b / can be performed systematically following the reception of a frame considered valid. The treatments are thus distributed over time.
  • steps a / and b / are performed for each valid frame, it is possible to write an identifier of the prediction model chosen in memory in order to be able, in the event of subsequent reception of defective spatialization data. , quickly find the model of prediction to apply.
  • steps a / and / or b / may be subject to the fulfillment of certain conditions, which may make it possible to avoid performing unnecessary calculations.
  • the spatialization data is stored in a memory, at least temporarily.
  • the steps a / and b / are performed (from the data thus stored), only in the event of subsequent reception of spatialisation data considered to be defective. This avoids, in particular, making the predictions of step a / when this is not necessary.
  • step a / it is possible to make the predictions of step a / systematically following the reception of a frame considered valid, while step b / is performed (from the spatialization data of the previous frame (s), stored in memory) in case of reception of a defective frame.
  • each predicted spatialization value is compared with an estimated value from the spatialization data received.
  • the estimated value may be one of the spatialization data, for example the estimated value may include an ILD.
  • the estimated value can derive only spatialization data.
  • the estimated value may include a gain from the ILDs for a given frame and frequency band, a delay, or the like. In this case, it is possible during step b to compare the predicted spatialization values with values obtained from received spatialization data.
  • the previously predicted spatialisation values are compared with corresponding estimated values.
  • the choice of the prediction model most in line with the content can be made more accurately.
  • the spatialization data received over several frames can be used, and the predicted values and the estimated values can be compared for several frames.
  • a spatialization value per frame of a sequence of received frames, and for at least one model, it is possible to predict, according to this model, a spatialization value, so that a sequence of spatialization values is predicted.
  • the resemblance value can be calculated from a part of this sequence of predicted spatialization values, and from a sequence of values estimated from the data of the frame sequence.
  • one will abstain from using defective spatialization data during the step of choosing the prediction model, in order to avoid falsifying this choice.
  • the current spatialization data received for example in the same frame, for the choice of the prediction model.
  • the data may be defective due to degradations introduced during the transmission, or degradations of a data storage medium.
  • the invention is not limited to this origin of defects.
  • data may be missing. among the spatialization data received.
  • the defectiveness of the spatialization data can be detected according to known methods, for example by means of a CRC type code.
  • the invention is in no way limited by the form of the writing in memory of the identifier of the prediction model chosen. For example, it is possible to copy in a program memory all the instructions of a program corresponding to this model, or simply to memorize a model name in a possibly volatile memory.
  • step a / the prediction of the spatialization value is performed according to a prediction model, that is to say in particular that the data used for the prediction can vary according to the model. For example, for a model that assigns an arbitrary value to the spatialization value, no data is needed for the prediction. For a model that consists of taking a previous spatialization value, and / or weighting a previous spatialization value, this previous spatialization value is used during the prediction.
  • step a / is performed for spatialization data corresponding to a given frequency band. Thus several predictions can be carried out in parallel, in different frequency bands.
  • the choice of the most accurate prediction model can be linked to the frequency: according to the frequency band considered, it may be necessary to choose different prediction models.
  • the subject of the invention is a computer program comprising instructions for implementing the method explained above, when these instructions are executed by a processor.
  • the invention has the aspect of a device for concealing defective spatialization data.
  • the device includes a memory unit, which may include one or more memories, for storing a plurality of instruction sets, each instruction set corresponding to a prediction model.
  • This device further comprises receiving means for receiving spatialization data.
  • a test module makes it possible to test the validity of the spatialization data received by the reception means.
  • an estimation module makes it possible, by instruction set stored in the memory unit, to execute this set of instructions so as to predict a spatialization value.
  • a selection module makes it possible to choose a prediction model, based on the spatialization values predicted by the estimation module and on the spatialization data received by the reception means.
  • the concealment device further comprises a prediction module arranged for, in the event of reception of spatialization data considered as defective by the detection module, to predict, according to the model chosen by the selection module, a spatialization value.
  • the subject of the invention is a device for reconstructing multichannel audio data.
  • This apparatus comprises multichannel reconstruction means, for reconstructing multichannel audio data from at least data on a restricted number of channels, for example single channel data.
  • This apparatus further comprises the concealment device described above.
  • the prediction module is arranged, in the event of reception of spatialization data considered as defective by the detection module, to provide the predicted spatialization value to the multichannel reconstruction means for the reconstruction of the multichannel audio data.
  • the multi-channel audio data reconstruction apparatus can be integrated into a processor, or else comprise a computer-type device, hi-fi system, or the like.
  • the various components of the reconstruction apparatus for example the reconstruction means, the concealment device, the detection module, or the like, may be distinct or merged.
  • FIG. 1 shows an example of a conversational coding device
  • FIG. 2 shows an example of a decoding device comprising an exemplary reconstruction apparatus according to one embodiment of the invention
  • FIG. 3 is an example of an algorithm of a method according to an embodiment of the invention. 'invention,
  • FIG. 4 is a graph showing an example of possible evolution of the gain
  • FIG. 5 shows a device capable of executing a computer program according to one aspect of the invention.
  • the number of channels of the multichannel audio data is exactly two, but of course there may be more.
  • the multichannel audio data may for example comprise 5.1 data on six channels.
  • the invention can also find an application in the field of spatialized audio conferencing.
  • the audio data is grouped by frames or packets, indexed n.
  • Figure 1 shows an exemplary encoder, for which stereo information is transmitted in frequency bands and is applied in the frequency domain.
  • the encoder integrates time-frequency transformation means 10, for example a DSP (of the "Digital Signal Processor") capable of producing a transform, for example a discrete Fourier transform or DFT (of the English “Discrete Fourier Transform"), an MDCT (Modified Discrete Cosine Transform), an MCLT (Modulated Complex Lapped Transform).
  • a DSP of the "Digital Signal Processor”
  • DFT discrete Fourier transform
  • MDCT Modified Discrete Cosine Transform
  • MCLT Modulated Complex Lapped Transform
  • the single-channel signal M (k) is typically the half-sum of the left signals S ⁇ _ (k) and right SR (k).
  • the residual signal E (k) may be equal to half the difference between the left signals S L (k) and the right S R (k).
  • Matrices may be adaptive so that the single channel signal M (k) carries more information.
  • the method implemented by the matrixing means 11 may change over time, so as to avoid the cancellation of components that would be in phase opposition between the left and right channels.
  • Spatialization data estimation means 12 make it possible to estimate from the single-channel signal M (k) and from the residual signal
  • E (k) spatialization data for example stereo parameters.
  • stereo parameters can be known to those skilled in the art, and understand for example, inter-channel level differences (ILD), inter-channel correlations (ICC), and inter-channel delays or phase differences (IPD / ITD).
  • ILD inter-channel level differences
  • ICC inter-channel correlations
  • IPD / ITD inter-channel delays or phase differences
  • stereo parameters ILD (b) can be determined by frequency bands, indexed by the variable b. These bands can be constituted according to a frequency scale close to human perception.
  • Quantization, coding and multiplexing means 13 make it possible to quantify and code the stereo parameters ILD (b) in order to allow transmission at a reduced rate.
  • the single-channel signal M (k) is also quantized and coded by the means 13, in the transformed domain as shown in FIG. 1, or alternatively in the time domain.
  • Standardized algorithms may be used to process this single-channel signal M (k), for example an ITU G.729.1 or G.718 type speech encoder. It may also be a generic audio encoder type MPEG-4 AAC or HE-AAC.
  • the residual signal E (k) is optionally transmitted, also using a standard coding or a transmission technique specific to this signal in the frequency or time domain.
  • the encoded signal S e nc obtained at the output of the quantization, coding and multiplexing means 13 is transmitted, for example by radio.
  • the encoder leads to obtaining data on more than one monophonic channel, provided that the number of channels of the data obtained at the output of the encoder is less than the number of channels of the input data of the encoder.
  • FIG. 2 shows an example of a decoder capable of receiving a signal S ' at c corresponding to the signal S enc transmitted.
  • Decoding and demultiplexing means 29 make it possible to extract from the signal S ' at c received single-channel data M' (k), spatialization data ILD ' (b> , and possibly residual data E' (k).
  • the decoder further comprises a reconstruction apparatus 26 for reconstructing multi-channel audio data S' ⁇ _ (k), S ' R (k), from the single-channel data M' (k), spatialization data ILD ' (b) , and any residual data E '(k).
  • FIG. 3 shows an algorithm executable by the reconstruction apparatus 26 of FIG. 2. These two figures will therefore be commented simultaneously.
  • the reconstruction apparatus 26 includes a concealment device 20 for providing replacement values in case of defective ILD ' (b) spatialization data, and multichannel reconstruction means 27 for the actual reconstruction.
  • the multichannel reconstruction means 27 may, for example, perform, during a step 300, combinations of the type:
  • M R (k) a signal in the frequency domain, obtained equivalently in step 301, for the right channel.
  • E'L is a signal specific to the left channel, issued in a manner known to those skilled in the art from the residual data E '(k) optionally transmitted
  • E'R a signal specific to the right channel, issued in a manner known to those skilled in the art residual data E '(k) optionally transmitted.
  • the step of obtaining the data E ' L , E'R is not represented in FIG.
  • W L and WR are the gains from spatialisation data ILD '(b, n) for the band b considered and the frame n.
  • the gains W L and WR can for example be determined as follows, via values W ' L and WR, during a step 302:
  • ILD '(b, n) is the spatialization data ILD' (b) received for the frame n.
  • W L (b, n) a.W ' L (b, n) + (la) W L (b, n-1), where W L (b, nl) denotes the value obtained for the previous frame.
  • W R (b, n) a.W'R (b, n) + (la) .W R (b, nl), where W R (b, n - l) denotes the value obtained for the previous frame.
  • the concealment device 20 makes it possible to prevent possible losses of data ILD '(b, n), so that data W R and W L can despite everything to be determined.
  • the concealment device 20 comprises unrepresented receiving means for receiving, during a step 305, the spatialization data ILD '(b, n), and possibly the single-channel data M' (k), and the residual data E '. (k). These receiving means may for example comprise an input port, pins input, or other.
  • a test module 22 connected to these reception means makes it possible to test, during a step 306, the validity of the spatialization data ILD ' (b) .
  • This test module can implement a verification of a CRC-type encoding, for example to verify that the transmission did not lead to degradation of the spatialization data.
  • the test module 22 can also read certain values (not shown) extracted from the signal S enc received, these values indicating possible transmitted data layers deletions. Indeed, it can be expected that some elements of the transmission network abstain from transmitting, particularly in the event of congestion of the network, or reduction of the bandwidth of the transmission channel, such or such a set of data. Non-transmitted data sets may be sound details, for example. When the test module 22 reads a value indicating a deletion of certain data, these data are considered as missing.
  • the concealment device 20 comprises a memory unit 21 storing several sets of instructions, each set of instructions corresponding to a prediction model. For example, according to a first prediction model, when ILD '(b, n) spatialization data is defective for a given frame n and a given frequency band b, one chooses
  • W ⁇ ⁇ b, n) W R (b, n - ⁇ )
  • the corresponding instructions then consist in copying the values W R ⁇ , n-1), W L ⁇ , n- 1 obtained for the previous frame.
  • W ⁇ , n) 2W R ⁇ , n1) -W R ⁇ , n-2).
  • W ⁇ ⁇ , n ⁇ .W R ⁇ , nl) -W ⁇ + R ⁇ n-2).
  • W ⁇ 5) ⁇ , n) Median (W R ⁇ , n1), W R ⁇ , n-2), ).
  • W L ⁇ , ni) and W R ⁇ , ni) respectively attenuated values, for example 0.9.W L ⁇ , ni) and 0.9 will be used.
  • W R ⁇ , n - / It can be expected to keep in the memory unit these attenuated values, for use directly by applying one of the models described above.
  • model examples lead to the prediction of WL and WR values.
  • the models can be used to predict values of the ILD '(b, n), W' L and W ' R , or other variables.
  • ILD' (b, n) ILD '(b, n-1).
  • the corresponding instruction then consists in copying this value ILD '(b, n-1) obtained for the previous frame.
  • An estimation module 23 makes it possible to execute the instructions of the different instruction sets. This module 23 is activated for example for each frame such that the corresponding spatialization data ILD '(b, n) are considered valid by the test module 22, or even only for the frames considered valid and which precede a frame considered defective.
  • this module 23 When this module 23 is activated, all the stored instruction sets are executed, during repeated steps 307 in a loop traversing the instruction sets, with the conventional steps of initialization, testing and incrementation, so that to obtain a set of values Ji ⁇ '"', W ⁇ " 0 J, m indicating the model used.
  • a selection module 24 makes it possible to choose one of these models by comparing the predicted spatialization values jw ⁇ " 0 , ⁇ " 0 ⁇ with estimated spatialization values W L , W R from the spatialization data actually received ILD '( b, n).
  • ⁇ L 2 m E [(W L (b, n) E representing the expected value, according to for example:
  • a sequence of N received frames is used to determine N values W [ m) (b, n) and compare them with N estimated values W L (b, n).
  • the prediction model for which the resemblance value indicates a greater adequacy between predicted values and estimated values. For example, we determine the index m * of the model giving the best concealment: it will be the index that will minimize ⁇ i or maximize p m in another embodiment. For the sake of simplicity, it is possible to choose the index which will minimize ⁇ 1 on only one of the channels, for example the left channel.
  • This value m constitutes an identifier of the prediction model chosen and is stored in the memory unit 21 during a step 309. It is clear that the steps 307 can be executed before the steps 302, 304, or else in parallel . Each step 308 here puts into play values obtained during step 304, and is therefore executed after this step 304.
  • the concealment device 20 further comprises a prediction module 25, for, in the event of reception of spatialization data considered to be defective, to predict during a step 310 according to the model identified by the value m of spatialization values W i ( b, n) and
  • This value is supplied to the multichannel reconstruction means 27, which are then able to reconstruct in step 300 the multichannel data S'.sub.i (k), S'R (k) despite the defects of the spatialization data.
  • Frequency-time transformation means 28 make it possible to retrieve temporal audio data S'L ( ⁇ ), S'R ( ⁇ ) from the multi-channel data S' ⁇ _ (k), S'R ( k) reconstructed.
  • the values of W L (1, n) correspond to a signal located on the left, while for the C portion, the values of W L (1, n) correspond to a signal located on the right.
  • the values of W L (1, n) correspond to a plurality of sound sources located at various locations.
  • the best prediction model chosen may vary depending on the type of gain variation.
  • the model consisting of repeating the value obtained for the previous frame would lead to erroneously repeat the peaks of values of W L (1, n).
  • a more judicious model would be to choose an arbitrary value corresponding to a single channel signal, or to weight the gain obtained for the previous frame so as to approach gradually a gain of 1.
  • the most judicious approach may be to repeat the gain value obtained for the previous frame.
  • the most judicious model can change according to the type of variations of the gain from one frame to another.
  • the method of Figure 3 allows to select, without human intervention, the most suitable prediction model.
  • Figure 5 shows a computer comprising a screen 502, a keyboard, and a CPU.
  • This central unit has a memory 500 for storing a computer program comprising instructions corresponding to the steps of the method described above.
  • This central unit further comprises a processor 501 connected to the memory 500, to execute these instructions.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Abstract

Un procédé de traitement de données sonores, pour la reconstruction de données audio multicanal à partir au moins de données sur un nombre réduit de canaux et de données de spatialisation. On teste si des données de spatialisation reçues sont valables. Si le test est positif, on prédit selon par modèle respectif d'une pluralité de modèles une valeur de spatialisation. On choisit un modèle de prédiction, à partir des valeurs de spatialisation ainsi prédites et à partir des données de spatialisation reçues, de façon à pouvoir, en cas de réception ultérieure de données de spatialisation défectueuses, prédire selon ce modèle choisi une valeur de spatialisation et utiliser cette valeur de spatialisation prédite pour la reconstruction des données audio multicanal.

Description

RECONSTRUCTION DE DONNEES AUDIO MULTICANAL
L'invention se rapporte à la dissimulation de données de spatialisation défectueuses, pour la reconstruction de données audio muiticanai. Les données audîo multîcanal sont typiquement reconstruites à partir au moins de données de spatialisation et de données audio sur un nombre de canaux restreint, par exemple des données monocanal.
Les données audio muiticanai sont typiquement destinées à plusieurs pistes audio respectives. Plusieurs sources sonores respectives peuvent être utilisées pour contribuer à donner à l'auditeur l'illusion d'une immersion sonore.
Les données audio muiticanai peuvent par exemple comprendre des données stéréo sur deux canaux, ou bien encore des données 5.1 sur six canaux, en particulier pour des applications de Home Cinéma. L'invention peut également trouver une application dans le domaine des conférences audio spatialisées, où les données correspondant à un locuteur subissent un traitement de spatialisation afin de donner à l'auditeur l'illusion que la voix de ce locuteur provient d'une position particulière de l'espace.
Les données de spatialisation sont utilisées pour obtenir des données muiticanai à partir des données sur un nombre inférieur de canaux, par exemple des données monocanal. Ces données de spatialisation peuvent par exemple comprendre des différences de niveau inter-voies ou ILD (de l'anglais « Interchannel Level Différence »), des corrélations inter-voies ou ICC
(de l'anglais « Interchannel Cross Corrélation »), des retards entre voies ou ITD (de l'anglais « Interchannel Time Différence »), des différences de phases entre voies ou IPD (de l'anglais « Interchannel Phase Différence »), ou autre.
Il arrive que des données audio reçues, comprenant au moins les données monocanal et les données de spatialisation, soient défectueuses, c'est-à-dire que certaines données sont manquantes, ou bien erronées. La détection de cette transmission défectueuse peut être effectuée par le biais d'un code de type CRC (de l'anglais « Cyclic Redundancy Check »).
Il est connu de pallier à ces défauts en remplaçant des valeurs défectueuses par des vateurs prédites. Ces valeurs prédites peuvent être déterminées suivant un modèle de prédiction connu.
On connaît plusieurs modèles de prédiction. Par exemple, on choisit comme valeur prédite une valeur arbitraire, une valeur précédente, une valeur déterminée à partir des données audio précédemment reçues suivant par exemple des procédés de prédiction linéaire, ou autre.
Lorsque des données monocanal sont reçues de façon défectueuse, le remplacement des valeurs défectueuses par des valeurs prédites de données monocanal se révèle en général relativement satisfaisant.
Toutefois, lorsque des données de spatialisation sont reçues de façon défectueuse, le remplacement des valeurs défectueuses par des valeurs prédites peut se révéler insatisfaisant.
Des variations brutales des données de spatialisation au cours du temps se traduisent pour l'auditeur par la sensation de déplacements brusques des sources sonores. Par exemple, si des valeurs défectueuses sont remplacées par une valeur arbitraire correspondant à une absence de spatialisation, la sensation d'un retour à un son monocanal peut être dérangeante pour l'auditeur, en particulier dans le cas de signaux binauraux. En effet, les signaux binauraux, c'est-à-dire permettant une restitution fidèle de l'espace 3D au niveau des oreilles, correspondent souvent à des sources sonores virtuelles relativement fixes dans l'espace.
Il existe donc un besoin pour une meilleure dissimulation des défauts des données de spatialisation lors de la reconstruction de données audio multicanal. Selon un premier aspect, l'invention a pour objet un procédé de traitement de données sonores, pour la reconstruction de données audio multicanal à partir au moins de données sur un nombre de canaux restreint et de données de spatialisation, ce procédé comprenant une étape de test de la validité de données de spatialisation d'une trame reçue. Si ce test montre que ces données de spatialisation sont valables: a/ par modèle respectif d'une pluralité de modèles de prédiction, on prédit, selon ce modèle, une valeur de spatialisation, b/ on choisit un modèle de prédiction, à partir des valeurs de spatialisation ainsi prédites et à partir des données de spatialisation effectivement reçues, de façon à pouvoir, en cas de réception ultérieure de données de spatialisation défectueuses, prédire selon ce modèle choisi une valeur de spatialisation, et utiliser cette valeur de spatialisation prédite pour la reconstruction des données audio multicanal.
Ainsi, des données de spatialisation considérées comme valables sont utilisées pour choisir parmi une pluralité de modèles de prédiction un modèle de prédiction à adopter en cas de réception de données de spatialisation considérées comme défectueuses. Un tel procédé adaptatif suivant le contenu permet de pallier aux défauts des données de spatialisation de façon plus satisfaisante que dans l'art antérieur où un seul modèle de prédiction est utilisé. Par « un nombre de canaux restreint », on entend un nombre de canaux inférieur au nombre de canaux des données multicanal. Par exemple, les données sur un nombre de canaux restreint peuvent comprendre des données monocanal.
Les données de spatialisation, et plus généralement les données audio reçues, peuvent provenir d'un canal de transmission. Par exemple, ces données peuvent être reçues par Internet. Alternativement, les données audio reçues peuvent être lues sur un support de stockage, par exemple un DVD (de l'anglais « Digital Versatile Disk »), ou autre. L'invention n'est en rien limitée par la provenance des données audio reçues. Les données audio reçues peuvent comprendre un signal codé, un signal démultiplexé et/ou décodé, des valeurs numériques, ou autre. Les étapes a/ et b/ peuvent être effectuées systématiquement suite à la réception d'une trame considérée comme valide. Les traitements sont ainsi répartis dans le temps.
On peut prévoir, en particulier lorsque les étapes a/ et b/ sont effectuées pour chaque trame valide, d'écrire en mémoire un identifiant du modèle de prédiction choisi, et ce afin de pouvoir, en cas de réception ultérieure de données de spatialisation défectueuses, retrouver rapidement le modèle de prédiction à appliquer.
Alternativement, l'exécution des étapes a/ et/ou b/ peut être soumise à la réalisation de certaines conditions, ce qui peut permettre d'éviter d'effectuer des calculs inutiles.
Par exemple, lorsqu'une trame est considérée comme valable, les données de spatialisation sont stockées dans une mémoire, au moins de façon temporaire. Les étapes a/ et b/ sont effectuées (à partir des données ainsi stockées), seulement en cas de réception ultérieure de données de spatialisation considérées comme défectueuses. On évite ainsi d'effectuer en particulier les prédictions de l'étape a/ lorsque cela n'est pas nécessaire.
Selon un autre exemple, on peut prévoir d'effectuer les prédictions de l'étape a/ systématiquement suite à la réception d'une trame considérée comme valide, tandis que l'étape b/ n'est effectuée (à partir des données de spatialisation de la ou les trame(s) précédente(s), conservées en mémoire) qu'en cas de réception d'une trame défectueuse.
Avantageusement, lors de l'étape b/, on confronte chaque valeur de spatialisation prédite à une valeur estimée à partir des données de spatialisation reçues. En particulier, on peut prévoir de calculer, par modèle, une valeur de ressemblance à partir d'une part de la valeur de spatialisation prédite suivant ce modèle, et d'autre part d'une valeur estimée à partir des données de spatialisation reçues. On choisit alors le modèle de prédiction pour lequel la valeur de ressemblance indique une plus grande adéquation entre la valeur prédite et la valeur estimée. La valeur estimée peut être l'une des données de spatialisation, par exemple la valeur estimée peut comprendre un ILD. Dans ce cas, on peut prévoir, lors de l'étape b/ de comparer les valeurs de spatialisation prédites directement à des données de spatialisation reçues. Alternativement, la valeur estimée peut dériver seulement des données de spatialisation. Par exemple la valeur estimée peut comprendre un gain issu des ILDs pour une trame et une bande de fréquences données, un retard, ou autre. Dans ce cas, on peut prévoir, lors de l'étape b/ de comparer les valeurs de spatialisation prédites à des valeurs obtenues à partir de données de spatialisation reçues.
Avantageusement, pour au moins un modèle, on confronte en outre des valeurs de spatialisation précédemment prédites à des valeurs estimées correspondantes. Ainsi, le choix du modèle de prédiction le plus en adéquation avec le contenu peut être effectué avec davantage de justesse. Par exemple, on peut utiliser les données de spatialisation reçues sur plusieurs trames, et confronter pour plusieurs trames les valeurs prédites et les valeurs estimées.
En particulier, par trame d'une séquence de trames reçues, et pour au moins un modèle, on peut prédire suivant ce modèle une valeur de spatialisation, de sorte qu'une séquence de valeurs de spatialisation est prédite. Pour ce modèle, la valeur de ressemblance peut être calculée à partir d'une part de cette séquence de valeurs de spatialisation prédites, et d'autre part d'une séquence de valeurs estimées à partir des données de la séquence de trames. Avantageusement, on s'abstiendra d'utiliser des données de spatialisation défectueuses lors de l'étape de choix du modèle de prédiction, afin d'éviter de fausser ce choix.
Alternativement, on peut se contenter des données de spatialisation courantes, reçues par exemple dans une même trame, pour le choix du modèle de prédiction. Les données peuvent être défectueuses du fait de dégradations introduites lors de la transmission, ou de dégradations d'un support de stockage des données. L'invention n'est pas limitée à cette origine de défauts. Par exemple, dans le cas d'une transmission hiérarchisée en couches (« scaiabie coding» en anglais) pour laquelle un émetteur ou un autre élément d'un réseau de transmission peut choisir de ne pas transmettre un ensemble de données, des données peuvent manquer parmi les données de spatialisation reçues.
Le caractère défectueux des données de spatialisation peut être détecté suivant des procédés connus, par exemple par le biais d'un code de type CRC.
L'invention n'est en rien limitée par la forme de l'écriture en mémoire de l'identifiant du modèle de prédiction choisi. On peut par exemple recopier dans une mémoire programme toutes les instructions d'un programme correspondant à ce modèle, ou bien simplement mémoriser un nom de modèle dans une mémoire éventuellement volatile.
Lors de l'étape a/, la prédiction de la valeur de spatialisation est effectuée suivant un modèle de prédiction, c'est-à-dire en particulier que les données utilisées pour la prédiction peuvent varier suivant le modèle. Par exemple, pour un modèle qui consiste à affecter une valeur arbitraire à la valeur de spatialisation, aucune donnée n'est nécessaire à la prédiction. Pour un modèle qui consiste à reprendre une valeur de spatialisation précédente, et/ou à pondérer une valeur de spatialisation précédente, cette valeur de spatialisation précédente est utilisée lors de la prédiction. Avantageusement, l'étape a/ est effectuée pour des données de spatialisation correspondant à une bande de fréquences donnée. Ainsi plusieurs prédictions peuvent être menées en parallèle, dans différentes bandes de fréquences. En effet, dans le cas d'un signal stéréo, le choix du modèle de prédiction le plus juste peut être lié à la fréquence : suivant la bande de fréquences considérée, on peut être conduit à choisir des modèles de prédiction différents. Selon un autre aspect, l'invention a pour objet un programme d'ordinateur comportant des instructions pour la mise en œuvre du procédé exposé ci-dessus, lorsque ces instructions sont exécutées par un processeur.
Selon encore un autre aspect, l'invention a pour aspect un dispositif de dissimulation de données de spatialisation défectueuses. Ce dispositif comprend une unité de mémoire, laquelle peut comprendre une ou plusieurs mémoires, pour stocker une pluralité de jeux d'instructions, chaque jeu d'instructions correspondant à un modèle de prédiction. Ce dispositif comporte en outre des moyens de réception pour recevoir des données de spatialisation. Un module de test permet de tester la validité des données de spatialisation reçues par les moyens de réception. En cas de réception de données de spatialisation détectées comme valables par le module de test, un module d'estimation permet, par jeu d'instructions stocké dans l'unité de mémoire, d'exécuter ce jeu d'instructions de façon à prédire une valeur de spatialisation. Un module de sélection permet de choisir un modèle de prédiction, à partir des valeurs de spatialisation prédites par le module d'estimation et à partir des données de spatialisation reçues par les moyens de réception. Le dispositif de dissimulation comporte en outre un module de prédiction agencé pour, en cas de réception de données de spatialisation considérées comme défectueuses par le module de détection, prédire selon le modèle choisi par le module de sélection une valeur de spatialisation.
Selon encore un autre aspect, l'invention a pour objet un appareil de reconstruction de données audio multicanal. Cet appareil comporte des moyens de reconstruction multicanal, pour reconstruire des données audio multicanal à partir au moins de données sur un nombre de canaux restreint, par exemple des données monocanal. Cet appareil comporte en outre le dispositif de dissimulation décrit ci-dessus. Le module de prédiction est agencé pour, en cas de réception de données de spatialisation considérées comme défectueuses par le module de détection, fournir la valeur de spatialisation prédite aux moyens de reconstruction multicanal pour la reconstruction des données audio multicanal. L'appareil de reconstruction de données audio multicanal peut être intégré dans un processeur, ou bien encore comprendre un appareil de type ordinateur, chaîne Hi-Fi, ou autre.
Les divers composants de l'appareil de reconstruction, par exemple les moyens de reconstruction, le dispositif de dissimulation, le module de détection, ou autre, peuvent être distincts ou confondus.
D'autres particularités et avantages de la présente invention apparaîtront dans la description détaillée ci-après, faite en référence aux dessins annexés sur lesquels : - La figure 1 montre un exemple de dispositif de codage conversationnel,
- La figure 2 montre un exemple de dispositif de décodage comprenant un exemple d'appareil de reconstruction selon un mode de réalisation de l'invention, - La figure 3 est un exemple d'algorithme d'un procédé selon un mode de réalisation de l'invention,
- La figure 4 est un graphe montrant un exemple d'évolution possible du gain, et
- La figure 5 montre un dispositif apte à exécuter un programme d'ordinateur selon un aspect de l'invention.
Des références identiques désignent des objets identiques ou similaires d'une figure à l'autre.
Dans les exemples illustrés par les figures, le nombre de canaux des données audio multicanal est de deux exactement, mais on peut bien entendu en prévoir davantage. Les données audio multicanal peuvent par exemple comprendre des données 5.1 sur six canaux. L'invention peut également trouver une application dans le domaine des conférences audio spatialisées.
En particulier, on peut se référer à la norme MPEG Surround, c'est- à-dire qu'une structure en arbre peut être utilisée ou simulée pour générer plus de 2 voies. Dans les exemples représentés, les données audio sont regroupées par trames ou paquets, indicés n.
La figure 1 montre un exemple de codeur, pour lequel des informations stéréo sont transmises par bandes de fréquences et sont appliquées dans le domaine fréquentiel.
A cet effet, le codeur intègre des moyens de transformation temps fréquence 10, par exemple un DSP (de l'anglais « Digital Signal Processor ») apte à réaliser une transformée, par exemple être une transformée de Fourier discrète ou DFT (de l'anglais « Discrète Fourier Transform »), une transformée MDCT (de l'anglais « Modified Discrète Cosine Transform »), une transformée MCLT (de l'anglais « Modulated Complex Lapped Transform »).
On obtient ainsi, à partir des valeurs SL(n), SR(Π) correspondant aux signaux temporels gauche et droit, des valeurs de signaux fréquentiels S_.(k) et droit SR(k). Un matriçage est ensuite appliqué aux signaux de la voie gauche
.(k) et droite Sp(k), par des moyens de matriçage 11.
Ces moyens 11 permettent de déterminer à partir du signal stéréo
SUk), Sι_(k), un signal monocanal M(k) et un signal résiduel E(k). Le signal monocanal M(k) est typiquement la demi-somme des signaux gauche Sι_(k) et droit SR(k). Le signal résiduel E(k) peut être égal à la moitié de la différence entre les signaux gauche SL(k) et droit SR(k).
On peut prévoir que le matriçage soit adaptatif afin que le signal monocanal M(k) transporte davantage d'information. A cet effet le procédé mis en œuvre par les moyens de matriçage 11 peut évoluer au cours du temps, de façon à éviter l'annulation de composantes qui seraient en opposition de phase entre les voies gauches et droites.
Des moyens d'estimation de données de spatialisation 12 permettent d'estimer à partir du signal monocanal M(k) et du signal résiduel
E(k) des données de spatialisation, par exemple des paramètres stéréo. Ces paramètres stéréo peuvent être connus de l'homme du métier, et comprendre par exemple des différences de niveau inter-voies (ILD), des corrélations intervoies (ICC) et des retards ou différences de phase entre voies (IPD / ITD).
Ces paramètres stéréo ILD(b) peuvent être déterminés par bandes de fréquences, indicées par la variable b. Ces bandes peuvent être constituées selon une échelle fréquentielle proche de la perception humaine.
Par exemple, on peut utiliser entre 8 et 20 bandes fréquentielles, suivant la précision voulue et la richesse du spectre considéré.
Des moyens de quantification, codage et multiplexage 13 permettent de quantifier et coder les paramètres stéréo ILD(b) afin de permettre une transmission à un débit réduit.
Le signal monocanal M(k) est également quantifié et codé par les moyens 13, dans le domaine transformé comme présenté sur la figure 1 , ou alternativement dans le domaine temporel. On peut utiliser des algorithmes normalisés pour traiter ce signal monocanal M(k), par exemple un codeur de parole de type ITU G.729.1 ou G.718. Il pourra également s'agir d'un codeur audio générique de type MPEG-4 AAC ou HE-AAC.
Le signal résiduel E(k) est optionnellement transmis, faisant également appel à un codage normalisé ou une technique de transmission propre à ce signal dans le domaine fréquentiel ou temporel. Le signal encodé Senc obtenu en sortie des moyens de quantification, codage et multiplexage 13 est transmis, par exemple par voie radio.
Alternativement, on pourrait prévoir que le codeur conduise à obtenir des données sur plus d'un canal monophonique, pourvu que le nombre de canaux des données obtenues en sortie du codeur soit inférieur au nombre de canaux des données en entrée du codeur.
La figure 2 montre un exemple de décodeur susceptible de recevoir un signal S'enc correspondant au signal Senc transmis.
Des moyens de décodage et de démultiplexage 29 permettent d'extraire du signal S'enc reçu des données monocanal M'(k), des données de spatialisation ILD'(b>, ainsi éventuellement que des données résiduelles E'(k). Le décodeur comprend en outre un appareil de reconstruction 26 pour reconstruire des données audio multicanal S'ι_(k), S'R(k), à partir des données monocanal M'(k), des données de spatialisation ILD'(b), et des éventuelles données résiduelles E'(k). La figure 3 montre un algorithme exécutable par l'appareil de reconstruction 26 de la figure 2. Ces deux figures seront donc commentées simultanément.
L'appareil de reconstruction 26 comporte un dispositif de dissimulation 20 pour fournir des valeurs de remplacement en cas de données de spatialisation ILD'(b) défectueuses, et des moyens de reconstruction multicanal 27 pour la reconstruction proprement dite.
Les moyens de reconstruction multicanal 27 peuvent par exemple effectuer lors d'une étape 300 des combinaisons du type :
(S'L (k) = E\ (k) + WL(b,n).ML(k) [S'R (k) = E'R (k) + WRφ,n).MR(k) Où k désigne l'index fréquentiel considéré, b désigne la bande affectée par les paramètres stéréo transmis, ML(1<), un signal dans le domaine fréquentiel, obtenu lors d'une étape 301 à partir des données monocanal M'(k), en appliquant de façon connue de l'homme du métier un déphasage ou un retard correspondant à la voie gauche, ce déphasage ou ce retard étant obtenu de données de spatialisation non représentées, et
MR(k), un signal dans le domaine fréquentiel, obtenu de façon équivalente lors de l'étape 301 , pour la voie droite.
En particulier, si aucun déphasage n'est appliqué, alors MR(k)= ML(k)=M'(k).
E'L est un signal spécifique à la voie gauche, issu de façon connue de l'homme du métier des données résiduelles E'(k) optionnellement transmises, et E'R, un signal spécifique à la voie droite, issu de façon connue de l'homme du métier des données résiduelles E'(k) optionnellement transmises. L'étape d'obtention des données E'L, E'R n'est pas représentée sur la figure 3.
En cas de non transmission de données résiduelles : P(k), Pι= Pfl =0.
WL et WR sont les gains issus de données de spatialisation ILD'(b,n) pour la bande b considérée et la trame n.
Les gains WL et WR peuvent par exemple être déterminés comme suit, par l'intermédiaire de valeurs W'L et WR , lors d'une étape 302 :
2JLD' (b, n)
W'L φ,n) -- l + ILD'(b,n)
2 W'R (b,n) l + ILD'(b,n)
Où ILD'(b,n) est la donnée de spatialisation ILD'(b) reçue pour la trame n.
Est alors effectué lors d'une étape 304 un lissage avec une constante de temps a entre 0 et 1 , par exemple a =0,8, suivant :
WL(b,n) = a.W'L (b,n) + (l-a)WL(b,n -l) , OÙ WL(b,n-l) désigne la valeur obtenue pour la trame précédente.
Pour la voie droite, on peut effectuer lors de l'étape 304 le même lissage : WR(b,n) = a.W'R(b,n) + (l-a).WR(b,n-l) , OÙ WR(b,n - l) désigne la valeur obtenue pour la trame précédente.
Alternativement, on peut utiliser la valeur obtenue pour la voie gauche, selon par exemple :
WR(b,n) = 2 -WR(b,n) Le dispositif de dissimulation 20 permet de parer à des pertes éventuelles de données ILD'(b,n), de sorte que des données WR et WL puissent malgré tout être déterminées. Le dispositif de dissimulation 20 comporte des moyens de réception non représentés pour recevoir lors d'une étape 305 les données de spatialisation ILD'(b,n), ainsi éventuellement que les données monocanal M'(k), et les données résiduelles E'(k). Ces moyens de réception peuvent par exemple comprendre un port d'entrée, des pins d'entrée, ou autre.
Un module de test 22 relié à ces moyens de réception permet de tester lors d'une étape 306 la validité des données de spatialisation ILD'(b). Ce module de test peut mettre en oeuvre une vérification d'un encodage de type CRC, pour vérifier par exemple que la transmission n'a pas entraîné de dégradation des données de spatialisation.
Le module de test 22 peut également lire certaine valeurs (non représentées) extraites du signal S'enc reçu, ces valeurs indiquant des éventuelles suppressions de couches de données transmises. En effet, on peut prévoir que certains éléments du réseau de transmission s'abstiennent de transmettre, en particulier en cas d'engorgement du réseau, ou de réduction de la bande passante du canal de transmission, tel ou tel ensemble de données. Les ensembles de données non transmis peuvent correspondre à des détails sonores par exemple. Lorsque le module de test 22 lit une valeur indiquant une suppression de certaines données, ces données sont considérées comme manquantes.
Le dispositif de dissimulation 20 comporte une unité de mémoire 21 stockant plusieurs jeux d'instructions, chaque jeu d'instructions correspondant à un modèle de prédiction. Par exemple, suivant un premier modèle de prédiction, lorsque des données de spatialisation ILD'(b,n) sont défectueuses pour une trame n et une bande de fréquence b donnée, on choisit
W[l)φ,n) = WL(b,n - l)
W^{b,n) = WR (b,n - \) Les instructions correspondantes consistent alors à recopier les valeurs WRφ,n-ï), WLφ,n-\) obtenues pour la trame précédente.
Par exemple, suivant un deuxième modèle de prédiction, on choisit
W^ φ, n) = β + (l- β)WL φ, n - 1) , et WR {2) φ, n) = β + (l- β)WR φ, n-\), avec β entre 0 et 1.
Ainsi, en cas d'une succession de trames pour lesquelles des données de spatialisation sont défectueuses, W[2)φ,n)e\ W^ φ, n) tendent vers 1, et par conséquent les données audio multicanal S'L(I<), S'R(I<) se rapprochent des données monocanal M'(k). Dit autrement, on gomme peu à peu les effets de spatialisation pour revenir vers un signal monocanal.
Selon un autre exemple de modèle de prédiction, on choisit
Wt3) φ, n) = 2WL φ, n-ï)-WLφ,n-2), et
W™ φ, n) = 2WR φ, n-l)-WRφ,n-2).
Ou bien encore: Wt4)φ,n) = -.WLφ,n-l) + -WLφ,n-2),et
W^φ,n) = ^.WRφ,n-l) + ^-WRφ,n-2).
Ou bien encore on utilise un filtre médian : Wt5)φ,n) = Median(WLφ,n-l),WLφ,n-2),...) , et W^5)φ,n) = Median(WRφ,n-l),WRφ,n- 2),...) . Eventuellement, pour assurer une meilleure stabilité, on utilisera à la place de WLφ,n-i)et WRφ,n-i) respectivement des valeurs atténuées, par exemple 0,9.WLφ,n-i) et 0,9. WR φ, n - /) . On peut prévoir de conserver dans l'unité de mémoire ces valeurs atténuées, pour les utiliser directement en appliquant l'un des modèles exposés ci-dessus. D'autres modèles sont également possibles, par exemple une prédiction plus générale de la forme W[m) = at.WRψ,n-i) , avec un ordre de
Figure imgf000017_0001
prédiction P est possible. Les coefficients at peuvent évoluer dans le temps, et être remis à jour en utilisant une méthode de type Levinson-Durbin.
Ces exemples de modèles conduisent à prédire des valeurs de WL et WR. Alternativement, les modèles peuvent permettre de prédire des valeurs des variables ILD'(b,n), de W'L et W'R, , ou autre.
Par exemple, suivant un modèle de prédiction équivalent au premier modèle exposé ci-dessus, lorsque des données de spatialisation ILD'(b,n) sont manquantes pour une trame n et une bande de fréquence b donnée, on choisit ILD'(b,n)=ILD'(b,n-1 ). L'instruction correspondante consiste alors à recopier cette valeur ILD'(b,n-1) obtenue pour la trame précédente.
Un module d'estimation 23 permet d'exécuter les instructions des différents jeux d'instruction. Ce module 23 est activé par exemple pour chaque trame telle que les données de spatialisation ILD'(b,n) correspondantes sont considérées comme valides par le module de test 22, ou bien encore seulement pour les trames considérées comme valides et qui précèdent une trame considérée comme défectueuse.
Lorsque ce module 23 est activé, tous les jeux d'instructions stockés sont exécutés, lors d'étapes 307 répétées dans une boucle parcourant les jeux d'instructions, avec les étapes classiques d'initialisation, de test et d'incrémentation, de façon à d'obtenir un ensemble de valeurs Ji^ '"',W^ "0J, m indiçant le modèle utilisé.
Un module de sélection 24 permet de choisir un de ces modèles en confrontant les valeurs de spatialisation prédites jw^"0,^"0} avec des valeurs de spatialisation estimées WL, WR à partir des données de spatialisation effectivement reçues ILD'(b,n).
Par exemple, pour chaque modèle, on peut calculer lors d'étapes 308 des valeurs de ressemblance σL 2 m , σR 2 m , à partir de valeurs prédites W["ι) (b, n) , WR (m) φ,n) et à partir de valeurs estimées WL(b,n) , WR(b,n) . Les valeurs de ressemblance peuvent par exemple comprendre la variance de chaque prédiction : σL 2 m = E[(WL(b,n)
Figure imgf000018_0001
E représentant l'espérance mathématique, selon par exemple :
Figure imgf000018_0002
On utilise ainsi une séquence de N trames reçues pour déterminer N valeurs W[m)(b,n) e\ les comparer à N valeurs estimées WL(b,n) .
Une formule équivalente s'applique pour la voie droite. Alternativement, on peut prévoir de calculer une variance de façon récursive, par exemple suivant, pour chaque voie : σ%
Figure imgf000018_0003
(n), où α est ici une constante de temps par exemple égale à 0.975, et σl,n désigne l'estimation de la variance à la trame n. Selon un mode de réalisation alternatif et non représenté, au lieu d'estimer la variance, on estime une vraisemblance des données Wt (m),WΛ (m) vis-à-vis des données WL, WR obtenues à partir des valeurs effectivement reçues. On peut par exemple utiliser un ensemble d'estimateurs : P,!; = P<Wt}(b,n)/WL(b,n)) et P* = P(W<m)(b,n)/WR (b,n)) .
Par comparaison des estimateurs de type σl ou P1n , on peut choisir le modèle de prédiction pour lequel la valeur de ressemblance indique une plus grande adéquation entre valeurs prédites et valeurs estimées. Par exemple, on détermine l'index m* du modèle donnant la meilleure dissimulation: ce sera l'index qui minimisera σi ou maximisera pm dans un autre mode de réalisation. A des fins de simplicité, on peut prévoir de choisir l'index qui minimisera σl sur une seule des voies, par exemple la voie gauche.
Cette valeur m constitue un identifiant du modèle de prédiction choisi et est stockée dans l'unité de mémoire 21 lors d'une étape 309. II est clair que les étapes 307 peuvent être exécutées avant les étapes 302, 304, ou bien encore en parallèle. Chaque étape 308 met ici en jeu des valeurs obtenues lors de l'étape 304, et est donc exécutée postérieurement à cette étape 304.
Le dispositif de dissimulation 20 comprend en outre un module de prédiction 25, pour, en cas de réception de données de spatialisation considérées comme défectueuses, prédire lors d'une étape 310 selon le modèle identifié par la valeur m des valeurs de spatialisation W^ (b, n) et
Figure imgf000019_0001
Cette valeur est fournie aux moyens de reconstruction multicanal 27, lesquels sont alors à même de reconstruire lors de l'étape 300 les données multicanal S'ι_(k), S'R(k) malgré les défauts des données de spatialisation.
Des moyens de transformation fréquence-temps 28, par exemple des DSPs, permettent de retrouver des données audio temporelles S'L(Π), S'R(Π) à partir des données multicanal S'ι_(k), S'R(k) reconstruites. La figure 4 montre un tracé représentant un exemple d'évolution de la valeur WL(b,n) pour la deuxième sous-bande de fréquences, c'est-à-dire b=1. En abscisse figure l'index de trame n, et en ordonnée les valeurs WL(1 ,n).
Pour la portion A correspondant grossièrement aux trames entre la 500 ιème et (a 81o'ème trameS) |es valeurs de WL(1 ,n) sont pour la plupart égales à 1 , ce qui correspond à un signal sonore relativement monophonique.
Pour la portion B, les valeurs de WL(1 ,n) correspondent à un signal localisé à gauche, tandis que pour la portion C, les valeurs de WL(1 ,n) correspondent à un signal localisé à droite.
Pour la portion D, les valeurs de WL(1 ,n) correspondent à une pluralité de sources sonores localisées à divers emplacements. Le meilleur modèle de prédiction choisi peut varier selon le type des variations du gain.
Ainsi, pour la portion A, le modèle consistant à répéter la valeur obtenue pour la trame précédente conduirait à répéter à tort les pics de valeurs de WL(1 ,n). Un modèle plus judicieux consisterait à choisir une valeur arbitraire correspondant à un signal monocanal, ou bien à pondérer le gain obtenu pour la trame précédente de façon à se rapprocher peu à peu d'un gain de 1.
En revanche, pour les portions B et C, l'approche la plus judicieuse peut consister à répéter la valeur de gain obtenue pour la trame précédente.
Pour la portion D, lorsque l'évolution du gain est relativement lente, et donc relativement prédictible, une approche judicieuse consisterait à effectuer une moyenne pondérée des gains obtenus pour P trames précédentes. Lorsque les paramètres stéréo évoluent plus rapidement, l'approche la plus judicieuse consisterait à revenir vers un signal monocanal afin d'éviter tout artefact.
Ainsi, le modèle le plus judicieux peut changer selon le type de variations du gain d'une trame à l'autre. Le procédé de la figure 3 permet de sélectionner, sans intervention humaine, le modèle de prédiction le plus adapté.
Cette sélection du modèle de prédiction le plus adapté permet d'obtenir une dissimulation de meilleure qualité en cas de données défectueuses.
La figure 5 montre un ordinateur comprenant un écran 502, un clavier, et une unité centrale. Cette unité centrale comporte une mémoire 500 pour stocker un programme d'ordinateur comprenant des instructions correspondant aux étapes du procédé décrit ci-dessus. Cette unité centrale comporte en outre un processeur 501 relié à la mémoire 500, pour exécuter ces instructions.

Claims

REVENDICATIONS
1. Procédé de traitement de données sonores, pour la reconstruction de données audio multicanal à partir au moins de données sur un nombre de canaux restreint et de données de spatialisation, ledit procédé comprenant une étape de test (306) de validité de données de spatialisation d'une trame reçue, et, si ledit test montre que lesdites données de spatialisation reçues sont valables, des étapes de : a/ par modèle respectif d'une pluralité de modèles de prédiction, prédiction selon ledit modèle d'une valeur de spatialisation (307), et b/ choix d'un modèle de prédiction, à partir des valeurs de spatialisation ainsi prédites et à partir des données de spatialisation reçues, de façon à pouvoir, en cas de réception ultérieure de données de spatialisation défectueuses, prédire selon ledit modèle choisi une valeur de spatialisation et utiliser ladite valeur de spatialisation prédite pour la reconstruction des données audio multicanal.
2. Procédé selon la revendication 1 , comprenant en outre, si le test montre que les données de spatialisation reçues sont valables, et préalablement à l'étape a/, une étape de stockage des dites données de spatialisation valables, et dans lequel l'étape b/ est effectuée en cas de réception ultérieure de données de spatialisation défectueuses, à partir des dites données de spatialisation stockées.
3. Procédé selon la revendication 2, dans lequel l'étape a/ est effectuée en cas de réception ultérieure de données de spatialisation défectueuses, à partir des dites données de spatialisation stockées.
4. Procédé selon la revendication 1 , dans lequel les étapes a/ et b/ sont systématiquement effectuées suite à la réception d'une trame valide, le procédé comprenant en outre, suite à rétape b/, une étape d'écriture en mémoire d'un identifiant du modèle de prédiction choisi.
5. Procédé selon la revendication 1 , dans lequel la valeur de spatialisation prédite comprend un gain (W[m)).
6. Procédé selon la revendication 1 , dans lequel la valeur de spatialisation prédite comprend un retard.
7. Procédé selon la revendication 1 , dans lequel, lors de l'étape b/ : par modèle respectif de la pluralité de modèles, on calcule une valeur de ressemblance (σ£m , σ£m), à partir d'une part de la valeur de spatialisation prédite suivant ledit modèle {WL {m) (b,n) ,WR {m) φ,n)), et d'autre part d'une valeur estimée (WL(b,n) ,WR(b,n) ) à partir des données de spatialisation reçues, et on choisit le modèle de prédiction pour lequel ladite valeur de ressemblance indique une plus grande adéquation entre la valeur de spatialisation prédite et ladite valeur estimée.
8. Procédé selon la revendication 7, dans lequel lors des étapes a/ et b/ : par trame d'une séquence de trames reçues, et pour au moins un modèle de la pluralité de modèles, on prédit selon ledit modèle une valeur de spatialisation {W[m)(b,n) ,W<n)(b,n)), et, pour ledit modèle, la valeur de ressemblance (σL 2 m , σR 2 m) est calculée à partir d'une part de la séquence de valeurs de spatialisation prédites suivant ledit modèle, et d'autre part d'une séquence de valeurs estimées (WL(b,n) ,WR(b,n) ) à partir des données de spatialisation de la séquence de trames reçues.
9. Procédé selon la revendication 1 , dans lequel, l'étape a/ est effectuée pour des données de spatialisation correspondant à une bande de fréquences (b) donnée.
10. Programme d'ordinateur comportant des instructions pour la mise en oeuvre du procédé selon la revendication 1 , lorsque lesdites instructions sont exécutées par un processeur.
11. Dispositif de dissimulation (20) de données de spatialisation défectueuses, comprenant une unité de mémoire (21) pour stocker une pluralité de jeux d'instructions, chaque jeu d'instructions correspondant à un modèle de prédiction, des moyens de réception pour recevoir des données de spatialisation, un module de test (22) de la validité des données de spatialisation reçues par les moyens de réception, un module d'estimation (23) apte à, en cas de réception de données de spatialisation détectées comme valables par le module de détection, et par jeu d'instructions stocké dans l'unité de mémoire, exécuter ledit jeu d'instructions de façon à prédire une valeur de spatialisation, et un module de sélection (24) pour choisir un modèle de prédiction, à partir des valeurs de spatialisation prédites par le module d'estimation et à partir des données de spatialisation reçues par les moyens de réception, le dispositif de dissimulation comportant en outre un module de prédiction (25) agencé pour, en cas de réception ultérieure de données de spatialisation considérées comme défectueuses par le module de détection, prédire une valeur de spatialisation selon ledit modèle choisi par le module de sélection.
12. Appareil de reconstruction (26) de données audio multicanal, ledit appareil comportant des moyens de reconstruction multicanal (27), pour reconstruire des données audio multicanal à partir au moins de données monocanal, le dispositif de dissimulation (20) selon la revendication 11 , dans lequel le module de prédiction (25) est agencé pour, en cas de réception de données de spatialisation considérées comme défectueuses par le module de détection, fournir la valeur de spatialisation prédite aux moyens de reconstruction multicanal pour la reconstruction des données audio multicanal.
PCT/FR2009/051304 2008-07-30 2009-07-03 Reconstruction de donnees audio multicanal WO2010012927A1 (fr)

Priority Applications (6)

Application Number Priority Date Filing Date Title
ES09802568T ES2387869T3 (es) 2008-07-30 2009-07-03 Reconstrucción de datos de audio multicanal
AT09802568T ATE557387T1 (de) 2008-07-30 2009-07-03 Rekonstruktion von mehrkanal-audiodaten
CN200980134855.0A CN102138177B (zh) 2008-07-30 2009-07-03 多通道音频数据的重构
JP2011520560A JP5421367B2 (ja) 2008-07-30 2009-07-03 多重チャンネルオーディオデータの再構成
EP09802568A EP2319037B1 (fr) 2008-07-30 2009-07-03 Reconstruction de données audio multicanal
US13/056,169 US8867752B2 (en) 2008-07-30 2009-07-03 Reconstruction of multi-channel audio data

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0855249 2008-07-30
FR0855249 2008-07-30

Publications (1)

Publication Number Publication Date
WO2010012927A1 true WO2010012927A1 (fr) 2010-02-04

Family

ID=40276118

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2009/051304 WO2010012927A1 (fr) 2008-07-30 2009-07-03 Reconstruction de donnees audio multicanal

Country Status (8)

Country Link
US (1) US8867752B2 (fr)
EP (1) EP2319037B1 (fr)
JP (1) JP5421367B2 (fr)
KR (1) KR101590919B1 (fr)
CN (1) CN102138177B (fr)
AT (1) ATE557387T1 (fr)
ES (1) ES2387869T3 (fr)
WO (1) WO2010012927A1 (fr)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012025431A3 (fr) * 2010-08-24 2012-04-19 Dolby International Ab Dissimulation de réception mono intermittente de récepteurs de radio fm stéréo
WO2013186344A2 (fr) * 2012-06-14 2013-12-19 Dolby International Ab Commutation douce de configurations pour un rendu audio multicanal sur la base d'un nombre variable de canaux reçus

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5333257B2 (ja) * 2010-01-20 2013-11-06 富士通株式会社 符号化装置、符号化システムおよび符号化方法
EP2862166B1 (fr) * 2012-06-14 2018-03-07 Dolby International AB Stratégie de dissimulation des erreurs dans un système de décodage
CN105074818B (zh) 2013-02-21 2019-08-13 杜比国际公司 音频编码系统、用于产生比特流的方法以及音频解码器
CN104282309A (zh) 2013-07-05 2015-01-14 杜比实验室特许公司 丢包掩蔽装置和方法以及音频处理系统
CN107886960B (zh) * 2016-09-30 2020-12-01 华为技术有限公司 一种音频信号重建方法及装置
US10043523B1 (en) 2017-06-16 2018-08-07 Cypress Semiconductor Corporation Advanced packet-based sample audio concealment
US20220199098A1 (en) * 2019-03-29 2022-06-23 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for low cost error recovery in predictive coding
WO2021232376A1 (fr) * 2020-05-21 2021-11-25 华为技术有限公司 Procédé de transmission de données audio et dispositif associé

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050182996A1 (en) * 2003-12-19 2005-08-18 Telefonaktiebolaget Lm Ericsson (Publ) Channel signal concealment in multi-channel audio systems

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6006173A (en) * 1991-04-06 1999-12-21 Starguide Digital Networks, Inc. Method of transmitting and storing digitized audio signals over interference affected channels
DE4111131C2 (de) * 1991-04-06 2001-08-23 Inst Rundfunktechnik Gmbh Verfahren zum Übertragen digitalisierter Tonsignale
DE19526366A1 (de) * 1995-07-20 1997-01-23 Bosch Gmbh Robert Verfahren zur Redundanzreduktion bei der Codierung von mehrkanaligen Signalen und Vorrichtung zur Dekodierung von redundanzreduzierten, mehrkanaligen Signalen
US6181800B1 (en) * 1997-03-10 2001-01-30 Advanced Micro Devices, Inc. System and method for interactive approximation of a head transfer function
US6154452A (en) * 1999-05-26 2000-11-28 Xm Satellite Radio Inc. Method and apparatus for continuous cross-channel interleaving
US7110452B2 (en) * 2001-03-05 2006-09-19 Intervideo, Inc. Systems and methods for detecting scene changes in a video data stream
SE527866C2 (sv) * 2003-12-19 2006-06-27 Ericsson Telefon Ab L M Kanalsignalmaskering i multikanalsaudiosystem
US7394903B2 (en) * 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
SE0402651D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods for interpolation and parameter signalling
RU2007143418A (ru) * 2005-05-25 2009-05-27 Конинклейке Филипс Электроникс Н.В. (Nl) Кодирование с предсказанием многоканального сигнала

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050182996A1 (en) * 2003-12-19 2005-08-18 Telefonaktiebolaget Lm Ericsson (Publ) Channel signal concealment in multi-channel audio systems

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012025431A3 (fr) * 2010-08-24 2012-04-19 Dolby International Ab Dissimulation de réception mono intermittente de récepteurs de radio fm stéréo
CN103098131A (zh) * 2010-08-24 2013-05-08 杜比国际公司 调频立体声无线电接收器的间歇单声道接收的隐藏
US9237400B2 (en) 2010-08-24 2016-01-12 Dolby International Ab Concealment of intermittent mono reception of FM stereo radio receivers
WO2013186344A2 (fr) * 2012-06-14 2013-12-19 Dolby International Ab Commutation douce de configurations pour un rendu audio multicanal sur la base d'un nombre variable de canaux reçus
WO2013186344A3 (fr) * 2012-06-14 2014-02-06 Dolby International Ab Commutation douce de configurations pour un rendu audio multicanal sur la base d'un nombre variable de canaux reçus

Also Published As

Publication number Publication date
EP2319037A1 (fr) 2011-05-11
KR20110065447A (ko) 2011-06-15
JP2011529579A (ja) 2011-12-08
CN102138177B (zh) 2014-05-28
EP2319037B1 (fr) 2012-05-09
US20110129092A1 (en) 2011-06-02
ATE557387T1 (de) 2012-05-15
ES2387869T3 (es) 2012-10-03
KR101590919B1 (ko) 2016-02-02
CN102138177A (zh) 2011-07-27
JP5421367B2 (ja) 2014-02-19
US8867752B2 (en) 2014-10-21

Similar Documents

Publication Publication Date Title
EP2319037B1 (fr) Reconstruction de données audio multicanal
EP1600042B1 (fr) Procede de traitement de donnees sonores compressees, pour spatialisation
EP2374123B1 (fr) Codage perfectionne de signaux audionumeriques multicanaux
EP2002424B1 (fr) Dispositif et procede de codage scalable d&#39;un signal audio multi-canal selon une analyse en composante principale
EP2489039B1 (fr) Codage/décodage paramétrique bas débit optimisé
EP0002998B1 (fr) Procédé de compression de données relatives au signal vocal et dispositif mettant en oeuvre ledit procédé
EP2374124B1 (fr) Codage perfectionne de signaux audionumériques multicanaux
EP1794748B1 (fr) Procédé de traitement de données par passage entre domaines différents de sous-bandes
EP2005420B1 (fr) Dispositif et procede de codage par analyse en composante principale d&#39;un signal audio multi-canal
EP2042001B1 (fr) Spatialisation binaurale de donnees sonores encodees en compression
FR2966634A1 (fr) Codage/decodage parametrique stereo ameliore pour les canaux en opposition de phase
EP2304721B1 (fr) Synthese spatiale de signaux audio multicanaux
WO2017103418A1 (fr) Traitement de réduction de canaux adaptatif pour le codage d&#39;un signal audio multicanal
EP3025514A1 (fr) Spatialisation sonore avec effet de salle
EP2203915B1 (fr) Dissimulation d&#39;erreur de transmission dans un signal numerique avec repartition de la complexite
EP2126905B1 (fr) Procédés et dispositifs d&#39;encodage et décodage de signaux audio, signal audio encodé
EP4042418B1 (fr) Détermination de corrections à appliquer a un signal audio multicanal, codage et décodage associés
WO2023285748A1 (fr) Quantification vectorielle spherique optimisee
WO2009081002A1 (fr) Traitement d&#39;un flux audio 3d en fonction d&#39;un niveau de presence de composantes spatiales
WO2015145050A1 (fr) Estimation d&#39;un bruit de codage introduit par un codage en compression de type micda

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200980134855.0

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09802568

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 13056169

Country of ref document: US

ENP Entry into the national phase

Ref document number: 2011520560

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2009802568

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 20117004404

Country of ref document: KR

Kind code of ref document: A