WO2005051001A2 - Procede de codage video par descriptions multiples - Google Patents

Procede de codage video par descriptions multiples Download PDF

Info

Publication number
WO2005051001A2
WO2005051001A2 PCT/FR2004/050592 FR2004050592W WO2005051001A2 WO 2005051001 A2 WO2005051001 A2 WO 2005051001A2 FR 2004050592 W FR2004050592 W FR 2004050592W WO 2005051001 A2 WO2005051001 A2 WO 2005051001A2
Authority
WO
WIPO (PCT)
Prior art keywords
frames
video
multiple description
descriptions
encoding
Prior art date
Application number
PCT/FR2004/050592
Other languages
English (en)
Other versions
WO2005051001A3 (fr
Inventor
Béatrice PESQUET-POPESCU
Christophe Tillier
Original Assignee
Get - Enst
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from FR0313405A external-priority patent/FR2862470A1/fr
Application filed by Get - Enst filed Critical Get - Enst
Publication of WO2005051001A2 publication Critical patent/WO2005051001A2/fr
Publication of WO2005051001A3 publication Critical patent/WO2005051001A3/fr

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/39Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability involving multiple description coding [MDC], i.e. with separate layers being structured as independently decodable descriptions of input picture data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • H04N19/615Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding using motion compensated temporal filtering [MCTF]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • H04N19/619Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding the transform being operated outside the prediction loop
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/62Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding by frequency transforming in three dimensions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/63Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/13Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]

Definitions

  • the present invention relates to the field of image processing.
  • the present invention relates more particularly to a method of video coding by multiple descriptions.
  • the transmission of group of frames (GOF) video in telecommunications networks whose protocol operates on the principle of packet switching (for example, a network type IP or Internet Protocol) raises specific issues. Indeed, a person skilled in the art who seeks to optimize the transmission of video within such networks is confronted with very specific constraints. In this type of network, each GOF of a video is divided into different packets which will be routed individually.
  • GAF group of frames
  • the problems mentioned above are solved by using, in a way in conjunction with the IP network layer protocol, the extremely classic transport control protocol TCP (Transmission Control Protocol), which provides for acknowledgment of packets and a request for re-transmission in the case of defective or missing packets.
  • TCP Transmission Control Protocol
  • the retransmission does not resolve anything because the packet would arrive too late to be processed.
  • certain error correcting codes are very effective, these codes have the disadvantage of being costly in computation time.
  • These corrective codes do not in any way solve the problem of the loss or too late arrival of a package. Thus, it becomes necessary to provide more sophisticated mechanisms in order to resolve the transmission difficulties mentioned above and to guarantee a higher quality of service.
  • a video sequence is temporally indexed xn, xi, ..., Xt-i,% -t r - From a frame group with 3 components x 3 t-: X3tf x-it + ir we construct 3 sub-bands h t + , h t ⁇ and 2 fc , from the front and rear prediction operators P and the front and rear update operators U (Update).
  • h t + and h t ⁇ are detail sub-bands and l t is an approximation sub-band. This breakdown corresponds to a known lifting scheme.
  • the solution proposed here is therefore to strongly accentuate the redundancy on l t by sending twice this sub-band: once with the h t ⁇ sub-band and once with the h t + sub-band.
  • Two coders C1 and C2 are therefore introduced, the coder Cl coding the couple (l t , h t ⁇ ) and the coder C2 (I t , h t + ) for all t.
  • This prior art solution allows reconstruction with the original quality if no packet is lost, and a degraded solution (with one sub-band of details less) if one of the two packets is lost.
  • the present invention intends to propose an original multiple description method while reducing the number of frames sent.
  • the solution of the invention also makes it possible to obtain a better quality image compared to a robust coding in the event of reception of all the intact descriptions.
  • the present invention is of the type described above and it is remarkable, in its broadest sense, in that it relates to a video encoding method by multiple description from a group of frames comprising M input frames including: a step of generating M frequency sub-bands from said M input frames, a step of encoding the frames corresponding to said M frequency sub-bands in N distinct descriptions, characterized in that said M frames of input have at least time redundancy.
  • said M frequency sub-bands comprise at least one low-frequency sub-band called the approximation sub-band.
  • said M frequency sub-bands comprise at least one high frequency sub-band called the detail sub-band.
  • the number M of input frames is equal to 3. Said time redundancy is then introduced on the input frames of even index and the description number N is equal to 2.
  • said two descriptions correspond on the one hand to groups of redundant input frames of even index and on the other hand to groups of redundant input frames of odd index.
  • said M input frames correspond to M frames corresponding to M low frequency sub-bands in a temporal decomposition.
  • said M input frames correspond to a sequence resulting from a temporal decomposition.
  • it further comprises at least one step of temporal decomposition.
  • the invention also relates to a system for encoding and decoding video by multiple description of a video sequence
  • a system for encoding and decoding video by multiple description of a video sequence comprising at least two encoders for encoding the at least two descriptions associated with said video sequence, at least two transmission channels for the transmission of said at least two descriptions, characterized in that it further comprises: - at least two lateral decoders each receiving one of said at least two descriptions, each of said at least two lateral decoders having means for the interpolation of non-frame received from a set of received frames; - a central decoder receiving said at least two descriptions.
  • said central decoder is capable, on receipt of said at least two descriptions, of performing an averaging of the frames synchronized in time to create a new frame.
  • FIG. 1 represents the 3-band lifting diagram used for the MDC algorithm according to the prior art
  • FIG. 2 represents the 2-band lifting diagram applied to a video subsampled by a factor 2 according to the invention
  • FIG. 3 represents the functional coding and decoding diagram according to the invention
  • FIG. 4 represents the construction of the 2 descriptions according to the prior art
  • FIG. 5 represents the construction of the 2 descriptions according to the invention
  • FIG. 6 is a graphic representation of two descriptions obtained according to the invention
  • FIG. 7 represents the time synchronization of the frames on two levels description according to a first embodiment
  • FIG. 8 represents the sending of multi-resolution tapes in the form of a tree
  • FIG. 9 represents the time synchronization of the frames on two levels of description according to a second embodiment.
  • the multiple description coding method according to the invention uses for example the 3-band diagram seen previously by applying it to a video whose frames would have undergone a subsampling by a factor of 2, as illustrated in FIG. 2.
  • a first description D1 then transmits the sub-bands resulting from the processing of the groups of frames for an odd time index t, and in a second description D2, the sub-bands originating from the processing of the groups of frames for a even time index t.
  • These two descriptions are obtained at the output of two associated encoders C1 and C2 and are transmitted on two separate transmission channels.
  • decoding is achieved by two lateral decoders Decl and Dec2 corresponding to the two transmission channels, and by a central decoder DécO for decoding in the event of reception of the two descriptions.
  • a non-robust encoder does not introduce redundancy and therefore codes for example according to a three-dimensional scheme. bands the approximation and detail components for groups of frames with three frames (line 2).
  • FIGS. 5 and 6 easily show that it is possible to reconstruct 3 out of 4 frames of the original sequence.
  • the missing frames are for example interpolated from their neighbors reconstructed by averaging these motion compensated frames.
  • the method applies to any description in frequency sub-bands starting for example from one or more low frequency sub-bands (approximation band in the embodiment described) and from one or more sub-bands. high frequency bands (detail bands)
  • the previous method of multiple description is then applied with several decomposition stages, with several possible embodiments.
  • the redundant first stage is created according to the method described above, and this method is iterated on the frames of the approximation sub-bands or more generally on the low-frequency sub-bands.
  • the first stages are obtained with a non-redundant decomposition, and redundancy is introduced at the last stage of the decomposition.
  • this component forms the new sequence, and the method is iterated.
  • the number of frames sent is evaluated. If L is the initial length of the sequence, there are 2 * 1/2 * L frames of details sent to the first level (for descriptions 1 and 2) and 1/2 * L frames of approximation.
  • the groups of frames are distributed alternately between the two descriptions and without redundancy (absence of dotted lines at the first level), as illustrated in the first descriptions of FIG. 9.
  • redundancy is only introduced at the last level of decomposition after having interleaved the approximation sub-bands.
  • this temporal redundancy is visible on the second level (dotted lines).
  • the number of detail frames at the first level is 2/3 * L (since without redundancy, there are two detail bands per group of 3 frames).
  • the new groups of frames being made up of the 1/3 * L interlaced approximation sub-bands, the total number of frames created at the second level is l / 3 * 3/2 * L.
  • redundancy being introduced at the last level of decomposition j ma ⁇ and according to the multi-resolution scheme in Figure 7, there is therefore (1 + (1/3) A j ma ⁇ * 3 * 2) * L frames sent which makes it possible to obtain a redundancy factor close to 1 for a large number of decomposition stages.
  • the reconstruction is carried out as follows: if we receive the two descriptions, the last stage is reconstructed with very good quality because of the redundant frames, and we then have all the frames to perform a reconstruction perfect.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

La présente invention se rapporte au domaine du traitement des images. La présente invention se rapporte plus particulièrement à un procédé de codage vidéo par descriptions multiples. Elle concerne un procédé d'encodage vidéo par description multiple à partir d'un groupe de trames comportant M trames d'entrée comprenant une étape de génération de M sous-bandes de fréquence à partir desdites M trames d'entrée, une étape d'encodage des trames correspondant aux dites M sous-bandes de fréquence en N descriptions distinctes, caractérisé en ce que lesdites M trames d'entrée comportent au moins une redondance temporelle.

Description

PROCÉDÉ DE CODAGE VIDÉO PAR DESCRIPTIONS MULTIPLES
La présente invention se rapporte au domaine du traitement des images .
La présente invention se rapporte plus particulièrement à un procédé de codage vidéo par descriptions multiples. La transmission de groupes de trames (GOF - Group Of Frames) vidéo dans des réseaux de télécommunications dont le protocole fonctionne suivant le principe de la commutation de paquets (par exemple, un réseau de type IP ou Internet Protocol) soulève des problématiques spécifiques. En effet, l'homme du métier qui cherche à optimiser la transmission de la vidéo au sein de tels réseaux est confronté à des contraintes très particulières. Dans ce type de réseau, chaque GOF d'une vidéo est divisé en différents paquets qui seront routés individuellement. Différentes raisons peuvent causer les difficultés suivantes : certains paquets n'arrivent pas, par exemple en cas de panne d'un équipement du réseau, ou en cas d' expiration du paramètre TTL - Time To Live - entraînant la destruction du paquet ; - certains paquets arrivent, mais contiennent des erreurs, qui sont généralement et non nécessairement détectées par un code détecteur d' erreurs de type CRC (Cycllc Redundancy Code) ; certains paquets arrivent trop tard pour être traités, par exemple dans une application de type streaming, dans laquelle le flux est traité en temps réel .
Dans de nombreuses applications, les problèmes évoqués ci-dessus sont résolus grâce à l'utilisation, de façon conjointe au protocole de couche réseau IP, du protocole extrêmement classique de couche transport TCP ( Transmission Control Protocol) , qui prévoit des acquittements des paquets ainsi qu'une demande de ré-émission dans les cas de paquets défectueux ou manquants. Toutefois, dans le cas particulier des applications dans le domaine de la vidéo, la ré-émission ne résout rien car le paquet arriverait trop tard pour être traité. De plus, si certains codes correcteurs d'erreurs sont très efficaces, ces codes présentent l'inconvénient d'être coûteux en temps de calcul. Ces codes correcteurs ne permettent en aucune manière de résoudre le problème de la perte ou de l'arrivée trop tardive d'un paquet. Ainsi, il devient nécessaire de prévoir des mécanismes plus sophistiqués afin de résoudre les difficultés de transmission évoqués précédemment et de garantir une qualité de service plus élevée. On notera que la conséquence de la perte d'un paquet dépendra beaucoup de la sous-bande spatiotemporelle que code ce paquet, la problématique. Ainsi, le problème technique que la présente invention se propose de résoudre, celui de l'optimisation de la transmission de la vidéo dans un réseau à commutation par paquets, est directement lié à l'organisation hiérarchique du bitstream à la sortie du codeur ondelette 3D. L'état de la technique connaît le codage à description multiple (MDC) . C'est une solution possible pour ce type de communication. Le codage à description multiple prévoit un certain ré-ordonnancement des paquets à transmettre, ainsi que l'ajout d'une certaine redondance. Avec un codage MDC, si tous les paquets sont bien réceptionnés, on doit naturellement pouvoir recréer la vidéo avec la qualité originale, et si un paquet est perdu, on doit essayer de minimiser la perte de qualité engendrée par cette perte. Une autre contrainte, importante à considérer dans le cadre de la présente invention, se rapporte à la complexité de l'algorithme. Le codage par ondelettes 3D offre une scalabilité « naturelle » qui engendre un coût de calcul très réduit. Ce type de codage permet donc à un serveur de diffuser une même vidéo à différents équipements à travers des réseaux hétérogènes sans surcharge de calcul. Un des objectifs de la présente invention est de conserver cet objectif pour le MDC "et prévoir des algorithmes qui possèdent des coûts très légers en termes de calculs.
Dans ce domaine du codage vidéo pour la transmission, on connaît dans l'état de la technique, les publications suivantes : - « Motion-compensated 3-D subband coding of video » (S.J. Choi, J.W. Woods, IEEE Transactions on Image Processing, vol. 8, pages 155-167, 1999) ; « Three-dimensional lifting schemes for motion compensated video compression » (B. Pesquet-Popescu, V. Bottreau, ICASSP 2001, Sait Lake City, Utah, mai 2001) ; « Weighted Average Spatio-Temporal Update Operator for Subband Video Coding » (C. Tillier, B. Pesquet-Popescu, article à paraître en cours de finalisation) ; « Scalable video compression with temporal lifting using 5/3 filters » (C. Tillier, B. Pesquet-Popescu, article invité, PCS 2003, Saint-Malo, 23-25 avril 2003) ; « Motion compensation and scalabili ty in lifting- based video coding » (G. Pau, C. Tillier, B. Pesquet- Popescu, H. Heijmans, article invité à la revue Image Communication) ; « M-band nonlinear subband décompositions with perfect reconstruction » (F.J Hampson, J-C Pesquet, IEEE Transactions on Image Processing, vol.7, pages 1547 à 1560, 1998) ; « 3D, 3-band, 3-tap temporal lifting for scalable video coding » (C. Tillier, B. Pesquet-Popescu, ICIP 2003, Barcelone, 14-17 septembre 2003) ; « Bidirectional predict-update 3-band schemes » (C. Tillier, B. Pesquet-Popescu, M. Van der Schaar, article soumis à ICASSP 2004) .
En particulier, par la publication scientifique « Multiple description scalable coding using wavelet-based motion compensated temporal filtering » (Mihaela Van der Schaar, Deepak S. Turaga, ICIP 2003, Barcelone, 14-17 septembre 2003), l'art antérieur un codage à description multiple basé sur une décomposition temporelle 3-bandes, illustré Figure 1.
En référence à cette figure, une séquence vidéo est indexée temporellement xn, xi, ..., Xt-i, %-tr — A partir d'un groupe de trame à 3 composantes x3t-: X3tf x-it+ir on construit 3 sous-bandes ht + , ht ~ et 2fc, à partir des opérateurs de prédiction avant et arrière P et des opérateurs de mise à jour avant et arrière U (Update) . Selon cette décomposition, ht + et ht ~ sont des sous-bandes de détail et lt est une sous- bande d'approximation. Cette décomposition correspond à un schéma de lifting connu.
Sans MDC, on a donc à transmettre les sous-bandes de détails ht + et ht ~ et la sous-bande d'approximation lt. Il est évident que, si l'on envoie de cette manière la vidéo, et que l'on perd un paquet contenant toute ou partie de l'information lt, les conséquences sur la qualité finale de la reconstruction seront catastrophiques .
La solution proposée ici est donc d'accentuer fortement la redondance sur lt en envoyant deux fois cette sous-bande : une fois avec la sous-bande ht ~ et une fois avec la sous-bande ht +. On introduit donc deux codeurs Cl et C2, le codeur Cl codant le couple (lt, ht ~) et le codeur C2 (It, ht +) pour tout t.
Cette solution de l'art antérieur permet une reconstruction avec la qualité originale si aucun paquet ne se perd, et une solution dégradée (avec une sous-bande de détails en moins) si un des deux paquets se perd.
Cependant, comme c'est remarquable sur la figure 4 représentant le codage en deux descriptions d'une séquence originale de 9 trames selon le procédé décrit précédemment, l'envoi sur les deux descriptions de la bande d' approximation 1 induit une redondance finale très élevée et presque égale à 2 fois l'envoi de toutes les trames originales .
Par ailleurs, il faut noter qu'en cas de réception des deux descriptions intactes, la qualité de l'image n'est pas améliorée.
La présente invention entend proposer une méthode de description multiple originale tout en réduisant le nombre de trame envoyé. La solution de l'invention permet également d' obtenir une image de meilleure qualité par rapport à un codage robuste en cas de réception de toutes les descriptions intactes. Pour ce faire, la présente invention est du type décrit ci-dessus et elle est remarquable, dans son acception la plus large, en ce qu'elle concerne un procédé d'encodage vidéo par description multiple à partir d'un groupe de trames comportant M trames d'entrée comprenant : une étape de génération de M sous-bandes de fréquence à partir desdites M trames d'entrée, une étape d'encodage des trames correspondant aux dites M sous-bandes de fréquence en N descriptions distinctes, caractérisé en ce que lesdites M trames d'entrée comportent au moins une redondance temporelle .
De préférence, lesdites M sous-bandes de fréquences comprennent au moins une sous-bande basse fréquence dite sous-bande d' approximation.
Avantageusement, lesdites M sous-bandes de fréquences comprennent au moins une sous-bande haute fréquence dite sous-bande de détail.
Selon un mode de réalisation, le nombre M de trames d'entrée est égal à 3. Ladite redondance temporelle est alors introduite sur les trames d' entrée d' indice pair et le nombre de description N est égal à 2.
De préférence, lesdites deux descriptions correspondent d'une part aux groupes de trames d'entrée redondant d' indice pair et d' autre par aux groupes de trames d'entrée redondant d'indice impair.
Avantageusement, lesdites M trames d'entrée correspondent à M trames correspondant à M sous-bandes de basse fréquence dans une décomposition temporelle. De préférence, lesdites M trames d'entrée correspondent à une séquence issue d'une décomposition temporelle . Selon un mode de mise en œuvre, il comprend en outre au moins une étape de décomposition temporelle.
L'invention concerne également un système pour l'encodage et le décodage vidéo par description multiple d'une séquence vidéo comprenant au moins deux encodeurs pour l'encodage des au moins deux descriptions associées à ladite séquence vidéo, au moins deux canaux de transmission pour la transmission desdites au moins deux descriptions, caractérisé en ce qu'il comprend en outre : - au moins deux décodeurs latéraux recevant chacun une desdites au moins deux description, chacun desdits au moins deux décodeurs latéraux possédant un moyen pour l'interpolation des trames non reçues à partir d'un ensemble de trames reçues; - un décodeur central recevant lesdites au moins deux descriptions. De préférence, ledit décodeur central est apte, en cas de réception desdites au moins deux descriptions, à effectuer un moyennage des trames synchronisée temporellement pour créer une nouvelle trame.
On comprendra mieux l'invention à l'aide de la description, faite ci-après à titre purement explicatif, d'un mode de réalisation de l'invention, en référence aux figures annexées où : la figure 1 représente le schéma lifting 3 bandes utilisé pour l'algorithme de MDC selon l'art antérieur, la figure 2 représente le schéma lifting 2 bandes appliqué à une vidéo sous-échantillonnée par un facteur 2 selon l'invention, la figure 3 représente le schéma fonctionnel de codage et de décodage selon l'invention, la figure 4 représente la construction des 2 descriptions selon l'art antérieur, la figure 5 représente la construction des 2 descriptions selon l'invention, - la figure 6 est une représentation graphique de deux descriptions obtenues selon l'invention, la figure 7 représente la synchronisation temporelle des trames sur deux niveaux de description selon un premier mode de réalisation, - la figure 8 représente l'envoi de bandes multi- résolution sous forme d'arbre, la figure 9 représente la synchronisation temporelle des trames sur deux niveaux de description selon un second mode de réalisation.
Le procédé de codage à description multiple selon l'invention utilise par exemple le schéma 3-bandes vu précédemment en l'appliquant à une vidéo dont les trames auraient subi un sous-échantillonnage d'un facteur 2, comme illustré Figure 2.
Illustré figure 3, on transmet alors dans une première description Dl les sous-bandes issues du traitement des groupes de trames pour un indice temporel t impair, et dans une seconde description D2, les sous-bandes issues du traitement des groupes de trames pour un indice temporel t pair. Ces deux descriptions sont obtenues à la sortie de deux encodeurs associés Cl et C2 et sont transmises sur deux canaux de transmission distincts. A l'arrivée, le décodage est réalisé par deux décodeurs latéraux Decl et Dec2 correspondant aux deux canaux de transmission, et par un décodeur central DécO pour le décodage en cas de réception des deux descriptions.
Plus précisément, illustré figure 5, pour une séquence originale comportant par exemple des trames X0, ..., X8, (ligne 1 du tableau) un codeur non robuste n'introduit pas de redondance et code donc par exemple selon un schéma trois-bandes les composantes d'approximation et de détail pour des groupes de trames à trois trames (ligne 2) .
Une solution de descriptions redondantes est visible sur les lignes 3 et 4 où la redondance est introduite au niveau des trames d'indice pair pour les bandes de détail. Dans ces lignes, les indices inférieurs correspondent à l'indice du groupe de trame utilisé pour la construction des sous-bandes (h", 1, h+) . En référence à ce tableau, le premier ensemble de sous-bandes pour la première description est donc obtenu pour les trames (0,1,2) et le deuxième ensemble pour la seconde description est obtenu pour les trames (2,3,4) . Ceci correspond à une redondance temporelle des trames d' entrée d'indice pair.
Ce schéma est aussi visible sur la représentation graphique de la figure 6 où les lignes pointillées représentent les instants de redondance.
Nous allons maintenant étudier la reconstruction de la séquence initiale à partir de la présente description multiple . Si les deux descriptions sont reçues, on dispose de toutes les trames, donc on peut réaliser une reconstruction parfaite. En effet, le triplet (hx x~ , l , hχ1+) permet la reconstruction des trames (x0, xi, x2) , le triplet (h2 ~, I22 r h22+) , celle des trames (x2, x3, x4) ».
On dispose de plus pour chaque trame 2n, n>0 de deux possibilités pour la reconstruction, à partir de chaque description. Il est donc possible d'améliorer la qualité de la trame en faisant par exemple une moyenne des deux reconstructions de moins bonne qualité. Un algorithme POCS peut être envisagé à cet effet.
Dans le cas d'une perte d'une des deux description, les figures 5 et 6 montrent facilement qu'il est possible de reconstruire 3 trames sur 4 de la séquence originale. Les trames manquantes sont par exemple interpolées à partir de leurs voisines reconstruites par moyennage de ces trames compensées en mouvement. On utilise pour cela un prolongement des champs de vecteur de mouvement dont on dispose.
Notons enfin que le procédé s'applique à toute description en sous-bandes fréquentielles à partir par exemple d'une ou plusieurs sous-bandes basse fréquence (bande d'approximation dans le mode de réalisation décrit) et d'une ou plusieurs sous-bandes haute fréquence (bandes de détail) Le procédé précédent de description multiple est alors appliqué avec plusieurs étages de décomposition, avec plusieurs modes de réalisation possibles. Selon un premier schéma, le premier étage redondant est crée selon le procédé décrit précédemment, et ce procédé est itéré sur les trames des sous-bandes d'approximation ou plus généralement sur les sous-bandes de basse fréquence.
Selon un second schéma, les premiers étages sont obtenus avec une décomposition non redondante, et la redondance est introduite au dernier étage de la décomposition.
Illustré figure 7, selon le premier mode de réalisation, après un étage de décomposition redondante (aux instants illustrés par des pointillés), les trames des deux sous-bandes d'approximation sont entrelacées pour former une composante lι,t .
On considère alors que cette composante forme la nouvelle séquence, et le procédé est itéré. Afin de calculer la redondance d'un tel procédé itératif, on évalue le nombre de trames envoyées . Si L est la longueur initiale de la séquence, il y a 2 * 1/2 * L trames de détails envoyés au premier niveau (pour les descriptions 1 et 2) et 1/2 * L trames d'approximation.
Au deuxième niveau, après itération sur la bande d'approximation lχ,t, on a donc 1/2 * L trames de détail, et 1/2 * 1/2 * L trames d'approximation. L'envoi multi-résolution se faisant avec les bandes d'approximation de second niveau, détail de second niveau et détail de premier niveau comme sur l'arbre de la figure 8, il y a donc au total (1+1/2+1/4) *L trames envoyées. Pour un nombre jmax d'étages, le facteur de redondance tend vers 2 si jmaχ-> ∞- La redondance peut donc être élevée si le nombre d'étage de décomposition est trop grand et le procédé sera donc appliqué sur des séquences vidéo assez fixes .
Selon un second mode de réalisation, cette fois, les groupes de trames sont réparties alternativement entre les deux descriptions et sans redondance (absence de pointillés au premier niveau) , comme illustré dans les premières descriptions de la figure 9.
Selon ce schéma, la redondance n'est introduite qu'au dernier niveau de décomposition après avoir entrelacé les sous-bandes d'approximation. Sur la figure 9, cette redondance temporelle est visible sur le deuxième niveau (pointillés) .
Dans ce cas, le nombre de trames de détail au premier niveau est de 2/3 * L (puisque sans redondance, il y a deux bandes de détail par groupe de 3 trames) .
Les nouveaux groupes de trames étant constitué par les 1/3 * L sous-bandes d'approximation entrelacées, le nombre total de trames créées au deuxième niveau est l/3*3/2*L.
Plus généralement, la redondance étant introduite au dernier niveau de décomposition jmaχ, et selon le schéma multi-résolution de la figure 7, il y a donc (1 + (1/3) Ajmaχ*3*2) *L trames envoyées qui permet d'obtenir un facteur de redondance proche de 1 pour un grand nombre d'étages de décomposition. Selon ce schéma de décomposition, la reconstruction est réalisée de la manière suivante : si on reçoit les deux descriptions, le dernier étage est reconstruit avec une très bonne qualité à cause des trames redondantes, et on dispose ensuite de toutes les trames pour effectuer une reconstruction parfaite.
Si on ne reçoit qu'une des descriptions au dernier niveau, il est possible d'appliquer au dernier niveau le procédé d'interpolation décrit pour le mode de réalisation à un seul étage (construction de la trame manquante par prédiction compensée en mouvement) .
Pour retrouver les trois trames au niveau supérieur, on peut ensuite appliquer le schéma de synthèse de cette trame en injectant par exemple des détails nuls. Il est également possible d'améliorer la qualité de deux trames avoisinant les trames reconstruites parfaitement en moyennant cette reconstruction avec une image compensée en mouvement à partir de la trame voisine, à gauche ou à droite.
L'invention est décrite dans ce qui précède à titre d'exemple. Il est entendu que l'homme du métier est à même de réaliser différentes variantes de l'invention sans pour autant sortir du cadre du brevet.

Claims

REVENDICATIONS
1. Procédé d'encodage vidéo par description multiple à partir d'un groupe de trames comportant M trames d'entrée comprenant : une étape de génération de M sous-bandes de fréquence à partir desdites M trames d'entrée, une étape d'encodage des trames correspondant aux dites M sous-bandes de fréquence en N descriptions distinctes, caractérisé en ce que lesdites M trames d'entrée comportent au moins une redondance temporelle .
2. Procédé d'encodage vidéo par description multiple selon la revendication 1, caractérisé en ce que lesdites M sous-bandes de fréquences comprennent au moins une sous- bande basse fréquence dite sous-bande d'approximation.
3. Procédé d'encodage vidéo par description multiple selon la revendication 1, caractérisé en ce que lesdites M sous-bandes de fréquences comprennent au moins une sous- bande haute fréquence dite sous-bande de détail.
4. Procédé d'encodage vidéo par description multiple selon la revendication 1, caractérisé en ce que le nombre M de trames d' entrée est égal à 3.
5. Procédé d'encodage vidéo par description multiple selon la revendication 4, caractérisé en ce que ladite redondance temporelle est introduite sur les trames d' entrée d'indice pair.
6. Procédé d'encodage vidéo par description multiple selon la revendication 4, caractérisé en ce que le nombre de description N est égal à 2.
7. Procédé d'encodage vidéo par description multiple selon la revendication 6, caractérisé en ce que lesdites deux descriptions correspondent d'une part aux groupes de trames d'entrée redondant d'indice pair et d'autre par aux groupes de trames d'entrée redondant d'indice impair.
8. Procédé d'encodage vidéo par description multiple selon la revendication 2, caractérisé en ce que lesdites M trames d' entrée correspondent à M trames correspondant à M sous-bandes de basse fréquence dans une décomposition temporelle.
9. Procédé d'encodage vidéo par description multiple selon la revendication 1, caractérisé en ce que lesdites M trames d'entrée correspondent à une séquence issue d'une décomposition temporelle.
10. Procédé d'encodage vidéo par description multiple selon la revendication 1, caractérisé en ce qu'il comprend en outre au moins une étape de décomposition temporelle.
11. Système pour l'encodage et le décodage vidéo par description multiple d'une séquence vidéo comprenant au moins deux encodeurs pour l'encodage des au moins deux descriptions associées à ladite séquence vidéo, au moins deux canaux de transmission pour la transmission desdites au moins deux descriptions, caractérisé en ce qu'il comprend en outre : au moins deux décodeurs latéraux recevant chacun une desdites au moins deux description, chacun desdits au moins deux décodeurs latéraux possédant un moyen pour l'interpolation des trames non reçues à partir d'un ensemble de trames reçues ; un décodeur central recevant lesdites au moins deux descriptions.
12. Système pour l'encodage et le décodage vidéo par description multiple selon la revendication 10, caractérisé en ce que ledit décodeur central est apte, en cas de réception desdites au moins deux descriptions, à effectuer un moyennage des trames synchronisée temporellement pour créer une nouvelle trame .
PCT/FR2004/050592 2003-11-17 2004-11-17 Procede de codage video par descriptions multiples WO2005051001A2 (fr)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
FR0313405A FR2862470A1 (fr) 2003-11-17 2003-11-17 Codage video par descriptions multiples
FR0313405 2003-11-17
FR0407012 2004-06-25
FR0407012A FR2862468B1 (fr) 2003-11-17 2004-06-25 Procede de codage video par descriptions multiples

Publications (2)

Publication Number Publication Date
WO2005051001A2 true WO2005051001A2 (fr) 2005-06-02
WO2005051001A3 WO2005051001A3 (fr) 2008-10-09

Family

ID=34524998

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2004/050592 WO2005051001A2 (fr) 2003-11-17 2004-11-17 Procede de codage video par descriptions multiples

Country Status (2)

Country Link
FR (1) FR2862468B1 (fr)
WO (1) WO2005051001A2 (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011012029A1 (fr) * 2009-07-30 2011-02-03 华为终端有限公司 Procédé, dispositif et système de codage et de décodage audio par descriptions multiples

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
GOYAL V K: "MULTIPLE DESCRIPTION CODING: COMPRESSION MEETS THE NETWORK" IEEE SIGNAL PROCESSING MAGAZINE, IEEE INC. NEW YORK, US, vol. 18, no. 5, septembre 2001 (2001-09), pages 74-93, XP001053612 ISSN: 1053-5888 *
TILLIER C; PESQUET-POPESCU B: "3D, 3-band, 3-tap temporal lifting for scalable video coding" PROCEEDINGS 2003 INTERNATIONAL CONFERENCE ON IMAGE PROCESSING. ICIP-2003. BARCELONA, SPAIN, SEPT. 14 - 17, 2003, INTERNATIONAL CONFERENCE ON IMAGE PROCESSING, NEW YORK, NY : IEEE, US, vol. II, 17 septembre 2003 (2003-09-17), pages 779-782, XP002325065 BARCELONE cité dans la demande *
VAN DER SCHAAR M ET AL: "Multiple description scalable coding using wavelet-based motion compensated temporal filtering" PROCEEDINGS 2003 INTERNATIONAL CONFERENCE ON IMAGE PROCESSING. ICIP-2003. BARCELONA, SPAIN, SEPT. 14 - 17, 2003, INTERNATIONAL CONFERENCE ON IMAGE PROCESSING, NEW YORK, NY : IEEE, US, vol. VOL. 2 OF 3, 14 septembre 2003 (2003-09-14), pages 489-492, XP010670042 ISBN: 0-7803-7750-8 cité dans la demande *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011012029A1 (fr) * 2009-07-30 2011-02-03 华为终端有限公司 Procédé, dispositif et système de codage et de décodage audio par descriptions multiples
CN101989425B (zh) * 2009-07-30 2012-05-23 华为终端有限公司 多描述音频编解码的方法、装置及系统
US8510121B2 (en) 2009-07-30 2013-08-13 Huawei Device Co., Ltd. Multiple description audio coding and decoding method, apparatus, and system

Also Published As

Publication number Publication date
FR2862468B1 (fr) 2008-06-27
WO2005051001A3 (fr) 2008-10-09
FR2862468A1 (fr) 2005-05-20

Similar Documents

Publication Publication Date Title
EP1839442B1 (fr) Dispositifs et procedes de codage et de decodage echelonnables de flux de donnees d'images, signal, programme d'ordinateur et module d'adaptation de qualite d'image correspondants
EP2036359B1 (fr) Procede permettant de determiner des parametres de compression et de protection pour la transmission de donnees multimedia sur un canal sans fil
EP1779669A1 (fr) Procede de mise en forme de trames d'une sequence video
FR2854019A1 (fr) Embrouillage, desembrouillage et distribution securisee de sequences audiovisuelles issues de codeurs videos bases sur un traitement par ondelettes
EP0347325B1 (fr) Procédé et installation de diffusion de programmes de télévision haute définition compatible
EP2297968A1 (fr) Procede et systeme permettant de proteger un flux video compresse contre les erreurs survenant lors d'une transmission
WO2007077178A1 (fr) Procede de codage et de decodage d'une image ou d'une sequence d'images, dispositifs, programmes d'ordinateur, et signal correspondants
FR2886787A1 (fr) Procede et dispositif de codage et de decodage d'une sequence d'images
FR2670348A1 (fr) Dispositif de codage d'images appartenant a une sequence d'images, a rearrangement des lignes avant transformation mathematique, systeme de transmission d'images, recepteur et procede de codage correspondants.
Tillier et al. A motion-compensated overcomplete temporal decomposition for multiple description scalable video coding
EP1600003B1 (fr) Procede de codage d'une image video prenant en compte la parite relative a une composante du vecteur de mouvement
Vitali et al. Video over IP using standard-compatible multiple description coding: an IETF proposal
WO2005051001A2 (fr) Procede de codage video par descriptions multiples
EP2633686B1 (fr) Codage video echelonnable a partir d'un epitome hierarchique
EP2920889B1 (fr) Procédé et système de transmission de données vidéo sur un canal de transmission par courants porteurs en ligne
EP1578133A1 (fr) Procédés et dispositifs pour coder/décoder de signaux, et produit de programme d'ordinateur associé
FR2759524A1 (fr) Procede et dispositif de codage par estimation de luminance
FR2862470A1 (fr) Codage video par descriptions multiples
Wang et al. Robust image coding and transport in wireless networks using non-hierarchical decomposition
Tillier et al. Multiple descriptions scalable video coding
Pereira et al. Multiple description coding for internet video streaming
Bajic et al. EZBC video streaming with channel coding and error concealment
Petrisor et al. Wavelet-based multiple description coding of images with iterative convex optimization techniques
Petrisor et al. Redundant multiresolution analysis for multiple description video coding
Farzamnia et al. Error concealment using multiple description coding and LIoyd-max quantization

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A2

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A2

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Country of ref document: DE

122 Ep: pct application non-entry in european phase