WO2006059021A1

WO2006059021A1 - Procede de codage d'images video de differents formats non proportionnels

Info

Publication number: WO2006059021A1
Application number: PCT/FR2005/050840
Authority: WO
Inventors: Nicolas Burdin; Gwenaelle Marquant; Jérôme Vieron
Original assignee: Thomson Licensing
Priority date: 2004-10-20
Filing date: 2005-10-11
Publication date: 2006-06-08
Also published as: FR2876861A1; TW200614820A

Abstract

Le procédé de codage de (F1) et (F2) comporte les étapes suivantes : codage de l'image (F2) (4) pour fournir des données codées à une couche de base du flux de données codées ; zoom de l'image (F2) (5) pour obtenir une image basse résolution zoomée (Fz) de dimensions celles de l'image (F1) pour la partie vidéo commune ; codage de l'image (F1) pour la partie commune (6, 8) à l'image zoomée (Fz) en prenant en compte cette image zoomée (Fz) comme image de prédiction pour le calcul de résidus, pour fournir des données codées à la couche supérieure du flux de données codées ; codage de l'image (F1) pour la partie non commune à l'image zoomée (Fz) (7, 8) pour fournir des données complémentaires à la couche supérieure du flux de données codées.

Description

PROCEDE DE CODAGE D'IMAGES VIDEO DE DIFFERENTS FORMATS NON PROPORTIONNELS

L'invention concerne un procédé et dispositif de codage et décodage hiérarchique d'images vidéos de différents formats non proportionnels. Elle concerne en particulier des images ayant une partie vidéo commune. Il s'agit par exemple du codage d'un signal de télévision numérique au format SD, acronyme de l'anglais Standard Définition et au format haute définition HD.

Les codeurs vidéo à échelonnabilité spatiale sont du domaine connu. Le flux de données généré par le codeur vidéo a une hiérarchie échelonnable, les données codées sont incorporées dans le flux de manière hiérarchique, avec échelonnabilité spatiale. Les formats vidéo concernés par ces codeurs sont ceux pour lesquels les dimensions de la résolution haute correspondent à un multiple de 2 de celles de la résolution basse, permettant une décomposition dyadique. Si ce n'est pas le cas, un procédé d'extension de résolution basse est utilisé pour faire coïncider exactement les deux formats, comme décrit par exemple dans la norme MPEG4-2. Ainsi, le codage compatible d'un format QCIF, acronyme de l'anglais Quarter Common Intermediate Format, de dimensions 176 pixels x 144 lignes et d'un format CIF, de dimensions 352 x 288, ou bien le codage compatible d'un format CIF et d'un format 4 CIF, de dimensions 704 x 576, s'obtient par sous-échantillonnage et filtrage de l'image haute résolution.

Le codage hiérarchique permet d'obtenir une couche de base, relative au format de basse résolution, et une couche supérieure qui correspond au format de haute résolution.

Lorsque le format basse résolution et le format haute résolution, qui sont des formats d'affichage, ne sont pas de taille homothétique, c'est à dire lorsque le rapport largeur de l'image en nombre de pixels sur une ligne et hauteur de l'image en nombre de lignes, n'est pas conservé, le format de codage de l'image basse résolution est généralement choisi différent du format d'affichage et tel que la transformation homothétique soit conservée entre les deux formats à coder, haute et basse résolution. L'ajustage des formats est effectué ensuite au décodeur, soit en éliminant des parties de l'image par exemple les parties droite et gauche de l'image, soit en ajoutant des bandes noires à l'image décodée, soit en effectuant une transformation anamorphique de manière à faire correspondre le format de codage au format d'affichage. L'image ainsi affichée est donc dégradée en qualité ou bien le codage d'une partie de l'image non visualisée est effectué, augmentant le coût de codage et de transmission.

Un des buts de l'invention est de pallier les inconvénients précités. A cet effet, l'invention a pour objet un procédé de codage hiérarchique d'images vidéo de différents formats non proportionnels pour donner un flux de données codées, une première image (F1 ) à un format F1 et au moins une deuxième image (F2) à un format F2 de résolution inférieure au format F1 , le contenu vidéo des images (F1) et (F2) ayant au moins une partie commune, caractérisé en ce qu'il met en œuvre les étapes suivantes :

- codage de l'image (F2) pour fournir des données codées à une couche de base du flux de données codées, - zoom de l'image (F2) pour obtenir une image basse résolution zoomée (Fz) de dimensions celles de l'image (F1 ) pour la partie vidéo commune,

- codage de l'image (F1) pour la partie commune à l'image zoomée (Fz) en prenant en compte cette image zoomée (Fz) comme image de prédiction pour le calcul de résidus, pour fournir des données codées à la couche supérieure du flux de données codées,

- codage de l'image (F1 ) pour la partie non commune à l'image zoomée (Fz) pour fournir des données complémentaires à la couche supérieure du flux de données codées. Selon une mise en œuvre particulière, l'image (F2) utilisée pour le zoom est une image reconstruite obtenue par décodage local de l'image codée

(F2).

Selon une mise en œuvre particulière, la mise à l'échelle consiste en un suréchantillonnage et filtrage de l'image. Selon une mise en œuvre particulière, les images vidéo de différents formats sont des images de sous-bandes obtenues par décomposition temporelle de type ondelette ou codage sous-bandes.

Selon une mise en œuvre particulière, la partie commune du contenu vidéo est définie à partir de paramètres géométriques tels qu'un ou des facteurs de zoom à partir duquel est effectué le zoom de l'image (F2) pour obtenir l'image basse résolution zoomée (Fz) et une position de l'image zoomée (Fz) dans l'image (F1 ), ces paramètres étant codés et transmis dans la couche supérieure.

Selon une mise en œuvre particulière, les paramètres géométriques sont obtenues en mettant en œuvre les étapes suivantes : - prédétermination, dans une image source, d'une première fenêtre vidéo définissant le contenu vidéo à coder au format F1 , et d'une deuxième fenêtre vidéo définissant le contenu vidéo à coder au format F2 et ayant au moins une partie vidéo commune à la première fenêtre,

- si les dimensions de la première fenêtre sont supérieures à celles du format F1 , sous-échantillonnage de la vidéo dans la première fenêtre pour obtenir une image (F1 ) au format F1 ,

- si les dimensions de la deuxième fenêtre sont supérieures à celles du format F2, sous-échantillonnage de la vidéo dans la deuxième fenêtre pour obtenir une image (F2) au format F2. - calcul du ou des facteurs de zoom en fonction des rapports de dimensions de la première et deuxième fenêtre respectivement aux formats F1 et F2 et calcul de la position de l'image (F2) dans l'image (F1 ).

Selon une mise en œuvre particulière, la première image est au format de résolution haute définition HD et la deuxième image est au format de résolution standard SD.

L'invention concerne également un procédé de décodage d'un flux de données numériques structurées en au moins une couche de base comprenant des données relatives à une image basse résolution et une couche supérieure comprenant des données relatives à une image haute résolution, l'image faible résolution correspondant à au moins une partie vidéo de l'image haute résolution, caractérisé en ce qu'il comporte les étapes suivantes :

- extraction de données de la couche de base relatives à l'image basse résolution et décodage de l'image basse résolution,

- mise à l'échelle de l'image décodée pour mettre en correspondance la partie vidéo commune, pour fournir une image de prédiction,

- extraction et décodage de données de la couche supérieure relatives à une image de résidus correspondant à la partie vidéo commune et combinaison de cette image de résidus décodée avec l'image décodée mise à l'échelle, - extraction et décodage de données complémentaires de la couche supérieure relatives à la partie vidéo non commune et ajout à l'image combinée. Selon une mise en œuvre particulière, le procédé est caractérisé en ce qu'il comporte une étape d'extraction et de décodage de données géométriques de la couche supérieure définissant le facteur de mise à l'échelle pour l'image décodée et la position de l'image mise à l'échelle dans l'image haute résolution.

L'invention concerne également un flux de données hiérarchique pour le codage d'images vidéo de différents formats non proportionnels et ayant au moins une partie vidéo commune, caractérisé en ce qu'il comprend une couche basse correspondant à une image à un format basse résolution et une couche supérieure comprenant des données relatives à une image de résidus fonction de l'image au format basse fréquence, pour la partie vidéo commune aux deux formats, et des données complémentaires relatives à la partie vidéo non commune.

Le codage de l'image haute résolution est effectué d'une part en utilisant l'image basse résolution comme image de prédiction pour le codage de la partie commune aux deux formats et d'autre part en codant la zone non commune, ces données de codage étant ensuite transmises dans une couche supérieure du flux de données. Grâce à l'invention, la qualité des images de résolutions différentes extraites du flux de données échelonnable est conservée quelles que soient les dimensions des formats proposés. Pour une même qualité d'image, le coût de codage est réduit, le taux de compression des données est amélioré, le coût de transmission est optimisé pour chacun des formats. Une image de haute résolution peut être convertie en une image de basse résolution, et inversement, sans dégrader la qualité de l'image même si la conversion n'est pas une transformation homothétique. Ainsi, il est possible de convertir une image d'un format CIF en une image d'un format SD de 720 pixels par 480 lignes ou une image d'un format de définition standard SD en une image d'un format haute définition HD de 1280 pixels par 720 lignes à partir du flux de données échelonnable, en conservant la qualité optimale pour les images.

Du fait de ce procédé de codage et de cette organisation hiérarchique du flux de données codées obtenu en sortie du codeur, il est très facile d'adapter les données transmises au niveau de résolution du dispositif de visualisation ou au débit de transmission du réseau exploités. Ceci pour des niveaux de résolution correspondant à des images de dimensions quelconques, définies lors du codage.

D'autres particularités et avantages de l'invention apparaîtront clairement dans la description suivante donnée à titre d'exemple non limitatif, et faite en regard des figures annexées qui représentent :

- la figure 1 , un organigramme du procédé de création des contenus vidéo,

- la figure 2, un organigramme du procédé de codage,

- la figure 3, un exemple de codage des formats SD et HD, - la figure 4, des exemples de formats F1 et F2,

- la figure 5, un circuit de décodage,

- la figure 6, une représentation des étapes de décodage.

Le procédé de codage des données est un procédé de codage hiérarchique, c'est à dire que le flux de données codées est structuré de manière hiérarchique, les données relatives au format de plus faible résolution étant intégrées dans une couche de base ou couche inférieure, les données complémentaires relatives au format de résolution supérieure étant intégrées dans une couche supérieure. Il est ainsi facile, au niveau du flux de données, de filtrer les seules données relatives à un standard, en sélectionnant les seules couches correspondant au niveau de résolution souhaité. Il s'agit ici d'échelonnabilité spatiale, compatible de toute échelonnabilité temporelle exigée par le standard relatif au format de résolution.

L'invention concerne le codage de contenus vidéo à différents formats non proportionnels en largeur et/ou hauteur d'image et ayant une partie vidéo commune. Un des formats est de résolution inférieure à l'autre format. Il est soit de plus faible définition avec le nombre de pixels par ligne ou le nombre de lignes définissant par exemple la partie vidéo commune inférieur, soit, pour une même définition, de taille inférieure.

Il est considéré que ces contenus sont disponibles et que les paramètres qui les relient sont aussi fournis. Un procédé de création de contenu vidéo est décrit ci-après, à titre d'exemple, afin d'introduire les notions qui sont utilisées par la suite dans l'invention. La figure 1 représente un organigramme d'un procédé de génération de contenus vidéo à basse et haute résolution et de paramètres associés. Une première étape 1 prend en compte les différents formats vidéo à coder. Le flux de données codées permet d'alimenter des décodeurs compatibles d'un de ces formats, la sélection du format, fonction du dispositif d'affichage, du décodeur ou de paramètres tels que débit de transmission... se faisant par filtrage des données au niveau de ce flux de données codées, en amont ou au niveau du décodeur.

Dans l'exemple décrit, un premier format haute résolution F1 et un deuxième format basse résolution F2 sont exploités. Chacun de ces formats est défini par sa largeur L_Fi, L_F2 ou nombre de pixels sur une ligne et sa hauteur HFI, H_F2 θu nombre de lignes. Ces formats permettent de définir une première et une deuxième fenêtre vidéo dans l'image source qui représentent les contenus vidéo à coder au format F1 et au format F2. Ces contenus vidéo, en référence à l'image source, peuvent être différents. Par hypothèse, les fenêtres ont une zone commune, c'est à dire que les images codées aux formats vidéo F1 et F2 correspondent à une partie commune de la vidéo de l'image source.

Les dimensions des première et deuxième fenêtres ne correspondent pas nécessairement aux dimensions des formats F1 et F2. Dans ce cas, une opération supplémentaire de transformation homothétique ou non homothétique des images de ces fenêtres est effectuée afin d'ajuster ces images aux dimensions des formats F1 et F2. Pour simplifier le raisonnement, on considère que la première fenêtre correspond à l'image au format F1.

L'image haute résolution au format F1 peut donc être soit l'image source, soit un partie de l'image source, ces images éventuellement échantillonnées. Cette image, appelée (F1), est choisie comme l'image de référence pour le calcul de paramètres géométriques définissant l'image de format F2 appelée (F2).

La deuxième étape 2 consiste en la détermination de ces paramètres géométriques. La deuxième fenêtre est dimensionnée et positionnée sur l'image source pour définir le contenu vidéo à visualiser au format F2. Ses dimensions sont celles dans l'image (F1 ) en prenant comme hypothèse que la première fenêtre correspond au format F1.

Les paramètres géométriques relatifs à l'image de référence sont les suivants :

- position dans l'image (F1 ), - dimensions de la deuxième fenêtre dans l'image (F1 ).

Le positionnement de la deuxième fenêtre est défini par exemple par les coordonnées du coin supérieur gauche dans cette image (F1 ). Ces coordonnées sont le numéro de ligne l_w et le numéro de colonne Cw de ce coin dans l'image (F1 ).

Les valeurs α_L et vertical α_H définissent les facteurs de zoom horizontal et vertical à appliquer à l'image au format basse résolution pour obtenir la taille de la deuxième fenêtre dans l'image de référence (F1 ). Cette deuxième fenêtre, positionnée dans (F1) en (l_w, c_w) est de dimensions :

H_w = C*H HF2 L_w = C*L LF2

H_F2 est le nombre de lignes de l'image au format F2 L_F2 est nombre de pixels par ligne de l'image au format F2.

Hw est le nombre de lignes de la deuxième fenêtre dans l'image de référence (F1 ),

L_w est nombre de pixels par ligne de la deuxième fenêtre dans l'image de référence (F1 ). L'étape 3 effectue la sélection des informations vidéo de l'image source correspondant à la fenêtre définie par les paramètres puis un filtrage de type passe-bas et un sous-échantillonnage de ce contenu, avec des facteurs de sous-échantillonnage 1/α_L et 1/CXH, pour fournir une image au format F2.

Dans le cas où la première fenêtre de l'image source ne correspond pas au format F1 , la position et la taille de la deuxième fenêtre dans l'image (F1) sont par exemple calculées dans l'image source puis modifiée conformément à la transformation homothétique ou non homothétique faisant correspondre la première fenêtre au format F1.

A l'issue de ces 3 étapes, on dispose des contenus vidéo basse et haute résolution et des paramètres géométriques. Ces sources vidéo au format F1 et au format F2 et les paramètres géométriques sont transmis à un codeur vidéo pour le codage des contenus vidéo.

La figure 2 représente un organigramme du procédé de codage selon l'invention. La première étape de codage, référencée 4, effectue le codage de l'image au format F2. La deuxième étape référencée 5 réalise le décodage de cette image codée pour fournir une image décodée locale ou image reconstruite. Dans une version simplifiée, l'image décodée locale peut consister explicitement en l'image d'origine avant codage. Cette image est ensuite mise à l'échelle ou zoomée, selon les facteurs α_L et α_H> pour obtenir une image (F2) zoomée, appelée (Fz), aux dimensions de la deuxième fenêtre. Le filtre d'interpolation permettant de passer de (F2) à (Fz) peut par exemple être un filtre d'interpolation bilinéaire.

L'étape suivante référencée 6 effectue le codage des paramètres géométriques (CXH₁(XL, Iw₁Cw) définissant l'image de format F2 dans l'image de format F1. Puis elle réalise un calcul de résidu pour fournir une image de résidus aussi appelée image de fréquences hautes (HF). L'image (Fz) est positionnée sur l'image haute résolution (F1 ) issue de l'image source en fonction des paramètres l_w et Cw. L'image de résidus est alors obtenue en soustrayant, pixel à pixel, aux pixels de l'image (Fz), les pixels correspondants de l'image (F1 ). L'image (Fz) est aussi appelée image prédite car elle est utilisée comme prédiction pour le codage de l'image haute résolution (F1 ).

Des opérateurs plus complexes peuvent être utilisés pour le calcul de cette image de fréquences hautes. Il est ainsi possible d'exploiter des opérateurs basés sur la prédiction d'image de type inter ou intra, appliqués sur les structures basiques de l'image, par exemple des blocs de l'image, des macroblocs ou même des régions quelconques non carrées.

L'étape suivante référencée 7 sur la figure détermine les parties de l'image haute définition, la première fenêtre, non recouvertes par la deuxième fenêtre. Elle réalise par exemple un regroupement des différentes zones non communes pour faciliter leur codage. Lors de l'étape suivante, référence 8, l'image des résidus et l'image correspondant à la partie non couverte sont codées, par exemple par bloc en utilisant la transformée cosinus discrète ou bien selon un codage de type sous-bandes par ondelettes.

L'étape de référence 9 insère les données de codage relatives à l'image (F2) dans une couche de base du flux de données et les données de codage relatives à l'image de résidus et à la zone non couverte dans une couche supérieure.

Le procédé de codage des images (F1 ) peut se résumer par l'équation suivante : (F1 ) = (Fz) ® (HF) + (zone non couverte).

L'image des hautes fréquences (HF) permet d'améliorer la qualité de l'image (F2) une fois zoomée en ajoutant les résidus correspondant aux pixels de cette image zoomée Fz. L'image correspondant à la zone non couverte permet de compléter l'image haute résolution. Cette équation montre que les données peuvent facilement être incorporées de manière hiérarchique pour obtenir un flux de données échelonnable. Ainsi, le flux est organisé de manière hiérarchique avec 3 types de données :

- une couche de base ou basse résolution contenant les données de codage de l'image basse résolution (F2), - une couche d'amélioration ou haute résolution contenant

- les données haute fréquence (HF) de codage consistant en un affinage du contenu de l'image basse résolution mise à l'échelle (Fz),

- les données additionnelles correspondant aux zones non couvertes.

Cette approche entraîne l'absence d'informations relatives aux bordures lors du codage de l'image de basse résolution. Ces informations sont des informations additionnelles, au même titre que les informations relatives à l'image de fréquence haute, pour le codage de l'image haute résolution. De ce fait, une optimisation du coût de codage est obtenue pour le codage des images de basse résolution. D'une autre manière, on peut dire qu'aucune distorsion n'est introduite par le procédé de codage puisque seules des transformations proportionnelles d'images sont mises en œuvre, les données vidéo relatives à l'image basse résolution appartenant uniquement à une fenêtre de dimensions proportionnelles au format F2.

Il est ainsi très facile d'obtenir une image basse résolution de dimensions quelconques, par exemple correspondant à un format vidéo propriétaire, par rapport aux dimensions de l'image haute résolution et inversement d'obtenir une image haute résolution de dimension quelconque par rapport aux dimensions d'une image basse résolution définie par un standard. Les deux formats sont indépendants l'un de l'autre.

Selon une mise en oeuvre particulière de l'invention, la deuxième fenêtre est positionnée de manière à couvrir le maximum de surface de la première fenêtre pour obtenir le plus d'information dans l'image (F2), pour obtenir une zone commune à coder la plus grande possible et une zone non couverte à coder la plus faible possible. On peut procéder de la manière suivante :

Le rapport entre les formats F1 et F2 est calculé pour les deux dimensions. La plus petite des valeurs, appelée α, est sélectionnée. Les dimensions de la deuxième fenêtre sont alors les largeurs et hauteurs du format F2 multiplié par <x On rappelle que, par simplification, les dimensions de la première fenêtre sont celles du format F1. Ainsi, les deux fenêtres ont au moins une des dimensions qui a la même valeur.

La figure 3 donne un exemple de mise en œuvre du procédé dans ce cas particulier. Le format F1 est le format HD et le format F2 est le format SD.

Une première fenêtre au format haute résolution HD de 720 lignes et 1280 pixels par ligne, référencée 11 , est positionnée sur l'image source. Elle peut aussi correspondre à l'image source alors à ce format HD. Le deuxième format, référencé 12, est un format SD correspondant à une image de 480 lignes et de 720 pixels par ligne.

Le rapport entre les longueurs de lignes est de 1280/720=1 ,77, le rapport entre le nombre de lignes est de 720/480=1 ,5. La valeur retenue pour α est donc 1 ,5. La deuxième fenêtre, référencée 13, proportionnelle au format SD, a donc une hauteur égale à celle de la première fenêtre ou du format F1 et une largeur de 720 x 1 ,5 = 1080 pixels. Cette fenêtre 13 est ensuite centrée horizontalement sur la première fenêtre 11 pour donner une partie commune aux deux formats, référence 14, et une zone non couverte, une bande latérale gauche 15 et une bande latérale droite 16. La différence entre l'image (Fz) et l'image (HD) pour la partie commune fournit l'image haute fréquence. Les deux bandes latérales sont codées indépendamment du contenu de l'image (Fz).

Dans le cas où α_L est plus petit que α_H> la zone non couverte correspond à deux bandes horizontales.

Les figures 4 donnent différents exemples d'emplacement de la deuxième fenêtre, notée Fz et grisée sur la figure, par rapport à la première fenêtre, hachurée.

La figure 4a correspond à l'exemple décrit précédemment. A la figure 4b, la deuxième fenêtre est intégralement à l'intérieur de la première. Ce positionnement permet de sélectionner une zone d'intérêt de l'image au format F1 pour être codée au format F2.

La figure 4c présente un cas où une partie de la deuxième fenêtre se trouve à l'extérieur de la première. Dans ce cas, l'image prédite se limite à la partie commune avec la première fenêtre ou image (F1 ).

La figure 4d représente une deuxième fenêtre dont les dimensions sont supérieures à celles de la première. Les valeurs l_w et Cw définissant la position de la fenêtre sont ici négatives car à l'extérieur de la première fenêtre ou image de référence. L'image prédite se limite à la partie commune à l'image pleine résolution (F1).

Comme on l'a vu précédemment, l'image (F1 ) peut n'être qu'une partie de l'image source. Ainsi, la partie de la deuxième fenêtre à l'extérieur de la première, cas de la figure 4c et 4d, peut contenir des informations de l'image source qui ne sont pas codées par l'image (F1 ) mais qui apparaîtront dans l'image (F2).

La figure 5 représente les différentes opérations effectuées au décodage.

Le train binaire échelonnable est transmis à l'entrée d'un circuit de concaténation 41 qui a pour rôle d'extraire les données de la couche de base et celle de la couche haute résolution ou couche supérieure. Les données basse résolution sont transmises à un circuit de décodage de la basse résolution 42. Ce circuit fournit la vidéo décodée basse résolution en sortie du décodeur. Il transmet également les données relatives à l'image basse résolution décodée à un circuit 44 de zoom de l'image basse résolution reconstruite. Les données haute résolution provenant du circuit 41 sont transmises à un circuit 43 de décodage des paramètres géométriques. Ce circuit fournit au circuit 44 les informations relatives à la taille de la fenêtre α_L et α_H pour la mise à l'échelle de l'image basse résolution. Ce circuit fournit également à un circuit 45 de décodage de l'image de résidu et des bords, les informations relatives à l'image de résidus et à la zone non couverte par la fenêtre ainsi que les données relatives au positionnement de la fenêtre sur l'image haute définition, l_w, c*. Le circuit 44 fournit au circuit 45 l'image basse résolution mise à l'échelle. Le circuit 45 calcule l'image haute définition avec les informations de bords et de résidu puis combine cette image avec l'image basse résolution mise à l'échelle et positionnée dans cette image haute définition pour donner une image haute définition globale.

Les figures 6 représentent, de manière symbolique, les différentes étapes du procédé de décodage. La première étape, circuit 42 et figure 6a, consiste en un décodage des données de la couche de base du flux de données et correspondant à l'image basse résolution (F2). Si l'on ne souhaite que l'image basse résolution, le décodage s'arrête à ce stade. Si l'on souhaite accéder aussi à l'image haute résolution, les étapes suivantes sont mises en œuvre.

La deuxième étape, circuit 43, effectue un décodage des paramètres l_w et Cw, (Xn et (XL . La troisième étape, circuit 44 et figure 6b, réalise le zoom de l'image décodée (F2) en fonction des valeurs α_H et (XL pour obtenir l'image Fz.

La quatrième étape, circuit 45 et figure 6c, effectue un décodage des données de la couche supérieure du flux de données. Il s'agit des zones non couvertes de l'image (F1 ) et de l'image de résidus. L'image basse résolution (F2) mise à l'échelle est positionnée sur l'image partiellement reconstruite haute définition en fonction des paramètres décodés l_w et c_w, pour être combinée à l'image de résidus, étape cinquième, circuit 45 et figure 6d. L'image haute définition (F1 ) est l'image obtenue après cette intégration de l'image basse résolution, circuit 45 et figure 6e.

Le procédé de codage mis en œuvre pour le codage de la couche de base et de la couche supérieure peut être de type hybride, exploitant la corrélation spatiale avec la transformée cosinus discrète ou la transformée par ondelettes spatiale et la corrélation temporelle avec le codage inter-images ou bien de type sous-bande exploitant le codage sous-bande ou le codage ondelettes.

Le procédé de codage est décrit pour des images source vidéo. Il est également possible, sans sortir du domaine de l'invention, de coder des images sources prétraitées, par exemple des images de sous-bandes. Le procédé peut ainsi s'appliquer sur chacune des images de sous-bandes, basse fréquences et hautes fréquences obtenues par filtrage spatial ou spatiotemporel. La même décomposition sous-bandes étant appliquée aux images basse et haute résolution, les sous-bandes équivalentes de la basse et de la haute résolution peuvent être codées selon le procédé décrit dans l'invention. Par exemple, la sous-bande basse fréquence de l'image basse résolution et de l'image haute résolution peuvent être codées selon ce procédé. Ceci est aussi vrai pour toutes les autres sous-bandes spatiales.

Claims

REVENDICATIONS

1 Procédé de codage hiérarchique d'images vidéo de différents formats non proportionnels pour donner un flux de données codées, une première image (F1 ) à un format F1 (1 , 11 ) et au moins une deuxième image (F2) à un format F2 (1 , 12) de résolution inférieure au format F1 , le contenu vidéo des images (F1 ) et (F2) ayant au moins une partie commune, caractérisé en ce qu'il met en œuvre les étapes suivantes : - codage de l'image (F2) (4) pour fournir des données codées à une couche de base du flux de données codées,

- zoom de l'image (F2) (5) pour obtenir une image basse résolution zoomée (Fz) de dimensions celles de l'image (F1 ) pour la partie vidéo commune, - codage de l'image (F1 ) pour la partie commune (6, 8) à l'image zoomée (Fz) en prenant en compte cette image zoomée (Fz) comme image de prédiction pour le calcul de résidus, pour fournir des données codées à la couche supérieure du flux de données codées,

- codage de l'image (F1 ) pour la partie non commune à l'image zoomée (Fz) (7, 8) pour fournir des données complémentaires à la couche supérieure du flux de données codées.

2 Procédé selon la revendication 1 , caractérisé en ce que l'image (F2) utilisée pour le zoom est une image reconstruite obtenue par décodage local (5) de l'image codée (F2).

3 Procédé selon la revendication 1 , caractérisé en ce que le zoom (5) consiste en un suréchantillonnage et filtrage de l'image.

4 Procédé selon la revendication 1 , caractérisé en ce que les images vidéo de différents formats sont des images de sous-bandes obtenues par décomposition temporelle de type ondelette ou codage sous-bandes.

5 Procédé selon la revendication 1 , caractérisé en ce que la partie commune du contenu vidéo est définie à partir de paramètres géométriques tels qu'un ou des facteurs de zoom à partir duquel est effectué le zoom de l'image

(F2) pour obtenir l'image basse résolution zoomée (Fz) et une position de l'image zoomée (Fz) dans l'image (F1 ) et et en ce que ces paramètres sont codés et transmis dans la couche supérieure.

6 Procédé selon la revendication 5, caractérisé en ce que les paramètres géométriques sont obtenues en mettant en œuvre les étapes suivantes :

- prédétermination, dans une image source, d'une première fenêtre vidéo (1 ) définissant le contenu vidéo à coder au format F1 , et d'une deuxième fenêtre vidéo (1 ) définissant le contenu vidéo à coder au format F2 et ayant au moins une partie vidéo commune à la première fenêtre,

- si les dimensions de la première fenêtre sont supérieures à celles du format F1 , sous-échantillonnage de la vidéo (1 ) dans la première fenêtre pour obtenir une image (F1 ) au format F1 ,

- si les dimensions de la deuxième fenêtre sont supérieures à celles du format F2, sous-échantillonnage (3) de la vidéo dans la deuxième fenêtre pour obtenir une image (F2) au format F2.

- calcul du ou des facteurs de zoom en fonction des rapports de dimensions de la première et deuxième fenêtre respectivement aux formats F1 et F2 et calcul de la position de l'image (F2) dans l'image (F1 ).

7 Procédé selon la revendication 1 , caractérisé en ce que la première image est au format de résolution haute définition HD et la deuxième image est au format de résolution standard SD (Standard Définition).

8 Procédé de décodage d'un flux de données numériques structurées en au moins une couche de base comprenant des données relatives à une image basse résolution et une couche supérieure comprenant des données relatives à une image haute résolution, l'image faible résolution correspondant à au moins une partie vidéo de l'image haute résolution, caractérisé en ce qu'il comporte les étapes suivantes :

- extraction de données de la couche de base (41 ) relatives à l'image basse résolution et décodage (42) de l'image basse résolution,

- mise à l'échelle de l'image décodée (44) pour mettre en correspondance la partie vidéo commune, pour fournir une image de prédiction, - extraction (41 ) et décodage de données de la couche supérieure relatives à une image de résidus (45) correspondant à la partie vidéo commune et combinaison de cette image de résidus décodée avec l'image décodée mise à l'échelle (45),

- extraction (41 ) et décodage de données complémentaires de la couche supérieure relatives à la partie vidéo non commune (45) et ajout à l'image combinée (45).

9 Procédé selon la revendication 8, caractérisé en ce qu'il comporte une étape d'extraction (41 ) et de décodage (43) de données géométriques de la couche supérieure définissant le facteur de mise à l'échelle pour l'image décodée et la position de l'image mise à l'échelle dans l'image haute résolution.

10 Flux de données hiérarchique pour le codage d'images vidéo de différents formats non proportionnels et ayant au moins une partie vidéo commune, caractérisé en ce qu'il comprend une couche basse correspondant à une image à un format basse résolution et une couche supérieure comprenant des données relatives à une image de résidus fonction de l'image au format basse fréquence, pour la partie vidéo commune aux deux formats, et des données complémentaires relatives à la partie vidéo non commune.