WO2014013149A2

WO2014013149A2 - Procédé et système d'encodage et de décodage vidéo comportant une étape d'élimination de la redondance de pixellisation lors de l'encodage et une étape de repixellisation lors du décodage

Info

Publication number: WO2014013149A2
Application number: PCT/FR2013/000201
Authority: WO
Inventors: Gang Xiao
Original assignee: Universite Nice Sophia Antipolis; Centre National De La Recherche Scientifique
Priority date: 2012-07-20
Filing date: 2013-07-22
Publication date: 2014-01-23
Also published as: WO2014013149A3; FR2993740B1; FR2993740A1

Abstract

L'invention concerne un procédé et un système d'encodage et de décodage vidéo comportant une étape d'élimination de la redondance de pixellisation lors de l'encodage et une étape de repixellisation lors du décodage. Le procédé est caractérisé, lors de l'encodage pour le calcul de chaque image résiduelle (R1 à R3), par une étape de réduction des différences issues des effets de pixellisation de chaque image source (S1 à S3) et, lors du décodage pour l'obtention de chaque image d'affichage (A1 à A3), par une étape de repixellisation combinant les multiples valeurs chromatiques de chaque pixel de l'image de référence (F1, F2, F3). Application dans le traitement des images numériques lors de leur compression et décompression.

Description

Procédé et système d'encodage et de décodage vidéo comportant une étape d'élimination de la redondance de pixellisation lors de l'encodage et une étape de repixellisation lors du décodage L'invention concerne un procédé et un système d'encodage et de décodage vidéo comportant une étape d'élimination de la redondance de pixellisation lors de l'encodage et une étape de repixellisation lors du décodage.

Dans la compression d'un flux vidéo composé d'une succession d'images, certaines des images, dites images de type P, servent de référence pour la prédiction des images suivantes. Des techniques sophistiquées de compensation de mouvement sont appliquées pour augmenter la précision de la prédiction qui est le point clé de l'efficacité de la compression.

La différence entre une image prédite et l'image réelle fait l'objet d'une image résiduelle, qui doit être transmise de l'encodeur au décodeur. Plus la prédiction est précise, moins importante sera l'information contenue dans l'image résiduelle et donc la quantité de données à transmettre.

Dans tous les protocoles actuels, pour les images de type P, l'image affichée et l'image servant de référence future sont identiques.

Une image de référence est une image avec le même nombre de pixels que l'image d'affichage, et chaque pixel peut avoir une ou plusieurs valeurs. Chaque valeur de pixel de l'image de référence contient les valeurs chromatiques du pixel plus un vecteur de positionnement fractionnaire dont les composantes ne dépassent pas la moitié du pixel dans chaque direction.

Le nombre maximal de valeurs pour un même pixel de l'image de référence est prédéfini et peut être entre 1 et 5. Préférentiellement, le nombre maximal de valeurs pour un même pixel est 2.

Dans un cas d'exemple, la valeur d'un pixel de l'image de référence est composée de 4 octets, avec 3 octets pour les 3 valeurs chromatiques du pixel, chacune ayant 256 valeurs possibles, et un quatrième octet contenant le vecteur de positionnement fractionnaire. La précision du positionnement est donc 1/16 fois de la distance entre deux pixels voisins dans chaque direction. Le document WO-A-201 1/071347 a trait à un procédé et à un appareil de codage et décodage d'images utilisant le filtrage sélectif d'une image à compensation de mouvement. Le mode de réalisation décrit dans ce document comporte un appareil de codage d'images qui filtre de façon sélective, pour chacun des blocs d'une pluralité de blocs de filtrage, l'image à compensation de mouvement générée en estimant et en compensant le mouvement de l'image, de sorte à générer une image à compensation de mouvement filtrée.

L'appareil soustrait l'image à compensation de mouvement filtrée à l'image source en vue de générer une image résiduelle. L'appareil transforme et quantifie l'image résiduelle et compresse l'image résiduelle transformée et quantifiée. L'image à compensation de mouvement est filtrée afin de supprimer une grande quantité de la redondance temporelle restant dans l'image résiduelle, ce qui permet d'améliorer l'efficacité de la compression vidéo. Ce document ne décrit cependant pas comment il est effectué la suppression de la redondance temporelle restant dans l'image résiduelle.

Le problème à la base de la présente invention est de procéder à l'élimination de la redondance de pixellisation dans une image résiduelle en éliminant les valeurs de repixellisation n'ayant aucune influence sur la qualité de l'image tout en conservant les autres valeurs influant sur la qualité de l'image résiduelle.

A cet effet, l'invention a pour objet un d'encodage et de décodage d'images sources successives (S1 à S3) afin d'obtenir des images d'affichage (A1 à A3), lors duquel encodage, pour chaque image source donnée (S1 à S3), il est calculé une image de prédiction (P1 à P3), une image de référence (F1 à F3) et une image résiduelle (R1 à R3), ladite image de prédiction (P1 à P3) étant celle obtenue après application d'un champ de vecteurs de mouvement (M à M3) aux images de référence antérieures ou postérieures (F1 à F3), ladite image résiduelle (R1 à R3) étant la différence entre l'image source (S1 à S3) et l'image de prédiction (P1 à P3), ladite image de référence (F1 à F3) étant déduite de l'image de prédiction (P1 à P3) par l'ajout de ladite image résiduelle (R1 à R3), ladite image de prédiction (P1 à P3) et ladite image de référence (F1 à F3) ayant le même nombre de pixels que l'image source correspondante (S1 à S3), mais chaque pixel de l'image de prédiction (P1 à P3) et de l'image de référence (F1 à F3) pouvant avoir un nombre variable de valeurs chromatiques, chacune d'elles contenant en plus un vecteur de positionnement fractionnaire et lors duquel décodage il est utilisé les champs de vecteurs (M1 à M3) et les images résiduelles (R1 à R3) pour reconstituer la série d'images de référence (F1 à F3) servant à l'obtention d'images d'affichage (A1 à A3), lequel procédé comprend, lors de l'encodage pour le calcul de chaque image résiduelle (R1 à R3), une étape de réduction des différences issues des effets de pixellisation de chaque image source (S1 à S3) et, lors du décodage pour l'obtention de chaque image d'affichage (A1 à A3), une étape de repixellisation par interpolation combinant les multiples valeurs chromatiques de chaque pixel de l'image de référence (F1 , F2, F3), le procédé étant caractérisé en ce que l'étape de réduction des différences issues des effets de pixellisation des images sources (S1 à S3) consiste à déterminer les gradients de luminance pour chaque paire de pixels associés dans l'image de prédiction (P1 à P3) et l'image source (S1 à S3) correspondante, à calculer un facteur N qui est soit 0 soit la norme de la plus petite projection orthogonale positive d'un des gradients sur l'autre pour chaque paire de pixels associés, à prédéterminer une proportion r telle que toute différence entre les valeurs chromatiques est ignorée si elle est inférieure en valeur absolue à rN.

Avantageusement, le nombre de valeurs chromatiques dans chaque pixel des images de prédiction et de l'image de référence est limité par une valeur prédéfinie entre 1 et 5.

Avantageusement, le nombre de valeurs chromatiques dans chaque pixel des images de prédiction et de l'image de référence est limité à 2.

Avantageusement, dans le procédé, le facteur N est avantageusement défini par la formule :

<V,. V ₃) ,

N = ma (0, L m )

' max(| V_u V₂ ||) V _{t e}t v₃ étant les gradients des fonctions de luminance pour les deux pixels p1 et p2 d'une paire de pixels associés des deux images mis en correspondance par le vecteur de mouvement, (^v»s ^v a) \_e produit scalaire et ll ^vi. ^v *ll la norme de , et V_a..

Avantageusement, la proportion r a une valeur prédéterminée comprise entre 0,2 et 1 ,5, cette valeur étant fonction de la qualité de la source vidéo, de la précision des vecteurs de mouvement et de la qualité voulue de la compression.

Avantageusement, la proportion r est égale à 0,5.

Avantageusement, ladite image résiduelle ainsi obtenue est ajoutée à l'image de prédiction pour l'obtention d'une image de référence associée à l'image source donnée.

Avantageusement, quand le nombre de valeurs pour un même pixel dans la nouvelle image de prédiction dépasse ladite limite, les valeurs des pixels les plus proches dans l'espace sont combinées en prenant la moyenne des valeurs chromatiques et des positionnements fractionnaires.

Dans un mode de réalisation de l'invention, le traitement de repixellisation consiste en une interpolation par le voisin le plus proche.

Dans un autre mode de réalisation de l'invention, le traitement de repixellisation consiste en une interpolation bilinéaire.

Avantageusement, l'interpolation bilinéaire est utilisée quand la vitesse du mouvement temporel du pixel dépasse un certain seuil prédéfini tandis que l'interpolation par le voisin le plus proche est utilisée pour une vitesse du mouvement temporel inférieure audit seuil.

Avantageusement, pour une image résiduelle appliquée à une image de prédiction pour corriger les diverses erreurs de prédiction, quand un pixel de l'image résiduelle est à ajouter sur la valeur du pixel de l'image de prédiction, ledit pixel de l'image résiduelle s'ajoute sur les valeurs de l'image de prédiction associées à ce pixel et, quand un pixel de l'image résiduelle remplace le pixel de l'image de prédiction, il remplace les valeurs de l'image de prédiction de ce pixel avec le positionnement fractionnaire remis à la position exacte du pixel de l'image résiduelle.

L'invention concerne aussi un système d'encodage et de décodage vidéo pour la mise en oeuvre d'un tel procédé, lequel système comprend : - des moyens d'encodage d'images vidéo comprenant des moyens de calcul pour chaque image source donnée, le cas échéant à partir d'un champ de vecteurs de mouvement, d'une image de prédiction, d'une image de référence et d'une image résiduelle ainsi que des moyens de réduction des effets de pixellisation de chaque image source,

- des moyens de mémorisation au moins temporaire et de transmission de données relatives aux images résiduelles et aux champs de vecteurs de mouvement, et

- des moyens de décodage pour l'obtention de chaque image d'affichage, comprenant des moyens de calcul pour reconstituer la série d'images de référence servant à l'obtention d'images d'affichage à partir des données transmises relatives aux champs de vecteurs et aux images résiduelles, les moyens de décodage comprenant des moyens de traitement effectuant sur chaque image de référence une repixellisation combinant les multiples valeurs chromatiques de chaque pixel.

L'invention va maintenant être décrite plus en détail mais de façon non limitative en regard des figures annexées, dans lesquelles :

- la figure 1 est une représentation de trois images de référence consécutives montrant les valeurs et positions des pixels dans les images de référence après l'action de vecteurs de mouvement,

- la figure 2 est une représentation schématique du parcours du flux d'images dans un encodeur, cet encodeur fonctionnant selon un encodage présentant une étape d'élimination de la redondance de pixellisation conformément à la présente invention, l'encodage faisant partie d'un procédé d'encodage et de décodage selon la présente invention,

- la figure 3 est une représentation schématique du parcours du flux d'images dans un décodeur, ce décodeur fonctionnant selon un décodage pour lequel il est prévu un traitement de repixellisation, le décodage faisant partie d'un procédé d'encodage et de décodage selon la présente invention, - la figure 4 est une représentation de cinq blocs de pixel, illustrant l'effet de l'étape d'élimination de la redondance de pixellisation dans la partie encodage du procédé selon la présente invention, - la figure 5 est une vue schématique d'un système d'encodage et de décodage selon la présente invention.

La figure 1 montre les valeurs et positions des pixels dans les images de référence d'une séquence de vidéo, sous les actions des vecteurs de mouvement. Il y a trois images de référence F1 , F2 et F3 consécutives, chacune étant représentée par un bloc de 3x3 pixels.

Dans chaque image F1 , F2 et F3, chaque petit carré désigne les positions appartenant à un pixel, dont un seul est référencé p1 , p2 et p3 pour respectivement une image F1 , F2 et F3, chaque valeur de pixel étant représentée par une croix sur les trois images F1 , F2 et F3. La position centrale dans un carré est montrée par un cercle sur les trois images F1 , F2 et F3.

Les flèches, dont une seule est référencée m1 , m2, pour chaque image F1 et F2 représentent les vecteurs de mouvement appliqués sur l'image F1 , F2 pour générer l'image suivante F2, F3. Chaque croix représente la position d'une valeur de pixel.

Pour une même image F1 ou F2, il peut y avoir plusieurs vecteurs de mouvement m1 ou m2 différents selon un carré de l'image F1 ou F2. Les valeurs de pixel d'un carré d'une image F1 , F2 ne suivent pas forcément le même mouvement que le pixel d'un autre carré de la même image F1 , F2.

L'image F1 est l'image initiale de la séquence, donc les valeurs des pixels p1 sont toutes placées au centre : les croix de valeur de pixel sont donc confondues avec les cercles. Les valeurs de pixel p1 sont déplacées par le champ de vecteurs selon la flèche m1 aux positions indiquées dans l'image F2 et symbolisées par une croix respective dans ladite image F2 afin de constituer une valeur de pixel p2.

Il convient de remarquer que dans ce cas, pour un même carré de l'image F2, certains pixels peuvent posséder plusieurs valeurs. C'est le cas notamment des pixels dans la seconde ligne de carrés de la seconde image F2.

Le même processus s'applique pour la transition de la seconde image F2 à la troisième image F3 après application du champ de vecteurs de mouvement m2 sur l'image F2. A l'image F3, il est obtenu les positions des valeurs de pixel p3, et ainsi de suite, les vecteurs de mouvement n'ayant cependant pas été dessinés à cette image F3.

La figure 2 illustre le schéma du flux des images dans l'encodeur lors de l'opération de compression des images selon le procédé d'encodage faisant partie de la présente invention. A cette figure, les références S1 , S2, S3 indiquent les images sources de la séquence vidéo qui entrent dans l'encodeur par son entrée Ee. Pour simplifier la figure, il a été omis les images de type B, donc seules les images de type I et P sont présentes.

Dans la figure 2 relative à l'encodage, il est montré une suite de trois images sources S1 à S3, deux images résiduelles R2 et R3, deux images de prédiction P2 et P3 et deux images de référence F2 et F3. Il en va de même pour la figure 3 relative au décodage avec trois images d'affichage A1 à A3 à la place des images sources S1 à S3. Il est évident que la présente invention n'est pas limitée à une suite aussi réduite d'images et que le nombre d'images de différents types peut être quelconque.

S1 référence la première image source de la séquence et donne une image de type I, référencée I à cette figure. A cette image I, un champ de vecteurs M1 de mouvement est appliqué pour produire l'image de prédiction P2, qui sert de prédiction pour la seconde image.

L'image de prédiction P2 est comparée à la seconde image source S2 et la différence entre l'image de prédiction P2 et l'image source S2 donne l'image résiduelle R2.

Dans ce calcul de la différence, conformément à l'invention, l'étape d'élimination de la redondance de pixellisation dans le procédé d'encodage faisant partie du procédé selon la présente invention est appliquée.

Cette étape d'élimination des variations de pixellisation dans l'image résiduelle R2 consiste dans la réduction des différences issues des effets de pixellisation de chaque image source S1 à S3.

Lors de l'encodage, il est calculé une image de prédiction P2, P3, une image de référence F2, F3 et une image résiduelle R2, R3. L'image de prédiction P2, P3 est soit identique à l'image source S1 à S3, soit celle obtenue après application d'un champ de vecteurs de mouvement M1 à M3 aux images de référence antérieures ou postérieures F2, F3. En effet, soit une image de prédiction Pn où n est un entier naturel, il est possible d'obtenir cette image de prédiction Pn par application d'un champ de vecteurs de mouvement Mn+1 à l'image de référence Fn+1 postérieure, les standards de compression vidéo pouvant effectuer des référencements inversés.

L'image résiduelle R2, R3 est la différence entre l'image source S2, S3 et l'image de prédiction P2, P3. Ensuite, L'image de référence F3 est déduite de l'image de prédiction P3 par l'ajout de l'image résiduelle R3. L'image de prédiction P2 ou P3 et l'image de référence F2 ou F3 ont le même nombre de pixels que l'image source correspondante S2 ou S3, mais chaque pixel de l'image de prédiction P2 ou P3 et de l'image de référence F2 ou F3 peuvent avoir un nombre variable de valeurs chromatiques, chacune d'elles contenant en plus un vecteur de positionnement fractionnaire.

Lors du décodage, il est utilisé les champs de vecteurs M1 à M3 et les images résiduelles R2, R3 pour reconstituer la série d'images de référence F2, F3 servant à l'obtention d'images d'affichage A1 à A3. Selon l'invention, le procédé est caractérisé, lors de l'encodage, pour le calcul de chaque image résiduelle R2, R3, par une étape de réduction des différences issues des effets de pixellisation de chaque image source S1 à S3.

Une forme de réalisation préférée mais non limitative de la présente invention va maintenant être décrite.

Soient ^V et V₂ les gradients des fonctions de luminance respectivement du pixel de la première image et du pixel de la seconde image, il est défini une partie minimale N des gradients comme étant la norme de la plus petite projection orthogonale d'un des gradients sur l'autre si le produit scalaire (V,, V ₂)est positif; où N est par définition nulle si ce produit scalaire est négatif. Autrement dit :

où ^{v 2}' est le produit scalaire et II ^v *> ^v * Il la norme de V , _et V_a. Selon la présente invention, dans la comparaison des valeurs chromatiques des deux images sur p1 et p2, toute différence dont la valeur absolue ne dépasse pas une proportion r de N est ignorée. La proportion r est prédéfinie, avec une valeur préférée qui va de 0,2 à 1 ,5, ceci en fonction de la qualité de la source vidéo, de la précision des vecteurs de mouvement et de la qualité voulue de la compression.

D'après les tests, pour une source d'image de qualité raisonnable et des vecteurs de mouvement suffisamment précis, la partie essentielle des variations de repixellisation est inférieure à 0,5N, tandis que l'immense majorité des différences non-négligeables de deux images sont nettement supérieures à 2N.

La partie du procédé selon l'invention prenant place lors de l'encodage et présentant une étape d'élimination de la redondance de pixellisation permet donc de retirer l'essentiel des variations de repixellisation de l'image résiduelle sans effet négatif détectable pour les différences non-négligeables, ces variations de repixellisation de l'image résiduelle n'influant pas ou peu sur la qualité de l'image.

Après le traitement d'élimination de la redondance de pixellisation conformément à l'étape d'élimination du procédé d'encodage selon l'invention pour l'image résiduelle R2, une compression est avantageusement prévue pour réduire la taille de l'image résiduelle R2 avant de la transmettre à la sortie Se de l'encodeur.

En parallèle à la transmission de l'image résiduelle R2 à la sortie Se de l'encodeur, après la compression, l'image résiduelle R2 est ajoutée à l'image de prédiction P2 pour produire l'image de référence F2.

Ensuite, en analogie à ce qui a été fait sur l'image I obtenue de la première image source S1 , il est appliqué un deuxième champ de vecteurs M2 à l'image de référence F2 afin de générer une troisième image de prédiction P3, cette image de prédiction P3 étant soustraite de la troisième image source S3 afin d'obtenir une image résiduelle R3, elle-même traitée de manière similaire à l'image résiduelle précédente R2 et ainsi de suite pour les images sources, de prédiction et de référence suivantes.

L'image I, les images résiduelles R2, R3, ... et les champs de vecteurs de mouvement M1 , M2, M3 ... sont envoyés à la sortie Se de l'encodeur et sont ensuite transmis au décodeur, comme il va être montré en regard de la figure 3. La figure 3 illustre le schéma du flux des images dans le décodeur dans lequel est effectuée la décompression des images. A cette figure, l'image I et les images résiduelles R2, R3, ... constituent la séquence vidéo compressée envoyée par l'encodeur et reçues par l'entrée Ed du décodeur. Les images d'affichage A1 , A2, A3, .... sont les images décodées destinées à l'affichage. Les références X désignent l'étape de repixellisation, étape qui sera ultérieurement décrite.

L'image I, l'image de référence F1 et l'image d'affichage A1 sont identiques. Le champ de vecteurs de mouvement M1 est appliqué à l'image I pour produire l'image de prédiction P2, qui est ajoutée à l'image résiduelle R2, obtenue après encodage, pour générer l'image de référence F2. Ensuite, le champ de vecteurs M2 est appliqué sur l'image de référence F2 pour générer l'image de prédiction P3, et ainsi de suite.

En parallèle de l'application du champ de vecteurs M2 sur l'image de référence F2, ladite image de référence F2 est soumise à un traitement de repixellisation X afin de produire la seconde image d'affichage A2. Le même traitement de repixellisation X est ensuite appliqué aux images de référence consécutives pour obtenir une image d'affichage correspondante.

Il est à noter que les suites des images I, de prédiction P2, de référence F2, de prédiction P3, de référence F3 ... sont exactement respectivement identiques dans l'encodeur et dans le décodeur.

Ainsi, lors du décodage, le procédé selon l'invention est caractérisé en ce que, pour l'obtention de chaque image d'affichage A1 à A3, il est procédé à une étape de repixellisation combinant les multiples valeurs chromatiques de chaque pixel de l'image de référence F1 , F2, F3.

Il convient d'ajouter que si dans le procédé d'encodage et de décodage selon la présente invention l'association d'une étape de réduction des différences issues des effets de pixellisation de chaque image source S1 à S3 lors de l'encodage avec une étape de repixellisation pour l'obtention de chaque image d'affichage A1 à A3 lors du décodage est préférée, une de ces étapes peut être combinée avec un procédé d'encodage ou respectivement un procédé de décodage différent de ceux précédemment proposés. Soit n un nombre entier naturel, illustré par 2 ou 3 aux figures 2 et 3, quand un pixel de l'image résiduelle Rn est à ajouter sur la valeur du pixel prédit, ce pixel de l'image résiduelle Rn s'ajoute sur les valeurs de l'image de prédiction Pn associés à ce pixel. Quand un pixel de l'image résiduelle Rn remplace le pixel prédit, il remplace les valeurs de l'image de prédiction Pn de ce pixel, avec le positionnement fractionnaire remis à la position exacte du pixel de l'image résiduelle Rn.

Pour une scène en mouvement, les contours et détails dans la scène, après le mouvement, ne sont pas forcément alignés aux positions exactes des pixels. C'est notamment le cas quand le mouvement n'est pas une simple translation. Donc un algorithme doit être appliqué pour ré-aligner la scène aux nouvelles positions des pixels afin de pouvoir l'afficher. Cette opération porte le nom de repixellisation.

Si des algorithmes existent qui offrent d'excellente qualité visuelle après une seule repixellisation, il n'en existe aucun qui puisse éviter une dégradation graduelle de la qualité de l'image après des repixellisations répétitives. Pour les images de type P, il est donc nécessaire de corriger les variations introduites dans la repixellisation. En plus, par souci d'économie de bande passante, ces corrections ne sont jamais parfaites et une dégradation résiduelle est donc toujours présente.

D'après des mesures effectuées sur différents types de source vidéo, le coût en bande passante de la correction de pixellisation représente au minimum l'équivalent de 1 à 1 ,5 images par seconde pour le H.264, sur les cas les plus favorables avec une source vidéo quasi sans bruit comportant des mouvements réguliers et lents.

Avec des bruits, comme c'est le cas d'une source vidéo issue d'une compression antérieure, ce coût monte à 2 images par seconde, dans un flux dont la bande passante globale est en général entre 4 et 6 images par seconde. Ce coût est donc très important. Dans le cas où la source vidéo ne contient pas de mouvements trop compliqués, la correction des variations de pixellisation peut même constituer la partie principale du flux vidéo compressé. Comme précédemment mentionné, une image d'affichage, pour n étant égal à 2 ou 3, An est déduite de l'image de référence Fn correspondante par un algorithme de repixellisation. Il peut exister plusieurs algorithmes de repixellisation qui peuvent être employés en alternative ou en complément pour effectuer la repixellisation.

Par exemple, avec n égal à 2 ou 3 en regard des figures 2 et 3, la valeur d'un pixel de l'image d'affichage An peut être la copie du pixel le plus proche de l'image de référence Fn, en tenant compte du positionnement fractionnaire de ce dernier. Ce traitement de repixellisation est appelé par interpolation par le voisin le plus proche.

Une autre possibilité de traitement de repixellisation est de prendre la moyenne de 3 à 4 pixels de l'image de référence Fn les plus proches du pixel de l'image d'affichage An, inversement pondérés par leurs distances respectives. Ce traitement de repixellisation est appelé par interpolation bilinéaire.

Sans augmenter le coût du calcul du décodeur, une solution préférée consiste à utiliser l'interpolation bilinéaire quand la vitesse du mouvement temporel du pixel dépasse un certain seuil prédéfini pour garder une vitesse de déplacement uniforme des formes et utiliser l'interpolation par le voisin le plus proche quand la vitesse du mouvement temporel est plus basse, pour montrer le maximum de netteté visuelle de l'image.

Quand une nouvelle image de prédiction Pn est déduite à partir d'une image de référence antérieure Fn-1 et d'un champ de vecteurs Mn-1 de mouvement, les pixels de l'ancienne image de référence Fn-1 sont pris avec leurs positionnements fractionnaires et, en ajoutant le champ de vecteurs Mn- 1de mouvement correspondant, ils sont mis dans les positions de pixels de la nouvelle image de prédiction Pn, y compris les nouvelles positions fractionnaires. Il en va de même pour un référencement postérieur comme précédemment mentionné.

Cependant, les valeurs chromatiques des pixels ne sont pas modifiées, sauf dans le cas où le nombre de valeurs pour un même pixel dans la nouvelle image de prédiction dépasse la limite prédéfinie. Dans ce dernier cas, les valeurs les plus proches dans l'espace sont combinées, en prenant la moyenne des valeurs chromatiques et des positionnements fractionnaires.

La figure 4 montre cinq blocs de 4x4 pixels pour illustrer l'effet de l'étape d'élimination de la redondance de pixellisation selon la présente invention.

Pour ces cinq blocs, les casés blanches représentent chacune un pixel blanc de valeur 256, les cases hachurées représentent chacune un pixel gris de valeur intermédiaire 128 tandis que les cases noires représentent chacune un pixel noir de valeur nulle.

Entre les deux premiers blocs B1 et B2, les gradients sont dans le même sens, et la différence des deux blocs est un déplacement d'une distance de 0,7 pixel dans le sens des gradients.

Conformément à la présente invention, il est défini une proportion r de N avec N calculé selon la formule suivante :

avec ^{V t} et étant les gradients des fonctions de luminance pour deux pixels p1 et p2 dans les deux images mis en correspondance par le vecteur de mouvement, ^ ^v ^ le produit scalaire de ^v» et ^v¾ et " ^{V lï V J} " la norme de ^{V l} et V_a.

La proportion r a une valeur prédéfinie préférée qui va de 0,2 à 1 ,5, ceci en fonction de la qualité de la source de vidéo, de la précision des vecteurs de mouvement et de la qualité voulue de la compression.

Donc si le paramètre r est supérieur à la distance dans le sens des gradients précédemment mentionnée, distance qui est de 0,7 pixel pour les blocs B1 et B2, la différence entre les deux blocs B1 et B2 est supprimée dans l'image résiduelle par le procédé.

Le bloc B3 a un gradient plat. Ce gradient nul désactive l'étape d'élimination du procédé. Donc pour une comparaison avec n'importe quel autre bloc, la différence est entièrement reportée dans l'image résiduelle.

Les blocs B1 et B4 ont une grande différence et tous les deux ont de forts gradients. Mais ces gradients sont dans des sens plutôt opposés, donc les produits scalaires ³ sont négatifs. L'étape d'élimination est aussi inactive dans ce cas et la différence entre blocs est entièrement reportée dans l'image résiduelle.

La situation est la même entre les blocs B1 et B5 ou entre les blocs B2 et B5.

Entre les blocs B4 et B5, les gradients sont co-orientés, mais ils ne sont pas exactement dans le même sens, donc les produits scalaires ^{¾ V l}' ^ ²^ ont des valeurs plus petites. Selon l'équation du calcul de N à la base du procédé d'encodage présentant une étape d'élimination de la redondance, cela implique une condition plus stricte pour l'élimination des différences, condition qui est fonction de la proportion r prédéfinie.

Suivant la valeur de la proportion r, il peut y avoir 1 ou 2 pixels sur lesquels le procédé supprime la différence dans l'image résiduelle.

Cependant, l'impact visuel ainsi obtenu est très limité.

L'efficacité du procédé d'encodage présentant une telle étape d'élimination selon la présente invention a été confirmée par une série de tests.

Des tests ont, par exemple, été réalisés sur des séquences de vidéo, dont la source est propre et de bonne qualité en contenant des mouvements uniformes, lents et simples. Mais ces mouvements n'étaient pas forcément de simples déplacements : ils pouvaient présenter une légère composante de rotation ou de changement d'échelle qui ne met pas les algorithmes de recherche de mouvement en échec.

Dans ces conditions, le logiciel x264 implémentant le protocole H.264 donne une compression nécessitant une bande passante entre 1 et 1 ,5 images par seconde pour les images de type P et B.

Au contraire, lors d'une utilisation du procédé d'encodage et de décodage avec l'étape d'élimination de la redondance de pixellisation, cette bande passante est réduite à moins de 0,1 image par seconde. Une stricte comparaison des deux résultats de compression, image par image et détail par détail, montre que la seule différence remarquable par l'œil est un léger déplacement d'une très petite partie des contours et détails, pour une ampleur moins qu'un pixel.

Cependant, une fois les images mises dans le flux vidéo, ces déplacements ne sont pas détectables par l'œil, car pour un mouvement de 2 pixels par image et 25 images par seconde, un déplacement de 0,5 pixel ne représente qu'une erreur de 10 millisecondes dans le temps. Ce délai est beaucoup trop court pour que l'œil humain puisse le remarquer.

Il a ensuite été mesuré les différences entre les images d'affichage respectives et leur image source correspondante, respectivement S1 à S3 et A1 à A3 en se référant aux figures 2 et 3, pour de telles séquences de vidéo. Avec la paramétrisation qui réduit la bande passante à moins de 0,1 image par seconde, ces différences d'image, en terme absolu d'écart-type, correspondent à celles d'une compression JPEG de qualité supérieure ou égale à 75%.

En terme du rapport bruit sur signal, les différences d'image correspondent à celles d'une compression JPEG de qualité supérieure ou égale à 80%. Ceci montre que le procédé d'encodage comportant une étape d'élimination selon la présente invention ne détériore pas la qualité d'image.

Pour des séquences de vidéo contenant des mouvements un peu plus compliqués, tels que des rotations et/ou des changements d'échelle plus prononcés ou des légers déplacements de quelques objets les uns par rapport aux autres, l'algorithme x264 donne une compression avec une bande passante entre 2 et 3 images par seconde pour les images de type P et B, alors qu'avec le procédé selon l'invention, cette bande passante est toujours au-dessous de 0,5 image par seconde.

Il convient de noter que les deux logiciels n'utilisent pas le même algorithme de recherche de mouvement. Donc la différence d'efficacité de recherche de mouvement peut aussi avoir un impact sur la différence du taux de compression. Ici les différences visuelles sur les résultats sont toujours de même nature et ampleur que pour les séquences vidéo avec mouvement plus simple.

Un autre exemple de ce type est une séquence vidéo préalablement compressée avec un algorithme de recherche de mouvement moins performant. C'est une photo statique qui est montrée dans la séquence vidéo avec un zoom graduel d'un taux de l'ordre de 10% par seconde. La compression par x264 nécessite une bande passante équivalente à 3,7 images par seconde, alors qu'après l'application de l'étape d'élimination de la redondance de pixellisation selon la présente invention, une bande passante de moins d'une image par seconde est largement suffisante.

Un examen détaillé des images dans la séquence montre que, outre le changement d'échelle uniforme, les images contiennent une proportion non négligeable de petites variations de positionnement des détails et contours, dont l'ampleur est moins d'un pixel. Ces variations ne sont pas visibles dans la séquence vidéo et elles sont supprimées dans sa majorité après l'application du procédé selon l'invention.

Pour les séquences vidéo contenant des mouvements plus compliqués, le résultat de la compression dépend surtout de l'efficacité de l'algorithme de recherche des mouvements. Il est donc difficile d'évaluer directement l'impact de l'élimination de la redondance de pixellisation.

Il convient de remarquer que, à cause des mouvements plus compliqués et plus rapides dans la séquence, le changement apporté par l'étape d'élimination de la redondance de pixellisation est encore moins visible que dans les séquences n'ayant que des mouvements lents.

Il a aussi été examiné les effets du procédé d'encodage et de décodage comportant l'étape d'élimination de la redondance de pixellisation selon la présente invention sur des images pour lesquelles d'importantes différences existent entre les images de la séquence. En général, seule une étroite comparaison entre images statiques permet de détecter un petit nombre d'altérations sous forme de légers déplacements des détails. Cependant il est impossible de détecter à l'œil nu ces altérations une fois que les images sont mises dans la séquence vidéo.

L'invention concerne aussi un système d'encodage et de décodage vidéo. Un exemple non limitatif d'une forme de réalisation d'un tel système d'encodage et de décodage vidéo est donné en regard de la figure 5. A cette figure, un flux vidéo d'images sources et un champ de vecteurs de mouvement relatif à ces images parviennent à des moyens d'encodage . Les moyens d'encodage 1 d'images vidéo comprennent des moyens de calcul pour chaque image source donnée d'une image de prédiction, d'une image de référence et d'une image résiduelle. Le calcul de l'image de prédiction est fait de sorte que l'image de prédiction est, soit identique à l'image source, soit celle obtenue après application du champ de vecteurs de mouvement aux images de référence antérieures ou postérieures.

Pour l'image résiduelle, celle-ci est obtenue par la différence entre l'image source et l'image de prédiction, tandis que l'image de référence est déduite de l'image de prédiction par l'ajout de l'image résiduelle. Conformément à la présente invention, les moyens d'encodage comprennent des moyens de réduction des effets de pixellisation de chaque image source.

Ensuite, les données concernant les images résiduelles et les champs de vecteurs de mouvement sont stockées par des moyens de mémorisation qui sont référencés 2 à la figure 5. Ces données peuvent être transmises à des moyens de transmission 3 qui, par l'intermédiaire d'un réseau de communication 4 quelconque, notamment Internet, envoient les données à des moyens de réception 5.

Le système d'encodage et de décodage vidéo selon la forme de réalisation montrée à la figure 5 comprend des moyens de décodage 6 permettant de décoder les données transmises. Ces moyens de décodage 6 permettent l'obtention de chaque image d'affichage et comprennent des moyens de calcul pour reconstituer la série d'images de référence servant à l'obtention d'images d'affichage à partir des données transmises relatives aux champs de vecteurs et aux images résiduelles, les moyens de décodage comprenant des moyens de traitement effectuant sur chaque image de référence une repixellisation combinant les multiples valeurs chromatiques de chaque pixel.

Enfin, le système de décodage comprend des moyens d'affichage 7 du type écran télévision, écran d'ordinateur ou projecteur pour la visualisation des images d'affichage.

Dans ce mode de réalisation, les moyens d'encodage sont séparés des moyens de décodage mais ce n'est pas forcément toujours le cas.

Claims

REVENDICATIONS

1. Procédé d'encodage et de décodage d'images sources successives (S1 à S3) afin d'obtenir des images d'affichage (A1 à A3), lors duquel encodage, pour chaque image source donnée (S1 à S3), il est calculé une image de prédiction (P1 à P3), une image de référence (F1 à F3) et une image résiduelle (R1 à R3), ladite image de prédiction (P1 à P3) étant celle obtenue après application d'un champ de vecteurs de mouvement (M1 à M3) aux images de référence antérieures ou postérieures (F1 à F3), ladite image résiduelle (R1 à R3) étant la différence entre l'image source (S1 à S3) et l'image de prédiction (P1 à P3), ladite image de référence (F1 à F3) étant déduite de l'image de prédiction (P1 à P3) par l'ajout de ladite image résiduelle (R1 à R3), ladite image de prédiction (P1 à P3) et ladite image de référence (F1 à F3) ayant le même nombre de pixels que l'image source correspondante (S1 à S3), mais chaque pixel de l'image de prédiction (P1 à P3) et de l'image de référence (F1 à F3) pouvant avoir un nombre variable de valeurs chromatiques, chacune d'elles contenant en plus un vecteur de positionnement fractionnaire et lors duquel décodage il est utilisé les champs de vecteurs (M1 à M3) et les images résiduelles (R1 à R3) pour reconstituer la série d'images de référence (F1 à F3) servant à l'obtention d'images d'affichage (A1 à A3), lequel procédé comprend, lors de l'encodage pour le calcul de chaque image résiduelle (R1 à R3), une étape de réduction des différences issues des effets de pixellisation de chaque image source (S1 à S3) et, lors du décodage pour l'obtention de chaque image d'affichage (A1 à A3), une étape de repixellisation par interpolation combinant les multiples valeurs chromatiques de chaque pixel de l'image de référence (F1 , F2, F3), le procédé étant caractérisé en ce que l'étape de réduction des différences issues des effets de pixellisation des images sources (S1 à S3) consiste à déterminer les gradients de luminance pour chaque paire de pixels associés dans l'image de prédiction (P1 à P3) et l'image source (S1 à S3) correspondante, à calculer un facteur N qui est soit 0 soit la norme de la plus petite projection orthogonale positive d'un des gradients sur l'autre pour chaque paire de pixels associés, à prédéterminer une proportion r telle que toute différence entre les valeurs chromatiques est ignorée si elle est inférieure en valeur absolue à rN.

2. Procédé selon la revendication 1 , pour lequel le nombre de valeurs chromatiques dans chaque pixel des images de prédiction (P1 à P3) et de l'image de référence (F1 à F3) est limité par une valeur prédéfinie entre 1 et

3. Procédé selon la revendication 2, pour lequel le nombre de valeurs chromatiques dans chaque pixel des images de prédiction (P1 à P3) et de l'image de référence (F1 à F3) est limité à 2.

4. Procédé selon l'une quelconque des revendications 1 à 3, pour lequel le facteur N est défini par la formule :

et ^Vi» étant les gradients des fonctions de luminance pour les deux pixels p1 et p2 d'une paire de pixels associés des deux images mis en correspondance par le vecteur de mouvement, (^¹ _* ^{v 2} le produit scalaire et II V i. i H |a norme de ^v _> et V»,

5. Procédé selon la revendication 4, pour lequel la proportion r a une valeur prédéterminée comprise entre 0,2 et 1 ,5, cette valeur étant fonction de la qualité de la source vidéo, de la précision des vecteurs de mouvement et de la qualité voulue de la compression.

6. Procédé selon la revendication 5, pour lequel la proportion r est égale à

7. Procédé selon l'une quelconque des revendications précédentes, pour lequel ladite image résiduelle (R1 à R3) ainsi obtenue est ajoutée à l'image de prédiction (P1 à P3) pour l'obtention d'une image de référence (F1 à F3) associée à l'image source donnée (S1 à S3).

8. Procédé selon la revendication 7, pour lequel, quand le nombre de valeurs pour un même pixel dans la nouvelle image de prédiction (P1 à P3) dépasse ladite limite, les valeurs des pixels les plus proches dans l'espace sont combinées en prenant la moyenne des valeurs chromatiques et des positionnements fractionnaires.

9. Procédé selon l'une quelconque des revendications précédentes, pour lequel le traitement de repixellisation (X) consiste en une interpolation par le voisin le plus proche.

10. Procédé selon l'une quelconque des revendications précédentes, pour lequel le traitement de repixellisation (X) consiste en une interpolation bilinéaire.

11. Procédé selon les revendications 9 et 10, pour lequel l'interpolation bilinéaire est utilisée quand la vitesse du mouvement temporel du pixel dépasse un certain seuil prédéfini tandis que l'interpolation par le voisin le plus proche est utilisée pour une vitesse du mouvement temporel inférieure audit seuil.

12. Procédé selon l'une quelconque des revendications 9, 10 ou 1 , pour lequel, pour une image résiduelle (R1 à R3) est appliquée à une image de prédiction (P1 à P3) pour corriger les diverses erreurs de prédiction, quand un pixel de l'image résiduelle (R1 à R3) est à ajouter sur la valeur du pixel de l'image de prédiction (P1 à P3), ledit pixel de l'image résiduelle (R1 à R3) s'ajoute sur les valeurs de l'image de prédiction (P1 à P3) associées à ce pixel et quand un pixel de l'image résiduelle (R1 à R3) remplace le pixel de l'image de prédiction (P1 à P3), il remplace les valeurs de l'image de prédiction (P1 à P3) de ce pixel avec le positionnement fractionnaire remis à la position exacte du pixel de l'image résiduelle (R1 à R3).

13. Système d'encodage et de décodage vidéo pour la mise en oeuvre d'un procédé selon l'une quelconque des revendications précédentes, lequel comprend :

- des moyens d'encodage (1) d'images vidéo comprenant des moyens de calcul pour chaque image source (S1 à S3) donnée, le cas échéant à partir d'un champ de vecteurs de mouvement (M1 à M3), d'une image de prédiction (P1 à P3), d'une image de référence (F1 à F3) et d'une image résiduelle (R1 à R3) ainsi que des moyens de réduction des effets de pixellisation de chaque image source (S1 à S3),

- des moyens de mémorisation (2) au moins temporaire et de transmission (3 à 5) de données relatives aux images résiduelles (R1 à R3) et aux champs de vecteurs de mouvement (M1 à M3), et

- des moyens de décodage (6) pour l'obtention de chaque image d'affichage (A1 à A3), comprenant des moyens de calcul pour reconstituer la série d'images de référence (F1 à F3) servant à l'obtention d'images d'affichage (A , A3) à partir des données transmisés relatives aux champs de vecteurs (M1 à M3) et aux images résiduelles (R1 à R3), les moyens de décodage comprenant des moyens de traitement effectuant sur chaque image de référence (F1 , F2, F3) une repixellisation combinant les multiples valeurs chromatiques de chaque pixel.