WO2010063898A1

WO2010063898A1 - Dispositif d'encodage d'un flux d'images numeriques et dispositif de decodage correspondant avec approximation du voisinage d'un bloc par le voisinage elargi du bloc

Info

Publication number: WO2010063898A1
Application number: PCT/FR2009/001361
Authority: WO
Inventors: Christine Guillemot; Jean-Jacques Fuchs; Laurent Guillo
Original assignee: Inria Institut National De Recherche En Informatique Et En Automatique; Universite De Rennes 1; Centre National De La Recherche Scientifique Cnrs
Priority date: 2008-12-03
Filing date: 2009-12-01
Publication date: 2010-06-10
Also published as: US8798161B2; EP2364552A1; US20110317767A1; EP2364552B1; FR2939264B1; FR2939264A1

Abstract

Un dispositif de décodage d'un flux d'images numériques, comprend : * une mémoire de travail (42) pour des données de blocs d'image déjà décodés, * un pilote (40), monté pour analyser un flux incident de données d'images numériques, et agencé pour déterminer des données à décoder d'un bloc courant de type données complètes ou données-paramètres, pour stocker les données complètes dans la mémoire de travail (42) en tant que données de blocs d'image déjà décodés, et pour appeler une unité de décodage (48) avec les données-paramètres, * l'unité de décodage (48) réagissant à la réception de données-paramètres par : - la sélection de certains blocs d'image déjà décodés, formant une base d'approche, qui avoisine le bloc courant selon une règle choisie, - le calcul d'une approximation du bloc courant, à partir d'une fonction algébrique linéaire des données de la base d'approche, et - le stockage dans la mémoire de travail (42), pour le bloc courant, de données de blocs d'image déjà décodés tirées de cette approximation.

Description

DISPOSITIF D'ENCODAGE D'UN FLUX D'IMAGES NUMERIQUES ET DISPOSITIF DE DECODAGE CORRESPONDANT AVEC APPROXIMATION DU VOISINAGE D'UN BLOC PAR LE VOISINAGE

ELARGI DU BLOC

L'invention concerne le traitement d'images et plus particulièrement les architectures de 5 codage vidéo.

Les dix dernières années ont vu un développement conséquent de la diffusion des vidéos sous forme électronique. Le format le plus connu et le plus répandu de nos jours est le MPEG-2 utilisé par les DVD. 10

La qualité de ce standard a été depuis améliorée avec le MPEG-4 et plus récemment avec le H.264. Cependant, au fur et à mesure que les architectures de codage ont progressé, plusieurs problèmes ont progressivement surgi.

15 Dans un premier temps, il a fallu améliorer la qualité des images restituées. Cela a été réalisé en augmentant progressivement la taille des fichiers encodés.

Cela a permis d'augmenter le débit d'encodage, c'est-à-dire la quantité de données par seconde. Assez rapidement, le débit a dû être limité pour des raisons de limitations 20 matérielles.

Diverses architectures dont celles citées ci-dessus ont donc été développées, afin de compresser de manière plus fidèle à débit comparable. Ces architectures ont eu pour résultat une augmentation conséquente du coût en temps de calcul de décodage et d'encodage 25 comme les architectures se sophistiquaient.

En outre, cette sophistication a eu pour conséquence de rendre les informations encodées de plus en plus critiques. En effet, plus les architectures sont avancées, et plus les données à décoder représentent un "condensé" d'informations, et plus les erreurs de transmission de 30 ces données tendent à dégrader l'image restituée. L'invention vient améliorer la situation.

A cet effet, l'invention propose un dispositif de décodage d'un flux de données d'images numériques, comprenant : * une mémoire de travail pour des données de blocs d'image déjà décodés,

* un pilote, monté pour analyser un flux incident de données d'images numériques, et agencé pour déterminer des données à décoder d'un bloc courant de type données complètes ou données-paramètres, pour stocker les données complètes dans la mémoire de travail en tant que données de blocs d'image déjà décodés, et pour appeler une unité de décodage (48) avec les données-paramètres,

* l'unité de décodage réagissant à la réception de données-paramètres par :

- la sélection de certains blocs d'image déjà décodés, formant une base d'approche, qui avoisine le bloc courant selon une règle choisie,

- le calcul d'une approximation du bloc courant, à partir d'une fonction algébrique linéaire des données de la base d'approche, et

- le stockage dans la mémoire de travail, pour le bloc courant, de données de blocs d'image déjà décodés tirées de cette approximation.

L'invention concerne également un dispositif d'encodage d'un flux de données d'images numériques, caractérisé en ce qu'il comprend :

* une mémoire de travail pour des données de blocs d'image déjà encodés,

* un pilote, monté pour analyser un flux incident de données d'images numériques, et agencé pour déterminer des données à encoder d'un bloc courant de type données complètes ou données-paramètres, pour stocker les données complètes dans la mémoire de travail en tant que données de blocs d'image déjà encodés, et pour appeler une unité d'encodage avec les données-paramètres,

* l'unité d'encodage réagissant à la réception de données-paramètres par :

- la sélection de certains blocs d'image déjà encodés, formant une base d'approche, qui avoisine le bloc courant selon une règle choisie, - le calcul d'une approximation du bloc courant, à partir d'une fonction algébrique linéaire des données de la base d'approche, et - le stockage dans la mémoire de travail, pour le bloc courant, de données de blocs d'image déjà encodés et de données à décoder tirées de cette approximation.

De tels dispositifs sont particulièrement avantageux car ils offrent une grande qualité d'image tout en permettant de mettre en place une grande variété de schémas d'encodage qui permettent de faire des compromis taux de compression/robustesse extrêmement intéressants.

D'autres caractéristiques et avantages de l'invention apparaîtront mieux à la lecture de la description qui suit, tirée d'exemples donnés à titre illustratif et non limitatif, tirés des dessins sur lesquels :

- la figure 1 représente une vue schématique d'un encodeur et d'un décodeur selon l'invention ;

- la figure 2 représente un organigramme de fonctionnement d'un premier mode de réalisation d'un encodeur de la figure 1 ;

- la figure 3 représente une fonction de la figure 2 ;

- la figure 4 représente un organigramme de fonctionnement d'un deuxième mode de réalisation d'un encodeur de la figure 1 ;

- la figure 5 représente un exemple de fonction de la figure 4 ; et - la figure 6 représente un organigramme de fonctionnement d'un mode de réalisation d'un décodeur de la figure 1.

Les dessins et la description ci-après contiennent, pour l'essentiel, des éléments de caractère certain. Ils pourront donc non seulement servir à mieux faire comprendre la présente invention, mais aussi contribuer à sa définition, le cas échéant.

La présente description est de nature à faire intervenir des éléments susceptibles de protection par le droit d'auteur et/ou le copyright. Le titulaire des droits n'a pas d'objection à la reproduction à l'identique par quiconque du présent document de brevet ou de sa description, telle qu'elle apparaît dans les dossiers officiels. Pour le reste, il réserve intégralement ses droits. La figure 1 représente une vue schématique d'un encodeur 2 et d'un décodeur 4 selon l'invention.

L'encodeur 2 reçoit un fichier vidéo décodé 6, et le transforme en fichier vidéo encodé 8 pour stockage dans une mémoire de stockage 10.

On notera tout d'abord que, bien que l'architecture de codage et les éléments particuliers qui la composent sont particulièrement adaptés au codage/décodage des fichiers vidéo, l'invention n'est pas limitée à ce seul domaine et pourra trouver son application avec d'autres types de fichiers.

De même, par mémoire de stockage 10, on entend tout type de mémoire de stockage, des plus classiques de nos jours comme un disque dur, ou une mémoire flash, aux systèmes de stockage plus complexes de type SAN, NAS ou autrement stockés à travers un réseau.

Inversement, le décodeur 4 reçoit un ficher encodé 8, et le transforme en fichier vidéo décodé 6 pour stockage dans une mémoire de stockage 10.

L'encodeur 2 comprend un découpeur 20, une mémoire tampon 22, une unité d'approximation spatiale 24, une unité d'approximation temporelle 26, et une unité d'encodage 28.

Le décodeur 4 comprend un découpeur 40, une mémoire tampon 42, une unité d'approximation spatiale 44, une unité d'approximation temporelle 46, et une unité de décodage 48.

Comme cela apparaîtra mieux par la suite, l'encodeur 2 et le décodeur 4 ont des structures extrêmement similaires. Ces similitudes reflètent le fait que cette architecture est conçue de manière symétrique pour rendre le décodeur 4 très indépendant du processus d'encodage. En effet, cette symétrie de structure permet d'assurer que le décodeur 4 peut fonctionner de manière découplée de l'encodeur 2, puisqu'il fonctionne très similairement. Comme on le verra plus bas, les mémoires tampon 22 et 42 peuvent être vues comme des mémoires de travail.

L'invention utilise une technique de codage qui vise à approcher un bloc d'une image par une combinaison linéaire d'autres blocs déjà connus.

Cette technique est bien plus efficace que les "motion vectors" connus de l'art antérieur en termes de qualité. En outre, comme on le verra plus bas, cette technique permet de réduire la quantité de données critiques qui doivent subir un codage entropique. Cela rend le décodeur 4 plus indépendant des informations encodées transmises et donc plus robuste que dans les techniques antérieures.

Les unités d'approximation spatiale 24 et 44 et temporelle 26 et 46 mettent en œuvre des algorithmes mathématiques de "matching pursuit", qui permettent d'approcher un bloc d'image par une combinaison linéaire de blocs déjà connus, en minimisant le nombre d'éléments dans cette combinaison.

Les algorithmes de "matching pursuit" fonctionnent par itérations successives, en construisant peu à peu un vecteur de poids associé à une base d'approche pour un vecteur en entrée.

Cela signifie que, pour approcher un vecteur donné (par exemple un vecteur composé des données de luminance et chrominance d'un bloc de pixels donné) par une base d'approche donnée (par exemple ensemble de vecteurs composés des données de luminance et chrominance de blocs de pixels environnants), on cherche une suite de coefficients.

Cette suite de coefficients est telle que, en réalisant une combinaison linéaire des vecteurs de la base avec ces coefficients, on obtient une approximation du vecteur en entrée avec un seuil de précision choisi.

La suite de coefficients peut elle-même être représentée sous la forme d'un vecteur dont les valeurs sont établies itérativement.

Les algorithmes de "matching pursuit" visent à produire le vecteur de coefficients le plus rapidement possible, et de sorte qu'il contienne un maximum de zéros, ce qui permet de ne transmettre que les valeurs non nulles (et leur indice dans le vecteur de coefficients).

Chaque opération d'un algorithme de "matching pursuit", est caractérisée par l'indice de l'itération, le vecteur d'approche calculé à cette itération, et le vecteur approché correspondant au produit du vecteur d'approche par la base d'approche.

II est possible de stocker les résultats intermédiaires de l'ensemble des itérations, et l'algorithme s'arrête lorsque la différence entre le vecteur approché et le vecteur donné est inférieure à une valeur seuil. Par différence, on entend la mesure choisie pour l'algorithme, par exemple la norme euclidienne.

II existe de nombreuses variantes dans les algorithmes de "matching pursuit", et l'homme du métier saura les reconnaître. D'autres algorithmes pourraient être mis en œuvre que les algorithmes de "matching pursuit", qui sont basés sur une reconstruction à partir des valeurs de blocs environnants. L'homme du métier saura également les reconnaître et adapter l'invention le cas échéant.

Les unités d'approximation temporelle utilisent comme blocs de référence pour la base d'approche des blocs dans les images précédentes (backward prédiction) ou suivantes (forward prédiction), ou un mélange des deux.

Les unités d'approximation spatiale utilisent comme blocs de référence pour la base d'approche des blocs de la même image.

La notion de bloc de référence implique de découper une image d'un fichier donné en blocs réguliers. Ce découpage mentionné est réalisé par les découpeurs 20 et 40. Ces éléments ont pour fonction de "découper" le fichier en blocs courants, et de traiter ces blocs courants en les transmettant aux unités d'encodage et de décodage. Les découpeurs 20 et 40 jouent donc le rôle de pilotes, en traitant les images une par une, et bloc par bloc.

Le découpage d'une image étant classiquement fait du coin en haut à gauche vers le coin en bas à droite en parcourant l'image par ligne de blocs, ces blocs sont donc choisis "en haut (aussi bien à gauche qu'à droite) par rapport au bloc et à gauche dans la ligne du bloc" par rapport à un bloc courant.

II en découle que, pour qu'un bloc courant soit encodé/décodé par la méthode spatiale, les blocs en haut à gauche le précédant doivent être connus.

Cela signifie que les blocs situés le plus à gauche et le plus en haut d'une image ne peuvent pas être encodés par cette méthode et qu'ils doivent être encodés/décodés différemment par exemple par un codage dit "intra", des autres blocs de la même image, soit par exemple par application d'une transformation, puis d'une quantification suivie d'un codage entropique. En variante, ces blocs peuvent aussi être encodés avec la méthode temporelle.

II va de soit que, si l'image est parcourue dans un sens différent, c'est ce sens qui définira quels blocs doivent être connus pour l'application de la méthode spatiale.

La Demanderesse a observé que, pour chaque série de 25 images environ, la première image est en général encodée selon la méthode spatiale, et les suivantes selon la méthode temporelle.

Ainsi, il n'y a qu'une seule image sur 25 qui nécessite une initialisation. Comme cela a été décrit plus haut, cette initialisation peut se faire en codant les données des bords par transformation, quantification puis codage entropique, ou par codage selon la méthode temporelle. II en découle que seuls le bord haut et le bord gauche d'une image sur 25 ont dans la pratique besoin d'être transmis en codant les données des bords par transformation, quantification puis codage entropique pour réaliser l'initialisation de l'invention. Ensuite, le fonctionnement se déroule comme décrit plus haut pour le reste de cette image, ainsi que pour les 24 images suivantes.

En outre, comme on le verra plus bas, à l'exception des blocs sur les bords haut et gauche de l'image, les blocs d'une image peuvent être encodés indépendamment par la méthode spatiale ou temporelle. Un marqueur indiquant la méthode utilisée suffira au décodage.

Comme cela apparaît maintenant plus clairement, il convient donc de distinguer deux types de données des blocs courants du fichier 8 : les données complètes, n'ont pas vocation à être décodées et qui sont les données des blocs auxquels il est fait référence dans les paragraphes précédents ; et - des données-paramètres, qui vont être décodées, et qui représentent la maj eure partie des données du fichier 8.

Dans le mode de réalisation décrit ici, c'est le découpeur 40 qui fait cette distinction et qui : stocke directement dans la mémoire de travail 42 les données complètes en tant que données de blocs d'image déjà décodés ; appelle l'unité de décodage 48 avec les données-paramètres pour leur traitement.

Cette distinction pourrait cependant être réalisée par l'unité de décodage elle-même.

La situation est similaire du côté de l'encodeur. En effet, comme on l'a vu plus haut, on sait parmi les données à encoder quelles sont des données complètes et quelles sont des données-paramètres.

Dans le mode de réalisation décrit ici, c'est le découpeur 20 qui fait cette distinction et qui : - stocke directement dans la mémoire de travail 22 les données complètes en tant que données de blocs d'image déjà encodés ; appelle l'unité d'encodage 28 avec les données-paramètres pour leur traitement.

Cette distinction pourrait cependant être réalisée par l'unité d'encodage elle-même.

Le fichier encodé 8 peut en outre comprendre comme données-paramètres de chaque bloc des données à décoder et des données à décoder complémentaires. Les données encodées et les données encodées complémentaires seront décrites plus avant avec les différents modes de réalisation.

La figure 2 représente un diagramme générique du fonctionnement d'un premier mode de réalisation pour l'encodeur 2.

Dans ce premier mode de réalisation, l'architecture est basée sur le principe que les unités d'approximation côté encodeur et côté décodeur vont fonctionner de manière identique.

Pour cela, l'approximation d'un bloc donné n'est pas réalisée sur la base de ce bloc, mais sur la base de blocs environnants déjà encodés/décodés. Ainsi, le décodeur 4 n'a plus besoin que de connaître la méthode qui a servi au calcul de l'approximation d'un bloc pour le retrouver.

Dans ce premier mode de réalisation, l'unité d'encodage 28 appelle l'unité d'approximation temporelle 24 dans une opération 200 et l'unité d'approximation spatiale 26 dans une opération 210, avec le bloc courant reçu du découpeur 20.

Lors de ces opérations, les unités 24 et 26 déterminent les approximations du bloc courant selon les méthodes spatiale et temporelle. Les opérations 200 et 210 peuvent être réalisées séquentiellement ou en parallèle.

Dans une opération 220, l'unité d'encodage 28 reçoit ces deux approximations, détermine celle qui est la plus proche du bloc courant, et la stocke dans la mémoire tampon 22.

Dans d'autres modes de réalisation, le critère de choix entre ces approximations peut être basé sur un compromis entre la qualité de l'approximation (c'est-à-dire la fidélité « absolue » de l'approximation) et le débit (la quantité d'information à transmettre) pour les données complémentaires (résidu et/ou numéro d'itération).

L'opération 220 peut être suivie de deux opérations optionnelles 230 et 240, et le codage des données encodées du bloc courant est réalisé dans une opération 250.

Dans l'opération 230 optionnelle, l'unité d'encodage peut en outre choisir une itération la plus favorable.

Comme on l'a vu, dans ce premier mode de réalisation, c'est le voisinage du bloc courant qui est approché et non pas le bloc courant lui-même.

Il en découle que l'approximation obtenue par itérations successives jusqu'à atteindre un seuil fixé n'est pas forcément la plus proche du bloc courant.

Il est en effet possible qu'une des itérations a produit une approximation qui n'approchait pas le voisinage avec la précision requise du seuil, mais qui approchait le bloc courant de manière plus proche que l'approximation de la dernière itération.

L'opération 230 optionnelle permet ainsi d'augmenter encore la précision de l'encodage, en choisissant celle des itérations qui représente la meilleure approximation du bloc courant.

L'opération 230 peut être réalisée de diverses manières.

Ainsi, elle peut être réalisée séquentiellement avec l'opération 220, c'est-à-dire que dans l'opération 220, la méthode la plus précise est choisie, et que dans l'opération 230 l'itération la plus précise de la méthode choisie dans l'opération 220 est déterminée.

Dans une autre variante, l'opération 230 peut être incorporée à l'opération 220, l'itération représentant la meilleure approximation du bloc courant pour les deux méthodes étant choisie parmi toutes les itérations des deux méthodes.

Pour la réalisation de l'opération 230, il est possible d'opérer après que les opérations 200 et

210 ont été exécutées. Dans ce cas, il suffit de stocker dans la mémoire tampon 22 l'approximation en résultat de chacune des itérations de chaque méthode avec son indice.

Il suffit alors à l'opération 230 d'accéder à ces approximations et de choisir l'indice d'itération de la meilleure.

Dans une autre variante, l'opération 230 peut être simplifiée en modifiant légèrement les opérations 200 et 210 pour qu'elles stockent au cours des itérations la meilleure approximation du bloc courant et son indice d'itération.

Cela peut être réalisé en rajoutant dans l'algorithme de "matching pursuit" un tampon approprié qui stocke la meilleure approximation en cours.

Alors, à chaque fin d'itération, l'approximation obtenue est comparée à l'approximation du tampon.

Si cette nouvelle approximation approche mieux le bloc courant, alors elle est stockée dans le tampon. Sinon, l'approximation stockée dans le tampon est inchangée.

Ainsi, des la fin des opérations 200 et 210, le tampon contiendra déjà la meilleure approximation spatiale d'une part et temporelle d'autre part, et les opérations 220 et 230 seront réalisées par le choix de la meilleure des deux approximations tirées de ces opérations.

A la fin de l'opération 230, l'approximation du bloc courant correspondante est stockée dans la mémoire tampon 22.

Dans une autre opération optionnelle 240, l'unité d'encodage 28 détermine un résidu et l'encode. Le résidu est calculé en réalisant la différence entre les données à encoder du bloc courant et l' approximation de ce bloc qui vient d'être calculée. Cet encodage inclut généralement une transformée DCT et une quantification pour éliminer les termes nuls ou faibles.

Les données résultantes subissent alors un codage entropique et sont stockées comme données encodées complémentaires dans le fichier encodé.

Ensuite, les données encodées complémentaires sont déquantifiées et subissent une opération DCT inverse et sont ajoutées à l'approximation du bloc courant qui correspond aux données encodées pour obtenir des données encodées-décodées.

Ces données encodées-décodées sont alors stockées dans la mémoire tampon 22 à la place de l'approximation du bloc courant.

Ainsi, on peut considérer que ces données constituent des « nouvelles données de bloc d'image encodé », qui viendront remplacer les données à encoder pour l'encodage des blocs ultérieurs.

Le but de cette opération est de prévenir le bruit de quantification. Le fait d'utiliser les données encodées-décodées pour l'encodage des blocs ultérieurs permet d'éviter une dérive due au bruit de quantification sur les résidus.

En effet, comme l'approximation du bloc courant n'est pas transmise au décodeur, les données encodées-décodées représentent les données qui seront à la disposition du décodeur 4 lors du décodage.

Il est donc avantageux que ces données soient utilisées pour encoder les blocs suivants.

On notera que, dans le cas où l'opération 240 n'est pas réalisée, les données de l'approximation du bloc courant tirées de l'opération 220 présentes dans la mémoire 22 correspondent aux données encodées-décodées, ou données de bloc d'image déjà encodé. Enfin, dans une opération 250, le type d'approximation (spatial ou temporel) tiré de l'opération 220 est encodé, et le cas échéant, l'indice de meilleure itération tiré de l'opération 230.

La figure 3 représente un exemple de mise en œuvre de l'algorithme de "matching pursuit" des opérations 200 et 210.

Dans une opération 300, l'unité d'approximation détermine un voisinage d'approximation du bloc courant. C'est ce voisinage d'approximation qui va représenter le bloc courant dans l'algorithme.

Dans le mode de réalisation décrit ici, l'unité d'approximation comprend un sélecteur de voisinage d'approximation qui réalise cette sélection à partir des coordonnées du bloc courant.

Le voisinage d'approximation est choisi dans la mémoire tampon 22 avec des blocs entourant directement le bloc courant. Comme on l'a vu plus haut, cela permet de tenir compte des données disponibles au décodeur pour l'encodage des blocs suivants.

D'une manière pratique, si le bloc courant a un indice (x;y) dans le découpage de l'image en blocs, cela peut être fait en choisissant des blocs de coordonnées (p;q) avec :

- p choisi dans l'intervalle [x-kl;x],

- q choisi dans l'intervalle [y-k2;y], et - (p;q) différent de (x;y), kl et k2 étant deux indices qui détermineront la taille du voisinage d'approximation.

Ces indices influeront également sur le coût de calcul de l'algorithme et sa précision.

En effet, d'une manière générale, on peut considérer que si kl et k2 sont trop petits, alors le voisinage d'approximation risque de ne pas être représentatif du bloc courant, par exemple dans les régions de fort contraste.

Inversement, si kl et k2 sont trop grands, alors le voisinage d'approximation risque de ne pas être plus représentatif car forcément trop distinct du bloc courant. En outre, plus le voisinage est grand, et plus le coût de calcul sera élevé.

Une fois sélectionnés, les données associées à ces blocs sont ordonnées dans un vecteur qui va former le vecteur à approcher.

On notera que ce vecteur est appelé "voisinage causal" car il est considéré comme "causalement" relié au bloc courant.

Ensuite, dans une opération 310, l'unité d'approximation détermine un voisinage de recherche du bloc courant. C'est ce voisinage de recherche qui va servir de base d'approche dans l'algorithme.

Dans le mode de réalisation décrit ici, l'unité d'approximation comprend un sélecteur de base d'approche qui réalise cette sélection à partir des coordonnées du bloc courant.

Dans le cas de la méthode spatiale, cela peut être fait en définissant une fenêtre de recherche comprenant des blocs d'indice (p;q) avec :

- p choisi dans l'intervalle [x-m;x] pour q choisi dans l'intervalle [y-n;y-k2-l], et

- p choisi dans l'intervalle [x-m;x-kl-l] pour q choisi dans l'intervalle [y-k2;y], m et n étant des indices qui définissent la taille de la fenêtre de recherche.

Cette fenêtre de recherche tient compte du fait que, pour le décodage avec la méthode spatiale, seuls les blocs de l'image courante qui ont déjà été décodés seront accessibles au décodeur.

Dès lors, pour assurer la symétrie de l'architecture, côté encodage, seuls les blocs "déjà encodés", doivent être utilisés. Ces blocs "déjà encodés" sont ceux qui sont au-dessus du voisinage causal, et "à gauche" dans la même ligne, comme décrit ci-dessus.

Dans le cas de la méthode temporelle, la sélection de la fenêtre de recherche peut être faite en choisissant des blocs dans un rectangle de côtés m et n, centré sur le bloc courant, en tenant compte des bords de l'image, dans une ou plusieurs images précédentes (ou suivantes selon la méthode) qui ont déjà été encodées. De la même manière que pour la méthode spatiale, les indices m et n influeront sur le coût de calcul de l'algorithme et sa précision.

Une fois la fenêtre de recherche définie, les blocs sont agencés en un voisinage de recherche sous la forme d'une matrice dont :

- chaque colonne comprend les échantillons de kl *k2 blocs, c'est-à-dire le même nombre de blocs que le voisinage causal ajouté du bloc à encoder, et

- chaque colonne comprend des blocs de la fenêtre de recherche, choisis par exemple sélection par une fenêtre glissante qui part du bloc de coordonnées [x-m ; y-n] et qui parcourt la fenêtre de recherche de haut en bas et de gauche à droite comme défini plus haut. La fenêtre glissante a une taille kl *k2.

Ainsi, la matrice comprend les données des blocs déjà encodés sélectionnés comme le voisinage de recherche pour le bloc à encoder, et, dans chaque colonne, les derniers éléments correspondent aux données du bloc à encoder.

Enfin, la matrice est ramenée à un nombre de lignes correspondant à celui du voisinage causal. Cela revient en fait à retirer les éléments de la fenêtre glissante qui correspondent aux données du bloc à encoder. Ces éléments retirés sont stockés pour la suite.

Ensuite, dans une opération 320, l'algorithme de "matching pursuit" en tant que tel est réalisé comme décrit plus haut par un calculateur, avec comme vecteur en entrée le voisinage causal, et comme base d'approche le voisinage de recherche.

Cette opération peut être accompagnée comme cela a été décrit plus haut du stockage de la meilleure approximation du bloc courant pour l'opération optionnelle 230.

Enfin, dans une opération 330, la matrice correspondant au voisinage de recherche tiré de la fenêtre de recherche est restaurée avec les valeurs qui ont été stockées en 310, et cette matrice est multipliée par l'approximation (vecteur de poids) obtenue en 320.

Ensuite, les derniers termes correspondant au bloc à encoder du vecteur résultant sont récupérés et sont retournés comme approximation du bloc courant.

La figure 4 représente un diagramme générique du fonctionnement d'un deuxième mode de réalisation pour l'encodeur 2.

Dans ce deuxième mode de réalisation, l'architecture est basée sur le principe que les unités d'approximation côté encodeur et côté décodeur vont fonctionner de manière différente, mais avec des données induisant un résultat identique.

Pour cela, l'approximation d'un bloc donné est réalisée pour le bloc donné et plus pour des blocs dans un voisinage causal de celui-ci. Ici, le décodeur 4 aura besoin de connaître la méthode qui a servi au calcul de l'approximation d'un bloc pour le retrouver, ainsi que le vecteur de poids qui permet d'approcher le bloc donné.

Dans ce deuxième mode de réalisation, les opérations 400, 410 et 420 sont essentiellement identiques aux opérations 200, 210 et 220, à cela prêt que l'approximation est légèrement différente comme cela apparaîtra mieux avec la figure 5.

La figure 5 représente un exemple de mise en œuvre de l'algorithme de "matching pursuit" des opérations 400 et 410.

Comme on l'a mentionné plus haut, cette mise en œuvre est légèrement différente, comme elle est basée non plus sur une approximation des blocs environnants, mais sur une approximation du bloc lui-même. Ainsi, une opération équivalente à l'opération 300 n'est pas nécessaire, et l'approximation commence avec une opération 510 de détermination du voisinage de recherche.

C'est ce voisinage de recherche qui va servir de base d'approche dans l'algorithme.

- p choisi dans l'intervalle [x-m;x] pour q choisi dans l'intervalle [0;y-l], et

- p choisi dans l'intervalle [x-m;x-l] pour q=y, m et n étant deux indices qui détermineront la taille du voisinage de recherche et donc le coût de calcul de l'algorithme et sa précision.

En effet, d'une manière générale, on peut considérer que si m et n sont trop petits, alors le voisinage de recherche risque de ne pas être représentatif du bloc courant, par exemple dans les régions de fort contraste. Inversement, si m et n sont trop grands, alors le voisinage de recherche risque de ne pas être plus représentatif car forcément trop distinct du bloc courant. En outre, plus le voisinage est grand, et plus le coût de calcul sera élevé.

Dans le cas de la méthode temporelle, cela peut être fait en choisissant des blocs dans un rectangle de côtés m et n, centré sur le bloc courant, en tenant compte des bords de l'image, dans les images précédentes (ou suivantes selon la méthode) qui ont déjà été encodées.

Une fois la fenêtre de recherche définie, les blocs sont agencés en un voisinage de recherche sous la forme d'une matrice dont chaque colonne contient les valeurs d'un bloc.

L'opération 510 est donc fonctionnellement proche de l'opération 310, sauf qu'elle est plus simple comme il n'est pas nécessaire de substituer le voisinage causal au bloc courant.

Cela simplifie l'établissement du voisinage de recherche et permet d'inclure en plus des blocs qui correspondent au voisinage causal dans le cas de la méthode spatiale. Ensuite, dans une opération 520, l'algorithme de "matching pursuit" en lui-même est réalisé, avec comme vecteur en entrée le bloc courant, et comme base d'approche le voisinage de recherche.

Comme on le voit ici, l'opération 520 est proche de l'opération 320, à cela prêt que, comme on l'a mentionné plus haut, c'est le bloc courant lui-même qui est approché par le voisinage de recherche et plus le voisinage causal du bloc courant.

Enfin, dans une opération 530, l'approximation obtenue est retournée, c'est-à-dire le vecteur approché avec le vecteur de coefficients correspondant.

Il ressort donc que les méthodes d'approximation des premier et deuxième modes de réalisation sont très proches, et que leur différence porte principalement sur l'élément qui est approché.

Comme mentionné plus haut, les opérations 400 et 410 sont suivies de l'opération 420. Cette opération est identique à l'opération 220 de la figure 3 et vise à choisir celle des deux approximations (spatiale ou temporelle) qui est la meilleure en fonction de critères établis (fidélité au bloc, compromis qualité/débit, etc.).

Ensuite, une opération optionnelle 440 peut être réalisée. Cette opération est similaire à l'opération d'encodage du résidu 240 de la figure 2. Mais cette opération doit tenir compte que c'est le vecteur de poids qui est transmis dans ce mode de réalisation, et plus seulement la méthode d'encodage.

II s'agit ici d'opérer de la même manière, à savoir encoder le résidu par transformation, puis quantification et codage entropique pour stockage comme donnée encodées complémentaire. Ensuite, décoder de manière entropique, puis déquantifier, et faire la transformation inverse.

Parallèlement, il est prévu de quantifier et déquantifier l'approximation tirée de l'opération 420 pour tenir compte du bruit de quantification sur cet élément.

Enfin, ajouter ces deux éléments, et le stocker dans la mémoire tampon 22 pour remplacer l'approximation tirée de l'opération 420 et ainsi améliorer l'encodage des blocs suivants.

Enfin dans une opération 450, le type d'approximation (spatiale ou temporelle) tiré de l'opération 420 et le vecteur d'approximation correspondant contenant les poids de la combinaison linéaire de la base de recherche sont codés de manière entropique et stockés comme données de bloc d'image encodé.

Dans le cas où l'opération 440 n'a pas été réalisée, l'opération 450 prévoit de quantifier et déquantifier l'approximation (vecteur de poids) tirée de l'opération 420 pour tenir compte du bruit de quantification sur cet élément, et de le stocker dans la mémoire tampon 22 pour remplacer l'approximation tirée de l'opération 420 et améliorer l'encodage des blocs suivants.

Ainsi, comme pour le premier mode de réalisation, on obtient : des données à décoder, qui sont le type d'approximation (spatiale ou temporelle) tiré de l'opération 420 et le vecteur d'approximation correspondant contenant les poids de la combinaison linéaire de la base de recherche qui sont codés par quantification et codage entropique ; et des données de blocs d'image déjà encodés, qui sont les données encodées- décodées (tenant compte de la transmission des résidus ou pas) et qui sont stockées dans la mémoire tampon.

Comme on le voit ici, la différence principale avec le premier mode de réalisation est que c'est le bloc lui-même qui est approché, et que cette approximation est transmise comme donnée encodée avec un marqueur de la méthode utilisée pour choisir les blocs qui ont servi à calculer cette approximation.

II suffit au décodeur de multiplier le vecteur contenant les poids de la combinaison linéaire par la base de recherche désignée par le marqueur de méthode pour réaliser la combinaison linéaire avec les données déjà décodées des blocs du voisinage de recherche pour retrouver l'approximation du bloc original.

On notera que dans les deux modes de réalisation décrits, un drapeau ou une autre donnée peut être enregistrée dans le fichier 8 pour indiquer quel mode de réalisation a été utilisé pour l'encodage, ainsi que d'autres informations, comme par exemple le seuil de convergence de l'algorithme de matching pursuit, les dimensions des images etc...

La figure 6 représente une opération effectuée par le décodeur 4 pour décoder le fichier 8.

Dans une première opération 600, le décodeur 4 appelle le découpeur 40 pour découper les images en blocs courants et les traiter. Dans cette même opération, le découpeur 40 peut lire un drapeau ou autre donnée du fichier 8 qui indique quel est le mode de réalisation qui a été utilisé pour réaliser l'encodage.

Dans les deux modes de réalisation, cela peut être également tiré du marqueur de la méthode d'approximation. Le découpeur 40 envoie alors les données à décoder dans l'unité de décodage 48.

L'unité de décodage 48 peut alors envoyer les données dans l'une ou l'autre de l'unité d'approximation spatiale 44 et de l'unité d'approximation temporelle 46, avec un drapeau indiquant de quelle manière la combinaison linéaire des données à décoder doit être faite avec le voisinage de recherche.

Ensuite, dans une opération 610, l'unité 44 ou 46 qui a reçu les données à décoder opère pour déterminer une approximation du bloc courant.

Dans le premier mode de réalisation, l'unité 44 ou 46 opère selon la figure 3, comme l'unité 24 ou 26, en se servant des données déjà décodées présentes dans le tampon 42. Dans le deuxième mode de réalisation, comme décrit plus haut, l'unité 44 ou 46 réalise une combinaison linéaire des données déjà décodées des blocs du voisinage de recherche dans le tampon 42, pour retrouver l'approximation du bloc original, avec un vecteur de poids tiré des données à décoder.

Cette combinaison linéaire est en fait un calcul direct du bloc à décoder, sans algorithme de matching pursuit.

L'approximation résultante est transmise à l'unité de décodage 48.

Ensuite, dans une opération optionnelle 620, l'unité de décodage 48 décode les données à décoder complémentaires comprenant le résidu lorsque celles-ci ont été transmises, et les ajoute à l'approximation reçue de l'opération 610 dans une opération 630 pour recouvrer le bloc décodé.

Enfin, dans une opération 640, le bloc décodé est enregistré à la fois dans le fichier décodé 6 ainsi reconstitué, et dans la mémoire tampon 42 pour le décodage des blocs ultérieurs.

Certains éléments présentés plus haut peuvent être mis en œuvre de diverses manières : - les découpeurs peuvent avoir un rôle de découpage des images en blocs seulement, tandis qu'un autre élément joue le rôle de pilote qui traite le flux d'images image par image ;

- le sélecteur de voisinage d'approximation (ou voisinage causal), et le sélecteur de voisinage de recherche peuvent être réalisés en un seul élément qui reçoit des paramètres appropriés, comme le mode d'encodage/de décodage et les paramètres de sélections correspondants (x, y, kl , k2, m et n) ;

- les sélecteurs décrits ici sélectionnent toujours des blocs en haut et à gauche du bloc courant, afin que les conditions aux bords de l'image soient limitées. D'autres types de sélection, notamment en haut et à droite du bloc courant pourraient être faites en tenant compte de ces conditions limites ; - le calculateur des unités d'approximation spatiale et temporelle peut être partagé dans chaque mode de réalisation par ces unités puisqu'il réalise la même fonction ; - les unités d'approximation spatiale et temporelle peuvent donc être séparées ou être une seule unité de calcul qui reçoit les paramètres nécessaires ;

- d'autres méthodes que le codage par transformation, quantification suivie de codage entropique peuvent être utilisées là ou cela est décrit ; - la quantification/déquantification peut être évitée en sacrifiant un peu de performances en termes de débit ;

- les indices des sélecteurs pourraient être variés pour calculer d'autres approximations, et les paramètres de l'approximation la plus performante pourraient être encodés avec les données encodées ; - les autres paramètres comme le seuil de convergence de l'algorithme de matching pursuit ou la taille des images ou autres pourraient être implicites pour le décodeur, ou encore tirés du fichier (par exemple à partir du poids du fichier ou de son bitrate) ;

- les deux modes de réalisations pourraient être combinés pour des blocs du même fichier 6 ; - la sélection des blocs dans le voisinage de recherche peut être guidée par une classification de ces blocs selon les caractéristiques de la texture qu'ils contiennent selon « zone uniforme », « zone texturée », « contour à orientation dominante horizontale », contour à orientation dominante verticale » ; on ne sélectionnera alors que les blocs qui appartiennent à la même classe que le bloc à prédire, avec des gains importants sur le temps calcul de l'approximation ;

- la combinaison linéaire peut être réalisée en réalisant un post-traitement comme un lissage des données du voisinage de recherche, par exemple en appliquant un filtre (par exemple un noyau Gaussien), ou encore en appliquant des transformations géométriques aux données du voisinage de recherche (s 'appuyant sur la détection de contours par exemple).

Plusieurs modes de réalisation ont été décrits plus haut, avec des caractéristiques optionnelles. À chaque fois que cela a paru possible, la combinaison de ces caractéristiques avec chacun de ces modes de réalisation a été décrite.

Cependant, c ' est 1 ' ensemble des combinaisons des caractéristiques des modes de réalisation décrits qui rentre dans la portée de l'invention. II doit donc être compris que toutes les combinaisons des modes de réalisation entre eux et des caractéristiques optionnelles sont décrites dans la présente description, ainsi que leurs équivalents, même lorsque cela n'a pas été explicitement décrit par souci de simplicité.

L'invention concerne également un procédé de décodage d'un flux de données d'images numériques, comprenant : a. analyser un flux incident de données d'images numériques, pour déterminer des données à décoder d'un bloc courant de type données complètes ou données- paramètres, b. stocker les données complètes dans une mémoire de travail (42) en tant que données de blocs d'image déjà décodés, c. décoder les données-paramètres, l'étape c. comprenant : i. sélectionner certains blocs d'image déjà décodés, formant une base d'approche, qui avoisine le bloc courant selon une règle choisie, ii. calculer une approximation du bloc courant, à partir d'une fonction algébrique linéaire des données de la base d'approche, et iii. stocker dans la mémoire de travail (42), pour le bloc courant, de données de blocs d'image déjà décodés tirées de cette approximation.

Le procédé de décodage peut en outre présenter les caractéristiques suivantes :

* l'étape ci. comprend la sélection d'un voisinage d'approximation, comprenant des données de blocs d'image déjà décodés correspondant à un voisinage immédiat du bloc courant, et l'étape c.ii. comprend la sélection de données de blocs d'image déjà décodés correspondant à un voisinage élargi du bloc courant, le calcul comprenant exécuter ladite fonction algébrique linéaire des données de la base d'approche pour approcher les données du voisinage d'approximation ;

* l'étape c.ii. comprend exécuter ladite fonction algébrique linéaire un nombre de fois tiré de données d'itération que comprennent les données-paramètres ; * l'étape ci. comprend la sélection d'un voisinage d'approximation, comprenant des données de blocs d'image déjà décodés correspondant à un voisinage immédiat du bloc courant, l'étape c.ii. comprenant exécuter ladite fonction algébrique linéaire des données de la base d'approche pour approcher les données du bloc courant ;

* exécuter l'étape c. selon un mode de décodage choisi parmi le groupe comprenant un décodage spatial et un décodage temporel tiré de données de mode de décodage que comprennent les données-paramètres ;

* l'étape c. comprend sélectionner des données de blocs d'image déjà décodés dans l'image courante dans le mode spatial, et des données de blocs d'image déjà décodés dans des images contigues à l'image courante dans le mode temporel ;

* l'étape c.iii. comprend combiner l'approximation du bloc courant avec des données à décoder complémentaires correspondantes pour calculer les données de blocs d'image décodés du bloc courant.

L'invention concerne également un procédé d'encodage d'un flux de données d'images numériques, comprenant : a. analyser un flux incident de données d'images numériques, pour déterminer des données à encoder d'un bloc courant de type données complètes ou données- paramètres, b. stocker les données complètes dans une mémoire de travail (42) en tant que données de blocs d'image déjà décodés, c. encoder les données-paramètres, l'étape c. comprenant : i. sélectionner certains blocs d'image déjà encodés, formant une base d'approche, qui avoisine le bloc courant selon une règle choisie, ii. calculer une approximation du bloc courant, à partir d'une fonction algébrique linéaire des données de la base d'approche, et iii. stocker dans la mémoire de travail (42), pour le bloc courant, de données de blocs d'image déjà encodés et de données à décoder tirées de cette approximation.

Le procédé d'encodage peut en outre présenter les caractéristiques suivantes : * l'étape ci. comprend la sélection d'un voisinage d'approximation, comprenant des données de blocs d'image déjà encodés correspondant à un voisinage immédiat du bloc courant, et l'étape c.ii. comprend sélectionner des données de blocs d'image déjà encodés correspondant à un voisinage élargi du bloc courant, et exécuter ladite fonction algébrique linéaire avec les données de la base d'approche pour approcher les données du voisinage d'approximation ; * l'étape c.iii. comprend déterminer des données d'itération et les enregistrer dans les données à décoder ;

* l'étape ci. comprend la sélection d'un voisinage d'approximation, comprenant des données de blocs d'image déjà encodés correspondant à un voisinage immédiat du bloc courant, et l'étape c.ii. comprend exécuter ladite fonction algébrique linéaire avec les données de la base d'approche pour approcher les données du bloc courant ;

* les étapes ci. et c.ii. sont exécutées pour chaque bloc courant selon un mode spatial et un mode temporel, et l'étape c.iii. comprend choisir une approximation parmi les approximations résultantes, et encoder dans les données à décoder des données de mode de décodage indiquant le mode de T approximation choisie ; * l'étape c comprend sélectionner des données de blocs d'image déjà décodés dans l'image courante dans le mode spatial, et des données de blocs d'image déjà décodés dans des images contigues à l'image courante dans le mode temporel ;

* l'étape c.iii. comprend, pour certains au moins des blocs courants, calculer des données à décoder complémentaires à partir des données à décoder et des données de blocs d'image déjà encodés correspondantes de ces blocs, et les stocker avec les données à décoder correspondantes.

Claims

Revendications

1. Dispositif de décodage d'un flux de données d'images numériques, comprenant :

* une mémoire de travail (42) pour des données de blocs d'image déjà décodés,

* un pilote (40), monté pour analyser un flux incident de données d'images numériques, et agencé pour déterminer des données à décoder d'un bloc courant de type données complètes ou données-paramètres, pour stocker les données complètes dans la mémoire de travail (42) en tant que données de blocs d'image déjà décodés, et pour appeler une unité de décodage (48) avec les données-paramètres,

* l'unité de décodage (48) réagissant à la réception de données-paramètres par : - la sélection de certains blocs d'image déjà décodés, formant une base d'approche, qui avoisine le bloc courant selon une règle choisie,

- le stockage dans la mémoire de travail (42), pour le bloc courant, de données de blocs d'image déjà décodés tirées de cette approximation, caractérisé en ce que l'unité de décodage comprend :

* un sélecteur de voisinage d'approximation, agencé pour sélectionner des données de blocs d'image déjà décodés correspondant à un voisinage immédiat du bloc courant, et * un sélecteur de base d' approche, agencé pour sélectionner des données de blocs d'image déjà décodés correspondant à un voisinage élargi du bloc courant, et

* un calculateur, agencé pour exécuter ladite fonction algébrique linéaire avec les données de la base d'approche pour approcher les données du voisinage d'approximation.

2. Dispositif selon la revendication 1, caractérisé en ce que les données- paramètres comprennent des données d'itération, et en ce que le calculateur est agencé pour exécuter ladite fonction algébrique linéaire un nombre de fois tiré des données d'itération.

3. Dispositif selon l'une des revendications 1 et 2, caractérisé en ce que les données-paramètres comprennent des données de mode de décodage indiquant un mode de décodage choisi parmi le groupe comprenant un décodage spatial et un décodage temporel.

4. Dispositif selon la revendication 3, caractérisé en ce que le sélecteur de base d'approche est agencé pour sélectionner des données de blocs d'image déjà décodés dans l'image courante dans le mode spatial, et des données de blocs d'image déjà décodés dans des images contigues à l'image courante dans le mode temporel.

5. Dispositif selon l'une des revendications précédentes, caractérisé en ce que certaines au moins des données-paramètres comprennent en outre des données à décoder complémentaires, et en ce que l'unité de décodage est agencée pour combiner l'approximation du bloc courant avec des données à décoder complémentaires correspondantes pour calculer les données de blocs d'image décodés du bloc courant.

6. Dispositif d'encodage d'un flux de données d'images numériques, comprenant :

* une mémoire de travail (42) pour des données de blocs d'image déjà encodés,

* un pilote (40), monté pour analyser un flux incident de données d'images numériques, et agencé pour déterminer des données à encoder d'un bloc courant de type données complètes ou données-paramètres, pour stocker les données complètes dans la mémoire de travail (42) en tant que données de blocs d'image déjà encodés, et pour appeler une unité d'encodage (48) avec les données-paramètres,

* l'unité d'encodage (28) réagissant à la réception de données-paramètres par :

- la sélection de certains blocs d'image déjà encodés, formant une base d'approche, qui avoisine le bloc courant selon une règle choisie, - le calcul d'une approximation du bloc courant, à partir d'une fonction algébrique linéaire des données de la base d'approche, et

- le stockage dans la mémoire de travail (42), pour le bloc courant, de données de blocs d'image déjà encodés et de données à décoder tirées de l'approximation du bloc courant, caractérisé en ce que l'unité d'encodage comprend : * un sélecteur de voisinage d'approximation, agencé pour sélectionner des données de blocs d'image déjà encodés correspondant à un voisinage immédiat du bloc courant, et

* un sélecteur de base d' approche, agencé pour sélectionner des données de blocs d'image déjà encodés correspondant à un voisinage élargi du bloc courant, et * un calculateur, agencé pour exécuter ladite fonction algébrique linéaire avec les données de la base d'approche pour approcher les données du voisinage d'approximation.

7. Dispositif selon la revendication 6, caractérisé en ce que l'unité d'encodage est agencée pour tirer du calculateur des données d'itération, et pour encoder lesdites données d'itération dans les données à décoder.

8. Dispositif selon l'une des revendications 6 et 7, caractérisé en ce que l'unité d'encodage est agencée pour appeler le calculateur en sélectionnant les données de blocs d'image déjà encodés selon un critère spatial et selon un critère temporel, pour choisir l'approximation du bloc courant parmi les approximations résultantes, et pour encoder dans les données à décoder des données de mode d'encodage indiquant le critère utilisé pour générer ladite approximation du bloc donné.

9. Dispositif selon la revendication 8, caractérisé en ce que les données de mode d'encodage indiquent que le sélecteur de base d'approche a sélectionné des données de blocs d'image déjà encodés dans l'image courante pour le critère spatial, et des données de blocs d'image déjà encodés dans des images contigues à l'image courante pour le critère temporel.

10. Dispositif selon l'une des revendications 6 à 9, caractérisé en ce que, pour certains au moins des blocs courants, l'unité d'encodage est agencée pour calculer des données à décoder complémentaires à partir des données à décoder et des données de blocs d'image déjà encodés correspondantes de ces blocs, et pour les stocker avec ces données à décoder.