WO2006056720A1

WO2006056720A1 - Compression video par modification de quantification par zones d'images

Info

Publication number: WO2006056720A1
Application number: PCT/FR2005/050982
Authority: WO
Inventors: Paul Bazzaz
Original assignee: Paul Bazzaz
Priority date: 2004-11-23
Filing date: 2005-11-23
Publication date: 2006-06-01
Also published as: FR2878384A1

Abstract

L'invention concerne le domaine du traitement du signal vidéo, et plus particulièrement un procédé de codage de signal vidéo adapté pour la compression. Elle concerne un procédé de codage d'un signal vidéo d'origine comprenant une succession temporelle d'images comprenant des données d'images quantifiées dans le domaine spatial, pour l'obtention d'un signal vidéo modifié, caractérisé en ce qu'il comprend les étapes consistant à : - recevoir ledit signal vidéo d'origine, - découper les images dudit signal vidéo en un ensemble de zones d'image, - définir une nouvelle quantification des données d'images dans le domaine spatial, variable en fonction des zones dudit ensemble de zones, pour l'obtention d'un signal vidéo modifié.

Description

COMPRESSION VIDÉO PAR MODIFICATION DE QUANTIFICATION

PAR ZONES D'IMAGES

La présente invention concerne le domaine des systèmes de traitement du signal vidéo, ces systèmes pouvant être des émetteurs (caméra, codeurs) , des récepteurs (décodeurs, écrans) des nœuds de transmission, ou de stockage où peut s'opérer une transformation du signal, tel qu'un transcodage.

Les systèmes de compression vidéo ont pour objectif de réduire le volume du signal vidéo pour pouvoir le transmettre ou bien pour le stocker. Le volume du signal vidéo d'origine dépend de plusieurs paramètres. En premier lieu, ces paramètres sont ceux relatifs à la numérisation du signal vidéo. Le signal vidéo numérique est défini comme une succession temporelle d'images, chaque image étant constitué de pixels, chaque pixel étant codé sur un nombre de bits, ce nombre de bits par pixel étant connu sous le nom de profondeur couleur. Un pixel d'un signal vidéo couleur est défini par ses trois composantes de couleur qui sont exprimées dans un espace couleur donné (l'espace couleur RGB, l'espace couleur YUV, etc.) . Ainsi les paramètres relatifs à la numérisation du signal vidéo sont la fréquence image, la résolution spatiale de l'image en pixels et le nombre de bits décrivant le pixel sur chacune de ses composantes de couleur.

Avec l'avènement de l'accès aux données audiovisuelles à travers des réseaux à très bas débit, tels les réseaux mobiles, il est primordial de fournir des techniques permettant de compresser plus encore le signal vidéo. Le coût de déploiement prohibitif de ces réseaux, ajouté à une limitation des performances, notamment dans des situations de surcharges, en fait un impératif. D'autre part, il est à noter que les terminaux devant afficher ces signaux vidéos sont de plus en plus disparates au niveau de leurs caractéristiques d'écran.

Dans les normes de compression en vigueur, les paramètres cités ne sont pris en compte par la norme que de manière statique. Ainsi, au flux résultat de la compression d'un signal vidéo sont ajoutées des informations donnant la valeur de ces paramètres. L'objectif est de permettre au décodeur de connaître ces informations pour pouvoir se configurer.

Les techniques de compression actuelles prévoient bien de modifier la quantification du signal vidéo, mais cette modification s'opère dans le domaine fréquentiel, sur les coefficients DCT (« Discrète Cosine Transform » en anglais, pour « transformation en cosinus discret ») , du signal. Dans ce domaine, les données sont décorrelées spatialement et ne sont plus liées au paramètre de profondeur couleur caractéristique majeure de l'écran amené à afficher le signal vidéo. Ainsi, la quantification des coefficients DCT est moins efficace que ce qu'elle pourrait être puisqu'elle ne tient pas compte de la forte corrélation spatiale, ni du contexte applicatif que représente l'écran du terminal.

Le procédé selon l'invention tire au contraire profit de la corrélation spatiale de même qu' il tire profit de la corrélation temporelle.

Par ailleurs, la norme de compression connue MPEG-4 ISO-IEC 14496-2 définit des outils qui permettent d'indiquer qu'une portion d'image donnée a été compressée avec une résolution spatiale réduite de moitié dans chacune des directions horizontales et verticales par rapport à la résolution de la séquence vidéo.

Pour ce faire, la norme MPEG a prévu d'analyser le signal d'entrée pour identifier les VOP (Video Object Planes) correspondant à des objets spécifiques dans l'image, et modifier la résolution spatiale associée à certains VOP. La norme prévoit une modification uniforme des composantes YUV.

Plus particulièrement, la demande PCT WO 03/107678, décrit une modification non uniforme de ces composantes et une syntaxe associée.

Ce procédé de compression comprend deux inconvénients majeurs. D'une part, les VOP tels que définis dans MPEG-4 sont obtenus de façon semi-automatique, et la définition d'un VOP fait appel à un opérateur. La modification de la résolution spatiale selon les VOP nécessite donc cette intervention qui n'est pas compatible avec un procédé de compression efficace. De plus, il est possible que la modification de la résolution spatiale selon ces VOP ne soit pas la modification la plus adaptée pour la compression.

L'art antérieur connaît également le brevet américain US 6,490,319 de Yang concernant un procédé de traitement vidéo permettant le contrôle du contraste entre une région d'intérêt d'une image vidéo, et le fond d'une image vidéo. Pour ce faire, un contrôleur vidéo permet à l'utilisateur de contrôler les niveaux de quantifications de la zone d'intérêt et du fond de l'image. Une interface est fournie à l'utilisateur pour lui permettre de réaliser un tel contrôle. Cette interface est présentée sous la forme d'un curseur glissant. La région d'intérêt peut être définie par l'utilisateur ou dépendre du contenu vidéo. Dans tous les cas, la région d'intérêt pour laquelle le contraste peut être modifié par modification du niveau de quantification est fixée avant la modification du niveau de quantification. Le découpage selon une région d' intérêt ne dépend donc pas du niveau de quantification qui sera appliqué à la région d' intérêt.

Le procédé de codage défini dans le document US 6 490 319 possède donc l'inconvénient de dissocier la définition de la région d'intérêt et l'application des niveaux de quantification à cette région d'intérêt.

Par ailleurs, ce procédé de codage possède l'inconvénient de ne pas être automatique et de dépendre de l'action de l'utilisateur sur l'image. Ceci a en particulier comme conséquence le fait que seuls deux niveaux distincts de quantification sont applicables à l'image vidéo. Par ailleurs, si l'utilisateur désire modifier la région d'intérêt et/ou le niveau de quantification de l'image, il doit réaliser une nouvelle sélection de l'image et actionner de nouveau le curseur de quantification. Ce procédé de codage possède donc l'inconvénient de ne pas être appliqué automatiquement au signal vidéo. Il possède également l'inconvénient de ne pas être variable temporellement, en fonction du numéro de l'image dans le signal vidéo.

La présente invention entend donc résoudre les inconvénients de l'art antérieur tels que définis plus haut.

Pour ce faire, la présente invention concerne un procédé de codage d'un signal vidéo d'origine comprenant une succession temporelle d'images comprenant des données d'images quantifiées dans le domaine spatial, pour l'obtention d'un signal vidéo modifié, caractérisé en ce qu'il comprend les étapes consistant à :

- recevoir ledit signal vidéo d'origine, - découper les images dudit signal vidéo en un ensemble de zones d'images,

- définir une nouvelle quantification des données d'images dans le domaine spatial, variable en fonction des zones dudit ensemble de zones, pour l'obtention d'un signal vidéo modifié.

De préférence, ledit découpage des images est variable en fonction du numéro de l'image dans ladite succession temporelle d'images, ce qui permet d'adapter la quantification à la succession d'image.

Avantageusement, ladite nouvelle quantification est variable en fonction du numéro de l'image dans ladite succession temporelle d'images, et ce, que le découpage reste identique ou non, encore une fois pour adapter temporellement la compression.

De préférence, le procédé selon l'invention comprend en outre une étape d'analyse dudit signal vidéo d'origine, et ledit découpage et/ou ladite nouvelle quantification dépendent de ladite analyse. De la sorte, les zones sélectionnées et la quantification associée sont optimisées pour la compression. Selon une variante, l'analyse des images concerne au moins la proximité spatiale, les caractéristiques de mouvement et d'énergie résiduelle des blocs d'image.

Selon une autre variante, ledit découpage et/ou ladite nouvelle quantification sont prédéterminés. Selon encore une autre variante du procédé, ledit découpage et/ou ladite nouvelle quantification dépendent d'une action externe au procédé, comme par exemple les caractéristiques du terminal de réception.

Selon un mode de réalisation, la nouvelle quantification concerne la résolution spatiale selon les composantes d'images. Dans ce cas, lesdites images comprennent un ensemble de données numériques d' image échantillonnées en pixel au sein de ladite image, et ladite nouvelle quantification est un ré-échantillonnage de la résolution spatiale selon au moins une desdites données numériques d'images, les données numériques d'images étant par exemple les composantes couleur.

Selon un autre mode de réalisation, la nouvelle quantification concerne le nombre de bits sur lesquels sont codées les données d'images, et dans ce cas, lesdites images comprennent un ensemble de données numériques échantillonnées en pixel, et sont quantifiées sur un nombre de bits d'origine, et ladite nouvelle quantification est une nouvelle quantification dudit nombre de bits selon au moins une desdites données numériques d' images ou la manière de quantifier les données d'images sur ces bits, les données numériques d' images étant par exemple les composantes couleur.

De façon plus générale, en combinant les deux modes de réalisation ci-dessus, lesdites images comprennent un ensemble de données numériques échantillonnées en pixel, et quantifiées sur un nombre de bits d'origine, et ladite nouvelle quantification est une nouvelle quantification dudit nombre de bits selon au moins une desdites données numériques d'images ou la manière de quantifier les données d'images sur ces bits, ainsi qu'un ré-échantillonnage de la résolution spatiale selon au moins une desdites données numériques d'images, par exemple les composantes couleurs.

Selon une variante, lesdites images du signal vidéo d'origine sont découpées en une pluralité de blocs de tailles prédéfinies, et en ce que lesdites zones d'image obtenues lors de l'étape de découpage correspondent à une pluralité desdits blocs adjacents.

L'invention concerne également un appareil de codage d'un signal vidéo d'origine comprenant une succession temporelle d' images comprenant des données d' images quantifiées dans le domaine spatial, pour l'obtention d'un signal vidéo modifié, caractérisé en ce qu'il comprend un moyen pour recevoir ledit signal vidéo d'origine, un moyen pour découper les images dudit signal vidéo en un ensemble de zones d'image, un moyen pour générer une nouvelle quantification des données d'images dans le domaine spatial, variable en fonction des zones dudit ensemble de zones, pour l'obtention d'un signal vidéo modifié.

L'invention concerne aussi un support d'enregistrement sur lequel une série d'images d'une scène vidéo codée selon le procédé selon l'invention, sont stockées.

Il est à signaler que le procédé décrit dans la présente invention est compatible avec les normes de compression en vigueur.

On comprendra mieux l'invention à l'aide de la description, faite ci-après à titre purement explicatif, d'un mode de réalisation de l'invention, en référence aux figures annexées : la figure 1 illustre de façon générale la description d'un signal vidéo en images, - la figure 2a est un exemple de découpage d'une succession d'images en zones d'image dans lesquelles varie la quantification, la figure 2b représente un découpage en VOP tel que défini dans l'art antérieur, - la figure 3 est un schéma illustrant la mise en œuvre de l'invention dans un codeur, la figure 4 détaille l'entité de compression décrite dans la figure 3, la figure 5 donne une description plus détaillée de l'invention suivant un mode de réalisation envisageable dans un codeur vidéo reprenant le schéma de compression basé sur la prédiction spatiale et la prédiction temporelle, la figure 6 donne une description du processus de modification de quantification selon l'invention, - les figures 7a et 7b sont des exemples d'algorithmes pour la définition des zones selon 1' invention.

En outre, le tableau 1 décrit les variables prises en compte dans un exemple d'algorithme mis en œuvre par la présente invention.

L'objet de l'invention est un procédé de modifications de quantification des composantes couleur d'un signal vidéo dans le but d'améliorer les systèmes de compression/décompression vidéo et plus généralement les systèmes de traitement de signal vidéo. Le signal vidéo est décrit dans la figure 1. Cette figure donne une structure d'une séquence vidéo telle que communément employée aujourd'hui. La séquence vidéo, de structure telle que décrite dans la figure, consiste en une succession périodique d'images I-, de même taille HxL. Dans cette représentation, j indique la référence temporelle. Une image est composée de pixels, dont le nombre définit la résolution spatiale de l'image. Ainsi, une image à un instant j est un tableau de HxL pixels. Cet exemple n'exclut pas d'autres types de vidéo, et de manière générale on notera qu'un signal vidéo peut se décrire comme une succession temporelle d'images bidimensionnelles ou tridimensionnelles. La périodicité de la succession temporelle, ainsi que la géométrie et la taille d'image peuvent être variables. Ces images peuvent résulter d'une prise de vue naturelle à travers un capteur tel qu'une caméra, ou bien d'un programme informatique de synthèse d'images, ou bien de dessins, ou bien de tout autre procédé matériel et/ou logiciel et/ou humain. Ces images peuvent tout autant être formées d'une combinaison d'images générées séparément et combinées par tout procédé de montage.

Comme dans tout système couleur, un point couleur est représenté par trois composantes : les composantes RVB par exemple. Généralement dans un système de compression vidéo, on utilise trois autres composantes, Y, U et V, qui sont une combinaison des composantes RVB. D'autres triplets de composantes que ceux cités ci-dessus sont définis et peuvent être utilisés tout autant, ces triplets de composantes étant liés les uns aux autres par une combinaison linéaire. Quel que soit le triplet de composantes choisi, nous noterons dorénavant dans le présent document les composantes couleurs Cl, C2 et C3. Dans l'exemple de structure d'image considéré dans la figure 1, nous considérons la plus simple, à savoir que chaque pixel P_x,_y de l'image possède une valeur donnée par un triplet Cl, C2 et C3. Dans les systèmes de vidéo classiques, les trois composantes couleur Cl, C2 et C3 sont quantifiées sur un nombre de bits généralement identique. La quantification est généralement linéaire.

Dans la présente invention, nous proposons de modifier la quantification des signaux représentant chacune des trois composantes couleurs Cl, C2 et C3. Pour cela, nous définissons la notion de « zone » sur lequel la modification est effectuée. Telle que dessinée dans la figure 2, une « zone » est un ensemble de pixels de l'image vidéo, les pixels pouvant être voisins ou pas dans une même image. Suivant cette définition, l'objet de l'invention est de modifier la quantification de Cl, C2 et C3 pour un groupe de zones Z_k en une quantification prédéfinie Qi, et ce pour une durée d'images donnée, la durée d'images pouvant aller d'une image au nombre d' images constituant la séquence vidéo totale. Ainsi, de par le procédé décrit ici, sur la durée de la séquence vidéo, une zone Z_k aura ses composantes quantifiées chronologiquement suivant, par exemple, le type Qi durant 100 images, puis Q_m durant 1000 images, puis Q_n durant 50 images etc. Il est l'objet de cette invention que les zones peuvent se faire et se défaire au fur et à mesure de l'avancement dans la séquence vidéo.

On note également que selon un autre mode de réalisation de l'invention, la modification de la quantification porte sur la résolution spatiale du signal vidéo d'origine. Dans ce cas, on modifie la résolution spatiale selon au moins une des composantes couleurs . Comme précédemment, cette modification peut être variable en fonction des zones obtenues par le procédé de l'invention, et en fonction de l'image ou du groupe d'image choisi, pour une variation temporelle. De la sorte, on obtient une variation spatio-temporelle de la résolution spatiale du signal vidéo.

L'homme du métier comprendra également que l'on peut combiner les deux modes de réalisation ci-dessus en modifiant à la fois la résolution spatiale de l'image par zone, et le nombre de bits sur lesquels sont quantifiés les composantes couleur ou la manière de quantifier les composantes couleur sur ces bits .

De façon générale, aux fins de la présente demande, on appellera « modification de quantification » les modifications portant sur le nombre de bits sur lesquels sont quantifiés les composantes couleur ou la manière de quantifier les données d'images sur ces bits , ce qui correspond à une quantification en profondeur, les modifications portant sur la résolution spatiale de l'image, ce qui correspond à une quantification spatiale ainsi que les modifications sur ces deux types de quantification de façon temporelle, donc selon l'index de l'image.

Il est entendu que dans toute la suite de la présente description, les modifications de quantification appliquées au nombre de bits de quantification sont également applicables à une modification de la résolution spatiale, ou à une combinaison de ces deux modifications de quantification.

Selon l'invention, la formation des zones, le choix d'en modifier la quantification ainsi que le choix du type de quantification se font grâce à une entité de contrôle. Cette entité de contrôle peut se baser sur différents outils . Ces outils permettent l'analyse du signal vidéo qui consiste à étudier chacune des composantes formant le signal vidéo à modifier, de manière globale -c'est-à-dire sur l'image- ou locale -c'est-à-dire sur une zone de l'image. Cette analyse du signal vidéo calcule sa complexité, à savoir sa texture, de même cette analyse porte sur sa gamme, à savoir l'ensemble des valeurs prises par chacune des composantes, de même cette analyse porte sur sa propreté, donc sur la puissance du bruit inclus dans le signal, de même cette analyse porte sur sa variation, notamment temporelle, c'est-à-dire d'une image aux suivantes. Cette étape d'analyse sera décrite plus en détail par la suite.

D'autre part, la qualité de service recherchée, notamment en termes de débit, moyen ou instantané, est un élément de décision.

D'autre part, le choix effectué par des entités de décision existantes dans les normes de compression actuelles, notamment sur l'utilisation de la prédiction temporelle ou de la prédiction spatiale, et sur leur type, peut être pris en compte.

Enfin, un paramétrage manuel aide aussi l'entité de contrôle.

Ainsi, suivant l'application, l'entité pourra utiliser la totalité ou une partie de ces outils. D'autres critères de décision peuvent être tout autant utilisés.

Enfin, il faut signaler que suivant le procédé décrit le signal modifié préserve l'espace spatio-temporel du signal original. La figure 1 décrit une structure de la vidéo comme étant une succession temporelle d'images (j étant l'indice temporel) . Chaque image est un tableau de HxL pixels (suivant des axes x et y) , chaque pixel P_x,_y de coordonnées (x,y) pouvant être décrit au maximum par trois valeurs Cl_x,_y(j),C2_x,_y(j),C3_x,_y(j) .

La figure 2 décrit l'invention en donnant un exemple de zones d'image Z_k. Dans ce même exemple, l'entité de contrôle prend les décisions suivantes en ce qui concerne les quantifications par zone après modification objet de

1' invention :

Quantification Qi appliquée sur Zi et Z₄

Quantification Q₃ appliquée sur Z₂, Z₅ et Z₆ Quantification Q₄ appliquée sur Z₃ et Z₇

Qi : Cl, C2 et C3 quantifiés linéairement sur 8 bits Q₃ : Cl quantifié linéairement sur 6 bits C2 quantifié linéairement sur 5 bits C3 quantifié linéairement sur 5 bits Q₄ : Cl quantifié non-linéairement sur 6 bits C2 quantifié non-linéairement sur 5 bits C3 quantifié non-linéairement sur 5 bits etc.

Dans la figure 3, on donne une vue générale de l'exemple d'un mode de réalisation de l'invention, dans lequel le signal vidéo est amené à être compressé par un codeur.

Suivant ce mode, le signal est reçu par l'entité de contrôle qui analyse le signal pour en générer des éléments techniques tels que sa complexité, la gamme de valeurs prises par chacune des composantes, sa propreté, sa variation temporelle, etc. Cette analyse peut être effectuée après le processus de « Pré-traitement ».

Le même signal vidéo d'origine composé par Cl,C2 et C3, est transformé par l'entité de « Pré-traitement ». La sortie de cette entité est aussi un signal vidéo décrit par trois signaux composantes couleurs. Ces signaux sont compressés par l'entité « Compression » qui génère un signal que l'on appelle flux binaire. Comme cela sera détaillé dans la figure 4, cette entité de compression peut comprendre des fonctions des normes de compression MPEG ou H.26x, telles que la prédiction spatiale, la prédiction temporelle, la transformation (DCT, DWT, etc.), la quantification des coefficients, le codage entropique, pour ne citer que les principales .

L'entité de contrôle, de par son analyse du signal vidéo d'origine et/ou d'autres paramètres, calcule des zones

Z_k (cf. Figure 2) dans les images successives. Sur certaines de ces zones, l'entité de contrôle réduit la quantification de chacune des composantes Cl, C2 et C3. Dans ce mode de réalisation, la réduction consiste à diminuer le nombre de bits décrivant Cl, C2 et C3 et donc de passer à un nombre

Nl, N2 et N3 (pour chaque composante) inférieurs à 8, 8 étant la quantification supposée dans le signal vidéo d'origine. La modification de quantification s'opère sur des signaux représentant chacune des composantes Cl, C2 et C3, autant dans l'entité de « Pré-traitement » que dans celle de

« Compression ».

L'entité de contrôle ajoute dans le flux binaire sortant de l'entité de « Compression » des informations supplémentaires telles que celles décrivant les zones et leur quantification, ainsi qu'une information de changement de scène. Il est bien entendu que ces informations supplémentaires peuvent être acheminées différemment de l'émetteur au récepteur, de même qu'elles peuvent ne pas y être acheminées, et ce, suivant l'application. D'autres informations peuvent être utilisées tout autant.

Le flux binaire tramé enrichi ou pas de ces informations est ensuite transmis ou stocké.

Dans la figure 5, on donne un exemple plus détaillé d'un mode de réalisation, dans lequel le signal vidéo est amené à être compressé par un codeur. Dans ce mode de réalisation, la modification de quantification est opérée dans l'entité de compression. Toujours dans cet exemple, l'entité de compression est supposée être basée sur un schéma tel que détaillé dans la figure 4. Dans la figure 5, seules les fonctions principales et seuls les signaux principaux sont montrés. Ainsi, par exemple et pour n'en citer que quelques-uns, les signaux de contrôle, les signaux d'informations supplémentaires (incluant notamment le choix de modification de quantification, les zones formées dans image) , le signal des vecteurs mouvements, les entités de stockage (« Buf Im ») ne sont pas indiqués.

Dans ce qui suit, nous n'utiliserons plus les termes de « composantes couleurs Cl, C2, C3 » dans les différentes phases de traitement, mais tout simplement celui de « signal » en lieu et place. Le signal (1) de la vidéo original traverse l'entité de Pré-traitement (A) et devient le signal (2) devant être compressé. Ce signal est traité par l'entité (B) de Prédiction Spatiale et l'entité (F) de Prédiction Temporelle. L'entité de Prédiction Spatiale (B) génère trois signaux : le signal (3) Image, le signal (10) Prédiction Spatiale et le signal (4) Résiduel Spatial. Le signal Image est l'ensemble de pixels de l'image d'origine transmis vers les autres étapes de compression (DCT, DWT ou autre type de transformation équivalente, quantification, réorganisation, codage entropique) . Le signal Prédiction Spatiale est l'ensemble des pixels considérés comme bonne prédiction pour des pixels spatialement voisins et utilisés en tant que telle. Le signal Résiduel Spatial est l'ensemble de pixels représentés par la différence entre leur valeur originale et la valeur du pixel Prédiction correspondant. Les signaux (3) et (4) sont alors traités par l'entité (C) de Modification de Quantification objet de la présente invention. Les deux signaux résultant (5) et (6) sont donc respectivement le signal Image et le signal Résiduel Spatial après Modification de Quantification. Ces deux signaux sont ensuite transmis vers les étapes de compression qui suivent (DCT, DWT ou autre type de transformation équivalente, quantification, réorganisation, codage entropique) . Ces mêmes signaux (5) et (6) sont aussi traités par l'entité (D) de Remise à l'Echelle autre objet de cette invention. Cette entité a pour objectif d'opérer la fonction inverse de l'entité (C) de modification de quantification. Les signaux résultant (7) et (8) sont respectivement le signal Image et Résiduel Spatial après Remise à l'Echelle et sont orientés vers l'entité (E) de Reconstruction qui reçoit de même le signal (10) . L'objectif de (E) est de re-former les pixels d'origine notamment pour les pixels résiduels. Pour lesdits pixels résiduels, cette re-formation des pixels d'origine est basée sur une simple addition de la valeur du pixel résiduel et la valeur du pixel prédiction correspondant. Le signal (9) Reconstruit Spatial sert alors de signal de référence pour la Prédiction Spatiale (B) au même titre que le signal (2) Image. De même ce signal (8) sert de signal de référence pour la Prédiction Temporelle (F) .

L'entité de Prédiction Temporelle (F) génère deux signaux : le signal (15) Prédiction Spatio-Temporelle et le signal (11) Résiduel Spatio-Temporel. De manière analogue à précédemment, le signal Prédiction Spatio-Temporelle est l'ensemble des pixels considérés comme bonne prédiction pour des pixels spatio-temporellement voisins et utilisés en tant que telle. Le signal Résiduel Spatio-Temporel est l'ensemble de pixels représentés par la différence entre leur valeur originale et la valeur du pixel Prédiction correspondant. Le signal (11) est alors traité par l'entité (G) de Modification de Quantification objet de la présente invention. Le signal résultant (12) est donc le signal Résiduel Spatio-Temporel après Modification de Quantification. Ce signal est ensuite transmis vers les étapes de compression qui suivent (DCT, DWT ou autre type de transformation équivalente, quantification, réorganisation, codage entropique) . Ce même signal (12) est aussi traité par l'entité (D) de Remise à l'Echelle. Cette entité a pour objectif d'opérer la fonction inverse de l'entité (G) de modification de quantification. Le signal résultant (13) est le signal Résiduel Spatio-Temporel après Remise à l'Echelle et est orienté vers l'entité (E) de Reconstruction qui reçoit de même le signal (15) Prédiction. Le signal (14) Reconstruit Spatio-Temporel sert alors de signal de référence pour la Prédiction Temporelle (F) au même titre que le signal (2) Image. De même ce signal (14) Reconstruit sert de signal de référence pour la Prédiction Spatiale (B) .

Par souci de clarification de l'interface entre les entités décrites dans cette figure et de fonctions (DCT, Q, Q^"1 et DCT^"1 principalement) de l'entité de compression non apparentes, notons que l'entité de Reconstruction (E) reçoit aussi des signaux (30) venant des autres fonctions de la compression, notamment les signaux ayant parcouru le chemin DCT, Q, Q^"1 et DCT^"1.

En ce qui concerne la fonction de Modification de Quantification effectuée par les entités (C) et (G) , citons à titre d'exemple, l'opération de division avec arrondi. Ainsi, on a Sortie = valeur arrondie (Entrée/Q) où Entrée est la valeur d'un pixel en entrée de l'entité (C) ou (G) et Sortie est la valeur de ce même pixel en sortie, Q étant une constante dont la valeur varie sous la commande d'une entité de Contrôle telle que celle montrée dans la figure 3. Cet exemple de modification de quantification peut être utilisé dans le cas où l'on désire diminuer la quantification des signaux et donc gagner en taux de compression.

Un autre exemple de modification de quantification simple peut être mise en œuvre selon l'invention par l'utilisation d'un masquage bit à bit, avec par exemple l'instruction : Sortie = Entrée & Mask_Q

Exemple : si Entrée = 10110110 et Mask_Q = 11110000 alors Sortie = 10110000

En ce qui concerne la fonction de Remise à l'Echelle effectuée par l'entité (D), citons, toujours à titre d'exemple, l'opération de multiplication. Ainsi, pour reprendre les notations ci-dessus appliquée à l'entité (D),

Sortie = Entrée x Q où Entrée est la valeur d'un pixel en entrée de l'entité (D) et Sortie est la valeur de ce même pixel en sortie, Q étant une constante dont la valeur varie sous la commande d'une entité de Contrôle telle que celle montrée dans la figure 3.

En ce qui concerne la fonction de Reconstruction effectuée par l'entité (E), notons que cette entité peut, en plus de la fonction de re-formation du pixel d'origine telle que déjà décrite, inclure d'autres fonctions utiles mais non indispensables. Ainsi, il est envisageable d'inclure une fonction d'uniformisation dont le traitement dépend de l'application considérée. De manière générale, la fonction d'uniformisation peut se décrire suivant la formule :

PX,y (j) = C [P'X_m',Yn_' (Ji_') , PXm,Yn(ji)] m', n' , m, n = 0,1,2, ; i' , i=0,l,2, ou

P représente le pixel après fonction d'uniformisation, P' représente le pixel avant fonction d'uniformisation, x,y sont les coordonnées spatiales du pixel, j est l'indice temporel du pixel (l'indice de l'image à laquelle il appartient) , x_m,Yn et x_m',Yn_' sont les coordonnées spatiales de pixels, pixels pris en compte dans la fonction d'uniformisation, ji_' et ji sont les indices temporels de pixels, pixels pris en compte dans la fonction d'uniformisation, C est une combinaison linéaire de totalité ou partie de pixels.

Dans la figure 6, on donne une description de la phase de Modification de Quantification et des éléments qui l'entourent. Dans cette figure, on considère un cas plus général que celui décrit dans la figure 5. Dans la figure 6, on considère que la modification de quantification peut se faire sur les signaux composantes couleurs traversant l'entité de Pré-traitement tel qu'apparaissant dans la figure 3, de même qu'elle peut se faire sur les signaux composantes couleurs en entrée des deux entités de prédiction spatiale et temporelle, ou qu'elle peut se faire sur les signaux devant être traités par les étapes de compression qui suivent (DCT, DWT ou autre type de transformation équivalente, quantification, réorganisation, codage entropique) tel que décrit dans la figure 5, etc. Dans la figure 6, l'entité (H) d'Analyse de Signal et de Choix de Modification de Quantification reçoit trois signaux : un signal (16) , ce signal étant généralement le signal Image ( (2) selon la figure 5), le signal (17) sur lequel la modification de quantification sera opérée et le signal (20) portant des résultats d'analyses effectuées ou des commandes supplémentaires qui seront décrits plus en détail dans les exemples d'algorithme appliqué à la modification de la quantification. L'entité (J) est l'entité qui opère la Modification de Quantification. Cette entité

(J) reçoit donc le signal (17) déjà cité et le signal (22) portant les choix de modifications de quantification provenant de l'entité (H) . L'entité (K) est un simple Multiplexeur, commandé à travers le signal (21) provenant de l'entité (H) . Ainsi, l'entité (K) aiguillera vers la sortie (signal (19) ) soit le signal de quantification modifiée (18) soit le signal original (17) . Cet aiguillage s'opère au rythme pixel. En sortie, on retrouve donc le signal (19) devant être traité par les entités qui suivent et le signal (22) portant les choix de modification de quantification.

De façon générale, la modification de quantification s'opère au moins sur les signaux résiduels des pixels situés dans les zones concernées. Ainsi, pour les zones prédits spatialement, les pixels qui servent de prédicteurs aux pixels voisins peuvent ne pas être affectées par la modification de quantification.

D'autre part, il n'est pas exclu que le signal (17) soit le même que le signal (16) . Dans l'exemple détaillé ci- dessus et reprenant la figure 5, les signaux (16) et (17) sont distincts.

Notons que l'information véhiculée par le signal (22) est reprise pour être insérée éventuellement dans le flux binaire en sortie de l'entité de Tramage tel que montré dans la figure 3, et ce en tant que partie de l'information supplémentaire tel que décrit précédemment, de même que ce signal (22) peut être utilisé par d'autres entités de la compression.

Notons aussi, que l'entité (H) est une partie de l'entité de Contrôle montrée dans la figure 3.

On définit maintenant plus précisément les moyens d'analyses qui amèneront à prendre les décisions de formation de zones dans l'image et de modification de quantification (soit-elle la quantification de l'image, c'est-à-dire la résolution spatiale, ou la quantification du pixel) , modification de quantification sur chacune desdites zones, moyens d'analyses les mieux adaptés au signal, à l'application et au contexte.

Illustrés figures 7a et 7b, nous allons maintenant donner des exemples d'algorithmes pour la mise en œuvre de l'invention afin de compléter la description pour l'homme du métier. Ces algorithmes reposent sur les normes de compression en vigueur telles les normes MPEG et H.26x.

Dans les systèmes de compression décrits dans les normes citées, les images sont découpées en blocs de tailles prédéfinies. Suivant des critères propres, le codeur décide pour chaque bloc du type de prédiction noté Type_Pred et du mode noté Mode_Pred pour cette prédiction qui sera opérée dessus.

D'autre part, l'estimateur de mouvement reçoit un signal vidéo. Il calcule pour les blocs devant être prédits temporellement l'erreur sur le bloc entre les pixels des potentiels blocs prédicteurs et les pixels du bloc courant. Il retient alors comme bloc prédicteur celui qui donne l'erreur minimum, qui sera noté Erreur Pred. Il en déduit le vecteur mouvement correspondant, qui sera noté MV.

Pour les blocs intra-prédits spatialement, une erreur de prédiction qu'on notera aussi Erreur_Pred est généralement calculée pour choisir parmi les différents modes de prédiction spatiale.

Tel que nous l'avons décrit dans le mode de réalisation ci-dessus, le signal après être passé par la voie a) c'est-à-dire par les fonctions de modification de quantification et de remise à l'échelle ou bien par la voie b) c'est-à-dire par les fonctions de modification de quantification, de DCT, de quantification et de sa fonction inverse des coefficients et de remise à l'échelle, est reconstruit par l'entité (E) . Le signal reconstruit suivant l'une de deux voies a) ou b) est comparé au signal original, et une erreur entre les deux signaux est calculée. Cette erreur sera notée Erreur_a_Posteriori.

Ainsi, chaque bloc d'une image à un index temporel donné possède un jeu de variables que sont : Type_Pred, Mode_Pred, Erreur_a_Posteriori, Erreur_Pred et MV, excepté les blocs intra pour lesquels la variable MV n'existe pas. Nous définissons pour Errβur_a_Postβr±or±, Errβur_Prβd et MV des seuils respectivement S_EaPi,S_Ej et S_MVk. Type_Pred et Mode_Pred ont quant à eux des valeurs discrètes définies dans les normes citées .

Tableau 1 Le tableau 1 ci-dessus est un tableau récapitulatif des variables d'un bloc et de leurs valeurs prises pour la zone formée de bloc(s) . D'autres possibilités peuvent être prévues telles remplacer les valeurs moyennes par des sommes, auquel cas les seuils auxquels seront comparées les valeurs obtenues par ces sommes devront être multipliés par le facteur correspondant au nombre de pixels inclus dans les blocs dans la zone.

Enfin, en plus de ces variables, on considère des actions extérieures telles les caractéristiques de l'écran du terminal cible, des configurations de l'utilisateur (par exemple l'opérateur), une commande issue par l'entité de contrôleur de débit, des requêtes du réseau pour plus au moins de débit et plus généralement des informations du contexte de l'application. On définit pour ces paramètres extérieurs des valeurs discrètes.

Les diagrammes des figure 7a et 7b décrivent un exemple d'algorithme de formation de zone. Cet algorithme est un algorithme de renouvellement automatique de zone dans chaque image. Le principe de cet algorithme est que les blocs voisins spatialement sont rassemblés dans une zone si leurs Erreur Preds et leurs MVs sont proches en valeurs . Pour cela, les blocs sont « scannés » dans le sens naturel. Un bloc peut avoir comme voisines plusieurs zones formées d'au moins un bloc.

Arrivé à un bloc donné, soit on force l'inclusion du bloc dans la zone qui se situe à sa gauche, ou à défaut dans la zone qui se situe au-dessus, soit on applique l'algorithme décrit dans ce qui suit. Si ce bloc est un bloc prédit temporellement, le processus suivant (figure 7a) est appliqué : pour chaque zone, on vérifie d'abord que la zone et le bloc ont le même type et mode de prédiction. Dans le cas affirmâtif, on calcule la différence entre le vecteur MV du bloc en cours et le vecteur MV de la zone, et la différence entre Erreur_Pred du bloc en cours et Erreur_Pred de la zone. On compare la différence des erreurs avec un seuil S El : si la différence dépasse ce seuil, on passe à la zone voisine suivante, sinon on continue le processus. On compare alors la différence des MVs avec un premier seuil S_MV1, : si cette différence ne dépasse pas le seuil, on inclut le bloc dans la zone et on met à jours les variables de cette zone en calculant les valeurs moyennes ; si cette différence dépasse le seuil, on compare les signes de MV de la zone et de MV du bloc : si les signes sont différents, on passe à la zone voisine suivante, sinon on continue le processus. On compare alors la différence des MVs avec un seuil S MV2 : si la différence dépasse ce seuil, on passe à la zone voisine suivante, sinon on inclut le bloc dans la zone et on met à jour les variables de cette zone en calculant les valeurs moyennes. Une fois une zone répondant aux critères d'inclusion trouvée, on a le choix de passer au bloc suivant ou bien de tester toutes les zones voisines et d'appliquer alors l'option décrite dans le paragraphe qui suit.

Dans le cas où le bloc donné n'est pas un bloc prédit temporellement mais un bloc intra-prédit spatialement, la partie d'algorithme décrite dans la figure 7b est appliquée : le bloc donné est inclus dans toute zone voisine ayant le même type et le même mode de prédiction que ce bloc, si la différence de Erreur_Pred du bloc et de Erreur Pred de la zone ne dépasse pas S E2 en valeur absolu. Une option non décrite dans les figures 7a et 7b prévoit de choisir parmi les zones qui répondent aux critères d'inclusion du bloc traité la zone pour laquelle la valeur Errβur_Prβd est la plus faible. Pour implémenter cette option, par exemple il suffira lors du traitement d'un bloc, d'enregistrer les données relatives à chaque zone répondant aux critères d'inclusion et de comparer ensuite les valeurs des Erreur Pred et prendre la bonne décision d'inclusion. Si plus d'une zone répond à ce critère, alors ces zones ne formeront plus qu'une nouvelle zone incluant de plus le bloc traité, et les variables de cette zone seront mises à jour en calculant les valeurs moyennes.

Enfin, tout bloc qui ne trouve pas de zone voisine répondant aux critères d'inclusion forme une nouvelle zone.

On décrit maintenant un exemple d'algorithme de modification de quantification par zones.

On rappelle d'abord qu'il existe trois types d'informations utiles à cet algorithme : l'information temporelle de la zone c'est-à-dire l'index de l'image à laquelle elle appartient, les variables calculées pour une zone telles que données dans le tableau 1 et les actions extérieures .

Pour une zone donnée, on choisit une nouvelle quantification suivant l'index temporel de la zone, les actions extérieures et le résultat des tests de comparaison des variables Type_Pred, Mode_Pred, MV et Erreur_Pred avec les valeurs discrètes que les deux premières variables sont susceptibles de prendre ou avec les seuils respectifs S_MVk et S_Ej pour les deux dernières variables. Il est bien entendu que la nouvelle quantification choisie peut être la même que celle d'origine.

Une fois cette première étape effectuée pour une zone, on calcule Erreur_a_Posteriori que l'on compare avec les seuils S_EaPi. Suivant le résultat de ces tests, soit l'on décide de ne pas modifier le choix de nouvelle quantification prise lors de la première étape, soit l'on décide de ne pas changer de quantification d'origine, soit enfin une nouvelle quantification est choisie. Dans ce dernier cas, on peut alors décider que le nouveau choix n'est pas définitif et décider de recalculer Erreur_a_Posteriori et la comparer à nouveau avec les seuils S_EaPi. Cette seconde étape peut être répétée un nombre de fois.

Dans une variante à cet exemple d'algorithme de découpage en zones et à cet exemple d'algorithme de modification de quantifications par zone, il peut être décidé de ne pas appliquer un découpage en zones et/ou une modification de quantification par zone si le nombre d'images successives dans lesquelles des modifications de quantification ont été effectuées dépasse un certain seuil ou si le nombre d'images successives dans lesquelles des modifications de quantification ont été effectuées sur une zone dépasse un certain seuil.

Enfin, dans les cas où des variables indiquées dans le tableau ne sont pas utilisables, d'autres algorithmes peuvent être prévus, basé sur les mêmes principes de proximité spatiale et de caractéristiques de mouvement et d'énergie résiduelle. L'homme du métier comprendra que l'algorithme de traitement vidéo tel que précédemment décrit est itératif en ce que le découpage des images en zones dépend des données de quantification obtenues à chaque cycle d'analyse. Ceci possède l'avantage d'adapter au mieux le découpage en zones, en fonction de la quantification de l'image, et ce de façon spatio-temporelle.

Les décisions prises par les algorithmes décrits ci- dessus sont transmises ou stockées pour être utilisées éventuellement par d'autres fonctions de la compression.

L'homme du métier comprendra enfin que le procédé faisant l'objet de cette invention ainsi que les différentes étapes le constituant peuvent être implémentés de manière matérielle et/ou logicielle, dans tout système de traitement de signal vidéo, de transmission de signal vidéo ou de stockage de signal vidéo. L'invention concerne plus particulièrement les systèmes où la compression ainsi que l'optimisation du signal vidéo par rapport aux écrans des terminaux sont primordiales .

Claims

REVENDICATIONS

1. Procédé de codage d'un signal vidéo d'origine comprenant une succession temporelle d'images comprenant des données d'images quantifiées dans le domaine spatial, pour l'obtention d'un signal vidéo modifié, caractérisé en ce qu'il comprend les étapes consistant à :

- recevoir ledit signal vidéo d'origine,

- découper les images dudit signal vidéo en un ensemble de zones d'image,

2. Procédé de codage d'un signal vidéo d'origine selon la revendication 1, caractérisé en ce que ledit découpage des images est variable en fonction du numéro de l'image dans ladite succession temporelle d'images.

3. Procédé de codage d'un signal vidéo d'origine selon la revendication 1, caractérisé en ce que ladite nouvelle quantification est variable en fonction du numéro de l'image dans ladite succession temporelle d'images.

4. Procédé de codage d'un signal vidéo d'origine selon l'une quelconque des revendications 1 à 3, caractérisé en ce qu'il comprend en outre une étape d'analyse dudit signal vidéo d'origine, et en ce que ledit découpage et/ou ladite nouvelle quantification dépendent de ladite analyse.

5. Procédé de codage d'un signal vidéo d'origine selon l'une quelconque des revendications 1 à 4, caractérisé en ce que ledit découpage et/ou ladite nouvelle quantification sont prédéterminés.

6. Procédé de codage d'un signal vidéo d'origine selon l'une quelconque des revendications 1 à 5, caractérisé en ce que ledit découpage et/ou ladite nouvelle quantification dépendent/dépend d'une action externe au procédé.

7. Procédé de codage d'un signal vidéo d'origine selon la revendication 1, caractérisé en ce que lesdites images comprennent un ensemble de données numériques d' image échantillonnées en pixel au sein de ladite image, et en ce que ladite nouvelle quantification est un ré-échantillonnage de la résolution spatiale selon au moins une desdites données numériques d' images .

8. Procédé de codage d'un signal vidéo d'origine selon la revendication 1, caractérisé en ce que lesdites images comprennent un ensemble de données numériques échantillonnées en pixel, et quantifiées sur un nombre de bits d'origine, et en ce que ladite nouvelle quantification est une nouvelle quantification dudit nombre de bits selon au moins une desdites données numériques d' images ou la manière de quantifier au moins une desdites données numériques d' images sur ces bits .

9. Procédé de codage d'un signal vidéo d'origine selon la revendication 1, caractérisé en ce que lesdites images comprennent un ensemble de données numériques échantillonnées en pixel, et quantifiées sur un nombre de bits d'origine, et en ce que ladite nouvelle quantification est une nouvelle quantification dudit nombre de bits selon au moins une desdites données numériques d' images ou la manière de quantifier au moins une desdites données numériques d'images sur ces bits, ainsi qu'un ré¬ échantillonnage de la résolution spatiale selon au moins une desdites données numériques d' images .

10. Procédé de codage d'un signal vidéo d'origine selon l'une quelconque des revendications 7 à 9, caractérisé en ce que ledit ensemble de données numériques d' image correspond à des composantes couleurs .

11. Procédé de codage selon la revendication 1, caractérisé en ce que ladite étape de découpage comprend la création d'un ensemble ou une pluralité d'ensembles de pixels dans une image dudit signal vidéo, les pixels étant définis par leurs coordonnées spatiales.

12. Procédé de codage selon la revendication 1, caractérisé en ce que lesdites images du signal vidéo d'origine sont découpées en une pluralité de blocs de tailles prédéfinies, et en ce que lesdites zones d'image obtenues lors de l'étape de découpage correspondent à une pluralité desdits blocs adjacents.

13. Procédé de codage selon la revendication 12, caractérisé en ce que lesdits blocs correspondent aux blocs

MPEG ou H.26x.

14. Appareil de codage d'un signal vidéo d'origine comprenant une succession temporelle d'images comprenant des données d'images quantifiées dans le domaine spatial, pour l'obtention d'un signal vidéo modifié, caractérisé en ce qu'il comprend un moyen pour recevoir ledit signal vidéo d'origine, un moyen pour découper les images dudit signal vidéo en un ensemble de zones d'image, un moyen pour générer une nouvelle quantification des données d'images dans le domaine spatial, variable en fonction des zones dudit ensemble de zones, pour l'obtention d'un signal vidéo modifié.

15. Support d'enregistrement sur lequel une série d'images d'une scène vidéo codée selon procédé selon l'une quelconque des revendications 1 à 13, sont stockées.