WO2014013149A2 - Procédé et système d'encodage et de décodage vidéo comportant une étape d'élimination de la redondance de pixellisation lors de l'encodage et une étape de repixellisation lors du décodage - Google Patents

Procédé et système d'encodage et de décodage vidéo comportant une étape d'élimination de la redondance de pixellisation lors de l'encodage et une étape de repixellisation lors du décodage Download PDF

Info

Publication number
WO2014013149A2
WO2014013149A2 PCT/FR2013/000201 FR2013000201W WO2014013149A2 WO 2014013149 A2 WO2014013149 A2 WO 2014013149A2 FR 2013000201 W FR2013000201 W FR 2013000201W WO 2014013149 A2 WO2014013149 A2 WO 2014013149A2
Authority
WO
WIPO (PCT)
Prior art keywords
image
images
pixel
prediction
residual
Prior art date
Application number
PCT/FR2013/000201
Other languages
English (en)
Other versions
WO2014013149A3 (fr
Inventor
Gang Xiao
Original Assignee
Universite Nice Sophia Antipolis
Centre National De La Recherche Scientifique
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Universite Nice Sophia Antipolis, Centre National De La Recherche Scientifique filed Critical Universite Nice Sophia Antipolis
Publication of WO2014013149A2 publication Critical patent/WO2014013149A2/fr
Publication of WO2014013149A3 publication Critical patent/WO2014013149A3/fr

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/86Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving reduction of coding artifacts, e.g. of blockiness
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/117Filters, e.g. for pre-processing or post-processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/14Coding unit complexity, e.g. amount of activity or edge presence estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/182Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • H04N19/436Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation using parallelised computational arrangements

Definitions

  • Method and system for video encoding and decoding comprising a step of eliminating raster redundancy during encoding and a repixing step during decoding
  • the invention relates to a method and system for encoding and decoding video comprising a step of eliminating pixel redundancy during encoding and a repixing step during decoding.
  • P type images In the compression of a video stream composed of a succession of images, some of the images, called P type images, serve as a reference for the prediction of the following images. Sophisticated motion compensation techniques are applied to increase the accuracy of prediction which is the key point of compression efficiency.
  • the difference between a predicted image and the actual image is the subject of a residual image, which must be transmitted from the encoder to the decoder.
  • a reference image is an image with the same number of pixels as the display image, and each pixel may have one or more values.
  • Each pixel value of the reference image contains the color values of the pixel plus a fractional positioning vector whose components do not exceed half the pixel in each direction.
  • the maximum number of values for the same pixel of the reference image is predefined and can be between 1 and 5.
  • the maximum number of values for the same pixel is 2.
  • the value of a pixel of the reference image is composed of 4 bytes, with 3 bytes for the 3 color values of the pixel, each having 256 possible values, and a fourth byte containing the vector of fractional positioning.
  • the positioning accuracy is 1/16 times the distance between two neighboring pixels in each direction.
  • WO-A-201 1/071347 relates to a method and apparatus for encoding and decoding images using selective filtering of a motion compensated image.
  • the embodiment described in this document includes an image encoding apparatus which selectively filters for each of the blocks of a plurality of filter blocks the motion-compensated image generated by estimating and compensating the motion. of the image, so as to generate a filtered motion compensation image.
  • the apparatus subtracts the filtered motion compensation image from the source image to generate a residual image.
  • the device transforms and quantifies the residual image and compresses the residual image transformed and quantified.
  • the motion compensated image is filtered to remove a large amount of the time redundancy remaining in the residual image, thereby improving the efficiency of the video compression.
  • this document does not describe how the deletion of the temporal redundancy remaining in the residual image is performed.
  • the problem underlying the present invention is to proceed with the elimination of pixelation redundancy in a residual image by eliminating the repixellization values having no influence on the quality of the image while retaining the other influencing values. on the quality of the residual image.
  • the object of the invention is to encode and decode successive source images (S1 to S3) in order to obtain display images (A1 to A3), during which encoding, for each source image.
  • a prediction image (P1 to P3), a reference image (F1 to F3) and a residual image (R1 to R3) are calculated, said prediction image (P1 to P3) being obtained after applying a motion vector field (M to M3) to anterior or posterior reference images (F1 to F3), said residual image (R1 to R3) being the difference between the source image (S1 to S3) and the prediction image (P1 to P3), said reference image (F1 to F3) being deduced from the prediction image (P1 to P3) by the addition of said residual image (R1 to R3), said image prediction (P1 to P3) and said reference image (F1 to F3) having the same number of pixels as the image corresponding source (S1 to S3), but each pixel of the prediction image (P1 to P3) and of the reference image (
  • the number of color values in each pixel of the prediction images and of the reference image is limited by a predefined value between 1 and 5.
  • the number of color values in each pixel of the prediction images and of the reference image is limited to 2.
  • the factor N is advantageously defined by the formula:
  • N my (0, L m)
  • V te tv 3 being the gradients of the luminance functions for the two pixels p1 and p2 of a pair of associated pixels of the two images set to correspondence by the motion vector, ( v "s v a) ⁇ e scalar product and ll v i. v * ll the standard of, and V a ..
  • the proportion r has a predetermined value of between 0.2 and 1.5, this value being a function of the quality of the video source, the accuracy of the motion vectors and the desired quality of the compression.
  • the proportion r is equal to 0.5.
  • said residual image thus obtained is added to the prediction image for obtaining a reference image associated with the given source image.
  • the values of the closest pixels in space are combined by taking the average of the chromatic values and the fractional positions.
  • the repixing process consists of interpolation by the nearest neighbor.
  • the repixelization process consists of bilinear interpolation.
  • the bilinear interpolation is used when the speed of the temporal movement of the pixel exceeds a certain predefined threshold while the interpolation by the nearest neighbor is used for a speed of the temporal movement less than said threshold.
  • a pixel of the residual image when a pixel of the residual image is to be added to the value of the pixel of the prediction image, said pixel of the residual image is added to the prediction image values associated with this pixel and, when a pixel of the residual image replaces the pixel of the prediction image, it replaces the values of the prediction image of this pixel with the fractional positioning returned to the exact position of the pixel of the residual image.
  • the invention also relates to a video encoding and decoding system for implementing such a method, which system comprises: means for encoding video images comprising calculation means for each given source image, where appropriate from a motion vector field, a prediction image, a reference image and a reference image; a residual image as well as means for reducing the rasterization effects of each source image,
  • decoding means for obtaining each display image comprising calculation means for reconstituting the series of reference images used to obtain display images from the data transmitted relative to the fields of vectors and residual images, the decoding means comprising processing means performing on each reference image a repixellization combining the multiple chromatic values of each pixel.
  • FIG. 1 is a representation of three consecutive reference images showing the values and positions of the pixels in the reference images after the action of motion vectors,
  • FIG. 2 is a schematic representation of the flow of images in an encoder, this encoder operating encoder having a step of eliminating pixelation redundancy according to the present invention, the encoding being part of a encoding and decoding method according to the present invention,
  • FIG. 3 is a schematic representation of the flow of images in a decoder, this decoder operating according to a decoding for which a repixellization process is provided, the decoding being part of an encoding and decoding method according to FIG. 4 is a representation of five pixel blocks, illustrating the effect of the raster redundancy removal step in the encoding part of the method according to the present invention
  • FIG. 5 is a schematic view of an encoding and decoding system according to the present invention.
  • Figure 1 shows the values and positions of the pixels in the reference images of a video sequence under the actions of the motion vectors.
  • each small square designates the positions belonging to a pixel, of which only one is referenced p1, p2 and p3 respectively for an image F1, F2 and F3, each pixel value being represented by a cross on the three images F1, F2 and F3.
  • the central position in a square is shown by a circle on the three images F1, F2 and F3.
  • the arrows, only one of which is referenced m1, m2, for each image F1 and F2 represent the motion vectors applied to the image F1, F2 to generate the next image F2, F3.
  • Each cross represents the position of a pixel value.
  • the image F1 is the initial image of the sequence, so the values of the pixels p1 are all placed in the center: the pixel value crosses are thus confused with the circles.
  • the pixel values p1 are displaced by the vector field according to the arrow m1 at the positions indicated in the image F2 and symbolized by a respective cross in said image F2 in order to constitute a pixel value p2.
  • FIG. 2 illustrates the flow diagram of the images in the encoder during the image compression operation according to the encoding method forming part of the present invention.
  • the references S1, S2, S3 indicate the source images of the video sequence that enter the encoder by its input Ee.
  • type B images have been omitted, so only type I and P images are present.
  • FIG. 2 relating to encoding, there is shown a sequence of three source images S1 to S3, two residual images R2 and R3, two prediction images P2 and P3 and two reference images F2 and F3.
  • FIG. 3 relating to the decoding with three display images A1 to A3 in the place of the source images S1 to S3. It is obvious that the present invention is not limited to so reduced a sequence of images and that the number of images of different types can be any.
  • S1 references the first source image of the sequence and gives a type I image, referenced I to this figure.
  • a motion vector field M1 is applied to produce the prediction image P2, which serves as a prediction for the second image.
  • the prediction image P2 is compared with the second source image S2 and the difference between the prediction image P2 and the source image S2 gives the residual image R2.
  • the step of eliminating raster redundancy in the encoding method forming part of the method according to the present invention is applied.
  • This step of eliminating pixelation variations in the residual image R2 consists in reducing the differences arising from the pixelation effects of each source image S1 to S3.
  • a prediction image P2, P3, a reference image F2, F3 and a residual image R2, R3 are calculated.
  • the prediction image P2, P3 is either identical to the source image S1 to S3, or that obtained after application of a motion vector field M1 to M3 to the prior or posterior reference images F2, F3.
  • a prediction image Pn where n is a natural integer it is possible to obtain this prediction image Pn by applying a motion vector field Mn + 1 to the reference image Fn + 1 posterior, the compression standards video that can perform reverse referencing.
  • the residual image R2, R3 is the difference between the source image S2, S3 and the prediction image P2, P3.
  • the reference image F3 is deduced from the prediction image P3 by adding the residual image R3.
  • the prediction image P2 or P3 and the reference image F2 or F3 have the same number of pixels as the corresponding source image S2 or S3, but each pixel of the prediction image P2 or P3 and the image F2 or F3 can have a variable number of color values, each of which additionally contains a fractional positioning vector.
  • the vector fields M1 to M3 and the residual images R2, R3 are used to reconstitute the series of reference images F2, F3 used to obtain display images A1 to A3.
  • the method is characterized, during encoding, for the calculation of each residual image R2, R3, by a step of reducing the differences arising from the pixelation effects of each source image S1 to S3.
  • V and V 2 be the gradients of the luminance functions respectively of the pixel of the first image and the pixel of the second image, it is defined a minimal part N of the gradients as being the norm of the smallest orthogonal projection of one of the gradients on the other if the scalar product (V ,, V 2 ) is positive; where N is by definition zero if this scalar product is negative.
  • N is by definition zero if this scalar product is negative.
  • v 2 ' is the scalar product and II v *> v * II the norm of V, e t V a .
  • proportion r is predefined, with a preferred value ranging from 0.2 to 1.5 depending on the quality of the video source, the accuracy of the motion vectors and the desired quality of the compression.
  • the essential part of the repixellization variations is less than 0.5N, whereas the vast majority of the non-negligible differences of two images are significantly greater than 2N.
  • the part of the method according to the invention taking place during the encoding and having a step of eliminating pixelation redundancy thus makes it possible to remove most of the variations of repixellization of the residual image without any detectable negative effect for the differences. non-negligible, these variations of repixellization of the residual image does not influence or little on the quality of the image.
  • a compression is advantageously provided to reduce the size of the residual image R2 before transmitting it to the output Se of the encoder.
  • the residual image R2 is added to the prediction image P2 to produce the reference image F2.
  • a second vector field M2 is applied to the reference image F2 in order to generate a third prediction image P3, this prediction image P3 being subtracted from the third source image S3 in order to obtain a residual image R3, itself processed similarly to the previous residual image R2 and so on for the following source, prediction and reference images .
  • FIG. 3 illustrates the flow diagram of the images in the decoder in which the decompression of the images is performed.
  • the image I and the residual images R2, R3, ... constitute the compressed video sequence sent by the encoder and received by the input Ed of the decoder.
  • the display images A1, A2, A3, .... are the decoded images intended for display.
  • the references X denote the repixing step, a step that will be described later.
  • the image I, the reference image F1 and the display image A1 are identical.
  • the motion vector field M1 is applied to the image I to produce the prediction image P2, which is added to the residual image R2, obtained after encoding, to generate the reference image F2.
  • the vector field M2 is applied to the reference image F2 to generate the prediction image P3, and so on.
  • said reference image F2 is subjected to an X repixing process in order to produce the second display image A2.
  • the same repixing process X is then applied to the consecutive reference images to obtain a corresponding display image.
  • the method according to the invention is characterized in that, in order to obtain each display image A1 to A3, a repixing step is carried out combining the multiple chromatic values of each pixel of the image.
  • n be a natural integer, illustrated by 2 or 3 in FIGS. 2 and 3, when a pixel of the residual image Rn is to be added to the value of the predicted pixel, this pixel of the residual image Rn is added to the values of the prediction image Pn associated with this pixel.
  • a pixel of the residual image Rn replaces the predicted pixel, it replaces the values of the prediction image Pn of this pixel, with the fractional positioning returned to the exact position of the pixel of the residual image Rn.
  • repixellization For a moving scene, the outlines and details in the scene, after the motion, are not necessarily aligned to the exact positions of the pixels. This is particularly the case when the movement is not a simple translation. So an algorithm must be applied to re-align the scene to the new positions of the pixels in order to be able to display it. This operation is called repixellization.
  • the bandwidth cost of the pixilation correction is at least the equivalent of 1 to 1.5 frames per second for the H.264, on the most favorable cases. with an almost noiseless video source with regular and slow movements.
  • the value of a pixel of the display image An may be the copy of the pixel closest to the reference image Fn, in taking into account the fractional positioning of the latter. This repixellization process is called by interpolation by the nearest neighbor.
  • repixellization processing is to take the average of 3 to 4 pixels of the reference image Fn closest to the pixel of the display image An, inversely weighted by their respective distances. This repixellization treatment is called by bilinear interpolation.
  • a preferred solution is to use bilinear interpolation when the speed of the temporal movement of the pixel exceeds a certain predefined threshold to keep a uniform speed of movement of the shapes and to use the interpolation by the neighbor the closer when the speed of the temporal movement is lower, to show the maximum visual clarity of the image.
  • the color values of the pixels are not changed except in the case where the number of values for the same pixel in the new prediction image exceeds the predefined limit. In this last In this case, the closest values in space are combined, taking the average of the chromatic values and the fractional positions.
  • Figure 4 shows five 4x4 pixel blocks to illustrate the effect of the raster redundancy removal step of the present invention.
  • the white boxes each represent a white pixel of value 256
  • the shaded boxes each represent a gray pixel of intermediate value 128
  • the black boxes each represent a black pixel of zero value.
  • the gradients are in the same direction, and the difference between the two blocks is a displacement of 0.7 pixel in the direction of the gradients.
  • a proportion r of N is defined with N calculated according to the following formula: with V t and being the gradients of the luminance functions for two pixels p1 and p2 in the two images mapped by the motion vector, ⁇ v ⁇ the scalar product of v "and v 3 ⁇ 4 and” V ⁇ VJ "the norm from V l and V a .
  • the proportion r has a preferred preset value which ranges from 0.2 to 1.5 depending on the quality of the video source, the accuracy of the motion vectors and the desired quality of the compression.
  • Block B3 has a flat gradient. This zero gradient disables the process elimination step. So for a comparison with any other block, the difference is fully reported in the residual image.
  • Blocks B1 and B4 have a big difference and both have strong gradients. But these gradients are in rather opposite directions, so scalar products 3 are negative. The elimination step is also inactive in this case and the difference between blocks is entirely transferred to the residual image.
  • the gradients are co-oriented, but they are not exactly in the same direction, so the scalar products 3 ⁇ 4 V ⁇ ⁇ 2 ⁇ have smaller values.
  • this implies a stricter condition for the elimination of the differences, a condition which is a function of the predefined proportion r.
  • Tests have, for example, been made on video sequences, the source of which is clean and of good quality, containing uniform, slow and simple movements. But these movements were not necessarily simple displacements: they could present a slight component of rotation or change of scale which does not put motion search algorithms in check.
  • the x264 software implementing the H.264 protocol gives a compression requiring a bandwidth between 1 and 1.5 frames per second for the P and B type images.
  • the image differences correspond to those of a JPEG compression of quality greater than or equal to 80%. This shows that the encoding method comprising an elimination step according to the present invention does not deteriorate the image quality.
  • the x264 algorithm gives a compression with a bandwidth between 2 and 3 images per second for the P and B type images, while with the method according to the invention, this bandwidth is always below 0.5 image per second.
  • Another example of this type is a previously compressed video sequence with a motion search algorithm less performance. This is a static picture that is shown in the video sequence with a gradual zoom of a rate of the order of 10% per second.
  • the compression by x264 requires a bandwidth equivalent to 3.7 frames per second, whereas after the application of the raster redundancy elimination step according to the present invention, a bandwidth of less than one frame per second is more than enough.
  • the invention also relates to a video encoding and decoding system.
  • a nonlimiting example of an embodiment of such a video encoding and decoding system is given with reference to FIG. 5.
  • a video stream of source images and a field of relative motion vectors these images come to encoding means.
  • the encoding means 1 of video images comprise calculation means for each given source image of a prediction image, a reference image and a residual image. The calculation of the prediction image is done so that the prediction image is either identical to the source image or that obtained after application of the motion vector field to the previous or subsequent reference images.
  • the encoding means comprise means for reducing the pixelation effects of each source image.
  • the data concerning the residual images and the motion vector fields are stored by storage means which are referenced 2 in FIG. 5. These data can be transmitted to transmission means 3 which, via any communication network 4, in particular the Internet, sends the data to reception means 5.
  • the video encoding and decoding system comprises decoding means 6 making it possible to decode the transmitted data.
  • decoding means 6 make it possible to obtain each display image and comprise calculation means for reconstructing the series of reference images used to obtain display images from the data transmitted relative to the fields of the display. vectors and residual images, the decoding means comprising processing means performing on each reference image a repixellization combining the multiple chromatic values of each pixel.
  • the decoding system comprises display means 7 of the television screen type, computer screen or projector for viewing the display images.
  • the encoding means are separate from the decoding means but this is not necessarily always the case.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

L'invention concerne un procédé et un système d'encodage et de décodage vidéo comportant une étape d'élimination de la redondance de pixellisation lors de l'encodage et une étape de repixellisation lors du décodage. Le procédé est caractérisé, lors de l'encodage pour le calcul de chaque image résiduelle (R1 à R3), par une étape de réduction des différences issues des effets de pixellisation de chaque image source (S1 à S3) et, lors du décodage pour l'obtention de chaque image d'affichage (A1 à A3), par une étape de repixellisation combinant les multiples valeurs chromatiques de chaque pixel de l'image de référence (F1, F2, F3). Application dans le traitement des images numériques lors de leur compression et décompression.

Description

Procédé et système d'encodage et de décodage vidéo comportant une étape d'élimination de la redondance de pixellisation lors de l'encodage et une étape de repixellisation lors du décodage L'invention concerne un procédé et un système d'encodage et de décodage vidéo comportant une étape d'élimination de la redondance de pixellisation lors de l'encodage et une étape de repixellisation lors du décodage.
Dans la compression d'un flux vidéo composé d'une succession d'images, certaines des images, dites images de type P, servent de référence pour la prédiction des images suivantes. Des techniques sophistiquées de compensation de mouvement sont appliquées pour augmenter la précision de la prédiction qui est le point clé de l'efficacité de la compression.
La différence entre une image prédite et l'image réelle fait l'objet d'une image résiduelle, qui doit être transmise de l'encodeur au décodeur. Plus la prédiction est précise, moins importante sera l'information contenue dans l'image résiduelle et donc la quantité de données à transmettre.
Dans tous les protocoles actuels, pour les images de type P, l'image affichée et l'image servant de référence future sont identiques.
Une image de référence est une image avec le même nombre de pixels que l'image d'affichage, et chaque pixel peut avoir une ou plusieurs valeurs. Chaque valeur de pixel de l'image de référence contient les valeurs chromatiques du pixel plus un vecteur de positionnement fractionnaire dont les composantes ne dépassent pas la moitié du pixel dans chaque direction.
Le nombre maximal de valeurs pour un même pixel de l'image de référence est prédéfini et peut être entre 1 et 5. Préférentiellement, le nombre maximal de valeurs pour un même pixel est 2.
Dans un cas d'exemple, la valeur d'un pixel de l'image de référence est composée de 4 octets, avec 3 octets pour les 3 valeurs chromatiques du pixel, chacune ayant 256 valeurs possibles, et un quatrième octet contenant le vecteur de positionnement fractionnaire. La précision du positionnement est donc 1/16 fois de la distance entre deux pixels voisins dans chaque direction. Le document WO-A-201 1/071347 a trait à un procédé et à un appareil de codage et décodage d'images utilisant le filtrage sélectif d'une image à compensation de mouvement. Le mode de réalisation décrit dans ce document comporte un appareil de codage d'images qui filtre de façon sélective, pour chacun des blocs d'une pluralité de blocs de filtrage, l'image à compensation de mouvement générée en estimant et en compensant le mouvement de l'image, de sorte à générer une image à compensation de mouvement filtrée.
L'appareil soustrait l'image à compensation de mouvement filtrée à l'image source en vue de générer une image résiduelle. L'appareil transforme et quantifie l'image résiduelle et compresse l'image résiduelle transformée et quantifiée. L'image à compensation de mouvement est filtrée afin de supprimer une grande quantité de la redondance temporelle restant dans l'image résiduelle, ce qui permet d'améliorer l'efficacité de la compression vidéo. Ce document ne décrit cependant pas comment il est effectué la suppression de la redondance temporelle restant dans l'image résiduelle.
Le problème à la base de la présente invention est de procéder à l'élimination de la redondance de pixellisation dans une image résiduelle en éliminant les valeurs de repixellisation n'ayant aucune influence sur la qualité de l'image tout en conservant les autres valeurs influant sur la qualité de l'image résiduelle.
A cet effet, l'invention a pour objet un d'encodage et de décodage d'images sources successives (S1 à S3) afin d'obtenir des images d'affichage (A1 à A3), lors duquel encodage, pour chaque image source donnée (S1 à S3), il est calculé une image de prédiction (P1 à P3), une image de référence (F1 à F3) et une image résiduelle (R1 à R3), ladite image de prédiction (P1 à P3) étant celle obtenue après application d'un champ de vecteurs de mouvement (M à M3) aux images de référence antérieures ou postérieures (F1 à F3), ladite image résiduelle (R1 à R3) étant la différence entre l'image source (S1 à S3) et l'image de prédiction (P1 à P3), ladite image de référence (F1 à F3) étant déduite de l'image de prédiction (P1 à P3) par l'ajout de ladite image résiduelle (R1 à R3), ladite image de prédiction (P1 à P3) et ladite image de référence (F1 à F3) ayant le même nombre de pixels que l'image source correspondante (S1 à S3), mais chaque pixel de l'image de prédiction (P1 à P3) et de l'image de référence (F1 à F3) pouvant avoir un nombre variable de valeurs chromatiques, chacune d'elles contenant en plus un vecteur de positionnement fractionnaire et lors duquel décodage il est utilisé les champs de vecteurs (M1 à M3) et les images résiduelles (R1 à R3) pour reconstituer la série d'images de référence (F1 à F3) servant à l'obtention d'images d'affichage (A1 à A3), lequel procédé comprend, lors de l'encodage pour le calcul de chaque image résiduelle (R1 à R3), une étape de réduction des différences issues des effets de pixellisation de chaque image source (S1 à S3) et, lors du décodage pour l'obtention de chaque image d'affichage (A1 à A3), une étape de repixellisation par interpolation combinant les multiples valeurs chromatiques de chaque pixel de l'image de référence (F1 , F2, F3), le procédé étant caractérisé en ce que l'étape de réduction des différences issues des effets de pixellisation des images sources (S1 à S3) consiste à déterminer les gradients de luminance pour chaque paire de pixels associés dans l'image de prédiction (P1 à P3) et l'image source (S1 à S3) correspondante, à calculer un facteur N qui est soit 0 soit la norme de la plus petite projection orthogonale positive d'un des gradients sur l'autre pour chaque paire de pixels associés, à prédéterminer une proportion r telle que toute différence entre les valeurs chromatiques est ignorée si elle est inférieure en valeur absolue à rN.
Avantageusement, le nombre de valeurs chromatiques dans chaque pixel des images de prédiction et de l'image de référence est limité par une valeur prédéfinie entre 1 et 5.
Avantageusement, le nombre de valeurs chromatiques dans chaque pixel des images de prédiction et de l'image de référence est limité à 2.
Avantageusement, dans le procédé, le facteur N est avantageusement défini par la formule :
<V,. V 3) ,
N = ma (0, L m )
' max(| Vu V2 ||) V t et v3 étant les gradients des fonctions de luminance pour les deux pixels p1 et p2 d'une paire de pixels associés des deux images mis en correspondance par le vecteur de mouvement, (v»s v a) \e produit scalaire et ll vi. v *ll la norme de , et Va..
Avantageusement, la proportion r a une valeur prédéterminée comprise entre 0,2 et 1 ,5, cette valeur étant fonction de la qualité de la source vidéo, de la précision des vecteurs de mouvement et de la qualité voulue de la compression.
Avantageusement, la proportion r est égale à 0,5.
Avantageusement, ladite image résiduelle ainsi obtenue est ajoutée à l'image de prédiction pour l'obtention d'une image de référence associée à l'image source donnée.
Avantageusement, quand le nombre de valeurs pour un même pixel dans la nouvelle image de prédiction dépasse ladite limite, les valeurs des pixels les plus proches dans l'espace sont combinées en prenant la moyenne des valeurs chromatiques et des positionnements fractionnaires.
Dans un mode de réalisation de l'invention, le traitement de repixellisation consiste en une interpolation par le voisin le plus proche.
Dans un autre mode de réalisation de l'invention, le traitement de repixellisation consiste en une interpolation bilinéaire.
Avantageusement, l'interpolation bilinéaire est utilisée quand la vitesse du mouvement temporel du pixel dépasse un certain seuil prédéfini tandis que l'interpolation par le voisin le plus proche est utilisée pour une vitesse du mouvement temporel inférieure audit seuil.
Avantageusement, pour une image résiduelle appliquée à une image de prédiction pour corriger les diverses erreurs de prédiction, quand un pixel de l'image résiduelle est à ajouter sur la valeur du pixel de l'image de prédiction, ledit pixel de l'image résiduelle s'ajoute sur les valeurs de l'image de prédiction associées à ce pixel et, quand un pixel de l'image résiduelle remplace le pixel de l'image de prédiction, il remplace les valeurs de l'image de prédiction de ce pixel avec le positionnement fractionnaire remis à la position exacte du pixel de l'image résiduelle.
L'invention concerne aussi un système d'encodage et de décodage vidéo pour la mise en oeuvre d'un tel procédé, lequel système comprend : - des moyens d'encodage d'images vidéo comprenant des moyens de calcul pour chaque image source donnée, le cas échéant à partir d'un champ de vecteurs de mouvement, d'une image de prédiction, d'une image de référence et d'une image résiduelle ainsi que des moyens de réduction des effets de pixellisation de chaque image source,
- des moyens de mémorisation au moins temporaire et de transmission de données relatives aux images résiduelles et aux champs de vecteurs de mouvement, et
- des moyens de décodage pour l'obtention de chaque image d'affichage, comprenant des moyens de calcul pour reconstituer la série d'images de référence servant à l'obtention d'images d'affichage à partir des données transmises relatives aux champs de vecteurs et aux images résiduelles, les moyens de décodage comprenant des moyens de traitement effectuant sur chaque image de référence une repixellisation combinant les multiples valeurs chromatiques de chaque pixel.
L'invention va maintenant être décrite plus en détail mais de façon non limitative en regard des figures annexées, dans lesquelles :
- la figure 1 est une représentation de trois images de référence consécutives montrant les valeurs et positions des pixels dans les images de référence après l'action de vecteurs de mouvement,
- la figure 2 est une représentation schématique du parcours du flux d'images dans un encodeur, cet encodeur fonctionnant selon un encodage présentant une étape d'élimination de la redondance de pixellisation conformément à la présente invention, l'encodage faisant partie d'un procédé d'encodage et de décodage selon la présente invention,
- la figure 3 est une représentation schématique du parcours du flux d'images dans un décodeur, ce décodeur fonctionnant selon un décodage pour lequel il est prévu un traitement de repixellisation, le décodage faisant partie d'un procédé d'encodage et de décodage selon la présente invention, - la figure 4 est une représentation de cinq blocs de pixel, illustrant l'effet de l'étape d'élimination de la redondance de pixellisation dans la partie encodage du procédé selon la présente invention, - la figure 5 est une vue schématique d'un système d'encodage et de décodage selon la présente invention.
La figure 1 montre les valeurs et positions des pixels dans les images de référence d'une séquence de vidéo, sous les actions des vecteurs de mouvement. Il y a trois images de référence F1 , F2 et F3 consécutives, chacune étant représentée par un bloc de 3x3 pixels.
Dans chaque image F1 , F2 et F3, chaque petit carré désigne les positions appartenant à un pixel, dont un seul est référencé p1 , p2 et p3 pour respectivement une image F1 , F2 et F3, chaque valeur de pixel étant représentée par une croix sur les trois images F1 , F2 et F3. La position centrale dans un carré est montrée par un cercle sur les trois images F1 , F2 et F3.
Les flèches, dont une seule est référencée m1 , m2, pour chaque image F1 et F2 représentent les vecteurs de mouvement appliqués sur l'image F1 , F2 pour générer l'image suivante F2, F3. Chaque croix représente la position d'une valeur de pixel.
Pour une même image F1 ou F2, il peut y avoir plusieurs vecteurs de mouvement m1 ou m2 différents selon un carré de l'image F1 ou F2. Les valeurs de pixel d'un carré d'une image F1 , F2 ne suivent pas forcément le même mouvement que le pixel d'un autre carré de la même image F1 , F2.
L'image F1 est l'image initiale de la séquence, donc les valeurs des pixels p1 sont toutes placées au centre : les croix de valeur de pixel sont donc confondues avec les cercles. Les valeurs de pixel p1 sont déplacées par le champ de vecteurs selon la flèche m1 aux positions indiquées dans l'image F2 et symbolisées par une croix respective dans ladite image F2 afin de constituer une valeur de pixel p2.
Il convient de remarquer que dans ce cas, pour un même carré de l'image F2, certains pixels peuvent posséder plusieurs valeurs. C'est le cas notamment des pixels dans la seconde ligne de carrés de la seconde image F2.
Le même processus s'applique pour la transition de la seconde image F2 à la troisième image F3 après application du champ de vecteurs de mouvement m2 sur l'image F2. A l'image F3, il est obtenu les positions des valeurs de pixel p3, et ainsi de suite, les vecteurs de mouvement n'ayant cependant pas été dessinés à cette image F3.
La figure 2 illustre le schéma du flux des images dans l'encodeur lors de l'opération de compression des images selon le procédé d'encodage faisant partie de la présente invention. A cette figure, les références S1 , S2, S3 indiquent les images sources de la séquence vidéo qui entrent dans l'encodeur par son entrée Ee. Pour simplifier la figure, il a été omis les images de type B, donc seules les images de type I et P sont présentes.
Dans la figure 2 relative à l'encodage, il est montré une suite de trois images sources S1 à S3, deux images résiduelles R2 et R3, deux images de prédiction P2 et P3 et deux images de référence F2 et F3. Il en va de même pour la figure 3 relative au décodage avec trois images d'affichage A1 à A3 à la place des images sources S1 à S3. Il est évident que la présente invention n'est pas limitée à une suite aussi réduite d'images et que le nombre d'images de différents types peut être quelconque.
S1 référence la première image source de la séquence et donne une image de type I, référencée I à cette figure. A cette image I, un champ de vecteurs M1 de mouvement est appliqué pour produire l'image de prédiction P2, qui sert de prédiction pour la seconde image.
L'image de prédiction P2 est comparée à la seconde image source S2 et la différence entre l'image de prédiction P2 et l'image source S2 donne l'image résiduelle R2.
Dans ce calcul de la différence, conformément à l'invention, l'étape d'élimination de la redondance de pixellisation dans le procédé d'encodage faisant partie du procédé selon la présente invention est appliquée.
Cette étape d'élimination des variations de pixellisation dans l'image résiduelle R2 consiste dans la réduction des différences issues des effets de pixellisation de chaque image source S1 à S3.
Lors de l'encodage, il est calculé une image de prédiction P2, P3, une image de référence F2, F3 et une image résiduelle R2, R3. L'image de prédiction P2, P3 est soit identique à l'image source S1 à S3, soit celle obtenue après application d'un champ de vecteurs de mouvement M1 à M3 aux images de référence antérieures ou postérieures F2, F3. En effet, soit une image de prédiction Pn où n est un entier naturel, il est possible d'obtenir cette image de prédiction Pn par application d'un champ de vecteurs de mouvement Mn+1 à l'image de référence Fn+1 postérieure, les standards de compression vidéo pouvant effectuer des référencements inversés.
L'image résiduelle R2, R3 est la différence entre l'image source S2, S3 et l'image de prédiction P2, P3. Ensuite, L'image de référence F3 est déduite de l'image de prédiction P3 par l'ajout de l'image résiduelle R3. L'image de prédiction P2 ou P3 et l'image de référence F2 ou F3 ont le même nombre de pixels que l'image source correspondante S2 ou S3, mais chaque pixel de l'image de prédiction P2 ou P3 et de l'image de référence F2 ou F3 peuvent avoir un nombre variable de valeurs chromatiques, chacune d'elles contenant en plus un vecteur de positionnement fractionnaire.
Lors du décodage, il est utilisé les champs de vecteurs M1 à M3 et les images résiduelles R2, R3 pour reconstituer la série d'images de référence F2, F3 servant à l'obtention d'images d'affichage A1 à A3. Selon l'invention, le procédé est caractérisé, lors de l'encodage, pour le calcul de chaque image résiduelle R2, R3, par une étape de réduction des différences issues des effets de pixellisation de chaque image source S1 à S3.
Une forme de réalisation préférée mais non limitative de la présente invention va maintenant être décrite.
Soient V et V2 les gradients des fonctions de luminance respectivement du pixel de la première image et du pixel de la seconde image, il est défini une partie minimale N des gradients comme étant la norme de la plus petite projection orthogonale d'un des gradients sur l'autre si le produit scalaire (V,, V 2)est positif; où N est par définition nulle si ce produit scalaire est négatif. Autrement dit :
Figure imgf000010_0001
v 2' est le produit scalaire et II v *> v * Il la norme de V , et Va. Selon la présente invention, dans la comparaison des valeurs chromatiques des deux images sur p1 et p2, toute différence dont la valeur absolue ne dépasse pas une proportion r de N est ignorée. La proportion r est prédéfinie, avec une valeur préférée qui va de 0,2 à 1 ,5, ceci en fonction de la qualité de la source vidéo, de la précision des vecteurs de mouvement et de la qualité voulue de la compression.
D'après les tests, pour une source d'image de qualité raisonnable et des vecteurs de mouvement suffisamment précis, la partie essentielle des variations de repixellisation est inférieure à 0,5N, tandis que l'immense majorité des différences non-négligeables de deux images sont nettement supérieures à 2N.
La partie du procédé selon l'invention prenant place lors de l'encodage et présentant une étape d'élimination de la redondance de pixellisation permet donc de retirer l'essentiel des variations de repixellisation de l'image résiduelle sans effet négatif détectable pour les différences non-négligeables, ces variations de repixellisation de l'image résiduelle n'influant pas ou peu sur la qualité de l'image.
Après le traitement d'élimination de la redondance de pixellisation conformément à l'étape d'élimination du procédé d'encodage selon l'invention pour l'image résiduelle R2, une compression est avantageusement prévue pour réduire la taille de l'image résiduelle R2 avant de la transmettre à la sortie Se de l'encodeur.
En parallèle à la transmission de l'image résiduelle R2 à la sortie Se de l'encodeur, après la compression, l'image résiduelle R2 est ajoutée à l'image de prédiction P2 pour produire l'image de référence F2.
Ensuite, en analogie à ce qui a été fait sur l'image I obtenue de la première image source S1 , il est appliqué un deuxième champ de vecteurs M2 à l'image de référence F2 afin de générer une troisième image de prédiction P3, cette image de prédiction P3 étant soustraite de la troisième image source S3 afin d'obtenir une image résiduelle R3, elle-même traitée de manière similaire à l'image résiduelle précédente R2 et ainsi de suite pour les images sources, de prédiction et de référence suivantes.
L'image I, les images résiduelles R2, R3, ... et les champs de vecteurs de mouvement M1 , M2, M3 ... sont envoyés à la sortie Se de l'encodeur et sont ensuite transmis au décodeur, comme il va être montré en regard de la figure 3. La figure 3 illustre le schéma du flux des images dans le décodeur dans lequel est effectuée la décompression des images. A cette figure, l'image I et les images résiduelles R2, R3, ... constituent la séquence vidéo compressée envoyée par l'encodeur et reçues par l'entrée Ed du décodeur. Les images d'affichage A1 , A2, A3, .... sont les images décodées destinées à l'affichage. Les références X désignent l'étape de repixellisation, étape qui sera ultérieurement décrite.
L'image I, l'image de référence F1 et l'image d'affichage A1 sont identiques. Le champ de vecteurs de mouvement M1 est appliqué à l'image I pour produire l'image de prédiction P2, qui est ajoutée à l'image résiduelle R2, obtenue après encodage, pour générer l'image de référence F2. Ensuite, le champ de vecteurs M2 est appliqué sur l'image de référence F2 pour générer l'image de prédiction P3, et ainsi de suite.
En parallèle de l'application du champ de vecteurs M2 sur l'image de référence F2, ladite image de référence F2 est soumise à un traitement de repixellisation X afin de produire la seconde image d'affichage A2. Le même traitement de repixellisation X est ensuite appliqué aux images de référence consécutives pour obtenir une image d'affichage correspondante.
Il est à noter que les suites des images I, de prédiction P2, de référence F2, de prédiction P3, de référence F3 ... sont exactement respectivement identiques dans l'encodeur et dans le décodeur.
Ainsi, lors du décodage, le procédé selon l'invention est caractérisé en ce que, pour l'obtention de chaque image d'affichage A1 à A3, il est procédé à une étape de repixellisation combinant les multiples valeurs chromatiques de chaque pixel de l'image de référence F1 , F2, F3.
Il convient d'ajouter que si dans le procédé d'encodage et de décodage selon la présente invention l'association d'une étape de réduction des différences issues des effets de pixellisation de chaque image source S1 à S3 lors de l'encodage avec une étape de repixellisation pour l'obtention de chaque image d'affichage A1 à A3 lors du décodage est préférée, une de ces étapes peut être combinée avec un procédé d'encodage ou respectivement un procédé de décodage différent de ceux précédemment proposés. Soit n un nombre entier naturel, illustré par 2 ou 3 aux figures 2 et 3, quand un pixel de l'image résiduelle Rn est à ajouter sur la valeur du pixel prédit, ce pixel de l'image résiduelle Rn s'ajoute sur les valeurs de l'image de prédiction Pn associés à ce pixel. Quand un pixel de l'image résiduelle Rn remplace le pixel prédit, il remplace les valeurs de l'image de prédiction Pn de ce pixel, avec le positionnement fractionnaire remis à la position exacte du pixel de l'image résiduelle Rn.
Pour une scène en mouvement, les contours et détails dans la scène, après le mouvement, ne sont pas forcément alignés aux positions exactes des pixels. C'est notamment le cas quand le mouvement n'est pas une simple translation. Donc un algorithme doit être appliqué pour ré-aligner la scène aux nouvelles positions des pixels afin de pouvoir l'afficher. Cette opération porte le nom de repixellisation.
Si des algorithmes existent qui offrent d'excellente qualité visuelle après une seule repixellisation, il n'en existe aucun qui puisse éviter une dégradation graduelle de la qualité de l'image après des repixellisations répétitives. Pour les images de type P, il est donc nécessaire de corriger les variations introduites dans la repixellisation. En plus, par souci d'économie de bande passante, ces corrections ne sont jamais parfaites et une dégradation résiduelle est donc toujours présente.
D'après des mesures effectuées sur différents types de source vidéo, le coût en bande passante de la correction de pixellisation représente au minimum l'équivalent de 1 à 1 ,5 images par seconde pour le H.264, sur les cas les plus favorables avec une source vidéo quasi sans bruit comportant des mouvements réguliers et lents.
Avec des bruits, comme c'est le cas d'une source vidéo issue d'une compression antérieure, ce coût monte à 2 images par seconde, dans un flux dont la bande passante globale est en général entre 4 et 6 images par seconde. Ce coût est donc très important. Dans le cas où la source vidéo ne contient pas de mouvements trop compliqués, la correction des variations de pixellisation peut même constituer la partie principale du flux vidéo compressé. Comme précédemment mentionné, une image d'affichage, pour n étant égal à 2 ou 3, An est déduite de l'image de référence Fn correspondante par un algorithme de repixellisation. Il peut exister plusieurs algorithmes de repixellisation qui peuvent être employés en alternative ou en complément pour effectuer la repixellisation.
Par exemple, avec n égal à 2 ou 3 en regard des figures 2 et 3, la valeur d'un pixel de l'image d'affichage An peut être la copie du pixel le plus proche de l'image de référence Fn, en tenant compte du positionnement fractionnaire de ce dernier. Ce traitement de repixellisation est appelé par interpolation par le voisin le plus proche.
Une autre possibilité de traitement de repixellisation est de prendre la moyenne de 3 à 4 pixels de l'image de référence Fn les plus proches du pixel de l'image d'affichage An, inversement pondérés par leurs distances respectives. Ce traitement de repixellisation est appelé par interpolation bilinéaire.
Sans augmenter le coût du calcul du décodeur, une solution préférée consiste à utiliser l'interpolation bilinéaire quand la vitesse du mouvement temporel du pixel dépasse un certain seuil prédéfini pour garder une vitesse de déplacement uniforme des formes et utiliser l'interpolation par le voisin le plus proche quand la vitesse du mouvement temporel est plus basse, pour montrer le maximum de netteté visuelle de l'image.
Quand une nouvelle image de prédiction Pn est déduite à partir d'une image de référence antérieure Fn-1 et d'un champ de vecteurs Mn-1 de mouvement, les pixels de l'ancienne image de référence Fn-1 sont pris avec leurs positionnements fractionnaires et, en ajoutant le champ de vecteurs Mn- 1de mouvement correspondant, ils sont mis dans les positions de pixels de la nouvelle image de prédiction Pn, y compris les nouvelles positions fractionnaires. Il en va de même pour un référencement postérieur comme précédemment mentionné.
Cependant, les valeurs chromatiques des pixels ne sont pas modifiées, sauf dans le cas où le nombre de valeurs pour un même pixel dans la nouvelle image de prédiction dépasse la limite prédéfinie. Dans ce dernier cas, les valeurs les plus proches dans l'espace sont combinées, en prenant la moyenne des valeurs chromatiques et des positionnements fractionnaires.
La figure 4 montre cinq blocs de 4x4 pixels pour illustrer l'effet de l'étape d'élimination de la redondance de pixellisation selon la présente invention.
Pour ces cinq blocs, les casés blanches représentent chacune un pixel blanc de valeur 256, les cases hachurées représentent chacune un pixel gris de valeur intermédiaire 128 tandis que les cases noires représentent chacune un pixel noir de valeur nulle.
Entre les deux premiers blocs B1 et B2, les gradients sont dans le même sens, et la différence des deux blocs est un déplacement d'une distance de 0,7 pixel dans le sens des gradients.
Conformément à la présente invention, il est défini une proportion r de N avec N calculé selon la formule suivante :
Figure imgf000015_0001
avec V t et étant les gradients des fonctions de luminance pour deux pixels p1 et p2 dans les deux images mis en correspondance par le vecteur de mouvement, ^ v ^ le produit scalaire de v» et v¾ et " V lï V J " la norme de V l et Va.
La proportion r a une valeur prédéfinie préférée qui va de 0,2 à 1 ,5, ceci en fonction de la qualité de la source de vidéo, de la précision des vecteurs de mouvement et de la qualité voulue de la compression.
Donc si le paramètre r est supérieur à la distance dans le sens des gradients précédemment mentionnée, distance qui est de 0,7 pixel pour les blocs B1 et B2, la différence entre les deux blocs B1 et B2 est supprimée dans l'image résiduelle par le procédé.
Le bloc B3 a un gradient plat. Ce gradient nul désactive l'étape d'élimination du procédé. Donc pour une comparaison avec n'importe quel autre bloc, la différence est entièrement reportée dans l'image résiduelle.
Les blocs B1 et B4 ont une grande différence et tous les deux ont de forts gradients. Mais ces gradients sont dans des sens plutôt opposés, donc les produits scalaires 3 sont négatifs. L'étape d'élimination est aussi inactive dans ce cas et la différence entre blocs est entièrement reportée dans l'image résiduelle.
La situation est la même entre les blocs B1 et B5 ou entre les blocs B2 et B5.
Entre les blocs B4 et B5, les gradients sont co-orientés, mais ils ne sont pas exactement dans le même sens, donc les produits scalaires ¾ V l' ^ 2^ ont des valeurs plus petites. Selon l'équation du calcul de N à la base du procédé d'encodage présentant une étape d'élimination de la redondance, cela implique une condition plus stricte pour l'élimination des différences, condition qui est fonction de la proportion r prédéfinie.
Suivant la valeur de la proportion r, il peut y avoir 1 ou 2 pixels sur lesquels le procédé supprime la différence dans l'image résiduelle.
Cependant, l'impact visuel ainsi obtenu est très limité.
L'efficacité du procédé d'encodage présentant une telle étape d'élimination selon la présente invention a été confirmée par une série de tests.
Des tests ont, par exemple, été réalisés sur des séquences de vidéo, dont la source est propre et de bonne qualité en contenant des mouvements uniformes, lents et simples. Mais ces mouvements n'étaient pas forcément de simples déplacements : ils pouvaient présenter une légère composante de rotation ou de changement d'échelle qui ne met pas les algorithmes de recherche de mouvement en échec.
Dans ces conditions, le logiciel x264 implémentant le protocole H.264 donne une compression nécessitant une bande passante entre 1 et 1 ,5 images par seconde pour les images de type P et B.
Au contraire, lors d'une utilisation du procédé d'encodage et de décodage avec l'étape d'élimination de la redondance de pixellisation, cette bande passante est réduite à moins de 0,1 image par seconde. Une stricte comparaison des deux résultats de compression, image par image et détail par détail, montre que la seule différence remarquable par l'œil est un léger déplacement d'une très petite partie des contours et détails, pour une ampleur moins qu'un pixel.
Cependant, une fois les images mises dans le flux vidéo, ces déplacements ne sont pas détectables par l'œil, car pour un mouvement de 2 pixels par image et 25 images par seconde, un déplacement de 0,5 pixel ne représente qu'une erreur de 10 millisecondes dans le temps. Ce délai est beaucoup trop court pour que l'œil humain puisse le remarquer.
Il a ensuite été mesuré les différences entre les images d'affichage respectives et leur image source correspondante, respectivement S1 à S3 et A1 à A3 en se référant aux figures 2 et 3, pour de telles séquences de vidéo. Avec la paramétrisation qui réduit la bande passante à moins de 0,1 image par seconde, ces différences d'image, en terme absolu d'écart-type, correspondent à celles d'une compression JPEG de qualité supérieure ou égale à 75%.
En terme du rapport bruit sur signal, les différences d'image correspondent à celles d'une compression JPEG de qualité supérieure ou égale à 80%. Ceci montre que le procédé d'encodage comportant une étape d'élimination selon la présente invention ne détériore pas la qualité d'image.
Pour des séquences de vidéo contenant des mouvements un peu plus compliqués, tels que des rotations et/ou des changements d'échelle plus prononcés ou des légers déplacements de quelques objets les uns par rapport aux autres, l'algorithme x264 donne une compression avec une bande passante entre 2 et 3 images par seconde pour les images de type P et B, alors qu'avec le procédé selon l'invention, cette bande passante est toujours au-dessous de 0,5 image par seconde.
Il convient de noter que les deux logiciels n'utilisent pas le même algorithme de recherche de mouvement. Donc la différence d'efficacité de recherche de mouvement peut aussi avoir un impact sur la différence du taux de compression. Ici les différences visuelles sur les résultats sont toujours de même nature et ampleur que pour les séquences vidéo avec mouvement plus simple.
Un autre exemple de ce type est une séquence vidéo préalablement compressée avec un algorithme de recherche de mouvement moins performant. C'est une photo statique qui est montrée dans la séquence vidéo avec un zoom graduel d'un taux de l'ordre de 10% par seconde. La compression par x264 nécessite une bande passante équivalente à 3,7 images par seconde, alors qu'après l'application de l'étape d'élimination de la redondance de pixellisation selon la présente invention, une bande passante de moins d'une image par seconde est largement suffisante.
Un examen détaillé des images dans la séquence montre que, outre le changement d'échelle uniforme, les images contiennent une proportion non négligeable de petites variations de positionnement des détails et contours, dont l'ampleur est moins d'un pixel. Ces variations ne sont pas visibles dans la séquence vidéo et elles sont supprimées dans sa majorité après l'application du procédé selon l'invention.
Pour les séquences vidéo contenant des mouvements plus compliqués, le résultat de la compression dépend surtout de l'efficacité de l'algorithme de recherche des mouvements. Il est donc difficile d'évaluer directement l'impact de l'élimination de la redondance de pixellisation.
Il convient de remarquer que, à cause des mouvements plus compliqués et plus rapides dans la séquence, le changement apporté par l'étape d'élimination de la redondance de pixellisation est encore moins visible que dans les séquences n'ayant que des mouvements lents.
Il a aussi été examiné les effets du procédé d'encodage et de décodage comportant l'étape d'élimination de la redondance de pixellisation selon la présente invention sur des images pour lesquelles d'importantes différences existent entre les images de la séquence. En général, seule une étroite comparaison entre images statiques permet de détecter un petit nombre d'altérations sous forme de légers déplacements des détails. Cependant il est impossible de détecter à l'œil nu ces altérations une fois que les images sont mises dans la séquence vidéo.
L'invention concerne aussi un système d'encodage et de décodage vidéo. Un exemple non limitatif d'une forme de réalisation d'un tel système d'encodage et de décodage vidéo est donné en regard de la figure 5. A cette figure, un flux vidéo d'images sources et un champ de vecteurs de mouvement relatif à ces images parviennent à des moyens d'encodage . Les moyens d'encodage 1 d'images vidéo comprennent des moyens de calcul pour chaque image source donnée d'une image de prédiction, d'une image de référence et d'une image résiduelle. Le calcul de l'image de prédiction est fait de sorte que l'image de prédiction est, soit identique à l'image source, soit celle obtenue après application du champ de vecteurs de mouvement aux images de référence antérieures ou postérieures.
Pour l'image résiduelle, celle-ci est obtenue par la différence entre l'image source et l'image de prédiction, tandis que l'image de référence est déduite de l'image de prédiction par l'ajout de l'image résiduelle. Conformément à la présente invention, les moyens d'encodage comprennent des moyens de réduction des effets de pixellisation de chaque image source.
Ensuite, les données concernant les images résiduelles et les champs de vecteurs de mouvement sont stockées par des moyens de mémorisation qui sont référencés 2 à la figure 5. Ces données peuvent être transmises à des moyens de transmission 3 qui, par l'intermédiaire d'un réseau de communication 4 quelconque, notamment Internet, envoient les données à des moyens de réception 5.
Le système d'encodage et de décodage vidéo selon la forme de réalisation montrée à la figure 5 comprend des moyens de décodage 6 permettant de décoder les données transmises. Ces moyens de décodage 6 permettent l'obtention de chaque image d'affichage et comprennent des moyens de calcul pour reconstituer la série d'images de référence servant à l'obtention d'images d'affichage à partir des données transmises relatives aux champs de vecteurs et aux images résiduelles, les moyens de décodage comprenant des moyens de traitement effectuant sur chaque image de référence une repixellisation combinant les multiples valeurs chromatiques de chaque pixel.
Enfin, le système de décodage comprend des moyens d'affichage 7 du type écran télévision, écran d'ordinateur ou projecteur pour la visualisation des images d'affichage.
Dans ce mode de réalisation, les moyens d'encodage sont séparés des moyens de décodage mais ce n'est pas forcément toujours le cas.

Claims

REVENDICATIONS
1. Procédé d'encodage et de décodage d'images sources successives (S1 à S3) afin d'obtenir des images d'affichage (A1 à A3), lors duquel encodage, pour chaque image source donnée (S1 à S3), il est calculé une image de prédiction (P1 à P3), une image de référence (F1 à F3) et une image résiduelle (R1 à R3), ladite image de prédiction (P1 à P3) étant celle obtenue après application d'un champ de vecteurs de mouvement (M1 à M3) aux images de référence antérieures ou postérieures (F1 à F3), ladite image résiduelle (R1 à R3) étant la différence entre l'image source (S1 à S3) et l'image de prédiction (P1 à P3), ladite image de référence (F1 à F3) étant déduite de l'image de prédiction (P1 à P3) par l'ajout de ladite image résiduelle (R1 à R3), ladite image de prédiction (P1 à P3) et ladite image de référence (F1 à F3) ayant le même nombre de pixels que l'image source correspondante (S1 à S3), mais chaque pixel de l'image de prédiction (P1 à P3) et de l'image de référence (F1 à F3) pouvant avoir un nombre variable de valeurs chromatiques, chacune d'elles contenant en plus un vecteur de positionnement fractionnaire et lors duquel décodage il est utilisé les champs de vecteurs (M1 à M3) et les images résiduelles (R1 à R3) pour reconstituer la série d'images de référence (F1 à F3) servant à l'obtention d'images d'affichage (A1 à A3), lequel procédé comprend, lors de l'encodage pour le calcul de chaque image résiduelle (R1 à R3), une étape de réduction des différences issues des effets de pixellisation de chaque image source (S1 à S3) et, lors du décodage pour l'obtention de chaque image d'affichage (A1 à A3), une étape de repixellisation par interpolation combinant les multiples valeurs chromatiques de chaque pixel de l'image de référence (F1 , F2, F3), le procédé étant caractérisé en ce que l'étape de réduction des différences issues des effets de pixellisation des images sources (S1 à S3) consiste à déterminer les gradients de luminance pour chaque paire de pixels associés dans l'image de prédiction (P1 à P3) et l'image source (S1 à S3) correspondante, à calculer un facteur N qui est soit 0 soit la norme de la plus petite projection orthogonale positive d'un des gradients sur l'autre pour chaque paire de pixels associés, à prédéterminer une proportion r telle que toute différence entre les valeurs chromatiques est ignorée si elle est inférieure en valeur absolue à rN.
2. Procédé selon la revendication 1 , pour lequel le nombre de valeurs chromatiques dans chaque pixel des images de prédiction (P1 à P3) et de l'image de référence (F1 à F3) est limité par une valeur prédéfinie entre 1 et
3. Procédé selon la revendication 2, pour lequel le nombre de valeurs chromatiques dans chaque pixel des images de prédiction (P1 à P3) et de l'image de référence (F1 à F3) est limité à 2.
4. Procédé selon l'une quelconque des revendications 1 à 3, pour lequel le facteur N est défini par la formule :
Figure imgf000021_0001
et Vi» étant les gradients des fonctions de luminance pour les deux pixels p1 et p2 d'une paire de pixels associés des deux images mis en correspondance par le vecteur de mouvement, (^1 * v 2 le produit scalaire et II V i. i H |a norme de v > et V»,
5. Procédé selon la revendication 4, pour lequel la proportion r a une valeur prédéterminée comprise entre 0,2 et 1 ,5, cette valeur étant fonction de la qualité de la source vidéo, de la précision des vecteurs de mouvement et de la qualité voulue de la compression.
6. Procédé selon la revendication 5, pour lequel la proportion r est égale à
7. Procédé selon l'une quelconque des revendications précédentes, pour lequel ladite image résiduelle (R1 à R3) ainsi obtenue est ajoutée à l'image de prédiction (P1 à P3) pour l'obtention d'une image de référence (F1 à F3) associée à l'image source donnée (S1 à S3).
8. Procédé selon la revendication 7, pour lequel, quand le nombre de valeurs pour un même pixel dans la nouvelle image de prédiction (P1 à P3) dépasse ladite limite, les valeurs des pixels les plus proches dans l'espace sont combinées en prenant la moyenne des valeurs chromatiques et des positionnements fractionnaires.
9. Procédé selon l'une quelconque des revendications précédentes, pour lequel le traitement de repixellisation (X) consiste en une interpolation par le voisin le plus proche.
10. Procédé selon l'une quelconque des revendications précédentes, pour lequel le traitement de repixellisation (X) consiste en une interpolation bilinéaire.
11. Procédé selon les revendications 9 et 10, pour lequel l'interpolation bilinéaire est utilisée quand la vitesse du mouvement temporel du pixel dépasse un certain seuil prédéfini tandis que l'interpolation par le voisin le plus proche est utilisée pour une vitesse du mouvement temporel inférieure audit seuil.
12. Procédé selon l'une quelconque des revendications 9, 10 ou 1 , pour lequel, pour une image résiduelle (R1 à R3) est appliquée à une image de prédiction (P1 à P3) pour corriger les diverses erreurs de prédiction, quand un pixel de l'image résiduelle (R1 à R3) est à ajouter sur la valeur du pixel de l'image de prédiction (P1 à P3), ledit pixel de l'image résiduelle (R1 à R3) s'ajoute sur les valeurs de l'image de prédiction (P1 à P3) associées à ce pixel et quand un pixel de l'image résiduelle (R1 à R3) remplace le pixel de l'image de prédiction (P1 à P3), il remplace les valeurs de l'image de prédiction (P1 à P3) de ce pixel avec le positionnement fractionnaire remis à la position exacte du pixel de l'image résiduelle (R1 à R3).
13. Système d'encodage et de décodage vidéo pour la mise en oeuvre d'un procédé selon l'une quelconque des revendications précédentes, lequel comprend :
- des moyens d'encodage (1) d'images vidéo comprenant des moyens de calcul pour chaque image source (S1 à S3) donnée, le cas échéant à partir d'un champ de vecteurs de mouvement (M1 à M3), d'une image de prédiction (P1 à P3), d'une image de référence (F1 à F3) et d'une image résiduelle (R1 à R3) ainsi que des moyens de réduction des effets de pixellisation de chaque image source (S1 à S3),
- des moyens de mémorisation (2) au moins temporaire et de transmission (3 à 5) de données relatives aux images résiduelles (R1 à R3) et aux champs de vecteurs de mouvement (M1 à M3), et
- des moyens de décodage (6) pour l'obtention de chaque image d'affichage (A1 à A3), comprenant des moyens de calcul pour reconstituer la série d'images de référence (F1 à F3) servant à l'obtention d'images d'affichage (A , A3) à partir des données transmisés relatives aux champs de vecteurs (M1 à M3) et aux images résiduelles (R1 à R3), les moyens de décodage comprenant des moyens de traitement effectuant sur chaque image de référence (F1 , F2, F3) une repixellisation combinant les multiples valeurs chromatiques de chaque pixel.
PCT/FR2013/000201 2012-07-20 2013-07-22 Procédé et système d'encodage et de décodage vidéo comportant une étape d'élimination de la redondance de pixellisation lors de l'encodage et une étape de repixellisation lors du décodage WO2014013149A2 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR12/02078 2012-07-20
FR1202078A FR2993740B1 (fr) 2012-07-20 2012-07-20 Procede et systeme d'encodage et de decodage video comportant une etape d'elimination de la redondance de pixellisation lors de l'encodage et une etape de repixellisation lors du decodage

Publications (2)

Publication Number Publication Date
WO2014013149A2 true WO2014013149A2 (fr) 2014-01-23
WO2014013149A3 WO2014013149A3 (fr) 2014-03-13

Family

ID=47553121

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2013/000201 WO2014013149A2 (fr) 2012-07-20 2013-07-22 Procédé et système d'encodage et de décodage vidéo comportant une étape d'élimination de la redondance de pixellisation lors de l'encodage et une étape de repixellisation lors du décodage

Country Status (2)

Country Link
FR (1) FR2993740B1 (fr)
WO (1) WO2014013149A2 (fr)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080247658A1 (en) * 2007-04-06 2008-10-09 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding image using modification of residual block

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080247658A1 (en) * 2007-04-06 2008-10-09 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding image using modification of residual block

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MING-CHIEH LEE ET AL: "A Layered Video Object Coding System Using Sprite and Affine Motion Model", IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, IEEE SERVICE CENTER, PISCATAWAY, NJ, US, vol. 7, no. 1, 1 février 1997 (1997-02-01) , XP011014354, ISSN: 1051-8215 *
URVOY M ET AL: "Motion tubes for the representation of image sequences", MULTIMEDIA AND EXPO, 2009. ICME 2009. IEEE INTERNATIONAL CONFERENCE ON, IEEE, PISCATAWAY, NJ, USA, 28 juin 2009 (2009-06-28), pages 105-108, XP031510703, ISBN: 978-1-4244-4290-4 *

Also Published As

Publication number Publication date
WO2014013149A3 (fr) 2014-03-13
FR2993740B1 (fr) 2015-10-02
FR2993740A1 (fr) 2014-01-24

Similar Documents

Publication Publication Date Title
WO2021233006A1 (fr) Appareil et procédé de formation de modèle de traitement d&#39;image, appareil et procédé de traitement d&#39;image, et dispositif
US20110142370A1 (en) Generating a composite image from video frames
FR2907575A1 (fr) Procede et dispositif de codage d&#39;images representant des vues d&#39;une meme scene
FR2742900A1 (fr) Procede d&#39;interpolation de trames progressives
FR2901951A1 (fr) Detecteur de cadence par regions
EP2304962B1 (fr) Procédé et dispositif de codage vidéo utilisant un nombre réduits de vecteurs de mouvement pour les blocs connectés
JP2012231377A (ja) 撮像装置及び画像生成方法
EP0780794B1 (fr) Procédé de correction d&#39;estimation de mouvement dans des images à structures périodiques
CN111738951B (zh) 图像处理方法及装置
EP3139608A1 (fr) Procédé de compression d&#39;un flux de données vidéo
Reibman et al. Quality assessment for super-resolution image enhancement
EP1963970A2 (fr) Procede pour fournir des donnees a un moyen de traitement numerique
JP6284047B2 (ja) 撮像装置および撮像方法
EP3594895A1 (fr) Debruiteur spatio-temporel de contenus video base sur des indices de confiance
WO2014013149A2 (fr) Procédé et système d&#39;encodage et de décodage vidéo comportant une étape d&#39;élimination de la redondance de pixellisation lors de l&#39;encodage et une étape de repixellisation lors du décodage
KR102049839B1 (ko) 영상 처리 장치 및 방법
FR2927758A1 (fr) Procede et dispositif de codage-decodage d&#39;images video successives selon un flux video principal en pleine resolution et selon un flux video secondaire en qualite reduite
EP0780795A1 (fr) Procédé d&#39;estimation de mouvement
FR2934453A1 (fr) Procede et dispositif de masquage d&#39;erreurs
Korhonen Improving image fidelity by luma-assisted chroma subsampling
EP1679899A1 (fr) Procédé et dispositif de réduction des artefacts d&#39;une image numérique
FR2957744A1 (fr) Procede de traitement d&#39;une sequence video et dispositif associe
Walia et al. Comparative analysis of different noises and bayer pattern on image demosaicing
FR2848373A1 (fr) Procede de mesure d&#39;artefacts de bloc
Kim Subsampled Channel Difference for Color Image Enhancement

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13756546

Country of ref document: EP

Kind code of ref document: A2

122 Ep: pct application non-entry in european phase

Ref document number: 13756546

Country of ref document: EP

Kind code of ref document: A2