WO1996023279A1 - Procede d'estimation de mouvement de regions dans des sequences d'images numeriques - Google Patents

Procede d'estimation de mouvement de regions dans des sequences d'images numeriques Download PDF

Info

Publication number
WO1996023279A1
WO1996023279A1 PCT/FR1996/000118 FR9600118W WO9623279A1 WO 1996023279 A1 WO1996023279 A1 WO 1996023279A1 FR 9600118 W FR9600118 W FR 9600118W WO 9623279 A1 WO9623279 A1 WO 9623279A1
Authority
WO
WIPO (PCT)
Prior art keywords
model
scale
images
region
regions
Prior art date
Application number
PCT/FR1996/000118
Other languages
English (en)
Inventor
Henri Sanson
Original Assignee
France Telecom
Telediffusion De France
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom, Telediffusion De France filed Critical France Telecom
Publication of WO1996023279A1 publication Critical patent/WO1996023279A1/fr

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/537Motion estimation other than block-based
    • H04N19/543Motion estimation other than block-based using regions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/207Analysis of motion for motion estimation over a hierarchy of resolutions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/53Multi-resolution motion estimation; Hierarchical motion estimation

Definitions

  • the invention relates to a method for estimating the movement of regions in sequences of digital images.
  • the invention relates to a method describing the movement of a determined region of a digital image with respect to another image, taken at another time, by determining the coefficients of a bivariate polynomial, that is to say - say function of two variables. It is, in this case, the estimate of a movement proper. More generally, the method according to the invention makes it possible to carry out an estimate of disparity. This is the case, for example, with stereoscopy.
  • the region for which the movement can be estimated can have any shape and have been determined by any suitable means: manual segmentation in interactive application, automatic segmentation, etc.
  • the method according to the invention finds application in numerous fields involving an image analysis for which good precision is required, and among which:
  • slow motion in video.
  • the method according to the invention is concerned with the identification of polynomial models of motion, of a priori any degree, on image regions of also any shape.
  • mapping methods are inherently very expensive in terms of computational volume, in particular for complex representations.
  • the simplifications can only operate at the expense of the precision and robustness of the estimate.
  • the method of the invention aims to overcome the drawbacks and, in particular, to make it possible to estimate complex movements, without severe limitations on their dynamics. nor the precision with which the parameters can be obtained. It makes the complexity of the algorithms implemented, in terms of number of operations, of these latter parameters little dependent.
  • the identification of a movement model is carried out by minimizing a reconstruction error criterion for a determined region of the image. This minimization is carried out thanks to the combination of a local optimization technique of a model and of a multiresolution analysis of the images making it possible to reach the global optimum with a fairly high probability in practical cases.
  • the subject of the invention is therefore a method of estimating movement of at least one region consisting of points and of any shape between two digital images, characterized in that it comprises the establishment of a model of parametric polynomial representation said movement corresponding to a determined base of polynomials;
  • FIG. 2 illustrates the definition of a rectangle circumscribing a determined region of an image
  • FIG. 3 is a block diagram illustrating an exemplary embodiment of a device for estimating the movement of regions in sequences of digital images for the implementation of the method according to the invention
  • FIG. 4 schematically illustrates the operation of a stage of construction of a dyadic bandpass multiresolution pyramid usable in the context of the method of the invention
  • FIG. 6 illustrates the definition and expansion of a wire point of a region defined by a mask
  • FIG. 7 is a diagram illustrating the binary morphological expansion of a region
  • FIG. 8 is a schematic illustration of the operation of the construction module of a multi-scale pyramid of binary masks of a region
  • FIG. 12 illustrates the operation of the adaptation module of the polynomial model to a current scale
  • the movement will first be modeled.
  • FIG. 1 schematically illustrates two digital images, arbitrarily numbered I 1 and I 2 .
  • I 1 and I 2 we consider a determined region R of the image plane P I. For each pixel located at the position designating the matrix transposition) of the region R
  • the displacement is defined as the vector with which to move to obtain the homologous pixel in the image I 1 .
  • the displacements are therefore defined from image I 2 to image I 1 .
  • the set of vectors on R constitutes a vector field
  • ⁇ x and ⁇ y are two constants for normalizing these coordinates.
  • the parameter vector for the component x that is (A x )
  • the parameter vector for the component y that is (A y )
  • the global parameter vector that is A.
  • Such a representation makes it possible to account for movements of different complexities, ranging from simple translation movement, commonly used in image analysis, to much more complex movements involving rotations and / or deformations.
  • Such a representation makes it possible to manipulate dense fields of displacement vectors with great precision, in particular much less than the pixel or half pixel, commonly used.
  • N x s and N y s respectively, the number of points per line of any image I i considered at scale s, as shown in the figure
  • the luminance information associated with a region does not vary or, at the very least, very little during the movement.
  • the real model is therefore supposed to minimize the following criterion:
  • the problem of identifying the real movement of the regionR is solved by minimizing the error criterion, expressed by equation (9). This problem is however very difficult, because there is no known analytical solution, nor even proof of convergence towards the global optimum for existing algorithms.
  • the method according to the invention comprises two main phases for solving this problem:
  • a local optimization phase which allows a fine and precise determination of the optimum, in the vicinity of a rough prediction of this optimum
  • - A global optimization phase which carries out a succession of prediction-correction couples, thus allowing a safer convergence towards the global minimum.
  • FIG. 3 illustrates an example of a D EMI device, region motion estimator in sequences of digital images according to the method of the invention, in the form of a block diagram.
  • the D EMI device admits as input, into a module 4 for calculating an image pyramid, signals representing the parameters relating to two successive images I 1 and I 2 . This outputs signals representing two pyramids of source images I l s and I 2 s .
  • the D EMI device also receives, as input, the definition of the regionR, for example in the form of a binary mask transmitted to a module 2 for calculating the pyramid of masks, as well as information on the maximum amplitude of the movement, supplied to a module 1 for determining the number of levels of the pyramids n s . This information is transmitted to modules 2 and 4.
  • the D EMI device can finally receive, on an input of a scale conversion module 8, any initialization information, in the form of an initial model .
  • the device At the output, the device generates a set of calculated parameters defined by a vector ⁇ .
  • the D EMI device also includes a module 3 for adapting the polynomial to the current scale s, which receives the output signals from module 2, a module 5 for prediction choice, in cascade with module 3 , a module 6 for correcting parameters, in cascade with module 5 and a module 7 for convergence control, in cascade with the previous module.
  • the modules 5 and 6 receive on additional inputs the signals representing the source image pyramids calculated by the module 4.
  • the convergence control module 7 is looped back to the module 6.
  • the output of the module 7 is transmitted to a comparator 9, which determines whether s is greater than zero, generates the above-mentioned vector as an output if the comparison is positive or, if not, transmits a vector â s on the scale conversion module 8.
  • the output signals of this module 8 are transmitted on two additional inputs of the module 3 for adapting the polynomial to the current scale.
  • the operation of the various modules making up the D EMI device will be explained in more detail below.
  • the method according to the invention is based on an iterative correction of the parameter vector, integrated into a pyramid multi-scale process according to a "coarse towards fine strategy", making it possible to obtain from the initial moments a coarse approximation of the movement, even for very large amplitudes, then refine the definition of the images of the movement pyramids.
  • the D E MI motion estimation device performs the following functions:
  • the iterative correction of the vector of parameters which can also be called local optimization of the model, according to an arbitrary initialization provided at the start of the iterative process;
  • Multi-resolution, or multi-scale analysis consists of generating from a given image a set of images having different levels of detail or resolution, that is to say more or less "high frequencies"".
  • the lower resolution images are obtained by low-pass filtering, then by successive subsampling of the original image.
  • these filterings are of the half-band type and the sub-sampling is by a factor of two for each direction (horizontal and vertical) of the image, which corresponds to the construction of dyadic pyramids, solution which will be adopted advantageously in the context of the invention
  • This type of processing facilitates the estimation of large amplitude movements, while reducing the amount of computation required.
  • This stage comprises, in cascade, a first filter F H , for horizontal filtering, a first decimator D H , for horizontal decimation, a second filter F V , for vertical filtering, a second decimator D V and for vertical decimation .
  • FIG. 5 symbolically represents a pyramid of images, for I s .
  • a symmetrical averaging filter is generally a good compromise.
  • h x (m) and h y (m) being the impulse responses of the filters in x and y, respectively.
  • Values of M between 2 and 4 are generally satisfactory.
  • M 2 is chosen in the context of the invention.
  • FIG. 6 is a diagram illustrating this process
  • a logical "0" represents an external point
  • a logical "1” represents an internal point
  • a "X" a "0” or a "1”
  • the left part of the figure illustrates the expansion of a vertical wire point
  • the binary sequence (horizontal in the figure) "010” becomes “1 1 1”.
  • the binary sequence (vertical in the figure) "010” becomes “1 1 1 '.
  • the sequences" XXX are indifferent.
  • a succession of morphological dilations of the regionR s is advantageously carried out by a square structuring element of size 3 ⁇ 3 until this regionR s has a minimum required size, ie ⁇ .
  • a binary morphological expansion of a regionR by a structuring element B is the region or designates the central structuring element at the point .
  • Figure 7 illustrates this process. In this figure, the two regions are represented with respect to orthonormal XY axes, as well as the structuring element B and the centering point .
  • FIG. 8 schematically illustrates the operation of the module 2 of binary construction of a multi-scale pyramid of binary masks of a region, including the morphological expansion of the region as well as the expansion of wireframe portions
  • the module comprises two main stages one stage 20 performing the morphological expansion and a stage 21 performing the expansion of the wire portions.
  • the first stage, 20, essentially comprises a comparator 200 receiving as input the signals carrying the mask vectors and a loop of
  • Stage 21 essentially comprises a circuit for expanding the wired portions operating according to the process described above with reference to FIG. 6, followed by a circuit 21 1 for horizontal and vertical decimation. Module 2 outputs the signals allowing the construction of the mask pyramid.
  • the application of the size criterion is also carried out on the original mask on the scale 0. This way of proceeding is very important for a robust estimation of movements of high amplitude on small regions.
  • the construction of the pyramid of masks must be carried out for each region individually, if there are several.
  • n! factorial of the integer, greater than or equal to zero.
  • the second norm can be easily calculated at the same time as the matrices R ff , and the first can be considered approximately equal to unity.
  • the adoption of these gains makes it possible to guarantee that the contribution of each of the polynomial coefficients to the displacement at each point of the region evolves by less than one pixel on average at each iteration, which limits the risks of divergence of the process.
  • FIG. 9 schematically illustrates, in the form of block diagrams, the module 6 for correcting the vector of parameters, according to the process which has just been explained.
  • a stage 63 generates the value This value is distributed to
  • stages 60, 62 and a stage 64 for calculating the elements of matrices A first output of stage 61 generates, from the first image pyramid signal and from the calculated value, the luminance signal necessary for the calculation of
  • Stage 64 performs the calculation of elements of matrices in accordance with relations (18). It has three outputs. The first output is connected to a stage 66 performing the calculation of the values ⁇ x and ⁇ y in accordance with the relations (20) and transmits to it the data necessary for this calculation. The second output is connected to a resolution stage of the linear system of matrix equations, as it appears from relations (17), and transmits to it the data necessary for this resolution. Finally, the third output, carrying the aforementioned value E, is transmitted directly to a bus forming the general output of the module 6. The values calculated by the stage 65 of resolution of the system of linear equations are also transmitted on this bus, exit from this floor. The bus is connected to the input of the convergence control module 7, the operation of which will be described below.
  • the displacements generated by the various models A k are real and are advantageously calculated in floating point or in fixed point with significant precision. It is therefore necessary to determine the values of the luminance and of its partial derivatives I l , x and I l , y (gradient) at points of
  • the two-dimensional interpolator filter is obtained by the tensor product of the filter h with itself. We therefore deduce the practical formula for interpolating the luminance (22) at a point (x, y) T with real coordinates in the image plane P l
  • Parameters b and c define a family of possible filters
  • the behavior of the algorithm depends on the local characteristics of the criterion to be minimized, and which appear during iterations. It is therefore necessary to check the convergence of the iterative process, for two reasons in particular:
  • the detection of a divergence or of a limit cycle is decided upon detection of the increase in criterion E (see relation (9)). If E (R, A ⁇ )> E (R, A ⁇ -l ), for a given iteration of rank K ⁇ l, we stop the iteration at the current scale reached, and A ⁇ -l is used as a model optimal.
  • E (R, A ⁇ )> E (R, A ⁇ -l ) for a given iteration of rank K ⁇ l, we stop the iteration at the current scale reached, and A ⁇ -l is used as a model optimal.
  • the calculation of matrices and already involves the evaluation of DFD functions for all points in the region la. To obtain the value of criterion E, it suffices to add the squares of these different values.
  • since 1 pixel represents the order of magnitude of the maximum variation of the field of displacements due to the contribution of each parameter.
  • can be chosen according to the precision retained for the interpolation calculations.
  • FIG. 10 schematically illustrates the convergence control module 7, in the form of a block diagram, the operation of which conforms to what has just been described.
  • Comparator 70 receives at the input of a first stage 70 comparator the successive correction signals of the vectors of parameters calculated for the iteration ⁇ , conforming to the relation (17), and of the criterion E, for this same iteration. Comparator 70 compares ⁇ with respect to zero. For a negative comparison, the data of model A are stored in a memory or a register 73. For a positive comparison, the data of criterion E is transmitted to a second comparator 71 which performs a comparison on this criterion for the iteration ⁇ by relation to the iteration ( ⁇ -l).
  • a signal is emitted which authorizes the writing of the model A of rank ( ⁇ - l) in a register 72 and stops the process of iterations output signal "STOP".
  • the data relating to the aforementioned model are read in memory 73. They had been stored there in the previous iteration. If the condition is not fulfilled, the data relating to the criterion E are stored in memory 73
  • the corrections of the ⁇ ectors of parameters calculated for the iteration K are added in a register 74, to the value of the model A for this same iteration, the new value obtained forming the model for the iteration ( ⁇ + 1).
  • An additional comparison stage 75 carries out the comparisons in accordance with relation (24). If the criteria imposed by this relation are satisfied, the value of the model at the iteration ( ⁇ + 1) is written in a register 76 which emits a stop signal "STOP" Otherwise the current value of the iteration , ie ⁇ , is compared to a maximum value ⁇ max , in a comparator stage 77. If the comparison is positive, the process is also stopped. The current value of the model is read in register 74 and written in the register 76, and the "STOP" signal is emitted. Otherwise, the process continues. The corresponding value is transmitted in feedback to the module 6 for correcting the parameters, more precisely at the input of stage 60. A counter 78 increments by one the value of nave and the data representative of model A for the iteration of rank ( ⁇ + l) are transmitted to module 6.
  • Figure 1 1 schematically illustrates the prediction choice module 5, in the form of a block diagram. It comprises two stages, 50 and 51, of error calculation in accordance with relation (9), relating to the two aforementioned models. As an output, the error vectors or respectively,
  • the output signals i.e. those
  • the number of levels to be used depends on the maximum amplitude of the movement that one wishes to successfully identify, which therefore essentially depends on the constraints of the precise application.
  • the finite dimensions of the image and, above all, to the finite size also of the region concerned, this size being reduced at the same time as the scale, at least in certain proportions, since the generation of the masks of the region 9. at the different scales already imposes a lower bound on the size of the region at these scales.
  • the motion parameter correction formulas involve averages on the pixels of the region, which to be significant, assume a minimum number of points to take into account.
  • FIG. 12 schematically illustrates the operation of the module 3 for adapting the polynomial model to the current scale. It can be subdivided into two sub-modules, a sub-module 30 for adapting the degree of the polynomial and a sub-module 31 for changing normalization parameters.
  • the first sub-module 30 includes a register 300 storing the value n max .
  • a comparator 301 performs the double comparison imposed by the relation (26) If, for a value less than or equal to n max , the comparison is negative the value of n is decremented by one by a subtractor or a down counter 312. In the otherwise, the value of n is transmitted to a stage 301 of proper adaptation of the degree of the polynomial. This receives on a second input the successive data corresponding to the parameter ⁇ ' ij (x' 0 , y ' 0 , ⁇ x' ⁇ y '). It performs the calculations necessary for the following relationships to be satisfied:
  • the sub-module 31 receives the output signals from stage 301 and changes the normalization parameters to go from ⁇ ' ij (x' 0 , y ' 0 , ⁇ x', ⁇ y ') to ⁇ ij (x 0 , y 0 , ⁇ x, ⁇ y), in accordance with the conditions set out in the aforementioned relationships.
  • FIG. 13 schematically illustrates the scale conversion module 8. This performs the calculations required by relation (30). These are essentially multiplications.
  • the circuits allowing these calculations are well known. Either specific circuits based on an arithmetic and logic unit, memory registers and shift registers, or programmed logic (microprocessor or similar) can be used.
  • the choice of the first two parameters essentially depends on the context of the specific application.
  • the number of levels n s to be used depends on the maximum amplitude authorized for the movement. In practical terms, the following assessment gives
  • the method of estimating the movement of regions in sequences of digital images according to the invention which has just been described, within the framework of a particular embodiment, has several degrees of freedom and, therefore, s adapts very flexibly to various applications.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

L'invention concerne un procédé d'estimation de mouvement de régions (R) de formes quelconques d'une image numérique (I1) par rapport à une autre image numérique (I2). Un modèle (Â) de mouvement est calculé à l'aide d'un algorithme réalisant le calcul de coefficients d'un polynôme bi-varié décrivant le mouvement de la région (R). L'identification du modèle est réalisé par minimisation d'un critère d'erreur de reconstruction de la région (R), à l'aide d'une technique de programmation locale non-linéaire et d'une analyse multirésolution des images permettant d'atteindre un optimum global.

Description

Procédé d'estimation de mouvement de régions dans des séquences d'images numériques
L'invention concerne un procédé d'estimation de mouvement de régions dans des séquences d'images numériques.
Plus particulièrement, l'invention concerne un procédé décrivant le mouvement d'une région déterminée d'une image numérique par rapport à une autre image, prise à un autre instant, par détermination des coefficients d'un polynôme bivarié, c'est-à-dire fonction de deux variables. Il s'agit, dans ce cas, de l'estimation d'un mouvement proprement dit. De façon plus générale, le procédé selon l'invention permet d'effectuer une estimation de disparité. C'est la cas, par exemple, de la stéréoscopie.
La région pour laquelle le mouvement peut être estimé peut être dotée d'une forme quelconque et avoir été déterminée par tout moyen approprié : segmentation manuelle en application interactive, segmentation automatique, etc.
Le procédé selon l'invention trouve application dans de nombreux domaines impliquant une analyse d'image pour laquelle il est exigé une bonne précision , et parmi lesquels :
- la vision par ordinateur et la robotique mobile ;
- l'imagerie médicale ;
- le codage vidéo, c'est-à-dire la compression numérique ;
- et la conversion de fréquence temporelle, le désentrelacement, le ralenti dit "slow motion" en vidéo.
De nombreux procédés d'analyse de mouvement et de disparité dans les images numériques sont connus. On peut les répartir en deux catégories principales : l'estimation de champs denses de déplacements, par pixel, et l'estimation de descriptions globales sur des régions ou zones déterminées de l'image. Le procédé de l'invention appartient à cette seconde catégorie.
Dans l'Art Connu, les représentations les plus courantes pour décrire le mouvement des régions sont les suivantes :
- la translation ;
- la composition de translation, homothétie et rotation ;
- le modèle affine ;
- le modèle quadratique ;
- et le polynôme à deux variables généralisé.
Tous ces modèles sont emboîtés, du plus simple au plus complexe. La région est quant à elle, soit un rectangle (c'est le cas le plus fréquent), soit une région de forme quelconque, décrite par exemple par un masque. Un masque obéit à la relation suivante :
L(x,y) = 1⇔(x,y)∈ℜ ; x et y étant les coordonnées d'un point quelconque d'une image I.
Le procédé selon l'invention est concerné l'identification de modèles polynomiaux de mouvement, de degré a priori quelconque, sur des régions d'image de forme également quelconque.
Les procédés de l'Art Connu existant pour identifier de tels représentations se répartissent en trois groupes principaux :
- les procédés par transformées ;
- les procédés de mise en correspondance ;
- et les procédés différentiels.
A titre d'exemples, des procédés selon ce dernier type ont fait l'objet des publications suivantes :
- l'article de N. Diehl : " Object Oriented motion estimation and segmentation in image sequences", paru dans "Signal Processing : Image Communication", vol. 3, N° 1, pages 23-56, 1991 ;
- la thèse de H. Nicolas : "Hiérarchie de modèles de mouvement et méthodes d'estimation associées. Application au codage de séquences d'images", PhD thesis, Université de Rennes I, Campus de Beaulieu, 35000 Rennes, septembre
1992;
- et l'article de J.M. Odobez et P. Bouthemy : "Robust multiresolution estimation of parametric motions models in complex image séquences", paru dans "Signal Processing VII Théories and Applications", vol 1 , pages 41 1 -414, Edinburgh, Ecosse, U. K ., septembre 1994, Elsevier.
Les procédés par transformées sont, en l'état actuel des techniques connues, limités au cas de la composition de translation, homothétie et rotation. En outre, ils présentent l'inconvénient de nécessiter la connaissance préalable de la localisation de la région, dont le mouvement est estimé, dans les deux images.
Les procédés de mise en correspondance sont intrinsèquement très coûteux en volume de calculs, en particulier pour des représentations complexes . En effet, les simplifications ne peuvent s'opérer qu'au détriment de la précision et de la robustesse de l'estimation.
Par contre, les procédés différentiels semblent les plus intéressants, a priori. Cependant, il est nécessaire de les rendre aptes à estimer les mouvements de forte amplitude. Un procédé différentiel est par ailleurs connu par l'article de H.
Sanson : "Joint estimation and segmentation of motion for video coding at low bit rates", paru dans "Proceedings of COST 21 1 ter European Workshop on New
Techniques for Coding Video Signals at Very Low Bitrates", Hanovre, Allemagne, 1-2 décembre 1993.
Il présente les avantages propres à ce type de procédé. Cependant pour certaines applications, il peut être nécessaire de l'optimiser et de rendre l'estimation des paramètres de mouvement plus robuste. C'est particulièrement le cas lorsqu'il n'est pas possible de mettre en oeuvre un système de prédictions multiples, d'origine spatiale ou temporelle.
Tout en conservant les avantages des procédés de l'Art Connu, en particulier des procédés différentiels, le procédé de l'invention vise à en pallier les inconvénients et, notamment, à permettre d'estimer les mouvements complexes, sans sévères limitations sur leur dynamique maximale, ni sur la précision avec laquelle les paramètres peuvent être obtenus. Il permet de rendre peu dépendante la complexité des algorithmes mis en oeuvre, en terme de nombre d'opérations, de ces derniers paramètres.
Pour ce faire, l'identification d'un modèle de mouvement est réalisée par la minimisation d'un critère d'erreur de reconstruction d'une région déterminée de l'image. Cette minimisation est effectuée grâce à la combinaison d'une technique d'optimisation locale d'un modèle et d'une analyse multirésolution des images permettant d'atteindre l'optimum global avec une assez forte probabilité dans les cas pratiques.
L'invention a donc pour objet un procédé d'estimation de mouvement d'au moins une région constituée de points et de forme quelconque entre deux images numériques, caractérisé en ce qu'il comprend l'établissement d'un modèle de représentation paramétrique polynomiale dudit mouvement correspondant à une base de polynômes déterminée ;
en ce qu'il comprend, au moins, une estimation des paramètres de ladite représentation par une optimisation non-linéaire imbriquée dans un processus de génération d'images multirésolution pyramidal, définissant une pluralité d'échelles successives et comprenant au moins les étapes suivantes :
- la correction itérative dudit modèle par un algorithme de type Newton modifié et Gradient combinés, à chacune desdites échelles ; - la détermination desdits modèles à chaque échelle et leur propagation sélective d'une échelle à la suivante, le résultat obtenu à une échelle servant à initialiser ledit algorithme à l'échelle suivante ;
en ce qu'il comprend la construction d'une pyramide de masques binaires associée à chacune desdites régions à toutes les échelles prises en compte pour l'estimation dudit mouvement de manière à imposer une taille minimale déterminée sur ces régions ;
et en ce qu'il comprend une adaptation de la complexité dudit modèle en fonction de la taille de ladite région à l'échelle courante.
L'invention sera mieux comprise et d'autres caractéristiques et avantages apparaîtront à la lecture de la description qui suit en référence aux figures annexées, et parmi lesquelles :
- La figure 1 illustre le mouvement d'une région déterminée entre deux images ;
- La figure 2 illustre la définition d'un rectangle circonscrivant une région déterminée d'une image ;
- La figure 3 est un schéma-bloc illustrant un exemple de réalisation d'un dispositif estimateur de mouvement de régions dans des séquences d'images numériques pour la mise en oeuvre du procédé selon l'invention ;
- La figure 4 illustre schématiquement le fonctionnement d'un étage de construction d'une pyramide multirésolution passe-bande dyadique utilisable dans le cadre du procédé de l'invention ;
- La figure 5 illustre la représentation symbolique d'une pyramide d'images ;
- La figure 6 illustre la définition et la dilatation d'un point filaire d'une région définie par un masque ;
- La figure 7 est un diagramme illustrant la dilatation morphologique binaire d'une région ;
- La figure 8 est un illustre schématiquement le fonctionnement du module de construction d'une pyramide multi-échelle de masques binaires d'une région ;
- La figure 9 illustre schématiquement le fonctionnement du module de correction de paramètres ;
- La figure 10 illustre schématiquement le fonctionnement du module de contrôle de la convergence ; - La figure 1 1 illustre schématiquement le fonctionnement du module de choix de prédiction ;
- La figure 12 illustre le fonctionnement du module d'adaptation du modèle polynomial à une échelle courante ;
- La figure 13 illustre schématiquement le fonctionnement du module de conversion d'échelle .
Le mouvement va tout d'abord être modélisé.
La figure 1 illustre schématiquement deux images numériques, numérotées arbitrairement I 1 et I2. A l'intérieur de ces images I1 et I2, on considère une région déterminée ℜ du plan image PI . Pour chaque pixel situé à la position désignant la transposition matricielle) de la région ℜ
Figure imgf000007_0002
considérée dans l'image I2, le déplacement
Figure imgf000007_0001
est défini comme étant le vecteur avec lequel il faut déplacer
Figure imgf000007_0003
pour obtenir le pixel homologue dans l'image I1. Dans l'exemple décrit, les déplacements sont donc définis de l'image I2 vers l'image I1.
L'ensemble des vecteurs surℜ constitue un champ de vecteurs,
Figure imgf000007_0004
dont il est supposé qu'il satisfait le modèle suivant :
Figure imgf000007_0005
dans le cas non-séparable, c'est-à-dire pour un degré total inférieur à une valeur donnée n, c'est-à-dire au degré du modèle ; et :
Figure imgf000007_0006
dans le cas séparable, c'est-à-dire pour un degré par variable inférieure à la cette même valeur n.
On définit les paramètres suivants comme suit :
Figure imgf000007_0007
relation dans laquelle
Figure imgf000007_0009
est le vecteur de déplacement au point définissent
Figure imgf000007_0008
l'origine des coordonnées pour le modèle courant par rapport aux coordonnées image, et Δx et Δy sont deux constantes de normalisation de ces coordonnées . On note :
Figure imgf000007_0010
respectivement le vecteur de paramètre pour la composante x, soit (Ax), le vecteur de paramètre pour la composante y, soit (Ay), et le vecteur de paramètres global, soit A.
Les deux cas, séparable et non séparable, peuvent être regroupés sous la formulation générique suivante :
Figure imgf000008_0001
avec fij(x,y) =xi. yi dans le cas séparable et fij(x, y) =xi-j. yj dans le cas non séparable.
Une telle représentation permet de rendre compte de mouvements de différentes complexités, allant du simple mouvement de translation, couramment utilisé en analyse d'image, à des mouvements beaucoup plus complexes impliquant des rotations et/ou déformations.
Le nombre de paramètres par composante x ou y obéit à la relation dans le cas non-séparable, et à la relation dans le cas séparable "s" est une échelle qui
Figure imgf000008_0002
sera définie en relation avec la figure 2.
Une telle représentation permet de manipuler des champs denses de vecteurs déplacement avec une grande précision, en particulier bien inférieure au pixel ou au demi pixel, couramment utilisée.
Si on définit Nx s et Ny s, respectivement, le nombre de points par ligne d'une image quelconque Ii considérée à l'échelle s, comme représente sur la figure
2. et le nombre de ligne de cette image, et et les coordonnées
Figure imgf000008_0003
Figure imgf000008_0004
caractérisant le rectangle circonscrivant la régionℜs considérée de l'image Ii, on effectue les choix suivants pour l'origine et les facteurs de normalisation (voir relation (5)) :
Figure imgf000008_0005
de sorte que l'on ait toujours :
Figure imgf000008_0006
si x et y sont les coordonnées définies avec les unîtes pixel . Ce choix est très important pour obtenir un bon comportement de l'algorithme d'estimation des paramètres.
En réalité, on peut choisir d'autres représentations pour les fonctions polynomiales, par exemple en utilisant la base de Berstein. En appelant
Figure imgf000009_0001
le rectangle circonscrivant la régionℜ, le choix des paramètres de normalisation X0, y0, Δx et Δy implique que :
Figure imgf000009_0002
relation dans laquelle désigne la restriction de la fonction fij à Rect.
Figure imgf000009_0004
Cette condition implique que la contribution des différentes fonctions de base fij est équilibrée. Cette propriété est généralisable et on peut choisir toute normalisation de coordonnées telle que :
Figure imgf000009_0003
c'est-à-dire que la base soit normée, pour au moins une norme.
Un modèle polynomial de mouvement peut donc être caractérisé par les paramètres suivants :
- la base de fonctions fij sur laquelle il est développé ;
- ses paramètres et aX ; qui sont les coefficients du
Figure imgf000009_0005
développement sur la base ;
et ses facteurs de normalisation xs 0, ys 0, Δxs et Δys pour une échelle donnée s.
Dans la réalité, l'information de luminance associée à une région ne varie pas ou, pour le moins, très peu au cours du mouvement. Le modèle réel est donc censé minimiser le critère suivant :
Figure imgf000009_0006
relation dans laquelle
Figure imgf000009_0007
désigne la différence inter-images déplacées par les vecteurs engendrés par le modèle A, soit de manière plus précise :
Figure imgf000009_0008
Le problème de l'identification du mouvement réel de la régionℜ est résolu au moyen de la minimisation du critère d'erreur, exprimé par la relation (9). Ce problème est cependant très difficile, car il n'existe pas de solution analytique connue, ni même de preuve de convergence vers l'optimum global pour les algorithmes existants. Le procédé selon l'invention comprend deux grandes phases pour résoudre ce problème :
- Une phase d'optimisation locale, qui permet une détermination fine et précise de l'optimum, dans le voisinage d'une prédiction grossière de cet optimum ; - Une phase d'optimisation globale, qui réalise une succession de couples prédiction-correction, permettant ainsi une convergence plus sûre vers le minimum globale.
La figure 3 illustre un exemple de dispositif DEMI, estimateur de mouvement de régions dans des séquences d'images numériques selon le procédé de l'invention, sous la forme d'un schéma bloc.
Le dispositif DEMI admet en entrée, dans un module 4 de calcul de pyramide image, des signaux représentant les paramètres afférents à deux images successives I1 et I2. Celui-ci fournit en sortie des signaux représentant deux pyramides d'images sources Il s et I2 s . Le dispositif DEMI reçoit, également en entrée, la définition de la régionℜ, par exemple sous la forme d'un masque binaire transmis à un module 2 de calcul de pyramide des masques, ainsi que des informations sur l'amplitude maximale du mouvement, fournies à un module 1 de détermination du nombre de niveaux des pyramides ns. Cette information est transmise aux modules 2 et 4. La définition de la régionℜ est obtenue à l'aide d'une image d'étiquette L(x,y) (avec L(x,y) = r, numéro de région s'il en existe plusieurs), ou de façon équivalente à l'aide d'un masque. Le dispositif DEMI peut enfin recevoir, sur une entrée d'un module 8 de conversion d'échelle, une éventuelle information d'initialisation, sous la forme d'un modèle initial
Figure imgf000010_0001
.
En sortie, le dispositif génère un jeu de paramètres calculés définit par un vecteur Â.
Outre les modules précités, le dispositif DEMI comprend également un module 3 d'adaptation du polynôme à l'échelle courante s, qui reçoit les signaux de sortie du module 2, un module 5 de choix de prédiction, en cascade avec le module 3, un module 6 de correction des paramètres, en cascade avec le module 5 et un module 7 de contrôle de convergence, en cascade avec le module précédent. Les modules 5 et 6 reçoivent sur des entrées supplémentaires les signaux représentant les pyramides images sources calculées par le module 4. En outre, le module 7 de contrôle de convergence est rebouclé sur le module 6. La sortie du module 7 est transmise à un comparateur 9 qui détermine si s est supérieur à zéro, génère en sortie le vecteur  précité si la comparaison est positive ou dans le cas contraire transmet un vecteur Âs sur le module 8 de conversion d'échelle. Les signaux de sortie de ce module 8 sont transmis sur deux entrées supplémentaires du module 3 d'adaptation du polynôme à l'échelle courante.
Le fonctionnement des différents modules composant le dispositif DEMI seront explicités, de façon plus détaillée, ci-après. Le procédé selon l'invention est basé sur une correction itérative du vecteur de paramètres, intégrée dans un processus multi-échelle pyramidal selon une "stratégie grossier vers fin", permettant d'obtenir dès les instant initiaux une approximation grossière du mouvement, même pour des amplitudes très importantes, puis d'affiner la définition des images des pyramides de mouvement.
Le dispositif DE MI d'estimation de mouvement réalise les fonctions suivantes :
1. La construction de la pyramide multi-échelle du masque caractérisant là régionℜ;
2. L'initialisation du modèle puis sa conversion à l'échelle la plus grossière ;
3. La correction itérative du vecteur de paramètres, que l'on peut qualifier également d'optimisation locale du modèle, en fonction d'une initialisation arbitraire fournie au début du processus itératif ;
4. La "stratégie" d'optimisation globale multi-échelle.
Bien que l'on ait représenté les modules correspondants, 1 et 4, comme faisant partie intégrante du dispositif DEMI, on peut estimer que le calcul des pyramides multi-échelle des images sources est un processus en amont de l'estimation de mouvement proprement dite.
L'analyse multi-résolution, ou multi-échelle, consiste à générer à partir d'une image donnée un ensemble d'images ayant différents niveaux de détail ou de résolution, c'est-à-dire plus ou moins de "hautes fréquences". Concrètement, on obtient les images de plus faible résolution par filtrage passe-bas, puis par sous-échantillonnages successifs de l'image originale. Le plus souvent, ces filtrages sont du type demi-bande et le sous-échantillonnage est d'un facteur deux pour chaque direction (horizontale et verticale) de l'image, ce qui correspond à la construction de pyramides dyadiques, solution qui sera adoptée avantageusement dans le cadre de l'invention Ce type de traitement facilite l'estimation de mouvements de grande amplitude, tout en réduisant la quantité de calculs nécessaires. Son couplage avec des procédés différentiels s'avère particulièrement efficace, car le lissage des images dû à un filtrage passe-bas augmente le domaine dans lequel l'approximation linéaire de la fonction luminance est valide. Il est utile de noter que le choix des filtres utilisés pour construire la pyramide multirésolution peut avoir un impact important sur la convergence de l'estimation. La réduction de complexité de l'algorithme, essentiellement en termes de temps de calcul et de place de mémoire de stockage, résulte quant à elle du sous-échantillonnage qui réduit la volume de données à traiter. De façon pratique, la génération de pyramides d'images source, peut s'effectuer avantageusement de la manière illustrée par la figure 4, pour des filtres séparables selon les deux variables x et y. Cette figure illustre schématiquement, sous la forme d'un bloc diagramme, un étage de construction d'une pyramide multirésolution passe-bas dyadique.
Cet étage comprend, en cascade, un premier filtre FH, pour le filtrage horizontal, un premier décimateur DH, pour la décimation horizontale, un second filtre FV, pour le filtrage vertical, un second décimateur DV et pour la décimation verticale.
Partant d'une image originale Is(x,y), on construit une succession d'images Is+ 1 (x,y), de résolution inférieure par filtrage et décimation, d'abord horizontales puis verticales, selon le processus représenté sur la figure 4.
Les différentes valeurs intermédiaires et la valeur de sortie Is- l(x,y) obéissent aux relations suivantes :
Figure imgf000012_0001
Naturellement, la division des dimensions de l'image ne peut être qu'entière. En outre, du fait de la décimation qui suit immédiatement le filtrage, seuls les échantillons pour x pair ont besoin d'être calculés en ce qui concerne
Ix f (x,y). De même, seuls les échantillons pour y pair ont besoin d'être calculés en ce qui concerne
Figure imgf000012_0002
La figure 5 représente symboliquement une pyramide d'images, pour Is,
Is- 1 et Is - 2.
Le choix du filtre présente un caractère critique pour estimer des mouvements de forte amplitude, tout en restant fiable pour les petits mouvements. Pour ce faire, il est souhaitable de réaliser un étalement des contours conséquent, tout en limitant le repliement du spectre. Un filtre moyenneur symétrique constitue généralement un bon compromis.
Un tel filtre est définit par l'ensemble de relations suivantes :
Figure imgf000012_0003
hx(m) = hy(m) = 0 sinon
hx(m) et hy(m) étant les réponses impulsionnelles des filtres en x et y, respectivement. Les valeurs de M comprises entre 2 et 4 donnent généralement satisfaction. On choisit avantageusement M = 2, dans le cadre de l'invention.
On doit bien réaliser que la construction des pyramides multi-échelle d'images source n'est réalisée qu'une seule fois pour l'estimation du mouvement, ce quelque soit le nombre de régions, s'il y en en a plusieurs.
En ce qui concerne l'image des étiquettes de région, on passe d'une représentation par étiquettes, dans laquelle peuvent être prises en compte plusieurs régions (L(x,y) = r ⇔ (x,y)∈ ℜ), à une représentation par masque binaire
(L(x,y) = 1⇔ (x,y)∈ℜ, L(x,y) = 0⇔ (x,y)∉ℜ). Pour limiter l'encombrement en mémoire, la taille du masque (qui est physiquement stocké dans des mémoires, non représentées, sous forme d'image) est limitée au strict minimum, soit en l'occurrence au rectangle circonscrivant la région 91. Pour générer la pyramide correspondant à ce masque, on ne réalise que des décimations Les calculs sont réalisés par le module 2.
Soit Ls (x,y) une telle image à l'échelle s, la relation entre deux échelles est alors donnée par :
Figure imgf000013_0001
Cependant, à mesure que l'échelle s augmente, la taille de la régionℜs diminue et tend vers zéro pour une représentation discrète de cette région Dans la réalité, deux problèmes apparaissent :
- Si pour une échelle donné, il existe une portion filaire au sein de la région, les points de celle-ci dont au moins une coordonnée est impaire disparaissent, conduisant à déconnecter, voire à supprimer la région Il est nécessaire alors de procéder à une dilatation locale conditionnelle de la région, horizontalement ou verticalement, selon la nature du point, avant dilatation La figure 6 est un diagramme illustrant ce processus Par convention un "0" logique représente un point extérieur, un " 1 " logique un point intérieur et un "X" un "0" ou un " 1 " On a représenté des carrés de 3×3 pixels La partie gauche de la figure illustre la dilatation d'un point filaire vertical La séquence binaire (horizontale sur la figure) "010" devient " 1 1 1 ". De même, on a représenté, sur la partie droite de la figure, la dilatation d'un point filaire horizontal. La séquence binaire (verticale sur la figure) "010" devient " 1 1 1 ' . Les séquences "XXX" sont indifférentes .
- A partir d'un certain niveau, il peut ne plus subsister suffisamment de points dans la région ℜs pour réaliser une estimation fiable des paramètres de mouvement Pour remédier à ce problème, on réalise avantageusement une succession de dilatations morphologiques de la régionℜs par un élément structurant carré de taille 3×3 jusqu'à ce que cette régionℜs ait une taille minimale requise, soit κ.
Une dilatation morphologique binaire d'une régionℜ par un élément structurant B est la région
Figure imgf000014_0001
Figure imgf000014_0002
désigne l'élément structurant centre au point
Figure imgf000014_0005
. La figure 7 illustre ce processus. Sur cette figure, on a représenté les deux régions par rapport à des axes XY orthonormés, ainsi que l'élément structurant B et le point de centrage
Figure imgf000014_0003
.
La figure 8 illustre schématiquement le fonctionnement du module 2 de construction binaire d'une pyramide multi-échelle de masques binaires d'une région, incluant la dilatation morphologique de région ainsi que la dilatation de portions filaires Le module comprend deux étages principaux un étage 20 effectuant la dilatation morphologique et un étage 21 effectuant la dilatation des portions filaires. Le premier étage, 20, comprend essentiellement un comparateur 200 recevant en entrée les signaux véhiculant les vecteurs de masque et une boucle de
Figure imgf000014_0004
rétroaction 201 effectuant la dilatation morphologique précitée a l'aide de l'élément structurant carré de taille 3×3 (voir figure 7) et réinjectant les signaux en entrée, tant que la condition |ℜs| > κ n'est pas remplie. L'étage 21 comprend essentiellement un circuit de dilatation des portions filaires fonctionnant selon le processus décrit ci-dessus en regard de la figure 6, suivit d'un circuit 21 1 de décimation horizontal et vertical. Le module 2 délivre en sortie les signaux permettant la construction de la pyramide de masque.
Figure imgf000014_0006
L'application du critère de taille est aussi réalisée sur le masque original a l'échelle 0. Cette façon de procéder est très importante pour une estimation robuste de mouvements de forte amplitude sur des petites régions.
La construction de la pyramide des masques doit être réalisée pour chaque région individuellement, s'il y en a plusieurs.
Pour une estimation autonome sur la régionℜ, le processus est initialisé par un modèle identiquement nul :
Figure imgf000014_0007
et la normalisation s'effectue selon les relations (6).
Le changement d'origine est caractérise par la relation ( 14) :
Figure imgf000014_0008
dans le cas séparable, x'0 et y'0 étant les nouvelles coordonnées, et par la relation ( 15) :
Figure imgf000015_0001
dans le cas non-séparable, avec n ! = factorielle de l'entier, plus grand ou égal à zéro.
Le changement de normalisation, quant à lui obéit à la relation suivante (Δx' et Δy' exprimant les coordonnées de nouvelle normalisation):
Figure imgf000015_0002
La technique d'optimisation utilisée exploite les caractéristiques avantageuse de la méthode de Gauss-Newton, permettant une convergence rapide près de l'optimum, et de la méthode du gradient avec pas adaptatif, permettant une convergence globale vers un optimum local. Les corrections des vecteurs de paramètres
Figure imgf000015_0004
à l'itération κ ressortent des relations suivantes :
Figure imgf000015_0003
dans laquelle Id est la matrice identité de dimension d = Dp(n). Les éléments des matrices ressortent des relations suivantes :
Figure imgf000015_0005
Figure imgf000015_0006
avec
Figure imgf000015_0007
Les gains αx et αy sont données par les relations suivantes :
Figure imgf000015_0008
dans lesquelles indique une norme fonctionnelle. Les deux normes les plus
Figure imgf000016_0002
avantageuses sont avec |ℜ| le
Figure imgf000016_0001
cardinal de la région discrèteℜ. En effet, la seconde norme peut être aisément calculée en même temps que les matrices Rff, et la première peut être considérée approximativement égale à l'unité. L'adoption de ces gains permet de garantir que la contribution de chacun des coefficients polynomiaux au déplacement en chaque point de la région évolue de moins de un pixel en moyenne à chaque itération, ce qui limite les risques de divergence du processus Ainsi, loin de l'optimum, si les courbures directionnelles (données par les valeurs propres de et , qui
Figure imgf000016_0008
Figure imgf000016_0009
constituent des approximations du Hessien du critère E respectivement en Ax et A y) sont faibles, la correction se fait dans la direction du gradient de E, avec une amplitude correspondant, en moyenne, à un déplacement de 1 pixel par coefficient, ce qui limite fortement le risques de s'échapper du domaine d'attraction de l'optimum. A mesure que la courbure augmente, le gradient diminue, ce qui accélère la convergence, et la rend plus précise. De ce fait, la convergence est plus robuste que pour l'algorithme enseigné par l'article de H. Sanson précité. Le surcoût en calculs est par contre négligeable.
Les différentes matrices à inverser sont
Figure imgf000016_0003
symétriques, positives (et, en général, définies positives) et pleines Leur inversion peut s'effectuer en ayant recours à une méthode classique de l'analyse numérique, par exemple à partir de la factorisation de Cholesky.
La figure 9 illustre schématiquement, sous la forme de blocs diagrammes, le module 6 de correction du vecteur de paramètres, selon le processus qui vient d'être explicité.
Il reçoit en entrée les signaux de pyramide image Il s et I2 s , le premier sur l'entrée d'un étage 61 d'interpolation de luminance et de gradient, le second sur un étage 62 de calcul de la fonction DFD. Il reçoit également le signal Aκ s de sortie du module 5 de choix de prédiction, sur l'entrée d'un étage 60 de calcul de la valeur
Figure imgf000016_0004
Un étage 63 génère la valeur Cette valeur est distribuée aux
étages 60, 62 et à un étage 64 de calcul des éléments de matrices. Une première sortie de l'étage 61 génère, à partir du premier signal de pyramide image et de la valeur calculée le signal de luminance nécessaire au calcul de
Figure imgf000016_0005
Figure imgf000016_0007
DFD conformément aux relations (19), et les dérivées partielles (gradient) Il, x et Il, y, toujours conformément aux relations ( 19). L'étage 64 effectue le calcul des éléments de matrices conformément aux relations (18). Il comporte trois sorties. La première sortie est connectée à un étage 66 effectuant le calcul des valeurs αx et αy conformément aux relations (20) et lui transmet les données nécessaires à ce calcul. La seconde sortie est connectée à un étage de résolution du système linéaire d'équations matricielles, tel qu'il ressort des relations (17), et lui transmet les données nécessaires à cette résolution. Enfin, la troisième sortie, véhiculant la valeur E précitée, est transmise directement à un bus formant la sortie générale du module 6. Les valeurs calculées par l'étage 65 de résolution du système d'équations linéaires sont également transmise sur ce bus, en sortie de cet étage. Le bus est connecté à l'entrée du module 7 de contrôle de la convergence, dont le fonctionnement sera décrit ci-après.
Les déplacements engendrés par les différents modèles Ak sont réels et sont avantageusement calculés en virgule flottante ou en virgule fixe avec une précision importante. Il est donc nécessaire de déterminer les valeurs de la luminance et de ses dérivées partielles Il,x et Il, y (gradient) en des points de
Figure imgf000017_0003
coordonnées non-entières, ce qui nécessite donc une interpolation, interpolation effectuée par l'étage 61. Celle-ci est réalisé d'un filtre bi-cubique (donc séparable) dont chaque composante mono-dimensionnelle obéit à la relation suivante (21 ) :
Figure imgf000017_0001
Le filtre interpolateur bi-dimensionnel est obtenu par produit tensoriel du filtre h avec lui-même. On en déduit donc la formule pratique d'interpolation de la luminance (22) en un point (x,y)T de coordonnées réelles dans le plan image Pl
Figure imgf000017_0002
relation dans laquelle e(x) désigne la partie entière par défaut de x, et fr(x) = x - e (x) la partie fractionnaire de x.
On peut en déduit aisément les dérivées partielles de I(x,y) comme suit :
Figure imgf000018_0001
relation (23) dans laquelle désigne la dérivée usuelle de h(x).
Figure imgf000018_0002
Les paramètres b et c définissent une famille de filtres possibles
L'expérience a montré que le choix (b,c) = (0, 1) s'avère particulièrement intéressant du point de vue de l'erreur de prédiction par compensation du mouvement, sur un ensemble de séquences testées On retiendra avantageusement ce choix dans le cadre du procède selon l'invention.
Pour la mise en oeuvre pratique, par exemple dans un circuit intégré, et pour gagner du temps de calcul, il est préférable de fixer une précision donnée, en terme de fraction de pixel, puis de pré-calculer le banc ou la batterie de filtres numériques polyphasés pour différents multiples de la fraction de pixel retenue On évite ainsi le calcul des termes en xi, et on se ramène à un calcul classique de convolution, avec filtre court, puisqu'il ne requiert qu'un voisinage de 4 points par direction x et y. Si Nfr est la précision adoptée pour les interpolations, il est nécessaire d'utiliser une batterie de filtre hn(m) définie par hn(m) = h (m + (n/Nfr)), pour 0≤ n≤ Nfr - 1 .
Le comportement de l'algorithme dépend des caractéristiques locales du critère à minimiser, et qui apparaissent au cours des itérations. Un contrôle de la convergence du processus itératif s'avère donc nécessaire, ce pour notamment pour deux raisons :
- éviter les divergences ;
- détecter l'arrivée sur l'optimum ou sur un cycle limite autour de celuici, afin de gagner en temps de calcul, pour des applications où cela s'avère utile, c'est le cas des applications interactives, par exemple.
La détection d'une divergence ou d'un cycle limite est décidée sur détection de l'augmentation du critère E (voir relation (9)). Si E(ℜ, Aκ ) > E(ℜ, Aκ-l), pour une itération donnée de rang K≥ l , on arrête l'itération a l'échelle courante atteinte, et Aκ-l est retenu comme modèle optimal. Le calcul des matrices et
Figure imgf000018_0003
implique déjà l'évaluation des fonctions DFD pour tous les points de la régionℜ. Pour obtenir la valeur du critère E, il suffit de sommer les carrés de ces différentes valeurs. L'arrivée sur l'optimum, ou en un point suffisamment proche de celuici, peut se détecter par une faible variation sur les paramètres entre deux itérations successives Pour se prêter à une interprétation immédiate en termes de déplacement de pixels, on choisit avantageusement d'évaluer la contribution de chaque coefficient du polynôme à la variation du champ des déplacements des pixels. On utilise donc le critère suivant :
Figure imgf000019_0001
pour lequel ε « 1, puisque 1 pixel représente l'ordre de grandeur de la variation maximale du champ des déplacements due à la contribution de chaque paramètre. ε peut être choisi en fonction de la précision retenue pour les calculs d'interpolation .
La figure 10 illustre schématiquement le module 7 de contrôle de convergence, sous la forme de schéma bloc, dont le fonctionnement est conforme à ce qui vient d'être décrit.
Il reçoit en entrée d'un premier étage 70 comparateur les signaux successifs de corrections des vecteurs de paramètres calculées pour l'itération κ, conformes à la relation (17), et du critère E, pour cette même itération. Le comparateur 70 effectue la comparaison de κ par rapport a zéro. Pour une comparaison négative, les données de modèle A sont stockées dans une mémoire ou un registre 73. Pour une comparaison positive, les données de critère E sont transmises à un second comparateur 71 qui effectue une comparaison sur ce critère pour l'itération κ par rapport à l'itération (κ-l). Si le critère E est supérieur pour l'itération κ, un signal est émis qui autorise l'écriture du modèle A du rang (κ- l ) dans un registre 72 et stoppe le processus d'itérations signal de sortie "STOP". Les données afférentes au modèle précité sont lues en mémoire 73. Elles y avaient été stockées à l'itération précédente. Si la condition n'est pas remplie, les données afférentes au critère E sont stockées en mémoire 73 Les corrections des \ ecteurs de paramètres calculées pour l'itération K, sont ajoutées dans un registre 74, à la valeur du modèle A pour cette même itération, la nouvelle valeur obtenue formant le modèle pour l'itération (κ+1). Un étage 75 supplémentaire de comparaison effectue les comparaisons conformes à la relation (24). Si les critères imposés par cette relation sont satisfaits, la valeur du modèle à l'itération (κ+ 1 ) est écrite dans un registre 76 qui émet un signal d'arrêt "STOP" Dans le cas contraire la valeur courante de l'itération, soit κ, est comparée a une valeur maximale κmax, dans un étage comparateur 77. Si la comparaison est positive, le processus est arrêté également. La valeur courante du modèle est lue dans le registre 74 et écrite dans le registre 76, et le signal "STOP" est émis. Dans le cas contraire, le processus se poursuit. La valeur correspondante est transmise en rétroaction au module 6 de correction des paramètres, plus précisément en entrée de l'étage 60. Un compteur 78 incrémente d'une unité la valeur de κ et les données représentatifs du modèle A pour l'itération de rang (κ+l ) sont transmises au module 6.
La stratégie d'optimisation globale va maintenant être explicitée. Elle comprend quatre volets distincts :
- l'initialisation du processus global ;
- le choix entre la prédiction issue de l'échelle précédente et la prédiction initiale pour l'initialisation de la correction à une échelle donnée ;
- l'adaptation du degré de polynôme en fonction du nombre de points disponibles pour les calculs et la normalisation pour l'échelle courante ;
- la propagation du modèle d'une échelle à la suivante.
Pour différentes raisons, il peut arriver que l'estimation réalisée à l'échelle précédente, plus grossière, ne soit pas cohérente avec le modèle réel, pour l'échelle courante, par exemple, lorsque l'information photométrique de la région est essentiellement concentrée sur des hautes fréquences, éliminées par les filtrages passe-bas successifs lors du processus de construction de la pyramide d'images. On garde alors la possibilité dans ce cas de réinitialiser l'estimation des paramètres à partir de l'échelle courante. Pour ce faire, on compare les erreurs obtenues avec les deux modèles,
Figure imgf000020_0001
issu de l'échelle précédente, et prédiction initiale,
Figure imgf000020_0002
après les avoir mis à l'échelle, conformément aux conditions de la relation (28) qui seront explicitées ci-après. Les erreurs sont données par la relation (9). On choisit naturellement la prédiction impliquant une erreur minimale.
La figure 1 1 illustre schématiquement le module 5 de choix de prédiction, sous forme d'un schéma bloc. Il comprend deux étages, 50 et 51 , de calcul d'erreur conformément à la relation (9), portant sur les deux modèles précités. En sortie, les vecteurs d'erreur ou respectivement,
Figure imgf000020_0003
Figure imgf000020_0004
sont comparés dans un étage comparateur 52, l'un à l'autre. Si le premier est supérieur au second, le premier modèle,
Figure imgf000020_0005
est choisi. Dans le cas contraire, c'est le second modèle, qui est choisi Les signaux de sortie, c'est-à-dire ceux
Figure imgf000020_0006
correspondants au modèle sélectionné, sont transmis au module de correction de paramètres.
A priori, le nombre de niveaux à utiliser dépend de l'amplitude maximale du mouvement que l'on souhaite réussir à identifier, ce qui dépend donc essentiellement des contraintes de l'application précise. Cependant, il existe une limitation liée d'une part aux dimensions finies de l'image, et, surtout, à la taille finie elle aussi de la région concernée, cette taille étant réduite en même temps que l'échelle, pour le moins dans certaines proportions, puisque la génération des masques de la région 9. aux différentes échelles impose déjà une borne inférieure sur la taille de la région à ces échelles. Cependant, les formules de correction des paramètres de mouvement font intervenir des moyennes sur les pixels de la région, qui pour être significatives, supposent un nombre minimum de points à prendre en compte. Ce nombre de points dépend naturellement du modèle à identifier, puisqu'on cherche généralement à résoudre des systèmes surdimensionnés, et non l'inverse. On peut penser imposer un critère de taille minimale en fonction du degré du modèle à calculer. Cependant, cette façon de procéder risque d'imposer une taille minimale trop élevée, ce qui engendrerait des erreurs de segmentation trop importantes. En outre, un mouvement de forte amplitude consiste le plus souvent en un mouvement dont la partie translation (qui concerne aussi le déplacement du centre de gravité) est importante. Il convient donc de privilégier l'estimation des paramètres de plus bas degré dans ce cas. Il est donc nécessaire de satisfaire un critère du type :
Figure imgf000021_0002
relation dans laquelle |ℜs| désigne le cardinal de la région ℜ, considérée à l'échelle s. Afin de pouvoir tirer profit d'une estimation à base résolution, même si la taille de la région ℜ ne satisfait pas cette relation pour un degré donné du polynôme, il est possible de se contenter de ne réaliser l'estimation que sur les termes de plus bas degré, tel que le polynôme correspondant vérifie cette relation .
Une façon de procéder avantageuse peut consister à satisfaire la relation suivante :
Figure imgf000021_0001
Cette manière de procéder peut encore être affinée en mélangeant les polynômes non séparables et les polynômes séparables, les premiers constituant un sous-ensemble des seconds.
Pour être cohérent avec la construction de la pyramide des masques de région, il parait logique de choisir κ' = κ, puisque Dp(0) = 1 Ainsi, pour les petites régions, seule la translation est estimée aux premiers niveaux de résolution, ce qui rend l'identification nettement plus robuste . Comme un polynôme de degré n est aussi un polynôme de degré n + p pour lequel les coefficients correspondants aux termes de degrés supérieurs a n sont nuls, l'extension du degré du polynôme d'une échelle à l'autre s'effectue simplement en complétant les termes manquants par 0, avant l'estimation de ces termes.
Du fait des sous-échantillonages et des éventuelles dilatations, le rapport entre deux masques pour deux échelles consécutiv es n'est pas nécessairement homothétique. Il est donc nécessaire d'opérer un éventuel changement de paramètres de normalisation des coordonnées, en les calculant directement conformément a la relation (6), a partir du rectangle circonscrivant la régionℜ a l'échelle courante (voir figure 2). Celui-ci est détermine directement a partir du masque de la région pour cette échelle. Le changement de paramètre est effectué conformément a ce qui est énoncé dans les relations (14), (15) et/ou (16).
La figure 12 illustre schématiquement le fonctionnement du module 3 d'adaptation du modèle polynomiale a l'échelle courante. Il peut se subdiviser en deux sous-modules un sous-module 30 d'adaptation du degré du polynôme et un sous-module 31 de changement de paramètres de normalisation.
Le premier sous-module 30 comprend un registre 300 stockant la valeur nmax. Un comparateur 301 effectue la double comparaison imposée par la relation (26) Si, pour une valeur inférieure ou égale à nmax, la comparaison est négative la valeur de n est décrémentée d'une unité par un soustracteur ou un decompteur 312. Dans le cas contraire, la valeur de n est transmise a un étage 301 d'adaptation proprement dit du degré du polynôme. Celui-ci reçoit sur une seconde entrée les données successives correspondant au paramètre α'ij(x'0, y '0, Δx ' Δy'). Il effectue les calculs nécessaires pour que les relations suivantes soient satisfaites :
Figure imgf000022_0001
Le sous-module 31 reçoit les signaux de sortie de l'étage 301 et effectue le changement de paramètres de normalisation pour passer de α'ij(x'0, y'0, Δx', Δy') à αij(x0, y0, Δx, Δy ), conformément aux conditions énoncées dans les relations précitées.
Lors du passage d'un niveau de resolution a un niveau de résolution plus fine, les coefficients du polynôme aux deux échelles doivent satisfaire la contrainte suivante
Figure imgf000022_0002
En ce qui concerne les paramètres X0, y0, Δx Δy, pour la solution définie par la relation (6), ceux-ci subissent dans un premier temps les mêmes transformations que les unîtes pixels des axes de coordonnées XY, en supposant que la régionℜ n'a pas subi de dilatation lors du sous-échantillonnage, selon ce qui a été indiqué précédemment, et la transformation à opérer sur les coefficients dans ce cas est particulièrement simple. Elle obéit aux relations suivantes :
Figure imgf000023_0001
pour une conversion entre deux échelles quelconques s et s', la formule de conversion est donnée par ce qui suit :
Figure imgf000023_0002
La figure 13 illustre schématiquement le module 8 de conversion d'échelle. Celui-ci réalise les calculs nécessités par la relation (30). Il s'agit essentiellement de multiplications. Les circuits permettant ces calculs sont bien connus. On peut utiliser, soit des circuits spécifiques à base d'une unité arithmétique et logique, de registres mémoires et de registres à décalages, soit une logique programmée (microprocesseur ou similaire).
En résumé, les différents paramètres à déterminer ou à fixer au préalable, dans le cadre du procédé selon l'invention, sont le suivants :
1/ le type de polynômes, soit séparables, soit non-séparables ;
2/ le degré de ces polynômes ;
3/ le nombre de niveaux (d'échelles) des pyramides d'images ; 4/ le support du filtre moyenneur utilisé pour la construction des pyramides d'images ;
5/ le rapport minimal κ entre le nombre de points de la régionℜ à l'échelle s et le nombre de coefficients polynomiaux, qui constitue aussi la taille minimale de la régionℜ à toutes les échelles ;
6/ le nombre maximum d'itérations par niveau ;
7l la variation maximale sur les paramètres polynomiaux entre deux itérations consécutives, conduisant à stopper les itérations ;
8/ et la précision pour les calculs d'interpolation sub-pixel.
Le choix des deux premiers paramètres dépend essentiellement du contexte de l'application précise. Le nombre de niveaux ns à utiliser est fonction de l'amplitude maximale autorisée pour le mouvement . De façon pratique, l'évaluation suivante donne
Figure imgf000024_0002
le rapport entre deux grandeurs :
.
Figure imgf000024_0003
Le filtre moyenneur de support [-2, 2] ( M = 2) donne expérimentalement les meilleurs résultats, comme il a été indiqué, ce sur toutes les séquences testées.
Pour évaluer le minimum de points κ de la région, il est possible de prendre comme référence celui contenu dans un bloc de 4×4, qui expérimentalement s'avère être le plus petit bloc pour lequel l'estimation d'un déplacement (translation) est réellement fiable. L'ordre de grandeur de κ est donc
16.
La théorie indique qu'il serait nécessaire que les itérations se poursuivent jusqu'à ce que la convergence de chaque niveau de résolution soit atteinte. Cependant, cette condition n'est pas toujours réalisable, notamment pour des applications en temps réel. Il est donc généralement nécessaire de borner le nombre d'itérations possibles. L'expérience montre qu'un nombre minimal satisfaisant est de 5 itérations par niveau de résolution.
En outre, on peut arrêter les itérations si le critère de la relation (24) est vérifié pour un nombre ε < 0, 1.
Enfin, sauf pour des raisons d'encombrement des moyens de mémorisation du dispositif d'estimation, il n'existe pas de raisons de limiter la précision des calculs d'interpolation. Cependant, dans la pratique, on peut se contenter d'une précision compatible avec la valeur ε, par exemple 1/8 pixel, voire une valeur inférieure. Cette précision doit aussi tenir compte du nombre d'échelles utilisées, puisqu'un facteur d'amplification d'erreur de
Figure imgf000024_0001
est introduit par la stratégie multirésolution adoptée dans le cadre du procédé selon l'invention .
A la lecture de ce qui précède, on constate aisément que l'invention atteint bien les buts qu'elle s'était fixée.
Le procédé d'estimation de mouvement de régions dans des séquences d'images numériques selon l'invention qui vient d'être décrit, dans le cadre d'un mode de réalisation particulier, possède plusieurs degrés de liberté et, de ce fait, s'adapte de façon très souple à diverses applications.
Il présente également d'autres avantages : Il permet notamment d'estimer les mouvements complexes, sans sévères limitation sur leur dynamique maximale, ni sur la précision avec laquelle les paramètres peuvent être obtenus.
Il permet enfin de rendre peu dépendante la complexité des algorithmes mis en oeuvre, en terme de nombre d'opérations, de ces derniers paramètres.
Il doit être clair, cependant, que le dispositif de mise en oeuvre de l'invention n'est pas limité aux seuls exemples de réalisations précisément décrits, notamment, en relation avec les figures 1 à 13. De même, les différents exemples numériques n'ont été donnés que pour fixer les idées et ne sauraient limiter, en quoi que ce soit, la portée de l'invention. Les valeurs précises, à adopter pour un grand nombre de paramètres, sont fortement liées au contexte de l'application envisagée.

Claims

REVENDICATIONS
1. Procédé d'estimation de mouvement d'au moins une région (ℜ) constituée de points et de forme quelconque entre deux images numériques (I1, I2), caractérisé en ce qu'il comprend l'établissement d'un modèle (Â) de représentation paramétrique polynomiale dudit mouvement correspondant à une base de polynômes déterminée ;
en ce qu'il comprend, au moins, une estimation des paramètres de ladite représentation par une optimisation non-linéaire imbriquée dans un processus de génération d'images multirésolution pyramidal, définissant une pluralité d'échelles successives et comprenant au moins les étapes suivantes :
- la correction itérative dudit modèle par un algorithme de type Newton modifié et Gradient combinés, à chacune desdites échelles ;
- la détermination desdits modèles à chaque échelle et leur propagation sélective d'une échelle à la suivante, le résultat obtenu à une échelle servant à initialiser ledit algorithme à l'échelle suivante ;
en ce qu'il comprend la construction d'une pyramide de masques binaires associée à chacune desdites régions à toutes les échelles prises en compte pour l'estimation dudit mouvement de manière à imposer une taille minimale déterminée sur ces régions ;
et en ce qu'il comprend une adaptation de la complexité dudit modèle en fonction de la taille de ladite région (ℜs) à l'échelle courante.
2. Procédé selon la revendication 1, caractérisé en ce qu'il comporte une étape préalable de génération d'un premier modèle initialisant ledit
Figure imgf000026_0003
algorithme.
3. Procédé selon la revendication 2, caractérisé en ce qu'il comprend :
- une étape de détermination des erreurs obtenues avec le modèle à l'échelle précédant l'échelle en cours et avec ledit premier modèle ;
Figure imgf000026_0001
Figure imgf000026_0002
- une étape de comparaison de ces erreurs ;
- une étape de sélection du modèle impliquant l'erreur la plus faible ;
- et une étape de réinitialisation dudit algorithme avec ce modèle sélectionné, de manière a inhiber ladite propagation sélective d'une échelle à l'autre.
4. Procédé selon la revendication 1 , caractérisé en ce que ladite adaptation de complexité du modèle de mouvement s'effectue sur le degré dudit polynôme.
5. Procédé selon la revendication 4, caractérisé en ce que ladite adaptation de complexité du modèle de mouvement est effectuée de manière à favoriser les termes de plus bas degré lorsque la taille de ladite région diminue.
6. Procédé selon la revendication 1 , caractérisé en ce que, lesdites images étant disposées dans un plan image et repérées par des coordonnées orthonormées verticales (Y) et horizontales (X), ledit processus de génération d'images multirésolution pyramidal comprend les étapes successives suivantes :
- filtrage horizontal (FH) desdites images (Is(x,y));
- décimation horizontale (DH) desdites images ;
- filtrage vertical (FV) desdites images ;
- et décimation verticale (DV) desdites images.
7. Procédé selon la revendication 6, caractérisé en ce que ledit filtrage horizontal (FH) et ledit filtrage vertical (FV) est réalisé par un filtre moyenneur symétrique de paramètres [-2, +2] ;
8. Procédé selon la revendication 1 , caractérisé en ce que, lesdites images (I1, I2) étant disposées dans un plan image (PI) et repérées par des coordonnées orhthonormées verticales (Y) et horizontales (X), lesdits masques de la pyramide sont constitués de rectangles, de côtés parallèles aux coordonnées orthonormées circonscrivant lesdites régions (ℜs) et en ce qu'il comprend des étapes de décimations horizontales (221) successives desdits masques pour passer d'une des échelles de ladite pyramide de masques à la suivante.
9. Procédé selon la revendication 8, caractérisé en ce que lorsqu'il existe une portion filaire au sein d'une desdites régions, selon l'une desdites coordonnées, il comprend une étape supplémentaire de dilatation locale conditionnelle de la région (9t), selon ladite coordonnée, avant ladite étape de décimation horizontale.
10. Procédé selon la revendication 8, caractérisé en ce que lorsque le nombre de points constituant ladite région est inférieur à un seuil déterminé, il comprend une étape supplémentaire de dilatation morphologique (ℜ⊗β) de la région (ℜ) à l'aide d'un élément structurant de taille déterminée.
1 1. Procédé selon la revendication 10, caractérisé en ce que ledit seuil déterminé correspond au nombre de points d'un bloc carré de points de dimensions
4x4.
12. Procédé selon la revendication 1 , caractérisé en ce que, un paramètre exprimant la luminance étant associé à chacune desdites images (I1, I2) et celles-ci étant disposées dans un plan image (PI) et repérées par des coordonnées orhthonormées verticales et horizontales, lesdits masques de la pyramide sont constitués de rectangles, ladite étape de correction itérative comprend l'interpolation de la luminance et de son gradient, et en ce que cette étape est réalisée, pour chacune desdites coordonnées, à l'aide de filtre bi-cubique obéissant à la relation suivante :
Figure imgf000028_0003
avec z = x ou y, x et y représentant lesdites coordonnées; b = 0 et c = 1.
13. Procédé selon la revendication 1 , caractérisé en ce que le nombre desdites itérations est limité inférieurement à cinq par échelle.
14. Procédé selon la revendication 1 , caractérisé en ce que, l'amplitude maximale dudit mouvement étant égale à , le nombre ns d'échelles distinctes
Figure imgf000028_0002
obéit à la relation suivante :
Figure imgf000028_0001
15. Procédé selon la revendication 1, caractérisé en ce que lesdites itérations sont stoppées lorsque la contribution de chacun des coefficients desdits polynômes devient inférieur à un critère déterminé (ε), de manière a retenir comme modèle de mouvement optimal ledit modèle de mouvement détermine à l'échelle et à l'itération en cours.
16. Procédé selon la revendication 15, caractérisé en ce que ledit critère (ε) est inférieur à 0, 1.
17. Procédé selon la revendication 1 , caractérise en ce que que lesdites itérations sont stoppées lorsqu'il a détection d'une divergence, pour une itération déterminée, par rapport à l'itération précédente, de manière a retenir comme modèle de mouvement optimal ledit modèle de mouvement détermine a l'échelle et a l'itération en cours.
18. Procède selon la revendication 1 , caractérise en ce que ladite une base de polynômes déterminée est normée pour au moins une norme.
19. Procède selon l'une quelconque des revendications précédentes, caractérisé en ce que, lesdites images (I1, I2) comprenant plusieurs régions en mouvement, ladite estimation est réalisée de façon autonome sur chacune de ces régions.
PCT/FR1996/000118 1995-01-25 1996-01-24 Procede d'estimation de mouvement de regions dans des sequences d'images numeriques WO1996023279A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR95/00826 1995-01-25
FR9500826A FR2729811A1 (fr) 1995-01-25 1995-01-25 Procede d'estimation de mouvement de regions dans des sequences d'images numeriques

Publications (1)

Publication Number Publication Date
WO1996023279A1 true WO1996023279A1 (fr) 1996-08-01

Family

ID=9475472

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR1996/000118 WO1996023279A1 (fr) 1995-01-25 1996-01-24 Procede d'estimation de mouvement de regions dans des sequences d'images numeriques

Country Status (2)

Country Link
FR (1) FR2729811A1 (fr)
WO (1) WO1996023279A1 (fr)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999007156A1 (fr) * 1997-07-28 1999-02-11 Idt International Digital Technologies Deutschland Gmbh Procede et dispositif d'evaluation de deplacement orientee objets et multiresolution
CN112270643A (zh) * 2020-09-04 2021-01-26 深圳市菲森科技有限公司 一种三维成像数据拼接方法、装置、电子设备及存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2340327A (en) * 1998-07-29 2000-02-16 Nokia Mobile Phones Ltd Motion estimation in a video coding system

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
FRANŸOIS MEYER ET AL.: "Region-based tracking using affine models in long image sequences", CVGIP IMAGE UNDERSTANDING, vol. 60, no. 2, MA US, pages 119 - 140, XP000484198 *
PIERRE MOULIN ET AL.: "Application of a multiresolution otical-flow based method for motion estimation to Video Coding", PROCEEDINGS OF THE 1993 INTERNATIONAL SYMPOSIUM ON CIRCUITS AND SYSTEMS, CHICAGO (US) MAI 3-6,1993 ;IEEE ,NEW YORK (US), pages 1 - 4, XP000409920 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999007156A1 (fr) * 1997-07-28 1999-02-11 Idt International Digital Technologies Deutschland Gmbh Procede et dispositif d'evaluation de deplacement orientee objets et multiresolution
US6370196B1 (en) 1997-07-28 2002-04-09 Idt International Digital Technologies Deutschland Gmbh Method and apparatus for multiresolution object-oriented motion estimation
CN112270643A (zh) * 2020-09-04 2021-01-26 深圳市菲森科技有限公司 一种三维成像数据拼接方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
FR2729811A1 (fr) 1996-07-26
FR2729811B1 (fr) 1997-02-28

Similar Documents

Publication Publication Date Title
Zhang et al. Multi-scale single image dehazing using perceptual pyramid deep network
Cadena et al. Multi-modal Auto-Encoders as Joint Estimators for Robotics Scene Understanding.
Zwicker et al. Recent advances in adaptive sampling and reconstruction for Monte Carlo rendering
EP2294808B1 (fr) Procédé et système de traitement vidéo efficient
Valsesia et al. Permutation invariance and uncertainty in multitemporal image super-resolution
EP4055555A1 (fr) Reconstruction de bruit pour débruitage d&#39;image
US11741579B2 (en) Methods and systems for deblurring blurry images
Deshpande et al. SURVEY OF SUPER RESOLUTION TECHNIQUES.
Nguyen et al. Self-supervised super-resolution for multi-exposure push-frame satellites
Li et al. Efficient burst raw denoising with variance stabilization and multi-frequency denoising network
WO2001043446A1 (fr) Procede d&#39;estimation de mouvement entre deux images avec gestion des retournements de mailles et procede de codage correspondant
Du et al. A comprehensive survey: Image deraining and stereo‐matching task‐driven performance analysis
EP0410826B1 (fr) Procédé itératif d&#39;estimation de mouvement, entre une image de référence et une image courante, et dispositif pour la mise en oeuvre de ce procédé
Khan et al. Multi‐scale GAN with residual image learning for removing heterogeneous blur
WO1996023279A1 (fr) Procede d&#39;estimation de mouvement de regions dans des sequences d&#39;images numeriques
Huo et al. Blind image deconvolution using variational deep image prior
EP3701492B1 (fr) Procede de restauration d&#39;images
WO2022207573A1 (fr) Autoencodeur multimodal a fusion de donnees latente amelioree
EP2943935B1 (fr) Estimation de mouvement d&#39;une image
Yun et al. Kernel adaptive memory network for blind video super-resolution
Seke et al. Multi‐frame super‐resolution algorithm using common vector approach
EP4302258A1 (fr) Reconstruction de bruit pour débruitage d&#39;image
Cho Motion blur removal from photographs
Ahmed et al. Digital image inpainting techniques for cultural heritage preservation and restoration
Gaa et al. Gaining Insights into Denoising by Inpainting

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): CA JP US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH DE DK ES FR GB GR IE IT LU MC NL PT SE

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
122 Ep: pct application non-entry in european phase