WO2018185104A1 - Procede d'estimation de pose, dispositif, systeme et programme d'ordinateur associes - Google Patents

Procede d'estimation de pose, dispositif, systeme et programme d'ordinateur associes Download PDF

Info

Publication number
WO2018185104A1
WO2018185104A1 PCT/EP2018/058493 EP2018058493W WO2018185104A1 WO 2018185104 A1 WO2018185104 A1 WO 2018185104A1 EP 2018058493 W EP2018058493 W EP 2018058493W WO 2018185104 A1 WO2018185104 A1 WO 2018185104A1
Authority
WO
WIPO (PCT)
Prior art keywords
camera
image
pose
scene
thumbnails
Prior art date
Application number
PCT/EP2018/058493
Other languages
English (en)
Inventor
Amine KACETE
Thomas WENTZ
Original Assignee
B<>Com
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by B<>Com filed Critical B<>Com
Publication of WO2018185104A1 publication Critical patent/WO2018185104A1/fr

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20072Graph-based image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose

Definitions

  • the field of the invention is that of the estimation of the pose of a camera in the repository of a three-dimensional (3D) scene.
  • the invention may especially, but not exclusively, apply to the insertion of one or more virtual or real objects in the image of the real scene seen by the camera.
  • a first disadvantage of this method is that it requires manipulating point clouds, which makes it complex to implement, in particular because it requires significant resources of calculation and storage.
  • a second disadvantage of this method is that it includes a prior image transformation intended to take into account intrinsic parameters of the camera, such as focal lengths or projection centers. This step requires a prior calibration of the camera.
  • the invention improves the situation.
  • the invention particularly aims to overcome these disadvantages of the prior art.
  • an object of the invention is to provide a more resource-efficient solution for comparable performance.
  • Another object of the invention is to propose a method that does not require prior calibration of the camera.
  • Prediction of laying the plurality of thumbnails by application of an automatic prediction system said system having been trained to produce a predicted pose of the camera by thumbnail, using a training set comprising a group of pixels thumbnails associated with a known pose in the repository of the scene, said thumbnails being derived from a plurality of images of the scene acquired by the camera from a plurality of points of view;
  • the invention therefore proposes to select a relevant subset of the data acquired by the camera, in the form of thumbnails centered on points of interest of the input images, invariant to translations, rotations and changes of scale, and to present these images as such to the automatic prediction system, without the need for preliminary projection of these thumbnails in a repository of the camera.
  • the automatic prediction of the pose of the camera is not done from point clouds obtained by projection of the points of the depth image in the scene's frame of reference three-dimensional, as does the prior art, but from simple thumbnails extracted directly from the input images and positioned on points of interest of these images.
  • the invention therefore does not require prior calibration of the camera, which simplifies the operations prior to the application of the automatic prediction system.
  • the amount of data to be processed by the automatic prediction system is thus greatly reduced.
  • An advantage of the invention is that it is simpler to implement, with less computing and storage resources, for performance equivalent to those of the prior art.
  • the method comprises a prior learning phase comprising the following steps:
  • Obtaining a collection of training data comprising a plurality of pairs of scene intensity and color depth images acquired by the camera, a pair being associated with a known pose of the camera;
  • the test set includes thumbnails associated with the installation of the corresponding camera and the system is trained to learn directly to predict the pose of an entry thumbnail.
  • One advantage is that learning is also done on the basis of a small amount of information.
  • the automatic prediction system comprises a random decision forest comprising a plurality of decision trees, a decision tree comprising separating nodes, able to binaryally separate a cluster of samples from an upstream node into subgroups, to transmit the subgroups to downstream separator nodes, and leaf nodes, capable of storing a distribution of the poses associated with a subgroup received from an upstream separator node.
  • the training step comprises, for a sample, a calculation of a plurality of binary separation tests based on a difference between color intensity or depth information of one of its thumbnails, an evaluation for the group of the separation according to a measure of pu reté of the subgroups based on a distance between the poses of a n subgroup and the centroid of the subgroup and a step of selection of the separation test which maximizes the measure of purity.
  • the learning phase thus generates a plurality of binary separation tests of the samples of the training data collection, typically hundreds or even thousands, and selects the best based on the purity criterion.
  • the training of the random decision forest is made from poses and thumbnails, which form a reduced amount of data compared to the prior art.
  • the complexity and the execution time of the learning phase are reduced.
  • the measurement of purity takes into account an objective function which is expressed in the following form:
  • the selected test is the one that minimizes the objective function Q.
  • the method comprises a step of refining the estimated pose of the camera by resetting a reconstructed point cloud in a reference frame of the camera from the input depth image and the a dense cloud of points of the scene projected in said frame of reference using the estimated pose.
  • the invention also relates to a laying estimation device adapted to implement the method according to any one of the particular embodiments defined above.
  • This device may of course include the various features relating to the laying estimation method according to the invention. Thus, the features and advantages of this device are the same as those of the pose estimation method, and are not detailed further.
  • such a laying estimation device is included in a terminal equipment.
  • the invention also relates to an augmented reality system comprising: an acquisition module, comprising a camera capable of acquiring an image of color intensities and a depth image of a real three-dimensional scene, a composition module; images adapted to compose an output image from an acquired input image of the scene by the camera and at least one real or virtual object, said input image being located in the scene using an estimated pose of the camera, a display module adapted to restore the output image, a device according to the invention, able to estimate said pose in a test phase.
  • an acquisition module comprising a camera capable of acquiring an image of color intensities and a depth image of a real three-dimensional scene
  • a composition module images adapted to compose an output image from an acquired input image of the scene by the camera and at least one real or virtual object, said input image being located in the scene using an estimated pose of the camera
  • a display module adapted to restore the output image
  • a device adapted to restore the output image
  • Such a system makes it possible to insert virtual or real objects to the 3D scene at the right position and with the right perspective thanks to the pose estimation performed by the invention.
  • the system comprises an input image annotation module, able to calculate a pose of an input image, said pose being exploited by the laying estimation device according to the invention, in a phase learning.
  • the system is autonomous and can acquire all the necessary data for learning a new 3D scene.
  • the invention also relates to a computer program comprising instructions for implementing the steps of a pose estimation method as described above, when this program is executed by a processor.
  • This program can use any programming language. It can be downloaded from a communication network and / or recorded on a computer-readable medium.
  • the invention finally relates to recording media, readable by a processor, integrated or not integrated with the laying estimation device according to the invention, possibly removable, respectively storing a computer program implementing a method of pose estimate, as previously described.
  • FIG. 1 schematically describes the steps of a method for estimating the installation of a camera during a learning phase, according to one embodiment of the invention
  • FIG. 2 illustrates an example of a pair of images acquired by an RGB-D camera
  • FIG. 3 illustrates examples of filters used to extract key points from a color intensity image
  • FIG. 4 shows an example of extraction of points of interest from a color intensity image
  • FIG. 5 schematically illustrates a sample of the collection of training data according to the invention, comprising a pair of thumbnails and the installation of the couple of images from which they are derived;
  • Figure 6 schematically illustrates an example of random decision forest implemented by the invention;
  • FIG. 7 schematically shows the steps of the laying estimation method in its test phase according to one embodiment of the invention;
  • FIG. 8A illustrates the trajectory of the camera during the acquisition of the images of the training set;
  • FIG. 8B illustrates the exposures predicted by the automatic system, the estimated pose from the set of predicted exposures and the actual pose of the camera;
  • FIGS. 9A and 9B show curves of evolution of the translation error rate obtained by the method according to the invention as a function of the dimensions of the random decision forest;
  • FIGS. 10A to 10F show the mean quadratic errors relating to the translation and rotation of the camera obtained by the method according to the invention on different image bases;
  • Figure 11 compares schematically the learning phase of the laying estimation method according to the invention to that of the prior art;
  • FIG. 12 compares schematically the test phase of the laying estimation method according to the invention with that of the prior art;
  • FIG. 13 schematically illustrates a pinhole projection of the images acquired by the camera in a reference frame of the camera according to the prior art;
  • FIGS. 14A to 14D compare the learning times and the amount of memory used by a random decision forest type automatic prediction system of the method according to the invention with the prior art; and FIG. 15 schematically illustrates the material structure of a laying estimation device according to one embodiment of the invention.
  • the general principle of the invention is based on the acquisition of color intensity and depth images using a RGB-D camera, on the extraction of these images from a plurality of centered images. on points of interest of the color intensity image and on the prediction of a pose of the camera from this plurality of images by application of an automatic prediction system previously trained with the aid of a learning set comprising thumbnails associated with known poses.
  • the automatic prediction system considered is a random decision forest (for "Random Forest” in English), known per se and for example described in the Shotton document already cited.
  • learning data is collected. These data consist of a collection of N frames (for "frames", in English), with N non-zero integer, which are either acquired directly by a RGB-D camera, capable of providing a color intensity image I e and its associated image depth I D , or obtained from a public database. These learning data also include a pose of the camera in the world repository associated with each of the images in the collection. N is for example between 100 and 2000.
  • the training data are acquired by a MACQ module consisting for example of a system "Kinect.v2 ®" registered trademark, able to simultaneously acquire the intensity images of color and depth and the associated camera pose.
  • the color intensity image and the depth image are then aligned such that they have the same dimensions w, h and correspond to a single point of view of the RGB-D camera.
  • the Kinect.v2 system further includes a laser transmitter and an infrared camera.
  • the laser generates a modulated wave that is captured by the infrared camera.
  • a travel time of the wave between the transmitter and an object of the scene is calculated and exploited to deduce a distance between the transmitter and the object.
  • the installation of the camera is obtained using an annotation module able to calculate a pose associated with each pair of images of the camera.
  • an annotation module able to calculate a pose associated with each pair of images of the camera.
  • This is for example a "KinectFusion ®” module, registered trademark, included in the "Kinect.v2 ®” system, whose operating principle is for example described in the Newcombe document and a /. entitled “KinectFusion: Real-time Dense Surface Mapping and Tracking", by IEEE International Symposium on Mixed and Augmented Reality (ISMAR), 2011.
  • This system is based on a dense 3D and real-time reconstruction method that builds Simultaneous Localization and Mapping (SLAM) technique.
  • SLAM Simultaneous Localization and Mapping
  • 3D of the scene X M - An example of a dense reconstruction of a subject from the images acquired by an RGB-D camera that moves along a particular trajectory in the scene is shown in Figure 8B.
  • the trajectory of the camera is represented 8A by a succession of spheres, a sphere being representative of the pose of the camera associated with a pair of images.
  • the subject is reconstructed in the world referential (O, x, y, z) from the views corresponding to the different images acquired successively by the camera.
  • This system therefore provides the y camera pose values associated with each moment of acquisition of a pair of RGB-D images If, 1, °. This information constitutes a "ground truth" necessary for learning the pose prediction system which will be described below.
  • positron annotation systems that use markers positioned on the RGB-D camera.
  • they are composed of a material that offers a maximum response to a segmentation module comprising a laser capable of locating them.
  • the CORBS database described in the document Wasenmuller et al., Titled "Corbs: Comprehensive RGB-D Benchmark for SLAM using Kinect v2", published by the Applications of Computer Vision conference in 2016, pages 1-7. was annotated in this way.
  • K points of interest are extracted from the color intensity image If, with K being nonzero, smaller than the number w. h pixels contained in the image If.
  • Points of interest, or key points are points invariant to rotations / translations / changes of scale.
  • This module detects isolated points (for "sparse” in English) for example using a method called SURF and described in the document by Bay et al. , entitled “Speeded-up Robust Features (SURF)", published in Computer Vision and Image Understanding, issue 110, pages 346-359, in 2008.
  • the SURF method exploits a Hessian matrix ⁇ ( ⁇ , ⁇ ) defined as follows:
  • I (x) represents the image in which one seeks to extract the key points.
  • g (&) defines a Gaussian with a kernel ⁇ . The convolution of the image with the Gaussian is intended to represent the image with several resolutions, in the form of a pyramid of scales. A second derivation is
  • Det ⁇ K) D D xx yy - (0.9D xy) 2
  • D xx is the approximation of L xx by a convolution with a discrete nucleus.
  • a maximal response corresponds to a key point KP (x, y, s) whose position in the image is x, y and s corresponds to the scale from which it was extracted.
  • An orientation of this key point is computed from a Haar wavelet in x, y directions over a predetermined neighborhood.
  • a principal orientation is calculated as the sum of all the wavelet responses on a sector of ⁇ / 3.
  • FIG. 4 an example of points of interest extracted from an image of intensity of color If is presented. Note that these are, for example, points corresponding to significant angles and changes of contrast.
  • thumbnails for "patches” in English
  • the extracted points of interest KP are then formed in each of the images of the pair (If, 1, ° ).
  • they are all chosen with the same dimensions, equal to 20x20. More generally, the number of points of interest and the size of the images are advantageously chosen so that the sum of their points represents less than 50% of the points of the input image.
  • step A3 there is therefore a collection of N. K learning samples ⁇ E, ⁇ .
  • this set of N. K samples ⁇ E, ⁇ is presented at the input of an automatic prediction system.
  • an automatic prediction system In this exemplary embodiment of the invention, it is a random decision forest, of the "Random Forest” type, an example of which is illustrated in FIG.
  • a random decisional forest comprises several trees, typically M, with M nonzero integer.
  • Each tree AD m receives a randomly selected subset of the collection of training samples.
  • a tree comprises intermediate nodes S, at which it separates into two branches, which lead to two left son nodes respectively right S L , S R.
  • a simple binary test t is performed at each intermediate node S. According to its result, a sample of data Ej, k, namely a pair of thumbnails and its pose y , is directed to the left child node or the right child node.
  • the parameters of a ts binary test at a node S are generated randomly and then modified during the training so as to achieve an optimal separation of the samples that it receives in two groups homogeneous from a point of view of their pose value.
  • test t applied randomly to one of the two thumbnails of a sample at a node S can be expressed as follows:
  • a learning oversight is to globally evaluate the separation at each non-leaf node S using an objective function or loss function Q defined as follows: Where L denotes the set of right nodes and R the set of left nodes and S n the set of samples available at the current intermediate node.
  • This calculation is done at each intermediate node of a decision tree AD.
  • the terminal nodes are called leaves I.
  • the tree forms optimal groups of samples GOi, with I an integer between 1 and L, where L is the number of leaves of a tree, which it stores at its leaves.
  • the learning process ends when certain predetermined stopping conditions are satisfied, for example when the data reaches a predetermined maximum depth of the tree or when the number of samples falls below a threshold allowing the creation leaves.
  • Each intermediate or non-leaf node stores in memory the optimal parameters for the binary separator test t * that it applies to the data.
  • Each sheet I stores a Gaussian distribution of all the poses included in its optimal group, which is expressed as a normal distribution, as follows:
  • each sheet of the M decision trees AD m of the forest stores the distribution Gaussian poses his optimal group.
  • a pair of input images (If, 1, °) acquired by an RGB-D camera, for example of the Kinect V2, Kinect VI, Xtion®, trademark, or any other RGB-D camera.
  • a predetermined number K is extracted from KP key points, for example according to the SURF method described above.
  • a step E3 as many thumbnails KP are formed as key points extracted, a thumbnail being centered on a key point and of predetermined dimensions, for example equal to 30x40.
  • each sample is processed by the plurality of trees AD m driven from the forest.
  • Each tree treats the set of samples ⁇ E 'i, i ⁇ ⁇ by using the optimal binary test t * stored in memory until reaching a sheet I.
  • the pose predicted by a decision tree AD m is given by the sheet I. It is a multivariate Gaussian distribution py ⁇ l) of all the poses obtained by the sheet I.
  • M is the number of trees in the random decision forest.
  • the final density of the data (x) is defined as follows: where h denotes the size of the kernel K (x). This expression corresponds to the definition of a Parzen window which makes it possible to calculate continuous histograms.
  • the most used kernel is the Gaussian kernel, which is defined as follows:
  • FIG. 8A there is shown the set H of the laying predictions stored by the leaves of the trees of the forest FD and the trajectory Tr of the camera.
  • Figure 8B shows the set of exposures predicted by the automatic prediction system and the centroid (triangle) resulting from a non-parametric grouping of the pose estimates according to step E5. The actual value of the pose corresponds to the square.
  • step E5 we have a pose y, 'estimated for the couple of input images
  • FIGS. 9A and 9B illustrate the evolution of the performance of the automatic prediction system in terms of mean translation error over a set of test images, in this case a first public RGB-D database, as described in the document Wasenmuller et al., already cited, according to a number of trees respectively a number of thumbnails.
  • Figure 9A shows that the error decreases as the number of trees increases. The error rate is reduced by about 15% when moving from a 3-tree forest to a 9-tree forest. We also note that it is useless to increase the number of trees beyond a fortnight, because it brings no more performance improvement.
  • Figures 10A and 10B show the quadratic errors of the first base
  • Figures 10C and 10D show the errors obtained on images of the second base
  • Figures 10E and 10F the errors obtained on images of our own base.
  • the pose y, ' estimated for the pair of input images (Ii c , Ii D ) is refined.
  • This step uses the dense point cloud X M of the scene in the world repository, obtained following the annotation of the images of the learning base. It also requires the calculation of a cloud current of points L corresponding to the image of depth 1, ° in the repository of the camera (pinhole projection), as in the method of the prior art.
  • Step E6 is based on an iterative Closest Point (ICP) recalibration method, for example described in the document by Besl et al., Entitled “A Method for Registration of 3-D Shapes". ", published by the IEEE Trans Conference. on Pattern Analysis and Machine Intelligence, held in Los Alamitos, CA, USA: in 1992.
  • This method makes it possible to iteratively minimize the distance or shift between the dense cloud X M projected in the camera repository and the cloud of common points, as follows:
  • This optional refinement step induces increased complexity and requires prior calibration of the camera. Nevertheless, it has the advantage of offering greater precision in special use cases for which a laying error lower than those described above is required.
  • the method according to the invention provides the training system with samples ⁇ Ej, i ⁇ ⁇ of N RGB-D images (If, 1, °) in the form of K imagettes (Pf, extracted from the couple of images around key points KP and annotated by the pose y, of the camera during the acquisition of the RGB-D image.
  • the method according to the prior art applies a pretreatment to the pair of input images (If, 1, °) annotated with the pose y, illustrated in FIG. 13.
  • each depth value r (represented by two pixel coordinates u, v) is projected in a repository
  • this cloud of points is projected in the repository world of the scene (0, x , y, z), according to a second projection based on a rigid transformation.
  • a final point cloud L comprising the projected points (x ', y', z ') is obtained.
  • the input data of the automatic learning system then takes the following form: ⁇ If, Ii D , X, ' ⁇ with i ranging from 1 to N, where N is the number of images in the collection of training data. .
  • the input samples presented to the automatic prediction system therefore differ between the two methods and they represent a larger amount of data than the NxK thumbnails of the method according to the invention.
  • a binary t test for data separation at each node is generated in a similar way for both methods, using a function f that calculates a difference in color intensity, respectively a difference in depths, between pixels of the image If respectively 1, °.
  • the two methods evaluate the performance of these separations separately, because they rely on different objective functions Q.
  • the invention minimizes a previously defined Q function as a Euclidean distance between a centroid of poses and a current pose reaching the child nodes of a node. This is to maximize a purity of data separation.
  • the prior art maximizes / minimizes entropy H (s) between the parent node S and its left child nodes S L and right S R.
  • the invention produces and stores a Gaussian distribution of the exposures predicted by an image, while the prior art stores in a sheet I the prediction of a mean point cloud X'i in the world referential. .
  • the invention proposes to estimate directly an average pose per pair of input images from the K poses y'i, k predicted for the K imagettes, by non-parametric iterative grouping of the mean-shift type. .
  • the output data post-processed by the method according to the invention and the solution of the prior art are different in nature, but the amount of data to be handled is also different.
  • the method according to the invention processes K predicted exposures by input image pair, whereas the solution of the prior art iteratively processes a scatter plot. It is understood that the post-processing implemented by the invention is much less complex than that of the prior art, in terms of the number of operations, computation time and storage resources.
  • FIGS. 14A to 14D compare the learning times of the two systems as a function respectively of a quantity of learning data respectively according to of a number of binary tests carried out by their trees.
  • the method of the invention is faster than that of the prior art.
  • a drive speed ratio of 1.50 + 0.3 is measured in FIG. 14A and at 1.20 + 0.15 in Fig. 14B.
  • This apparent difference is directly related to the nature of the objective functions Q used to supervise learning in both approaches. That of the invention is based on a Euclidean distance between poses, which is much simpler and faster to calculate than a Euclidean distance between scatter points of dimensions (w x h) as in the prior art.
  • Figure 14C compares the amount of memory used by the two systems according to the depth of their trees.
  • Figure 14D compares the amount of memory used as a function of the number of training data. Increasing the maximum depth of a tree increases the number of separation nodes and requires more memory to save the tree parameters. Increasing the training data only increases the number of sheets which leads to a small variation in the memory occupied by the tree.
  • the invention thus proposes an approach based on a random decisional forest that makes it possible to regressively estimate the installation of an RGB-D camera in a non-constrained environment.
  • the training samples are collected in a sparse or sparse manner, in the form of a plurality of images centered on key points of the image pair. acquired by the camera.
  • the results obtained, in particular terms of translation and rotation errors made on public databases validate this approach and show in particular that the targeting of relevant regions in the images increases the robustness and generalization of decisional forests.
  • directly predicting a pose value at a leaf level rather than a scatter plot further reduces the complexity of the system, in terms of amount of memory and compute time. is confirmed by the performance compared between the invention and the solution of the prior art.
  • module and/or entity
  • module may correspond either to a software component, or to a hardware component, or to a set of hardware and / or software components, capable of implementing perform the function (s) described for the module or entity concerned.
  • FIG. 15 an example of a simplified structure of a device 100 for estimating the pose of a camera according to the invention is now presented.
  • the device 100 implements the laying estimation method according to the invention which has just been described.
  • FIG. 15 only illustrates one of several possible ways of realizing the algorithm detailed above. Indeed, the technique of the invention is carried out indifferently on a reprogrammable calculation machine (a PC computer, a DSP processor or a microcontroller) configured to execute a program comprising a sequence of instructions, or on a dedicated computing machine (for example a set of logic gates such as an FPGA or an ASIC, or any other hardware module).
  • a reprogrammable calculation machine a PC computer, a DSP processor or a microcontroller
  • a dedicated computing machine for example a set of logic gates such as an FPGA or an ASIC, or any other hardware module.
  • the corresponding program (that is to say the sequence of instructions) can be stored in a removable storage medium (such as for example a diskette, a CD-ROM or a DVD-ROM) or not, this storage medium being readable partially or totally by a computer or a processor.
  • a removable storage medium such as for example a diskette, a CD-ROM or a DVD-ROM
  • the device 100 comprises a processing unit 110, equipped with a ⁇ processor, and driven by a computer program Pg l 120, stored in a memory 130 and implementing the method according to the invention.
  • the code instructions of the computer program Pgi 120 are for example loaded into a RAM before being executed by the processor of the processor unit. processing 110.
  • the processor of the processing unit 110 implements the steps of the method described above, according to the instructions of the computer program 120.
  • the device 100 comprises a reprogrammable kde calculating machine or a dedicated calculation machine, able to and configured to: Obtain at least one color intensity image and a depth image of the scene captured by the camera;
  • Extracting EXTR a plurality of points of interest from said at least one image of color intensities, a said point being invariant by geometric transformation of the image;
  • - Form DET PT a plurality of thumbnails from said at least one color intensity image and said depth image, a thumbnail including a point of interest of the extracted plurality;
  • Predicting PRED a pose of the plurality of thumbnails by application of an automatic learning system said system having been driven to produce a predicted pose of the camera by thumbnail, using a training set comprising a group of thumbnails associated with a known pose in the scene's repository, said thumbnails being derived from a plurality of scene images acquired by the camera from a plurality of viewpoints;
  • the computing machine is configured to implement the embodiments of the invention which have just been described in relation with FIGS. 1 and 7.
  • it can implement a refinement of the camera pose. as described in connection with Figure 7.
  • Obtaining a collection of training data comprising a plurality of pairs of scene intensity and color depth images acquired by the camera, a pair being associated with a known pose of the camera; Extracting a plurality of points of interest from said image of color intensities, a said point being invariant by geometric transformation of the image; Forming a plurality of image pairs, respectively in the color intensity image and in the depth image, a thumbnail including a point of interest of the plurality of points of interest extracted;
  • the device 100 further comprises a storage unit Mi 140, such as a memory, for example of the buffer memory type, which can store, for example, the learning samples ⁇ Ei, i ⁇ ⁇ , the separation parameters at the non-leaf nodes or the Gaussian distributions of leaf level poses by the system.
  • a storage unit Mi 140 such as a memory, for example of the buffer memory type, which can store, for example, the learning samples ⁇ Ei, i ⁇ ⁇ , the separation parameters at the non-leaf nodes or the Gaussian distributions of leaf level poses by the system.
  • These units are driven by the ⁇ processor of the processing unit 110.
  • such a pose estimation device 100 can be integrated into an augmented reality system.
  • Such a system 10 comprises, in addition to the device 100, at least one input image acquisition module MACQ, comprising for example a RGB-D camera capable of capturing images of a real scene, a module of annotation of poses ANNOT able to determine the poses to be associated with the input images for the learning phase, a composition module COMP able to compose an output image, called "augmented" from an input image of the scene acquired by the camera and at least one real or virtual object, using an initial position of said at least one object in the scene and an estimated pose of the camera and a display DISP module adapted to restore the output image.
  • MACQ input image acquisition module
  • MACQ comprising for example a RGB-D camera capable of capturing images of a real scene
  • a module of annotation of poses ANNOT able to determine the poses to be associated with the input images for the learning phase
  • a composition module COMP able to compose an output image, called "augmented" from an input image of the scene acquired by the camera and at least one real or virtual object, using an initial position of
  • the device 100 once trained, can be integrated with an end device AND, for example a personal computer, which can be mobile, such as a tablet or a smart phone (for "smartphone"), is it itself included in the system 10.
  • an end device AND for example a personal computer, which can be mobile, such as a tablet or a smart phone (for "smartphone"), is it itself included in the system 10.
  • the device 100 is then arranged to cooperate at least with the following modules of the system
  • Or terminal equipment ET a data transmission / reception module E / R, through which an RGB-D image is obtained, for example from a remote database; and / or the acquisition module MACQ of the input image sequence, such as for example a RGB-D video camera, for example via an HDMI cable; ANNOT annotation module capable of producing a pose associated with a RGB-D image acquired by the camera, for example kinectfusion® type;
  • the DISP display device configured to render a composition of an RGB-D image in the virtual or real scene using the estimated pose of the camera.
  • a first application is to increase the reality of a scene filmed by the RGB-D camera, by injecting additional objects, virtual or real.
  • an interior decoration application is known that allows a customer to virtually test the arrangement of furniture in a room of his apartment, before deciding to purchase.
  • This application requires an estimate of the installation of the camera in a repository of the room, so as to locate the image it acquires in the scene and to insert, when they are returned to a display device, the furniture virtual with the right dimensions and the right perspective.
  • a spatial position of the virtual furniture is initialized in the scene. It requires prior knowledge of a 3D structure of the room.
  • a tracking of the trajectory of the camera is performed by estimating its installation in a repository of the scene according to the invention, which allows, for each new acquired image, to project the virtual furniture in the scene, to the right position and with the right perspective.
  • a mobile terminal equipment such as tablet or smartphone (for "smartphone", in English), provided it is equipped with a RGB-D camera.
  • a second application envisaged is the assistance of a maintenance operator, for example aircraft. It is assumed that it acquires an image of engine parts from a mobile terminal equipment, of the tablet type.
  • the system according to the invention allows it, in its test phase, to estimate the pose of the camera in the scene constituted by the engine of the aircraft from the current image.
  • the prior knowledge of the 3D structure of the engine makes it possible to initialize a rendering of additional information relating to one of its parts. For example, we display a model reference, information about its quality, a date of installation etc. With the invention, it is possible to follow the trajectory of the camera and estimate its pose to each new acquired image.
  • the additional information is projected in each new image acquired by the camera with the right perspective, which guarantees to maintain over time a realistic rendering of the scene seen by the camera.
  • an increased level of precision may be needed to ensure that the projection of a model coincides exactly with the room to which it relates.
  • a refinement by iterative registration of the pose estimated according to the invention can be advantageously implemented.

Abstract

L'invention concerne un procédé d'estimation de pose d'une caméra dans un référentiel d'une scène tridimensionnelle, comprenant les étapes suivantes : - Obtention (E1) d'une image d'intensités de couleur et d'une image de profondeur de la scène capturées par la caméra; - Extraction (E2) d'une pluralité de points d'intérêt de ladite image d'intensités de couleurs, un dit point étant invariant par transformation géométrique de l'image; - Formation (E3) d'une pluralité d'imagettes dans l'image d'intensités de couleur et dans l'image de profondeur, une imagette comprenant un point d'intérêt de la pluralité extraite; - Prédiction(E4) de pose de la pluralité d'imagettes par application d'un système de prédiction automatique, ledit système ayant été entraîné pour produire une pose prédite de la caméra par imagette, à l'aide d'un ensemble d'apprentissage comprenant un groupe d'imagettes associées à une pose connue dans le référentiel de lascène, lesdites imagettes étant issues d'une pluralité d'images de la scène acquises par la caméra depuis une pluralité de points de vue; - Estimation (E5) d'une pose de la caméra à partir de la pluralité de poses prédites.

Description

Procédé d'estimation de pose, dispositif, système et programme d'ordinateur associés
1. Domaine de l'invention
Le domaine de l'invention est celui de l'estimation de la pose d'une caméra dans le référentiel d'une scène tridimensionnelle (3D).
L'invention peut notamment, mais non exclusivement, s'appliquer à l'insertion d'un ou plusieurs objets virtuels ou réels dans l'image de la scène réelle vue par la caméra .
2. Présentation de l'art antérieur On connaît du document de Shotton et al. , intitulé « Scène Coordinate Régression Forests for Caméra Relocalisation in RGB-D images », publié par la Conférence IEEE Conférence on Computer Vision and Pattern Récognition, en 2013, une solution permettant de calculer la pose d'une caméra RGB-D (pour « Red Green Blue - Depth », en anglais) à l'aide d'un système d'apprentissage automatique, pour (« machine learning », en anglais), qui prédit, à partir d'une image d'intensités de couleurs et une image de profondeur acquises par la caméra, un nuage de points correspondants dans un référentiel de la scène 3D. La pose de la caméra est ensuite estimée sur la base du nuage de points prédit.
Un avantage de cette solution est qu'elle prédit la pose de la caméra de façon complètement automatique sans aucune hypothèse géométrique.
3. Inconvénients de l'art antérieur
Un premier inconvénient de cette méthode est qu'elle impose de manipuler des nuages de points, ce qui la rend complexe à mettre en œuvre, notamment parce qu'elle nécessite des ressources importantes de calcul et de stockage. Un deuxième inconvénient de cette méthode est qu'elle comprend une transformation préalable de l'image destinée à prendre en compte des paramètres intrinsèques de la caméra, tels que des focales ou des centres de projection. Cette étape nécessite une calibration préalable de la caméra.
Objectifs de l'invention
L'invention vient améliorer la situation. L'invention a notamment pour objectif de pallier ces inconvénients de l'art antérieur.
Plus précisément, un objectif de l'invention est de proposer une solution plus économe en ressources pour des performances comparables.
Un autre objectif de l'invention est de propose une méthode qui ne nécessite pas de calibration préalable de la caméra.
5. Exposé de l'invention
Ces objectifs, ainsi que d'autres qui apparaîtront par la suite, sont atteints à l'aide d'un procédé d'estimation de pose d'une caméra dans un référentiel d'une scène tridimensionnelle, ledit procédé comprenant les étapes suivantes :
Obtention d'une image d'intensités de couleur et d'une image de profondeur de la scène capturées par la caméra ;
Extraction d'une pluralité de points d'intérêt de ladite image d'intensités de couleurs, un dit point étant invariant par transformation géométrique de l'image ; - Formation d'une pluralité d'imagettes dans l'image d'intensités de couleur et dans l'image de profondeur, une imagette comprenant un point d'intérêt de la pluralité extraite;
Prédiction de pose de la pluralité d'imagettes par application d'un système de prédiction automatique, ledit système ayant été entraîné pour produire une pose prédite de la caméra par imagette, à l'aide d'un ensemble d'apprentissage comprenant un groupe d'imagettes associées à une pose connue dans le référentiel de la scène, lesdites imagettes étant issues d'une pluralité d'images de la scène acquises par la caméra depuis une pluralité de points de vue;
Estimation d'une pose de la caméra à partir de la pluralité de poses prédites.
L'invention propose donc de sélectionner un sous-ensemble pertinent des données acquises par la caméra, sous la forme d'imagettes centrées sur des points d'intérêt des images d'entrée, invariants aux translations, rotations et changements d'échelle, et de présenter ces imagettes telles quelles au système de prédiction automatique, sans nécessité de projection préalable de ces imagettes dans un référentiel de la caméra .
Avec l'invention, la prédiction automatique de la pose de la caméra ne se fait pas à partir de nuages de points obtenus par projection des points de l'image de profondeur dans le référentiel de la scène tridimensionnelle, comme le fait l'art antérieur, mais à partir de simples imagettes extraites directement des images d'entrée et positionnées sur des points d'intérêt de ces images.
Contrairement à l'art antérieur, l'invention ne nécessite donc pas de calibration préalable de la caméra, ce qui simplifie les opérations préalables à l'application du système de prédiction automatique.
La quantité de données à traiter par le système de prédiction automatique est ainsi fortement réduite.
Un avantage est de l'invention est qu'elle est plus simple à mettre en œuvre, avec des ressources de calcul et de stockage plus réduites, pour des performances équivalentes à celles de l'art antérieur.
Selon un aspect de l'invention, le procédé comprend une phase préalable d'apprentissage comprenant les étapes suivantes :
Obtention d'une collection de données d'apprentissage, comprenant une pluralité de couples d'images d'intensité de couleur et de profondeur de la scène acquises par la caméra, un couple étant associé à une pose connue de la caméra ;
Extraction d'une pluralité de points d'intérêt de ladite image d'intensités de couleurs, un dit point étant invariant par transformation géométrique de l'image ;
Formation d'une pluralité de couples d'imagettes, respectivement dans l'image d'intensités de couleur et dans l'image de profondeur, une imagette comprenant un point d'intérêt de la pluralité de points d'intérêts extraite;
Entraînement du système de prédiction automatique de pose à partir d'échantillons comprenant un dit couple d'imagettes et la pose du couple d'images dont elles sont issues.
Lors de l'apprentissage, l'ensemble de test comprend des imagettes associées à la pose de la caméra correspondante et le système est entraîné pour apprendre directement à prédire la pose d'une imagette d'entrée.
Un avantage est que l'apprentissage se fait lui aussi sur la base d'une quantité d'informations réduites.
Selon un autre aspect de l'invention, le système de prédiction automatique comprend une forêt décisionnelle aléatoire comprenant une pluralité d'arbres de décision, un arbre de décision comprenant des nœuds séparateurs, apte à séparer de façon binaire u n grou pe d'échantillons issu d'un nœud amont en sous-groupes, à transmettre les sous-groupes à des nœuds séparateurs aval, et des nœuds feuilles, aptes à stocker une distribution des poses associées à un sous-groupe reçu d'un nœud séparateur amont.
Selon l'invention, l'étape d'entraînement comprend, pour un échantillon, un calcul d'une pluralité de tests de séparation binaire basés sur une différence entre des informations d'intensité de couleur ou de profondeur d'une de ses imagettes, une évaluation pour le groupe de la séparation selon une mesure de pu reté des sous-groupes basée sur une distance entre les poses d'u n sous-groupe et le centroïde du sous-groupe et une étape de sélection du test de séparation qui maximise la mesure de pureté.
La phase d'apprentissage génère ainsi une pluralité de tests de séparation binaire des échantillons de la collection de données d'apprentissage, typiquement des centaines voire des milliers et sélectionne le meilleur sur la base du critère de pureté. Avec l'invention, l'entraînement de la forêt décisionnelle aléatoire se fait à partir de poses et d'imagettes, qui forment une quantité de données réduite par rapport à l'art antérieur. La complexité et le temps d'exécution de la phase d'apprentissage s'en trouvent réduits. Selon un autre aspect de l'invention, la mesure de pureté prend en compte une fonction objective qui s'exprime sous la forme suivante :
Figure imgf000006_0001
Avec L ensemble des nœuds fils gauche, R ensemble des nœuds fils droits, Sn ensemble des échantillons qui arrivent au nœud aval gauche respectivement droit, |5n| désigne le cardinal de l'ensemble Sn.
Le test sélectionné est celui qui minimise la fonction objective Q.
Un avantage de cette fonction est qu'elle est peu complexe, du fait qu'une pose yj comprend seulement 7 composantes. Son calcul nécessite donc beaucoup moins d'opérations que la fonction objective de l'art antérieur qui s'applique à des nuages de points Lj de dimensions égales à celles d'une image acquise par la caméra.
Selon un aspect de l'invention, le procédé comprend une étape de raffinement de la pose estimée de la caméra par recalage d'un nuage de points reconstruit dans un référentiel de la caméra à partir de l'image de profondeur d'entrée et d'un nuage de points dense de la scène projeté dans ledit référentiel à l'aide de la pose estimée. Un avantage est d'augmenter la précision de la pose estimée, ce qui peut être utile pour certaines applications.
L'invention concerne également un dispositif d'estimation de pose adapté pour mettre en œuvre le procédé selon l'un quelconque des modes particu liers de réalisation définis ci-dessus. Ce dispositif pourra bien sûr comporter les différentes caractéristiques relatives au procédé d'estimation de pose selon l'invention. Ainsi, les caractéristiques et avantages de ce dispositif sont les mêmes que ceux du procédé d'estimation de pose, et ne sont pas détaillés plus amplement.
Selon un mode particulier de réalisation de l'invention, un tel dispositif d'estimation de pose est compris dans un équipement terminal.
Corrélativement, l'invention concerne aussi un système de réalité augmentée comprenant : un module d'acquisition, comprenant une caméra apte à acquérir une image d'intensités de couleurs et une image de profondeur d'une scène tridimensionnelle réelle, un module de composition d'images apte à composer une image de sortie à partir d'une image d'entrée acquise de la scène par la caméra et au moins un objet réel ou virtuel, ladite image d'entrée étant localisée dans la scène à l'aide d'une pose estimée de la caméra, un module d'affichage apte à restituer l'image de sortie, un dispositif selon l'invention, apte à estimer ladite pose dans une phase de test.
Un tel système permet d'insérer des objets virtuels ou réels à la scène 3D à la bonne position et avec la bonne perspective grâce à l'estimation de pose réalisée par l'invention.
Avantageusement, le système comprend un module d'annotation d'images d'entrée, apte à calculer une pose d'une image d'entrée, ladite pose étant exploitée par le dispositif d'estimation de pose selon l'invention, dans une phase d'apprentissage.
De cette manière, le système est autonome et peut acquérir toutes les données nécessaires à l'apprentissage d'une nouvelle scène 3D.
L'invention concerne aussi un programme d'ordinateur comportant des instructions pour la mise en œuvre des étapes d'un procédé d'estimation de pose tel que décrit précédemment, lorsque ce programme est exécuté par un processeur.
Ce programme peut utiliser n'importe quel langage de programmation. Il peut être téléchargé depuis un réseau de communication et/ou enregistrés sur un support lisible par ordinateur. L'invention se rapporte enfin à des supports d'enregistrement, lisibles par un processeur, intégrés ou non au dispositif d'estimation de pose selon l'invention, éventuellement amovible, mémorisant respectivement un programme d'ordinateur mettant en œuvre un procédé d'estimation de pose, tel que décrit précédemment.
6. Liste des figures
D'autres avantages et caractéristiques de l'invention apparaîtront plus clairement à la lecture de la description suivante d'un mode de réalisation particulier de l'invention, donné à titre de simple exemple illustratif et non limitatif, et des dessins annexés, parmi lesquels : la figure 1 décrit de façon schématique les étapes d'un procédé d'estimation de pose d'une caméra lors d'une phase d'apprentissage, selon un mode de réalisation de l'invention ; la figure 2 illustre un exemple de couple d'images acquises par une caméra RGB-D ; la figure 3 illustre des exemples de filtres utilisés pour extraire des points clés d'une image d'intensités de couleurs ; la figure 4 présente u n exemple d'extraction de points d'intérêt d'une image d'intensité de couleurs ; la figure 5 illustre de façon schématique un échantillon de la collection de données d'apprentissage selon l'invention, comprenant un couple d'imagettes et la pose du couple d'images dont elles sont issues; la figure 6 illustre de façon schématique un exemple de forêt décisionnelle aléatoire mis en œuvre par l'invention ; la figure 7 présente de façon schématique les étapes du procédé d'estimation de pose dans sa phase de test selon un mode de réalisation de l'invention ; la figure 8A illustre la trajectoire de la caméra lors de l'acquisition des images de l'ensemble d'apprentissage ; la figure 8B illustre les poses prédites par le système automatique, la pose estimée à partir de l'ensemble de poses prédites et la pose réelle de la caméra ; les figures 9A et 9B présentent des courbes d'évolution du taux d'erreur de translation obtenu par le procédé selon l'invention en fonction des dimensions de la forêt décisionnelle aléatoire ; les figures 10A à 10F présentent les erreurs quadratiques moyennes relatives à la translation et la rotation de la caméra obtenues par le procédé selon l'invention sur différentes bases d'images ; la figure 11 compare de façon schématique la phase d'apprentissage du procédé d'estimation de pose selon l'invention à celle de l'art antérieur ; la figure 12 compare de façon schématique la phase de test du procédé d'estimation de pose selon l'invention à celle de l'art antérieur ; la figure 13 illustre de façon schématique une projection de type sténopé des images acquises par la caméra dans un référentiel de la caméra selon l'art antérieur;
- les figures 14A à 14D comparent les temps d'apprentissage et la quantité de mémoire utilisée par un système de prédiction automatique de type forêt décisionnelle aléatoire du procédé selon l'invention avec l'art antérieur ; et la figure 15 illustre de façon schématique la structure matérielle d'un dispositif d'estimation de pose selon un mode de réalisation de l'invention.
7. Description d'un mode de réalisation particulier de l'invention
On considère une scène réelle et un référentiel de cette scène, appelé référentiel monde.
Le principe général de l'invention repose sur l'acquisition d'images d'intensité de couleur et de profondeur à l'aide d'une caméra RGB-D, sur l'extraction de ces images d'une pluralité d'imagettes centrées sur des points d'intérêt de l'image d'intensité de couleur et sur la prédiction d'une pose de la caméra à partir de cette pluralité d'imagettes par application d'un système de prédiction automatique préalablement entraîné à l'aide d'un ensemble d'apprentissage comprenant des imagettes associées à des poses connues.
Dans la suite de la description, le système de prédiction automatique considéré est une forêt décisionnelle aléatoire (pour « Random Forest », en anglais), connue en soi et par exemple décrite dans le document de Shotton déjà cité.
En relation avec la Figure 1, on décrit les étapes d'un procédé d'estimation de pose d'une caméra dans une phase d'apprentissage selon un mode de réalisation de l'invention.
Au cours d'une étape Al, des données d'apprentissage sont collectées. Ces données sont constituées d'une collection de N images (pour « frames », en anglais), avec N entier non nul, qui sont soit acquises directement par u ne caméra RGB-D, apte à fournir une image d'intensité de couleur Ie et son image de profondeur ID associée, soit obtenues d'une base de données publiques. Ces données d'apprentissage comprennent aussi une pose de la caméra dans le référentiel monde, associée à chacune des images de la collection. N est par exemple compris entre 100 et 2000. Par exemple, les données d'apprentissage sont acquises par un module MACQ constitué par exemple d'un système « Kinect.v2 ® », marque déposée, apte à acquérir simultanément les images d'intensité de couleur et de profondeur et la pose de caméra associée. Ce système comprend un capteur RGB apte à générer une image de résolution w= 1920xh= 1080 pixels à 30 Hz et un capteur D de profondeur apte à capturer une image de résolution 512x424 avec la même fréquence. L'image d'intensité de couleur et l'image de profondeur sont ensuite alignées de telle sorte qu'elles présentent les mêmes dimensions w, h et correspondent à un unique point de vue de la caméra RGB-D.
Le système Kinect.v2 comprend en outre un émetteur laser et une caméra infrarouge. Le laser génère une onde modulée qui est capturée par la caméra infrarouge. Un temps de trajet de l'onde entre l'émetteur et un objet de la scène est calculé puis exploité pour en déduire une distance entre l'émetteur et l'objet.
Dans la suite, on désigne par (If, 1,°) avec i entier compris entre 1 et N, un couple d'images acquis par la caméra RGB-D. Un exemple de couple d'images (If, 1,°) est illustré par la Figure 2.
Selon l'exemple précédent, la pose de la caméra est obtenue à l'aide d'un module d'annotation apte à calculer une pose associée à chaque paire d'images de la caméra. Il s'agit par exemple d'un module « KinectFusion ®», marque déposée, inclus dans le système « Kinect.v2 ® », dont le principe de fonctionnement est par exemple décrit dans le document de Newcombe et a/. intitulé « KinectFusion : Real-time Dense Surface Mapping and Tracking », par la conférence IEEE International Symposium on Mixed and Augmented Reality (ISMAR), 2011. Ce système est basé sur une méthode de reconstruction dense 3D et temps-réel qui s'appuie sur une technique de Localisation et Mise en correspondance simultanées ou SLAM (pour « Simultaneous Localization and Mapping », en anglais). Une telle technique fait des hypothèses géométriques et temporelles sur la scène. Elle considère une paire d'images en entrée, en extrait des points d'intérêts et les met en correspondance, ce qui lui permet, en résolvant un système linéaire d'équations, de déterminer précisément la pose de la caméra et de reconstruire un modèle 3D de la scène XM- Un exemple de reconstruction dense d'un sujet à partir des images acquises par une caméra RGB-D qui se déplace selon une trajectoire particulière dans la scène, est illustré par la Figure 8B. La trajectoire de la caméra est représentée sur a Figure 8A par une succession de sphères, une sphère étant représentative de la pose de la caméra associée à un couple d'images. Le sujet est reconstruit dans le référentiel monde (O, x, y, z) à partir des vues correspondant aux différentes images acquises successivement par la caméra.
Ce système fournit donc les valeurs de pose y, de la caméra associées à chaque instant d'acquisition d'un couple d'images RGB-D If, 1,°. Ces informations constituent une « vérité terrain » nécessaire à l'apprentissage du système de prédiction de pose qui va être décrit ci-après.
On notera qu'il existe d'autres systèmes d'annotation de poses, qui utilisent des marqueurs positionnés sur la caméra RGB-D. Par exemple, ils sont composés d'un matériau qui offre une réponse maximale à un module de segmentation comprenant un laser, apte à les localiser. Par exemple, la base de données CORBS décrite dans le document de Wasenmûller et al., intitulé « Corbs : Comprehensive RGB-D Benchmark for SLAM using Kinect v2 », publié par la conférence Applications of Computer Vision, en 2016, pages 1-7, a été annotée de cette manière.
On peut aussi obtenir directement le couple d'images et leur pose associée d'une base d'images.
De façon connue en soi, la pose d'un couple d'images s'exprime par exemple sous la forme y, = (Oj, Ti), avec Oj un quaternion unitaire comprenant 4 composantes de rotation qw, qx, qy, qz et T, u n vecteur comprenant 3 composantes de translation tx, ty, tz de la caméra dans le référentiel monde (O, x, y, z).
Au cours d'une étape A2, on extrait K points d'intérêt de l'image d'intensité de couleur If, avec K entier non nul, inférieur à au nombre w. h de pixels contenus dans l'image If. On désigne par points d'intérêt, ou points clés, des points invariants aux rotations/translations/ changements d'échelle. Ce module détecte des points isolés (pour « sparse », en anglais) par exemple à l'aide d'une méthode dite SURF et décrite dans le document de Bay et al. , intitulé « Speeded-up Robust Features (SURF) », publié dans la revue Computer Vision and Image Understanding , numéro 110, pages 346-359, en 2008.
La méthode SURF exploite une matrice Hessienne Ή(χ, σ) définie comme suit :
Figure imgf000011_0001
avec
d2
Lxx(pc, σ) = /(x) x g(a), Lxy(x, a) = Ι(χ) χ— α(σ)
d2x2 où I(x) représente l'image dans laquelle on cherche à extraire les points clés. g(&) définit une gaussienne avec un noyau σ. La convolution de l'image avec la gaussienne a pour but de représenter l'image à plusieurs résolutions, sous la forme d'une pyramide d'échelles. Une dérivation seconde est
/ d2 d2 \
appliquée a aux images de la pyramide ^, -^) ce qui correspond a une intensité de variation de contraste. Concrètement, pour calculer les dérivées secondes sur l'image on utilise des noyaux discrets convolutifs. En relation avec la Figure 3, on présence des exemples de filtres permettant de calculer Lxx et Lxy respectivement.
On calcule ensuite le déterminant de ¾" qui estdéfini comme suit :
DetÇK) = DxxDyy - (0.9Dxy)2 où Dxx est l'approximation de Lxx par une convolution avec un noyau discret. Une réponse maximale correspond à un point clé KP(x, y, s) dont la position dans l'image vaut x, y et s correspond à l'échelle à laquelle il a été extrait. Une orientation de ce point clé est calculée à partir d'une ondelette de Haar dans les directions x, y sur un voisinage prédéterminé. Une orientation principale est calculée comme étant la somme de toute les réponses des ondelettes sur un secteur de π/3. En relation avec la Figure 4, on présente un exemple de points d'intérêt extraits d'une image d'intensités de couleur If. On note qu'il s'agit par exemple de points correspondant à des angles et des changements de contraste importants.
On extrait généralement entre 30 et 200 points d'intérêt par image. On associe à chaque point sa valeu r d'échelle et son orientation. La valeur d'échelle indique le niveau de détails et d'importance du point clé extrait. L'orientation indique la nature du changement de contraste.
Au cours d'une étape A3, illustrée par la Figure 5, on forme ensuite des imagettes (pour « patches », en anglais) centrées sur les points d'intérêt KP extraits, dans chacune des images du couple (If, 1,°). Dans cet exemple de réalisation, elles sont toutes choisies avec les mêmes dimensions, égales à 20x20. Plus généralement, on choisit avantageusement le nombre de points d'intérêts et la dimension des imagettes de telle sorte qu'au total la somme de leurs points représente moins de 50 % des points de l'image d'entrée.
A l'issue de cette étape, on dispose d'un ensemble de K cou ples d'imagettes (¾,¾) avec k entier compris entre 1 et K, annotés par la pose y, associée à leur couple d'images d'origine (If, 1,°). Dans la suite, on désigne par échantillon Ej,i< un couple d'imagettes et leur pose associée : Ej,i< = {(¾,¾), yi}. Les étapes A2 et A3 sont répétées pour les N couples d'images d'entrée.
A l'issue de l'étape A3, on dispose donc d'une collection de N. K échantillons d'apprentissage {E,^}.
Au cours d'une étape E4, on présente cet ensemble de N. K échantillons {E,^} en entrée d'un système de prédiction automatique. Dans cet exemple de réalisation de l'invention, il s'agit d'une forêt décisionnelle aléatoire, de type « Random Forest » dont un exemple est illustré par la figure 6.
Une forêt décisionnelle aléatoire comprend plusieurs arbres, typiquement M, avec M entier non nul.
Chaque arbre ADm, avec m entier compris entre 1 et M, reçoit un sous-ensemble choisi de façon aléatoire de la collection d'échantillons d'apprentissage. Un arbre comprend des nœuds intermédiaires S, au niveau desquels il se sépare en deux branches, qui aboutissent à deux nœuds fils gauche respectivement droit SL, SR. Un test binaire simple t est réalisé à chaque nœud intermédiaire S. En fonction de son résultat, un échantillon de données Ej,k, à savoir un couple d'imagettes et sa pose y,, est dirigé vers le nœud fils de gauche ou le nœud fils de droite.
Les paramètres d'un test binaire ts au niveau d'un nœud S sont générés aléatoirement puis modifiés au cours de l'apprentissage de façon à réaliser une séparation optimale des échantillons qu'il reçoit en deux groupes homogènes d'un point de vue de leur valeur de pose.
Avantageusement, le test t appliqué, de façon aléatoire à l'une des deux imagettes d'un échantillon au niveau d'un nœud S peut s'exprimer de la façon suivante :
Figure imgf000013_0001
ou
Figure imgf000013_0002
Où x, x' représentent deux positions de pixels dans l'échantillon {E,^} et τ un seuil généré aléatoirement et dont la valeur est optimisée au cours de l'apprentissage.
Une supervision de l'apprentissage consiste à évaluer globalement la séparation au niveau de chaque nœud S non feuille à l'aide d'une fonction objective ou fonction de perte Q définie comme suit :
Figure imgf000013_0003
Où L désigne l'ensemble des nœuds droits et R l'ensemble de nœuds gauches et Sn l'ensemble des échantillons disponibles au niveau du nœud intermédiaire courant.
Plus la valeur de Q est faible, plus le sous-groupe de poses est compact. On recherche au niveau de chaque nœud non feuille S le test optimal t* qui minimise Q et maximise ainsi une mesure de pureté du regroupement (pour « data clustering », en anglais) réalisé par le nœud S.
Ce calcul est fait au niveau de chaque nœud intermédiaire d'un arbre de décision AD.
Les nœuds terminaux sont appelés feuilles I. L'arbre forme des groupes optimaux d'échantillons GOi, avec I entier compris entre 1 et L, L étant le nombre de feuilles d'un arbre, qu'il stocke au niveau de ses feuilles. Le processus d'apprentissage se termine lorsque certaines conditions d'arrêt prédéterminées sont satisfaites, par exemple lorsque les données atteignent une profondeur maximale prédéterminée de l'arbre ou bien lorsque le nombre d'échantillons passe en-deçà d'un seuil permettant la création de feuilles.
Chaque nœud intermédiaire ou non feuille stocke en mémoire les paramètres optimaux pour le test séparateur binaire t* qu'il applique aux données.
Chaque feuille I stocke une distribution gaussienne de toutes les poses comprises dans son groupe optimal, qui s'exprime comme une distribution normale, de la façon suivante :
N(y, y,∑y)
où y désigne la moyenne des poses stockées par la feuille I et∑y leur covariance.A l'issue de la phase d'apprentissage qui vient d'être décrite, chaque feuille des M arbres de décision ADm de la forêt stocke la distribution Gaussienne des poses de son groupe optimal.
En relation avec la figure 7, on décrit maintenant le procédé d'estimation de pose dans la phase de test, selon un mode de réalisation de l'invention.
Au cours d'une étape El, on obtient un couple d'images d'entrée (If, 1,°) acquis par une caméra RGB-D, par exemple de type Kinect V2, Kinect VI, Xtion®, marque déposée, ou toute autre caméra RGB-D.
Au cours d'une étape E2, on extrait un nombre K prédéterminé de points clés KP, par exemple selon la méthode SURF précédemment décrite. Au cours d'une étape E3, on forme autant d'imagettes KP que de points clés extraits, une imagette étant centrée sur un point clé et de dimensions prédéterminées, par exemple égales à 30x40.
A l'issue de cette étape, on dispose donc le couple d'images (If, 1,°) de K échantillons {E'i,i<} avec k entier compris entre 1 et K, à présenter en entrée du système de prédiction automatique, qui est dans cet exemple de réalisation, la forêt décisionnelle aléatoire FD qui a subi la phase d'apprentissage précédemment décrite.
Au cours d'une étape E4, les K échantillons {E'i,i< } sont traités par la forêt FD, qui produit une estimation de pose y'i,k par échantillon. Pour ce faire, chaque échantillon est traité par la pluralité d'arbres ADm entraînés de la forêt. Chaque arbre traite l'ensemble d'échantillons {E'i,i< } en utilisant le test binaire optimal t* stocké en mémoire jusqu'à atteindre une feuille I. La pose prédite par un arbre de décision ADm est donnée par la feuille I. Il s'agit d'une distribution Gaussienne multivariée p y\l) de toutes les poses obtenues par la feuille I. Comme déjà évoqué, elle est définie comme suit : p(y) = -W( , ,∑y) La pose d'un échantillon E'i,i< prédite par la forêt FD, c'est-à-dire l'ensemble des arbres qui la constituent, est calculée de la façon suivante :
Figure imgf000015_0001
Où M est le nombre d'arbres de la forêt décisionnelle aléatoire.
Au cours d'une étape E5, on estime une pose y,' associée au couple d'images d'entrée (If, IiD) à partir des prédictions de pose y^' de la pluralité d'échantillons {E'i,i< }.
Pour ce faire, on commence par supprimer les prédictions de pose issues de feuilles ayant une variance élevée, considérées comme non pertinentes. On regroupe ensuite les prédictions de pose en sous-groupes et on localise un centroïde des sous-groupes à l'aide d'une technique non paramétrique et itérative dite de « mean-shift » basée sur un noyau Gaussien et par exemple décrite dans le document de Chen, intitulé « Mean Shift, mode seeking and clustering' » , publié par la revue IEEE transaction on pattern analysis and machine en 1995.
Supposons un jeu de données ^ = {x0, x1, .. , xn}, cette technique définit une fenêtre noyau glissante K(x) permettant de sélectionner à chaque itération t un sous ensemble de données X' = {x0, x1, .. , xm} avec (m < n) à partir duquel on calcule un centroïde ct à l'instant t. Ce centroïde est mis à jour à travers les itérations jusqu'à convergence. La densité finale des données (x) est définie comme suit :
Figure imgf000016_0001
où h désigne la taille du noyau K(x) . Cette expression correspond à la définition d'une fenêtre de Parzen qui permet de calculer des histogrammes continus.
Le noyau le plus utilisé est le noyau Gaussien que l'on définit comme suit :
K( ) = e- I2
En relation avec la Figure 8A, on a représenté l'ensemble H des prédictions de pose y^' stockées par les feuilles des arbres de la forêt FD et la trajectoire Tr de la caméra . La Figure 8B montre l'ensemble des poses prédites par le système de prédiction automatique et le centroïde (triangle) résultant d'un regroupement non paramétrique des estimations de pose selon l'étape E5. La valeur réelle de la pose correspond au carré. A l'issue de l'étape E5, on dispose d'une pose y,' estimée pour le couple d'images d'entrée
(Iic, IiD). Les Figures 9A et 9B illustrent l'évolution des performances du système automatique de prédiction en termes d'erreur moyenne de translation sur un ensemble d'images de test, en l'espèce une première base de données RGB-D publique, telle que décrite dans le document de Wasenmûller et al., déjà cité, en fonction d'un nombre d'arbres respectivement d'un nombre d'imagettes. La Figure 9A montre que l'erreur diminue lorsque le nombre d'arbres augmente. Le taux d'erreur est réduit d'environ 15% lorsqu'on passe d'une forêt de 3 arbres à une forêt de 9 arbres. On remarque aussi qu'il est inutile d'augmenter le nombre d'arbres au-delà d'une quinzaine, car cela n'apporte plus d'amélioration des performances.
En relation avec la Figure 9B, on voit que lorsqu'on augmente le nombre d'imagettes de 4 à 12 on fait chuter l'erreur de translation d'environ 80%. Ceci s'explique par le fait que les arbres disposent de plus d'informations sur les images d'entrée ce qui leur permet de produire une prédiction plus précise.
Par exemple, pour la suite de l'expérimentation, on extrait 15 imagettes de taille 20x20 pixels et on utilise une forêt comprenant 15 arbres. On suppose que le système automatique de prédiction selon l'invention a été entraîné à partir de la première base de données publique, d'une deuxième base de données publiques, telle que décrite dans le document de Lai et al. intitulé « Unsupervised Feature Learning for 3D Scène Learning », publié par la conférence IEEE International Conférence on Robotic and Automation » en 2014, pages 3050-3057 et à partir de notre propre base. Les figures 10 présentent l'erreur quadratique moyenne relative à la tr ainsi que l'erreur quadratique moyenne relative à la rotation MSER =
Figure imgf000017_0001
Les Figures 10A et 10B présentent les erreurs quadratiques de la première bases, les Figures 10C et 10D présentent les erreurs obtenus sur des images de la deuxième base et les Figures 10E et 10F les erreurs obtenus sur des images de notre propre base.
Pour la première base, on rapporte une erreur quadratique moyenne de 0.047m en translation et 2.46° par rapport à la rotation. Le système selon l'invention, entraîné sur la deuxième base obtient de meilleurs résultats avec une erreur de 0.029 m pour la translation, et de 1.34° pour la rotation.
Ces résultats sont au moins comparables à ceux de l'état de l'art.
On note des différences en termes de précision entre les deux bases. Elles sont directement liées à la nature de la trajectoire de la caméra . En effet, pour la deuxième base, la caméra présente de petits mouvements à la fois en translation et en rotations (translation selon x et z, rotation seulement autour de y) produisant une meilleure séparation des données au niveau des nœuds des arbres. Au contraire, pour la première base, une trajectoire plus compliquée de la caméra produit un espace de poses de la caméra qui est plus complexe.
Avec nos propres échantillons, on rapporte les erreurs suivantes: 0.051 m, 1.95°, pour la translation et rotation respectivement, donc des performances du même niveau que celles obtenues avec les deux bases publiques.
Avec nos propres échantillons, on rapporte les erreurs suivantes: 0,031 m, 0,017 m et 0,035 m pour les translations et 1,14°, 0,98° et 0,82° pour les rotations, donc des performances du même niveau que celles obtenues avec les deux bases publiques.
Lors de la réalisation de ces expérimentations, 50 % des échantillons des bases ont été utilisés pour l'apprentissage, ce qui représente environ 1500 images issues des scènes de la première base et 400 images de celles de la deuxième base, et les 50 % restants pour le test. Notre base contient 17 scènes. Le même ratio 50-50 lui a été appliqué.
Au cours d'une étape E6 optionnelle, on raffine la pose y,' estimée pour le couple d'images d'entrée (Iic, IiD). Cette étape utilise le nuage de points dense XM de la scène dans le référentiel monde, obtenu suite à l'annotation des images de la base d'apprentissage. Elle nécessite aussi le calcul d'un nuage courant de points L correspondant à l'image de profondeur 1,° dans le référentiel de la caméra (projection sténopé), comme dans la méthode de l'art antérieur.
L'étape E6 s'appuie sur une méthode itérative de recalage dite ICP (pour « Itérative Closest Point », en anglais), par exemple décrite dans le document de Besl et al., intitulé "A Method for Registration of 3-D Shapes", publié par la conférence IEEE Trans. on Pattern Analysis and Machine Intelligence, qui s'est tenue à Los Alamitos, CA, USA: en 1992. Cette méthode permet de minimiser itérativement la distance ou décalage entre le nuage dense XM projeté dans le référentiel de la caméra et le nuage de points courant, comme suit :
min||£M - yi* . {yV . L^ W
On suppose que le nuage de points courant L = {v0, v1, ... vN jcomprend N =wxh points ou vertex , le fait de multiplier ce nuage par la pose yi' estimée (constituée d'une rotation R, et translation T), par l'étape E5, peut s'écrire comme suit : yi'.L = {(R. v0 + T), (R. Vl + T), ... (Λ. vN + T)}
Avec M : nuage dense reconstruit de la scène.
£ : nuage courant (projection de Jd via le modèle sténopé). yi' : pose estimée à la sortie de l'étape d'estimation E5. yi* : pose finale raffinée par I'ICP. Après itération, on obtient une pose yi** raffinée de la caméra .
Cette étape de raffinement optionnelle induit une complexité accrue et nécessite une calibration préalable de la caméra . Elle présente néanmoins l'avantage d'offrir une précision supérieure dans des cas d'usage particuliers pour lesquels une erreur de pose inférieure à celles décrites précédemment est requise.
En relation avec les Figures 11 et 12, on illustre maintenant des différences essentielles entre le procédé selon l'invention et celui de l'art antérieur de Shotton déjà cité. Le procédé selon l'invention est présenté dans la colonne de gauche et celui de l'art antérieur dans la colonne de droite.
Ces différences concernent notamment : la nature des données présentées en entrée du système automatique d'apprentissage ; la supervision du système automatique d'apprentissage ; la nature des données stockées dans les feuilles des arbres ; le post-traitement des données prédites par le système.
Lors de la phase d'entraînement, illustrée par la Figure 11, le procédé selon l'invention fournit au système d'apprentissage des échantillons {Ej,i<} de N images RGB-D (If, 1,°) sous la forme de K imagettes (Pf,
Figure imgf000019_0001
extraites du couple d'images autour de points clés KP et annotées de la pose y, de la caméra lors de l'acquisition de l'image RGB-D.
Comme précédemment évoqué, le procédé selon l'art antérieur applique un prétraitement au couple d'images d'entrée (If, 1,°) annoté de la pose y,, illustré par la Figure 13. Ce prétraitement comprend d'une part une première projection des images (If, 1,°) dans un référentiel de la caméra, à l'aide de paramètres intrinsèques de cette caméra, comprenant un centre de projection (cx,cy), une focale horizontale fx et une focale verticale fy. On notera que dans le cas de pixels carrés, on a fx= fy.
A partir des paramètres intrinsèques du capteur de profondeur de la caméra RGB-D, chaque valeur de profondeu r d (représentée par deux coordonnées de pixel u, v) est projetée dans un référentiel
3D de la caméra, selon un modèle de projection dit de sténopé (pour « pinhole », en anglais) connu en soi, en 3 coordonnées (x, y, z) selon les formules suivantes :
Figure imgf000019_0002
Il s'agit d'une modélisation simple et linéaire du processus de formation des images au sein d'une caméra . Ce modèle suppose que le système optique de la caméra, c'est-à-dire sa lentille respecte les conditions de Gauss. On obtient un nuage de points L qui comprend hxw points (x,y,z), avec w largeur et h hauteu r de l'image If
A l'aide de la pose y, de la caméra, comprenant les paramètres extrinsèques de la caméra, Q et R déjà cités, correspondant à la vérité terrain, ce nuage de points est projeté dans le référentiel monde de la scène (0,x,y,z), selon une deuxième projection basée sur une transformation rigide. Un nuage de points final L comprenant les points projetés (x',y',z') est obtenu.
Les données d'entrée du système automatique d'apprentissage prennent alors la forme suivante : { If, IiD, X,'} avec i allant de 1 à N, N étant le nombre d'images de la collection de données d'apprentissage. Les échantillons d'entrée présentés au système de prédiction automatique diffèrent donc entre les deux méthodes et ils représentent une quantité de données plus grande que les NxK imagettes du procédé selon l'invention.
En ce qui concerne la supervision des arbres, un test binaire t de séparation des données à chaque nœud, est généré de façon similaire pour les deux méthodes, à l'aide d'une fonction f qui calcule une différence d'intensité de couleurs, respectivement une différence de profondeurs, entre pixels de l'image If respectivement 1,°. En revanche, les deux méthodes évaluent les performances de ces séparations de façon distincte, car elles s'appuient sur des fonctions objectives Q différentes.
L'invention minimise une fonction Q définie précédemment comme une distance Euclidienne entre un centroïde des poses et une pose courante atteignant les nœuds fils d'un nœud . Ceci vise à maximiser une pureté de séparation des données. L'art antérieur maximise/minimise une entropie H(s) entre le nœud S parent et ses nœuds fils gauche SL et droit SR.
Quant aux données stockées dans les feuilles, l'invention produit et stocke une distribution Gaussienne des poses prédites par imagette, tandis que l'art antérieur stocke dans une feuille I la prédiction d'un nuage de points moyen X'i dans le référentiel monde.
En ce qui concerne enfin le post-traitement des données prédites par le système de prédiction automatique lors de la phase de test illustrée par la Figure 12, l'art antérieur génère à partir du nuage moyen prédit, un ensemble d'hypothèses de pose de la caméra. Il le fait à l'aide d'un algorithme de type Kabsh, décrit dans le document de Kabsch et al. , intitulé « A solution for the best rotation to relate two sets of vectors », publié par « Acta Cryst. », en 1976. Cet algorithme permet de trouver la meilleure rotation et la meilleure translation entre deux nuages de points en minimisant une erreur quadratique.
Cet ensemble d'hypothèses de poses est ensuite raffiné par des itérations en Ransac (pour « Random Sample Consensus », en anglais) afin de ne garder que les hypothèses les plus plausibles U y;. En utilisant le nuage de points courant X construit à partir de l'échantillon RGB-D courant et une calibration préalable de la caméra RGB-D (projection sténopé), une minimisation d'énergie basée sur un recalage rigide entre X et X, est par les hypothèses de pose générées est réalisée. Ces opérations présentent une importante complexité du fait qu'elles sont directement reliées à la résolution du nuage points (w x h) stocké par une feuille. Au contraire, l'invention propose d'estimer directement une pose moyenne par couple d'images d'entrées à partir des K poses y'i,k prédites pour les K imagettes, par regroupement itératif non paramétrique de type « mean-shift » . Les données de sortie post-traitées par le procédé selon l'invention et la solution de l'art antérieur sont de nature différente, mais la quantité de données à manipuler est elle aussi différente. Le procédé selon l'invention traite K poses prédites par couple d'images d'entrée, tandis que la solution de l'art antérieur traite de façon itérative un nuage de points. On comprend que le post-traitement mis en œuvre par invention est beaucoup moins complexe que celui de l'art antérieur, en termes de nombre d'opérations, temps de calcul et ressources de stockage.
Cette différence de complexité entre les deux méthodes, au profit de l'invention, est confirmée par les Figures 14A à 14D, qui comparent les temps d'apprentissage des deux systèmes en fonction respectivement d'une quantité de données d'apprentissages respectivement en fonction d'un nombre de tests binaires réalisés par leurs arbres. La méthode de l'invention s'avère plus rapide que celle de l'art antérieur. On mesure un ratio de vitesse d'entraînement égal à 1,50 + 0,3 sur la Fig. 14A et à 1,20 + 0,15 sur la Fig .14B. Cette différence apparente est directement liée à la nature des fonctions objectives Q utilisées pour superviser l'apprentissage dans les deux approches. Celle de l'invention est basée sur une distance Euclidienne entre poses, ce qui est beaucoup plus simple et rapide à calculer qu'une distance Euclidienne entre nuages de points de dimensions (w x h) comme dans l'art antérieur.
La Figure 14C compare les quantités de mémoire utilisées par les deux systèmes en fonction de la profondeur de leurs arbres. La Figure 14D compare la quantité de mémoire utilisée en fonction du nombre de données d'apprentissage. L'augmentation de la profondeur maximale d'un arbre augmente le nombre de nœuds de séparation et nécessite plus de mémoire pour enregistrer les paramètres de l'arbre. L'augmentation des données d'entraînement augmente seulement le nombre de feuilles ce qui conduit à une faible variation de la mémoire occupée par l'arbre.
On constate sur ces 4 figures que l'invention permet de réduire notablement les quantités de mémoire et les temps de calcul consommés. En ce qui concerne la mémoire occupée, cet écart s'explique par le fait que la solution de l'art antérieur enregistre approximativement (w x h) sommets correspondant à un nuage de points centroïde au niveau de chaque feuille, tandis que l'invention stocke seulement les paramètres liés à la pose y de la caméra .
L'invention propose ainsi une approche basée sur une forêt décisionnelle aléatoire qui permet d'estimer de façon régressive la pose d'une caméra RGB-D dans un environnement non contraint. Contrairement à l'art antérieur, les échantillons d'apprentissage sont collectés de façon clairsemée ou non dense (pour « sparse », en anglais), sous la forme d'une pluralité d'imagettes centrées sur des points clés du couple d'images acquises par la caméra . Les résultats obtenus, notamment en termes d'erreurs en translation et rotation réalisées sur des bases de données publiques valident cette approche et montrent notamment que le ciblage des régions pertinentes dans les images augmente la robustesse et la généralisation des forêts décisionnelles. En outre, le fait de prédire directement une valeur de pose au niveau d'une feuille plutôt qu'un nuage de points, permet de réduire encore davantage la complexité du système, en termes de quantité de mémoire et de temps de calcul, ce qui est confirmé par les performances comparées entre l'invention et la solution de l'art antérieur.
On notera que l'invention qui vient d'être décrite, peut être mise en œuvre au moyen de composants logiciels et/ou matériels. Dans cette optique, les termes « module » et « entité », utilisés dans ce document, peuvent correspondre soit à un composant logiciel, soit à un composant matériel, soit encore à un ensemble de composants matériels et/ou logiciels, aptes à mettre en œuvre la ou les fonctions décrites pour le module ou l'entité concerné(e).
En relation avec la figure 15, on présente maintenant un exemple de structure simplifiée d'un dispositif 100 d'estimation de pose d'une caméra selon l'invention. Le dispositif 100 met en œuvre le procédé d'estimation de pose selon l'invention qui vient d'être décrit.
Cette figure 15 illustre seulement une manière particulière, parmi plusieurs possibles, de réaliser l'algorithme détaillé ci-dessus. En effet, la technique de l'invention se réalise indifféremment sur une machine de calcul reprogrammable (un ordinateur PC, un processeur DSP ou un microcontrôleur) configurée pour exécuter un programme comprenant une séquence d'instructions, ou sur une machine de calcul dédiée (par exemple un ensemble de portes logiques comme un FPGA ou un ASIC, ou tout autre module matériel).
Dans le cas où l'invention est implantée sur une machine de calcul reprogrammable, le programme correspondant (c'est-à-dire la séquence d'instructions) pourra être stocké dans un médium de stockage amovible (tel que par exemple une disquette, un CD-ROM ou un DVD-ROM) ou non, ce médium de stockage étant lisible partiellement ou totalement par un ordinateur ou un processeur.
Par exemple, le dispositif 100 comprend une unité de traitement 110, équipée d'un processeur μΐ, et pilotée par un programme d'ordinateur Pg l 120, stocké dans une mémoire 130 et mettant en œuvre le procédé de selon l'invention.
A l'initialisation, les instructions de code du programme d'ordinateur Pgi 120 sont par exemple chargées dans une mémoire RAM avant d'être exécutées par le processeur de l'unité de traitement 110. Le processeur de l'unité de traitement 110 met en œuvre les étapes du procédé décrit précédemment, selon les instructions du programme d'ordinateur 120.
Dans cet exemple de réalisation de l'invention, le dispositif 100 comprend une machine kde calcul reprogrammable ou une machine de calcul dédiée, apte à et configurée pour : - Obtenir OBT au moins une image d'intensités de couleur et une image de profondeur de la scène capturées par la caméra ;
Extraire EXTR une pluralité de points d'intérêt de ladite au moins une image d'intensités de couleurs, un dit point étant invariant par transformation géométrique de l'image ; - Former DET PT une pluralité d'imagettes issues de ladite au moins une image d'intensités de couleur et de ladite image de profondeur, une imagette comprenant un point d'intérêt de la pluralité extraite;
Prédire PRED une pose de la pluralité d'imagettes par application d'un système d'apprentissage automatique, ledit système ayant été entraîné pour produire une pose prédite de la caméra par imagette, à l'aide d'un ensemble d'apprentissage comprenant un groupe d'imagettes associées à une pose connue dans le référentiel de la scène, lesdites imagettes étant issues d'une pluralité d'images de la scène acquises par la caméra depuis une pluralité de points de vue;
Estimation EST d'une pose de la caméra à partir de la pluralité de poses prédites. Avantageusement, la machine de calcul est configurée pour mettre en œuvre les modes de réalisation de l'invention qui viennent d'être décrits en relation avec les Figures 1 et 7. Optionnellement, elle peut mettre en œuvre un raffinement de la pose de la caméra tel que décrit en relation avec la Figure 7.
Elle est en outre apte à mettre en œuvre la phase d'apprentissage et la phase de test du système de prédiction automatique selon l'invention telles que précédemment décrites. Elle est alors configurée pour :
Obtenir une collection de données d'apprentissage, comprenant une pluralité de couples d'images d'intensité de couleur et de profondeur de la scène acquises par la caméra, un couple étant associé à une pose connue de la caméra ; - Extraire une pluralité de points d'intérêt de ladite image d'intensités de couleurs, un dit point étant invariant par transformation géométrique de l'image ; Former une pluralité de couples d'imagettes, respectivement dans l'image d'intensités de couleur et dans l'image de profondeur, une imagette comprenant un point d'intérêt de la pluralité de points d'intérêts extraite;
Entraîner un système automatique de prédiction de pose à partir d'échantillons comprenant un dit cou ple d'imagettes et la pose du couple d'images dont elles sont issues.
Le dispositif 100 comprend en outre une unité Mi 140 de stockage, telle qu'une mémoire, par exemple de type mémoire tampon (pour « buffer », en anglais), apte à stocker par exemple les échantillons d'apprentissage {Ei,i< }, les paramètres de séparation au niveau des nœuds non feuilles ou les distributions Gaussiennes de poses au niveau des feuilles par le système.
Ces unités sont pilotées par le processeur μΐ de l'unité de traitement 110.
De façon avantageuse, un tel dispositif 100 d'estimation de pose peut être intégré à un système 10 de réalité augmentée.
Un tel système 10 comprend, en plus du dispositif 100, au moins un module d'acquisition MACQ d'images d'entrée, comprenant par exemple une caméra RGB-D apte à capturer des images d'une scène réelle, un module d'annotation de poses ANNOT apte à déterminer les poses à associer aux images d'entrée pour la phase d'apprentissage, un module de composition COMP apte à composer une image de sortie, dite « augmentée » à partir d'une image d'entrée de la scène acquise par la caméra et au moins un objet réel ou virtuel, à l'aide d'une position initiale dudit au moins un objet dans la scène et d'une pose estimée de la caméra et un module DISP d'affichage apte à restituer l'image de sortie.
Selon une variante, le dispositif 100, une fois entraîné, peut être intégré à un équipement terminal ET, par exemple un ordinateur personnel, qui peut être mobile, comme une tablette ou un téléphone intelligent (pour « smartphone », en anglais), est lui-même compris dans le système 10. Le dispositif 100 est alors agencé pour coopérer au moins avec les modules suivants du système
10 ou de l'équipement terminal ET: un module E/R d'émission/réception de données, par l'intermédiaire duquel une image RGB- D est obtenue, par exemple en provenance d'une base de données distante; et/ou le module d'acquisition MACQ de la séquence d'images d'entrée, tel que par exemple une caméra vidéo RGB-D, par exemple via un câble HDMI ; le module d'annotation ANNOT apte à produire une pose associée à une image RGB-D acquise par la caméra, par exemple de type kinectfusion® ;
- le dispositif d'affichage DISP, configuré pour restituer une composition d'u ne image RGB-D dans la scène virtuelle ou réelle à l'aide de la pose estimée de la caméra .
Grâce à ses bonnes performances et à sa simplicité de mise en œuvre, l'invention qui vient d'être décrite permet plusieurs usages. Une première application est d'augmenter la réalité d'une scène filmée par la caméra RGB-D, en y injectant des objets supplémentaires, virtuels ou réels. On connaît par exemple une application de décoration intérieure, qui permet à un client de tester virtuellement l'agencement d'un mobilier dans une pièce de son appartement, avant se décider à l'achat. Cette application nécessite une estimation de la pose de la caméra dans un référentiel de la pièce, de façon à localiser l'image qu'elle acquiert dans la scène et à y insérer, lors de leur restitution sur un dispositif d'affichage, le mobilier virtuel avec les bonnes dimensions et la bonne perspective. Une position spatiale du mobilier virtuel est initialisée dans la scène. Elle nécessite une connaissance a priori d'une structure 3D de la pièce. Ensuite, un suivi de la trajectoire de la caméra est réalisé en estimant sa pose dans un référentiel de la scène selon l'invention, ce qui permet, pour chaque nouvelle image acquise, de projeter le mobilier virtuel dans la scène, à la bonne position et avec la bonne perspective. Avec l'invention, du fait que le traitement est moins complexe, il devient envisageable de mettre en œuvre cette application, au moins pour sa phase de test, sur un équipement terminal mobile, de type tablette ou téléphone intelligent (pour « smartphone », en anglais), pourvu qu'elle soit équipée d'une caméra RGB-D.
Une deuxième application envisagée est l'assistance d'un opérateur de maintenance, par exemple d'avions. On suppose qu'il acquiert une image de pièces du moteur à partir d'un équipement terminal mobile, de type tablette. Le système selon l'invention lui permet, dans sa phase de test, d'estimer la pose de la caméra dans la scène constituée par le moteur de l'avion à partir de l'image courante. La connaissance au préalable de la structure 3D du moteur permet d'initialiser un rendu d'informations supplémentaires relatives à une de ses pièces. Par exemple, on affiche une référence du modèle, des informations relatives à sa qualité, une date d'installation etc. Avec l'invention, il est possible de suivre la trajectoire de la caméra et d'estimer sa pose à chaque nouvelle image acquise. De cette manière, les informations supplémentaires sont projetées dans chaque nouvelle image acquise par la caméra avec la bonne perspective, ce qui garantit de maintenir au cours du temps un réalisme du rendu de la scène vue par la caméra. Lorsqu'il s'agit d'insérer dans la scène des modèles virtuels d'informations supplémentaires associés à deux pièces voisines du moteur, un niveau de précision accru peut être nécessaire pour garantir que la projection d'un modèle coïncide exactement avec la pièce à laquelle il se rapporte. Dans ce cas, un raffinement par recalage itératif de la pose estimée selon l'invention peut être avantageusement mis en œuvre.
Il va de soi que les modes de réalisation qui ont été décrits ci-dessus ont été donnés à titre purement indicatif et nullement limitatif, et que de nombreuses modifications peuvent être facilement apportées par l'homme de l'art sans pour autant sortir du cadre de l'invention.

Claims

1. Procédé d'estimation de pose d'une caméra dans un référentiel d'une scène tridimensionnelle, ledit procédé étant caractérisé en ce qu'il comprend les étapes suivantes :
Obtention (El) d'une image d'intensités de couleur et d'une image de profondeur de la scène capturées par la caméra ;
Extraction (E2) d'une pluralité de points d'intérêt de ladite image d'intensités de couleurs, un dit point étant invariant par transformation géométrique de l'image ;
Formation (E3) d'une pluralité d'imagettes dans l'image d'intensités de couleur et dans l'image de profondeur, une imagette comprenant un point d'intérêt de la pluralité extraite;
Prédiction (E4) de pose de la pluralité d'imagettes par application d'un système de prédiction automatique, ledit système ayant été entraîné pour produire une pose prédite de la caméra par imagette, à l'aide d'un ensemble d'apprentissage comprenant un groupe d'imagettes associées à une pose connue dans le référentiel de la scène, lesdites imagettes étant issues d'une pluralité d'images de la scène acquises par la caméra depuis une pluralité de points de vue;
Estimation (E5) d'une pose de la caméra à partir de la pluralité de poses prédites.
Procédé selon la revendication précédente, caractérisé en ce qu'il comprend une phase préalable d'apprentissage comprenant les étapes suivantes :
Obtention (Al) d'une collection de données d'apprentissage, comprenant une pluralité de couples d'images d'intensité de couleur et de profondeur de la scène acquises par la caméra, un couple étant associé à une pose connue de la caméra ;
Extraction (A2) d'une pluralité de points d'intérêt de ladite image d'intensités de couleurs, un dit point étant invariant par transformation géométrique de l'image ;
Formation (A3) d'une pluralité de couples d'imagettes, respectivement dans l'image d'intensités de couleur et dans l'image de profondeu r, une imagette comprenant un point d'intérêt de la pluralité de points d'intérêts extraite; Entraînement (A4) du système automatique de prédiction de pose à partir d'échantillons comprenant un dit couple d'imagettes et la pose du couple d'images dont elles sont issues.
Procédé d'estimation de pose d'une caméra selon la revendication 2, caractérisé en ce que, le
Figure imgf000028_0001
système de prédiction automatique comprenant une forêt décisionnelle aléatoire (FD) comprenant une pluralité d'arbres de décision (ADm), un arbre de décision comprenant des nœuds séparateurs (nd), apte à séparer de façon binaire un groupe d'échantillons issu d'un nœud amont en sous-groupes, à transmettre les sous-groupes à des nœuds séparateurs aval, et des nœuds feuilles (I), aptes à stocker une distribution des poses associées à un sous-groupe reçu d'un nœud séparateur amont, l'étape (A4) d'entraînement comprend un calcul d'un test de séparation binaire sur une différence de valeurs entre deux pixels d'une imagette de l'échantillon, une évaluation de la séparation selon une mesure de pureté des sous-groupes basé sur une distance entre les poses d'un sous-groupe et le centroïde du sous-groupe, et une sélection du test qui maximise la mesure de pureté.
Procédé d'estimation de pose selon la revendication précédente, caractérisé en ce que le deuxième critère prend en compte une fonction objective qui s'exprime sous la forme suivante :
Figure imgf000028_0002
où L est l'ensemble des nœuds fils gauche, R l'ensemble des nœuds fils droits, Sn ensemble des échantillons qui arrivent au nœud aval gauche respectivement droit, |5n| désigne le cardinal de l'ensemble Sn.
Procédé d'estimation de pose selon l'une des revendications précédentes, caractérisé en ce qu'il comprend une étape (E6) de raffinement de la pose estimée de la caméra par recalage d'un nuage de points reconstruit dans un référentiel de la caméra à partir de l'image de profondeur et d'un nuage de points dense de la scène projeté dans ledit référentiel à l'aide de la pose estimée.
Dispositif (100) d'estimation de pose d'une caméra dans un référentiel d'une scène tridimensionnelle, ledit dispositif comprenant une machine de calcul dédiée à ou configurée pour :
Obtenir (ACQ) une image d'intensités de couleur et u ne image de profondeur de la scène capturées par la caméra ; Extraire (EXTR) une pluralité de points d'intérêt de ladite image d'intensités de couleurs, un dit point étant invariant par transformation géométrique de l'image ;
Former (DET PT) une pluralité d'imagettes dans l'image d'intensités de couleur et dans l'image de profondeur, une imagette comprenant un point d'intérêt de la pluralité extraite;
Prédire (PRED) une pluralité de poses à partir de la pluralité d'imagettes par application d'un système d'apprentissage automatique, ledit système ayant été entraîné pour produire une pose prédite de la caméra par imagette, à l'aide d'un ensemble d'apprentissage comprenant un groupe d'imagettes associées à une pose connue dans le référentiel de la scène, lesdites imagettes étant issues d'une pluralité d'images de la scène acquises par la caméra depuis une pluralité de points de vue;
Estimation (DET PS) d'une pose de la caméra à partir de la pluralité de poses prédites.
Système (10) de réalité augmentée comprenant : un module (MACQ) d'acquisition d'images comprenant une caméra apte à acquérir une image d'intensités de couleurs et une image de profondeur d'une scène tridimensionnelle réelle, un module (COMP) de composition d'images apte à composer une image de sortie à partir d'une image d'entrée acquise de la scène par la caméra et au moins un objet réel ou virtuel, à l'aide d'une position initiale dudit au moins un objet dans la scène et d'une pose estimée de la caméra, un module (DISP) d'affichage apte à restituer l'image de sortie, caractérisé en ce qu'il comprend un dispositif selon la revendication 6, apte à estimer ladite pose dans une phase de test.
Système (10) de réalité augmentée selon la revendication 7, caractérisé en ce qu'il comprend un module (ANNOT) d'annotation d'images d'entrée, apte à calculer une pose d'une image d'entrée, ladite pose étant exploitée par le dispositif (100) d'estimation de pose selon la revendication 6, dans une phase d'apprentissage.
Programme d'ordinateur (Pg l) comportant des instructions pour la mise en œuvre du procédé de suivi de cible selon l'une quelconque des revendications 1 à 5, lorsque ledit programme est exécuté par un processeur. Support d'enregistrement lisible par un ordinateur, sur lequel est enregistré un programme d'ordinateur comprenant des instructions de code de programme pour l'exécution des étapes du procédé selon l'une des revendications 1 à 5.
PCT/EP2018/058493 2017-04-06 2018-04-03 Procede d'estimation de pose, dispositif, systeme et programme d'ordinateur associes WO2018185104A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1753019 2017-04-06
FR1753019A FR3065100B1 (fr) 2017-04-06 2017-04-06 Procede d'estimation de pose, dispositif, systeme et programme d'ordinateur associes

Publications (1)

Publication Number Publication Date
WO2018185104A1 true WO2018185104A1 (fr) 2018-10-11

Family

ID=59745989

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2018/058493 WO2018185104A1 (fr) 2017-04-06 2018-04-03 Procede d'estimation de pose, dispositif, systeme et programme d'ordinateur associes

Country Status (2)

Country Link
FR (1) FR3065100B1 (fr)
WO (1) WO2018185104A1 (fr)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191492A (zh) * 2018-11-15 2020-05-22 北京三星通信技术研究有限公司 信息估计、模型检索和模型对准方法和装置
CN111223053A (zh) * 2019-11-18 2020-06-02 北京邮电大学 基于深度图像的数据增强方法
CN111259934A (zh) * 2020-01-09 2020-06-09 清华大学深圳国际研究生院 一种基于深度学习的堆叠物体6d位姿估计方法和装置
CN111881804A (zh) * 2020-07-22 2020-11-03 汇纳科技股份有限公司 基于联合训练的姿态估计模型训练方法、系统、介质及终端
CN112991445A (zh) * 2021-03-03 2021-06-18 网易(杭州)网络有限公司 模型训练方法、姿态预测方法、装置、设备及存储介质
CN113297988A (zh) * 2021-05-28 2021-08-24 东南大学 一种基于域迁移和深度补全的物体姿态估计方法
CN113705440A (zh) * 2021-08-27 2021-11-26 华中师范大学 一种面向教育机器人视觉理解的头部姿态估计方法及系统
CN116681755A (zh) * 2022-12-29 2023-09-01 广东美的白色家电技术创新中心有限公司 位姿预测方法和装置

Non-Patent Citations (11)

* Cited by examiner, † Cited by third party
Title
BAY ET AL.: "Speeded-up Robust Features (SURF", COMPUTER VISION AND IMAGE UNDERSTANDING, 2008, pages 346 - 359, XP022652944, DOI: doi:10.1016/j.cviu.2007.09.014
BESL ET AL.: "A Method for Registration of 3-D Shapes", CONFÉRENCE IEEE TRANS. ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, 1992
KABSCH ET AL.: "A solution for the best rotation to relate two sets of vectors", ACTA CRYST., 1976
KEHL WADIM ET AL: "Deep Learning of Local RGB-D Patches for 3D Object Detection and 6D Pose Estimation", 17 September 2016, NETWORK AND PARALLEL COMPUTING; [LECTURE NOTES IN COMPUTER SCIENCE; LECT.NOTES COMPUTER], SPRINGER INTERNATIONAL PUBLISHING, CHAM, PAGE(S) 205 - 220, ISBN: 978-3-642-17571-8, ISSN: 0302-9743, XP047355337 *
LAI ET AL.: "Unsupervised Feature Learning for 3D Scene Learning", CONFÉRENCE IEEE INTERNATIONAL CONFÉRENCE ON ROBOTIC AND AUTOMATION, 2014, pages 3050 - 3057, XP032650517, DOI: doi:10.1109/ICRA.2014.6907298
NEWCOMBE: "KinectFusion : Real-time Dense Surface Mapping and Tracking", CONFÉRENCE IEEE INTERNATIONAL SYMPOSIUM ON MIXED AND AUGMENTED REALITY (ISMAR, 2011
SHOTTON ET AL.: "Scene Coordinate Régression Forests for Camera Relocalisation in RGB-D images", CONFÉRENCE IEEE CONFÉRENCE ON COMPUTER VISION AND PATTERN RÉCOGNITION, 2013
SHOTTON JAMIE ET AL: "Scene Coordinate Regression Forests for Camera Relocalization in RGB-D Images", IEEE COMPUTER SOCIETY CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION. PROCEEDINGS, IEEE COMPUTER SOCIETY, US, 23 June 2013 (2013-06-23), pages 2930 - 2937, XP032493113, ISSN: 1063-6919, [retrieved on 20131002], DOI: 10.1109/CVPR.2013.377 *
TULYAKOV SERGEY ET AL: "Robust Real-Time Extreme Head Pose Estimation", INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION, IEEE COMPUTER SOCIETY, US, 24 August 2014 (2014-08-24), pages 2263 - 2268, XP032698709, ISSN: 1051-4651, [retrieved on 20141204], DOI: 10.1109/ICPR.2014.393 *
WANG BINGJIE ET AL: "Head Pose Estimation with Combined 2D SIFT and 3D HOG Features", 2013 SEVENTH INTERNATIONAL CONFERENCE ON IMAGE AND GRAPHICS, IEEE, 26 July 2013 (2013-07-26), pages 650 - 655, XP032515511, DOI: 10.1109/ICIG.2013.133 *
WASENMÜLLER ET AL.: "Corbs : Comprehensive RGB-D Benchmark for SLAM using Kinect v2", CONFÉRENCE APPLICATIONS OF COMPUTER VISION, 2016, pages 1 - 7, XP032904278, DOI: doi:10.1109/WACV.2016.7477636

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191492A (zh) * 2018-11-15 2020-05-22 北京三星通信技术研究有限公司 信息估计、模型检索和模型对准方法和装置
CN111223053A (zh) * 2019-11-18 2020-06-02 北京邮电大学 基于深度图像的数据增强方法
CN111259934A (zh) * 2020-01-09 2020-06-09 清华大学深圳国际研究生院 一种基于深度学习的堆叠物体6d位姿估计方法和装置
CN111259934B (zh) * 2020-01-09 2023-04-07 清华大学深圳国际研究生院 一种基于深度学习的堆叠物体6d位姿估计方法和装置
CN111881804A (zh) * 2020-07-22 2020-11-03 汇纳科技股份有限公司 基于联合训练的姿态估计模型训练方法、系统、介质及终端
CN111881804B (zh) * 2020-07-22 2023-07-28 汇纳科技股份有限公司 基于联合训练的姿态估计模型训练方法、系统、介质及终端
CN112991445B (zh) * 2021-03-03 2023-10-24 网易(杭州)网络有限公司 模型训练方法、姿态预测方法、装置、设备及存储介质
CN112991445A (zh) * 2021-03-03 2021-06-18 网易(杭州)网络有限公司 模型训练方法、姿态预测方法、装置、设备及存储介质
CN113297988A (zh) * 2021-05-28 2021-08-24 东南大学 一种基于域迁移和深度补全的物体姿态估计方法
CN113297988B (zh) * 2021-05-28 2024-03-22 东南大学 一种基于域迁移和深度补全的物体姿态估计方法
CN113705440A (zh) * 2021-08-27 2021-11-26 华中师范大学 一种面向教育机器人视觉理解的头部姿态估计方法及系统
CN113705440B (zh) * 2021-08-27 2023-09-01 华中师范大学 一种面向教育机器人视觉理解的头部姿态估计方法及系统
CN116681755A (zh) * 2022-12-29 2023-09-01 广东美的白色家电技术创新中心有限公司 位姿预测方法和装置
CN116681755B (zh) * 2022-12-29 2024-02-09 广东美的白色家电技术创新中心有限公司 位姿预测方法和装置

Also Published As

Publication number Publication date
FR3065100B1 (fr) 2019-04-12
FR3065100A1 (fr) 2018-10-12

Similar Documents

Publication Publication Date Title
WO2018185104A1 (fr) Procede d&#39;estimation de pose, dispositif, systeme et programme d&#39;ordinateur associes
EP3707676B1 (fr) Procédé d&#39;estimation de pose d&#39;une caméra dans le référentiel d&#39;une scène tridimensionnelle, dispositif, système de réalite augmentée et programme d&#39;ordinateur associé
Wan et al. CoRRN: Cooperative reflection removal network
Jin et al. Learning to extract a video sequence from a single motion-blurred image
EP2549434B1 (fr) Procédé de modélisation de bâtiments à partir d&#39;une image géoréférencée
EP2491532B1 (fr) Procede, programme d&#39;ordinateur et dispositif de suivi hybride de representations d&#39;objets, en temps reel, dans une sequence d&#39;images
EP3138079B1 (fr) Procédé de suivi de forme dans une scène observée par un capteur asynchrone de lumière
FR2884008A1 (fr) Systeme et procede de localisation de points d&#39;interet dans une image d&#39;objet mettant en oeuvre un reseau de neurones
EP3200153B1 (fr) Procédé de détection de cibles au sol et en mouvement dans un flux vidéo acquis par une caméra aéroportée
FR3086434A1 (fr) Procede et systeme de controle non destructif d&#39;une piece aeronautique par recalage de contour
WO2009101365A2 (fr) Procede pour generer une image de densite d&#39;une zone d&#39;observation
WO2010142896A1 (fr) Procédés et dispositifs d&#39;identification d&#39;objets réels, de suivi de la représentation de ces objets et de réalité augmentée, dans une séquence d&#39;images, en mode client-serveur
WO2016097168A1 (fr) Procede de discrimination et d&#39;identification par imagerie 3d d&#39;objets d&#39;une scene
WO2010142897A2 (fr) Procédé et dispositif de calibration d&#39;un capteur d&#39;images utilisant un système temps réel de suivi d&#39;objets dans une séquence d&#39;images
WO2020157733A1 (fr) Procédé dynamique d&#39;imagerie tridimensionnelle
MEDOUAKH Détection et suivi d’objets
EP4078522A1 (fr) Procede de selection de points de surface a partir d&#39;un modele cao pour la localisation d&#39;objets 3d industriels, application de ce procede a la localisation d&#39;objets 3d industriels, et systeme de realite augmentee exploitant des objets 3d ainsi localises
Monakhova Physics-Informed Machine Learning for Computational Imaging
WO2023031305A1 (fr) Procédé de mise en relation d&#39;une image candidate avec une image de référence
WO2012107696A1 (fr) Procédés, dispositif et programmes d&#39;ordinateur pour la reconnaissance de formes, en temps réel, à l&#39;aide d&#39;un appareil comprenant des ressources limitées
WO2021245290A1 (fr) Génération de modèles 3d à l&#39;échelle à partir d&#39;images 2d produites par un dispositif d&#39;imagerie monoculaire
FR3009471A1 (fr) Procede de traitement d&#39;une sequence d&#39;images, programme d&#39;ordinateur et dispositif de traitement correspondants
EP2769360A1 (fr) Procédé de localisation d&#39;objets par résolution dans l&#39;espace tridimensionnel de la scène
ALI Mémoire de master recherche.
FR3059124A1 (fr) Procede d&#39;indexation de videos, et procede de recherche d&#39;une sequence video dans une base de videos

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18716577

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18716577

Country of ref document: EP

Kind code of ref document: A1