WO2020201392A1 - Procédé, programme d'ordinateur et système pour l'identification d'une instance d'objet dans une scène tridimensionnelle - Google Patents

Procédé, programme d'ordinateur et système pour l'identification d'une instance d'objet dans une scène tridimensionnelle Download PDF

Info

Publication number
WO2020201392A1
WO2020201392A1 PCT/EP2020/059323 EP2020059323W WO2020201392A1 WO 2020201392 A1 WO2020201392 A1 WO 2020201392A1 EP 2020059323 W EP2020059323 W EP 2020059323W WO 2020201392 A1 WO2020201392 A1 WO 2020201392A1
Authority
WO
WIPO (PCT)
Prior art keywords
descriptor
point
points
representative point
object instance
Prior art date
Application number
PCT/EP2020/059323
Other languages
English (en)
Inventor
Fabrice MAYRAN DE CHAMISSO
Mohamed TAMAAZOUSTI
Boris MEDEN
Original Assignee
Commissariat à l'énergie atomique et aux énergies alternatives
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Commissariat à l'énergie atomique et aux énergies alternatives filed Critical Commissariat à l'énergie atomique et aux énergies alternatives
Priority to EP20714626.7A priority Critical patent/EP3948654A1/fr
Publication of WO2020201392A1 publication Critical patent/WO2020201392A1/fr

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/653Three-dimensional objects by matching three-dimensional models, e.g. conformal mapping of Riemann surfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Definitions

  • the present invention relates to a method of identifying an instance of an object in data representing a three-dimensional scene using a descriptor. It also relates to a computer program and a corresponding system.
  • object model in this three-dimensional context, is meant a predetermined representation of a referencing object. It can consist of a modeled representation, for example by computer, in three spatial dimensions of a real object in the form of a three-dimensional cloud of points, a mesh set of faces or any other representation. mathematical (explicit, implicit, parametric, etc.) that can be converted into a three-dimensional cloud of points. It can also be derived from a real scene capture, using one or more sensors, in which the representation of the object as a three-dimensional cloud of points and its arrangement are sufficiently controlled to make a reference.
  • object instance in a three-dimensional scene, we mean a comparable representation of an object in this three-dimensional scene, that is to say a representation modeled in the form of a three-dimensional cloud of points, a mesh set of faces. or any other mathematical representation that can be converted into a three-dimensional cloud of points.
  • Concrete industrial applications are numerous and go beyond the detection and location of objects. They include in a non-exhaustive way:
  • the last application includes in particular the unloading (from the English "bin picking") consisting of recognizing and then moving successively or simultaneously, using one or more robot arms, loose objects in a chain of production or in a storage location.
  • the first step it generally consists in preprocessing the representation data of the three-dimensional scene obtained by one or more sensors, in selecting particular points of interest to be matched in the scene and in the model or in the other scene, in calculating the values taken by local or global descriptors intended to be associated with these particular points selected to facilitate and improve the matching, then to carry out the actual matching.
  • This first step can also be implemented in more general applications than the detection, recognition or location of an object by registration.
  • the proposed solutions generally suffer from limitations, either in terms of the ability to discriminate between different points of the same object instance or of different object instances in the same scene, that is to say the ability to provide sufficiently different values at different points to distinguish them, either in terms of the complexity of the calculations to be carried out and therefore of the calculation time.
  • the descriptor defined and used in the aforementioned US Pat. No. 8,830,229 B2 is applied to each pair of points of a set of selected representative points of the surface of an object instance.
  • This way of proceeding immediately presents a defect that is difficult to overcome: it heuristically chooses pairs of points, which is by nature costly in computing time.
  • the dimensions expressed in distances and angles of this descriptor are not homogeneous and therefore difficult to index in a search structure.
  • the various state-of-the-art descriptors have equivalent strengths and weaknesses.
  • those skilled in the art have made them more and more complex, in particular using statistical-based approaches including calculations of histograms, signatures and moments of distributions. These calculations are slow, difficult to interpret concretely, by covering in a suboptimal way the space of values that the descriptors can take.
  • the descriptor more precisely takes the form of a multivalued parameter, that is to say multidimensional, resulting from projections on different planes defined in the local coordinate system for the supply of histogram moments expressed in 135 dimensions. In this it is about a volume descriptor of very great complexity. It presents interesting properties and is, according to its authors, very discriminating and robust to noise, but at the cost of slow calculations to execute and slow resultant values to compare. In addition, the high number of dimensions reduces robustness to noise and makes the descriptor oversized compared to most concrete applications. Sub-sampling of the input data and / or of the set of calculated values of the descriptor must then be considered, but they significantly reduce the performance because the heuristic used to down-sample is always imperfect. Moreover, this descriptor is not suitable for a comparison of its values by calculations of Euclidean distances generally used in the known rapid search methods.
  • Another descriptor defined in patent document US Pat. No. 8,274,508 B2, also has interesting properties. Like the previous one, it involves selecting points representative of an object instance surface in representation data of a three-dimensional scene, determining a three-dimensional local coordinate system at each selected representative point, and calculating a plurality of identifying values taken by the descriptor in the local coordinate system determined for each representative point selected. However, it is defined on a much smaller number of dimensions and is limited to surface calculations of much less complexity. More precisely, it takes the form of a multivalued parameter resulting from calculations of elevations, with respect to the surface of the object instance considered, of concentric zones located in a tangent plane transposed locally at each selected representative point. But it also involves statistical calculations making its values slow to calculate.
  • the descriptor is defined at least in part by a set of points with predetermined coordinates transposable into each determined local coordinate system;
  • the calculation of the plurality of identifying values comprises, for each selected representative point and each point of the descriptor, the estimation of at least one value of the closest distance between this point of the descriptor transposed into the determined local coordinate system of the selected representative point and the surface of the object instance.
  • each selected representative point is a point on the surface of the object instance
  • the polygon is transposed into a plane locally tangent to the surface of the object instance at the selected representative point.
  • all the points of the descriptor form a regular polygon which can be transposed with a possible adaptation of the radius of its circumscribed circle to a local curvature parameter of the surface of the object instance at each representative point selected.
  • each selected representative point is a point on a main axis or curve of the object instance
  • the polygon is transposed into a plane locally normal to the axis or the main curve of the object instance and comprising the selected representative point.
  • said at least one estimated closest distance value is a point-to-point distance value, a point-to-plane distance value or a combination of these distance values.
  • the transposition of the set of points of the descriptor includes a three-dimensional translation, a three-dimensional rotation as well as a change of scale. This makes it possible to transpose all the points of the descriptor into a local coordinate system linked to the representative point considered in the three-dimensional scene.
  • the calculation of the plurality of identifying values further comprises a computation of the confidence score of the descriptor at each selected representative point, this computation of the confidence score being a function of the plurality of identifying values.
  • the descriptor is further defined by at least one of the elements of the set consisting of:
  • a system for identifying an instance of an object in data representing a three-dimensional scene using a descriptor, the system comprising:
  • At least one memory for storing data representing the three-dimensional scene and predetermined coordinates of the set of points of the descriptor
  • Figure 1 shows schematically an example of a digital representation in three-dimensional imaging of several object models
  • FIG. 2 schematically represents an example of a digital representation in three-dimensional imaging of a three-dimensional scene comprising several instances of objects
  • Figure 3 schematically shows the general structure of a detection system and three-dimensional localization of at least one object instance in three-dimensional scene representation data such as those of Figure 2 , including an object instance identification system according to one embodiment of the invention
  • Figure 4 illustrates the adaptation of a descriptor according to an embodiment of the invention at a point representative of a three-dimensional scene, produced by the system of Figure 3, and
  • FIG. 5 illustrates the successive steps of a method for detecting and three-dimensional localization of at least one object instance implemented by the system of FIG. 3, including an identification of each object instance present in the three-dimensional scene of FIG. 2 and of each object model of FIG. 1, according to one embodiment of the invention.
  • the set 10 of three-dimensional models shown in Figure 1 is an artificial scene consisting of several models of artificial objects. It could also be a real reference scene made up of models of real objects, the arrangement of which is known and controlled. It consists here of three models of objects chosen as an illustrative example.
  • a first three-dimensional model 12 represents an inclined T-pipe fitting.
  • a second three-dimensional model 14 represents an elbow pipe fitting.
  • a third three-dimensional model 16 represents a section rolled up from one of its ends.
  • the models 12, 14 and 16 are well separated from each other in the set 10. But they could advantageously be superimposed while being all centered in the set 10, while remaining distinguishable at the using distinctive labels associated with the points that constitute them.
  • their sampling is the same or at least similar.
  • the set 10 might have only one three-dimensional model.
  • the three-dimensional scene 20 represented in FIG. 2 results from a three-dimensional capture obtained using a 3D sensor of a real scene. It is made up of three-dimensional points or "3D points" of a reference frame which is clean, each indicating by a shade of gray or color information the presence of real instances of objects in the real scene.
  • 3D points three-dimensional points or "3D points" of a reference frame which is clean, each indicating by a shade of gray or color information the presence of real instances of objects in the real scene.
  • two instances of objects 22 and 24 corresponding to the model of inclined T-pipe fitting 12 three instances of objects 26, 28 and 30 corresponding to the model of elbow pipe fitting 14, an object instance 32 of the straight T-pipe fitting type having no corresponding model in the set 10 and no object instance corresponding to the profile model 16.
  • certain instances of objects of scene 20 may only be partially visible.
  • This correspondence consists in finding the parameters of a rigid transformation in translation, in rotation, and possibly in change of scale (enlargement or reduction of size), which allows if necessary to pass from the positioning of each object instance in scene 20 to that of its model in set 10, or vice versa, from the positioning of each model in set 10 to that of an object instance that corresponds to it in scene 20. It will be recalled, however, that the example illustrated by FIGS. 3 and 5 relates to only one particular family of possible applications of the present invention, that of the detection and location of an object in a scene three-dimensional, the invention extending to applications beyond this particular family.
  • the system 40 for the detection and three-dimensional localization of instances of objects 22 to 32 comprises a processing unit 42 associated in a conventional manner with a memory 44 (for example a RAM memory ).
  • This memory 44 stores, for example, in particular data 46 representing the scene 20, data 48 representing the set 10 of three-dimensional models and the predetermined coordinates 50 of a set of points defining at least in part a descriptor.
  • the processing unit 42 can be implemented in a computing device such as a conventional computer comprising a processor associated with a or more memories for storing data files and computer programs.
  • the processing unit 42 can then itself be considered as formed of a processor 52 for matching instances and models of objects associated with a memory 54 for storing instructions that it executes in the form of programs. computers.
  • the processor can optionally be adapted for such parallelism, for example in the form of a GPU processor (standing for “Graphics Processing Unit”).
  • a first program 56 is for example designed for the execution of a method of identifying instances of objects of the three-dimensional scene 20 using the descriptor defined at least in part. by the set of points at the predetermined coordinates 50 stored in the memory 44. This identification consists in calculating the identifying values that the descriptor takes at several particular points to be selected for each instance of the object considered.
  • This same first program 56 also allows a similar identification of the object models of the set 10. It is its operation which is the main object of the present invention, by a clever choice of descriptor.
  • This first program 56 associated with the processor 52 in the processing unit 42 and with the memory 44 constitutes an object instance identification system according to the present invention.
  • a second program 58 is for example designed for the execution of a method for obtaining sets of transformation parameters in translation, rotation and possibly change of scale for respective three-dimensional correspondences of the particular points selected from instances of. 'objects in the three-dimensional scene 20 with their arrangements in one of the models of the set 10. Such a method is known and will not be detailed. It is based on a mapping of the values that the descriptor takes at these points in the two representations. It works all the better as the descriptor is discriminating.
  • a third program 60 is for example designed to execute an automatic classification, each class possibly obtained as output being representative of a single instance of an object in the three-dimensional scene 20 and of a single set of transformation parameters for a matching. with a single model in set 10.
  • a classification is also known and will not be detailed. It can be done in one or more iterations depending on the number of instances of objects to be located and the method used.
  • a fourth optional program 62 is for example designed to perform a verification of the transformation (s) determined by automatic classification. Such an optional check is also known and will not be detailed.
  • the processing unit 42 as illustrated in FIG. 3 thus functionally comprises four computer programs or four functions of the same computer program.
  • the computer programs 56, 58, 60, 62 are presented as distinct, but this distinction is purely functional. They could just as well be grouped together in all possible combinations in one or more software. Their functions could also be at least partly micro programmed or micro wired in dedicated integrated circuits.
  • the computing device implementing the processing unit 42 could be replaced by an electronic device composed only of digital circuits (without a computer program) for carrying out the same actions.
  • the installation of FIG. 3 can comprise, in addition to the system 40 for detecting and three-dimensional localization of the instances of objects 22 to 32, a 3D sensor 64 for obtaining data representing the three-dimensional scene 20.
  • a 3D sensor is not detailed because it is well known to those skilled in the art. By generalization, it can be made up of a combination of several sensors, for several views or detection methods.
  • the detection and three-dimensional localization system 40 is autonomous and remote from the 3D sensor 64. It then comprises an interface 66 for (tele) communication with this 3D sensor 64, with or without wire, managed by the processor 52 for matching instances and object models.
  • the system 40 could be embedded in the 3D sensor 64 or, conversely, the 3D sensor 64 could be integrated into the system 40.
  • FIG. 4 An example of a descriptor in accordance with the principles of the present invention and used by the first program 56 will now be detailed with reference to FIG. 4. This example is simple and not limiting. It illustrates an example of a local descriptor.
  • this descriptor is defined at least in part by a set of points with predetermined coordinates in a three-dimensional frame of reference specific to the descriptor.
  • the descriptor comprises for example six coplanar points forming a hexagon regular. This results in a descriptor that can be reduced to six dimensions, which makes it very easy to use because the calculations of values and comparisons are fast in view of the reduced number of dimensions.
  • the three-dimensional coordinate system specific to the descriptor and the coordinates of each of its points can be transposed into each local coordinate system (x, y, z) respectively linked to each selected representative point of an instance surface or object model.
  • This transposition involves a three-dimensional translation, a three-dimensional rotation and optionally a change of scale, it being understood that each of these transformations can be the identity. It can be done in a manner known per se using a passing matrix.
  • the determination of a local coordinate system (x, y, z) for each selected representative point is a well-known problem, the resolution of which is also known and is not the subject of the present invention. According to the simplified example of FIG.
  • any representative point of the surface 70 of a model or of an object instance is a point O of this surface 70 and the descriptor is transposed into the plane (O, x , y) locally tangent to the surface 70 at the point O, knowing that the axis (O, x) is for example oriented in the direction of the strongest slope and that the axis (O, z) normal to the plane (O , x, y) is for example oriented towards the outside of the object instance delimited by the surface 70.
  • this radius r can be proportional to the local radius of curvature of the axis (O, x) according to a coefficient of predefined proportionality.
  • the placement of the points of the hexagon ABCDEF in the (O, x, y) plane can be determined deterministically by placing point A at the coordinates (r, 0) and turning counterclockwise to place the other points.
  • the identifying values that the descriptor takes when it is transposed into the local coordinate system linked to the point O result from an estimation of at least one closest distance value between each point of the descriptor transposed into the local coordinate system of point O and the surface 70.
  • the descriptor transposed into the local coordinate system (O, x, y, z) of point O takes six identifying values DA, DB, DC, DD, DE, DF respectively representative of the closest distances between points A, B, C, D, E, F and surface 70.
  • center O of hexagon ABCDEF which could be considered as a point of the descriptor, is in fact not significant since its nearest distance to surface 70 is by definition zero regardless of how this distance is estimated. It therefore does not need to be stored. It can also be considered as a “free” measure always equal to 0.
  • the calculation of a closest distance value from any one of the points of the transposed descriptor may include the calculation of a point-to-point distance, that of a point-to-plane distance, or both by combining them for example.
  • the point-to-plane distance is for its part the distance between, on the one hand, the orthogonal projection of the point X on the normal to the surface 70 at the point of the point cloud representative of the curve 70 which is closest to X and, on the other hand, that point of the point cloud which is closest to X. It can be additionally assigned a sign - to the calculated distance value if the point of the cloud of points which is closest to X is under the plane (O, x, y) in the local coordinate system (O, x, y, z) and a + sign in the opposite case.
  • the distance value obtained can finally be normalized by r to be brought back to the interval [-1; 1] since this is the maximum value that a point-to-point or point-to-plane distance can take in this context.
  • the search for the point of the surface 70 which is closest to a point considered of the transposed descriptor is suitable for a fast search structure such as a tree kd, whether it is a point to point or point to point distance. plan. It is also advantageously independent of the size of the descriptor, that is to say of the description scale.
  • the adaptation of an algorithm such as one taught in the article by Muja et al, titled “Scalable nearest neighbor algorithms for high dimensional data", published in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 36, n ° 11, pages 2227 to 2240 (November 2014), may be suitable.
  • the calculation of a point-to-point or point-to-plane distance is also very simple and clearly more relevant than that of an elevation value for example.
  • calculating a point-to-point distance makes the edges of a surface visible while being a little too sensitive to surface sampling.
  • the calculation of a point-to-plane distance is particularly robust to sampling irregularities but makes the edges of the surface less visible. It is also more robust to the nearest neighbor approximation introduced by the use of a fast search structure.
  • the calculation elevation which is not retained in the present invention, it has the two aforementioned defects (sensitivity to sampling and difficulty in making the surface edges visible).
  • a combination of the two aforementioned distances makes it possible to make the most of the corresponding advantages. It is thus optionally possible to calculate without particular complexity, for each point of the descriptor transposed into a selected representative point, the two point-to-point and point-to-plane distance values, then determine which is preferable. This choice can be made automatically by comparing the two multivalued values obtained with the two distances for the descriptor, then, if the difference between them exceeds a certain threshold, by retaining the point-to-point distance value allowing better management of the surface edges. , without losing robustness on sampling the rest of the surface by retaining the point-to-plane distance value if this difference remains below the threshold.
  • the general principle of estimating at least one closest distance value between each point of the descriptor transposed into the determined local coordinate system of the selected representative point and the surface 70 of the object instance can be implemented in the form of an estimate of several distance values between each point of the descriptor and respectively several closest points located on the surface 70 of the object instance.
  • a statistical value (mean, median, ...) can then be retained on this basis to estimate the closest distance between each point of the descriptor and the surface 70 of the object instance.
  • This option improves the robustness of the descriptor, but at the cost of increased complexity. However, this complexity is independent of the descriptor scale and has no impact on other functions such as comparing descriptor values, or any other calculation based on these values.
  • a descriptor in accordance with the three aforementioned general principles can be defined in a global manner.
  • all the points of the descriptor form a polygon, in particular a hexagon, for example intended to extend beyond the surface 70 of the object instance that it must identify.
  • each selected representative point is a point of a main axis or curve of the object instance, in particular an axis or a curve extending to the inside the surface 70 of the object instance.
  • the descriptor is then transposed into the plane locally normal to the main axis or curve of the object instance and including this representative point.
  • the polygon it forms is sized to surround the surface 70 of the object instance thus defining an overall descriptor of the object instance. This sizing can be constant. The description of the object is thus comparable to an identification by scanner.
  • all points of the polygon do not need to be outside the object instance: points inside can result in a negative distance for example.
  • the third general principle can be adapted in the same way for this global descriptor as for the local descriptor of FIG. 4.
  • the descriptor is finally formed from a vector function of the values of the closest calculated distances.
  • each vector component of the descriptor corresponds respectively to a closest distance value calculated for one of the points of the descriptor.
  • the identifying values of the descriptor coincide with the distance values at each of its points.
  • a processing of the distance values can follow their calculation before their distribution in the vector components of the descriptor. Thus, for example, they can be classified in ascending or descending order before being distributed to obtain an ordered descriptor.
  • the vector function can also as a variant result from a more complex combination of the calculated distance values, in particular by calculations of the mean or of statistical moments of the distance values, the results of these calculations, and no longer the distance values, forming then the identifying values of the descriptor.
  • a descriptor such as one of those described above can also be defined by parameters other than the aforementioned set of points: for example a parameter of luminance, of chrominance, of polarity roughness, texture, reflectance, etc., provided that the input data (ie three-dimensional scene representation data) includes such information of luminance, chrominance, polarity roughness, texture, reflectivity, etc. .
  • Each of these parameters can be estimated at each selected representative point to which the descriptor applies, at each transposed point of the descriptor, or in a neighborhood of these points.
  • it may have one, two or three dimensions if it is measured at selected representative points or in a neighborhood thereof. It can have six, twelve or eighteen dimensions if it is defined as a relative variation in chrominance between each transposed point of the descriptor and the selected representative points. It will be noted that the fact of describing relative variations for each point of the descriptor makes it possible at least in part to be free from the effects linked to the illumination of the scene and to the specular properties of certain objects.
  • the addition of parameters implies an increase in the complexity of the descriptor, not only for the calculation and the comparisons of its identifying values, but also for the memory request. It is therefore necessary to properly measure the relevance of each parameter added as a function of the intended application.
  • the use of the chrominance parameter can in certain cases improve the descriptor, in particular to distinguish objects of the same shape but having different colors or colored patterns, but can also degrade it, in particular when the object to be described is metallic and / or shiny in which case it is the luminance parameter which becomes more relevant.
  • the luminance can also degrade the descriptor, only the three-dimensionality information remaining reliable.
  • a descriptor such as one of those described above can also be associated with a confidence parameter defined such that it allows a confidence score calculation at each selected representative point, this confidence score calculation being a function of the plurality of identifying values that the descriptor takes at each selected representative point.
  • the identifying values that the descriptor takes for each model are calculated independently but their confidence scores can be calculated in a combined manner. Thus, the most important identifying values discriminants with respect to the set of models can be found. This eliminates similar parts of different models from the description.
  • the confidence score can be a constant (i.e. no management of confidence scores) or a random number (i.e. random management of confidence scores).
  • the confidence score can be the sum of the squares of the identifying values taken by the points of the descriptor, that is i.e. DA 2 + DB 2 + DC 2 + DD 2 + DE 2 + DF 2 for the example of figure 4 (ie exploitation of the internal edges of the polygon), or the sum of the squares of the differences in identifying values between vertices the sides of the polygon formed by the descriptor, i.e. (DA-DB) 2 + (DB-DC) 2 + (DC-DD) 2 + (DD-DE) 2 + (DE-DF) 2 + (DF-DA) 2 for the example of FIG.
  • the confidence score can be defined as the sum of values taken by a function of distances, calculated in the multidimensional space possible values of the descriptor, of identifying values located in a predetermined neighborhood of a considered identifier value.
  • the distance function is then advantageously chosen in a clever way to penalize the identifying value considered if there are many other identifying values in its vicinity and if in general the identifying values are close to each other in the space of possible values of the descriptor. It is for example defined as follows:
  • d is the distance, in the multidimensional space of the possible values of the descriptor, between the identifying value considered and another identifying value taken by the descriptor in its predetermined neighborhood.
  • the confidence score takes the following form:
  • di is the distance between the identifying value considered and the i-th other identifying value taken by the descriptor in its predetermined neighborhood.
  • a method for detecting and three-dimensional localization of at least one instance of at least one object in data representing a three-dimensional scene, by comparison with at least one model of said at least one object, implemented by the system 40 of figure 3, for example using the set 10 of models of figure 1 for an analysis of the scene 20 of figure 2, will now be detailed with reference to figure 5.
  • It comprises a first phase 100 implementing a method for identifying an instance or an object model implemented by the processor 52 when it executes the first program 56.
  • It comprises a second phase 200 of obtaining sets of transformation parameters in translation, rotation and possibly change of scale for respective three-dimensional correspondences of the particular points selected of instances of objects in the three-dimensional scene 20. with their arrangements in one of the models of the set 10.
  • This second phase is implemented by the processor 52 when it executes the second program 58.
  • It comprises a third phase 300 of automatic classification for a matching of each instance of object identified in the three-dimensional scene 20 with the corresponding object model in the set 10, if applicable.
  • This third phase is implemented by the processor 52 when it executes the third program 60.
  • This fourth phase 400 comprises an optional fourth phase 400 for verifying the transformation (s) determined by automatic classification.
  • This fourth phase is implemented by the processor 52 when it executes the fourth program 62.
  • the identification method implemented by the first phase 100 comprises a first step 102 of selecting at least one point representative of a surface of an object instance in the data representing a scene. three-dimensional. These representation data are first for example converted into a three-dimensional cloud of points located on the surface of the considered object instance. The selection consists in retaining at least part of the points of the surface. In the absence of a real selection, all the points of the object surface can be retained as selected representative points.
  • the first phase of identification 100 includes a second step 104 of determining a three-dimensional local coordinate system at each representative point selected for an object instance. As indicated previously, there are known methods for defining such a local coordinate system deterministically and automatically.
  • the first identification phase 100 comprises a third step 106 of transposing the set of points of the descriptor into the local coordinate system determined for each representative point selected, for example using a passage matrix for one. three-dimensional translation, a three-dimensional rotation as well as a possible change of scale.
  • the first identification phase 100 comprises a fourth step 108 of calculating the identifying values taken by the descriptor in the local coordinate system determined for each representative point selected.
  • this calculation comprises, for each representative point selected and each point of the descriptor, the estimation of at least one closest distance value between this point of the descriptor transposed into the determined local frame of the selected representative point and the surface of the object instance. The values of distances obtained are then directly exploited or processed to form the multidimensional identifying value taken by the descriptor at each representative point selected.
  • the first step 102 of selecting representative points, the second step 104 of determining the local references, the third step 106 of transposing the descriptor into the local references and the fourth step 108 of calculating its values after transposition are executed for each object instance 22, 24, 26, 28, 30, 32 of the three-dimensional scene 20 and for each object model 12, 14, 16 of the set 10 .
  • the second, third and fourth phases 200, 300 and 400 are not the subject of the present invention, are moreover well known to those skilled in the art and will therefore not be detailed.
  • the aforementioned selection step 102 can be reduced to its simplest expression by retaining all the points of the cloud of points of an object instance surface to be identified, the calculation of the values taken by the descriptor proposed in each of these points being simple and fast. This makes it possible in particular to describe instances of objects of which only a small part is seen by a sensor. Further taking into account its ability to discriminate, the descriptor can itself be used for a subsequent selection of the representative points of interest of each instance of object to be identified by retaining only the points for which the transposed descriptor has a relatively value. away from others. Such a selection is optimal since it uses the same descriptor as the one used to identify instances of objects. There is indeed synergy between selection and identification.
  • the closest distances calculated for this descriptor also correspond to a physical reality of the local surfaces to which they apply.
  • they are perfectly suited to known rapid search structures and the complexity of calculating the distance values (and consequently the identifying values of the descriptor) does not increase with the chosen description scale, which makes it possible to envisage a such descriptor at any scale unlike the descriptors of the state of the art.
  • they are homogeneous and make the comparisons of values of the descriptor directly relevant and interpretable without the need to bring weightings or adjustments between dimensions to make them compatible with each other.
  • the proposed descriptor is surface is also consistent with the fact that current 3D sensors generally only see surfaces and the fact that the representations of models in computer-aided design are themselves also surface. [01 16] Finally, the proposed descriptor incidentally constitutes a good flatness and curvature detector, making it possible, for example, to detect in a reliable and robust manner the portions of flat surfaces without additional computation cost.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Processing Or Creating Images (AREA)
  • Image Generation (AREA)

Abstract

Ce procédé d'identification d'une instance d'objet, dans des données de représentation d'une scène tridimensionnelle à l'aide d'un descripteur, comporte : sélection d'au moins un point représentatif (O) d'une surface (70) de l'instance d'objet; détermination d'un repère local (O, x, y, z) en chaque point représentatif sélectionné; calcul de valeurs identifiantes prises par le descripteur dans le repère local déterminé pour chaque point représentatif sélectionné. Le descripteur est défini au moins en partie par un ensemble de points aux coordonnées transposables dans chaque repère local déterminé. Le calcul de la pluralité de valeurs identifiantes comporte, pour chaque point représentatif sélectionné et chaque point du descripteur, l'estimation d'au moins une valeur de distance la plus proche (DA, DB, DC, DD, DE, DF) entre ce point du descripteur transposé (A, B, C, D, E, F) et la surface (70) de l'instance d'objet.

Description

Description
Titre : Procédé, programme d’ordinateur et système pour l’identification d’une instance d’objet dans une scène tridimensionnelle
[0001 ] (La présente invention concerne un procédé d’identification d’une instance d’un objet dans des données de représentation d’une scène tridimensionnelle à l’aide d’un descripteur. Elle concerne également un programme d’ordinateur et un système correspondants.
[0002] D’une façon générale, elle s’inscrit dans le domaine industriel de la reconnaissance d’objets rigides ou quasi-rigides (i.e. non articulés) en vision tridimensionnelle par ordinateur. Une telle reconnaissance d’objets nécessite une comparaison des données de représentation de la scène tridimensionnelle avec celles d’au moins un modèle d’objet rigide ou quasi-rigide, ou avec celles d’une autre scène tridimensionnelle, par exemple pour une détection et localisation d’objet par recalage. Ce traitement implique la détermination d’au moins un jeu de paramètres de transformation spatiale en translation et rotation pour la mise en correspondance d’au moins une instance d’objet dans la scène tridimensionnelle avec le modèle d’objet correspondant, ou avec une autre instance d’objet correspondante dans l’autre scène tridimensionnelle.
[0003] Par « modèle d’objet » dans ce contexte tridimensionnel, on entend une représentation prédéterminée d’un objet faisant référence. Elle peut consister en une représentation modélisée, par exemple par ordinateur, en trois dimensions spatiales d’un objet réel sous forme de nuage tridimensionnel de points, d’ensemble maillé de faces (de l’anglais « mesh ») ou de toute autre représentation mathématique (explicite, implicite, paramétrique, etc.) pouvant être convertie en un nuage tridimensionnel de points. Elle peut aussi être issue d’une capture de scène réelle, à l’aide d’un ou plusieurs capteurs, dans laquelle la représentation de l’objet en nuage tridimensionnel de points et sa disposition sont suffisamment contrôlées pour faire référence. Par « instance d’objet » dans une scène tridimensionnelle, on entend une représentation comparable d’un objet dans cette scène tridimensionnelle, c’est-à-dire une représentation modélisée sous forme de nuage tridimensionnel de points, d’ensemble maillé de faces ou de toute autre représentation mathématique pouvant être convertie en un nuage tridimensionnel de points. [0004] Les applications industrielles concrètes sont multiples et dépassent la détection et la localisation d’objets. Elles incluent de façon non exhaustive :
[0005] - la localisation tridimensionnelle, par exemple en réalité virtuelle, augmentée ou mixte, d’un système tel qu’un véhicule, notamment un véhicule autonome, un piéton, un robot ou un dispositif portatif, par des techniques de cartographie et localisation simultanées (de l’anglais « Simultaneous Localization And Mapping »),
[0006] - la reconstitution tridimensionnelle d’une scène par fusion de données à partir d’observations partielles complémentaires,
[0007] le recalage d’un modèle dans une scène,
[0008] la classification d’objets présents dans une scène,
[0009] la reconstitution tridimensionnelle de scène par recalage tridimensionnel d’une scène sur une autre, l’une de ces deux scènes faisant référence,
[0010] l’analyse d’une scène tridimensionnelle incluant une reconnaissance et une localisation d’objets dans cette scène,
[001 1 ] - l’identification de points d’intérêts dans une scène (par exemple des points présentant une courbure particulière),
[0012] la segmentation de surfaces dans une scène selon un critère de similarité,
[0013] l’inspection automatique en temps réel d’objets fabriqués industriellement, en particulier pour une recherche de défauts,
[0014] - la préhension robotique et la manipulation robotisée d’objets dans l’espace, à l’aide notamment d’au moins un bras articulé industriel et/ou dans une chaîne d’assemblage par exemple.
[0015] La dernière application inclut notamment le dévracage (de l’anglais « bin picking ») consistant à reconnaître puis déplacer successivement ou simultanément, à l’aide d’un ou plusieurs bras de robots, des objets en vrac dans une chaîne de production ou dans un lieu de stockage.
[0016] Le principe de la reconnaissance et de la localisation d’objet par recalage rigide sur un modèle, ou par comparaison de données de représentations de scènes, est très étudié dans l’état de la technique. Selon une chaîne de traitement bien établie et enseignée par exemple dans le document de brevet US 8,830,229 B2, il comporte les étapes suivantes :
[0017] - obtention de jeux de paramètres de transformation en translation et rotation pour des mises en correspondance tridimensionnelle respectives de points particuliers de chaque instance supposée d’un objet dans la scène tridimensionnelle avec leurs dispositions dans un modèle tridimensionnel correspondant ou dans une autre instance d’objet correspondante dans une autre scène tridimensionnelle,
[0018] à partir de ces jeux de paramètres point à point et si au moins une instance d’objet est effectivement présente dans la scène tridimensionnelle, détermination d’au moins un jeu de paramètres de transformation en translation et rotation pour la mise en correspondance tridimensionnelle d’au moins une instance d’objet de la scène tridimensionnelle avec au moins un modèle d’objet tridimensionnel ou au moins une autre instance d’objet d’une autre scène tridimensionnelle, et
[0019] - de façon optionnelle, vérification de la ou des transformations déterminées.
[0020] En ce qui concerne les deuxième et troisième étapes, elles font l’objet de nombreuses recherches et propositions de solutions dans l’état de la technique. Mais le détail de ces deux étapes ne fait pas l’objet principal de la présente invention.
[0021 ] En ce qui concerne la première étape, elle consiste généralement à prétraiter les données de représentation de la scène tridimensionnelle obtenues par un ou plusieurs capteurs, à sélectionner des points particuliers d’intérêt à mettre en correspondance dans la scène et dans le modèle ou dans l’autre scène, à calculer les valeurs prises par des descripteurs locaux ou globaux destinés à être associés à ces points particuliers sélectionnés pour faciliter et améliorer la mise en correspondance, puis à réaliser la mise en correspondance proprement dite. Cette première étape peut d’ailleurs être mise en œuvre dans des applications plus générales que la détection, la reconnaissance ou la localisation d’objet par recalage.
[0022] Mais en particulier, dans l’application précitée de reconnaissance et de localisation d’objet, le choix des descripteurs ainsi que la façon de les évaluer et de les comparer sont très déterminants sur la pertinence des paramètres de transformation obtenus et le succès de la mise en correspondance. D’une façon plus générale et au-delà de l’application précitée, ils ont également un impact majeur sur la complexité et le temps de traitement des données. La qualité d’un descripteur est par ailleurs un critère d’autant plus important qu’il peut aussi être souhaité de l’utiliser pour la sélection elle-même des points d’intérêt sachant que ces points d’intérêt sont avantageusement ceux possédant des valeurs de descripteur facilement reconnaissables et/ou très discriminantes.
[0023] Les solutions proposées souffrent généralement de limitations, soit en termes de capacité à discriminer des points différents d’une même instance d’objet ou d’instances d’objets différentes dans une même scène, c’est-à-dire la capacité à fournir des valeurs suffisamment différentes en des points différents pour les distinguer, soit en termes de complexité des calculs à réaliser et donc de temps de calcul.
[0024] Par exemple, le descripteur défini et utilisé dans le brevet US 8,830,229 B2 précité est appliqué sur chaque paire de points d’un ensemble de points représentatifs sélectionnés de la surface d’une instance d’objet. Cette façon de procéder présente d’emblée un défaut difficile à surmonter : elle choisit heuristiquement des paires de points, ce qui est par nature coûteux en temps de calcul. De plus, les dimensions exprimées en distances et angles de ce descripteur ne sont pas homogènes et donc difficiles à indexer dans une structure de recherche.
[0025] Plus généralement, les différents descripteurs de l’état de l’art présentent des forces et faiblesses équivalentes. En cherchant à obtenir des descripteurs de plus en plus discriminants et en se focalisant sur leur robustesse, l’homme du métier les a rendus de plus en plus complexes en utilisant notamment des approches à base de statistiques incluant des calculs d’histogrammes, signatures et moments de distributions. Ces calculs sont lents, difficile à interpréter concrètement, en couvrant de façon sous-optimale l’espace des valeurs que peuvent prendre les descripteurs.
[0026] Une étude comparative à ce sujet est présentée dans l’article de Guo et al, intitulé « 3D object récognition in cluttered scenes with local surface features: a survey », publié dans IEEE Transactions on Pattern Analysis and Machine Intelligence, volume 36, n° 1 1 , pages 2270 à 2287 (novembre 2014). Parmi les descripteurs identifiés dans cette étude, un descripteur imaginé par les mêmes auteurs et appelé RoPS (de l’anglais « Rotational Projection Statistics ») implique la sélection de points représentatifs d’une surface d’instance d’objet dans des données de représentation d’une scène tridimensionnelle, la détermination d’un repère local tridimensionnel en chaque point représentatif sélectionné et le calcul d’une pluralité de valeurs identifiantes prises par le descripteur dans le repère local déterminé pour chaque point représentatif sélectionné. Le descripteur prend plus précisément la forme d’un paramètre multivalué, c’est-à-dire multidimensionnel, résultant de projections sur différents plans définis dans le repère local pour la fourniture de moments d’histogrammes exprimés dans 135 dimensions. En cela il s’agit d’un descripteur volumique de très grande complexité. Il présente des propriétés intéressantes et est, selon ses auteurs, très discriminant et robuste au bruit, mais au prix de calculs lents à exécuter et de valeurs résultantes lentes à comparer. De plus, le nombre élevé de dimensions réduit la robustesse au bruit et rend le descripteur surdimensionné par rapport à la plupart des applications concrètes. Des sous- échantillonnages des données d’entrée et/ou de l’ensemble des valeurs calculées du descripteur doivent alors être envisagés mais ils réduisent significativement les performances parce que l’heuristique utilisée pour sous-échantillonner est toujours imparfaite. Par ailleurs, ce descripteur n’est pas adapté à une comparaison de ses valeurs par calculs de distances euclidiennes généralement exploitée dans les méthodes de recherches rapides connues.
[0027] Un autre descripteur, défini dans le document de brevet US 8,274,508 B2, présente lui aussi des propriétés intéressantes. Comme le précédent, il implique la sélection de points représentatifs d’une surface d’instance d’objet dans des données de représentation d’une scène tridimensionnelle, la détermination d’un repère local tridimensionnel en chaque point représentatif sélectionné et le calcul d’une pluralité de valeurs identifiantes prises par le descripteur dans le repère local déterminé pour chaque point représentatif sélectionné. Il est cependant défini sur un nombre bien plus réduit de dimensions et se limite à des calculs surfaciques de bien moindre complexité. Il prend plus précisément la forme d’un paramètre multivalué résultant de calculs d’élévations, par rapport à la surface de l’instance d’objet considérée, de zones concentriques situées dans un plan tangent transposé localement en chaque point représentatif sélectionné. Mais il implique lui aussi des calculs statistiques rendant ses valeurs lentes à calculer. Il implique en outre des recherches de plus proches voisins ajoutant à la complexité des calculs, avec une augmentation proportionnelle au carré de la taille du descripteur en moyenne. Par ailleurs, les calculs d’élévations posent problème dans les zones de fortes courbures de l’instance d’objet considérée ainsi que sur ses bords. [0028] Il peut ainsi être souhaité de prévoir un procédé d’identification d’une instance d’un objet dans des données de représentation d’une scène tridimensionnelle à l’aide d’un descripteur qui permette de s’affranchir d’au moins une partie des problèmes et contraintes précités.
[0029] Il est donc proposé un procédé d’identification d’une instance d’un objet dans des données de représentation d’une scène tridimensionnelle à l’aide d’un descripteur, comportant les étapes suivantes :
[0030] - sélection d’au moins un point représentatif d’une surface de l’instance d’objet dans les données de représentation ;
[0031 ] - détermination d’un repère local en chaque point représentatif sélectionné ;
[0032] - calcul d’une pluralité de valeurs identifiantes prises par le descripteur dans le repère local déterminé pour chaque point représentatif sélectionné ;
[0033] caractérisé en ce que :
[0034] - le descripteur est défini au moins en partie par un ensemble de points aux coordonnées prédéterminées transposables dans chaque repère local déterminé ; et
[0035] - le calcul de la pluralité de valeurs identifiantes comporte, pour chaque point représentatif sélectionné et chaque point du descripteur, l’estimation d’au moins une valeur de distance la plus proche entre ce point du descripteur transposé dans le repère local déterminé du point représentatif sélectionné et la surface de l’instance d’objet.
[0036] Ainsi, grâce à une telle définition du descripteur sur la base de distances les plus proches entre différents points d’un ensemble prédéterminé et la surface de l’instance d’objet, on obtient une identification surfacique simple, discriminante et robuste. N’impliquant pas nécessairement de calculs statistiques, ce descripteur est en outre tout à fait adapté à une comparaison de ses valeurs par calculs de distances euclidiennes et aux méthodes de recherches rapides connues. L’expérience montre également qu’un nombre limité de points, largement inférieur aux 135 dimensions du descripteur RoPS, suffit pour l’obtention de bonnes performances. Par ailleurs, les calculs de distances posent moins de problèmes que les calculs d’élévations dans les zones de fortes courbures de l’instance d’objet considérée. [0037] De façon optionnelle :
[0038] - chaque point représentatif sélectionné est un point de la surface de l’instance d’objet ;
[0039] - l’ensemble des points du descripteur forme un polygone, par exemple un hexagone ; et
[0040] - pour chaque point représentatif sélectionné, le polygone est transposé dans un plan localement tangent à la surface de l’instance d’objet au point représentatif sélectionné.
[0041 ] De façon optionnelle également, l’ensemble des points du descripteur forme un polygone régulier transposable avec une adaptation possible du rayon de son cercle circonscrit à un paramètre de courbure locale de la surface de l’instance d’objet en chaque point représentatif sélectionné.
[0042] De façon optionnelle également :
[0043] - chaque point représentatif sélectionné est un point d’un axe ou d’une courbe principal(e) de l’instance d’objet ;
[0044] - l’ensemble des points du descripteur forme un polygone, par exemple un hexagone ; et
[0045] - pour chaque point représentatif sélectionné, le polygone est transposé dans un plan localement normal à l’axe ou à la courbe principal(e) de l’instance d’objet et comportant le point représentatif sélectionné.
[0046] De façon optionnelle également, ladite au moins une valeur de distance la plus proche estimée est une valeur de distance point à point, une valeur de distance point à plan ou une combinaison de ces valeurs de distances.
[0047] De façon optionnelle également, la transposition de l’ensemble de points du descripteur comporte une translation tridimensionnelle, une rotation tridimensionnelle ainsi qu’un changement d’échelle. Ceci permet de transposer l’ensemble des points du descripteur dans un repère local lié au point représentatif considéré dans la scène tridimensionnelle.
[0048] De façon optionnelle également, le calcul de la pluralité de valeurs identifiantes comporte en outre un calcul de score de confiance du descripteur en chaque point représentatif sélectionné, ce calcul de score de confiance étant fonction de la pluralité de valeurs identifiantes. [0049] De façon optionnelle également, le descripteur est en outre défini par au moins l’un des éléments de l’ensemble constitué de :
[0050] - un paramètre de luminance ;
[0051 ] - un paramètre de chrominance ;
[0052] - un paramètre de rugosité ;
[0053] - un paramètre de polarité ;
[0054] - un paramètre de texture ; et
[0055] - un paramètre de pouvoir réfléchissant.
[0056] Il est également proposé un programme d’ordinateur téléchargeable depuis un réseau de communication et/ou enregistré sur un support lisible par ordinateur et/ou exécutable par un processeur, caractérisé en ce qu’il comprend des instructions pour l’exécution des étapes d’un procédé d’identification selon l’invention, lorsque ledit programme est exécuté sur un ordinateur.
[0057] Il est également proposé un système d’identification d’une instance d’un objet dans des données de représentation d’une scène tridimensionnelle à l’aide d’un descripteur, le système comportant :
[0058] - au moins une mémoire de stockage des données de représentation de la scène tridimensionnelle et de coordonnées prédéterminées de l’ensemble de points du descripteur ; et
[0059] - un processeur d’identification de l’instance d’objet dans la scène tridimensionnelle, programmé pour l’exécution des étapes d’un procédé d’identification selon l’invention.
[0060] L’invention sera mieux comprise à l’aide de la description qui va suivre, donnée uniquement à titre d’exemple et faite en se référant aux dessins annexés dans lesquels :
[0061 ] [Fig.1 ] la figure 1 représente schématiquement un exemple de représentation numérique en imagerie tridimensionnelle de plusieurs modèles d’objets,
[0062] [Fig.2] la figure 2 représente schématiquement un exemple de représentation numérique en imagerie tridimensionnelle d’une scène tridimensionnelle comportant plusieurs instances d’objets, [0063] [Fig.3] la figure 3 représente schématiquement la structure générale d’un système de détection et de localisation tridimensionnelle d’au moins une instance d’objet dans des données de représentation de scène tridimensionnelle telles que celles de la figure 2, incluant un système d’identification d’instance d’objet selon un mode de réalisation de l’invention,
[0064] [Fig.4] la figure 4 illustre l’adaptation d’un descripteur selon un mode de réalisation de l’invention en un point représentatif de scène tridimensionnelle, réalisée par le système de la figure 3, et
[0065] [Fig.5] la figure 5 illustre les étapes successives d’un procédé de détection et de localisation tridimensionnelle d’au moins une instance d’objet mis en œuvre par le système de la figure 3, incluant une identification de chaque instance d’objet présente dans la scène tridimensionnelle de la figure 2 et de chaque modèle d’objet de la figure 1 , selon un mode de réalisation de l’invention.
[0066] L’ensemble 10 de modèles tridimensionnels représenté sur la figure 1 est une scène artificielle constituée de plusieurs modèles d’objets artificiels. Il pourrait aussi s’agir d’une scène réelle de référence constituée de modèles d’objets réels dont la disposition est connue et maîtrisée. Il est ici constitué de trois modèles d’objets choisis à titre d’exemple illustratif. Un premier modèle tridimensionnel 12 représente un raccord de tuyau en T incliné. Un deuxième modèle tridimensionnel 14 représente un raccord de tuyau en coude. Un troisième modèle tridimensionnel 16 représente un profilé à enroulement de l’une de ses extrémités. Ces trois modèles d’objets sont disposés et parfaitement localisables dans un référentiel tridimensionnel lié à l’ensemble 10. Ils sont représentés comme indiqué précédemment sous forme de nuage tridimensionnel de points, d’ensemble maillé de faces ou de toute autre représentation mathématique pouvant être convertie en un nuage tridimensionnel de points. Pour des raisons de clarté évidentes, les modèles 12, 14 et 16 sont bien séparés les uns des autres dans l’ensemble 10. Mais ils pourraient avantageusement être superposés en étant tous centrés dans l’ensemble 10, tout en restant distinguables à l’aide de labels distinctifs associés aux points qui les constituent. Avantageusement, leur échantillonnage est le même ou au moins similaire. Dans un cas simple, l’ensemble 10 pourrait ne comporter qu’un seul modèle tridimensionnel.
[0067] La scène tridimensionnelle 20 représentée sur la figure 2 résulte d’une capture tridimensionnelle obtenue à l’aide d’un capteur 3D d’une scène réelle. Elle est constituée de points tridimensionnels ou « points 3D » d’un référentiel qui lui est propre, indiquant chacun par une information de nuance de gris ou de couleur la présence d’instances réelles d’objets dans la scène réelle. On y distingue ici, à titre d’exemple illustratif deux instances d’objets 22 et 24 correspondant au modèle de raccord de tuyau en T incliné 12, trois instances d’objets 26, 28 et 30 correspondant au modèle de raccord de tuyau en coude 14, une instance d’objet 32 de type raccord de tuyau en T droit n’ayant pas de modèle correspondant dans l’ensemble 10 et aucune instance d’objet correspondant au modèle de profilé 16. On remarquera que certaines instances d’objets de la scène 20 peuvent n’être que partiellement visibles.
[0068] Conformément à un système/procédé de détection et de localisation tridimensionnelle des instances d’objets 22 à 32 dans des données de représentation de la scène tridimensionnelle 20, par comparaison avec les modèles d’objets 12, 14 et 16 dans des données de représentation de l’ensemble 10, tel que celui qui va être détaillé en références aux figures 3 et 5, une correspondance doit pouvoir être établie entre chaque instance d’objet pouvant être identifiée et reconstituée dans la scène tridimensionnelle 20 et l’un des modèles 12, 14 et 16. Cette correspondance consiste à retrouver les paramètres d’une transformation rigide en translation, en rotation, et éventuellement en changement d’échelle (agrandissement ou réduction de taille), qui permet le cas échéant de passer du positionnement de chaque instance d’objet dans la scène 20 vers celui de son modèle dans l’ensemble 10, ou inversement, du positionnement de chaque modèle dans l’ensemble 10 vers celui d’une instance d’objet qui lui correspond dans la scène 20. On rappellera toutefois que l’exemple illustré par les figures 3 et 5 ne concerne qu’une famille particulière d’applications possibles de la présente invention, celle de la détection et la localisation d’objet dans une scène tridimensionnelle, l’invention s’étendant à des applications au-delà de cette famille particulière.
[0069] Le système 40 de détection et de localisation tridimensionnelle des instances d’objets 22 à 32, tel que représenté schématiquement sur la figure 3, comporte une unité de traitement 42 associée de façon classique à une mémoire 44 (par exemple une mémoire RAM). Cette mémoire 44 stocke par exemple notamment des données 46 de représentation de la scène 20, des données 48 de représentation de l’ensemble 10 de modèles tridimensionnels et des coordonnées prédéterminées 50 d’un ensemble de points définissant au moins en partie un descripteur.
[0070] L’unité de traitement 42 peut être mise en œuvre dans un dispositif informatique tel qu’un ordinateur classique comportant un processeur associé à une ou plusieurs mémoires pour le stockage de fichiers de données et de programmes d’ordinateurs. L’unité de traitement 42 peut alors elle-même être considérée comme formée d’un processeur 52 de mise en correspondance d’instances et de modèles d’objets associé à une mémoire 54 de stockage des instructions qu’il exécute sous forme de programmes d’ordinateurs. Lorsqu’au moins une partie des instructions peut être exécutée en parallèle, le processeur peut être optionnellement adapté pour un tel parallélisme, par exemple sous la forme d’un processeur GPU (de l’anglais « Graphics Processing Unit »).
[0071 ] Parmi ces programmes d’ordinateurs, un premier programme 56 est par exemple conçu pour l’exécution d’un procédé d’identification des instances d’objets de la scène tridimensionnelle 20 à l’aide du descripteur défini au moins en partie par l’ensemble de points aux coordonnées prédéterminées 50 stockées dans la mémoire 44. Cette identification consiste à calculer des valeurs identifiantes que prend le descripteur en plusieurs points particuliers à sélectionner pour chaque instance d’objet considérée. Ce même premier programme 56 permet également une identification similaire des modèles d’objets de l’ensemble 10. C’est son fonctionnement qui fait l’objet principal de la présente invention, par un choix astucieux de descripteur. Ce premier programme 56 associé au processeur 52 dans l’unité de traitement 42 et à la mémoire 44 constitue un système d’identification d’instance d’objet selon la présente invention. Un deuxième programme 58 est par exemple conçu pour l’exécution d’une méthode d’obtention de jeux de paramètres de transformation en translation, rotation et éventuellement changement d’échelle pour des mises en correspondance tridimensionnelle respectives des points particuliers sélectionnés d’instances d’objets dans la scène tridimensionnelle 20 avec leurs dispositions dans l’un des modèles de l’ensemble 10. Une telle méthode est connue et ne sera pas détaillée. Elle est basée sur une mise en correspondance des valeurs que prend le descripteur en ces points dans les deux représentations. Elle fonctionne d’autant mieux que le descripteur est discriminant. Un troisième programme 60 est par exemple conçu pour exécuter une classification automatique, chaque classe éventuellement obtenue en sortie étant représentative d’une unique instance d’objet dans la scène tridimensionnelle 20 et d’un unique jeu de paramètres de transformation pour une mise en correspondance avec un unique modèle dans l’ensemble 10. Une telle classification est également connue et ne sera pas détaillée. Elle peut se faire en une ou plusieurs itérations selon le nombre d’instances d’objets à localiser et la méthode employée. Enfin, un quatrième programme optionnel 62 est par exemple conçu pour exécuter une vérification de la ou des transformations déterminées par classification automatique. Une telle vérification optionnelle est également connue et ne sera pas détaillée.
[0072] L’unité de traitement 42 telle qu’illustrée sur la figure 3 comporte ainsi fonctionnellement quatre programmes d’ordinateur ou quatre fonctions d’un même programme d’ordinateur. On notera en effet que les programmes d’ordinateur 56, 58, 60, 62 sont présentés comme distincts, mais cette distinction est purement fonctionnelle. Ils pourraient tout aussi bien être regroupés selon toutes les combinaisons possibles en un ou plusieurs logiciels. Leurs fonctions pourraient aussi être au moins en partie micro programmées ou micro câblées dans des circuits intégrés dédiés. Ainsi, en variante, le dispositif informatique mettant en œuvre l’unité de traitement 42 pourrait être remplacé par un dispositif électronique composé uniquement de circuits numériques (sans programme d’ordinateur) pour la réalisation des mêmes actions.
[0073] L’installation de la figure 3 peut comporter, outre le système 40 de détection et de localisation tridimensionnelle des instances d’objets 22 à 32, un capteur 3D 64 d’obtention des données de représentation de la scène tridimensionnelle 20. Un tel capteur 3D n’est pas détaillé parce qu’il est bien connu de l’homme du métier. Par généralisation, il peut être constitué d’une combinaison de plusieurs capteurs, pour plusieurs vues ou modalités de détection. Selon une variante de réalisation possible, le système 40 de détection et de localisation tridimensionnelle est autonome et distant du capteur 3D 64. Il comporte alors une interface 66 de (télé)communication avec ce capteur 3D 64, avec ou sans fil, gérée par le processeur 52 de mise en correspondance d’instances et de modèles d’objets. Selon une autre variante de réalisation possible, le système 40 pourrait être embarqué dans le capteur 3D 64 ou, réciproquement, le capteur 3D 64 pourrait être intégré dans le système 40.
[0074] Un exemple de descripteur conforme aux principes de la présente invention et utilisé par le premier programme 56 va maintenant être détaillé en référence à la figure 4. Cet exemple est simple et non limitatif. Il illustre un exemple de descripteur local.
[0075] Selon un premier principe général, ce descripteur est défini au moins en partie par un ensemble de points aux coordonnées prédéterminées dans un repère tridimensionnel propre au descripteur. Selon l’exemple simplifié de la figure 4, le descripteur comporte par exemple six points coplanaires formant un hexagone régulier. Il en résulte un descripteur pouvant se réduire à six dimensions ce qui le rend très simple à utiliser parce que les calculs de valeurs et comparaisons sont rapides au vu du nombre réduit de dimensions.
[0076] Selon un deuxième principe général, le repère tridimensionnel propre au descripteur et les coordonnées de chacun de ses points sont transposables dans chaque repère local (x, y, z) respectivement lié à chaque point représentatif sélectionné d’une surface d’instance ou de modèle d’objet. Cette transposition comporte une translation tridimensionnelle, une rotation tridimensionnelle et optionnellement un changement d’échelle, étant sous-entendu que chacune de ces transformations peut être l’identité. Elle peut se faire de façon connue en soi à l’aide d’une matrice de passage. La détermination d’un repère local (x, y, z) pour chaque point représentatif sélectionné est un problème bien connu dont la résolution est également connue et ne fait pas l’objet de la présente invention. Selon l’exemple simplifié de la figure 4, un point représentatif quelconque de la surface 70 d’un modèle ou d’une instance d’objet est un point O de cette surface 70 et le descripteur est transposé dans le plan (O, x, y) localement tangent à la surface 70 au point O, sachant que l’axe (O, x) est par exemple orienté dans le sens de la plus forte pente et que l’axe (O, z) normal au plan (O, x, y) est par exemple orienté vers l’extérieur de l’instance d’objet délimitée par la surface 70. Le rayon r = OA = OB = OC = OD = OE= OF du cercle circonscrit à l’hexagone transposé ABCDEF dont le centre est en O peut être constant ou adapté à un paramètre de courbure locale de la surface 70 en O. En particulier ce rayon r peut être proportionnel au rayon de courbure local de l’axe (O, x) selon un coefficient de proportionnalité prédéfini. Le placement des points de l’hexagone ABCDEF dans le plan (O, x, y) peut être défini de façon déterministe en plaçant le point A aux coordonnées (r, 0) et en tournant dans le sens trigonométrique pour placer les autres points.
[0077] Selon un troisième principe général, les valeurs identifiantes que prend le descripteur lorsqu’il est transposé dans le repère local lié au point O résultent d’une estimation d’au moins une valeur de distance la plus proche entre chaque point du descripteur transposé dans le repère local du point O et la surface 70. Selon l’exemple simplifié de la figure 4, le descripteur transposé dans le repère local (O, x, y, z) du point O prend six valeurs identifiantes DA, DB, DC, DD, DE, DF respectivement représentatives des distances les plus proches entre les points A, B, C, D, E, F et la surface 70. On notera que le centre O de l’hexagone ABCDEF, qui pourrait être considéré comme un point du descripteur, n’est en fait pas significatif puisque sa distance la plus proche à la surface 70 est par définition nulle quelle que soit la façon dont on estime cette distance. Il n’a donc pas besoin d’être stocké. On peut aussi le considérer comme une mesure « gratuite » valant toujours 0.
[0078] Le calcul d’une valeur de distance la plus proche à partir de l’un quelconque des points du descripteur transposé peut comporter le calcul d’une distance point à point, celui d’une distance point à plan, ou les deux en les combinant par exemple. Dans une représentation en nuage de points de la surface 70, la distance point à point est la distance euclidienne entre le point considéré X = A, B, C, D, E ou F du descripteur et le point du nuage de points représentatif de la courbe 70 qui est le plus proche de X. La distance point à plan est quant à elle la distance entre, d’une part, la projection orthogonale du point X sur la normale à la surface 70 au point du nuage de points représentatif de la courbe 70 qui est le plus proche de X et, d’autre part, ce point du nuage de points qui est le plus proche de X. Il peut en outre être attribué un signe - à la valeur de distance calculée si le point du nuage de points qui est le plus proche de X est sous le plan (O, x, y) dans le repère local (O, x, y, z) et un signe + dans le cas contraire. La valeur de distance obtenue peut enfin être normalisée par r pour être ramenée dans l’intervalle [-1 ; 1] puisque c’est la valeur maximale qu’une distance point à point ou point à plan peut prendre dans ce contexte.
[0079] La recherche du point de la surface 70 qui est le plus proche d’un point considéré du descripteur transposé est adaptée à une structure de recherche rapide telle qu’un arbre k-d, que ce soit une distance point à point ou point à plan. Elle est en outre avantageusement indépendante de la taille du descripteur, c’est-à-dire de l’échelle de description. L’adaptation d’un algorithme tel que l’un de ceux enseignés dans l’article de Muja et al, intitulé « Scalable nearest neighbor algorithms for high dimensional data », publié dans IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 36, n° 1 1 , pages 2227 à 2240 (novembre 2014), peut convenir.
[0080] A partir de cette recherche simple, le calcul d’une distance point à point ou point à plan est également très simple et nettement plus pertinent que celui d’une valeur d’élévation par exemple. Ainsi, le calcul d’une distance point à point rend visibles les bords d’une surface tout en étant un peu trop sensible à l’échantillonnage de la surface. Inversement, le calcul d’une distance point à plan est particulièrement robuste aux irrégularités d’échantillonnage mais rend moins visibles les bords de la surface. Il est également plus robuste à l’approximation de plus proche voisin introduite par l’utilisation d’une structure de recherche rapide. Quant au calcul d’élévation qui n’est pas retenu dans la présente invention, il présente les deux défauts précités (sensibilité à l’échantillonnage et difficulté à rendre visible les bords de surface).
[0081 ] Une combinaison des deux distances précitées permet de tirer le meilleur profit des avantages correspondants. On peut ainsi optionnellement calculer sans complexité particulière, pour chaque point du descripteur transposé en un point représentatif sélectionné, les deux valeurs de distance point à point et point à plan, puis déterminer laquelle est préférable. Ce choix peut être fait automatiquement en comparant les deux valeurs multivaluées obtenues avec les deux distances pour le descripteur, puis, si la différence entre elles dépasse un certain seuil, en retenant la valeur de distance point à point permettant une meilleure gestion des bords de surface, sans perdre en robustesse sur l’échantillonnage du reste de la surface en retenant la valeur de distance point à plan si cette différence reste inférieure au seuil.
[0082] En variante, le principe général d’estimation d’au moins une valeur de distance la plus proche entre chaque point du descripteur transposé dans le repère local déterminé du point représentatif sélectionné et la surface 70 de l’instance d’objet peut être implémenté sous la forme d’une estimation de plusieurs valeurs de distances entre chaque point du descripteur et respectivement plusieurs points les plus proches situés sur la surface 70 de l’instance d’objet. Une valeur statistique (moyenne, médiane, ...) peut ensuite être retenue sur cette base pour estimer la distance la plus proche entre chaque point du descripteur et la surface 70 de l’instance d’objet. Cette option améliore la robustesse du descripteur, mais au prix d’une complexité accrue. Cela dit, cette complexité est indépendante de l’échelle du descripteur et n’a pas d’impact sur les autres fonctions telles que la comparaison de valeurs du descripteur, ou tout autre calcul basé sur ces valeurs.
[0083] En variante également, en plus de la ou des distance(s) entre un point du descripteur et le ou les point(s) de la surface d’instance d’objet le(s) plus proche(s), peuvent être calculées les distances entre ce point du descripteur et les points de la surface d’instance d’objet situés dans un ou des voisinage(s) prédéterminé(s) du ou des point(s) de la surface d’instance d’objet le(s) plus proche(s). De même, une valeur statistique (moyenne, médiane, ...) peut ensuite être retenue sur cette base pour estimer la distance la plus proche entre chaque point du descripteur et la surface 70 de l’instance d’objet, toujours en préservant l’indépendance de la complexité à l’échelle du descripteur. [0084] Dans un autre mode de réalisation que celui illustré par l’exemple de la figure 4, un descripteur conforme aux trois principes généraux précités peut être défini de façon globale.
[0085] Par une adaptation du premier principe général, l’ensemble des points du descripteur forme un polygone, notamment un hexagone, par exemple destiné à s’étendre au-delà de la surface 70 de l’instance d’objet qu’il doit identifier.
[0086] Par une adaptation du deuxième principe général, chaque point représentatif sélectionné est un point d’un axe ou d’une courbe principal(e) de l’instance d’objet, notamment un axe ou une courbe s’étendant à l’intérieur de la surface 70 de l’instance d’objet. Pour chaque point représentatif sélectionné, le descripteur est alors transposé dans le plan localement normal à l’axe ou à la courbe principal(e) de l’instance d’objet et comportant ce point représentatif. Le polygone qu’il forme est dimensionné pour entourer la surface 70 de l’instance d’objet définissant ainsi un descripteur global de l’instance d’objet. Ce dimensionnement peut être constant. La description de l’objet est de la sorte comparable à une identification par scanner. En variante de cet autre mode de réalisation, tous les points du polygone n’ont pas besoin d’être à l’extérieur de l’instance d’objet : des points à l’intérieur peuvent se traduire par une distance négative par exemple.
[0087] Le troisième principe général peut être adapté de la même façon pour ce descripteur global que pour le descripteur local de la figure 4.
[0088] Dans tous les cas, le descripteur est finalement formé d’une fonction vectorielle des valeurs de distances les plus proches calculées. Au plus simple, chaque composante vectorielle du descripteur correspond respectivement à une valeur de distance la plus proche calculée pour l’un des points du descripteur. Dans ce cas, les valeurs identifiantes du descripteur coïncident avec les valeurs de distances en chacun de ses points. Mais de façon plus élaborée, un traitement des valeurs de distances peut suivre leur calcul avant leur distribution dans les composantes vectorielles du descripteur. Ainsi par exemple, elles peuvent être classées par ordre croissant ou décroissant avant d’être distribuées pour obtenir un descripteur ordonné. La fonction vectorielle peut aussi en variante résulter d’une combinaison plus complexe des valeurs de distances calculées, notamment par des calculs de moyenne ou de moments statistiques des valeurs de distances, les résultats de ces calculs, et non plus les valeurs de distances, formant alors les valeurs identifiantes du descripteur. [0089] On notera qu’un descripteur tel que l’un de ceux décrits précédemment peut en outre être défini par des paramètres autres que l’ensemble de points précités : par exemple un paramètre de luminance, de chrominance, de rugosité de polarité, de texture, de pouvoir réfléchissant, etc, à condition que les données d’entrée (i.e. les données de représentation de scène tridimensionnelle) comportent de telles informations de luminance, de chrominance, de rugosité de polarité, de texture, de pouvoir réfléchissant, etc. Chacun de ces paramètres peut être estimé en chaque point représentatif sélectionné auquel s’applique le descripteur, en chaque point transposé du descripteur, ou dans un voisinage de ces points. Par exemple, en ce qui concerne la chrominance, elle peut présenter une, deux ou trois dimensions si elle est mesurée aux points représentatifs sélectionnés ou dans un voisinage de ceux-ci. Elle peut présenter six, douze ou dix-huit dimensions si elle est définie en tant que variation relative de chrominance entre chaque point transposé du descripteur et les points représentatifs sélectionnés. On notera que le fait de décrire des variations relatives pour chaque point du descripteur permet de s’affranchir au moins en partie des effets liés à l’illumination de la scène et aux propriétés spéculaires de certains objets. L’ajout de paramètres implique une augmentation de la complexité du descripteur, non seulement pour le calcul et les comparaisons de ses valeurs identifiantes, mais également pour la sollicitation en mémoire. Il convient donc de bien mesurer la pertinence de chaque paramètre ajouté en fonction de l’application visée. Par exemple, l’utilisation du paramètre de chrominance peut dans certains cas améliorer le descripteur, notamment pour distinguer des objets de même forme mais possédant des couleurs ou des motifs colorés différents, mais peut aussi le dégrader, notamment quand l’objet à décrire est métallique et/ou brillant auquel cas c’est le paramètre de luminance qui devient plus pertinent. En cas de propriétés spéculaires marquées et visibles, la luminance peut elle aussi dégrader le descripteur, seules les informations de tridimensionnalité restant fiables.
[0090] Un descripteur tel que l’un de ceux décrits précédemment peut en outre être associé à un paramètre de confiance défini de telle sorte qu’il permette un calcul de score de confiance en chaque point représentatif sélectionné, ce calcul de score de confiance étant fonction de la pluralité de valeurs identifiantes que prend le descripteur en chaque point représentatif sélectionné. Lorsque l’on souhaite décrire au moins deux modèles différents, les valeurs identifiantes que prend le descripteur pour chaque modèle sont calculées indépendamment mais leurs scores de confiance peuvent être calculés de manière combinée. Ainsi, les valeurs identifiantes les plus discriminantes par rapport à l’ensemble des modèles peuvent être trouvées. Cela permet d’éliminer de la description les parties semblables de modèles différents.
[0091 ] En version simplifiée ou par défaut, le score de confiance peut être une constante (i.e. pas de gestion de scores de confiance) ou un nombre aléatoire (i.e. gestion aléatoire de scores de confiance).
[0092] Selon une version définissant la confiance en fonction de la courbure locale de la surface 70 d’instance d’objet, le score de confiance peut être la somme des carrés des valeurs identifiantes prises par les points du descripteur, c’est-à-dire DA2 + DB2 + DC2 + DD2 + DE2 + DF2 pour l’exemple de la figure 4 (i.e. exploitation des arêtes internes du polygone), ou la somme des carrés des différences de valeurs identifiantes entre sommets des côtés du polygone formé par le descripteur, c’est-à- dire (DA-DB)2 + (DB-DC)2 + (DC-DD)2 +(DD-DE)2 + (DE-DF)2 + (DF-DA)2 pour l’exemple de la figure 4 (i.e. exploitation des arêtes externes du polygone), ou encore la somme totale des deux sommes précédentes pour exploiter pleinement toutes les arêtes internes et externes du polygone formé par le descripteur. Cette version fait à juste titre l’hypothèse qu’une valeur du descripteur calculée en un point représentatif sélectionné sur une zone de faible courbure de la surface d’instance d’objet est moins discriminante qu’une valeur calculée sur une zone de variation de courbure plus importante. A la limite, si la zone est plane, le score de confiance résultant est nul, ce qui confirme qu’une surface plane d’instance d’objet n’est pas une zone permettant une identification de cet objet.
[0093] Selon une version plus élaborée définissant la confiance en fonction d’une singularité des valeurs identifiantes prises par le descripteur, le score de confiance peut être défini comme la somme de valeurs prises par une fonction de distances, calculées dans l’espace multidimensionnel des valeurs possibles du descripteur, de valeurs identifiantes situées dans un voisinage prédéterminé d’une valeur identifiante considérée. La fonction de distances est alors avantageusement choisie de façon astucieuse pour pénaliser la valeur identifiante considérée s’il y a beaucoup d’autres valeurs identifiantes dans son voisinage et si d’une façon générale les valeurs identifiantes sont proches les unes des autres dans l’espace des valeurs possibles du descripteur. Elle est par exemple définie de la façon suivante :
[0094] [Math. 1 ]
Figure imgf000020_0001
[0095] où d est la distance, dans l’espace multidimensionnel des valeurs possibles du descripteur, entre la valeur identifiante considérée et une autre valeur identifiante prise par le descripteur dans son voisinage prédéterminé.
[0096] En notant N le nombre d’autres valeurs identifiantes prises par le descripteur dans le voisinage prédéterminé de la valeur identifiante considérée, le score de confiance prend alors la forme suivante :
[0097] [Math. 2]
Figure imgf000021_0001
[0098] où di est la distance entre la valeur identifiante considérée et la i-ème autre valeur identifiante prise par le descripteur dans son voisinage prédéterminé.
[0099] Cette version plus élaborée du calcul de score de confiance est aussi plus coûteuse en temps de calcul, même si les méthodes de recherche rapide s’appliquent aussi pour une recherche des plus proches voisins dans l’espace des valeurs possibles du descripteur. Mais elle est tout particulièrement bien adaptée par construction à chaque instance d’objet décrite.
[0100] Un procédé de détection et de localisation tridimensionnelle d’au moins une instance d’au moins un objet dans des données de représentation d’une scène tridimensionnelle, par comparaison avec au moins un modèle dudit au moins un objet, mis en œuvre par le système 40 de la figure 3, par exemple à l’aide de l’ensemble 10 de modèles de la figure 1 pour une analyse de la scène 20 de la figure 2, va maintenant être détaillé en référence à la figure 5.
[0101 ] Il comporte une première phase 100 mettant en œuvre un procédé d’identification d’instance ou de modèle d’objet mise en œuvre par le processeur 52 lorsqu’il exécute le premier programme 56.
[0102] Il comporte une deuxième phase 200 d’obtention de jeux de paramètres de transformation en translation, rotation et éventuellement changement d’échelle pour des mises en correspondance tridimensionnelle respectives des points particuliers sélectionnés d’instances d’objets dans la scène tridimensionnelle 20 avec leurs dispositions dans l’un des modèles de l’ensemble 10. Cette deuxième phase est mise en œuvre par le processeur 52 lorsqu’il exécute le deuxième programme 58. [0103] Il comporte une troisième phase 300 de classification automatique pour une mise en correspondance de chaque instance d’objet identifiée dans la scène tridimensionnelle 20 avec le modèle d’objet correspondant dans l’ensemble 10 le cas échéant. Cette troisième phase est mise en œuvre par le processeur 52 lorsqu’il exécute le troisième programme 60.
[0104] Enfin, il comporte une quatrième phase 400 optionnelle de vérification de la ou des transformations déterminées par classification automatique. Cette quatrième phase est mise en œuvre par le processeur 52 lorsqu’il exécute le quatrième programme 62.
[0105] Le procédé d’identification mis en œuvre par la première phase 100 comporte une première étape 102 de sélection d’au moins un point représentatif d’une surface d’une instance d’objet dans les données de représentation d’une scène tridimensionnelle. Ces données de représentation sont tout d’abord par exemple converties en un nuage tridimensionnel de points situés sur la surface de l’instance d’objet considérée. La sélection consiste à retenir au moins une partie des points de la surface. A défaut de réelle sélection, tous les points de la surface d’objet peuvent être retenus en tant que points représentatifs sélectionnés.
[0106] La première phase d’identification 100 comporte une deuxième étape 104 de détermination d’un repère local tridimensionnel en chaque point représentatif sélectionné pour une instance d’objet. Comme indiqué précédemment, il existe des méthodes connues pour définir de façon déterministe et automatique un tel repère local.
[0107] La première phase d’identification 100 comporte une troisième étape 106 de transposition de l’ensemble de points du descripteur dans le repère local déterminé pour chaque point représentatif sélectionné, par exemple à l’aide d’une matrice de passage pour une translation tridimensionnelle, une rotation tridimensionnelle ainsi qu’un changement d’échelle éventuel.
[0108] Enfin, la première phase d’identification 100 comporte une quatrième étape 108 de calcul des valeurs identifiantes prises par le descripteur dans le repère local déterminé pour chaque point représentatif sélectionné. Comme détaillé précédemment, ce calcul comporte, pour chaque point représentatif sélectionné et chaque point du descripteur, l’estimation d’au moins une valeur de distance la plus proche entre ce point du descripteur transposé dans le repère local déterminé du point représentatif sélectionné et la surface de l’instance d’objet. Les valeurs de distances obtenues sont ensuite directement exploitées ou traitées pour former la valeur identifiante multidimensionnelle prise par le descripteur en chaque point représentatif sélectionné.
[0109] Dans l’exemple des figures 1 , 2 et 3, la première étape 102 de sélection de points représentatifs, la deuxième étape 104 de détermination des repères locaux, la troisième étape 106 de transposition du descripteur dans les repères locaux et la quatrième étape 108 de calcul de ses valeurs après transposition sont exécutées pour chaque instance d’objet 22, 24, 26, 28, 30, 32 de la scène tridimensionnelle 20 et pour chaque modèle d’objet 12, 14, 16 de l’ensemble 10.
[01 10] Les deuxième, troisième et quatrième phases 200, 300 et 400 ne font pas l’objet de la présente invention, sont par ailleurs bien connues de l’homme du métier et ne seront donc pas détaillées.
[01 1 1 ] Il apparaît clairement qu’un système/procédé d’identification par descripteur tel que celui décrit précédemment, dans un contexte applicatif purement illustratif et non limitatif de détection et de localisation tridimensionnelle d’au moins une instance d’au moins un objet dans des données de représentation d’une scène tridimensionnelle, permet une identification surfacique simple, rapide, discriminante et robuste à l’aide d’un descripteur pouvant présenter un nombre limité de dimensions, notamment six dimensions pour la variante simple d’un descripteur hexagonal tel que celui de la figure 4. En admettant par exemple que dans cette variante simple les six dimensions du descripteur soient chacune exprimées en dix valeurs distinctes possibles, alors il existe un million de valeurs distinctes possibles pour le descripteur. Il est ainsi théoriquement possible de décrire jusqu’à un million de points représentatifs avec ce descripteur sans rencontrer deux valeurs de descripteur identiques. En pratique, les nuages de points sur lesquels un procédé d’identification par descripteur opère dépassent rarement quelques centaines de milliers de points. De plus, certaines surfaces telles que les plans sont ambigües par nature de sorte que les descripteurs locaux de telles surfaces prennent nécessairement des valeurs ambigües, quel que soit le nombre de dimensions du descripteur. En d’autres termes, six dimensions pour un descripteur selon la présente invention s’avèrent le plus souvent largement suffisantes. Il en résulte un descripteur compact formant un compromis optimal entre rapidité et précision, lié au fait que ce descripteur soit surfacique. [01 12] Comme indiqué précédemment, ce descripteur est en outre parfaitement adapté à une comparaison de ses valeurs par calculs de distances euclidiennes et aux méthodes de recherches rapides connues, notamment grâce à l’homogénéité de ses dimensions principales.
[01 13] Ainsi, il est possible d’effectuer à l’aide du descripteur proposé des opérations auparavant jugées trop coûteuses ou des tâches auparavant effectuées par d’autres approches. En particulier, l’étape de sélection 102 précitée peut être réduite à sa plus simple expression en retenant tous les points du nuage de points d’une surface d’instance d’objet à identifier, le calcul des valeurs prises par le descripteur proposé en chacun de ces points étant simple et rapide. Cela permet notamment de décrire des instances d’objets dont seule une petite partie est vue par un capteur. Compte tenu en outre de sa capacité de discrimination, le descripteur peut lui-même servir pour une sélection ultérieure des points représentatifs d’intérêt de chaque instance d’objet à identifier en ne retenant que les points pour lesquels le descripteur transposé présente une valeur relativement éloignée des autres. Une telle sélection est optimale puisqu’elle utilise le même descripteur que celui qui sert à identifier les instances d’objets. Il y a en effet synergie entre la sélection et l’identification.
[01 14] Les distances les plus proches calculées pour ce descripteur correspondent par ailleurs à une réalité physique des surfaces locales sur lesquelles elles s’appliquent. De plus elles sont parfaitement adaptées aux structures connues de recherche rapides et la complexité de calcul des valeurs de distances (et par conséquent des valeurs identifiantes du descripteur) n’augmente pas avec l’échelle de description choisie, ce qui permet d’envisager un tel descripteur à n’importe quelle échelle contrairement aux descripteurs de l’état de l’art. Enfin, dans une version simplifiée du descripteur, elles sont homogènes et rendent les comparaisons de valeurs du descripteur directement pertinentes et interprétables sans nécessité d’apporter des pondérations ou ajustements entre dimensions pour les rendre compatibles entre elles.
[01 15] Le fait que le descripteur proposé soit surfacique est également cohérent avec le fait que les capteurs 3D actuels ne voient généralement que des surfaces et le fait que les représentations de modèles en conception assistée par ordinateur sont elles aussi surfaciques. [01 16] Enfin, le descripteur proposé constitue accessoirement un bon détecteur de planéité et de courbure, permettant par exemple de détecter de manière fiable et robustes les portions de surfaces planes sans surcoût en calcul.
[01 17] On notera par ailleurs que l’invention n’est pas limitée aux modes de réalisations décrits précédemment.
[01 18] Il a ainsi été détaillé un exemple dans lequel le descripteur est défini par un ensemble de six points formant un hexagone régulier. C’est en effet une solution simple pour disposer de points équidistants entre eux et par rapport à un centre. Mais on pourrait également choisir une figure géométrique plus complexe, avec des points à différentes distances du centre permettant ainsi de décrire plusieurs échelles de la scène tridimensionnelle.
[01 19] Il a également été détaillé un exemple dans lequel des instances d’objets sont identifiées et localisées dans une scène tridimensionnelle par recalage sur un ensemble de modèles d’objets, notamment pour une application de dévracage. Mais la présente invention s’applique dans de nombreuses autres applications impliquant une identification d’instances d’objets par l’utilisation de descripteurs locaux ou globaux, sans nécessairement inclure le recalage de ces instances sur des modèles, sans même nécessairement impliquer de détection ou localisation d’objet.
[0120] Il apparaîtra plus généralement à l'homme de l'art que diverses modifications peuvent être apportées aux modes de réalisation décrits ci-dessus, à la lumière de l'enseignement qui vient de lui être divulgué. Dans la présentation détaillée de l’invention qui est faite précédemment, les termes utilisés ne doivent pas être interprétés comme limitant l’invention aux modes de réalisation exposés dans la présente description, mais doivent être interprétés pour y inclure tous les équivalents dont la prévision est à la portée de l'homme de l'art en appliquant ses connaissances générales à la mise en œuvre de l'enseignement qui vient de lui être divulgué. |

Claims

Revendications
[1] Procédé (100) d’identification d’une instance d’un objet dans des données de représentation d’une scène tridimensionnelle à l’aide d’un descripteur, comportant les étapes suivantes :
sélection (102) d’au moins un point représentatif (O) d’une surface (70) de l’instance d’objet dans les données de représentation ;
détermination (104) d’un repère local (O, x, y, z) en chaque point représentatif sélectionné ;
calcul (108) d’une pluralité de valeurs identifiantes prises par le descripteur dans le repère local déterminé pour chaque point représentatif sélectionné ;
caractérisé en ce que :
le descripteur est défini au moins en partie par un ensemble de points aux coordonnées prédéterminées transposables dans chaque repère local déterminé ; et
le calcul (108) de la pluralité de valeurs identifiantes comporte, pour chaque point représentatif sélectionné et chaque point du descripteur, l’estimation d’au moins une valeur de distance la plus proche (DA, DB, DC, DD, DE, DF) entre ce point du descripteur transposé (A, B, C, D, E, F) dans le repère local déterminé du point représentatif sélectionné et la surface (70) de l’instance d’objet.
[2] Procédé d’identification (100) selon la revendication 1 , dans lequel :
chaque point représentatif sélectionné (O) est un point de la surface (70) de l’instance d’objet ;
- l’ensemble des points du descripteur forme un polygone, par exemple un hexagone ; et
pour chaque point représentatif sélectionné (O), le polygone est transposé dans un plan (O, x, y) localement tangent à la surface (70) de l’instance d’objet au point représentatif sélectionné (O).
[3] Procédé d’identification (100) selon la revendication 2, dans lequel l’ensemble des points du descripteur forme un polygone régulier transposable avec une adaptation possible du rayon (r) de son cercle circonscrit à un paramètre de courbure locale de la surface (70) de l’instance d’objet en chaque point représentatif sélectionné (O).
[4] Procédé d’identification (100) selon la revendication 1 , dans lequel :
chaque point représentatif sélectionné est un point d’un axe ou d’une courbe principal(e) de l’instance d’objet ;
l’ensemble des points du descripteur forme un polygone, par exemple un hexagone ; et
pour chaque point représentatif sélectionné, le polygone est transposé dans un plan localement normal à l’axe ou à la courbe principal(e) de l’instance d’objet et comportant le point représentatif sélectionné.
[5] Procédé d’identification (100) selon l’une quelconque des revendications 1 à 4, dans lequel ladite au moins une valeur de distance la plus proche (DA, DB, DC, DD, DE, DF) estimée est une valeur de distance point à point, une valeur de distance point à plan ou une combinaison de ces valeurs de distances.
[6] Procédé d’identification (100) selon l’une quelconque des revendications 1 à 5, dans lequel la transposition de l’ensemble de points du descripteur comporte une translation tridimensionnelle, une rotation tridimensionnelle ainsi qu’un changement d’échelle.
[7] Procédé d’identification (100) selon l’une quelconque des revendications 1 à 6, dans lequel le calcul (108) de la pluralité de valeurs identifiantes comporte en outre un calcul de score de confiance du descripteur en chaque point représentatif sélectionné (O), ce calcul de score de confiance étant fonction de la pluralité de valeurs identifiantes.
[8] Procédé d’identification (100) selon l’une quelconque des revendications 1 à 7, dans lequel le descripteur est en outre défini par au moins l’un des éléments de l’ensemble constitué de :
un paramètre de luminance ;
un paramètre de chrominance ;
un paramètre de rugosité ;
un paramètre de polarité ;
un paramètre de texture ; et
un paramètre de pouvoir réfléchissant.
[9] Programme d’ordinateur (56) téléchargeable depuis un réseau de communication et/ou enregistré sur un support (54) lisible par ordinateur et/ou exécutable par un processeur (52), caractérisé en ce qu’il comprend des instructions pour l’exécution des étapes d’un procédé d’identification (100) selon l’une quelconque des revendications 1 à 8, lorsque ledit programme est exécuté sur un ordinateur.
[10] Système (44, 52, 56) d’identification d’une instance d’un objet dans des données de représentation d’une scène tridimensionnelle à l’aide d’un descripteur, le système comportant :
- au moins une mémoire (44) de stockage des données (46, 48) de représentation de la scène tridimensionnelle et de coordonnées prédéterminées (50) de l’ensemble de points du descripteur ; et un processeur (52) d’identification de l’instance d’objet dans la scène tridimensionnelle, programmé pour l’exécution des étapes d’un procédé d’identification (100) selon l’une quelconque des revendications 1 à 8.)
PCT/EP2020/059323 2019-04-04 2020-04-01 Procédé, programme d'ordinateur et système pour l'identification d'une instance d'objet dans une scène tridimensionnelle WO2020201392A1 (fr)

Priority Applications (1)

Application Number Priority Date Filing Date Title
EP20714626.7A EP3948654A1 (fr) 2019-04-04 2020-04-01 Procédé, programme d'ordinateur et système pour l'identification d'une instance d'objet dans une scène tridimensionnelle

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1903633A FR3094815B1 (fr) 2019-04-04 2019-04-04 Procédé, programme d’ordinateur et système pour l’identification d’une instance d’objet dans une scène tridimensionnelle
FRFR1903633 2019-04-04

Publications (1)

Publication Number Publication Date
WO2020201392A1 true WO2020201392A1 (fr) 2020-10-08

Family

ID=68210876

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2020/059323 WO2020201392A1 (fr) 2019-04-04 2020-04-01 Procédé, programme d'ordinateur et système pour l'identification d'une instance d'objet dans une scène tridimensionnelle

Country Status (3)

Country Link
EP (1) EP3948654A1 (fr)
FR (1) FR3094815B1 (fr)
WO (1) WO2020201392A1 (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3117250A1 (fr) 2020-12-08 2022-06-10 Commissariat à l'énergie atomique et aux énergies alternatives Procédés, programme d’ordinateur et système pour l’identification, la détection et la localisation d’une instance d’objet dans une scène tridimensionnelle

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8274508B2 (en) 2011-02-14 2012-09-25 Mitsubishi Electric Research Laboratories, Inc. Method for representing objects with concentric ring signature descriptors for detecting 3D objects in range images
US8830229B2 (en) 2010-05-07 2014-09-09 Mvtec Software Gmbh Recognition and pose determination of 3D objects in 3D scenes

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8830229B2 (en) 2010-05-07 2014-09-09 Mvtec Software Gmbh Recognition and pose determination of 3D objects in 3D scenes
US8274508B2 (en) 2011-02-14 2012-09-25 Mitsubishi Electric Research Laboratories, Inc. Method for representing objects with concentric ring signature descriptors for detecting 3D objects in range images

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHUA C S ET AL: "POINT SIGNATURES: A NEW REPRESENTATION FOR 3D OBJECT RECOGNITION", INTERNATIONAL JOURNAL OF COMPUTER VISION, KLUWER ACADEMIC PUBLISHERS, NORWELL, US, vol. 25, no. 1, 1 October 1997 (1997-10-01), pages 63 - 85, XP000723755, ISSN: 0920-5691, DOI: 10.1023/A:1007981719186 *
GUO ET AL.: "3D object récognition in cluttered scenes with local surface features: a survey", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, vol. 36, no. 11, November 2014 (2014-11-01), pages 2270 - 2287, XP055544401, DOI: 10.1109/TPAMI.2014.2316828
MUJA ET AL.: "Scalable nearest neighbor algorithms for high dimensional data", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, vol. 36, no. 11, November 2014 (2014-11-01), pages 2227 - 2240, XP011560102, DOI: 10.1109/TPAMI.2014.2321376

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3117250A1 (fr) 2020-12-08 2022-06-10 Commissariat à l'énergie atomique et aux énergies alternatives Procédés, programme d’ordinateur et système pour l’identification, la détection et la localisation d’une instance d’objet dans une scène tridimensionnelle
EP4012651A1 (fr) 2020-12-08 2022-06-15 Commissariat À L'Énergie Atomique Et Aux Énergies Alternatives Procédés, programme d'ordinateur et système pour l'identification, la détection et la localisation d'une instance d'objet dans une scène tridimensionnelle

Also Published As

Publication number Publication date
EP3948654A1 (fr) 2022-02-09
FR3094815A1 (fr) 2020-10-09
FR3094815B1 (fr) 2022-07-08

Similar Documents

Publication Publication Date Title
US10475232B2 (en) Three-dimentional plane panorama creation through hough-based line detection
Boulch et al. Unstructured point cloud semantic labeling using deep segmentation networks.
Artusi et al. A survey of specularity removal methods
EP1554541B1 (fr) Cible codee et procede de photogrammetrie utilisant de telles cibles
EP2724203B1 (fr) Génération de données de carte
EP3857512A1 (fr) Procede, programme d'ordinateur et systeme de detection et localisation d'objet dans une scene tridimensionnelle
WO2011131410A1 (fr) Methode de controle de l'aspect de la surface d'un pneumatique
EP3614306B1 (fr) Procédé de localisation et d'identification de visage et de détermination de pose, à partir d'une vue tridimensionnelle
WO2017202634A1 (fr) Procédé d'élaboration d'un modèle déformable en trois dimensions d'un élément, et système associé
WO2010066563A1 (fr) Dispositif a architecture pipeline de flot de donnees pour la reconnaissance et la localisation d'objets dans une image par balayage de fenetres de detection
FR3076028A1 (fr) Methode de reconnaissance d'objets dans une scene observee en trois dimensions
WO2020201392A1 (fr) Procédé, programme d'ordinateur et système pour l'identification d'une instance d'objet dans une scène tridimensionnelle
EP3073441B1 (fr) Procédé de correction d'une image d'au moins un objet présenté à distance devant un imageur et éclairé par un système d'éclairage et système de prise de vues pour la mise en oeuvre dudit procédé
FR3045884A1 (fr) Procede de detection de fraude pour authentifier un doigt
FR2950451A1 (fr) Algorithme de detection des points de contour dans une image
FR3065097B1 (fr) Procede automatise de reconnaissance d'un objet
EP4012651A1 (fr) Procédés, programme d'ordinateur et système pour l'identification, la détection et la localisation d'une instance d'objet dans une scène tridimensionnelle
FR2953050A1 (fr) Procede et dispositif de detection des points de courbure dans une image d'entree
BE1026937B1 (fr) Méthode de segmentation d'une image
WO2012107696A1 (fr) Procédés, dispositif et programmes d'ordinateur pour la reconnaissance de formes, en temps réel, à l'aide d'un appareil comprenant des ressources limitées
FR3082341A1 (fr) Procede de traitement d'une image d'empreinte papillaire
FR3056800A1 (fr) Procede de caracterisation d’une image
EP2481011A1 (fr) Procédé de détection de faux doigt pour logiciel d'acquisition d'empreintes digitales
FR3103301A1 (fr) Procédé de détection de pics d’intensité de faisceau lumineux réfléchi de manière spéculaire
FR2896605A1 (fr) Procede et systeme d'identification et de poursuite automatique d'un objet dans un film pour la videosurveillance et le controle d'acces

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20714626

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2020714626

Country of ref document: EP

Effective date: 20211104