WO2018002533A1 - Procédé d'occultation d'un objet dans une image ou une vidéo et procédé de réalité augmentée associé - Google Patents

Procédé d'occultation d'un objet dans une image ou une vidéo et procédé de réalité augmentée associé Download PDF

Info

Publication number
WO2018002533A1
WO2018002533A1 PCT/FR2017/051744 FR2017051744W WO2018002533A1 WO 2018002533 A1 WO2018002533 A1 WO 2018002533A1 FR 2017051744 W FR2017051744 W FR 2017051744W WO 2018002533 A1 WO2018002533 A1 WO 2018002533A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
face
generating
model
glasses
Prior art date
Application number
PCT/FR2017/051744
Other languages
English (en)
Inventor
Ariel Choukroun
Jérome GUENARD
Original Assignee
Fittingbox
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from FR1656154A external-priority patent/FR3053509B1/fr
Application filed by Fittingbox filed Critical Fittingbox
Priority to EP17742822.4A priority Critical patent/EP3479344B1/fr
Priority to JP2018569126A priority patent/JP7112336B2/ja
Priority to CN201780053200.5A priority patent/CN109983501B/zh
Priority to KR1020197002130A priority patent/KR102342982B1/ko
Publication of WO2018002533A1 publication Critical patent/WO2018002533A1/fr

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/77Retouching; Inpainting; Scratch removal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2219/00Indexing scheme for manipulating 3D models or images for computer graphics
    • G06T2219/20Indexing scheme for editing of 3D models
    • G06T2219/2012Colour editing, changing, or manipulating; Use of colour codes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2219/00Indexing scheme for manipulating 3D models or images for computer graphics
    • G06T2219/20Indexing scheme for editing of 3D models
    • G06T2219/2021Shape modification

Definitions

  • the field of the invention is that of image processing and image synthesis.
  • the invention relates to a method of occultation of an object in an image or a video.
  • the invention finds particular applications in the field of augmented reality for fitting a virtual pair of glasses by an individual wearing during the fitting a real pair of glasses.
  • This technique reconstructs the face statistically from images of individuals at an identical angle of view, generally from the front.
  • This technique only works in two dimensions, considering only the inside of the 2D envelope of the face on the image. In other words, all the elements of the pair of superimposed glasses with a background of the face are not considered by this technique, which is penalizing on images with pairs of glasses wider than the face or when the face is not face on the image.
  • Another major disadvantage of this technique is that it takes into account only pairs of glasses including a very thin frame, thus excluding all pairs of glasses having a thick frame.
  • none of the existing augmented reality systems can virtually remove a real object, such as a pair of glasses, on one or more individuals carrying this object.
  • the present invention aims to remedy all or part of the disadvantages of the state of the art mentioned above.
  • One of the main objectives of the invention is to propose a technique that allows a user wearing a real-vision device to see himself on a screen, as in a mirror, without the actual vision device on the face and to try a virtual object replacing on the screen the actual vision device preserved on the face.
  • Another objective of the invention is to propose a technique that is realistic for the user.
  • Another objective of the invention is to propose a technique that operates in real time.
  • Another object of the invention is to provide a technique that allows the user trying a virtual object to move the head in any direction.
  • An object of the invention is also to propose a technique for removing the visible part of an object, in particular a pair of glasses, on an image or a video, but also local light interactions such as the reflections of the glasses or the shadows. worn.
  • the object may be for example a vision device worn on the face, such as a pair of glasses or a portable device on the head comprising a mount and a display screen, such as a virtual reality helmet, mixed reality or augmented reality.
  • a vision device worn on the face such as a pair of glasses or a portable device on the head comprising a mount and a display screen, such as a virtual reality helmet, mixed reality or augmented reality.
  • the object can also be any other accessory worn on the head of an individual such as a scarf, a hat, make-up, a jewel or a hairstyle.
  • the image is acquired by an image acquisition device that can be a camera, a camera or a depth camera.
  • the depth camera well known to those skilled in the art, combines a camera and an infrared measurement of the distance of the elements relative to the objective.
  • the image can be alone or included in a sequence of images, also called video.
  • the method of generating an image comprises the following steps:
  • the method makes it possible to modify the visual appearance of the detected object by covering it with a mask whose appearance is modified.
  • the mask comprises pixels covering a continuous area or not on the initial image.
  • the mask can cover all or only part of the object.
  • the mask can cover only the frame of the pair of glasses, the frame and part of the glasses, the frame and the glasses in total, or only the glasses, it It should be noted that the shadows of glasses can also be covered by the mask,
  • Changing the appearance of the mask corresponds to a change in the color and / or opacity of part or all of the pixels of the mask.
  • the modification of the appearance of the mask comprises a step of replacing the texture of part or all of the object on the final image.
  • the texture of the object is a representation of the external appearance of the object.
  • the texture may for example be related to the color of the object, to its constitution, as the presence of different layers of porous or translucent materials.
  • the texture may also be related to the type of coating of the object, such as the presence of a layer of gloss or matte varnish.
  • the modification of the appearance of the mask comprises a step of determining the texture of part or all of the object, the texture reproducing the elements behind the plane of the object in order to conceal all or part of the object on the final image.
  • the object detected in the initial image is automatically hidden from the final image.
  • the method of generating a final image from an initial image is a method of obscuring an object in an image.
  • the mask also covers all or part of the drop shadow of the object.
  • changing the appearance of the mask also makes it possible to hide the shadows of the object.
  • the shadow of a pair of glasses worn on the face of an individual can also be erased on the face, increasing the realism of the occultation of the pair of glasses.
  • the method for generating an image also comprises the following step:
  • the elements included in the second layer are for example hair covering a branch of a pair of glasses, a partially located hand in front of the object.
  • the superposition of the different layers makes it possible to preserve the realism of the final image.
  • the method of generating an image also comprises, before step b), the following steps:
  • the initial image acquisition device comprises a photographic sensor and a photographic lens for converging real images on the sensitive surface of the photographic sensor.
  • the photographic lens includes at least one converging lens.
  • the image acquisition device can be for example a camera, a camera or a webcam.
  • the orientation of the object with respect to the image acquisition device corresponds to the angles formed by the object in a reference of the acquisition device.
  • This marker may for example be an orthonormal marker whose axis coincides with the optical axis of the lens. In other words, the object whose orientation is determined, is followed during a sequence of images.
  • the characteristic dimension of the object may be for example the width of the frame of a pair of glasses.
  • the method of generating an image also comprises, before step b), the following steps:
  • the model representing the object is superimposed virtually on the object.
  • the model of the object may include two-dimensional images that are distorted and flattened according to the orientation and size of the real object.
  • the model of the object can also be three-dimensional with or without thickness.
  • the orientation and the characteristic dimension of the model correspond to parameters of similarity between the model of the object and the real object.
  • the projection of the three-dimensional model makes it possible to obtain the mask.
  • the mask can cover the all or part of the resultant of the projection of the model on the layer. It should be emphasized that the mask can also cover an area of the image larger than the projection.
  • the development of the model of the object is performed from at least one image of the object alone.
  • the generation of the model of the object may for example be performed in a device dedicated to modeling, comprising a box in which the object is housed, and one or more image acquisition devices oriented towards the object.
  • An image may be sufficient for the development of the model of the object, provided that it is a three-quarter view of an object with a plane of symmetry, such as a pair of glasses.
  • the development of a model of the object is made from at least two images of the object, the images presenting the object from different angles.
  • the object is worn on the face of an individual.
  • the development of the model of the object is carried out from at least one image of the object worn on the face of the individual.
  • the individual can keep the object on his face during the generation of the model.
  • the object comprises a frame extending on either side of the face, and at least one glass assembled to said frame.
  • the object may be a vision device such as a pair of glasses.
  • the method for generating an image also comprises a step of identifying the frame among the frames previously modeled and stored in a database, the mask being developed from the model of the mount identified.
  • the projection on the first layer of the model of the frame identified and previously modeled makes it possible to obtain a realistic mask of the frame.
  • the mask may include all or part of the projection of the frame on the first layer.
  • An area of the image corresponding to a glass assembled to the frame, or to a drop shadow, may be added to the mask.
  • a database can store mount models and the mount is identified among the mounts stored in the database.
  • the identification can be done automatically by the process or manually by an individual.
  • the manual identification can be made for example by the information entered by the manufacturer inside the frame of the pair of glasses.
  • the identification of the frame is performed by generating support curves that fit on the contours of the frame.
  • the identification of the frame is based on at least one of the following criteria:
  • the method for generating an image also comprises a step of producing a representation of the environment of the object.
  • the environment includes all the elements surrounding the object on the image, as well as the elements in the background of the object on the image.
  • the representation may be in the form of an image and / or a three-dimensional model.
  • the representation of the environment may comprise a model of the face on which is worn the pair of glasses and / or an image corresponding to the background of the face.
  • the step of modifying the appearance of the mask comprises the following substeps:
  • the geometric projection of the representation of the environment on the intermediate layer makes it possible to obtain an image on which the mask of the object is superimposed.
  • the geometric projection of the three-dimensional model on the intermediate layer produces an image superimposed on the background image.
  • the intermediate layer thus presents a two-dimensional representation of the environment on which the mask of the object is superimposed.
  • the three-dimensional model is textured.
  • the determination of the new color implements an image editing method of the "Poisson image editing" type.
  • the texture applied to the mask is adjusted colorimetrically according to the initial image in order to be confused with it.
  • the edges of the mask are no longer visible in the final image and the mask can no longer be distinguished in this final image.
  • This image editing technique described for example in the "Poisson Image Editing" document by P. Perez and M. Gangnet, notably solves a Poisson equation.
  • the method of generating an image also comprises a step of detecting the presence of a face in the environment and in that the representation of the environment comprises a model of the detected face on which is applied a texture of the face.
  • the texture of the face is a two-dimensional image that applies to the model. It should be emphasized that the model and texture can be advantageously realistic.
  • the detection of the presence of the face can be done by detecting characteristic points of the face, such as for example the edge of the temples, the end of the nose or the chin, even the corners of the eyes.
  • the method of generating an image also comprises a step of determining the orientation of the face with respect to the acquisition device and that the model of the face is disposed substantially according to the previously determined orientation.
  • the three-dimensional model representing the face is realistically oriented in the virtual space corresponding to the scene acquired by the image.
  • the mask at least partially covering the object worn on the face is developed from the geometric projection of the face model on the first layer.
  • the occultation of the object worn on the face is achieved through a mask developed from a projection of the face model and not from a projection of the model of the object.
  • this embodiment makes it possible to overcome the tracking of the object.
  • the elaborate mask may not take into account the size of the object, in which case the size of the mask is set according to the size of the face. In the case of a pair of glasses worn on the face, the size of the mask is advantageously sufficient to cover most of the existing pairs of glasses.
  • the method for generating an image also comprises the following steps:
  • the model of the face is illuminated realistically compared to the real scene.
  • the method for generating an image also comprises the following steps:
  • the estimation of the colorimetric transformation can be performed by an analysis of at least one light source illuminating the face of the individual.
  • the color of a pixel on the texture of the face is determined by means of an inpainting method from the colors of a patch near the pixel.
  • the patch corresponds to a plurality of pixels forming a continuous zone.
  • the shape of the patch may be square or rectangular, each side generally comprising between one and five pixels.
  • a circular shaped patch can be obtained by inserting a Gaussian filter inside a square patch.
  • the inpainting method well known to those skilled in the art, makes it possible to complete the texture of the face, especially in the case of the generation of the model of the face of an individual wearing a pair of glasses. Indeed, in this example, the frame or even the glasses mask part of the face.
  • the position of the patch is located substantially on the perpendicular to the contour of the area comprising the missing pixels.
  • the color of a missing pixel of the texture of the face is restored from a patch near the missing pixel, the patch being located on a perpendicular to the outline of the hidden area of the face.
  • the position of the patch is located substantially vertically with respect to said pixel.
  • the method of inpainting respects the general typology of a face which includes on both sides a vertical hair zone coming to cover part of the temples.
  • the color of a pixel on the texture of the face is determined by means of an inpainting method based on the previously established and oriented model of the face, the model of the face including a representation of the eyes.
  • the method of generating an image also comprises a step of identifying at least one eye zone on the texture of the face, the ocular zone corresponding to the position of an eye of the detected face.
  • the identification of an ocular area on the texture of the face can be performed by identifying the position of characteristic points of an eye such as the precise outer and inner corners of an eye.
  • the filling of the ocular area is performed knowing the topology of the detected facial eye.
  • the topology of the eye includes a parametric representation through curves, different areas of the eye, including the iris and eyelids.
  • the filling of the ocular area is more realistic because it respects the position of the iris and the pupil.
  • the filling of the iris can be carried out by an inpainting method coming to recover a pixel nearby in a zone corresponding to the iris.
  • the zone corresponding to the iris covers empty pixels or having no coherent values
  • the iris is restored according to a standard iris topology possibly taking into account the color of the iris of the iris. other eye detected.
  • the development of the representation of the environment of the object worn on the face of an individual is performed without detecting a face in the environment.
  • the method is used without detecting or tracking the face of an individual.
  • the elaboration of the representation of the environment comprises a sub-step of correcting the optical distortion due to a transparent element placed between the environment and an acquisition device. initial image.
  • the method of generating an image is applied to all or part of a sequence of images forming a video.
  • the video may be in the form of a recording or a stream in real time, such as a streamed video, a technique well known per se.
  • the video can also be a real-time stream from a camera and visible on a screen instantly
  • the representation of the environment and / or the model of the object are updated with each image of the sequence.
  • the representation and / or the model being updated from several images of the sequence are more and more representative of reality.
  • An area masked by the object such as the part of the face behind a pair of glasses, can thus be updated in the representation of the environment comprising a model of the face, when the individual turns his head.
  • the device for acquiring the initial image takes images of the face under new angles of view, which improves the knowledge of the face.
  • the representation of the environment and / or the model of the object is updated from a plurality of initial images taken according to a plurality of distinct angles of view. .
  • the initial images taken at a plurality of distinct viewing angles may be from one or more image acquisition devices oriented at different angles.
  • the generation of the final image is carried out in real time from the initial image.
  • the processing of the acquired image is done in a weak and guaranteed time.
  • the processing time of an acquired image of the individual makes it possible in particular to display the image of the treated individual without visible offset for the individual.
  • the treatment time is less than 1 / 10th of a second.
  • the treatment time is preferably but not necessarily less than the display time between two images, which is usually equal to 1 / 25th of a second.
  • the real-time processing makes it possible to display a video stream coming from a camera instantly on a screen, the images of this stream having been processed in a sufficiently short time not to be perceived by the camera. human eye.
  • the invention also relates to an augmented reality method for use by an individual wearing a portable device on the face, comprising the steps of:
  • the portable device generally comprises a mount adapted to be worn on the head.
  • the portable device may also include at least one glass and / or at least one screen.
  • the frame can advantageously be configured to avoid covering the eyes and eyebrows.
  • the portable device may be a vision device. This augmented reality process makes it possible for an individual to wear a pair of corrective glasses to see themselves on the screen with the same pair of glasses but with a different color and / or texture.
  • the portable device is totally or partially hidden from the video displayed in real time.
  • the portable device is a vision device comprising a frame and corrective lenses adapted to the vision of the individual wearing the portable device on his face.
  • the portable device worn by the individual includes corrective lenses adapted to the view of the individual.
  • the individual carrying the portable device tries a virtual object superimposed at least partially in the video on the portable device partially or completely obscured.
  • the augmented reality method comprises a step of initializing the model of the face of the individual from at least one image of the individual not wearing the portable device on the face.
  • the individual previously removed his portable device from his face for the generation of the model of the face, and delivers it after a given time.
  • the acquisition of the image of the individual can be performed with one or more image acquisition devices.
  • the individual can perform head movements so that facial model generation is performed from a plurality of facial images acquired from different angles of view.
  • the augmented reality method comprises a step of initializing the model of the individual's face from a plurality of images of the individual wearing the vision device, the images corresponding to different angles of view of the face.
  • the generation of the model of the face is performed without the user needing to remove his portable device from the face.
  • the augmented reality method comprises a step of initializing the model of the portable device from at least one image of said device acquired in a dedicated modeling device.
  • the augmented reality method comprises a step of initializing the portable device model from at least one image of the individual carrying the portable device.
  • the invention also relates to an augmented reality device for fitting a virtual object by an individual wearing a vision device, the virtual object at least partially covering the vision device, the fitting device comprising:
  • At least one camera acquiring a video of the individual
  • a video processing unit acquired, the processing unit obscuring at least partially on the majority or all of the images of the video the viewing device via an image generating method
  • At least one screen displaying the treated video of the individual.
  • the screen is vertical and the camera is fixed substantially in the plane of the screen.
  • this particular configuration allows an individual sitting or standing in front of the camera to see themselves live on the screen, as in a mirror.
  • the device for fitting a virtual object comprises two cameras spaced, parallel to an edge of the screen, a distance of between thirty and fifty centimeters.
  • the individual being generally placed at a distance of between eighty centimeters and one meter of the screen in order to be able to touch the screen, the distance between the cameras is optimal to obtain two shots of the face to reconstruct the model and the texture of the face in a realistic way.
  • the fitting device of a virtual object further comprises a third camera substantially on the median axis between the first two cameras.
  • the third camera makes it possible to obtain a front image of the individual, this image appearing on the screen.
  • the first two cameras improve the realistic modeling of the face and the pair of glasses worn by the user.
  • the screen is tactile.
  • the virtual object may be a vision device such as a pair of glasses or sunglasses, a facial accessory or a makeup.
  • the display of the acquired and modified video is performed in real time.
  • the device is an augmented reality device where the user can try a virtual object and see themselves in real time on the screen.
  • the device for fitting a virtual object comprises a device for acquiring the three-dimensional model of the vision device.
  • FIG. 1 shows an embodiment of an augmented reality device for fitting a virtual object by an individual wearing a real vision device
  • FIG. 2 represents a block diagram of an embodiment of a method for generating a final image from an initial image
  • FIG. 3 represents in the form of a block diagram the steps of the method of generating an image with reference to FIG. 2;
  • o 4a a perspective view of the model of the eyes
  • o 4b a side view of an eyeball model
  • o 4c a front view of an eye model
  • o 4d a side view of an eyeball model including eyelid curves
  • o 4th a front view of an eye model illustrating the movement of the iris
  • FIG. 5 illustrates an example of acquired texture of a real face
  • FIG. 6 illustrates the masks generated during the method of generating an image with reference to FIG. 2
  • FIG. 7 represents another embodiment of an augmented reality device allowing the fitting of a virtual object by an individual wearing a real-vision device
  • FIG. 8 represents in the form of a block diagram another embodiment of a method for generating a final image from an initial image
  • FIG. 9 represents another embodiment of an augmented reality device used by an individual wearing a real-vision device
  • FIG. 10 shows a pair of spectacles used in the exemplary embodiments of the invention.
  • FIG. 1 1 shows a screen showing a video of an individual wearing a pair of glasses on the face
  • Figure 12 shows a screen displaying the video with reference to Figure 1 1 in which the pair of glasses is obscured.
  • FIG. 10 represents a pair of spectacles 1 1 1 comprising a rigid frame 1 12 and two corrective lenses 1 13 assembled to the frame 1 12.
  • the frame 1 12 symmetrical with respect to the medial plane AA comprises a face 1 12b and two branches 1 17 extending laterally on either side of the face 1 12b.
  • the face 1 12b comprises two circles 1 14 surrounding the lenses 1 13, a bridge 1 15 ensuring the spacing between the circles 1 14 and two pins 1 19.
  • Two plates 1 16 each attached to a circle 1 14 are intended to rest on both sides of an individual's nose.
  • the two branches 1 17 are each fixed to a pin January 19 of the face 1 12b by means of hinges January 18 thus allowing the mount 1 12 to be articulated.
  • the face 1 12b is inclined at an angle of between 5 ° and 10 ° relative to the plane perpendiculareau plane formed by the axes of the branches 1 17. This angle is generally confused with the angle pantoscopic of the pair of glasses 1 1 1, that is to say at the angle of the face 1 12b with the vertical when the pair of glasses 1 1 1 is placed on the nose of an individual looking away without tilting the head , the plane of the branches being horizontal.
  • Each branch 1 17 ends with a sleeve 1 17b intended to rest on an ear of an individual.
  • the frame 1 12 thus extends laterally on either side of the face of an individual wearing the pair of spectacles 1 1 1.
  • pair of spectacles 1 1 1 used in the following two examples of embodiment of the invention is a non-limiting example of real object erased from an image or a sequence of images by the method which is the subject of the invention.
  • Figure 1 shows a device 100 for fitting a virtual object 1 10 by an individual 120 wearing the pair of glasses 1 1 1 on the face.
  • the individual 120 is moderately myopic.
  • the visibility of the individual 120 not wearing a pair of corrective glasses is about twenty centimeters.
  • the device 100 comprises a touch screen 130 fixed vertically on a support 131, a camera 132 centered above the screen 130, two peripheral cameras 133 and a processing unit 134.
  • the device 100 further comprises a depth sensor measuring by infrared the distance of the elements relative to the camera.
  • the depth sensor may include an infrared projector and a photosensitive sensor in the infrared wavelength.
  • the photosensitive sensor being in the immediate vicinity of the projector, the density of the points of the image makes it possible to deduce therefrom a depth map indicating the distance of each point of the image relative to the sensor.
  • the device 100 also comprises a scanner or a dual sensor for acquiring a model of the entire face of the individual 120.
  • the individual 120 When the individual 120 is facing the screen 130, the individual 120 sees the image of his face 121 from the front, acquired in real time by the camera 132. In order to be able to touch the touch screen 130, the 120 individual stands at a distance of about one arm of the screen 130. The distance between the individual 1 20 and the touch screen 130 is between sixty and one hundred and twenty centimeters. The individual 120 wears the pair of glasses 1 1 1 in order to see the screen 130 clearly.
  • the two peripheral cameras 133 are fixed on a parallel rail 135 to the upper edge of the screen 130, symmetrically on either side of the camera 132.
  • the distance between the two peripheral cameras 133 is between thirty and fifty centimeters.
  • the two cameras 133 are spaced forty centimeters apart from each other, which makes it possible to obtain images of the face 121 of the individual 120 with an angle of view shifted by about 20 ° by compared to normal.
  • the processing unit 134 generates from each initial image of the sequence acquired by the camera 132 a final image of the face 121 of the individual 120 in which the pair of glasses 1 1 1 is obscured. In other words, the pair of glasses 1 1 1 is made invisible on the real-time display of the face 121 on the screen 130.
  • a virtual representation of the scene acquired by the camera 132 is created.
  • This virtual representation comprises a three-dimensional model of the pair of glasses 1 1 1 positioned on a representation of the environment comprising a model of the face of the individual 120.
  • the projection of the model of the pair of glasses 1 1 1 and the representation of the environment allows to create a mask superimposed on the actual pair of glasses on each image of the sequence acquired by the camera 132.
  • a virtual camera replaces the camera 132 with the same angle of view and the same magnification.
  • the optical characteristics of the virtual camera are identical to those of the camera 132.
  • the processing unit 134 thus generates a new image 210 from each image 220 of the sequence 200 acquired by the camera 132 according to a method of generation 300 of an image.
  • FIG. 3 represents in the form of a block diagram the generation method 300.
  • the generation method 300 detects the presence of the pair of glasses 11 1 in the initial image 220.
  • the generation method 300 determines in a second step 320 the orientation of the pair of glasses 1 1 1 with respect to the camera 132.
  • the generation method 300 determines in a step 330 a characteristic dimension of the pair of glasses January 1 on the initial image 220.
  • the characteristic dimension is in the present non-limiting example of the invention, equal to the width of the frame 1 12.
  • the generation method 300 produces in a step 340 a three-dimensional model of the pair of glasses 11 1 in a virtual space representing the real space acquired by the camera 132.
  • the step 340 of developing the model of the pair of spectacles 1 1 1 comprises a first substep 341 for identifying the pair of spectacles 1 1 1 among the pairs of spectacles previously modeled and stored in a connected database. to the processing unit 134. This identification can be made by knowing the reference of the telescope and so-called framemarking elements printed on the latter.
  • the identification of the pair of glasses 1 1 1 can also be performed by an automatic recognition from images of the pair of glasses worn by the user or in a device dedicated to the acquisition of images of the pair of glasses. glasses alone, such as a box of light.
  • the automatic identification uses methods of indexing and visual recognition of the appearance of 3D objects well known to those skilled in the art, for example by generating support curves that adjust to the contours of the pair of glasses 1 1 1.
  • the visual recognition of the pair of glasses can be made from the criteria of:
  • the model of the pair of glasses 1 1 1 is extracted from the database during a substep 342.
  • the 3D model of the pair of glasses 1 1 1 is developed, during a substep 343, to from images of the sequence 200 acquired by the camera 132, and possibly from the parameters representing the closest fit model determined during the search step in the base
  • the images of the sequence 200 present the individual 120 wearing the pair of glasses 1 1 1 on the face.
  • the development of the model of the pair of glasses 1 1 1 is thus carried out in real time from the images acquired by the central camera 132 and by the peripheral cameras 133.
  • cameras acquire images from a new angle of view.
  • the model of the pair of glasses 1 1 1 is updated with each image, in particular when the image presents a view of the individual 120 under a different angle.
  • the eyeglass pair model 1 1 1 developed during the sub-step 343 is constructed by first creating a shape pattern of the face 1 12b of the pair of glasses 1 1 1 and a model of the branches 1 17 of the pair of glasses 1 1 1. It should be emphasized that in the case where the pair of glasses is not symmetrical, a model for each branch is created.
  • the shape model of the face 1 12b also includes the wafers 1 16.
  • a skeleton of the pair of glasses is used.
  • the skeleton is extracted from a database containing typical topologies of pairs of glasses.
  • the typical topologies of pairs of glasses make it possible to classify the pairs of glasses according to the shapes of the glasses. Topologies are defined by:
  • a bridge or a bar connecting the two glasses, the branch and / or the bar can be single or multiple;
  • the thickness is determined around the skeleton of the pair of spectacles by generating a closed 3D envelope that encompasses the pair of spectacles 1 1 1.
  • the generation of the 3D envelope is done in three sub-steps: creation of support curves in planes perpendicular to the skeleton. These support curves substantially correspond to the sections of the frame January 12;
  • the support curves for generating the 3D envelope are derived from a priori knowledge, drawn manually or learned statistically.
  • the initialization of the support curves is generally performed during the visual recognition step in an attempt to automatically identify the pair of glasses 1 1 1.
  • the support curves are generated from the images of the pair of spectacles 1 1 1 worn on the face or from images of the pair of spectacles 1 1 1 acquired on a neutral background by a dedicated modeling device (not shown in Figure 1).
  • the model of the pair of glasses 1 1 1 1 is then recaled identically to the actual pair of glasses 1 1 1, during step 350.
  • the model of the pair of glasses 1 1 1 and has the same orientation relative to the camera 132 and the same characteristic dimension to the image that the pair of glasses 1 1 1 real.
  • the model of the pair of glasses 1 1 1 is positioned in the virtual space, oriented according to the position of the virtual camera and configured according to the size of the actual pair of glasses 1 1 1.
  • a magnification factor can thus be applied to the model of the pair of glasses 1 1 1.
  • the fitting parameters of the model of the pair of glasses 1 1 1 are noted Pe Mg .
  • the generation method develops a geometric model M a in three dimensions of an avatar representing the face without the pair of spectacles 1 1 1.
  • a texture T aNG of the face without the pair of glasses 1 1 1 is also created during the step 355.
  • the geometrical model M a is parameterized in morphology and expressions according to the method of elaboration of the model of the face described in the following.
  • the method of developing the avatar includes a first step of detecting the face in the image and facial analysis of the detected face. The detection of the face is carried out in the present non-limiting example of the invention by a Viola-Jones method, as explained in patent FR2955409.
  • a line alignment algorithm is then used to find specific facial features during a second substep of the facial shaping process.
  • a line detector well known to those skilled in the art is used and can very reliably find internal features of the face.
  • HPAAM line alignment algorithm described in the European patent application EP2678804, then makes it possible to locate precisely the projection of significant 3D lines on the image. Unlike existing techniques that result in location error in congested environments, HPAAM is particularly stable on features on the contour of the face, such as points of the ears. Since the HPAAM algorithm is a learning phase technique, the use of predetermined points having a 3D match has an impact on the success of the overall facial analysis technique, particularly with respect to robustness and efficiency of the technique. Typically, this relationship is specified for a small number of points in 3D facial analysis techniques, such as the starting points of a 3DMM fitting strategy, in which five points are set manually.
  • this step of detection of the face is robust to occultations of the face constituted by the pair of glasses 1 1 1.
  • the second step of the process of developing the avatar concerns the estimation of the parameters of the model of the face 0 model comprising:
  • the extrinsic parameters Pe Ma of the face model that is to say the parameters for laying the face, including the position and the orientation of the face
  • the intrinsic parameters Pi Ma of the face that is to say the 3D morphology of the face
  • the parameters of the model 0 face model are estimated using a statistical geometric model of the morphology of the human face.
  • a database of faces is used, such as for example the database described in the Blanz and Vetter document published in 2003, entitled "Face Recognition Based on Fitting a 3D Morphable Model”.
  • An estimate of the parameters of the model 0 face model and cam 9 parameters of the virtual camera is performed using the features found at the line detection stage and dynamically adjusting contours in the image.
  • the function Proj) represents the projective transformation of a 3D scene, for example the face or the pair of glasses, towards a layer or image plane, by considering a pinhole-type camera model, well known to those skilled in the art. , which allows to perform a perspective division.
  • this projection ProjCX; K, R, T It should be emphasized that the projection of the parametric face contours corresponds to the projection of points of the face model whose normal is orthogonal to their direction of observation.
  • a sampling of the direction orthogonal to the contours of the current sample point is performed and allows sampling of the contours for several reasons: numerical efficiency, stability and compatibility with other alignment techniques used in the pursuit of objects 3D.
  • a calculation of C e cam , e model ) which contains a subset of points of the face model Xj with the normal n ; orthogonal to the axial projection and associated points of the contour of the image contj ProjContour ⁇ Xj, nj) is performed, where ProjContour is a function projecting the point Xj and seeking, along the normal projection, the best contour among multiple hypotheses.
  • the cost function can for example be implemented using an estimator type M approach such as that using Tukey's robust weight function.
  • a calculation of the residual for the nearest point along the normal direction of the contour among multiple assumptions can be made.
  • the main advantage of this estimation technique is that when multiple images are available, as here in the image sequence 200, it extends to a multi-image analysis algorithm that relaxes the 2D semantic correspondence constraint. / 3D and allows to refine all estimated parameters. It can be used to search for the morphology of best fit for all images.
  • the third step in the avatar development process involves adding 3D facial expressions.
  • the expressions add a certain variability to the facial model and their exclusion allows a more stable and accurate estimation of the pose parameters and morphology of the face.
  • One approach usually used to create parametric variations of a mesh is to use blend shapes, that is, a set of linearly combined geometric models to produce unique instances.
  • blend shapes that is, a set of linearly combined geometric models to produce unique instances.
  • a technique commonly used to calculate these forms of mixing is to deduce them statistically as described in [A 3D Face Model for Pose and Illumination Invariant Face Recognition, Paysan et al., 2009].
  • the model has the following form:
  • g m is the average 3D shape
  • a is a vector which contains the adaptation parameters specific to the user
  • V is a matrix which contains the basic forms Statistics.
  • the bases of Statistical Forms only include the variations of identity, without taking into account variations of expression, so as to guarantee good aptitude for the separation of the control parameters.
  • the model of the face includes an eye model connected by a rigid translation T SE between the reference of the model of the face and the reference of the model of the eyes.
  • the two centers of rotation 402 are connected to the reference system of the eye system SE, by a distance pdS, SG ⁇ R, L ⁇ .
  • Each eye 401 is oriented relative to the reference system of the eyes by angles rxe, ryeS, SG ⁇ R, L ⁇ , respective rotations about the x and y axes.
  • the centers of rotation 402 are at a distance dr from the center of a disk 403 of radius hdi representing the iris.
  • Disk 403 is comprised in an element composed of three 3-position Bezier curves 410 having the same start and end control points, pEo, pEi, as shown in Figure 4c.
  • the curves of the edges of the eyes can be represented in 3D on the mesh of the face. It is important that the points pEo, pEi are at the intersection of the curves of the edges of the eyes, and that the curve which moves is parameterized by a parameter dpELv allowing the curve eyelid 41 0 3 to evolve between the values of the high curve 41 0i and the low curve 410 2 .
  • This one-dimensional parameter can influence the 3D path of the curve 41 0 3 of the eyelid in a curve defined in space.
  • curves 41 0i and 41 0 2 are controlled by control points comprising respectively the points pEuL and pEuR, and the points pEdL and pEdR.
  • the 3D path of the curve 410 3 of the eyelid can be represented in the deformation modes of the parameterizable morphology model, as a function of the displacement of the position of the eyelid dpELyEt) given by the rotation rxEL around the x axis of the reference mark particular of the eye, where t between 0 and 1 makes it possible to parameterize the position of a point on the eyelid curve 41 0 3 .
  • the T SE relationship allows the iris discs to rotate around the PL and PR points to touch the eyelid curves.
  • the difference between the sampled points and the contour image can also be determined by a search according to the method of normals previously described.
  • K is the matrix of the intrinsic parameters of the camera
  • Itfprojr m , SE is the image generated by the projection of the avatar model and the eye system taking into account occlusions of the eye system SE by closing the eyelids or by self-occultations due to the pose of the model.
  • the generation of the image assumes a known texture.
  • a resolution is added on learning parameters that vary the texture parametrically, of the active model type of appearance.
  • the contour difference is advantageously used for initialization for reasons of performance and simplicity of the data.
  • the set of points of the image CQ is selected along the normal to the gradient at the considered curve C l or C E projected, for the points of the curves associated with the values of the parameters ⁇ and s.
  • the ProjContour function is also used for the minimization of the eyes. It should be noted that in order to make the system of equations robust at first initialization, the following default values are used:
  • the estimation of the extrinsic and intrinsic parameters of the face is improved. Indeed, these values are used to perfect the estimation of the parametric model. If the parametric model does not fully correspond because the parameterization does not explain the depth, the face model is adapted to the surface, solving the system described in equation (1) 3D face resolution. We then have not an estimate of the parameters of the face but a metrological model parameterized the face of the user.
  • step 356 the textures of the face T aNG and the background T bg , defined in more detail below, are updated. during step 356 to correspond to the reality of the scene acquired by the camera 132.
  • the texture T aNG 450 illustrated in FIG. 5, is an atlas of the face, calculated according to the conventional mesh unfolding methods well known to those skilled in the art. Once the 3D face is projected in the image, the faces visible and oriented towards the camera, for example by z-buffer or culling methods, make it possible to fill the texture image T aNG 450.
  • the textures of the eyes are distributed over the texture of the face and are broken down into three parts: the texture of the iris T aNG l 451, the texture of the white of the eye Ta NG E 452, the texture of the eyelid T aNG EL .
  • These three elements can be incomplete at the time of acquisition but can be completed in a simple way by interpolation for T aNG E and T aNG EL for areas not known to be synthesized or by knowledge of the topology for the non-visible parts, such as the top of the iris if the eye is not wide open.
  • the circular character of the pupil and the iris makes it possible to complete the texture according to a polar parameterization.
  • a map of the bottom T bg also called a background or background map, is developed in step 357.
  • the map T bg corresponds to the background and to all that is considered belonging neither to the real pair of glasses worn by the user, nor to the face, or any other element explicitly modeled, such as a model of hair or a hand coming from to be superimposed on the face and the pair of glasses 1 1 1.
  • the map T bg is updated dynamically by following update rules such as found in conventional background subtraction techniques (in English "background subtraction"). Predominant color patterns are used for each of the pixels, using probability distributions and possible modes for the colors. Several models can be used, such as mixtures of Gaussians, or estimates of modes by methods of nuclei on histograms. This model is coupled to a dynamic model of temporal and possibly spatial update.
  • the dynamic updating model can be done in the following way: as in [Active Attentional Sampling for Speed-up of Background Substraction, Chang et al., 2012], for each pixel, we take into account a property of temporality P t , a property of spatiality P s eliminating the isolated pixels and a property of frequency on the last images of the video P f making it possible to eliminate the pixels changing of class too often and possibly due to the noise. The product of these three values gives a probability for each pixel to belong to the map and to be updated.
  • the background map T bg is initialized by all the pixels not considered as the projected face or the pair of glasses projected at this stage.
  • the background map has the same dimensions as the image 220.
  • the modification method includes the steps during which:
  • a segmentation map of the face T a is calculated from the projection of the face model M a in the image.
  • the projection of the glasses model M g makes it possible to obtain the segmentation map of the glasses T g .
  • each pixel p is treated as follows:
  • the occultation map is represented by a dynamic texture T fg that is updated with each image of the sequence 200.
  • T fg dynamic texture
  • the occultation map is associated with a geometric model M fg that can be variable. This can be a plane that represents a layer in front of the 3D scene, or an estimated or available depth map.
  • the value of the occultation map is determined by difference of the appearance prediction with the real image, that is to say by the difference between the projection of the virtual models representing the face, the pair of glasses and the background. and the real image. In other words, the occultation map includes all the elements that have not been modeled before.
  • an inpainting technique is used to fill any void spaces in the occultation card, thereby improving the appearance of the occultation card.
  • the occultation map takes into account degrees of local opacity. This change in opacity is commonly used to solve digital matting problems.
  • Ta fg the grayscale opacity channel of the occultation map
  • TB fg its binarization for the opaque pixels of value 1.
  • the detection of occultations is easier and methods well known to those skilled in the art can be applied.
  • the RGBD sensors based on infrared technologies get a very bad signal because the pairs of glasses are objects usually made of complex and dynamic materials, like the metal, the translucent plastic and glass. The diffraction and refraction effects of these materials prevent the depth map creation system from working properly.
  • the spatial resolution of these sensors is not sufficient for very thin glasses. As a result, not only are the glasses not or very poorly identified by the system, but they corrupt or render inaccessible all face data located in the neighborhood and behind.
  • the use of the image and the parametric model of the pair of glasses proposed makes it possible to overcome these structural problems of the depth sensors.
  • the textures of the pair of glasses, the face and / or the background are completed and updated during step 359 of the method of generating an image.
  • the state of the cards representing the elements displayed in the image changes according to the knowledge of the elements.
  • the face of the individual 120 is partially masked by the pair of glasses 1 1 1.
  • New elements of the face of the individual 120 appear when the individual 120 turns his head.
  • the color information may also be distorted because of the refraction of the glasses, especially in the case where the glasses are tinted or because of the shadows worn on the face of the pair of spectacles 1 1 1.
  • Statistical learning models are used on the facial area, but are less effective on the background. It is thus possible to replace the pixels of the facial area with known techniques such as active models of appearance or 3D models morphables (in English “3D morphable models”).
  • the spatial localization technique is used.
  • the filling technique close to the inpainting techniques well known to those skilled in the art, relies on texture synthesis, providing relevant knowledge for the reliable and real-time resolution of the filling problem. Since the topology of eyeglass models is known, and the real-time constraint is important, the patch filling is used, which guarantees the continuity of the colors between the painted areas and the respect of the structures of the textures. This technique allows us to quickly search for similar elements in the image as well as parallel processing of the majority of the pixels to be replaced.
  • the real-time filling technique is based on an inpainting technique well known to those skilled in the art.
  • the areas to be treated are filled by pixel or patch, using a three-step algorithm:
  • the patch is formed by a square window centered around a pixel.
  • the knowledge of the topology of the face makes it possible to define the directions and priorities of the course and the sampling zones prior to the patches. For example, if the eyes are hidden, the geometric model of eye construction is parametrically known in advance, and the priority, the size of the patches and the direction of propagation can thus be adapted according to the related curves. to the particular topology of an eye.
  • the propagation of structures is never far, whatever the pose of the face, the direction of propagation of the isophotes.
  • the pair of glasses although may include a thick frame, has projections in the image such that the different edges of the same sub-object are almost parallel.
  • the search for the patch is reduced to the first patch found containing information in that direction.
  • the pixels replaced in the previous iteration are used, allowing continuity of the structure.
  • the propagation direction is also predefined and is only calculated for patches judged to be highly structured by a structural criterion. For example, the entropy of the patch under consideration, or a coefficient dependent on the gradient direction standard, may be used. This approach avoids a systematic and expensive ranking of priorities as well as propagation directions.
  • the patch fill ⁇ 0 centered around the pixel p0 at a distance from the front of the mask to be filled such that the patch contains pixels of a known area.
  • d max a maximum confidence distance which guarantees continuity of the structures, and we move in both directions from the normal direction to the contour n c of the mask mask to find the two full patches T1 and T2 (centered in pT1 and pT2 ) in the nearest "texture" areas.
  • This technique saves search calculations from the nearest colorimetric patch.
  • the colorimetric adaptation is then performed to fill the pixels of the patch ⁇ 0, taking into account the distance d1 from p0 to pT1 and the distance d2 from p0 to pT2 in order to allow the following linear interpolation:
  • each pi (u, v) T corresponds to a pixel of a patch T.
  • the notation ssi corresponds to the abbreviation of "if and only if”.
  • patch sizes are dependent on the size of the structure to be replaced, namely the thickness of the pair of glasses, and the distance from the user to the camera.
  • Figure 6 illustrates the development of the masks from the image 220 of the user 120 ( Figure 6a). As illustrated in FIG. 6b, the environment i b9 in the background of the pair of spectacles 1 1 1 is decomposed into several zones:
  • the area 470 may be subdivided into semantic subregions 472, corresponding for example to the region of the hair 472-, to the region of the skin 472 2 .
  • the generation method elaborates the mask of the pair of spectacles 1 1 1 by geometric projection of the three-dimensional model of the pair of spectacles 1 1 1 on a first layer.
  • the first layer is previously emptied before the geometric projection.
  • the first layer comprises an image of the three-dimensional model of the pair of glasses 1 1 1 according to the same angle of view and the same size as the actual pair of glasses 1 1 1.
  • the mask TM g of the pair of spectacles 1 1 1 is divided into several parts: the mask TM gf of the frame 1 12b and the branches 1 17; and
  • the TM ge mask also includes the lighting effects on the lenses, especially the reflections.
  • the mask TM gf corresponds to the RGBA rendering image of the model of the pair of spectacles 1 1 1 for the values of face parameters Pe Ma and glasses Pe Mg estimated at the instant corresponding to the image 220.
  • the mask TM gf takes into account possible occultations of the pair of glasses 1 1 1 such as for example a hand placed in front of the face or a lock of hair falling on the face.
  • a TMB gf binary mask is obtained by binarizing the rendering alpha layer of the TM gf mask. Since the alpha channel represents the transparency of the pixels, the binarization of the alpha layer delimits the TM gf mask.
  • FIG. 6c represents the environment represented in FIG. 6b on which the TMB gf mask is added.
  • the TM gl and TM ge masks are determined using the same technique as for the TM gf mask, respectively considering for each mask the lenses 1 13 and the light effects such as reflections on the lenses or shadows worn on the face.
  • the mask TM a corresponding to the face is created during the step 365 from the model of the face comprising the eyes, according to the orientation and positioning parameters of the face estimated previously for the image 220.
  • the TMB binary mask gf of the pair of spectacles is contained in the face region TM a or in the background map T bg , as can be seen in Figure 6c.
  • a sampling is performed in a locality defined on either side of the TMB mask gf , according to a parameterization given by the topology of the pair of glasses, in the direction of the normal to the contour n c .
  • the branch is sampled on each side on zones of maximum size representing a partition n R of the regions defined by TM a or T bg .
  • an adjustment of the spatial division is made to the boundary curves of the regions. Thanks to this division, it is possible to estimate the field of local colorimetric transformations between the appearance prediction and the current image, for the face areas TM a and T bg background deprived of the glasses region TM g , which allows find transformations due to global light changes, or drop shadows
  • areas not responding to this colorimetric dynamic may not be considered at first, such as eyebrows, hair or beard, to focus on the skin, which follows a pseudo-Lambertian dynamic and allows low and medium frequency matching of colors. These areas are identified and segmented by the points and curves found during feature recognition and can be refined in the texture space. The zones of the same type are then calculated on the transformation, as in the color transfer or tone mapping techniques well known to those skilled in the art.
  • This field of colorimetric transformations is applied respectively to the images TM a and T bg to form the cards TM a Wc and T bg Wc. It should be emphasized that the colorimetric transformation is performed on colorimetrically consistent subregions of the TM a and T bg images. These coherent sub-regions can advantageously be included in a semantic sub-region 472 in order to improve the final result. In addition, the color transformation takes into account the dynamic differences between the subregions of these spaces.
  • These new images TM a Wc and T bg Wc are used to analyze the pixels of the current image / whose color is not determined by the prediction, in particular in the glasses and face areas, in order to detect the reflections and light changes and geometric TM gh glasses as well as the shadows of the TM ge mount in the associated regions.
  • This technique makes it possible in particular to correct the facial deformations due to the optical correction of the glasses of the pair of spectacles 1 1 1 worn by the user 120.
  • the threshold e is large enough to encompass aliasing colors and avoid compression image artifacts and sensor.
  • the mask can then be expanded according to the confidence in the knowledge of the 3D object and the registration.
  • FIG. 6d represents the image represented in FIG. 6c on which is added the TMB ge map representing the light effects, reflections and shadows.
  • the map of the pixels to be replaced TMB g is the union of TMB maps gh TMB ge , and TMB gf , deprived of the pixels of the occultation alpha map TB fg .
  • TMB g U [TMB gi , TMBg e , TMB gf . ⁇ ⁇ TB fg
  • the occultation alpha map TB fg represents the opaque pixels of the occultation map T fg , that is to say the pixels of T fg whose alpha value is equal to 1.
  • FIG. 6e represents the image represented in FIG. 6d in which the occultation alpha map TB fg is added.
  • the modification of the appearance of the mask representing the pair of glasses January 1 is carried out during the step 370.
  • the modification of the appearance replaces the pixels of the image 220 corresponding to the TMB binary mask g by the appropriate values that make it possible to make disappear or apply a treatment on the target parts of the pair of glasses 1 1 1 in the image 220.
  • the colors chosen may be from the following techniques or their combinations:
  • the preferred technique in this example is the color replacement by prediction, because it best manages the discontinuities of the model. Although it may be sensitive to an estimation error, the addition of a mask expansion and a color continuity constraint make it possible to propose non-detectable replacement results for the human eye. Thanks to the calculated maps TM a Wc and T bg Wc, and the map T fg , all the pixels can be replaced in the majority of the cases.
  • Another preferred technique, generally used, is an image editing technique known as "Poisson image editing". This technique consists in solving the color of the pixels of the zone to be replaced by guaranteeing a continuity to the contours of the mask. It should be emphasized that this technique changes the colorimetry while keeping the structure of the texture applied to the mask. This texture is indeed generally deformed, for example by projection to obtain a texture adapted to the environment of the pair of glasses 1 1 1.
  • the final image 210 is then generated during step 380 of the method
  • first layer comprising the mask of the pair of spectacles 1 1 1;
  • the virtual pair of glasses 1 10 is positioned on the face 121 of the individual 120 through an intermediate layer inserted between the first layer and the second layer.
  • the intermediate layer comprises a projection of a model of the virtual pair of glasses 1 10 realistically positioned on the face 121 of the individual 120.
  • the skilled person can for example refer to the application FR 10 50305 or the application FR 15 51531 describing in detail the techniques for fitting a virtual pair of glasses by an individual.
  • FIG. 7 represents a device 500 for fitting a virtual object 510 by an individual 520 carrying the pair of spectacles 11 1 on the face.
  • the device 500 comprises a touch screen 530 fixed vertically on a support 531, a camera 532 centered above the screen 530, two peripheral cameras 533 and a processing unit 534.
  • the device 500 also comprises a device 537 for measuring the distance of an element from the screen 530, comprising an infrared projector 535 projecting a pattern and an infrared camera 536.
  • the device 500 further comprises a modeling device 540 comprising a turntable 541 intended to receive a pair of spectacles at its center, two digital cameras 542 fixed, oriented towards the center of the plate 541 and a plain background 543 intended to be backwards. of the pair of glasses modeled.
  • the modeling device 540 connected to the processing unit 534 can thus actuate the turntable 541 and acquire images of the pair of spectacles January 1 at different angles of view.
  • the plate of the modeling device 540 is fixed.
  • the modeling device 540 then comprises two additional fixed digital cameras oriented towards the center of the plate.
  • the position of the two additional cameras corresponds to the rotation of 90 degrees of the position of the two cameras 542 around the central axis normal to the plate.
  • modeling device 540 performs a calibration by acquiring for each camera 542 an image of the plain background 543 alone.
  • the individual 520 removes the pair of glasses 1 1 1 he wears on the face and the place, branches 17 open, in the center of the turntable 541. In order to properly position the pair of glasses 1 1 1, markers are provided on the plate 541.
  • the first camera 542i oriented so that the optical axis of the camera 542 acquires a front image of the pair of glasses 1 1 1, then after a 90 ° rotation of the turntable 541 an image this side of the pair of glasses 1 1 1.
  • the second camera 542 2 acquires images of the pair of glasses 1 1 1 for diving, 3/4 face and 3/4 back.
  • the position of the camera 542 2 is thus raised at approximately 45 ° with respect to the median plane of the plate 541.
  • a three-dimensional model of the pair of glasses 1 1 1 is created from the four acquired images of the pair of glasses 1 1 1 and two images of the bottom.
  • the pair of glasses 1 1 1 is segmented in each acquired image by making the difference between the background images and the images with the pair of glasses 1 1 1, which allows to create binary masks of the different elements.
  • the frame 1 12 of the pair of glasses 1 1 1 is considered as an assembly of three 3D surfaces:
  • each branch 1 17 of the pair of spectacles 1 1 1 a surface for each branch 1 17 of the pair of spectacles 1 1 1. It should be noted that since the pair of spectacles 1 1 1 1 is symmetrical, the two branches 1 17 are similar and only the opening angle between each branch 1 17 and the face 1 12b can vary. Only a three-dimensional model of a branch 1 17 is thus generated. The three-dimensional model of the other branch 1 17 is then developed from the model of the first branch 1 17 symmetrically with respect to the main median plane of the first branch 1 17.
  • a calculation of the distance map is performed for each of the images from the masks extracted from the segmentation.
  • the estimation of the parameters of the 3D surface is done via a minimization respecting the criteria of central symmetry and continuity of the frame of the pair of glasses 1 1 1.
  • An estimate of a 2D contour of the face 1 12b and the branches 1 17 is performed from the bit masks of the face 1 12b and branches 1 17.
  • the 2D outline is then projected onto the corresponding 3D surface.
  • a thickness is added to each of the 2D contours projected on the surfaces to obtain the three-dimensional models of the face 1 12b and the branches 1 17 forming the three-dimensional model of the pair of spectacles 1 1 1.
  • a Delaunay triangulation is performed from the points of the 2D contours. This triangulation is used on the points of the 3D surface to create the model of the pair of glasses 1 1 1.
  • the acquired images of the pair of glasses 1 1 1 are applied in texture on the model of the pair of glasses 1 1 1.
  • 3D statistical models of each element of the pair of glasses 1 1 1 can be used for parameterizing and meshing 3D surfaces from 2D contours.
  • An image of the individual 520 without glasses is acquired by the camera 532.
  • a model M av of an avatar representing the individual 520 is developed from the acquired images and measurements of the distance to the screen of the elements of the image , following the process of developing the avatar model M described above in step 355 of the first exemplary embodiment.
  • the device comprises three cameras, for example a camera centered vertically with respect to the screen and two cameras horizontally positioned symmetrically on either side of the central camera. These three cameras make it possible to obtain three images of the individual 520 with different angles of view in order to improve the representation of the face of the individual.
  • a flattened texture of the individual 520's face is extracted from the avatar model M a .
  • the pair of glasses 1 1 1 is followed in the sequence of images acquired by the camera 132 by a tracking method 600 of the pair of glasses 1 1 1.
  • the tracking method 600 illustrated in the form of a block diagram in FIG. 8, comprises a first initialization step 610.
  • the initialization step 610 makes it possible to position the model M g of the pair of spectacles 1 1 1 on the avatar M a and to open the branches of the model M g in the same manner as the pair of spectacles 1 1 1 actual placed on the face of the individual 520.
  • a first positioning of the model M g is done in 3D on the avatar M a so that the model of the pair of glasses 1 1 1 rests on the nose and ears of the avatar.
  • the model M g is thus positioned according to calculated laying parameters.
  • the installation parameters include the orientation relative to the camera and the magnification to be applied to the model M g to obtain the pair of glasses 1 1 1 displayed in the image.
  • the avatar is positioned and oriented according to the virtual camera having the same orientation and the same optical parameters as the camera 532.
  • the position and the orientation of the face are determined on each image by means of a method of facial tracking well known to those skilled in the art.
  • the tracking of the face is based on the tracking of characteristic points of the face.
  • the characteristic points masked to the image especially those lying behind a pair of glasses or behind tinted lenses, are not taken into account in the tracking of the face.
  • a projection on a first layer superimposed on the initial image, the model of the pair of glasses 1 1 1 positioned on the avatar provides a mask of the pair of glasses 1 1 1.
  • the pose parameters are calculated by minimizing a cost function based on two components:
  • the tracking method 600 selects, during a second step 620, the set ⁇ of the points of the model M g whose normal is substantially perpendicular to the axis formed between the point and the virtual camera.
  • the tracking method 600 selects a subsample of n points from the set ⁇ of the points of the model M g .
  • the subsample comprises a small number or no points of the branches.
  • the vectors n2D m ln corresponding to the projections of the normals of the n points of the set ⁇ are calculated during the fourth step 640. From the projections p2D and the vectors n2D, the method 600 performs for each index m, a search of the point p_grad m of the image having the highest gradient along the projection p2D m of the normal at the point n2D m .
  • the tracking method 600 then minimizes during the fifth step 650 the function of calculating the distance between the points p2D and p_grad.
  • the position of the model M g is considered representative of the actual position of the pair of glasses 1 1 1.
  • a mask covering the pair of glasses 1 1 1 is created from the projection of the model M g on the first layer.
  • the modification of the appearance of the mask of the pair of glasses 1 1 1 is performed by replacing the color of the frame 1 12 of the pair of glasses 1 1 1 actually worn by the individual 520 by a new color.
  • Regularization of the brightness is performed in order to make the modification of the color of the frame 1 12 realistic.
  • the individual 520 sees his image on the screen 530 with the same pair of glasses 1 1 1 but including a different color of the frame 1 12.
  • the modification of the appearance of the mask of the pair of spectacles 1 1 1 makes it possible to conceal the pair of spectacles 1 1 1 in the final image so that the individual 520 wearing the pair of glasses 1 1 1 on his face sees his picture on the screen 530 without the pair of glasses 1 1 1.
  • FIG. 9 represents an augmented reality device 800 used by an individual 820 carrying the pair of glasses 11 1 on the face.
  • the pair of glasses 1 1 1 is mounted corrective lenses adapted to the view of the individual 820.
  • the individual 820 is facing a camera 832 connected to a screen 830 displaying the image of the head 821 of the individual 820 as in a mirror.
  • the image displayed on the screen 830 shows the head of the individual 820 without the pair of glasses 1 1 1 on the face of the individual 820.
  • the individual 820 can thus be seen clearly without his pair of glasses, as if he was wearing lenses.
  • the sequence of images, also called video, displayed on the screen 830 a method of generating a final image from an initial image is used.
  • the pair of glasses 1 1 1 1 is detected and tracked on each image of the image sequence.
  • a model of the pair of glasses 1 1 1 is generated and oriented in an identical manner to the pair of glasses 1 January 1 to create a mask by projection on a layer superimposed on the initial image.
  • the appearance of the mask covering the pair of spectacles 1 1 1 is modified in order to erase on the screen the pair of spectacles 1 1 1 worn on the face of the individual.
  • a flat map of the environment in the background of the pair of glasses 1 1 1 is created and dynamically updated taking into account the information acquired for each image of the video.
  • An inpainting method makes it possible to determine the color of each pixel of the mask of the pair of glasses 1 1 1 as a function of at least one pixel of the image near the pixel of the mask.
  • the face is included in the environment of the pair of glasses 1 1 1 but is not detected for the preparation of the map representing the environment. Only the pair of glasses 1 1 1 is detected and followed.
  • the presence of the face of the individual 820 is detected but is not followed.
  • a model of the face is thus generated and positioned in relation to the position of the pair of glasses followed to the image.
  • the model of the face is used in projection for the development of the environmental map.
  • the face model can also be directly used by the inpainting method.
  • the 820 individual can try a pair of virtual glasses or makeup and see themselves on the screen with. It should be emphasized that in the case of the fitting of a virtual object, only the appearance of the apparent part of the pair of glasses 1 1 1, that is to say not covered by the projection of the virtual object, can be advantageously modified, thus saving computation time.
  • FIG. 11 represents a screen 910 displaying a video 915 stored in a computer memory or a real-time video stream from a camera.
  • the video 915 shows the head of an individual 920 wearing the pair of glasses 1 1 1 on the face 921 before treatment.
  • FIG. 12 represents the screen 910 displaying the video 915 but in which the pair of glasses 11 1 is occulted on each image of the video by a method of generating a final image from an initial image according to FIG. invention.
  • the face 921 is detected and tracked on each frame of the video.
  • the process adds a layer including an opaque mask covering the pair of glasses 1 1 1.
  • the mask is sized to cover most of the shapes and sizes of pairs of spectacles.
  • the mask is not linked to the pair of glasses January 1 which is not detected in the present example.
  • the method thus generates a layer for each image, on which the mask is oriented and dimensioned in relation to the detected face.
  • the generation process applies on the mask a texture from a model of the face previously established without the pair of glasses.
  • the method comprises a technique of "relighting" the texture of the mask, making it possible to adjust the colorimetry of the texture to the real light illuminating the face 921.
  • Holes can be established on each mask at the level of the eyes of the face 921 to make them visible on each image.
  • the holes are not made on the mask when the eyes are optically deformed by the glasses of the pair of spectacles 1 1 1 or when the glasses are tinted.
  • the orientation of the synthesized eyes can advantageously be established from the actual orientation of the detected eyes and followed by techniques well known to those skilled in the art.
  • a real object to be erased from the image may be a hat, a scarf, hair or any other element partially or completely covering a face.
  • the method can also be applied to any other real object that is sought to hide on an image, such as a garment worn by an individual.
  • an object to be placed on the face of an individual to replace the pair of glasses worn on the face is makeup, jewelry or even clothing.
  • An individual wearing a pair of glasses can thus virtually try a make-up or an evening dress by removing the image of the worn pair of glasses, thus making it possible to simulate the wearing of contact lenses.
  • a scan of the body's morphology of the individual may be helpful in obtaining a realistic rendering of the wearing of the garment.
  • an individual wearing a pair of glasses is seen on the screen with the same pair of glasses but with a frame having a color, a texture and / or materials different from those of the frame of the pair of glasses actually worn.
  • an individual wearing a pair of glasses is seen on the screen with the same pair of glasses but with glasses different in color from the glasses of the pair of glasses actually worn.
  • an individual wearing a pair of glasses is seen on the screen with the same pair of glasses but with glasses having a treatment different from that of the glasses of the pair of glasses actually worn.
  • the treatment is the addition or removal of one or a combination of treatments well known opticians, such as anti-reflective treatment or thinning glasses.
  • an individual wearing a pair of glasses is seen on the screen trying a new pair of virtual glasses where the areas of the glasses of the actual pair of glasses included in the image to the inside the circles of the virtual pair of glasses are preserved, thereby increasing the realism of the virtual pair of glasses.
  • the real reflections due to the environment are also preserved in the image.
  • the color of the conserved portion of the actual lenses may be changed to obtain a virtual pair of glasses with tinted or untinted lenses, while retaining the actual reflections on the lenses.
  • a virtual object is partially superimposed on the real object to be erased from the image and only the visible parts of the corresponding mask of the real object are modified.
  • the real object is partially erased from the image or mainly from the image.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Architecture (AREA)
  • Processing Or Creating Images (AREA)

Abstract

L'invention concerne un procédé de génération d'une image finale à partir d'une image initiale comprenant un objet apte à être porté par un individu. Ledit procédé comprend les étapes suivantes : a) détection de la présence dudit objet dans l'image initiale; b) superposition d'un premier calque sur l'image initiale, le premier calque comprenant un masque couvrant au moins partiellement l'objet sur l'image initiale; c) modification de l'aspect d'au moins une partie du masque. L'invention permet notamment d'occulter tout ou partie d'un objet dans une image ou une vidéo. L'invention concerne également un procédé de réalité augmentée destiné à être utilisé par un individu portant un dispositif de vision sur le visage, et un dispositif d'essayage d'un objet virtuel.

Description

PROCÉDÉ D'OCCULTATION D'UN OBJET DANS UNE IMAGE OU UNE VIDÉO ET PROCÉDÉ DE RÉALITÉ AUGMENTÉE ASSOCIÉ
DOMAINE TECHNIQUE DE L'INVENTION
Le domaine de l'invention est celui du traitement d'image et de la synthèse d'images.
Plus précisément, l'invention concerne un procédé d'occultation d'un objet dans une image ou une vidéo.
L'invention trouve notamment des applications dans le domaine de la réalité augmentée permettant l'essayage d'une paire de lunettes virtuelle par un individu portant lors de l'essayage une paire de lunettes réelle.
ETAT DE LA TECHNIQUE
Pour un individu portant une paire de lunettes correctives, il est difficile d'essayer une nouvelle paire de lunettes avant de les acheter. En effet, les nouvelles montures comprenant au moment de l'essayage des verres sans aucune correction optique, l'utilisateur ne peut se voir qu'à la précision de sa déficience visuelle. Ainsi, par exemple pour un utilisateur myope moyen, l'utilisateur doit s'approcher à moins de vingt centimètres du miroir pour pouvoir s'observer. Il ne peut donc apprécier par lui-même si la nouvelle monture lui va bien. Ceci est d'autant plus complexe dans le cas de l'essayage d'une paire de lunettes solaires, où les verres teintées réduisent fortement la luminosité, diminuant d'autant plus la visibilité de l'utilisateur.
Il est connu de l'art antérieur des techniques permettant de supprimer une paire de lunettes d'une image, notamment dans le cadre de la reconnaissance faciale de personnes.
Ces techniques sont basées sur la reconnaissance du visage, notamment de points caractéristiques permettant de détecter la position des yeux. Cette détection couplée à un apprentissage des différences entre les visages portant une paire de lunettes et ceux n'en portant pas, permet de reconstruire une image d'un individu sans paire de lunettes à partir d'une image de l'individu portant une paire de lunettes.
L'inconvénient majeur de cette technique est qu'elle reconstruit statistiquement le visage à partir d'images d'individus selon un angle de vue identique, généralement de face. Cette technique ne fonctionnant qu'en deux dimensions, considère uniquement l'intérieur de l'enveloppe 2D du visage sur l'image. En d'autres termes, tous les éléments de la paire de lunettes superposés avec un arrière-plan du visage ne sont pas considérés par cette technique, ce qui est pénalisant sur des images présentant des paires de lunettes plus larges que le visage ou lorsque le visage n'est pas de face sur l'image.
Un autre inconvénient majeur de cette technique est qu'elle ne prend en compte que des paires de lunettes ayant notamment une monture très fine, excluant ainsi toutes les paires de lunettes ayant une monture épaisse.
Il est également connu de l'art antérieur des techniques permettant à un individu de se voir virtuellement sur un écran par l'intermédiaire d'un avatar, en train d'essayer une nouvelle paire de lunettes.
Ces techniques sont basées sur l'acquisition préalable d'images de l'individu ne portant pas de paire de lunettes. Ces images permettent de créer un modèle virtuel de la tête de l'individu sur laquelle le modèle de la nouvelle paire de lunettes est ajouté.
L'inconvénient majeur de cette technique est qu'elle ne permet pas d'obtenir une technique réaliste où le porteur de lunettes peut voir son image à l'écran, comme dans un miroir, en train d'essayer une nouvelle paire de lunettes.
Enfin, il existe des systèmes de réalité augmentée qui permettent d'essayer une paire de lunettes virtuelle.
A l'heure actuelle, aucun des systèmes de réalité augmentée existants ne permet d'enlever virtuellement un objet réel, comme par exemple une paire de lunettes, sur un ou plusieurs individus portant cet objet.
OBJECTIFS DE L'INVENTION
La présente invention vise à remédier à tout ou partie des inconvénients de l'état de la technique cités ci-dessus.
Un des principaux objectifs de l'invention est de proposer une technique qui permette à un utilisateur portant un dispositif de vision réel de se voir sur un écran, comme dans un miroir, sans le dispositif de vision réel sur le visage et d'essayer un objet virtuel remplaçant à l'écran le dispositif de vision réel conservé sur le visage.
Un autre objectif de l'invention est de proposer une technique qui soit réaliste pour l'utilisateur.
Un autre objectif de l'invention est de proposer une technique qui fonctionne en temps réel.
Un autre objectif de l'invention est de proposer une technique qui permette à l'utilisateur essayant un objet virtuel de bouger la tête dans n'importe quel sens. Un objectif de l'invention est également de proposer une technique de suppression de la partie visible d'un objet, notamment une paire de lunettes, sur une image ou une vidéo, mais aussi des interactions lumineuses locales comme les reflets des verres ou les ombres portées.
EXPOSÉ DE L'INVENTION
Ces objectifs, ainsi que d'autres qui apparaîtront par la suite sont atteints à l'aide d'un procédé de génération d'une image finale à partir d'une image initiale comprenant un objet apte à être porté par un individu.
L'objet peut être par exemple un dispositif de vision porté sur le visage, comme une paire de lunettes ou un dispositif portable sur la tête comprenant une monture et un écran d'affichage, tel un casque de réalité virtuelle, de réalité mixte ou de réalité augmentée. L'objet peut être également tout autre accessoire porté sur la tête d'un individu comme un foulard, un chapeau, du maquillage, un bijou ou une coiffure.
II convient de souligner que l'objet est réel.
L'image est acquise par un dispositif d'acquisition d'images pouvant être une caméra, un appareil photographique ou une caméra de profondeur. La caméra de profondeur, bien connue de l'homme du métier, combine une caméra et une mesure infrarouge de la distance des éléments par rapport à l'objectif. L'image peut être seule ou incluse dans une séquence d'images, également appelée vidéo.
Selon l'invention, le procédé de génération d'une image comprend les étapes suivantes :
a) détection de la présence dudit objet dans l'image initiale ;
a') élaboration d'un masque couvrant au moins partiellement l'objet sur l'image initiale ;
b) superposition d'un premier calque sur l'image initiale, le premier calque comprenant un masque couvrant au moins partiellement l'objet sur l'image initiale ; c) modification de l'aspect d'au moins une partie du masque.
Ainsi, le procédé permet de modifier l'aspect visuel de l'objet détecté en le couvrant d'un masque dont l'aspect est modifié. Le masque comprend des pixels couvrant une zone continue ou non sur l'image initiale. Le masque peut couvrir la totalité ou seulement une partie de l'objet. Dans l'exemple d'une paire de lunettes, le masque peut couvrir uniquement la monture de la paire de lunettes, la monture et une partie des verres, la monture et les verres en totalité, ou seulement les verres, il convient de souligner que les ombres portées des lunettes peuvent également être couvertes par le masque,
La modification de l'aspect du masque correspond à une modification de la couleur et/ou de l'opacité d'une partie ou de la totalité des pixels du masque.
Dans un mode de réalisation particulier de l'invention, la modification de l'aspect du masque comprend une étape de remplacement de la texture d'une partie ou de la totalité de l'objet sur l'image finale.
Ainsi, il est possible pour un utilisateur de porter une paire de lunettes d'une certaine couleur et de se voir avec la même paire de lunettes avec une autre couleur. La texture de l'objet est une représentation de l'aspect extérieur de l'objet. La texture peut être par exemple liée à la couleur de l'objet, à sa constitution, comme la présence de différentes couches de matériaux poreux ou translucides. La texture peut également être liée au type de revêtement de l'objet, comme par exemple la présence d'une couche de vernis brillant ou mat.
Dans un mode de mise en œuvre particulier de l'invention, la modification de l'aspect du masque comprend une étape de détermination de la texture d'une partie ou de la totalité de l'objet, la texture reproduisant les éléments en arrière-plan de l'objet afin d'occulter tout ou partie de l'objet sur l'image finale.
Ainsi, l'objet détecté dans l'image initiale est automatiquement occulté de l'image finale. En d'autres termes, le procédé de génération d'une image finale à partir d'une image initiale est un procédé d'occultation d'un objet dans une image.
Dans un mode de mise en œuvre particulier de l'invention, le masque couvre également tout ou partie de l'ombre portée de l'objet.
Ainsi, la modification de l'aspect du masque permet également de rendre invisible les ombres portées de l'objet. Par exemple, l'ombre d'une paire de lunettes portée sur le visage d'un individu peut être également effacée sur le visage, augmentant ainsi le réalisme de l'occultation de la paire de lunettes.
Dans un mode de réalisation particulier de l'invention, le procédé de génération d'une image comprend également l'étape suivante :
d) superposition d'un deuxième calque sur l'image initiale au-dessus du premier calque, le deuxième calque comprenant au moins un élément couvrant partiellement le masque.
Ainsi, les éléments compris dans le deuxième calque sont par exemple des cheveux couvrant une branche d'une paire de lunettes, une main située partiellement devant l'objet. La superposition des différents calques permet de conserver le réalisme de l'image finale.
Dans un mode de réalisation particulier de l'invention, le procédé de génération d'une image comprend également avant l'étape b), les étapes suivantes :
- détermination de l'orientation de l'objet par rapport à un dispositif d'acquisition de l'image initiale ;
détermination d'une dimension caractéristique de l'objet sur l'image initiale.
Le dispositif d'acquisition de l'image initiale comprend un capteur photographique et un objectif photographique permettant de converger des images réelles sur la surface sensible du capteur photographique. L'objectif photographique comprend au moins une lentille convergente. Le dispositif d'acquisition de l'image peut être par exemple une caméra, un appareil photographique ou une webcam.
L'orientation de l'objet par rapport au dispositif d'acquisition de l'image correspond aux angles formés par l'objet dans un repère du dispositif d'acquisition. Ce repère peut-être par exemple un repère orthonormé dont un axe est confondu avec l'axe optique de l'objectif. En d'autres termes, l'objet dont l'orientation est déterminée, est suivi au cours d'une séquence d'images.
La dimension caractéristique de l'objet peut être par exemple la largeur de la monture d'une paire de lunettes.
Dans un mode de mise en œuvre particulier de l'invention, le procédé de génération d'une image comprend également avant l'étape b), les étapes suivantes :
élaboration d'un modèle de l'objet ;
élaboration du masque à partir de la projection géométrique du modèle tridimensionnel sur le premier calque, le modèle tridimensionnel ayant la même orientation et la même dimension caractéristique sur le premier calque que l'objet.
Ainsi, le modèle représentant l'objet se superpose virtuellement à l'objet. Il convient de souligner que le modèle de l'objet peut comporter des images bidimensionnelles déformées et aplaties selon l'orientation et la dimension de l'objet réel. Le modèle de l'objet peut également être tridimensionnel avec ou sans épaisseur. L'orientation et la dimension caractéristique du modèle correspondent à des paramètres de similitude entre le modèle de l'objet et l'objet réel. La projection du modèle tridimensionnel permet d'obtenir le masque. Le masque peut couvrir la totalité ou une partie de la résultante de la projection du modèle sur le calque. Il est à souligner que le masque peut également couvrir une zone de l'image plus importante que la projection.
Dans un mode de réalisation particulier de l'invention, l'élaboration du modèle de l'objet est effectuée à partir d'au moins une image de l'objet seul.
La génération du modèle de l'objet peut être par exemple effectuée dans un dispositif dédié à la modélisation, comprenant une boite dans laquelle l'objet vient se loger, et un ou plusieurs dispositifs d'acquisition d'images orientés vers l'objet. Une image peut suffire pour l'élaboration du modèle de l'objet, à condition qu'il s'agisse d'une vue de trois-quarts d'un objet présentant un plan de symétrie, comme par exemple une paire de lunettes. Plus généralement, l'élaboration d'un modèle de l'objet est effectuée à partir d'au moins deux images de l'objet, les images présentant l'objet sous des angles différents.
Dans un mode de mise en œuvre de l'invention, l'objet est porté sur le visage d'un individu.
Dans un mode de réalisation particulier de l'invention, l'élaboration du modèle de l'objet est effectuée à partir d'au moins une image de l'objet porté sur le visage de l'individu.
Ainsi, l'individu peut conserver l'objet sur son visage lors de la génération du modèle.
Dans un mode de réalisation particulier de l'invention, l'objet comprend une monture s'étendant de part et d'autre du visage, et au moins un verre assemblé à ladite monture.
Ainsi, l'objet peut être un dispositif de vision comme par exemple une paire de lunettes.
Dans un mode de réalisation particulier de l'invention, le procédé de génération d'une image comprend également une étape d'identification de la monture parmi les montures préalablement modélisées et stockées dans une base de données, le masque étant élaboré à partir du modèle de la monture identifiée.
Ainsi, la projection sur le premier calque du modèle de la monture identifiée et préalablement modélisée permet d'obtenir un masque réaliste de la monture. Il convient de souligner que le masque peut comprendre tout ou partie de la projection de la monture sur le premier calque. Une zone de l'image correspondant à un verre assemblé à la monture, ou à une ombre portée, peut être ajoutée au masque. Il convient également de souligner qu'une base de données peut stocker des modèles de monture et que la monture est identifiée parmi les montures stockées dans la base de données.
L'identification peut être effectuée automatiquement par le procédé ou manuellement par un individu. L'identification manuelle peut être effectuée par exemple grâce aux informations inscrites par le fabricant à l'intérieur de la monture de la paire de lunettes.
Dans un mode de réalisation particulier de l'invention, l'identification de la monture est effectuée en générant des courbes de support venant s'ajuster sur les contours de la monture.
Dans un mode de réalisation particulier de l'invention, l'identification de la monture est basée sur au moins un des critères suivants :
forme de la monture ;
couleur(s) de la monture ;
- texture(s) de la monture ;
logo présenté par la monture.
Dans un mode de réalisation particulier de l'invention, le procédé de génération d'une image comprend également une étape d'élaboration d'une représentation de l'environnement de l'objet.
L'environnement comprend l'ensemble des éléments entourant l'objet sur l'image, ainsi que les éléments en arrière-plan de l'objet sur l'image. La représentation peut être sous la forme d'une image et/ou d'un modèle tridimensionnel. Par exemple, dans le cas d'une paire de lunettes portée sur un visage, la représentation de l'environnement peut comprendre un modèle du visage sur lequel est portée la paire de lunettes et/ou une image correspondant à l'arrière- plan du visage.
Dans un mode de réalisation particulier de l'invention, l'étape de modification de l'aspect du masque comprend les sous-étapes suivantes :
projection géométrique de la représentation de l'environnement sur un calque intermédiaire superposé au premier calque ;
détermination de la nouvelle couleur d'un pixel du masque en fonction de la couleur d'au moins un pixel du calque intermédiaire à proximité du pixel du masque. Ainsi, la modification de l'aspect du masque permet d'occulter l'objet sur l'image finale. La projection géométrique de la représentation de l'environnement sur le calque intermédiaire permet d'obtenir une image sur laquelle le masque de l'objet est superposé. Dans le cas d'une représentation comprenant une image d'arrière- plan et un modèle tridimensionnel, la projection géométrique du modèle tridimensionnel sur le calque intermédiaire produit une image se superposant sur l'image d'arrière-plan. Le calque intermédiaire présente ainsi une représentation bidimensionnelle de l'environnement sur lequel le masque de l'objet est superposé.
Il convient de souligner que le modèle tridimensionnel est texturé.
Dans un mode de réalisation particulier de l'invention, la détermination de la nouvelle couleur met en œuvre une méthode d'édition d'image de type « Poisson image editing ».
Ainsi, la texture appliquée au masque est ajustée colorimétriquement en fonction de l'image initiale afin de se confondre avec elle. Les bords du masque ne sont notamment plus visibles dans l'image finale et on peut plus distinguer le masque dans cette image finale. Cette technique d'édition d'image, décrite par exemple dans le document « Poisson Image Editing » de P. Perez et M. Gangnet, résout notamment une équation de Poisson.
Dans un mode de réalisation particulier de l'invention, le procédé de génération d'une image comprend également une étape de détection de la présence d'un visage dans l'environnement et en ce que la représentation de l'environnement comprend un modèle du visage détecté sur lequel est appliquée une texture du visage.
La texture du visage est une image en deux dimensions venant s'appliquer sur le modèle. Il convient de souligner que le modèle et la texture peuvent être avantageusement réalistes. La détection de la présence du visage peut s'effectuer en détectant des points caractéristiques du visage, comme par exemple le bord des tempes, l'extrémité du nez ou du menton, voire les coins des yeux.
Dans un mode de réalisation particulier de l'invention, le procédé de génération d'une image comprend également une étape de détermination de l'orientation du visage par rapport au dispositif d'acquisition et en ce que le modèle du visage est disposé sensiblement selon l'orientation préalablement déterminée.
Ainsi, le modèle tridimensionnel représentant le visage est orienté de manière réaliste dans l'espace virtuel correspondant à la scène acquise par l'image. Dans un mode de réalisation particulier de l'invention, le masque couvrant au moins partiellement l'objet porté sur le visage est élaboré à partir de la projection géométrique du modèle de visage sur le premier calque.
Ainsi, l'occultation de l'objet porté sur le visage est réalisée grâce à un masque élaboré à partir d'une projection du modèle de visage et non à partir d'une projection du modèle de l'objet. Il convient de souligner que ce mode de réalisation permet de s'affranchir du tracking de l'objet. Par ailleurs, le masque élaboré peut ne pas tenir compte de la dimension de l'objet, auquel cas la dimension du masque est établie en fonction de la dimension du visage. Dans le cas d'une paire de lunettes portée sur le visage, la dimension du masque est avantageusement suffisante pour couvrir la majeure partie des modèles de paires de lunettes existantes.
Dans un mode de réalisation particulier de l'invention, le procédé de génération d'une image comprend également les étapes suivantes :
analyse d'au moins une source de lumière éclairant le visage de l'individu ;
transformation colorimétrique de tout ou partie du modèle de visage.
Ainsi, le modèle du visage est éclairé de manière réaliste par rapport à la scène réelle.
Dans un mode de réalisation particulier de l'invention, le procédé de génération d'une image comprend également les étapes suivantes :
estimation à partir de l'image initiale d'une transformation colorimétrique d'au moins un pixel du modèle de visage ;
application de la transformation colorimétrique sur tout ou partie du modèle de visage.
L'estimation de la transformation colorimétrique peut être effectuée par une analyse d'au moins une source de lumière éclairant le visage de l'individu.
Dans un mode de réalisation particulier de l'invention, la couleur d'un pixel sur la texture du visage est déterminée par l'intermédiaire d'une méthode d'inpainting à partir des couleurs d'un patch à proximité du pixel.
Le patch correspond à une pluralité de pixels formant une zone continue. La forme du patch peut être carrée ou rectangulaire, chaque côté comprenant généralement entre un et cinq pixels. Un patch de forme circulaire peut être obtenu en insérant un filtre gaussien à l'intérieur d'un patch carré. La méthode d'inpainting, bien connue de l'homme du métier, permet de compléter la texture du visage, notamment dans le cas de la génération du modèle du visage d'un individu portant une paire de lunettes. En effet, dans cet exemple, la monture voire les verres masquent une partie du visage.
Dans un mode de mise en œuvre particulier de l'invention, la position du patch est située sensiblement sur la perpendiculaire par rapport au contour de la zone comprenant les pixels manquants.
Ainsi, lorsqu'une partie du visage est occultée, la couleur d'un pixel manquant de la texture du visage est rétablie à partir d'un patch à proximité du pixel manquant, le patch étant situé sur une perpendiculaire au contour de la zone occultée du visage.
Dans un mode de mise en œuvre particulier de l'invention, la position du patch est située sensiblement sur la verticale par rapport audit pixel.
Ainsi, la méthode d'inpainting respecte la typologie générale d'un visage qui comprend de part et d'autre une zone de cheveux verticale venant recouvrir une partie des tempes.
Dans un mode de réalisation particulier de l'invention, la couleur d'un pixel sur la texture du visage est déterminée par l'intermédiaire d'une méthode d'inpainting à partir du modèle du visage, préalablement établi et orienté, le modèle du visage comprenant une représentation des yeux.
Dans un mode de réalisation particulier de l'invention, le procédé de génération d'une image comprend également une étape d'identification d'au moins une zone oculaire sur la texture du visage, la zone oculaire correspondant à la position d'un œil du visage détecté.
L'identification d'une zone oculaire sur la texture du visage peut être effectuée en identifiant la position de points caractéristiques d'un œil comme par exemple les coins extérieurs et intérieurs précis d'un œil.
Dans un mode de mise en œuvre particulier de l'invention, le remplissage de la zone oculaire est effectué en connaissant la topologie de l'œil du visage détecté.
La topologie de l'œil comprend une représentation paramétrique par l'intermédiaire de courbes, des différentes zones de l'œil, notamment de l'iris et des paupières.
Ainsi, le remplissage de la zone oculaire est plus réaliste car elle respecte la position de l'iris et de la pupille. Le remplissage de l'iris peut s'effectuer par une méthode d'inpainting venant récupérer un pixel à proximité dans une zone correspondant à l'iris. Dans le cas où la zone correspondant à l'iris recouvre des pixels vides ou n'ayant pas de valeurs cohérentes, l'iris est rétabli selon une topologie standard d'iris en prenant en compte éventuellement la couleur de l'iris de l'autre œil détecté.
Dans un mode de réalisation particulier de l'invention, l'élaboration de la représentation de l'environnement de l'objet porté sur le visage d'un individu est effectuée sans détecter de visage dans l'environnement.
Ainsi, le procédé est utilisé sans détecter ni suivre le visage d'un individu. Dans un mode de réalisation particulier de l'invention, l'élaboration de la représentation de l'environnement comprend une sous-étape de correction de la déformation optique due à un élément transparent placé entre l'environnement et un dispositif d'acquisition de l'image initiale.
Ainsi, les déformations géométriques à l'image du visage ou de l'arrière-plan causées par exemple par la réfraction d'un verre correcteur d'une paire de lunettes placée sur le visage d'un individu sont corrigées.
Dans un mode de réalisation particulier de l'invention, le procédé de génération d'une image est appliqué à tout ou partie d'une séquence d'images formant une vidéo.
Il convient de souligner que la vidéo peut être sous la forme d'un enregistrement ou d'un flux en temps réel, comme par exemple une vidéo diffusé en streaming, technique bien connue en soi. La vidéo peut également être un flux temps réel issu d'une caméra et visible sur un écran instantanément
Dans un mode de mise en œuvre particulier de l'invention, la représentation de l'environnement et/ou le modèle de l'objet sont mis à jour à chaque image de la séquence.
Ainsi, la représentation et/ou le modèle étant mis à jour à partir de plusieurs images de la séquence sont de plus en plus représentatifs de la réalité. Une zone masquée par l'objet, comme par exemple la partie du visage située derrière une paire de lunettes, peut ainsi être mise à jour dans la représentation de l'environnement comprenant un modèle du visage, lorsque l'individu tourne la tête. En effet, en tournant la tête, le dispositif d'acquisition de l'image initiale prend des images du visage sous de nouveaux angles de vue, ce qui améliore la connaissance du visage. Dans un mode de réalisation particulier de l'invention, la représentation de l'environnement et/ou le modèle de l'objet est mis à jour à partir d'une pluralité d'images initiales prises selon une pluralité d'angles de vues distincts.
Les images initiales prises selon une pluralité d'angles de vues distincts peuvent provenir d'un ou plusieurs dispositifs d'acquisition d'images orientés selon des angles distincts.
Dans un mode de réalisation particulier de l'invention, la génération de l'image finale est effectuée en temps réel à partir de l'image initiale.
Ainsi, le traitement de l'image acquise est effectué dans un temps faible et garanti. Le temps du traitement d'une image acquise de l'individu permet notamment d'afficher l'image de l'individu traitée sans décalage visible pour l'individu. Le temps de traitement est inférieur à 1 /10e de seconde. Le temps de traitement est préférentiellement mais non nécessairement inférieur au temps d'affichage entre deux images, qui est généralement égal à 1 /25e de seconde. En d'autres termes, le traitement en temps réel permet d'afficher un flux vidéo issu d'une caméra instantanément sur un écran, les images de ce flux ayant subi un traitement dans un temps suffisamment court pour ne pas être perçu par l'œil humain.
L'invention concerne également un procédé de réalité augmentée destinée à être utilisé par un individu portant un dispositif portable sur le visage, comprenant les étapes suivantes :
acquisition en temps réel d'une vidéo de l'individu portant le dispositif portable sur le visage ;
affichage en temps réel de la vidéo dans laquelle l'aspect du dispositif portable est totalement ou en partie modifié par le procédé de génération d'une image.
Ainsi, grâce au procédé de génération d'une image, l'individu peut se voir en direct sur un écran sans le dispositif portable sur son visage. Le dispositif portable comprend généralement une monture apte à être portée sur la tête. Le dispositif portable peut également comprendre au moins un verre et/ou au moins un écran. Dans le cas d'un dispositif portable comprenant seulement une monture, la monture peut avantageusement être configurée pour éviter de couvrir les yeux et les sourcils. Il convient de souligner que le dispositif portable peut être un dispositif de vision. Ce procédé de réalité augmentée permet notamment à un individu devant porter une paire de lunettes correctives de se voir sur l'écran avec la même paire de lunettes mais avec une couleur et/ou une texture différente.
Avantageusement, le dispositif portable est totalement ou en partie occulté de la vidéo affiché en temps réel.
Ainsi, l'individu devant porter une paire de lunettes correctives se voit à l'écran sans sa paire de lunettes tout en la portant réellement sur le nez.
Dans un mode de mise en œuvre particulier de l'invention, le dispositif portable est un dispositif de vision comprenant une monture et des verres correctifs adaptés à la vision de l'individu portant le dispositif portable sur son visage.
En d'autres termes, le dispositif portable porté par l'individu comprend des verres correctifs adaptés à la vue de l'individu.
Dans un mode de mise en œuvre particulier de l'invention, l'individu portant le dispositif portable essaye un objet virtuel se superposant au moins partiellement dans la vidéo sur le dispositif portable partiellement ou totalement occulté.
Ainsi, un utilisateur portant une paire de lunettes correctives peut essayer virtuellement une nouvelle paire de lunettes tout en conservant sa paire de lunettes correctives lui permettant de garder son confort visuel.
Dans un mode de réalisation particulier de l'invention, le procédé de réalité augmentée comprend une étape d'initialisation du modèle du visage de l'individu à partir d'au moins une image de l'individu ne portant pas le dispositif portable sur le visage.
Ainsi, l'individu retire préalablement son dispositif portable de son visage pour la génération du modèle du visage, et le remet au bout d'un temps donné. L'acquisition de l'image de l'individu peut s'effectuer avec un ou plusieurs dispositifs d'acquisition d'images. L'individu peut effectuer des mouvements de sa tête afin que la génération du modèle du visage s'effectue à partir d'une pluralité d'images du visage acquises sous différents angles de vue.
Dans un mode de réalisation particulier de l'invention, le procédé de réalité augmentée comprend une étape d'initialisation du modèle du visage de l'individu à partir d'une pluralité d'images de l'individu portant le dispositif de vision, les images correspondant à des angles de vues différents du visage.
Ainsi, la génération du modèle du visage est effectuée sans que l'utilisateur ait besoin de retirer son dispositif portable du visage. Dans un mode de mise en œuvre particulier de l'invention, le procédé de réalité augmentée comprend une étape d'initialisation du modèle du dispositif portable à partir d'au moins une image dudit dispositif acquise dans un dispositif de modélisation dédié.
Dans un autre mode de mise en œuvre particulier de l'invention, le procédé de réalité augmentée comprend une étape d'initialisation du modèle de dispositif portable à partir d'au moins une image de l'individu portant le dispositif portable.
L'invention concerne également un dispositif de réalité augmentée permettant l'essayage d'un objet virtuel par un individu portant un dispositif de vision, l'objet virtuel couvrant au moins partiellement le dispositif de vision, le dispositif d'essayage comprenant :
au moins une caméra acquérant une vidéo de l'individu ;
une unité de traitement de la vidéo acquise, l'unité de traitement occultant au moins partiellement sur la majorité ou la totalité des images de la vidéo le dispositif de vision par l'intermédiaire d'un procédé de génération d'une image ;
au moins un écran affichant la vidéo traitée de l'individu.
Dans un mode de réalisation particulier de l'invention, l'écran est vertical et la caméra est fixée sensiblement dans le plan de l'écran.
Ainsi, cette configuration particulière permet à un individu se tenant assis ou debout face à la caméra de se voir en direct sur l'écran, comme dans un miroir.
Dans un mode de réalisation particulier de l'invention, le dispositif d'essayage d'un objet virtuel comprend deux caméras espacées, parallèlement à un bord de l'écran, d'une distance comprise entre trente et cinquante centimètres.
Ainsi, l'individu étant généralement placé à une distance comprise entre quatre-vingt centimètres et un mètre de l'écran afin de pouvoir toucher l'écran, la distance entre les caméras est optimale pour obtenir deux prises de vues du visage permettant de reconstruire le modèle et la texture du visage de manière réaliste.
Dans un mode de réalisation particulier de l'invention, le dispositif d'essayage d'un objet virtuel comprend en outre une troisième caméra sensiblement sur l'axe médian entre les deux premières caméras.
Ainsi, la troisième caméra permet d'obtenir une image de face de l'individu, cette image s'affichant à l'écran. Les deux premières caméras permettent d'améliorer la modélisation réaliste du visage et de la paire de lunettes portée par l'utilisateur. Dans un mode de réalisation particulier de l'invention, l'écran est tactile.
Ainsi, l'utilisateur peut sélectionner l'objet virtuel à essayer. L'objet virtuel peut être un dispositif de vision comme une paire de lunettes de vue ou solaire, un accessoire pour le visage voire un maquillage.
Dans un mode de réalisation particulier de l'invention, l'affichage de la vidéo acquise et modifiée est effectué en temps réel.
En d'autres termes, le dispositif est un dispositif de réalité augmentée où l'utilisateur peut essayer un objet virtuel et se voir en temps réel sur l'écran.
Dans un mode de réalisation particulier de l'invention, le dispositif d'essayage d'un objet virtuel comprend un dispositif d'acquisition du modèle tridimensionnel du dispositif de vision.
BREVE DESCRIPTION DES FIGURES
D'autres avantages, buts et caractéristiques particulières de la présente invention ressortiront de la description non limitative qui suit d'au moins un mode de réalisation particulier des procédés et dispositifs objets de la présente invention, en regard des dessins annexés, dans lesquels :
- la figure 1 représente un mode de réalisation d'un dispositif de réalité augmentée permettant l'essayage d'un objet virtuel par un individu portant un dispositif de vision réel ;
- la figure 2 représente un schéma de principe d'un mode de réalisation d'un procédé de génération d'une image finale à partir d'une image initiale ;
- la figure 3 représente sous la forme d'un schéma synoptique les étapes du procédé de génération d'une image en référence à la figure 2 ;
- la figure 4 illustre le modèle des yeux sous la forme de cinq vues :
o 4a : une vue en perspective du modèle des yeux ;
o 4b : une vue de côté d'un modèle de globe oculaire ;
o 4c : une vue de face d'un modèle d'œil ;
o 4d : une vue de côté d'un modèle de globe oculaire comprenant les courbes de paupières ;
o 4e : une vue de face d'un modèle d'œil illustrant le déplacement de l'iris ;
- la figure 5 illustre un exemple de texture acquise d'un visage réel ;
- la figure 6 illustre les masques générés au cours du procédé de génération d'une image en référence à la figure 2 ; - la figure 7 représente un autre mode de réalisation d'un dispositif de réalité augmentée permettant l'essayage d'un objet virtuel par un individu portant un dispositif de vision réel ;
- la figure 8 représente sous la forme d'un schéma synoptique un autre mode de réalisation d'un procédé de génération d'une image finale à partir d'une image initial
- la figure 9 représente un autre mode de réalisation d'un dispositif de réalité augmentée utilisée par un individu portant un dispositif de vision réel ;
- la figure 10 représente une paire de lunettes utilisée dans les exemples de mode de réalisation de l'invention ;
- la figure 1 1 représente un écran affichant une vidéo d'un individu portant un paire de lunettes sur le visage ;
- la figure 12 représente un écran affichant la vidéo en référence à la figure 1 1 dans laquelle la paire de lunettes est occultée.
DESCRIPTION DETAILLEE DE MODES DE REALISATION DE
L'INVENTION
La présente description est donnée à titre non limitatif, chaque caractéristique d'un mode de réalisation pouvant être combinée à toute autre caractéristique de tout autre mode de réalisation de manière avantageuse.
On note, dès à présent, que les figures ne sont pas à l'échelle.
Description liminaire aux exemples de mode de réalisation de l'invention
La figure 10 représente une paire de lunettes 1 1 1 comprenant une monture 1 12 rigide et deux verres correctifs 1 13 assemblés à la monture 1 12. La monture 1 12 symétrique par rapport au plan médian AA comprend une face 1 12b et deux branches 1 17 s'étendant latéralement de part et d'autre de la face 1 12b.
La face 1 12b comprend deux cercles 1 14 entourant les verres 1 13, un pont 1 15 assurant l'écartement entre les cercles 1 14 ainsi que deux tenons 1 19. Deux plaquettes 1 16 fixées chacune à un cercle 1 14 sont destinées à reposer de part et d'autre d'un nez d'un individu.
Les deux branches 1 17 sont fixées chacun à un tenon 1 19 de la face 1 12b par l'intermédiaire de charnières 1 18 permettant ainsi à la monture 1 12 d'être articulée. En position ouverte de la monture 1 12, la face 1 12b est inclinée d'un angle compris entre 5° et 10° par rapport au plan perpendiculaireau plan formé par les axes des branches 1 17. Cet angle se confond généralement avec l'angle pantoscopique de la paire de lunettes 1 1 1 , c'est-à-dire à l'angle de la face 1 12b avec la verticale lorsque la paire de lunettes 1 1 1 est placée sur le nez d'un individu regardant au loin sans incliner la tête, le plan des branches étant horizontal. Chaque branche 1 17 se termine par un manchon 1 17b destiné à reposer sur une oreille d'un individu. La monture 1 12 s'étend ainsi latéralement de part et d'autre du visage d'un individu portant la paire de lunettes 1 1 1 .
Il convient de souligner que la paire de lunettes 1 1 1 utilisée dans les deux exemples suivants de mode de réalisation de l'invention, est un exemple non limitatif d'objet réel effacé d'une image ou d'une séquence d'images par le procédé objet de l'invention.
Exemple d'un mode de réalisation particulier de l'invention
La figure 1 représente un dispositif 100 d'essayage d'un objet virtuel 1 10 par un individu 120 portant la paire de lunettes 1 1 1 sur le visage.
Il convient de souligner que dans le présent exemple non limitatif de l'invention, l'individu 120 est moyennement myope. Ainsi, la visibilité de l'individu 120 ne portant pas de paire de lunettes correctives est d'environ vingt centimètres.
Le dispositif 100 comprend un écran tactile 130 fixé verticalement sur un support 131 , une caméra 132 centrée au-dessus de l'écran 130, deux caméras périphériques 133 et une unité de traitement 134.
Dans une variante de ce mode de réalisation, le dispositif 100 comprend en outre un capteur de profondeur mesurant par infrarouge la distance des éléments par rapport à la caméra. Le capteur de profondeur peut comprendre un projecteur à infrarouge et un capteur photosensible dans la longueur d'onde de l'infrarouge. Le capteur photosensible étant à proximité immédiate du projecteur, la densité des points de l'image permet d'en déduire une carte de profondeur indiquant la distance de chaque point de l'image par rapport au capteur.
Dans une autre variante de ce mode de réalisation particulier de l'invention, le dispositif 100 comprend également un scanner ou un double capteur permettant d'acquérir un modèle de la totalité du visage de l'individu 120.
Lorsque l'individu 120 se tient face à l'écran 130, l'individu 120 voit l'image de son visage 121 de face, acquise en temps réel par la caméra 132. Afin de pouvoir toucher l'écran tactile 130, l'individu 120 se tient debout à une distance d'environ un bras de l'écran 130. La distance entre l'individu 1 20 et l'écran tactile 130 est comprise entre soixante et cent-vingt centimètres. L'individu 120 porte la paire de lunettes 1 1 1 afin de voir l'écran 130 de manière nette.
Les deux caméras périphériques 133 sont fixées sur un rail parallèle 135 au bord supérieur de l'écran 130, symétriquement de part et d'autre de la caméra 132. La distance entre les deux caméras périphériques 133 est comprise entre trente et cinquante centimètres. Dans le présent exemple, les deux caméras 133 sont espacées de quarante centimètres l'une de l'autre, ce qui permet d'obtenir des images du visage 121 de l'individu 120 avec un angle de vue décalé d'environ 20° par rapport à la normale.
L'unité de traitement 134 génère à partir de chaque image initiale de la séquence acquise par la caméra 132 une image finale du visage 121 de l'individu 120 dans laquelle la paire de lunettes 1 1 1 est occultée. En d'autres termes, la paire de lunettes 1 1 1 est rendue invisible sur l'affichage en temps réel du visage 121 à l'écran 130.
A cet effet, une représentation virtuelle de la scène acquise par la caméra 132 est créée. Cette représentation virtuelle comprend un modèle tridimensionnel de la paire de lunettes 1 1 1 positionné sur une représentation de l'environnement comprenant un modèle du visage de l'individu 120. La projection du modèle de la paire de lunettes 1 1 1 et de la représentation de l'environnement permet de créer un masque se superposant sur la paire de lunettes réelle sur chaque image de la séquence acquise par la caméra 132.
Il convient de noter que pour la représentation virtuelle, une caméra virtuelle remplace la caméra 132 en ayant le même angle de vue et le même grandissement. En d'autres termes, les caractéristiques optiques de la caméra virtuelle sont identiques à ceux de la caméra 132.
Comme illustré en figure 2, l'unité de traitement 134 génère ainsi une nouvelle image 210 à partir de chaque image 220 de la séquence 200 acquise par la caméra 132 selon un procédé de génération 300 d'une image.
La figure 3 représente sous la forme d'un schéma synoptique le procédé de génération 300.
Dans une première étape 310, le procédé de génération 300 détecte la présence de la paire de lunettes 1 1 1 dans l'image initiale 220.
Le procédé de génération 300 détermine dans une deuxième étape 320 l'orientation de la paire de lunettes 1 1 1 par rapport à la caméra 132. Le procédé de génération 300 détermine dans une étape 330 une dimension caractéristique de la paire de lunettes 1 1 1 sur l'image initiale 220. La dimension caractéristique est dans le présent exemple non limitatif de l'invention, égale à la largeur de la monture 1 12.
Le procédé de génération 300 élabore dans une étape 340 un modèle tridimensionnel de la paire de lunettes 1 1 1 dans un espace virtuel représentant l'espace réel acquis par la caméra 132.
L'étape 340 d'élaboration du modèle de la paire de lunettes 1 1 1 comprend une première sous-étape 341 d'identification de la paire de lunettes 1 1 1 parmi les paires de lunettes préalablement modélisées et stockées dans une base de données reliée à l'unité de traitement 134. Cette identification peut être faite par la connaissance de la référence de la lunette et des éléments dits de framemarking imprimés sur cette dernière.
L'identification de la paire de lunettes 1 1 1 peut également être effectuée par une reconnaissance automatique à partir d'images de la paire de lunette portée par l'utilisateur ou dans un dispositif dédié à l'acquisition d'images de la paire de lunettes seule, comme par exemple une boite de lumière. A cet effet, l'identification automatique utilise des méthodes d'indexation et de reconnaissance visuelle d'apparence d'objets 3D bien connues de l'homme du métier, en générant par exemple des courbes de support venant s'ajuster sur les contours de la paire de lunettes 1 1 1 .
Il convient de souligner que la reconnaissance visuelle de la paire de lunettes peut être effectué à partir des critères de :
forme de la paire de lunettes ;
- couleur(s) de la paire de lunettes ;
texture de la paire de lunettes ;
présence d'une caractéristique notable de la paire de lunette ou d'un logo. Dans le cas où la sous-étape 341 aboutit à un résultat positif où la paire de lunettes est identifiée, le modèle de la paire de lunettes 1 1 1 est extrait de la base de données au cours d'une sous-étape 342.
Dans le cas contraire où aucune paire de lunettes de la base de données ne correspond à la paire de lunettes 1 1 1 , le modèle 3D de la paire de lunettes 1 1 1 est élaboré, au cours d'une sous-étape 343, à partir d'images de la séquence 200 acquises par la caméra 132, et éventuellement à partir des paramètres représentant le modèle le plus proche en forme déterminés lors de l'étape de recherche dans la base
Il convient de souligner que les images de la séquence 200 présentent l'individu 120 portant la paire de lunettes 1 1 1 sur le visage. L'élaboration du modèle de la paire de lunettes 1 1 1 est ainsi effectuée en temps réel à partir des images acquises par la caméra centrale 132 et par les caméras périphériques 133. Lorsque la tête de l'individu 120 s'incline et/ou tourne, les caméras acquièrent des images sous un nouvel angle de vue. Le modèle de la paire de lunettes 1 1 1 est mis à jour à chaque image, notamment lorsque l'image présente une vue de l'individu 120 sous un angle différent.
Le modèle de paire de lunettes 1 1 1 élaboré au cours de la sous-étape 343 est construit en créant dans un premier temps un modèle de forme de la face 1 12b de la paire de lunettes 1 1 1 et un modèle des branches 1 17 de la paire de lunettes 1 1 1 . Il convient de souligner que dans le cas où la paire de lunettes n'est pas symétrique, un modèle pour chaque branche est créé.
Dans une variante de ce mode de réalisation particulier de l'invention, le modèle de forme de la face 1 12b inclut également les plaquettes 1 16.
Afin d'élaborer le modèle de la face 1 12b de la paire de lunettes 1 1 1 et le modèle des branches 1 17, un squelette de la paire de lunettes est utilisé. Le squelette est extrait d'une base de données regroupant des topologies types de paires de lunettes. Les topologies types de paires de lunettes permettent de classer les paires de lunettes selon les formes des lunettes. Les topologies sont définies par :
un type de cercle : cercle entier, demi-cercle supérieur, demi-cercle inférieur, absence de cercle ;
une forme de cercle : rond, ovale, rectangulaire ;
une forme de tenons ;
un pont ou une barre reliant les deux verres, la branche et/ou la barre pouvant être simple ou multiple ;
- deux branches ;
la connaissance de parties différenciées de chacun des éléments ci- dessus, comme par exemple la présence d'un trou dans une branche, une dissymétrie entre les cercles, une excroissance sur la monture... L'épaisseur est déterminée autour du squelette de la paire de lunettes en générant une enveloppe 3D fermée qui englobe la paire de lunettes 1 1 1 .
La génération de l'enveloppe 3D s'effectue en trois sous-étapes suivantes : création de courbes de support dans les plans perpendiculaires au squelette. Ces courbes de support correspondent sensiblement aux coupes de la monture 1 12 ;
génération d'une enveloppe 3D en contact des courbes de support ;
création d'un maillage à l'intérieur de l'enveloppe 3D.
Il convient de souligner que les courbes de support permettant de générer l'enveloppe 3D sont issues de connaissances a priori, dessinées manuellement ou apprises statistiquement. L'initialisation des courbes de support est généralement effectuée lors de l'étape de reconnaissance visuelle pour tenter d'identifier automatiquement la paire de lunettes 1 1 1 . Les courbes de support sont générées à partir des images de la paire de lunettes 1 1 1 portées sur le visage ou à partir d'images de la paire de lunettes 1 1 1 acquises sur un fond neutre par un dispositif de modélisation dédiée (non représenté sur la figure 1 ).
Après la génération du modèle de la paire de lunettes 1 1 1 à partir des images de l'individu 120 portant la paire de lunettes 1 1 1 sur le visage, le modèle de la paire de lunettes 1 1 1 est ensuite recalé de manière identique à la paire de lunettes 1 1 1 réelle, au cours de l'étape 350. Le modèle de la paire de lunettes 1 1 1 a ainsi la même orientation par rapport à la caméra 132 et la même dimension caractéristique à l'image que la paire de lunettes 1 1 1 réelle. En d'autres termes, le modèle de la paire de lunettes 1 1 1 est positionné dans l'espace virtuel, orienté selon la position de la caméra virtuelle et configuré selon la dimension de la paire de lunettes 1 1 1 réelle. Un facteur de grossissement peut ainsi être appliqué au modèle de la paire de lunettes 1 1 1 . Les paramètres de pose du modèle de la paire de lunettes 1 1 1 sont notés PeMg.
Au cours de l'étape 355, le procédé de génération élabore un modèle géométrique Ma en trois dimensions d'un avatar représentant le visage sans la paire de lunettes 1 1 1 . Une texture TaNG du visage sans la paire de lunettes 1 1 1 est également créée au cours de l'étape 355. Le modèle géométrique Ma est paramétré en morphologie et expressions selon le procédé d'élaboration du modèle du visage décrit en suivant. Le procédé d'élaboration de l'avatar comprend une première étape de détection du visage dans l'image et d'analyse faciale du visage détecté. La détection du visage est effectuée dans le présent exemple non limitatif de l'invention par une méthode de Viola-Jones, comme explicité dans le brevet FR2955409.
Un algorithme d'alignement de traits est ensuite utilisé pour trouver des traits spécifiques du visage, lors d'une deuxième sous-étape du procédé d'élaboration du visage. A cet effet, un détecteur de traits bien connu de l'homme du métier est utilisé et permet de trouver de manière très fiable des traits internes du visage.
L'algorithme d'alignement de traits HPAAM, décrit dans la demande de brevet européen EP2678804, permet ensuite de localiser avec précision la projection de traits 3D significatifs sur l'image. Contrairement aux techniques existantes qui donnent lieu à une erreur de localisation dans des environnements encombrés, HPAAM est particulièrement stable sur des traits situés sur le contour du visage, tels que des points des oreilles. Etant donné que l'algorithme HPAAM est une technique faisant appel à une phase d'apprentissage, l'utilisation de points prédéterminés possédant une correspondance 3D a un impact sur la réussite de la technique d'analyse faciale globale, notamment en ce qui concerne la robustesse et l'efficacité de la technique. Généralement, cette relation est spécifiée pour un petit nombre de points dans les techniques d'analyse faciale 3D, comme les points de départ d'une stratégie d'ajustement 3DMM, dans laquelle cinq points sont définis manuellement.
Il convient de souligner que cette étape de détection du visage est robuste aux occultations du visage constituées par la paire de lunettes 1 1 1 .
La deuxième étape du procédé d'élaboration de l'avatar concerne l'estimation des paramètres du modèle du visage 0model comprenant :
- les paramètres extrinsèques PeMa du modèle de visage, c'est-à-dire les paramètres de pose du visage, dont la position et l'orientation du visage ; les paramètres intrinsèques PiMa du visage, c'est-à-dire la morphologie 3D du visage ; et éventuellement
les modèles d'expression du visage, et les paramètres extrinsèques (translation TSE) et de configuration des yeux, qui seront réestimés à chaque image lors du tracking.
Les paramètres du modèle de visage 0model sont estimés en utilisant un modèle géométrique statistique de la morphologie du visage humain. A cet effet, une base de données de visages est utilisée, comme par exemple la base de données décrite dans le document de Blanz et Vetter publié en 2003, intitulé « Face Récognition Based on Fitting a 3D Morphable Model ».
Une estimation des paramètres du modèle de visage 0model et des paramètres 9cam de la caméra virtuelle est effectuée en utilisant les traits trouvés au stade de détection des traits et en ajustant dynamiquement des contours dans l'image.
Afin d'estimer les paramètres intrinsèques et extrinsèques 9cam de la caméra et les paramètres du modèle de visage emodel , une minimisation à la fois de la distance entre les traits du visage trouvés dans l'image /£<£=1..n et la projection des points sémantiques 3D définis sur le visage paramétrique Prq/( S(£)), et de la distance entre la projection des contours de visage paramétriques et les bords d'image associés est effectuée.
La fonction Proj ) représente la transformation projective d'une scène 3D, comme par exemple le visage ou la paire de lunettes, vers un calque ou plan image, en considérant un modèle de caméra de type pinhole, bien connue de l'homme du métier, qui permet d'effectuer une division perspective. Ainsi, la fonction Proj K) permet de passer du point 3D X = (x, y, z) de l'espace euclidien de la scène au point (u, v) du calque, en tenant compte des paramètres intrinsèques de caméra contenus dans la matrice K et de la transformation rigide de la forme RX + T, avec R matrice de rotation 3x3 et T translation 3x1 . Lorsque nécessaire, on notera cette projection ProjÇX ; K, R, T). Il convient de souligner que la projection des contours de visage paramétriques correspondent à la projection de points du modèle de visage dont la normale est orthogonale à leur direction d'observation.
Dans ce but, un échantillonnage de la direction orthogonale aux contours du point échantillon courant est effectué et permet d'échantillonner les contours pour plusieurs raisons : efficacité numérique, stabilité et compatibilité avec d'autres techniques d'alignement utilisées dans la poursuite d'objets 3D. A cet effet, pour chaque itération de la minimisation, un calcul de C ecam, emodel) qui contient un sous- ensemble de points du modèle de visage Xj avec la normale n;- orthogonale à la projection axiale et des points associés du contour de l'image contj = ProjContour{Xj, nj) est effectué, où ProjContour est une fonction projetant le point Xj et recherchant, le long de la projection normale, le meilleur contour parmi de multiples hypothèses. Ces hypothèses sont calculées localement étant donné que les bords sont calculés le long de la direction normale et respectent l'amplitude du signal, ce qui conduit à une détection de bords précise et invariante selon l'échelle pour l'ensemble de l'objet-visage. Cette méthode sera appelée par la suite méthode des normales.
La fonction de coût peut être par exemple mise en œuvre en utilisant une approche du type estimateur M telle que celle qui utilise la fonction de poids robuste de Tukey. En variante, un calcul du résidu pour le point le plus proche le long de la direction normale du contour parmi de multiples hypothèses peut être effectué.
Au final, l'équation à résoudre s'écrit :
argmin (1 ) cam> model
Figure imgf000026_0001
où ||. , . ||2 représente la distance Euclidienne et y est un paramètre permettant de donner plus d'importance à l'une des deux parties de la fonction de coût : soit les contours ou soit les traits. Cette équation peut être résolue en utilisant des techniques classiques de descente du gradient bien connues de l'homme du métier.
L'avantage principal de cette technique d'estimation est que lorsque de multiples images sont disponibles, comme ici dans la séquence 200 d'images, elle s'étend à un algorithme d'analyse multi-images qui assouplit la contrainte de correspondance sémantique 2D/3D et permet d'affiner tous les paramètres estimés. Elle peut être utilisée pour rechercher la morphologie du meilleur ajustement pour toutes les images.
II convient de souligner que lorsqu'un scan du visage est effectué en 3D, produisant notamment des données 3D, par exemple grâce à un capteur infrarouge ou à une caméra de profondeur de type RGB-D (acronyme anglais de « Red-Green- Blue-Depth »), une contrainte 3D/3D est ajoutée. Ainsi, pour chaque point du modèle de visage X on cherche à minimiser la distance entre le point du modèle de visage Xi et le point 3D le plus proche dans les données scannées X^1. On peut ainsi ajouter dans l'équation (1 ) de minimisation le terme suivant :
Figure imgf000026_0002
La troisième étape du procédé d'élaboration de l'avatar concerne l'ajout des expressions 3D du visage.
Les expressions ajoutent une certaine variabilité au modèle de visage et leur exclusion permet une estimation plus stable et précise des paramètres de pose et de morphologie du visage. Une approche habituellement utilisée pour créer des variations paramétriques d'un maillage consiste à utiliser des formes de mélange, c'est-à-dire un ensemble de modèles géométriques combinés linéairement afin de produire des instances uniques. Une technique couramment utilisée pour calculer ces formes de mélange consiste à les déduire statistiquement comme décrit dans [A 3D Face Model for Pose and Illumination Invariant Face Récognition, Paysan et al., 2009].
Le modèle présente la forme suivante :
#0) = gm + V,
où g { est un vecteur représentant une nouvelle forme et s'écrit g { = (x1, y1, z1, ... , xn, yn, znY, vec {x^ y^ z^), est le ieme sommet, gm est la forme 3D moyenne, a est un vecteur qui contient des paramètres d'adaptation propres à l'utilisateur et V est une matrice qui contient la base de Formes Statistiques. De manière générale, les bases de Formes Statistiques ne comprennent que les variations d'identité, sans tenir compte des variations d'expression, de manière à garantir une bonne aptitude à la séparation des paramètres de commande.
Néanmoins des expressions sont avantageusement ajoutées au modèle pour le calcul en temps réel.
Le modèle 3D est un modèle fil de fer qui peut être déformé conformément à g(a, p) = gm + aV + βΑ, où β est un vecteur qui contient les paramètres d'animation, et A est une matrice qui contient les Unités d'Animation. Comme indiqué dans [CANDIDE-3 - An Updated Parameterised Face, Ahlberg, technical report, 2001 ], la matrice d'Unités d'Animation permet de faire en sorte que les points poursuivis en 3D représentent des variations d'expression.
Non seulement cette séparation des paramètres est plus puissante que la modélisation classique, mais elle simplifie également le calcul en temps réel. Au lieu de faire en sorte que tous les paramètres de pose 3D, d'identité du visage et d'expression modifient chaque monture au cours du processus de poursuite, les paramètres d'identité invariants sont fournis à partir du stade d'analyse faciale. Seuls les paramètres de pose 3D et un petit nombre de paramètres de variation d'expressions sont estimés pour chaque image.
L'estimation complète des paramètres du modèle de forme déformable et de pose s'effectue sur la base de la résolution de :
mm \ \Proj(g(a, ); K, R, T) - p2D \ \2 où R est la matrice de rotation 3D, T est la translation 3D, K est la matrice de paramètres de caméra intrinsèques, a est fixé lors du stade d'analyse faciale, p2D est la position courante dans l'image du point poursuivi en 3D.
Le modèle du visage comprend un modèle des yeux relié par une translation rigide TSE entre le repère du modèle du visage et le repère du modèle des yeux.
Comme illustré en figure 4, les deux yeux 401 sont représentés par deux centres de rotation 402, noté PS où S G {R, L} correspond soit au côté droit (S = R pour l'anglais « Right ») soit au côté gauche (S = L pour l'anglais « Left »). Les deux centres de rotation 402 sont reliés au repère du système des yeux SE, par une distance pdS, S G {R, L}. Chaque œil 401 est orienté par rapport au repère du système des yeux par des angles rxe, ryeS, S G {R, L}, rotations respectives autour des axes x et y. Les centres de rotation 402 sont à une distance dr du centre d'un disque 403 de rayon hdi représentant l'iris. Le disque 403 est compris dans un élément composé de trois courbes de Bézier 41 0 d'ordre 3 ayant les mêmes points de contrôle de début et de fin, pEo, pEi, comme représenté sur la figure 4c. Les courbes des bords des yeux peuvent être représentées en 3D sur le maillage du visage. Il est important que les points pEo, pEi soient à l'intersection des courbes des bords des yeux, et que la courbe qui se déplace soit paramétrée par un paramètre dpELv permettant à la courbe paupière 41 03 d'évoluer entre les valeurs de la courbe haute 41 0i et la courbe basse 4102. Ce paramètre unidimensionnel peut influer sur le parcours 3D de la courbe 41 03 de la paupière selon une courbe définie dans l'espace.
Il convient de souligner que les courbes 41 0i et 41 02 sont contrôlées par des points de contrôle comprenant respectivement les points pEuL et pEuR, et les points pEdL et pEdR.
Le parcours 3D de la courbe 4103 de la paupière peut être représenté dans les modes de déformation du modèle de morphologie paramétrable, en fonction du déplacement de la position de la paupière dpELyÇt) donné par la rotation rxEL autour de l'axe x du repère particulier de l'œil, où t compris entre 0 et 1 permet de paramétriser la position d'un point sur la courbe paupière 41 03.
Il convient de souligner que le point de la courbe paupière 41 03 où t est égal à 0,5 correspond au point médian. En ce point, la position dpELyÇt = 0,5) se déplace sensiblement sur le disque de rayon dr. On distingue les configurations de l'œil gauche et droit L et R de dpELy, ce qui permet de modéliser la fermeture d'une seule paupière, contrairement au paramètre de rotation verticale de l'œil rxe pour qui dans la grande majorité des cas les déplacements de l'œil gauche et droit sont les mêmes.
La relation TSE permet aux disques iris des yeux en rotation autour des points PL et PR de toucher les courbes des paupières.
A partir de l'image 220 où le visage est détecté, et pour une pose PeMa0 et des paramètres intrinsèques de visage PÎM O , 'es paramètres TSE, rxEL, rxe, {pdS, ryeS}; S G {R, L}, sont estimés au moment de la pose du modèle sur le visage pour chaque image. Les paramètres de positionnement du système des yeux SE dans le repère du visage TSE, ainsi que les paramètres de distance pupillaire pdR et pdL sont considérés comme appartenant à la morphologie de l'utilisateur et n'ont plus besoin d'être réestimés une fois qu'ils sont stables. On peut les résoudre par rapport à la reprojection du modèle dans une image, ou à partir d'un ensemble d'images acquises. La résolution des paramètres de distance pupillaire est décrite par exemple par le brevet FR 2971 873.
La résolution de l'ensemble des paramètres TSE, rxEL, rxe, {pdS, ryeS}; S E {R, L}, s'appuie sur les éléments suivants, en considérant une ou plusieurs images acquises :
dans le cas où l'on considère la différence entre la projection du modèle et l'image : par une méthode de descente de gradient qui minimise la différence de l'apparence synthétisée du visage avec l'image par l'intermédiaire d'une méthode de Lucas-Kanade;
dans le cas où l'on considère un alignement des courbes iris Cl et paupière sur l'image de contour : en minimisant les distances entre les contours. Pour résoudre cette minimisation des distances entre les contours, on considère les points homologues situés sur la normale au contour. Les courbes étant paramétriques, il est aisé de les échantillonner avec :
• un paramètre d'angle θ, θ E [0,2π[ pour la courbe iris qui est un cercle ;
• un paramètre d'évaluation s, s G [0,1] de la courbe pour la paupière qui est une courbe de Bézier d'ordre 3. La différence entre les points échantillonnés Cm et CEsi du modèle projeté à la pose PeMa0 pour les paramètres intrinsèques PiMa0, et l'image de contour Ico du visage obtenue avec des opérateurs classiques de type Canny ou Sobel est mesurée.
II convient de souligner que la différence entre les points échantillonnés et l'image de contour peut également être déterminée par une recherche selon la méthode des normales précédemment décrite.
Il est aussi possible de résoudre les paramètres de pose en générant des cartes de distance du modèle de contour projeté, et de projeter les points contours de l'image dans cette carte pour la résolution.
Les deux types d'équation à résoudre sont :
a) équation correspondant à la différence image pour la résolution du système des yeux :
dr) - I0 \ \2
Figure imgf000030_0001
où K est la matrice des paramètres intrinsèques de la caméra, Itfprojr m ,SE) est l'image générée par la projection du modèle avatar et du système des yeux avec prise en compte des occultations du système des yeux SE par la fermeture des paupières ou par les auto-occultations dues à la pose du modèle. La génération de l'image suppose une texture connue. On ajoute donc lors de l'initialisation une résolution sur des paramètres d'apprentissage qui font varier la texture de manière paramétrique, de type modèle actif d'apparence. Lors de la mise à jour, la texture spécifique de la scène sera utilisée. Il convient de souligner que la différence contour est avantageusement utilisée pour l'initialisation pour des raisons de performances et de simplicité des données.
b) équation différence contour pour la résolution du système des yeux
T nProJ (CwCES; K, PeMO, PiM^r) - pUco; B, s | |» .
{TSE,rxe,ryES,pdS,rxEL,hdi};S={R,L} ^
où l'ensemble des points de l'image lCQ est sélectionné le long de la normale au gradient à la courbe considérée Cl ou CE projetée, pour les points des courbes associés aux valeurs des paramètres Θ et s. Dans une variante de ce mode de réalisation particulier de l'invention, la fonction ProjContour est également utilisée pour la minimisation des yeux. Il convient de noter qu'afin de rendre le système d'équations robustes en première initialisation, les valeurs par défaut suivantes sont utilisées :
hdi = 6.5mm, dr = 10,5mm pour l'initialisation,
ainsi que la contrainte pdR = pdL, ryeR = ryeL.
- la valeur de la rotation rxeo=0 pour une valeur moyenne statistique de rotation du visage de 0 degrés sur un ensemble d'apprentissage significatif. Cela permet de contraindre la résolution des paramètres du système des yeux.
Ces valeurs sont ensuite réestimées lors de la mise à jour des paramètres.
Dans le cas où l'on dispose de deux images calibrées ou de la carte de profondeur, il est possible de retrouver aisément l'ensemble des paramètres. Ces équations peuvent être couplées à la résolution des paramètres extrinsèques et intrinsèques du visage.
Dans le cas où une carte de profondeur est disponible en plus de l'image, l'estimation des paramètres extrinsèques et intrinsèques du visage est améliorée. En effet, ces valeurs sont utilisées pour parfaire l'estimation du modèle paramétrique. Si le modèle paramétrique ne correspond pas entièrement car le paramétrage ne permet pas d'expliquer la profondeur, le modèle de visage est adapté sur la surface, en résolvant le système décrit dans l'équation (1 ) de résolution 3D du visage. On dispose alors non pas d'une estimation des paramètres du visage mais d'un modèle métrologique paramétré du visage de l'utilisateur.
Une fois l'alignement réalisé entre le modèle du visage, le modèle des yeux et l'image 220, les textures du visage TaNG et de l'arrière-plan Tbg, définies plus en détails ci-dessous, sont mises à jour au cours de l'étape 356 afin de correspondre à la réalité de la scène acquise par la caméra 132.
La texture TaNG 450, illustrée en figure 5, est un atlas du visage, calculé selon les méthodes de dépliage de maillage classiques bien connues de l'homme du métier. Une fois le visage 3D projeté dans l'image, les faces visibles et orientées vers la caméra, par exemple par des méthodes z-buffer ou culling, permettent de remplir l'image texture TaNG 450.
Les textures des yeux sont réparties sur la texture du visage et sont décomposées en trois parties : la texture de l'iris TaNG l 451 , la texture du blanc de l'œil TaNG E 452, la texture de la paupière TaNG EL. Ces trois éléments peuvent être incomplets lors de l'acquisition mais peuvent être complétés de manière simple par interpolation pour TaNG E et TaNG EL pour les zones non connues à synthétiser ou par connaissance de la topologie pour les parties non visibles, comme le haut de l'iris si l'œil n'est pas grand ouvert. Le caractère circulaire de la pupille et de l'iris permet de compléter la texture selon un paramétrage polaire.
Une carte du fond Tbg, également appelée carte d'arrière-plan ou de background, est élaborée au cours de l'étape 357.
La carte Tbg correspond au fond et à tout ce qui est considéré n'appartenant ni à la paire de lunettes réelle portée par l'utilisateur, ni au visage, ou tout autre élément modélisé explicitement, comme un modèle de cheveux ou une main venant se superposer au visage et à la paire de lunettes 1 1 1 . La carte Tbg est mise à jour de manière dynamique en suivant des règles de mise à jour telles que l'on trouve dans les techniques classiques de soustraction de fond (en anglais « background subtraction »). On se réfère à des modèles de couleur prédominante pour chacun des pixels, en utilisant des distributions de probabilités et des modes possibles pour les couleurs. Plusieurs modèles peuvent être employés, comme des mélanges de gaussiennes, ou des estimations de modes par méthodes de noyaux sur des histogrammes. Ce modèle est couplé à un modèle dynamique de mise à jour temporelle et possiblement spatial.
Par exemple, le modèle dynamique de mise à jour peut s'effectuer de la manière suivante : comme dans [Active Attentional Sampling for Speed-up of Background Substraction, Chang et al., 2012], pour chaque pixel, on prend en compte une propriété de temporalité Pt, une propriété de spatialité Ps éliminant les pixels isolés et une propriété de fréquence sur les dernière images de la vidéo Pf permettant d'éliminer les pixels changeant de classe trop souvent et pouvant être dû au bruit. Le produit de ces trois valeurs donne une probabilité pour chaque pixel d'appartenir à la carte et d'être mis à jour.
La carte de fond Tbg est initialisée par tous les pixels non considérés comme le visage projeté ou la paire de lunettes projetée à cette étape. La carte de fond a les mêmes dimensions que l'image 220.
Par souci de performance, et grâce aux analyses complémentaires des modèles de suivi et d'analyse de points statistiquement aberrants, également appelés points outliers, la méthode de modification est utilisée. Cette méthode comprend les étapes durant lesquelles :
A chaque nouvelle image /, une carte de segmentation du visage Ta est calculée à partir de la projection du modèle de visage Ma dans l'image. De la même façon, la projection du modèle de lunettes Mg permet d'obtenir la carte de segmentation des lunettes Tg.
Pour chacune de ces cartes, un pixel appartenant à la projection du modèle a une valeur de 1 alors que les autres pixels ont une valeur de 0. En restant dans le cas simple où il n'existe pas d'autres modèles, chaque pixel p est traité de la manière suivante :
• Si Ta(p) = 0 et Tg = 0, Tbg(p) = /(p) ,
• Sinon, la texture n'est pas modifiée.
Il est également possible de calculer une carte qui pour chaque pixel de Tbg, indique le nombre d'images acquises depuis la dernière actualisation du pixel, ce qui permet d'évaluer si un pixel a été modifié récemment ou non. Il est ainsi possible d'évaluer si la valeur d'un pixel est pertinente par rapport aux pixels situés à proximité, en fonction des temps respectifs de dernière mise à jour. Cette méthode de modification privilégie ainsi les pixels modifiés récemment.
Un modèle d'occultations par les éléments venant se superposer au visage 121 , comme par exemple une main ou une mèche de cheveux, est élaboré au cours de l'étape 358.
La carte d'occultations est représentée par une texture dynamique Tfg qui est mise à jour à chaque image de la séquence 200. On considère comme occultations toute perturbation des modèles d'apparence de la paire de lunettes 1 1 1 et du visage 121 , ayant une consistance spatiale et temporelle, qui se distingue de la caractérisation de l'éclairage sur le visage 121 , des ombres portées de la paire de lunettes 1 1 1 ou autoportées du visage (nez par exemple), ou des caustiques créées par la paire de lunettes 1 1 1 sur le visage 121 . Le cas le plus probable est celui des cheveux ou d'une main.
La carte d'occultations est associée à un modèle géométrique Mfg qui peut être variable. Cela peut être un plan qui représente une couche devant la scène 3D, ou une carte de profondeur estimée ou disponible. La valeur de la carte d'occultations est déterminée par différence de la prédiction d'apparence avec l'image réelle, c'est-à-dire par différence entre la projection des modèles virtuels représentant le visage, la paire de lunettes et le fond et l'image réelle. En d'autres termes, la carte d'occultations comprend tous les éléments qui n'ont pas été modélisés auparavant.
Dans une variante de ce mode de réalisation particulier de l'invention, une technique d'inpainting est utilisée afin de combler d'éventuels espaces vides dans la carte d'occultations, permettant ainsi d'améliorer l'apparence de la carte d'occultations.
De même, pour des éléments petits, plus petits que la taille d'un pixel à l'image, comme par exemple une mèche fine de cheveux présente conjointement avec un élément du visage ou un élément de la paire de lunettes 1 1 1 sur un pixel, la carte d'occultations prend en compte des degrés d'opacité locale. Cette modification d'opacité est couramment utilisée pour résoudre des problèmes de digital matting. On nomme Tafg le canal d'opacité en niveaux de gris de la carte d'occultations, et TBfg sa binarisation pour les pixels opaques de valeur 1 .
Dans le cas de l'utilisation du capteur de profondeur, la détection des occultations est plus aisée et des méthodes bien connues de l'homme du métier peuvent être appliquées. Cependant, dans le cas présent où l'utilisateur porte des lunettes, les capteurs RGBD basés sur des technologies infrarouges obtiennent un très mauvais signal car les paires de lunettes sont des objets généralement constitués de matériaux complexes et à forte dynamique, comme le métal, le plastique translucide et le verre. Les effets de diffraction et réfraction de ces matériaux empêchent le système de création de la carte de profondeur de fonctionner correctement. D'autre part, la résolution spatiale de ces capteurs n'est pas suffisante pour des lunettes très fines. De ce fait, non seulement les lunettes ne sont pas ou très mal identifiées par le système, mais elles corrompent ou rendent inaccessibles l'ensemble des données visage situées dans le voisinage et derrière. L'utilisation de l'image et du modèle paramétrique de la paire de lunettes proposé permet de palier à ces problèmes structurels des capteurs de profondeur.
Les textures de la paire de lunettes, du visage et/ou du fond sont complétées et mises à jour au cours de l'étape 359 du procédé de génération d'une image. Lors du procédé, l'état des cartes représentant les éléments affichés à l'image évolue en fonction de la connaissance des éléments. Dans le présent exemple, le visage de l'individu 120 est en partie masqué par la paire de lunettes 1 1 1 . Des éléments nouveaux du visage de l'individu 120 apparaissent lorsque l'individu 120 tourne la tête. Les informations couleurs peuvent également être faussées à cause de la réfraction des verres, notamment dans le cas où les verres sont teintés ou à cause des ombres portées de la paire de lunettes 1 1 1 sur le visage.
Ainsi, il est possible que pour un pixel donné d'une carte établie comme par exemple la carte du fond, ou celle du visage, l'information de couleur n'est pas disponible car l'utilisateur ne s'est pas encore assez déplacé pour faire apparaître la zone nécessaire.
Les modèles statistiques par apprentissage sont utilisés sur la zone du visage, mais sont moins efficaces sur celle du fond. On peut ainsi remplacer les pixels de la zone du visage avec des techniques connues comme les modèles actifs d'apparence ou des modèles 3D morphables (en anglais « 3D morphable models »).
Dans le cas où la prédiction d'apparence n'est pas possible, la technique de remplissage par localité spatiale est utilisée. La technique de remplissage, proche des techniques d'inpainting bien connues de l'homme du métier, s'appuie sur la synthèse de texture, en apportant des connaissances pertinentes pour la résolution fiable et temps réel du problème de remplissage. Etant donné que la topologie des modèles de lunettes est connue, et que la contrainte temps-réel est importante, le remplissage par patch est utilisé, ce qui garantit la continuité des couleurs entre les zones peintes et le respect des structures des textures. Cette technique nous permet une recherche rapide des éléments similaires dans l'image ainsi que le traitement en parallèle de la majorité des pixels à remplacer.
La technique de remplissage temps réel s'appuie sur une technique d'inpainting bien connue de l'homme du métier.
Le remplissage des zones à traiter s'effectue par pixel ou par patch, en utilisant un algorithme en trois étapes :
1 . calcul des priorités des patches,
2. propagation de la texture et de l'information de structure,
3. mise à jour des valeurs de confiance.
Dans le présent exemple non limitatif de l'invention, le patch est formé par une fenêtre carrée centrée autour d'un pixel. En connaissant la topologie des différents éléments, comme la paire de lunettes 1 1 1 et le modèle de visage, le remplissage des zones est effectué en temps réel en apportant plusieurs avantages par rapport aux techniques couramment utilisées par l'homme du métier :
- indépendance du sens de parcours ;
possibilité de travailler par taille de patch arbitraire (jusqu'au pixel) ;
éviter la recherche systématique et coûteuse des patches similaires ; et garantie de la continuité des couleurs lors du remplissage.
Le calcul de la priorité des patches, bien connu de l'homme du métier, est suivi pour les zones pour lesquelles aucune information n'est disponible, comme par exemple les pixels du masque correspondant à la zone du fond.
Cependant pour les pixels situés sur la zone du visage, la connaissance de la topologie du visage permet de définir les directions et priorités de parcours et les zones d'échantillonnage a priori des patches. Par exemple, si les yeux sont cachés, on connaît à l'avance de manière paramétrique le modèle géométrique de construction des yeux, et l'on peut ainsi adapter la priorité, la taille des patches et la direction de propagation en fonction des courbes liées à la topologie particulière d'un œil.
Dans les zones où l'on n'a pas d'information sur les structures paramétriques sous-jacentes, comme le fond ou la peau, c'est la connaissance de la topologie de la paire de lunettes qui permet de prédéfinir les directions de parcours de la propagation des structures selon le sens perpendiculaire au squelette de la forme ou perpendiculaire au contour.
Il convient de souligner que la propagation des structures n'est jamais loin, quelle que soit la pose du visage, de la direction de propagation des isophotes. En effet, la paire de lunettes, bien que pouvant comporter une monture épaisse, a des projections dans l'image telles que les différents bords d'un même sous-objet sont quasiment parallèles.
En privilégiant le parcours propre à la topologie de la paire de lunettes, deux aspects sont améliorés. D'abord, la recherche du patch est réduite au premier patch trouvé contenant de l'information dans cette direction. Naturellement, à chaque itération, les pixels remplacés dans l'itération précédente sont utilisés, permettant une continuité de la structure. La direction de propagation est aussi prédéfinie et n'est calculée que pour les patches jugés très structurés par un critère de structure. Par exemple, l'entropie du patch considéré, ou un coefficient dépendant de la norme des directions des gradients, peuvent être utilisés. Cette approche permet d'éviter un classement systématique et coûteux des priorités ainsi que des directions de propagation.
Afin de garantir la continuité des couleurs tout en préservant la structure, et éviter le lissage directionnel que l'on peut observer dans les parcours de type « pelure d'oignon », le procédé suivant est utilisé :
Soit le patch à remplir Γ0 centré autour du pixel p0 à une distance du front du masque à remplir tel que le patch contient des pixels d'une zone connue. On définit une distance maximale de confiance dmax qui garantit une continuité des structures, et on se déplace dans les deux sens de la direction normale au contour nc du masque lunette pour trouver les deux patches pleins Tl et T2 (centrés en pTl et pT2) dans les zones « texture » les plus proches. Cette technique permet d'économiser les calculs de recherche du patch le plus proche colorimétriquement. On fait alors l'adaptation colorimétrique pour remplir les pixels du patch Γ0, en tenant compte de la distance dl de p0 à pTl et la distance d2 de p0 à pT2 afin de permettre l'interpolation linéaire suivante :
dl d2 dl < dmax et d2 < dmax
où chaque pi(u, v)T correspond à un pixel d'un patch T. La notation ssi correspond à l'abréviation de « si et seulement si ».
Dans les autres cas, on a :
pi(u, v)T0 = pi(u, v), ssi dl < dmax et d.2≥ dmax pi(u, v)T0 = pi(u, v)T2 , ssi dl≥ dmax et d.2 < dmax Ce processus est appelé plusieurs fois jusqu'à ce que tous les pixels du masque soient traités.
Pour éviter les effets de pelure d'oignon, et ne pas reproduire les artefacts de structure dus à la compression de l'image, pour les patches de petite taille (jusqu'au pixel), on ajoute un déplacement local aléatoire pour les zones de structure faible. Un bruit uniforme ou gaussien peut être utilisé. Ce bruit uniforme est estimé en fonction du bruit moyen des zones alentours connues de l'image par les techniques bien connues de l'homme du métier. L'entropie peut être utilisée pour ordonner les structures, si cette dernière n'est pas déjà connue grâce au modèle. La zone remplacée peut être les pixels à remplacer du patch complet ou bien un patch plus petit jusqu'au pixel.
Il convient de souligner que les tailles de patch sont dépendantes de la taille de la structure à remplacer, à savoir de l'épaisseur de la paire de lunettes, et de la distance de l'utilisateur à la caméra.
La figure 6 illustre l'élaboration des masques à partir de l'image 220 de l'utilisateur 120 (figure 6a). Comme illustré en figure 6b, l'environnement ib9 à l'arrière-plan de la paire de lunettes 1 1 1 est décomposé en plusieurs zones :
une zone 470 correspondant au visage ; et
- une zone 471 correspondant à l'arrière-plan.
Il convient de souligner que la zone 470 peut être sous-divisée en sous- régions sémantiques 472, correspondant par exemple à la région des cheveux 472-,, à la région de la peau 4722. Au cours de l'étape 360, le procédé de génération élabore le masque de la paire de lunettes 1 1 1 par projection géométrique du modèle tridimensionnel de la paire de lunettes 1 1 1 sur un premier calque.
Il convient de souligner que le premier calque est préalablement vidé avant la projection géométrique. Ainsi, le premier calque comporte une image du modèle tridimensionnel de la paire de lunettes 1 1 1 selon le même angle de vue et la même taille que la paire de lunettes 1 1 1 réelle.
Le masque TMg de la paire de lunettes 1 1 1 est divisé en plusieurs parties : le masque TMg f de la monture 1 12b et des branches 1 17 ; et
le masque TMg ι des verres 1 13.
Un masque TMg e correspondant aux effets lumineux portés sur le visage, notamment les caustiques et les ombres, est créé simultanément. Le masque TMg e comprend également les effets lumineux sur les verres, notamment les reflets.
Le masque TMg f correspond à l'image de rendu RGBA du modèle de la paire de lunettes 1 1 1 pour les valeurs de paramètres visage PeMa et lunettes PeMg estimées à l'instant correspondant à l'image 220. Le masque TMg f tient compte des occultations éventuelles de la paire de lunettes 1 1 1 comme par exemple une main placée devant le visage ou une mèche de cheveux tombant sur le visage. Un masque binaire TMBg f est obtenu en binarisant la couche alpha de rendu du masque TMg f . La couche alpha représentant la transparence des pixels, la binarisation de la couche alpha permet de délimiter le masque TMg f.
La figure 6c représente l'environnement représentée en figure 6b sur lequel est ajouté le masque TMBg f.
Les masques TMg l et TMg e sont déterminés en suivant la même technique que pour le masque TMg f, en considérant respectivement pour chaque masque les verres 1 13 et les effets lumineux comme les reflets sur les verres ou les ombres portées sur le visage.
Le masque TMa correspondant au visage est créé au cours de l'étape 365 à partir du modèle du visage comprenant les yeux, selon les paramètres d'orientation et de positionnement du visage estimés précédemment pour l'image 220.
Il convient de souligner que le masque binaire TMBg f de la paire de lunettes est contenu dans la région du visage TMa ou dans la carte du fond Tbg, comme on peut le voir sur la figure 6c.
Grâce à la connaissance topologique de l'objet paire de lunettes, un échantillonnage est réalisé dans une localité définie de part et d'autre du masque TMBg f, selon une paramétrisation donnée par la topologie de la paire de lunettes, dans la direction de la normale au contour nc.
Ainsi, la branche est échantillonnée de chaque côté sur des zones de taille maximale représentant une partition nR des régions définies par TMa ou Tbg. Dans le cas présent, un ajustement du découpage de l'espace est effectué aux courbes frontières des régions. Grâce à ce découpage, il est possible d'estimer le champ de transformations colorimétriques locales entre la prédiction d'apparence et l'image courante, pour les régions visage TMa et fond Tbg privées de la région lunettes TMg, ce qui permet de trouver les transformations dues à des changements de lumière globale, ou à des ombres portées
Pour le visage, des zones ne répondant pas à cette dynamique colorimétrique peuvent ne pas être considérées dans un premier temps, comme par exemple les sourcils, les cheveux ou la barbe, afin de se concentrer sur la peau, qui suit une dynamique pseudo-lambertienne et permet une adaptation basse et moyenne fréquence des couleurs. Ces zones sont repérées et segmentées grâce aux points et courbes trouvées lors de la reconnaissance des caractéristiques et peuvent être affinées dans l'espace texture. On calcule alors sur les zones de même type la transformation, comme dans les techniques de transfert de couleur ou de tone mapping bien connues de l'homme du métier.
Ce champ de transformations colorimétriques est appliqué respectivement aux images TMa et Tbg pour former les cartes TMaWc et TbgWc. Il convient de souligner que la transformation colorimétrique est effectuée sur des sous-régions colorimétriquement cohérentes des images TMa et Tbg. Ces sous-régions cohérentes peuvent avantageusement être comprises dans une sous-région sémantique 472 afin d'améliorer le résultat final. En outre la transformation colorimétrique prend en compte les différences de dynamique entre les sous-régions de ces espaces.
Il convient de souligner qu'une technique d'édition d'image de type « Poisson image editing » peut également être utilisée afin d'éviter des effets de seuils au niveau des contours du masque.
Ces nouvelles images TMaWc et TbgWc sont utilisées pour analyser les pixels de l'image courante / dont la couleur n'est pas déterminée par la prédiction, notamment dans les zones verres et visage, afin de détecter les reflets et modifications lumineuses et géométriques des verres TMg h ainsi que les ombres portées de la monture TMg e dans les régions associées. Cette technique permet notamment de corriger les déformations du visage dues à la correction optique des verres de la paire de lunettes 1 1 1 portée par l'utilisateur 120.
On remplit ainsi les cartes TMBg ι et TMBg e pour chaque pixel x des régions considérées, selon l mesure
Figure imgf000040_0001
avec Ωκ une sous-région colorimétriquement consistante de la région Ω =
{χ; ΓΜβα (χ) = 1} u {x; TMBbg (x) = 1} .Le seuil e est assez grand pour englober les couleurs d'aliasing et éviter les artefacts d'image de compression et du capteur. Le masque peut être ensuite dilaté en fonction de la confiance dans la connaissance de l'objet 3D et du recalage.
La figure 6d représente l'image représentée en figure 6c sur laquelle est ajoutée la carte TMBg e représentant les effets lumineux, reflets et ombres.
La carte des pixels à remplacer TMBg est l'union des cartes TMBg h TMBg e, et TMBg f , privée des pixels de la carte alpha d'occultations TBfg . TMBg = U [TMBgi, TMBge, TMBgf. } \ TBfg
La carte alpha d'occultations TBfg représente les pixels opaques de la carte d'occultations Tfg , c'est -à-dire les pixels de Tfg dont la valeur alpha est égale à 1 .
La figure 6e représente l'image représentée en figure 6d sur laquelle la carte alpha d'occultation TBfg est ajoutée.
La modification de l'aspect du masque représentant la paire de lunettes 1 1 1 est effectuée au cours de l'étape 370.
A partir de l'image 220, et de l'ensemble des masques créés, la modification de l'aspect remplace les pixels de l'image 220 correspondant au masque binaire TMBg par les valeurs adéquates qui permettent de faire disparaître ou d'appliquer un traitement sur les parties visées de la paire de lunettes 1 1 1 dans l'image 220.
Les couleurs choisies peuvent être issues des techniques suivantes ou de leurs combinaisons :
a. des couleurs de prédiction correspondant aux paramètres évalués géométrique et d'ajustement colorimétrique ;
b. des couleurs apprises statistiquement offline associées à un modèle de forme ;
c. des couleurs sans connaissance a priori qui garantissent une cohérence spatiale et une continuité des couleurs, pouvant être couplées à une connaissance de forme a priori ;
d. des couleurs statistiquement apprises pendant le procédé 300.
Dans tous les cas, une contrainte de continuité des couleurs autour des frontières du masque est intégrée de manière implicite ou explicite.
La technique privilégiée dans le présent exemple est le remplacement de couleur par prédiction, car il gère au mieux les discontinuités du modèle. Même s'il peut être sensible à une erreur d'estimation, l'ajout d'une dilatation du masque ainsi qu'une contrainte de continuité des couleurs permet de proposer des résultats de remplacement non détectables pour l'œil humain. Grâce aux cartes calculées TMaWc et TbgWc, et la carte Tfg, la totalité des pixels peuvent être remplacés dans la majorité des cas.
Une autre technique préférentielle, généralement utilisé, est une technique d'édition d'image connue sous le nom de « Poisson image editing ». Cette technique consiste à résoudre la couleur des pixels de la zone à remplacer en garantissant une continuité aux contours du masque. Il convient de souligner que cette technique change la colorimétrie tout en gardant la structure de la texture appliquée au masque. Cette texture est en effet généralement déformée, par exemple par projection afin d'obtenir une texture adaptée à l'environnement de la paire de lunettes 1 1 1 .
Il convient également de souligner que la technique d'édition d'images de type « Poisson image editing » nécessite une connaissance préalable de la texture à appliquer, contrairement à la technique d'inpainting qui permet de combler des pixels manquants à partir de pixels à proximité dans l'image.
L'image finale 210 est ensuite générée au cours de l'étape 380 du procédé
300 en aplatissant les différents calques se superposant à l'image initiale 220, à savoir à partir de l'arrière-plan :
image initiale 210 ;
premier calque comprenant le masque de la paire de lunettes 1 1 1 ;
- deuxième calque comprenant le masque d'occultations.
Ainsi l'individu 120 portant la paire de lunettes 1 1 1 voit son image sur l'écran 130, comme dans un miroir, sans la paire de lunettes 1 1 1 conservée sur le visage. Il peut alors essayer virtuellement la nouvelle paire de lunettes 1 10 qui vient se positionner sur le visage en lieu et place de la paire de lunettes 1 1 1 réelle. La paire de lunettes virtuelle 1 10 est positionnée sur le visage 121 de l'individu 120 grâce à un calque intermédiaire s'insérant entre le premier calque et le deuxième calque. Le calque intermédiaire comprend une projection d'un modèle de la paire de lunettes virtuelle 1 10 positionné de manière réaliste sur le visage 121 de l'individu 120.
Pour les détails techniques du positionnement de la paire de lunettes virtuelle 1 10 ou de la génération du calque intermédiaire, l'homme du métier peut par exemple se référer à la demande FR 10 50305 ou à la demande FR 15 51531 décrivant de manière détaillée des techniques permettant l'essayage d'une paire de lunettes virtuelle par un individu.
Autre exemple d'un mode de réalisation particulier de l'invention
La figure 7 représente un dispositif 500 d'essayage d'un objet virtuel 510 par un individu 520 portant la paire de lunettes 1 1 1 sur le visage.
Le dispositif 500 comprend un écran tactile 530 fixé verticalement sur un support 531 , une caméra 532 centrée au-dessus de l'écran 530, deux caméras périphériques 533 et une unité de traitement 534. Le dispositif 500 comprend également un dispositif de mesure 537 de la distance d'un élément par rapport à l'écran 530, comprenant un projecteur à infrarouge 535 projetant un motif et une caméra à infrarouge 536.
Le dispositif 500 comprend en outre un dispositif de modélisation 540 comprenant un plateau tournant 541 destiné à recevoir une paire de lunettes en son centre, deux caméras numériques 542 fixes, orientées vers le centre du plateau 541 et un fond uni 543 destiné à être en arrière-plan de la paire de lunettes modélisée. Le dispositif de modélisation 540 relié à l'unité de traitement 534 peut ainsi actionner le plateau tournant 541 et acquérir des images de la paire de lunettes 1 1 1 sous des angles de vues différents.
Dans une variante de ce mode de réalisation particulier de l'invention, le plateau du dispositif de modélisation 540 est fixe. Le dispositif de modélisation 540 comprend alors deux caméras numériques supplémentaires fixes orientées vers le centre du plateau. La position des deux caméras supplémentaires correspond à la rotation de 90 degrés de la position des deux caméras 542 autour de l'axe central normal au plateau.
Il convient de souligner que le dispositif de modélisation 540 effectue une calibration en acquérant pour chaque caméra 542 une image du fond uni 543 seul.
L'individu 520 retire la paire de lunettes 1 1 1 qu'il porte sur le visage et la place, branches 1 17 ouvertes, au centre du plateau tournant 541 . Afin de bien positionner la paire de lunettes 1 1 1 , des repères sont prévus sur le plateau 541 .
La première caméra 542i orientée de telle sorte que l'axe optique de la caméra 542 acquière une image de face de la paire de lunettes 1 1 1 , puis après une rotation de 90° du plateau tournant 541 une image ce côté de la paire de lunettes 1 1 1 .
Simultanément, la deuxième caméra 5422 acquière des images de la paire de lunettes 1 1 1 en vue de plongée, de 3/4 face et de 3/4 arrière. La position de la caméra 5422 est ainsi surélevée, à environ 45° par rapport au plan médian du plateau 541 .
Un modèle tridimensionnel de la paire de lunettes 1 1 1 est créé à partir des quatre images acquises de la paire de lunettes 1 1 1 et de deux images du fond.
A cet effet, la paire de lunettes 1 1 1 est segmentée dans chaque image acquise en effectuant la différence entre les images du fond et les images avec la paire de lunettes 1 1 1 , ce qui permet de créer des masques binaires des différents éléments.
Pour la modélisation, la monture 1 12 de la paire de lunettes 1 1 1 est considérée comme un assemblage de trois surfaces 3D :
- une surface représentant la face 1 12b de la paire de lunettes 1 1 1 ; et
une surface pour chaque branche 1 17 de la paire de lunettes 1 1 1 . Il convient de souligner qu'étant donné que la paire de lunettes 1 1 1 est symétrique, les deux branches 1 17 sont similaires et seul l'angle d'ouverture entre chaque branche 1 17 et la face 1 12b peut varier. Seul un modèle tridimensionnel d'une branche 1 17 est ainsi généré. Le modèle tridimensionnel de l'autre branche 1 17 est ensuite élaboré à partir du modèle de la première branche 1 17 symétriquement par rapport au plan médian principal de la première branche 1 17.
Afin d'estimer la surface 3D, un calcul de la carte de distance est effectué pour chacune des images à partir des masques extraits de la segmentation. L'estimation des paramètres de la surface 3D se fait via une minimisation respectant les critères de symétrie centrale et de continuité de la monture de la paire de lunettes 1 1 1 .
Une estimation d'un contour 2D de la face 1 12b et des branches 1 17 est effectuée à partir des masques binaires de la face 1 12b et des branches 1 17.
Le contour 2D est ensuite projeté sur la surface 3D correspondante. Une épaisseur est ajoutée à chacun des contours 2D projetés sur les surfaces pour obtenir les modèles tridimensionnels de la face 1 12b et des branches 1 17 formant le modèle tridimensionnel de la paire de lunettes 1 1 1 .
A cet effet, à partir des points des contours 2D, une triangulation de Delaunay est effectuée. Cette triangulation est utilisée sur les points de la surface 3D pour créer le modèle de la paire de lunettes 1 1 1 . Les images acquises de la paire de lunettes 1 1 1 sont appliquées en texture sur le modèle de la paire de lunettes 1 1 1 .
Il convient de souligner que des modèles statistiques 3D de chaque élément de la paire de lunettes 1 1 1 peuvent être utilisés pour le paramétrage et le maillage des surfaces 3D à partir des contours 2D.
Une image de l'individu 520 sans lunettes est acquise par la caméra 532.
A partir de l'image de l'individu 520 sans lunettes, un modèle Ma d'un avatar représentant l'individu 520 est élaboré à partir des images acquises et des mesures de la distance à l'écran des éléments de l'image, suivant le procédé d'élaboration du modèle d'avatar Ma précédemment décrit à l'étape 355 du premier exemple de mode de réalisation.
Dans des variantes de mise en œuvre de l'invention, le dispositif comprend trois caméras, par exemple une caméra centrée verticalement par rapport à l'écran et deux caméras positionnées horizontalement symétriquement de part et d'autre de la caméra centrale. Ces trois caméras permettent d'obtenir trois images de l'individu 520 avec des angles de vue différents afin d'améliorer la représentation du visage de l'individu.
Une texture aplatie du visage de l'individu 520 est extraite du modèle d'avatar Ma.
Avant d'obtenir un masque en 2D de la paire de lunettes 1 1 1 , la paire de lunettes 1 1 1 est suivie dans la séquence d'images acquises par la caméra 132 par un procédé de tracking 600 de la paire de lunettes 1 1 1 .
Le procédé de tracking 600, illustré sous la forme d'un schéma synoptique dans la figure 8, comprend une première étape 610 d'initialisation.
L'étape d'initialisation 610 permet de positionner le modèle Mg de la paire de lunettes 1 1 1 sur l'avatar Ma et d'ouvrir les branches du modèle Mg de la même manière que la paire de lunettes 1 1 1 réelle placée sur le visage de l'individu 520.
Pour cela, un premier positionnement du modèle Mg est fait en 3D sur l'avatar Ma de façon à ce que le modèle de la paire de lunettes 1 1 1 repose sur le nez et les oreilles de l'avatar. Le modèle Mg est ainsi positionné selon des paramètres de pose calculés. Les paramètres de pose comprennent l'orientation par rapport à la caméra et le grossissement à appliquer au modèle Mg pour obtenir la paire de lunettes 1 1 1 affiché à l'image.
L'avatar est positionné et orienté selon la caméra virtuelle ayant la même orientation et les mêmes paramètres optiques que la caméra 532. Pour cela, la position et l'orientation du visage sont déterminées sur chaque image par l'intermédiaire d'un procédé de tracking du visage bien connu de l'homme du métier. Le tracking du visage est basé sur le suivi de points caractéristiques du visage. Cependant, il est à souligner que les points caractéristiques masqués à l'image, notamment ceux se trouvant derrière une paire de lunettes ou derrière des verres teintés, ne sont pas pris en compte dans le tracking du visage. Une projection sur un premier calque se superposant à l'image initiale, du modèle de la paire de lunettes 1 1 1 positionné sur l'avatar permet d'obtenir un masque de la paire de lunettes 1 1 1 .
Afin d'affiner la position du masque de la paire de lunettes 1 1 1 sur le premier calque, les paramètres de pose sont calculés en minimisant une fonction de coût basée sur deux composantes :
une composante calculée en fonction des points caractéristiques du visage et du système des yeux visibles sur l'image précédente dans la séquence et en fonction d'images préalables de la séquence ; - une composante calculée en fonction des contours de la paire de lunettes
1 1 1 dans l'image et du modèle Mg de la paire de lunettes 1 1 1 préalablement synthétisé.
Après avoir initialisé le modèle Mg de la paire de lunettes 1 1 1 , le procédé de tracking 600 sélectionne, au cours d'une deuxième étape 620, l'ensemble ω des points du modèle Mg dont la normale est sensiblement perpendiculaire à l'axe formé entre le point et la caméra virtuelle.
Il convient de souligner que dans le cas où la face 1 12b de la paire de lunettes 1 1 1 est sensiblement parallèle au plan de la caméra 132, les branches 1 17 étant peu visibles, seule la face du modèle Mg est prise en compte dans le tracking de la paire de lunettes 1 1 1 .
Il convient également de souligner que dans le cas où le visage est fortement tourné, rendant peu visible la face 1 12b, seule la branche du modèle Mg est prise en compte dans le tracking de la paire de lunettes 1 1 1 .
Au cours de la troisième étape 630, le procédé de tracking 600 sélectionne un sous-échantillon de n points parmi l'ensemble ω des points du modèle Mg. La projection p2Dm=l n des n points sur l'image présentent un espacement sensiblement uniforme et régulier. Ainsi, lorsque la face 1 12b de la paire de lunettes 1 1 1 est quasiment parallèle au plan image de la caméra, le sous-échantillon comprend un nombre faible voire nul de points des branches.
Les vecteurs n2Dm=l n correspondant aux projections des normales des n points de l'ensemble ω sont calculés au cours de la quatrième étape 640. A partir des projections p2D et des vecteurs n2D , le procédé 600 effectue pour chaque indice m, une recherche du point p_gradm de l'image ayant le plus fort gradient le long de la projection p2Dm de la normale au point n2Dm.
Le procédé de tracking 600 minimise ensuite au cours de la cinquième étape 650 la fonction du calcul de la distance entre les points p2D et p_grad. Lorsque la valeur minimale est atteinte, la position du modèle Mg est considérée comme représentative de la position réelle de la paire de lunettes 1 1 1 .
Un masque couvrant la paire de lunettes 1 1 1 est créé à partir de la projection du modèle Mg sur le premier calque.
La modification de l'aspect du masque de la paire de lunettes 1 1 1 est effectuée en remplaçant la couleur de la monture 1 12 de la paire de lunettes 1 1 1 réellement portée par l'individu 520 par une nouvelle couleur.
Une régularisation de la luminosité est effectuée afin de rendre réaliste la modification de la couleur de la monture 1 12.
Ainsi, l'individu 520 voit son image à l'écran 530 avec la même paire de lunettes 1 1 1 mais comprenant une couleur différente de la monture 1 12.
Dans une variante de ce mode de mise en œuvre de l'invention, la modification de l'aspect du masque de la paire de lunettes 1 1 1 permet d'occulter la paire de lunettes 1 1 1 dans l'image finale afin que l'individu 520 portant la paire de lunettes 1 1 1 sur son visage voit son image à l'écran 530 sans la paire du lunettes 1 1 1 .
A cet effet, une génération de la représentation de l'environnement de la paire de lunettes est effectuée tel que décrit précédemment dans un autre mode de réalisation de l'invention. La projection des valeurs des textures du visage et de l'arrière-plan représentant l'environnement de la paire de lunettes 1 1 1 est ainsi effectuée et permet de remplacer chaque pixel de l'image initiale correspondant au masque de la paire de lunettes 1 1 1 par un pixel issu de la projection. Afin de rendre l'image finale réaliste, un ajustement de la colorimétrie de tout ou partie des nouveaux pixels du masque est effectué afin par exemple d'effacer d'éventuelles différences colorimétriques au niveau des bords du masque. A cet effet, une technique d'édition d'images connue sous le nom de « Poisson image editing » est utilisée. Autre exemple d'un mode de réalisation particulier de l'invention La figure 9 représente un dispositif 800 de réalité augmentée utilisée par un individu 820 portant la paire de lunettes 1 1 1 sur le visage. Dans cet exemple, la paire de lunettes 1 1 1 est montée de verres correctifs adaptés à la vue de l'individu 820.
L'individu 820 se tient face à une caméra 832 reliée à un écran 830 affichant en direct l'image de la tête 821 de l'individu 820 comme dans un miroir. L'image affichée à l'écran 830 présente la tête de l'individu 820 sans la paire de lunettes 1 1 1 sur le visage de l'individu 820. L'individu 820 peut ainsi se voir nettement sans sa paire de lunettes, comme si il portait des lentilles.
Afin d'occulter en temps réel la paire de lunettes 1 1 1 réellement porté par l'individu 820 sur chaque image, à partir d'un instant donné, de la séquence d'images, également appelé vidéo, affichée à l'écran 830, un procédé de génération d'une image finale à partir d'une image initiale est utilisée.
Au cours de ce procédé, la paire de lunettes 1 1 1 est détectée et suivie sur chaque image de la séquence d'images. Un modèle de la paire de lunettes 1 1 1 est généré et orienté d'une manière identique à la paire de lunettes 1 1 1 afin de créer un masque par projection sur un calque venant se superposer à l'image initiale.
L'aspect du masque couvrant la paire de lunettes 1 1 1 est modifié afin d'effacer à l'écran la paire de lunettes 1 1 1 portée sur le visage de l'individu.
A cet effet, une carte plane de l'environnement en arrière-plan de la paire de lunettes 1 1 1 est créée et remise à jour de manière dynamique en prenant en compte les informations acquises à chaque image de la vidéo.
Une méthode d'inpainting permet de déterminer la couleur de chaque pixel du masque de la paire de lunettes 1 1 1 en fonction d'au moins un pixel de l'image à proximité du pixel du masque.
Il convient de souligner que dans le procédé utilisé dans le présent exemple le visage est compris dans l'environnement de la paire de lunettes 1 1 1 mais n'est pas détecté pour l'élaboration de la carte représentant l'environnement. Seule la paire de lunettes 1 1 1 est détectée et suivie.
Dans des variantes de ce mode de réalisation particulier de l'invention, la présence du visage de l'individu 820 est détectée mais n'est pas suivie. Un modèle du visage est ainsi généré et positionné en rapport à la position de la paire de lunettes suivie à l'image. Le modèle du visage est utilisé en projection pour l'élaboration de la carte de l'environnement. Le modèle de visage peut également être directement utilisé par la méthode d'inpainting.
L'individu 820 peut essayer une paire de lunettes virtuelles ou un maquillage et se voir à l'écran avec. Il convient de souligner que dans le cas de l'essayage d'un objet virtuel, seul l'aspect de la partie apparente de la paire de lunettes 1 1 1 , c'est-à- dire non couverte par la projection de l'objet virtuel, peut être avantageusement modifié, permettant ainsi de gagner en temps de calcul.
Autre exemple de mode de réalisation de l'invention
La figure 1 1 représente un écran 910 affichant une vidéo 915 stockée dans une mémoire informatique ou un flux vidéo temps réel issu d'une caméra.
La vidéo 915 présente la tête d'un individu 920 portant la paire de lunettes 1 1 1 sur le visage 921 avant traitement.
La figure 12 représente l'écran 910 affichant la vidéo 915 mais dans laquelle la paire de lunettes 1 1 1 est occultée sur chaque image de la vidéo par un procédé de génération d'une image finale à partir d'une image initiale selon l'invention.
Au cours de ce procédé, le visage 921 est détecté et suivi sur chaque image de la vidéo. Sur chaque image, le procédé ajoute un calque comprenant un masque opaque couvrant la paire de lunettes 1 1 1 . Il convient de souligner que le masque est dimensionné pour couvrir la majeure partie des formes et des tailles de paires de lunettes. Le masque n'est donc pas lié à la paire de lunettes 1 1 1 qui n'est pas détectée dans le présent exemple.
Le procédé génère ainsi un calque pour chaque image, sur lequel le masque est orienté et dimensionné en relation avec le visage détecté.
Pour chaque calque, le procédé de génération applique sur le masque une texture provenant d'un modèle du visage préalablement établi sans la paire de lunettes.
Afin que l'image finale soit réaliste, le procédé comprend une technique de « relighting » de la texture du masque, permettant d'ajuster la colorimétrie de la texture à la lumière réelle éclairant le visage 921 .
Afin de permettre l'analyse des sources de lumières, des techniques bien connues en soi sont utilisées, comme par exemple la stéréophotométrie ou la technique dite « shape from shading », sur les parties du visage comme la peau qui suivent un modèle de surface pseudo-lambertien. Les sources de lumière et leurs paramètres sont alors utilisés comme source de synthèse pour le « relighting » du visage.
Des trous peuvent être établis sur chaque masque au niveau des yeux du visage 921 afin de les rendre visible sur chaque image.
II convient de souligner qu'afin que, pour des raisons de réalisme, les trous ne sont pas effectués sur le masque lorsque les yeux sont déformés optiquement par les verres de la paire de lunettes 1 1 1 ou lorsque les verres sont teintés.
Dans le cas où les trous ne sont pas effectués sur les masques, un calque comprenant des paires d'yeux resynthétisés est ajouté par-dessus le calque du masque.
L'orientation des yeux synthétisés peut avantageusement être établie à partir de l'orientation réelle des yeux détectés et suivis par des techniques bien connues de l'homme du métier.
Autres avantages et caractéristiques optionnelles de l'invention
Dans des variantes de mise en œuvre de l'invention, un objet réel à effacer de l'image peut être un chapeau, un foulard, des cheveux ou tout autre élément couvrant partiellement ou totalement un visage. Le procédé peut également s'appliquer à tout autre objet réel que l'on cherche à occulter sur une image, comme par exemple un vêtement porté par un individu.
Dans des variantes de mise en œuvre de l'invention, un objet à placer sur le visage d'un individu en remplacement de la paire de lunettes portée sur le visage est du maquillage, des bijoux voire des vêtements. Un individu portant une paire de lunettes peut ainsi essayer virtuellement un maquillage ou une tenue de soirée en enlevant à l'image la paire de lunettes portée, permettant ainsi de simuler le port de lentilles de contact. Il convient de souligner que dans le cas de l'essayage d'un vêtement porté sur le corps de l'individu, tel un costume ou une robe de soirée, un scan de la morphologie du corps de l'individu peut être utile pour obtenir un rendu réaliste du port du vêtement.
Dans des variantes de mise en œuvre de l'invention, un individu portant une paire de lunettes se voit à l'écran avec la même paire de lunettes mais avec une monture présentant une couleur, une texture et/ou des matériaux différents de ceux de la monture de la paire de lunettes réellement portée.
Dans des variantes de mise en œuvre de l'invention, un individu portant une paire de lunettes se voit à l'écran avec la même paire de lunettes mais avec des verres de teinte différente de celle des verres de la paire de lunettes réellement portée.
Dans des variantes de mise en œuvre de l'invention, un individu portant une paire de lunettes se voit à l'écran avec la même paire de lunettes mais avec des verres comportant un traitement différent de celui des verres de la paire de lunettes réellement portée. Le traitement correspond à l'ajout ou à la suppression d'un ou d'une combinaison de traitements bien connus des opticiens, comme par exemple un traitement anti-reflets ou un amincissement des verres.
Dans des variantes de mise en œuvre de l'invention, un individu portant une paire de lunettes se voit à l'écran essayer une nouvelle paire de lunettes virtuelle où les zones des verres de la paire de lunettes réelle compris à l'image à l'intérieur des cercles de la paire de lunettes virtuelle sont conservées, permettant ainsi d'augmenter le réalisme de la paire de lunettes virtuelle. En effet, en conservant une partie des verres réels, les reflets réels dus à l'environnement sont également conservés à l'image. Il convient de souligner que la couleur de la partie conservée des verres réels peut être modifiée afin d'obtenir une paire de lunettes virtuelle avec des verres teintés ou non teintés, tout en conservant les reflets réels sur les verres.
Dans des variantes de mise en œuvre de l'invention, un objet virtuel est superposé partiellement à l'objet réel à effacer de l'image et seules les parties visibles du masque correspondant de l'objet réel sont modifiées.
Dans des variantes de mise en œuvre de l'invention, l'objet réel est effacé partiellement de l'image ou majoritairement de l'image.

Claims

REVENDICATIONS
1 , Procédé de génération (300) d'une image finale (210) à partir d'une image initiale (220) comprenant un objet (1 1 1 ) apte à être porté par un individu (120 ; 520 ; 820 ; 920), caractérisé en ce qu'il comprend les étapes suivantes :
a) détection (310) de la présence dudit objet dans l'image initiale ;
a') élaboration (360) d'un masque couvrant au moins partiellement l'objet sur l'image initiale ;
b) superposition d'un premier calque sur l'image initiale, le premier calque comprenant le masque couvrant au moins partiellement l'objet sur l'image initiale ;
c) modification (370) de l'aspect d'au moins une partie du masque,
2. Procédé de génération d'une image selon la revendication 1 , caractérisé en ce que la modification de l'aspect du masque comprend une étape de remplacement de la texture d'une partie ou de la totalité de l'objet sur l'image finale.
3. Procédé de génération d'une image selon l'une quelconque des revendications 1 à 2, caractérisé en ce que la modification de l'aspect du masque comprend une étape de détermination de la texture d'une partie ou de la totalité de l'objet, la texture reproduisant les éléments en arrière-plan de l'objet afin d'occulter tout ou partie de l'objet sur l'image finale.
4. Procédé de génération d'une image selon l'une quelconque des revendications 1 à 3, caractérisé en ce que le masque couvre également tout ou partie de l'ombre portée de l'objet.
5. Procédé de génération d'une image selon l'une quelconque des revendications 1 à 4, caractérisé en ce qu'il comprend également l'étape suivante :
d) superposition d'un deuxième calque sur l'image initiale au-dessus du premier calque, le deuxième calque comprenant au moins un élément couvrant partiellement le masque.
8. Procédé de génération d'une image selon l'une quelconque des revendications 1 à 5, caractérisé en ce qu'il comprend également avant l'étape b), les étapes suivantes :
détermination de l'orientation de l'objet par rapport à un dispositif d'acquisition de l'image initiale ; détermination d'une dimension caractéristique de l'objet sur l'image initiale.
7. Procédé de génération d'une image selon la revendication 6, caractérisé en ce qu'il comprend également avant l'étape b), les étapes suivantes :
- élaboration d'un modèle tridimensionnel de l'objet ;
élaboration du masque par projection géométrique du modèle tridimensionnel sur le premier calque, le modèle ayant la même orientation et la même dimension caractéristique sur le premier calque que l'objet.
8. Procédé de génération d'une image selon la revendication 7, caractérisé en ce que l'élaboration du modèle de l'objet est effectuée à partir d'au moins une image de l'objet seul.
9. Procédé de génération d'une image selon l'une quelconque des revendications 1 à 8, caractérisé en ce que l'objet est porté sur le visage d'un individu.
10. Procédé de génération d'une image selon la revendication 9, caractérisé en ce que l'élaboration du modèle de l'objet est effectuée à partir d'au moins une image de l'objet porté sur le visage de l'individu.
1 1 . Procédé de génération d'une image selon l'une quelconque des revendications 9 à 10, caractérisé en ce que l'objet comprend une monture s'étendant de part et d'autre du visage, et au moins un verre assemblé à ladite monture.
12. Procédé de génération d'une image selon la revendication 1 1 , caractérisé en ce qu'il comprend également une étape d'identification de la monture parmi les montures préalablement modélisées et stockées dans une base de données, le masque étant élaboré à partir du modèle de la monture identifiée.
13. Procédé de génération d'une image selon la revendication 12, caractérisé en ce que l'identification de la monture est effectuée en générant des courbes de support venant s'ajuster sur les contours de la monture.
14. Procédé de génération d'une image selon l'une quelconque des revendications 12 à 13, caractérisé en ce que l'identification de la monture est basée sur au moins un des critères suivants :
- forme de la monture ;
couleur(s) de la monture ;
texture(s) de la monture ;
logo présenté par la monture.
15. Procédé de génération d'une image selon l'une quelconque des revendications 1 à 14, caractérisé en ce qu'il comprend également une étape d'élaboration d'une représentation de l'environnement de l'objet.
18. Procédé de génération d'une image selon la revendication 15, caractérisé en ce que l'étape de modification de l'aspect du masque comprend les sous-étapes suivantes :
projection géométrique de la représentation de l'environnement sur un calque intermédiaire superposé au premier calque ;
détermination de la nouvelle couleur d'un pixel du masque en fonction de la couleur d'au moins un pixel du calque intermédiaire à proximité du pixel du masque.
17. Procédé de génération d'une image selon la revendication 18, caractérisé en ce que la détermination de la nouvelle couleur met en œuvre une méthode d'édition d'image de type « Poisson image editing ».
18. Procédé de génération d'une image selon l'une quelconque des revendications 15 et 17, caractérisé en ce qu'il comprend également une étape de détection de la présence d'un visage dans l'environnement et en ce que la représentation de l'environnement comprend un modèle du visage détecté sur lequel est appliquée une texture du visage.
19. Procédé de génération d'une image selon la revendication 18, caractérisé en ce qu'il comprend également une étape de détermination de l'orientation du visage par rapport au dispositif d'acquisition et en ce que le modèle du visage est disposé sensiblement selon l'orientation préalablement établie.
20. Procédé de génération d'une image selon l'une quelconque des revendications 18 à 19, caractérisé en ce que le masque couvrant au moins partiellement l'objet porté sur le visage est élaboré à partir de la projection géométrique du modèle de visage sur le premier calque.
21 . Procédé de génération d'une image selon l'une quelconque des revendications 18 à 20, caractérisé en ce qu'il comprend également les étapes suivantes :
- analyse d'au moins une source de lumière éclairant le visage de l'individu ;
transformation colorimétrique de tout ou partie du modèle de visage.
22. Procédé de génération d'une image selon l'une quelconque des revendications 20 à 21 , caractérisé en ce que la couleur d'un pixel sur la texture du visage est déterminée par l'intermédiaire d'une méthode d'inpainting à partir des couleurs d'un patch à proximité du pixel.
23. Procédé de génération d'une image selon la revendication 22, caractérisé en ce que la position du patch est située sensiblement sur la perpendiculaire et/ou sur la verticale par rapport audit pixel.
24. Procédé de génération d'une image selon l'une quelconque des revendications 21 à 23, caractérisé en ce que la couleur d'un pixel sur la texture du visage est déterminée par l'intermédiaire d'une méthode d'inpainting à partir du modèle du visage, préalablement établi et orienté, le modèle du visage comprenant une représentation des yeux.
25. Procédé de génération d'une image selon l'une quelconque des revendications 20 à 24, caractérisé en ce qu'il comprend également une étape d'identification d'au moins une zone oculaire sur la texture du visage, la zone oculaire correspondant à la position d'un œil du visage détecté.
26. Procédé de génération d'une image selon la revendication 25, caractérisé en ce que le remplissage de la zone oculaire est effectué en connaissant la topologie de l'œil du visage détecté.
27. Procédé de génération d'une image selon l'une quelconque des revendications 15 à 17, caractérisé en ce que l'élaboration de la représentation de l'environnement de l'objet porté sur le visage d'un individu est effectuée sans détecter de visage dans l'environnement.
28. Procédé de génération d'une image selon l'une quelconque des revendications 15 à 27, caractérisé en ce que l'élaboration de la représentation de l'environnement comprend une sous-étape de correction de la déformation optique due à un élément transparent placé entre l'environnement et un dispositif d'acquisition de l'image initiale.
29. Procédé de génération d'une image selon l'une quelconque des revendications 1 à 28, caractérisé en ce qu'il est appliqué à tout ou partie d'une séquence d'images formant une vidéo.
30. Procédé de génération d'une image selon la revendication 29, caractérisé en ce que la représentation de l'environnement et/ou le modèle de l'objet sont mis à jour à chaque image de la séquence.
31 . Procédé de génération d'une image selon l'une quelconque des revendications 15 à 30, caractérisé en ce que la représentation de l'environnement et/ou le modèle de l'objet est mis à jour à partir d'une pluralité d'images initiales prises selon une pluralité d'angles de vues distincts.
32. Procédé de génération d'une image selon l'une quelconque des revendications 1 à 31 , caractérisé en ce que la génération de l'image finale est effectuée en temps réel à partir de l'image initiale.
33. Procédé de réalité augmentée destiné à être utilisé par un individu portant un dispositif portable sur le visage, caractérisé en ce qu'il comprend les étapes suivantes :
acquisition en temps réel d'une vidéo de l'individu portant le dispositif portable sur le visage ;
affichage en temps réel de la vidéo dans laquelle l'aspect du dispositif portable est totalement ou en partie modifié par le procédé de génération d'une image selon l'une quelconque des revendications 1 à 32.
34. Procédé de réalité augmentée selon la revendication 33, caractérisé en ce que le dispositif portable est totalement ou en partie occulté de la vidéo affiché en temps réel.
35. Procédé de réalité augmentée selon l'une quelconque des revendications 33 à
34, caractérisé en ce que le dispositif portable porté par l'individu comprend des verres correctifs adaptés à la vue de l'individu.
36. Procédé de réalité augmentée selon l'une quelconque des revendications 33 à
35, caractérisé en ce que l'individu portant le dispositif portable essaye un objet virtuel se superposant au moins partiellement dans la vidéo sur le dispositif portable partiellement ou totalement occulté.
37. Procédé de réalité augmentée selon l'une quelconque des revendications 33 à 36, caractérisé en ce qu'il comprend une étape d'initialisation du modèle du visage de l'individu à partir d'au moins une image de l'individu ne portant pas le dispositif portable sur le visage.
38. Procédé de réalité augmentée selon l'une quelconque des revendications 33 à
36, caractérisé en ce qu'il comprend une étape d'initialisation du modèle du visage de l'individu à partir d'une pluralité d'images de l'individu portant le dispositif portable, les images correspondant à des angles de vues différents du visage.
39. Procédé de réalité augmentée selon l'une quelconque des revendications 33 à 38, caractérisé en ce qu'il comprend une étape d'initialisation du modèle du dispositif portable à partir d'au moins une image dudit dispositif acquise dans un dispositif de modélisation dédié.
40. Procédé de réalité augmentée selon l'une quelconque des revendications 33 à 38, caractérisé en ce qu'il comprend une étape d'initialisation du modèle de dispositif portable à partir d'au moins une image de l'individu portant le dispositif portable.
41 . Dispositif (100 ; 500 ; 800) de réalité augmentée permettant l'essayage d'un objet virtuel (1 10 ; 510) par un individu (120 ; 520 ; 820 ; 920) portant un dispositif de vision (1 1 1 ), l'objet virtuel couvrant au moins partiellement le dispositif de vision, caractérisé en ce qu'il comprend :
au moins une caméra (532 ; 832) acquérant une vidéo de l'individu ; une unité de traitement (134 ; 534) de la vidéo acquise, l'unité de traitement occultant au moins partiellement sur la majorité ou la totalité des images de la vidéo le dispositif de vision par l'intermédiaire d'un procédé de génération d'une image selon l'une quelconque des revendications 3 à 32 ;
au moins un écran (130 ; 530 ; 830) affichant la vidéo traitée de l'individu.
42. Dispositif de réalité augmentée selon la revendication 41 , caractérisé en ce que l'écran est vertical et en ce que la caméra est fixée sensiblement dans le plan de l'écran.
43. Dispositif de réalité augmentée selon l'une quelconque des revendications 41 et 42, caractérisé en ce qu'il comprend deux caméras espacées, parallèlement à un bord de l'écran, d'une distance comprise entre trente et cinquante centimètres.
44. Dispositif de réalité augmentée selon la revendication 43, caractérisé en ce qu'il comprend en outre une troisième caméra sensiblement sur l'axe médian entre les deux premières caméras.
45. Dispositif de réalité augmentée selon l'une quelconque des revendications 41 à 44, caractérisé en ce que l'écran est tactile.
46. Dispositif de réalité augmentée selon l'une quelconque des revendications 41 à 45, caractérisé en ce que l'affichage de la vidéo acquise et modifiée est effectué en temps réel.
47. Dispositif de réalité augmentée selon l'une quelconque des revendications 41 à 46, caractérisé en ce qu'il comprend un dispositif d'acquisition du modèle tridimensionnel du dispositif de vision.
PCT/FR2017/051744 2016-06-30 2017-06-29 Procédé d'occultation d'un objet dans une image ou une vidéo et procédé de réalité augmentée associé WO2018002533A1 (fr)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP17742822.4A EP3479344B1 (fr) 2016-06-30 2017-06-29 Procédé d'occultation d'un objet dans une image ou une vidéo et procédé de réalité augmentée associé
JP2018569126A JP7112336B2 (ja) 2016-06-30 2017-06-29 画像又はビデオ内の物体を隠す方法及び関連する拡張現実方法
CN201780053200.5A CN109983501B (zh) 2016-06-30 2017-06-29 一种隐藏图像或视频中的对象的方法和相关的增强现实方法
KR1020197002130A KR102342982B1 (ko) 2016-06-30 2017-06-29 이미지 또는 비디오 내의 객체를 은폐하기 위한 방법 및 관련된 증강 현실 방법

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
FR1656154 2016-06-30
FR1656154A FR3053509B1 (fr) 2016-06-30 2016-06-30 Procede d’occultation d’un objet dans une image ou une video et procede de realite augmentee associe
US15/285,554 2016-10-05
US15/285,554 US9892561B2 (en) 2016-06-30 2016-10-05 Method of hiding an object in an image or video and associated augmented reality process

Publications (1)

Publication Number Publication Date
WO2018002533A1 true WO2018002533A1 (fr) 2018-01-04

Family

ID=59384195

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2017/051744 WO2018002533A1 (fr) 2016-06-30 2017-06-29 Procédé d'occultation d'un objet dans une image ou une vidéo et procédé de réalité augmentée associé

Country Status (1)

Country Link
WO (1) WO2018002533A1 (fr)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021262187A1 (fr) * 2020-06-26 2021-12-30 Hewlett-Packard Development Company, L.P. Ré-éclairage d'image de document
CN114040129A (zh) * 2021-11-30 2022-02-11 北京字节跳动网络技术有限公司 视频生成方法、装置、设备及存储介质
FR3118821A1 (fr) 2021-01-13 2022-07-15 Fittingbox Procédé de détection et de suivi dans un flux vidéo d’un visage d’un individu portant une paire de lunettes
US12020357B2 (en) 2020-10-09 2024-06-25 Swimc Llc Augmentation of digital images with simulated surface coatings

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR1050305A (fr) 1951-07-31 1954-01-06 Holophane Appareil d'éclairage direct pour sources lumineuses rectilignes
FR1551531A (fr) 1967-12-04 1968-12-27
WO2010042990A1 (fr) * 2008-10-16 2010-04-22 Seeing Machines Limited Commercialisation en ligne de produits pour le visage à l'aide d'un suivi du visage en temps réel
FR2955409A1 (fr) 2010-01-18 2011-07-22 Fittingbox Procede d'integration d'un objet virtuel dans des photographies ou video en temps reel
FR2971873A1 (fr) 2011-02-22 2012-08-24 Fittingbox Procede de detection d'un ensemble predefini de points caracteristiques d'un visage
US20150055085A1 (en) * 2013-08-22 2015-02-26 Bespoke, Inc. Method and system to create products
WO2016020921A1 (fr) * 2014-08-04 2016-02-11 Pebbles Ltd. Procédé et système pour la reconstruction de parties occultées d'un visage, dans un environnement de réalité virtuelle
WO2016050729A1 (fr) * 2014-09-30 2016-04-07 Thomson Licensing Retouche faciale à l'aide d'une déformation affine par morceaux et codage épars

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR1050305A (fr) 1951-07-31 1954-01-06 Holophane Appareil d'éclairage direct pour sources lumineuses rectilignes
FR1551531A (fr) 1967-12-04 1968-12-27
WO2010042990A1 (fr) * 2008-10-16 2010-04-22 Seeing Machines Limited Commercialisation en ligne de produits pour le visage à l'aide d'un suivi du visage en temps réel
FR2955409A1 (fr) 2010-01-18 2011-07-22 Fittingbox Procede d'integration d'un objet virtuel dans des photographies ou video en temps reel
FR2971873A1 (fr) 2011-02-22 2012-08-24 Fittingbox Procede de detection d'un ensemble predefini de points caracteristiques d'un visage
EP2678804A1 (fr) 2011-02-22 2014-01-01 Fittingbox Procédé de détection d'un ensemble prédéfini de points caractéristiques d'un visage
US20150055085A1 (en) * 2013-08-22 2015-02-26 Bespoke, Inc. Method and system to create products
WO2016020921A1 (fr) * 2014-08-04 2016-02-11 Pebbles Ltd. Procédé et système pour la reconstruction de parties occultées d'un visage, dans un environnement de réalité virtuelle
WO2016050729A1 (fr) * 2014-09-30 2016-04-07 Thomson Licensing Retouche faciale à l'aide d'une déformation affine par morceaux et codage épars

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BLANZ; VETTER, FACE RECOGNITION BASED ON FITTING A 3D MORPHABLE MODEL, 2003
CANDIDE-3 - AN UPDATED PARAMETERISED FACE, AHLBERG, TECHNICAL REPORT, 2001
PAYSAN ET AL., A 3D FACE MODEL FOR POSE AND ILLUMINATION INVARIANT FACE RÉCOGNITION, 2009
XIAO-JUN LI ET AL: "Research and Application of Online Product Display Technology Based on Augmented Reality", INFORMATION TECHNOLOGY JOURNAL, vol. 12, no. 6, January 2013 (2013-01-01), PK, pages 1134 - 1142, XP055351955, ISSN: 1812-5638, DOI: 10.3923/itj.2013.1134.1142 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021262187A1 (fr) * 2020-06-26 2021-12-30 Hewlett-Packard Development Company, L.P. Ré-éclairage d'image de document
US12020357B2 (en) 2020-10-09 2024-06-25 Swimc Llc Augmentation of digital images with simulated surface coatings
FR3118821A1 (fr) 2021-01-13 2022-07-15 Fittingbox Procédé de détection et de suivi dans un flux vidéo d’un visage d’un individu portant une paire de lunettes
WO2022153009A1 (fr) 2021-01-13 2022-07-21 Fittingbox Procédé de détection et de suivi dans un flux vidéo d'un visage d'un individu portant une paire de lunettes
CN114040129A (zh) * 2021-11-30 2022-02-11 北京字节跳动网络技术有限公司 视频生成方法、装置、设备及存储介质
CN114040129B (zh) * 2021-11-30 2023-12-05 北京字节跳动网络技术有限公司 视频生成方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
EP3479344B1 (fr) Procédé d&#39;occultation d&#39;un objet dans une image ou une vidéo et procédé de réalité augmentée associé
EP2526510B1 (fr) Procede de realité augmenté appliquée à l&#39;intégration d&#39;une paire de lunettes dans une image de visage
EP3401879B1 (fr) Procédé de modélisation d&#39;un objet tridimensionnel à partir d&#39;images bidimensionnelles de cet objet prises sous différents angles
EP3659109B1 (fr) Procédé de détermination d&#39;au moins un paramètre associé à un dispositif ophtalmique
EP2760329B1 (fr) Procede de determination de mesures oculaires et optiques
FR3067151B1 (fr) Procede d&#39;essayage virtuel realiste d&#39;une paire de lunettes par un individu
ES2742416T3 (es) Dispositivo y método de imagen corneal
CN106575450A (zh) 通过反照率模型、系统和方法的增强现实内容渲染
EP2455916A1 (fr) Interface homme-machine basée sur le suivi non-rigide
CN112509040A (zh) 对提供镜面反射和反射修改的表面进行基于图像的检测
JP2017524163A (ja) 選択された眼鏡フレームの画像データに基づいた使用者データの決定
WO2018002533A1 (fr) Procédé d&#39;occultation d&#39;un objet dans une image ou une vidéo et procédé de réalité augmentée associé
FR3066304A1 (fr) Procede de compositon d&#39;une image d&#39;un utilisateur immerge dans une scene virtuelle, dispositif, equipement terminal, systeme de realite virtuelle et programme d&#39;ordinateur associes
CN110446968A (zh) 用于确定定心参数的计算机实施的方法
US20230055013A1 (en) Accessory Detection and Determination for Avatar Enrollment
CA3204647A1 (fr) Procede de detection et de suivi dans un flux video d&#39;un visage d&#39;un individu portant une paire de lunettes
WO2020064763A1 (fr) Détermination automatique des paramètres nécessaires à la réalisation de lunettes
WO2008155489A2 (fr) Procede de synthese d&#39;une image d&#39;iris de-refractee

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17742822

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2018569126

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 20197002130

Country of ref document: KR

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 2017742822

Country of ref document: EP

Effective date: 20190130