WO2009036831A1 - Device and method for aligning a 3d object in an image corresponding to a field of view of a recording device - Google Patents
Device and method for aligning a 3d object in an image corresponding to a field of view of a recording device Download PDFInfo
- Publication number
- WO2009036831A1 WO2009036831A1 PCT/EP2008/005782 EP2008005782W WO2009036831A1 WO 2009036831 A1 WO2009036831 A1 WO 2009036831A1 EP 2008005782 W EP2008005782 W EP 2008005782W WO 2009036831 A1 WO2009036831 A1 WO 2009036831A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- image
- silhouette
- intensity
- silhouette image
- images
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/75—Determining position or orientation of objects or cameras using feature-based methods involving models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30221—Sports video; Sports image
Definitions
- the present invention relates to methods and apparatus for image analysis and synthesis, and more particularly to methods and apparatus for aligning and determining the orientation of a 3D object in an image corresponding to a field of view of a recording apparatus.
- a virtual fitting of, for example, individualized shoes u.a. used a computer-aided extension of the perception of reality, combining real images or video with virtual 3D objects represented by 3D computer graphics models.
- a recording device such as a camera
- a reproduction device for example in the form of a monitor, replaces a real mirror and outputs a horizontally rotated camera image.
- the monitor is attached in such a way that the person or body parts of it appear at least approximately at the same position where the person would expect to see them if they looked into a real mirror.
- a background of the images recorded by the recording device is separated from an image foreground and replaced by a synthetic environment.
- the position and orientation of relevant parts of the body are estimated.
- computer graphics models eg of garments
- rendering refers to the generation of a digital image from an image description.
- the object is achieved by a device according to claim 1, a method according to claim 13 and a computer program according to claim 14.
- the recognition of the present invention is that alignment of a 3D graphics object in a video image or in a video sequence can be accomplished by using both an image synthesized from the 3D graphics object and a foreground of the recorded image Video sequence silhouettes images are generated. By superimposing the individual silhouette images and determining deviations of the silhouette images from one another, a silhouette of the 3D object can be adapted to a silhouette of the real image at least in a subregion of interest. This is done according to embodiments by means of a gradient-based concept, which uses the so-called optical-flux equation.
- virtual shoes can be placed over real existing shoes, thus effecting a virtual fitting of the virtual shoes.
- a person can move freely in front of a recording device.
- a virtual fitting of other clothing or accessories, jewelry, hairstyles is of course also possible.
- the present invention provides apparatus for aligning a 3D object in a cradle image corresponding to a field of view of a cradle with means for segmenting the cradle image into foreground and background to obtain a first silhouette image, means for synthesizing a second silhouette image of the 3D object in a starting position and means for estimating alignment parameters for aligning the 3D object with the starting position based on deviations between the first and second silhouette images.
- the recording device is a camera for two-dimensional recording of video sequences with a predetermined resolution in the horizontal and vertical directions.
- the SD object in embodiments of the present invention is a 3D object of a shoe, in particular a sports shoe.
- embodiments of the present invention may serve to facilitate a virtual fitting of shoes, in particular sports shoes.
- methods for aligning the 3D object according to embodiments are implemented in such a way that they enable the alignment of the 3D object in the recorded image in real time, in order thereby to prevent a movement of a 3D object Person in front of the cradle meet.
- Real time means the time spent in the "real world".
- the two silhouette images are each filtered with a low-pass filter to make abrupt silhouette edges into linear ramps with constant To transform intensity gradients.
- An advantage of the present invention is that movement of body parts of low complexity can be estimated and transmitted to computer graphics models.
- the low complexity allows a real-time comparison of body movements and 3D object movements.
- FIG. 1 shows a schematic representation of a virtual mirror as a possible application of exemplary embodiments of the present invention
- FIG. 2 is a block diagram of an apparatus for aligning a 3D object according to an embodiment of the present invention
- 3a is a schematic representation of a silhouette image of two legs and shoes according to an embodiment of the present invention.
- 3b is a schematic representation of a vertical intensity histogram according to an embodiment of the present invention
- 3c is a schematic representation of a horizontal intensity histogram according to an embodiment of the present invention
- FIG. 4 is an illustration of a superimposition of a first silhouette image and a second silhouette image in a starting position according to an exemplary embodiment of the present invention
- FIG. 5 is a diagram for explaining a principle of alignment parameter estimation according to an embodiment of the present invention.
- FIG. 6 shows a perspective projection in which 3D coordinates of a 3D object point are projected into an image plane
- FIG. 7a, b show two examples of a shoe rendering with some removed shoe parts according to an embodiment of the present invention.
- Fig. 1 shows schematically a system 10 for the realization of a virtual mirror, in which embodiments of the present invention may find application.
- the system 10 comprises a camera 12, a device 14 for processing images recorded with the camera 12. and an output device 16 for outputting a virtual mirror image from an image recorded with the camera 12.
- the virtual mirror image is computer-aided, for example, with virtual garments, such as shoes, expanded.
- the camera 12 is directed downwardly for an application of the shoe-fitting system 10 to record the feet of a person standing on a floor 18 in front of the system 10.
- the legs of the person belonging to the foreground in the real image recorded by the camera 12 are separated in the means 14 for processing from the background of the recorded image and reproduced on the monitor 16 after the recorded image has been horizontally mirrored.
- the position of the monitor 16 and the viewing direction of the camera 12 are chosen such that an average person on the monitor 16 sees approximately the same as if they were looking at a real mirror mounted in the same position as the monitor 16 ,
- the bottom 18 in front of the camera 12 is kept green or blue to allow application of so-called chroma keying techniques to facilitate the segmentation of the foreground and background with changing lighting and any colors of clothing.
- Chroma-keying in film or television technology refers to processes which make it possible to subsequently place objects or persons in front of a background which can contain either a real film recording or a computer graphic.
- An additional light source below the camera 12 can reduce effects caused by shadows.
- image processing methods, motion tracking, rendering and computer-aided enhancement of the perception of reality are implemented.
- the processing device 14 may be a personal computer.
- the means 14 for processing includes a server that allows control of the system 10 and interfaces with a configuration database.
- the device 14 comprises, according to exemplary embodiments, a device 20 for aligning a 3D object in an image corresponding to a field of view of the camera 12, which is shown schematically in FIG. 2.
- the device 20 comprises a device 21 for segmenting the camera image 22 recorded by the camera 12 into a foreground and background in order to obtain a first silhouette image 23. Furthermore, the device 20 comprises a device for synthesizing a second silhouette image 25 of the 3D object in a starting position. The first silhouette image 23 and the second silhouette image 25 form inputs of a device 26 for estimating alignment parameters 27 for aligning the 3D object from the home position based on deviations between the first silhouette image 23 and the second silhouette image 25.
- the (calibrated) camera 12 continuously records the space in front of the system 10 and transmits the recorded camera images 22, for example with a resolution of 1024 x 768 pixels, to the means 21 for segmentation. All automatic camera controls are switched off in order to avoid unexpected behavior, for example after changing the light. To avoid interference with artificial ambient lighting, the shutter speed of the camera 12 is one with the flicker frequency ambient lighting synchronized. The exposure of the camera 12 is recalculated each time according to one embodiment, and the gain of the camera adjusted accordingly when no one is near the camera 12 to adjust the camera 12 according to changing illumination.
- An idle state of the system 10 is determined by a change detector that utilizes information about spatial-temporal variations in the video signal 22 provided by the camera 12.
- a background image is calculated in exemplary embodiments by, for example, averaging ten consecutive video images. This background image is used by the segmentation device 21 to separate the mainly green and blue background of shoes and legs in the foreground of the recorded camera image 22.
- the means 21 for segmentation is adapted to scale an image resolution of the recorded camera images 22.
- the image signal processing can take place in a so-called image pyramid.
- the recorded camera image 22 is filtered and, for example, downscaled four times in succession by a factor of 2, until a resolution of, for example, 64 ⁇ 48 pixels is achieved.
- Other scaling factors and resolutions are of course also conceivable.
- the means 21 for segmentation is adapted to separate the foreground and background of the recorded camera image 22 by first of all the background from the foreground for a downscaled image compared to the camera image 22 based on background information and knowledge of Background color and possible shadow fluxes to obtain a low-resolution silhouette image, and thus to detect silhouette edges of the first silhouette image 23 in the resolution of the camera image 22 based on the low-resolution silhouette image and the background information.
- the separation or segmentation begins, for example, with an image scaled down to 64 ⁇ 48 pixels, in which all the pixel colors of the recorded image are compared with the corresponding pixel colors of the previously calculated background image.
- RGB red green blue
- the RGB color space can be schematized in the form of a cube. This color cube is adaptively filled with the green background pixels.
- the resulting shape of the background pixels in the RGB color cube is extended by cylinder- and cone-like models. After the pixels have been classified, ie, whether they belong to foreground or background, small holes are filled and small areas are removed until only the two legs with the shoes remain. A resulting silhouette image or a segmentation mask is then passed on to higher resolution levels of the image pyramid.
- edge area means the border area between image foreground and image background.
- first and second silhouette images can refer to any image pyramid or resolution level.
- the device 21 comprises a device for determining an area in the first silhouette image 23 at which the 3D object is to be aligned.
- the means for determining the area is adapted to determine intensity distributions in the horizontal and vertical dimension in the first silhouette image in order to obtain coordinates for the starting position of the 3D object therefrom.
- horizontal and vertical intensity histograms can be calculated, which can also be used to determine if a person has entered the field of view of the camera 12.
- FIG. 3a A schematic representation of a silhouette image of two legs and shoes is shown schematically in FIG. 3a.
- FIG. 3b schematically shows a vertical intensity histogram, which results from the silhouette image according to FIG. 3a.
- Fig. 3c shows a horizontal intensity histogram resulting from the silhouette image of Fig. 3a.
- a start of intensity values at ay coordinate y.sub.i can be recognized, y.sub.i thus serving as an indication of the foot position of the feet standing at a vertical height according to this example.
- Fig. 3c From the horizontal histogram shown in Fig. 3c can be two areas X 1 - x 2 and X 3 - X 4 make up with increased intensity. These two areas correspond to the areas of both legs and feet.
- the left toe can be determined from the coordinates (X 1 , V 1 ) and the right toe can be determined from the coordinate (x 4 , Y 1 ).
- the means for determining the area is adapted according to embodiments to the coordinate Y 1 for the Starting position of the 3D object in the vertical direction from an abrupt increase in intensity or decrease in intensity in the vertical direction in a lower portion of the first silhouette image 23, and by a coordinate Xi or X 4 for the initial position of the 3D object in the horizontal direction from an abrupt increase in intensity or intensity decrease in the horizontal direction in the first silhouette image 23.
- two separate vertical histograms for the areas separated by Xi - X 2 and X 3 - X 4 can be calculated to take into account feet that are not at a common vertical height.
- Second contour images can now be placed on the output coordinates thus determined by suitably aligning 3D objects (eg, shoe models) that have been synthesized by the device 24. This situation is shown schematically in FIG.
- FIG. 4 shows a first silhouette image 23 of a shoe with a leg and a second synthesized silhouette image 25 of a 3D object (corresponding to a shoe, for example) in a starting position.
- the initial position is determined by the start coordinates determined by the histograms and an output orientation (e.g., perpendicular) of the 3D object.
- the estimation means 26 estimates the alignment parameters for the 3D object by means of a first frame image 23 corresponding to a single frame, which has been derived from a camera image 22 recorded by the camera 12.
- FIG. Fig. 5 shows a first silhouette image 23 of a leg with shoe and a second silhouette image 25 of a synthesized shoe in a starting position. Movement or alignment parameters for the 3D object of the synthesized shoe are now to be estimated in such a way that a 3D object aligned in accordance with the alignment parameters or the resulting second silhouette image 25 lies above the silhouette of the shoe of the first silhouette image 23 comes. Thereby, the synthetic shoe corresponding to the second silhouette image 25 can be overlaid with the real shoe corresponding to the first silhouette image 23, so that the impression later arises that a person wears the synthesized shoe.
- the second silhouette image 25 of the 3D object is compared with the first silhouette image 23 of the recorded image.
- All motion or orientation parameters (R x , R y , R z , t x , t y , t z ) are optimized in order to obtain as perfect a match as possible between the first and second silhouette images.
- R x , R y and R 2 are rotational angles (eg Euler angles or Euler angles) and t x , t y and t z are components of the displacement or translation vector [t x t y t z ] ⁇ for a 3D object.
- the device 26 may be provided with texture and color information (possibly additional) to estimate the alignment parameters. That is, the device 26 for estimating the alignment parameters (R x , R y , R z , t x , t y , t z ) is formed in accordance with embodiments to provide texture information from the video image 22 or image signal processing in addition to the silhouette images 23, 25. such as detection of horizontal and / or vertical edges, to use derived image information.
- the tracking corresponds to the finding of those 3D alignment parameters (R x , R y , R z , t x , t y , t z ) that result in an optimal alignment of the two-dimensional silhouette images 23, 25 (and / or color information ) to lead.
- a complete search in six-dimensional (or for a pair of shoes in twelve-dimensional space) would be very inefficient at this point. Therefore, the alignment parameters (R x , R y , R z , t x , t y , t z ) are directly calculated according to embodiments using a gradient-based technique.
- the means 26 is adapted for estimation to filter the first and second silhouette images 23, 25 respectively with a low-pass filter in order to smooth intensity values or gray levels on the silhouette edges of the first and the second silhouette image.
- this is achieved by a two-dimensional convolution with a separable moving average filter (box filter) with a plurality of coefficients in each dimension.
- the number of coefficients in the x and y dimensions may be seven, for example, or may be chosen differently depending on the resolution level.
- This filtering operation transforms the binary silhouette edges into linear ramps with constant intensity gradients.
- the means 26 for estimating is configured to estimate the alignment parameters 27 based on deviations of intensity values from edge regions of the first and second silhouette images.
- a system of equations can be set up and solved which is based on a difference (I 2 (x, y) -I x (x, y)) formed from the first and the second silhouette image. and spatial derivatives I x ( ⁇ > y), I y ( ⁇ > y) depend on a constructive overlay formed from the first and second silhouette images and parameters defining the field of view of the capture device. This is done according to embodiments based on the optical flux equation
- I x ( x > y) has an averaged intensity gradient in the x direction
- I y (. ⁇ iy) an averaged intensity gradient in the y direction
- I 2 (x, y) - I 1 (x, y)) an intensity difference between the filtered second silhouette image 25 and the filtered first silhouette image 23
- d x , d y describe two-dimensional displacement parameters in the x and y directions.
- the two-dimensional displacement parameters d x , d y are in accordance with Eq. (2) functionally related to the motion parameters (R x , R y , R 2 , t x , t y , t z ).
- Eq. (2) information about a rigid body motion model and knowledge about parameters of the camera 12.
- Eq. (2) information for each pixel about the distance z between the camera and the associated object point of the synthesized image 25, which can be determined, for example, efficiently from the z-buffer of the graphics card.
- a camera model describes a relationship between a 3D virtual world and the camera 12 2D video images and is needed for both rendering and alignment parameter estimation.
- f x and f y denote the focal length of the camera 12 multiplied by scaling factors in the x and y directions. These scaling factors f x , f y transform the 3D object coordinates [x, y, z] ⁇ into 2D pixel coordinates X and Y. In addition, they allow the use of non-square pixel geometries.
- the two parameters Xo and Y 0 describe the center of the image and its displacement from the optical axis of the camera 12 due to an unaccurate placement of a CCD (Charge Coupled Device) sensor of the camera 12.
- the four parameters f x , f y , x o and For example, yo can be obtained from a camera calibration.
- the averaged intensity gradients I x ( x > y), I y ( ... Iy) can be determined, for example, by a constructive superimposition according to FIG.
- I x 1 ⁇ y) corresponds to the intensity gradient of the first filtered silhouette image 23 in the x direction and I y 1 (x, y) to the intensity gradient of the first filtered silhouette image 23 in the y direction. decision The same applies to I x 2 (x, y) and I y 2 (x, y) for the second filtered silhouette image 25. I 1 ⁇ y) and I 2 (x, y) respectively correspond to intensities of the first and second filtered silhouette images at the point (x, y). Of course, other pre-scripts to determine the partial intensity derivatives or intensity gradients J x (x, y), I y ( x > y) are also possible.
- Eq. (1) can be set up for each pixel (x, y) or each inter-pixel position of the silhouette images 23, 25. However, in preferred embodiments of the present invention, it is set up only for those points for which the right-hand part of Eqs. (1) is different from zero.
- the optical flow condition of Eq. (1) is based on the assumption of a relatively small movement offset between the first silhouette image 23 and the second silhouette image 25.
- a hierarchical image pyramid approach is followed. In this case, first, a rough estimate of the orientation parameter (R x, R y, R z, t x, t y, t z) based on scaled-down and low-pass filtered silhouette images where the assumption of linearity is valid for a larger image area.
- 3D computer graphics models of individualized shoes may be provided be rendered at the current image position of the real shoes, so that the person's real shoes in the field of view of the camera 12 are replaced or superimposed by the 3D computer graphics models.
- the 3D models can be individually configured by, for example, selecting a base model and then choosing between different sole types, materials and colors.
- individual embroideries e.g. Flags or text to be added.
- an individual 3D model is assembled. To do this, the geometry, texture, and colors of the 3D models are modified to represent the selected design.
- Each 3D shoe model consists of various 3D subobjects composed of triangular meshes. These 3D subobjects can be replaced to get different geometries.
- individualized textures can be selected from a database.
- the textures can be assigned colors to individualize individual parts of the shoes. In this way, a person can choose between many models and assemble a shoe according to their personal preferences.
- the 3D object or 3D objects can be used with common SD software tools at the position of real shoes and with orientation determined by the means 26 for estimation.
- a background is first rendered. This can for example consist of real and / or synthetic videos / animation or individual images. Thereafter, the original video sequence is rendered using the corresponding silhouette image sequence as the alpha channel for the RGBA texture map. The use of intermediate values of the alpha channel at the object edges may improve the embedding of the segmented video sequence in the background.
- the alpha channel ( ⁇ -channel) is an additional color channel in digital images which, in addition to the color information coded in a color space, stores the transparency or transparency of the individual pixels.
- the 3D objects are superimposed corresponding to the virtual shoes that cover the original shoes in the segmented video.
- the legs in the original 2D video should also cover some parts of the synthesized shoes.
- the Z-buffer of a graphics card can be manipulated so that all overlaps can be correctly detected and the 3D model inserted into the 2D video.
- Z-buffering is used in computer graphics to detect hidden areas in a 3D computer graphic. Through information in the Z-buffer, the procedure determines pixel by pixel, which elements of a scene must be drawn and which are hidden.
- Today's graphics cards support Z-Buffering as the standard technique for solving the visibility problem in hardware.
- the depth information of the generated pixels (the z-coordinate is stored in the so-called Z-buffer.)
- This buffer usually constructed as a two-dimensional array (with the indices X and Y), contains for each one on the screen visible point of the object a depth value If another object is to be displayed in the same pixel, the rendering algorithm compares the depth values of both objects and assigns the pixel the color value of the object closest to the observer. The depth information of the selected object is then stored in the Z-buffer and replaces the old value.
- the Z-Buffer allows the graphics card to simulate natural depth perception: a nearby object hides a distant object.
- the pixel-by-pixel depth values of the z-buffer resulting from the synthesis can be used to efficiently obtain the distance information from object points shown in Eq. (2) needed to be determined.
- FIGS. 7a and 7b show two examples of a shoe rendering with some removed shoe parts which are later covered by the legs.
- a camera 12 records a scene with a resolution of 1024 x 768 pixels. A person enters the green area 18 in front of the system 10.
- embodiments of the present invention provide a concept for real-time 3D motion tracking of objects, particularly shoes, in a virtual mirror environment. From images of a single camera 12, alignment parameters corresponding to the motion of body parts are estimated using low complexity linear optimization methods. Motion tracking is not limited to footwear models but can also be applied to other objects if a corresponding three-dimensional geometry description is available. The motion information or alignment parameters are then used to render customized athletic shoes into the real scene so that a person can observe with the new shoes.
- the methods according to the invention can be implemented in hardware or software.
- the implementation may take place on a digital storage medium, in particular a floppy disk, CD or DVD with electronic storage medium.
- nisch readable control signals that can interact with a programmable computer system so that the appropriate method is executed.
- the invention thus also consists in a computer program product on a machine-readable medium stored program code for carrying out the method according to the invention, when the computer program product runs on a computer.
- the present invention is therefore also a computer program with a program code for carrying out the method for aligning, when the computer program runs on a computer and / or microcontroller.
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Processing Or Creating Images (AREA)
Abstract
The invention relates to a device (20) for aligning a 3D object in an image corresponding to a field of view of a recording device (12), comprising a unit (21) for segmenting the image (22) into foreground and background in order to obtain a first silhouette image (23), a unit (24) for synthesizing a second silhouette image (25) of the 3D object in a starting position, and a unit (26) for estimating alignment parameters (27) for aligning the 3D object from the starting position based on variances between the first and second silhouette images.
Description
Vorrichtung und Verfahren zum Ausrichten eines 3D-Objekts in einem einem Gesichtsfeld einer Aufnahmevorrichtung entsprechenden Bild Device and method for aligning a 3D object in an image corresponding to a field of view of a recording device
Beschreibungdescription
Die vorliegende Erfindung bezieht sich auf Verfahren und Vorrichtungen zur Bild- bzw. Videoanalyse und -Synthese, insbesondere auf Verfahren und Vorrichtungen zum Ausrichten und Bestimmen der Ausrichtung eines 3D-Objekts in einem einem Gesichtsfeld einer Aufnahmevorrichtung entsprechenden Bild.The present invention relates to methods and apparatus for image analysis and synthesis, and more particularly to methods and apparatus for aligning and determining the orientation of a 3D object in an image corresponding to a field of view of a recording apparatus.
Zur virtuellen Anprobe von beispielsweise individualisier- ten Schuhen wird u.a. eine computergestützte Erweiterung der Realitätswahrnehmung eingesetzt, bei denen reale Bilder bzw. Videos mit virtuellen 3D-Objekten kombiniert werden, die von 3D-Computer-Grafik-Modellen repräsentiert werden.For a virtual fitting of, for example, individualized shoes, u.a. used a computer-aided extension of the perception of reality, combining real images or video with virtual 3D objects represented by 3D computer graphics models.
Um einer Person eine Vorstellung davon zu geben, wie ein Bekleidungsstück, z.B. ein Schuh, an ihr aussehen wird, nachdem es hergestellt worden ist, kann die Person bei bereits existierenden Systemen vor einen sogenannten virtuellen Spiegel treten. Dabei zeichnet eine Aufnahmevorrich- tung, wie z.B. eine Kamera, die Person, die spezielle Anprobeschuhe mit einem Standarddesign trägt, auf. Eine Wiedergabevorrichtung, beispielsweise in Form eines Monitors, ersetzt dabei einen realen Spiegel und gibt ein horizontal gedrehtes Kamerabild aus. Der Monitor ist derartig ange- bracht, so dass die Person bzw. Körperteile von ihr zumindest näherungsweise an der gleichen Position erscheinen, wo die Person sie zu sehen erwarten würde, wenn sie in einen realen Spiegel schauen würde. Um einen virtuellen Eindruck zu verstärken, wird ein Hintergrund der von der Aufnahme- Vorrichtung aufgezeichneten Bilder von einem Bildvordergrund getrennt und durch eine synthetische Umgebung ersetzt.
Für die virtuelle Anprobe werden Position und Orientierung von relevanten Körperteilen geschätzt. Sind diese bekannt, werden Computer-Grafik-Modelle (z.B. von Kleidungsstücken) gerendert und in die Videosequenz integriert, so dass reale Kleidungsstücke durch entsprechende virtuelle Kleidungsstücke ersetzt werden können. Rendern bezeichnet im Folgenden die Erzeugung eines digitalen Bildes aus einer Bildbeschreibung. Damit sich die Person bei der virtuellen Anprobe frei bewegen kann, ist es notwendig ihre Bewegung zu schätzen und die virtuellen Objekte bzw. Kleidungsstücke entsprechend der geschätzten Bewegung in der Videosequenz auszurichten bzw. zu orientieren.To give a person an idea of what a garment, such as a shoe, will look like after it has been made, the person in pre-existing systems can step in front of a so-called virtual mirror. In this case, a recording device, such as a camera, records the person wearing special try-on shoes with a standard design. A reproduction device, for example in the form of a monitor, replaces a real mirror and outputs a horizontally rotated camera image. The monitor is attached in such a way that the person or body parts of it appear at least approximately at the same position where the person would expect to see them if they looked into a real mirror. In order to enhance a virtual impression, a background of the images recorded by the recording device is separated from an image foreground and replaced by a synthetic environment. For the virtual fitting, the position and orientation of relevant parts of the body are estimated. Once known, computer graphics models (eg of garments) are rendered and integrated into the video sequence so that real garments can be replaced with corresponding virtual garments. In the following, rendering refers to the generation of a digital image from an image description. In order for the person to be able to move freely during the virtual fitting, it is necessary to estimate their movement and to orient or orient the virtual objects or garments according to the estimated movement in the video sequence.
Es ist die daher Aufgabe der vorliegenden Erfindung ein verbessertes Konzept zum Ausrichten eines 3D-Grafik-Objekts in einem Videobild zur Verfügung zu stellen.It is therefore the object of the present invention to provide an improved concept for aligning a 3D graphics object in a video image.
Die Aufgabe wird durch eine Vorrichtung gemäß Patentanspruch 1, ein Verfahren gemäß Patentanspruch 13 und ein Computerprogramm gemäß Patentanspruch 14 gelöst.The object is achieved by a device according to claim 1, a method according to claim 13 and a computer program according to claim 14.
Die Erkenntnis der vorliegenden Erfindung besteht darin, dass eine Ausrichtung eines 3D-Grafik-Objekts in einem Videobild bzw. in einer Videosequenz dadurch erreicht werden kann, indem sowohl von einem aus dem 3D-Grafik-Objekt synthetisierten Bild als auch von einem Vordergrund der aufgezeichneten Videosequenz Silhouettenbilder erzeugt werden. Durch Überlagern der einzelnen Silhouettenbilder und einer Bestimmung von Abweichungen der Silhouettenbilder voneinan- der kann eine Silhouette des 3D-Objekts an eine Silhouette des realen Bildes zumindest in einem interessierenden Teilbereich angepasst werden. Dies erfolgt gemäß Ausführungsbeispielen mittels eines gradientenbasierten Konzepts, welches die sogenannte Optische-Fluss-Gleichung verwendet. Da- bei wird für einen interessierenden Bereich, in dem ein erstes Silhouettenbild eines realen Bildes und ein zweites Silhouettenbild des aus dem 3D-Objekt synthetisierten Bildes aneinander angeglichen werden soll, bestimmt, wie Pixel
des synthesierten Bildes verschoben werden müssen, um einen Abgleich der jeweiligen Silhouetten in dem interessierenden Bereich zu erhalten.The recognition of the present invention is that alignment of a 3D graphics object in a video image or in a video sequence can be accomplished by using both an image synthesized from the 3D graphics object and a foreground of the recorded image Video sequence silhouettes images are generated. By superimposing the individual silhouette images and determining deviations of the silhouette images from one another, a silhouette of the 3D object can be adapted to a silhouette of the real image at least in a subregion of interest. This is done according to embodiments by means of a gradient-based concept, which uses the so-called optical-flux equation. In this case, for a region of interest in which a first silhouette image of a real image and a second silhouette image of the image synthesized from the 3D object are to be matched to each other, it is determined how pixels of the synthesized image in order to obtain an alignment of the respective silhouettes in the region of interest.
Somit können mit Ausführungsbeispielen der vorliegenden Erfindung in einem Videobild beispielsweise virtuelle Schuhe über real vorhandene Schuhe gelegt werden, um somit eine virtuelle Anprobe der virtuellen Schuhe zu bewirken. Dabei kann sich eine Person vor einer Aufnahmevorrichtung frei bewegen. Eine virtuelle Anprobe von anderen Bekleidungsgegenständen oder Accessoires, Schmuck, Frisuren ist natürlich ebenfalls möglich.Thus, with embodiments of the present invention in a video image, for example, virtual shoes can be placed over real existing shoes, thus effecting a virtual fitting of the virtual shoes. In this case, a person can move freely in front of a recording device. A virtual fitting of other clothing or accessories, jewelry, hairstyles is of course also possible.
Dazu schafft die vorliegende Erfindung eine Vorrichtung zum Ausrichten eines 3D-Objekts in einem einem Gesichtsfeld einer Aufnahmevorrichtung entsprechenden Aufnahmevorrichtungsbild, mit einer Einrichtung zum Segmentieren des Aufnahmevorrichtungsbilds in einen Vorder- und Hintergrund, um ein erstes Silhouettenbild zu erhalten, einer Einrichtung zum Synthetisieren eines zweiten Silhouettenbildes des 3D- Objekts in einer Ausgangslage und einer Einrichtung zum Schätzen von Ausrichtungsparametern zur Ausrichtung des 3D- Objekts aus der Ausgangslage basierend auf Abweichungen zwischen dem ersten und dem zweiten Silhouettenbild.To this end, the present invention provides apparatus for aligning a 3D object in a cradle image corresponding to a field of view of a cradle with means for segmenting the cradle image into foreground and background to obtain a first silhouette image, means for synthesizing a second silhouette image of the 3D object in a starting position and means for estimating alignment parameters for aligning the 3D object with the starting position based on deviations between the first and second silhouette images.
Gemäß Ausführungsbeispielen handelt es sich bei der Aufnahmevorrichtung um eine Kamera zur zweidimensionalen Aufzeichnung von Videosequenzen mit einer vorbestimmten Auflösung in horizontaler und vertikaler Richtung. Bei dem SD- Objekt handelt es sich bei Ausführungsbeispielen der vorliegenden Erfindung um ein 3D-Objekt eines Schuhs, insbesondere eines Sportschuhs. Somit können Ausführungsbeispiele der vorliegenden Erfindung dazu dienen, eine virtuelle Anprobe von Schuhen, insbesondere Sportschuhen, zu ermögli- chen. Dabei sind Verfahren zum Ausrichten des 3D-Objekts gemäß Ausführungsbeispielen derart implementiert, dass sie die Ausrichtung des 3D-Objekts in dem aufgezeichneten Bild in Echtzeit ermöglichen, um dadurch einer Bewegung einer
Person vor der Aufnahmevorrichtung gerecht zu werden. Dabei meint Echtzeit die Zeit, die Abläufe in der „realen Welt" verbrauchen.According to embodiments, the recording device is a camera for two-dimensional recording of video sequences with a predetermined resolution in the horizontal and vertical directions. The SD object in embodiments of the present invention is a 3D object of a shoe, in particular a sports shoe. Thus, embodiments of the present invention may serve to facilitate a virtual fitting of shoes, in particular sports shoes. In this case, methods for aligning the 3D object according to embodiments are implemented in such a way that they enable the alignment of the 3D object in the recorded image in real time, in order thereby to prevent a movement of a 3D object Person in front of the cradle meet. Real time means the time spent in the "real world".
Um das Ausrichten des 3D-Objekts bzw. den Abgleich des ersten und zweiten Silhouettenbildes in dem interessierenden Bildbereich möglichst zuverlässig zu gestalten, werden bei Ausführungsbeispielen der vorliegenden Erfindung die beiden Silhouettenbilder jeweils mit einem Tiefpassfilter gefil- tert, um abrupte Silhouettenkanten in lineare Rampen mit konstanten Intensitätsgradienten zu transformieren.In order to make the alignment of the 3D object or the matching of the first and second silhouette image in the image area of interest as reliable as possible, in embodiments of the present invention, the two silhouette images are each filtered with a low-pass filter to make abrupt silhouette edges into linear ramps with constant To transform intensity gradients.
Ein Vorteil der vorliegenden Erfindung besteht darin, dass eine Bewegung von Körperteilen mit geringer Komplexität ge- schätzt und auf Computer-Grafik-Modelle übertragen werden kann. Die geringe Komplexität erlaubt einen Abgleich von Körperbewegungen und 3D-Objekt-Bewegungen in Echtzeit.An advantage of the present invention is that movement of body parts of low complexity can be estimated and transmitted to computer graphics models. The low complexity allows a real-time comparison of body movements and 3D object movements.
Bevorzugte Ausführungsbeispielen der vorliegenden Erfindung werden nachfolgend bezugnehmend auf die beiliegenden Zeichnungen näher erläutert. Es zeigen:Preferred embodiments of the present invention will be explained below with reference to the accompanying drawings. Show it:
Fig. 1 eine schematische Darstellung eines virtuellen Spiegels als mögliche Anwendung von Ausführungs- beispielen der vorliegenden Erfindung;1 shows a schematic representation of a virtual mirror as a possible application of exemplary embodiments of the present invention;
Fig. 2 ein Blockdiagramm einer Vorrichtung zum Ausrichten eines 3D-Objekts gemäß einem Ausführungsbeispiel der vorliegenden Erfindung;FIG. 2 is a block diagram of an apparatus for aligning a 3D object according to an embodiment of the present invention; FIG.
Fig. 3a eine schematische Darstellung eines Silhouettenbildes von zwei Beinen und Schuhen gemäß einem Ausführungsbeispiel der vorliegenden Erfindung;3a is a schematic representation of a silhouette image of two legs and shoes according to an embodiment of the present invention;
Fig. 3b eine schematische Darstellung eines ein vertikalen Intensitäts-Histogramms gemäß einem Ausführungsbeispiel der vorliegenden Erfindung;
Fig. 3c eine schematische Darstellung eines ein horizontalen Intensitäts-Histogramms gemäß einem Ausführungsbeispiel der vorliegenden Erfindung;3b is a schematic representation of a vertical intensity histogram according to an embodiment of the present invention; 3c is a schematic representation of a horizontal intensity histogram according to an embodiment of the present invention;
Fig. 4 eine Darstellung einer Überlagerung eines ersten Silhouettenbildes und eines zweiten Silhouettenbildes in einer Ausgangslage gemäß einem Ausführungsbeispiel der vorliegenden Erfindung;4 is an illustration of a superimposition of a first silhouette image and a second silhouette image in a starting position according to an exemplary embodiment of the present invention;
Fig. 5 eine Darstellungen zur Erläuterung eines Prinzips der Ausrichtungsparameterschätzung gemäß einem Ausführungsbeispiel der vorliegenden Erfindung;5 is a diagram for explaining a principle of alignment parameter estimation according to an embodiment of the present invention;
Fig. 6 eine perspektivische Projektion, bei der 3D- Koordinaten eines 3D-Objektpunkts in eine Bildebene projiziert werden;6 shows a perspective projection in which 3D coordinates of a 3D object point are projected into an image plane;
Fig. 7a, b zwei Beispiele eines Schuh-Rendering mit einigen entfernten Schuhteilen gemäß einem Ausführungs- beispiel der vorliegenden Erfindung; und7a, b show two examples of a shoe rendering with some removed shoe parts according to an embodiment of the present invention; and
Fig. 8 Darstellungen von aufgezeichneten realen Bildern und entsprechend virtuell erweiterter Bilder mit individualisierten Schuhen.8 shows representations of recorded real images and correspondingly virtually expanded images with individualized shoes.
Bezüglich der nachfolgenden Beschreibung sollte beachtet werden, dass bei den unterschiedlichen Ausführungsbeispielen gleiche oder gleichwirkende Funktionselemente gleiche Bezugszeichen aufweisen und somit die Beschreibungen dieser Funktionselemente in den nachfolgend dargestellten Ausführungsbeispielen untereinander austauschbar sind.With regard to the following description, it should be noted that in the different embodiments, identical or equivalent functional elements have the same reference numerals and thus the descriptions of these functional elements in the embodiments illustrated below are interchangeable.
Fig. 1 zeigt schematisch ein System 10 zur Realisierung eines virtuellen Spiegels, in dem Ausführungsbeispiele der vorliegenden Erfindung Anwendung finden können.Fig. 1 shows schematically a system 10 for the realization of a virtual mirror, in which embodiments of the present invention may find application.
Das System 10 umfasst eine Kamera 12, eine Einrichtung 14 zum Verarbeiten von mit der Kamera 12 aufgezeichneten BiI-
dern und eine Ausgabeeinrichtung 16 zum Ausgeben eines virtuellen Spiegelbilds von einem mit der Kamera 12 aufgezeichneten Bild. Dabei ist das virtuelle Spiegelbild computergestützt beispielsweise um virtuelle Kleidungsstücke, wie z.B. Schuhe, erweitert.The system 10 comprises a camera 12, a device 14 for processing images recorded with the camera 12. and an output device 16 for outputting a virtual mirror image from an image recorded with the camera 12. In this case, the virtual mirror image is computer-aided, for example, with virtual garments, such as shoes, expanded.
Die Kamera 12, welche beispielsweise eine XGA (XGA = Exten- ded Graphics Array) FireWire-Kamera (FireWire = i.Link oder IEEE 1394) sein kann, ist nahe an dem Monitor 16 ange- bracht. Die Kamera 12 ist für eine Anwendung des Systems 10 zur virtuellen Anprobe von Schuhen abwärts gerichtet, um die Füße einer Person, die vor dem System 10 auf einem Boden 18 steht, aufzuzeichnen. Die Beine der Person, welche in dem von der Kamera 12 aufgezeichneten realen Bild zum Vordergrund gehören, werden in der Einrichtung 14 zum Verarbeiten von dem Hintergrund des aufgezeichneten Bildes getrennt und auf dem Monitor 16 wiedergegeben, nachdem das aufgezeichnete Bild horizontal gespiegelt wurde. Die Position des Monitors 16 und die Blickrichtung der Kamera 12 sind derart gewählt, dass eine durchschnittlich gewachsene Person auf dem Monitor 16 ungefähr das gleiche sieht, wie wenn sie in einen realen Spiegel sehen würde, der in der gleichen Position wie der Monitor 16 angebracht ist.The camera 12, which may be, for example, an XGA (XGA = Extended Graphics Array) FireWire camera (FireWire = i.Link or IEEE 1394), is mounted close to the monitor 16. The camera 12 is directed downwardly for an application of the shoe-fitting system 10 to record the feet of a person standing on a floor 18 in front of the system 10. The legs of the person belonging to the foreground in the real image recorded by the camera 12 are separated in the means 14 for processing from the background of the recorded image and reproduced on the monitor 16 after the recorded image has been horizontally mirrored. The position of the monitor 16 and the viewing direction of the camera 12 are chosen such that an average person on the monitor 16 sees approximately the same as if they were looking at a real mirror mounted in the same position as the monitor 16 ,
Der Boden 18 vor der Kamera 12 ist beispielsweise grün oder blau gehalten, um eine Anwendung von sogenannten Chroma- Keying-Techniken zu erlauben, um die Segmentierung von Bildvordergrund und Bildhintergrund mit wechselnder Beleuchtung und beliebigen Farben von Kleidungen zu erleich- tern. Als Chroma-Keying werden in der Film- bzw. Fernsehtechnik Verfahren bezeichnet, die es ermöglichen, Gegenstände oder Personen nachträglich vor einen Hintergrund zu setzen, der entweder eine reale Filmaufnahme oder eine Computergrafik enthalten kann. Eine zusätzliche Lichtquelle unterhalb der Kamera 12 kann durch Schatten hervorgerufene Effekte reduzieren.
In der Einrichtung 14 zum Verarbeiten sind Bildverarbeitungsverfahren, Bewegungsverfolgung, Rendering und computergestützte Erweiterung der Realitätswahrnehmung implementiert. Bei Ausführungsbeispielen der vorliegenden Erfindung kann es sich bei der Einrichtung 14 zum Verarbeiten beispielsweise um einen Personalcomputer handeln. Bei Ausführungsbeispielen der vorliegenden Erfindung umfasst die Einrichtung 14 zum Verarbeiten einen Server, der die Kontrolle des Systems 10 erlaubt und eine Schnittstelle mit einer Konfigurationsdatenbank umfasst.For example, the bottom 18 in front of the camera 12 is kept green or blue to allow application of so-called chroma keying techniques to facilitate the segmentation of the foreground and background with changing lighting and any colors of clothing. Chroma-keying in film or television technology refers to processes which make it possible to subsequently place objects or persons in front of a background which can contain either a real film recording or a computer graphic. An additional light source below the camera 12 can reduce effects caused by shadows. In the processing device 14, image processing methods, motion tracking, rendering and computer-aided enhancement of the perception of reality are implemented. For example, in embodiments of the present invention, the processing device 14 may be a personal computer. In embodiments of the present invention, the means 14 for processing includes a server that allows control of the system 10 and interfaces with a configuration database.
Die Einrichtung 14 umfasst gemäß Ausführungsbeispielen eine Vorrichtung 20 zum Ausrichten eines 3D-Objekts in einem einem Gesichtsfeld der Kamera 12 entsprechenden Bild, welche schematisch in Fig. 2 gezeigt ist.The device 14 comprises, according to exemplary embodiments, a device 20 for aligning a 3D object in an image corresponding to a field of view of the camera 12, which is shown schematically in FIG. 2.
Die Vorrichtung 20 umfasst eine Einrichtung 21 zum Segmentieren des von der Kamera 12 aufgezeichneten Kamerabildes 22 in einen Vorder- und Hintergrund, um ein erstes Silhou- ettenbild 23 zu erhalten. Ferner umfasst die Vorrichtung 20 eine Einrichtung zum Synthetisieren eines zweiten Silhouettenbildes 25 des 3D-Objekts in einer Ausgangslage. Das erste Silhouettenbild 23 und das zweite Silhouettenbild 25 bilden Eingänge einer Einrichtung 26 zum Schätzen von Aus- richtungsparametern 27 zur Ausrichtung des 3D-Objekts aus der Ausgangslage basierend auf Abweichungen zwischen dem ersten Silhouettenbild 23 und dem zweiten Silhouettenbild 25.The device 20 comprises a device 21 for segmenting the camera image 22 recorded by the camera 12 into a foreground and background in order to obtain a first silhouette image 23. Furthermore, the device 20 comprises a device for synthesizing a second silhouette image 25 of the 3D object in a starting position. The first silhouette image 23 and the second silhouette image 25 form inputs of a device 26 for estimating alignment parameters 27 for aligning the 3D object from the home position based on deviations between the first silhouette image 23 and the second silhouette image 25.
Die (kalibrierte) Kamera 12 zeichnet kontinuierlich den Raum vor dem System 10 auf und überträgt die aufgezeichneten Kamerabilder 22 beispielsweise mit einer Auflösung von 1024 x 768 Pixeln zu der Einrichtung 21 zum Segmentieren. Dabei sind sämtliche automatische Kamerakontrollen abge- schaltet, um ein unerwartetes Verhalten beispielsweise nach Lichtwechseln zu vermeiden. Um Interferenz mit einer künstlichen Umgebungsbeleuchtung zu vermeiden, ist die Verschlussfrequenz der Kamera 12 mit der Flimmerfrequenz einer
ümgebungsbeleuchtung synchronisiert. Die Belichtung der Kamera 12 wird gemäß einem Ausführungsbeispiel jedes Mal wieder berechnet und die Verstärkung der Kamera entsprechend nachgeregelt, wenn niemand in der Nähe der Kamera 12 ist, um die Kamera 12 entsprechend wechselnder Beleuchtung einzustellen.The (calibrated) camera 12 continuously records the space in front of the system 10 and transmits the recorded camera images 22, for example with a resolution of 1024 x 768 pixels, to the means 21 for segmentation. All automatic camera controls are switched off in order to avoid unexpected behavior, for example after changing the light. To avoid interference with artificial ambient lighting, the shutter speed of the camera 12 is one with the flicker frequency ambient lighting synchronized. The exposure of the camera 12 is recalculated each time according to one embodiment, and the gain of the camera adjusted accordingly when no one is near the camera 12 to adjust the camera 12 according to changing illumination.
Ein Leerlauf- bzw. Bereitschaftszustand des Systems 10 wird durch einen Veränderungsdetektor bestimmt, der Informatio- nen über räumlich-zeitliche Variationen in dem von der Kamera 12 gelieferten Videosignal 22 ausnutzt. Nachdem die Kamerabelichtung entsprechend einer momentanen Umgebungslichtsituation eingestellt worden ist, wird bei Ausführungsbeispielen ein Hintergrundbild berechnet, indem bei- spielsweise zehn aufeinanderfolgende Videobilder gemittelt werden. Dieses Hintergrundbild wird von der Einrichtung 21 zum Segmentieren benutzt, um den hauptsächlich grünen bzw. blauen Hintergrund von Schuhen und Beinen im Vordergrund des aufgezeichneten Kamerabildes 22 zu trennen.An idle state of the system 10 is determined by a change detector that utilizes information about spatial-temporal variations in the video signal 22 provided by the camera 12. After the camera exposure has been adjusted in accordance with a current ambient light situation, a background image is calculated in exemplary embodiments by, for example, averaging ten consecutive video images. This background image is used by the segmentation device 21 to separate the mainly green and blue background of shoes and legs in the foreground of the recorded camera image 22.
Um Echtzeitbeschränkungen Rechnung zu tragen, ist die Einrichtung 21 zum Segmentieren angepasst, um eine Bildauflösung der aufgezeichneten Kamerabilder 22 zu skalieren. Dadurch kann die Bildsignalverarbeitung in einer sogenannten Bildpyramide erfolgen. Dazu wird das aufgezeichnete Kamerabild 22 gefiltert und beispielsweise viermal hintereinander jeweils um einen Faktor 2 herunterskaliert, bis eine Auflösung von beispielsweise 64 x 48 Pixeln erreicht ist. Andere Skalierungsfaktoren und Auflösungen sind selbstverständlich ebenfalls denkbar.In order to account for real-time constraints, the means 21 for segmentation is adapted to scale an image resolution of the recorded camera images 22. As a result, the image signal processing can take place in a so-called image pyramid. For this purpose, the recorded camera image 22 is filtered and, for example, downscaled four times in succession by a factor of 2, until a resolution of, for example, 64 × 48 pixels is achieved. Other scaling factors and resolutions are of course also conceivable.
Gemäß Ausführungsbeispielen der vorliegenden Erfindung ist die Einrichtung 21 zum Segmentieren angepasst, um Vorder- und Hintergrund des aufgezeichneten Kamerabildes 22 zu trennen, indem der Hintergrund von dem Vordergrund zunächst für ein in der Auflösung gegenüber dem Kamerabild 22 herunterskalierten Bild auf Basis einer Hintergrundinformation und Kenntnis von Untergrundfarbe und möglichen Schattenein-
flüssen getrennt wird, um ein Niederauflösungssilhouetten- bild zu erhalten, und somit Silhouettenränder des ersten Silhouettenbilds 23 in der Auflösung des Kamerabilds 22 auf Basis des Niederauflösungssilhouettenbilds und der Hinter- grundinformation zu ermitteln. Das heißt die Trennung bzw. Segmentierung beginnt beispielsweise mit einem auf 64 x 48 Pixel herunterskalierten Bild, in dem sämtliche Pixelfarben des aufgezeichneten Bildes mit den entsprechenden Pixelfarben des vorher berechneten Hintergrundbildes verglichen werden. Bei der Entscheidung, ob ein Pixel zum Vordergrund oder zum Hintergrund gehört, wird gemäß Ausführungsbeispielen eine RGB-Farbtabelle (RGB = Rot Grün Blau) mit 643 Einträgen benutzt. Der RGB-Farbraum kann in Form eines Würfels schematisiert werden. Dieser Farbwürfel wird adaptiv mit den grünen Hintergrundpixeln gefüllt. Um auch Schatten und Reflexionen auf dem Boden 18 verarbeiten zu können, wird die resultierende Form der Hintergrundpixel in dem RGB- Farbwürfel durch zylinder- und konus-ähnliche Modelle erweitert. Nachdem die Pixel klassifiziert worden sind, d.h. ob sie zu Vorder- oder Hintergrund gehören, werden kleine Löcher gefüllt und kleine Gebiete entfernt bis lediglich die zwei Beine mit den Schuhen übrig bleiben. Eine daraus resultierendes Silhouettenbild bzw. eine Segmentierungsmaske wird anschließend an höhere Auflösungsstufen der Bildpy- ramide weitergegeben. Dort werden dann lediglich diejenigen Bildbereiche in Vorder- und Hintergrund segmentiert, die ihren Ursprung in Randbereichen des Silhouettenbilds des jeweils niedrigeren Auflösungsbereichs der Bildpyramide haben. Dabei meint Randbereich den Randbereich zwischen BiId- Vordergrund und Bildhintergrund. Diese Prozedur wird solange wiederholt, bis die ursprüngliche Auflösung (1024 x 768) erreicht ist, wodurch Segmentierungsmasken bzw. erste Silhouettenbilder für jede Bildpyramiden- bzw. Auflösungsstufe erhalten werden.According to embodiments of the present invention, the means 21 for segmentation is adapted to separate the foreground and background of the recorded camera image 22 by first of all the background from the foreground for a downscaled image compared to the camera image 22 based on background information and knowledge of Background color and possible shadow fluxes to obtain a low-resolution silhouette image, and thus to detect silhouette edges of the first silhouette image 23 in the resolution of the camera image 22 based on the low-resolution silhouette image and the background information. In other words, the separation or segmentation begins, for example, with an image scaled down to 64 × 48 pixels, in which all the pixel colors of the recorded image are compared with the corresponding pixel colors of the previously calculated background image. When deciding whether a pixel belongs to the foreground or the background, according to embodiments, an RGB color table (RGB = red green blue) with 64 3 entries is used. The RGB color space can be schematized in the form of a cube. This color cube is adaptively filled with the green background pixels. In order to be able to process shadows and reflections on the ground 18, the resulting shape of the background pixels in the RGB color cube is extended by cylinder- and cone-like models. After the pixels have been classified, ie, whether they belong to foreground or background, small holes are filled and small areas are removed until only the two legs with the shoes remain. A resulting silhouette image or a segmentation mask is then passed on to higher resolution levels of the image pyramid. There, only those image areas in foreground and background are then segmented, which have their origin in the peripheral areas of the silhouette image of the respectively lower resolution area of the image pyramid. In this case, edge area means the border area between image foreground and image background. This procedure is repeated until the original resolution (1024 x 768) is reached, thereby obtaining segmentation masks or first silhouette images for each image pyramid resolution level.
Aus Gründen der Übersichtlichkeit wird im Nachfolgenden lediglich von einem ersten und einem zweiten Silhouettenbild gesprochen, wobei sich das erste und zweite Silhouettenbild
auf beliebige Bildpyramiden- bzw. Auflösungsstufe beziehen kann.For the sake of clarity, only a first and a second silhouette image will be discussed below, with the first and second silhouette images can refer to any image pyramid or resolution level.
Gemäß Ausführungsbeispielen der vorliegenden Erfindung um- fasst die Einrichtung 21 eine Einrichtung zum Bestimmen eines Bereichs in dem ersten Silhouettenbild 23 an dem das 3D-Objekt ausgerichtet werden soll. Dazu ist bei Ausführungsbeispielen die Einrichtung zum Bestimmen des Bereichs angepasst, um in dem ersten Silhouettenbild Intensitätsver- teilungen in horizontaler und vertikaler Dimension zu ermitteln, um daraus Koordinaten für die Ausgangslage des 3D- Objekts zu erhalten. Dazu können horizontale und vertikale Intensitäts-Histogramme berechnet werden, die auch dazu verwendet werden können, um zu bestimmen, ob eine Person in das Gesichtsfeld der Kamera 12 getreten ist.According to exemplary embodiments of the present invention, the device 21 comprises a device for determining an area in the first silhouette image 23 at which the 3D object is to be aligned. For this purpose, in embodiments, the means for determining the area is adapted to determine intensity distributions in the horizontal and vertical dimension in the first silhouette image in order to obtain coordinates for the starting position of the 3D object therefrom. For this purpose, horizontal and vertical intensity histograms can be calculated, which can also be used to determine if a person has entered the field of view of the camera 12.
Eine schematische Darstellung eines Silhouettenbildes von zwei Beinen und Schuhen ist schematisch in Fig. 3a gezeigt. Fig. 3b zeigt schematisch ein vertikales Intensitäts- Histogramm, welches sich aus dem Silhouettenbild gemäß Fig. 3a ergibt. Demgemäss zeigt Fig. 3c ein horizontales Intensitäts-Histogramm resultierend aus dem Silhouettenbild von Fig. 3a.A schematic representation of a silhouette image of two legs and shoes is shown schematically in FIG. 3a. FIG. 3b schematically shows a vertical intensity histogram, which results from the silhouette image according to FIG. 3a. Accordingly, Fig. 3c shows a horizontal intensity histogram resulting from the silhouette image of Fig. 3a.
Aus dem in Fig. 3b dargestellten vertikalen Histogramm lässt sich ein Beginn von Intensitätswerten bei einer y- Koordinate yi erkennen, yi dient somit als Indiz für die Fußposition der auf gemäß diesem Beispiel auf einer vertikalen Höhe stehenden Füße.From the vertical histogram shown in FIG. 3b, a start of intensity values at ay coordinate y.sub.i can be recognized, y.sub.i thus serving as an indication of the foot position of the feet standing at a vertical height according to this example.
Aus dem in Fig. 3c dargestellten horizontalen Histogramm lassen sich zwei Bereiche X1 - x2 und X3 - X4 mit erhöhter Intensität ausmachen. Diese beiden Bereiche entsprechen den Bereichen der beiden Beine und Füße. Somit lässt sich aus den Koordinaten (X1, V1) die linke Fußspitze bestimmen und aus der Koordinate (x4, Y1) die rechte Fußspitze. D.h. die Einrichtung zum Bestimmen des Bereichs ist gemäß Ausführungsbeispielen angepasst, um die Koordinate Y1 für die
Ausgangslage des 3D-0bjekts in vertikaler Richtung aus einem abrupten Intensitätsanstieg oder Intensitätsabfall in vertikaler Richtung in einem unteren Bereich des ersten Silhouettenbilds 23 zu erhalten, und um eine Koordinate Xi oder X4 für die Ausgangslage des 3D-Objekts in horizontaler Richtung aus einem abrupten Intensitätsanstieg oder Intensitätsabfall in horizontaler Richtung in dem ersten Silhouettenbild 23 zu erhalten. Zur Berücksichtigung nicht auf einer gemeinsamen vertikalen Höhe stehenden Füße können al- ternativ zwei getrennte Vertikale Histogramme für die durch Xi - X2 und X3 - X4 horizontal getrennten Bereiche berechnet werden. Auf die so ermittelten Ausgangskoordinaten können nun jeweils zweite Silhouettenbilder durch geeignete Ausrichtung von 3D-Obj ekten (z.B. von Schuhmodellen) gelegt werden, die von der Einrichtung 24 synthetisiert worden sind. Dieser Sachverhalt ist schematisch in Fig. 4 gezeigt.From the horizontal histogram shown in Fig. 3c can be two areas X 1 - x 2 and X 3 - X 4 make up with increased intensity. These two areas correspond to the areas of both legs and feet. Thus, the left toe can be determined from the coordinates (X 1 , V 1 ) and the right toe can be determined from the coordinate (x 4 , Y 1 ). That is, the means for determining the area is adapted according to embodiments to the coordinate Y 1 for the Starting position of the 3D object in the vertical direction from an abrupt increase in intensity or decrease in intensity in the vertical direction in a lower portion of the first silhouette image 23, and by a coordinate Xi or X 4 for the initial position of the 3D object in the horizontal direction from an abrupt increase in intensity or intensity decrease in the horizontal direction in the first silhouette image 23. Alternatively, two separate vertical histograms for the areas separated by Xi - X 2 and X 3 - X 4 can be calculated to take into account feet that are not at a common vertical height. Second contour images can now be placed on the output coordinates thus determined by suitably aligning 3D objects (eg, shoe models) that have been synthesized by the device 24. This situation is shown schematically in FIG.
Fig. 4 zeigt ein erstes Silhouettenbild 23 von einem Schuh mit einem Bein und ein zweites synthetisiertes Silhouetten- bild 25 eines (z.B. einem Schuh entsprechenden) 3D-Objektes in einer Ausgangslage. Die Ausgangslage wird durch die mittels der Histogramme ermittelten Startkoordinaten und eine Ausgangsorientierung (z.B. senkrecht) des 3D-Objekts bestimmt.4 shows a first silhouette image 23 of a shoe with a leg and a second synthesized silhouette image 25 of a 3D object (corresponding to a shoe, for example) in a starting position. The initial position is determined by the start coordinates determined by the histograms and an output orientation (e.g., perpendicular) of the 3D object.
Die Einrichtung 26 zum Schätzen schätzt die Ausrichtungsparameter für das 3D-Objekt mittels eines einem einzigen Frame entsprechenden ersten Silhouettenbilds 23, welches von einem von der Kamera 12 aufgezeichneten Kamerabild 22 abge- leitet worden ist.The estimation means 26 estimates the alignment parameters for the 3D object by means of a first frame image 23 corresponding to a single frame, which has been derived from a camera image 22 recorded by the camera 12.
Anstatt eine bestimmte Anzahl von Merkmalspunkten in dem aufgezeichneten Kamerabild 22 zu verfolgen, wird das ganze aufgezeichnete Kamerabild 22 für eine robuste Bewegungs- bzw. Ausrichtungsparameterschätzung ausgenutzt. Das Prinzip der Ausrichtungsparameterschätzung soll im Nachfolgenden anhand von Fig. 5 kurz erläutert werden.
Fig. 5 zeigt ein erstes Silhouettenbild 23 eines Beines mit Schuh und ein zweites Silhouettenbild 25 eines synthetisierten Schuhs in einer Ausgangslage. Es sollen nun Bewe- gungs- bzw. Ausrichtungsparameter für das 3D-Objekt des synthetisierten Schuhs derart geschätzt werden, dass ein entsprechend den Ausrichtungsparametern ausgerichtetes 3D- Objekt bzw. das daraus resultierende zweite Silhouettenbild 25 über der Silhouette des Schuhs des ersten Silhouettenbildes 23 zu liegen kommt. Dadurch kann der zu dem zweiten Silhouettenbild 25 korrespondierende synthetische Schuh ü- ber den zu dem ersten Silhouettenbild 23 korrespondierenden realen Schuh gelegt werden, so dass später der Eindruck entsteht, dass eine Person den synthetisierten Schuh trägt.Rather than tracking a certain number of feature points in the captured camera image 22, the entire recorded camera image 22 is exploited for robust alignment parameter estimation. The principle of the alignment parameter estimation will be briefly explained below with reference to FIG. Fig. 5 shows a first silhouette image 23 of a leg with shoe and a second silhouette image 25 of a synthesized shoe in a starting position. Movement or alignment parameters for the 3D object of the synthesized shoe are now to be estimated in such a way that a 3D object aligned in accordance with the alignment parameters or the resulting second silhouette image 25 lies above the silhouette of the shoe of the first silhouette image 23 comes. Thereby, the synthetic shoe corresponding to the second silhouette image 25 can be overlaid with the real shoe corresponding to the first silhouette image 23, so that the impression later arises that a person wears the synthesized shoe.
Das zweite Silhouettenbild 25 des 3D-Objekts wird mit dem ersten Silhouettenbild 23 des aufgezeichneten Bildes abgeglichen. Sämtliche Bewegungs- bzw. Ausrichtungsparameter (Rx, Ry, Rz, tx, ty, tz) werden optimiert, um einen möglichst perfekten Abgleich zwischen erstem und zweitem Silhouetten- bild zu erhalten. Dabei bedeuten Rx, Ry und R2 Rotationswinkel (z.B. Eulersche Winkel bzw. Eulerwinkel) und tx, ty und tz Komponenten des Verschiebungs- oder Translationsvektors [tx ty tz]τ für ein 3D-Objekt.The second silhouette image 25 of the 3D object is compared with the first silhouette image 23 of the recorded image. All motion or orientation parameters (R x , R y , R z , t x , t y , t z ) are optimized in order to obtain as perfect a match as possible between the first and second silhouette images. Here, R x , R y and R 2 are rotational angles (eg Euler angles or Euler angles) and t x , t y and t z are components of the displacement or translation vector [t x t y t z ] τ for a 3D object.
Das Verwenden von Silhouettenbildern 23, 25 als Eingang für die Einrichtung 26 zum Schätzen der Ausrichtungsparameter führt zu robusten Resultaten für die Ausrichtungsparameter (Rx, Ry, Rz, tx, ty, tz) selbst für hochgradig spiegelnde Materialien von Bekleidungsstücken, insbesondere Sportschuhen mit eventuellen Reflektoren. Gemäß Ausführungsbeispielen können der Einrichtung 26 zum Schätzen der Ausrichtungsparameter aber auch Textur- und Farbinformationen (eventuell zusätzlich) bereitgestellt werden. D.h. die Einrichtung 26 zum Schätzen der Ausrichtungsparameter (Rx, Ry, Rz, tx, ty, tz) ist gemäß Ausführungsbeispielen ausgebildet, um zusätzlich zu den Silhouettenbildern 23, 25 Texturinformation aus dem Videobild 22 oder daraus durch Bildsignalverarbeitung,
wie z.B. Detektion horizontaler und/oder vertikaler Kanten, abgeleitete Bildinformationen zu verwenden.Using silhouette images 23, 25 as input to the alignment parameter estimator 26 results in robust results for the alignment parameters (R x , R y , R z , t x , t y , t z ) even for highly specular garment materials , in particular sports shoes with possible reflectors. However, according to embodiments, the device 26 may be provided with texture and color information (possibly additional) to estimate the alignment parameters. That is, the device 26 for estimating the alignment parameters (R x , R y , R z , t x , t y , t z ) is formed in accordance with embodiments to provide texture information from the video image 22 or image signal processing in addition to the silhouette images 23, 25. such as detection of horizontal and / or vertical edges, to use derived image information.
Die Bewegungsnachführung (Tracking) entspricht dem Auffin- den derjenigen 3D-Ausrichtungsparameter (Rx, Ry, Rz, tx, ty, tz) , die zu einem optimalen Abgleich der zweidimensionalen Silhouettenbilder 23, 25 (und/oder Farbinformationen) führen. Eine komplette Suche im sechs-dimensionalen (bzw. für ein Paar Schuhe im zwölf-dimensionalen Raum) wäre an dieser Stelle sehr ineffizient. Daher werden die Ausrichtungsparameter (Rx, Ry, Rz, tx, ty, tz) gemäß Ausführungsbeispielen mittels einer gradienten-basierten Technik direkt berechnet.The tracking corresponds to the finding of those 3D alignment parameters (R x , R y , R z , t x , t y , t z ) that result in an optimal alignment of the two-dimensional silhouette images 23, 25 (and / or color information ) to lead. A complete search in six-dimensional (or for a pair of shoes in twelve-dimensional space) would be very inefficient at this point. Therefore, the alignment parameters (R x , R y , R z , t x , t y , t z ) are directly calculated according to embodiments using a gradient-based technique.
Dafür ist die Einrichtung 26 zum Schätzen angepasst, um das erste und zweite Silhouettenbild 23, 25 jeweils mit einem Tiefpassfilter zu filtern, um Intensitätswerte bzw. Graustufen an den Silhouettenrändern des ersten und des zweiten Silhouettenbilds zu glätten. Gemäß Ausführungsbeispielen wird dies durch eine zweidimensionale Faltung mit einem se- parablen gleitenden Mittelwertfilter (Box-Filter) mit einer Mehrzahl von Koeffizienten in jeder Dimension erreicht. Dabei kann die Anzahl der Koeffizienten in x- und y-Dimension beispielsweise jeweils sieben betragen oder je nach Auflö- sungsstufe unterschiedlich gewählt sein. Diese Filteroperation transformiert die binären Silhouettenkanten in lineare Rampen mit konstanten Intensitätsgradienten. Je näher ein Pixel einem Silhouettenobjekt also ist, desto höher ist der entsprechende Intensitätswert I(x,y) des Pixels an der Stelle (x,y) .For this, the means 26 is adapted for estimation to filter the first and second silhouette images 23, 25 respectively with a low-pass filter in order to smooth intensity values or gray levels on the silhouette edges of the first and the second silhouette image. According to embodiments, this is achieved by a two-dimensional convolution with a separable moving average filter (box filter) with a plurality of coefficients in each dimension. The number of coefficients in the x and y dimensions may be seven, for example, or may be chosen differently depending on the resolution level. This filtering operation transforms the binary silhouette edges into linear ramps with constant intensity gradients. Thus, the closer a pixel is to a silhouette object, the higher the corresponding intensity value I (x, y) of the pixel at the location (x, y).
Gemäß Ausführungsbeispielen ist die Einrichtung 26 zum Schätzen ausgebildet, um die Ausrichtungsparameter 27 basierend auf Abweichungen von Intensitätswerten von Randbe- reichen des ersten und des zweiten Silhouettenbildes zu schätzen. Dazu kann ein Gleichungssystem aufgestellt und gelöst werden, das von einer aus dem ersten und dem zweiten Silhouettenbild gebildeten Differenz (I2(x,y) - Ix(x,y))
und räumlichen Ableitungen Ix(χ>y) , Iy(χ>y) einer aus dem ersten und dem zweiten Silhouettenbild gebildeten konstruktiven Überlagerung und Parametern, die das Gesichtsfeld der Aufnahmevorrichtung definieren, abhängt. Dies erfolgt gemäß Ausführungsbeispielen auf Basis der optischen Fluss- GleichungAccording to embodiments, the means 26 for estimating is configured to estimate the alignment parameters 27 based on deviations of intensity values from edge regions of the first and second silhouette images. For this purpose, a system of equations can be set up and solved which is based on a difference (I 2 (x, y) -I x (x, y)) formed from the first and the second silhouette image. and spatial derivatives I x ( χ > y), I y ( χ > y) depend on a constructive overlay formed from the first and second silhouette images and parameters defining the field of view of the capture device. This is done according to embodiments based on the optical flux equation
l(x,y)-dx+ϊy(x,y)-dy=I\x,y)-r(x,y) (1) und
l (x, y) -d x + y (x, y) -d y = I \ x, y) -r (x, y) (1) and
wobei Ix(x>y) einen gemittelten Intensitätsgradienten in x- Richtung, Iy(.χiy) einen gemittelten Intensitätsgradienten in y-Richtung, (I2(x,y) - I1(x,y)) eine Intensitätsdifferenz zwischen dem gefilterten zweiten Silhouettenbild 25 und dem gefilterten ersten Silhouettenbild 23 und dx, dy zweidimensionale Verschiebungsparameter in x- und y-Richtung beschreiben. Die zweidimensionalen Verschiebungsparameter dx, dy stehen gemäß Gl. (2) in funktionalem Zusammenhang mit den Bewegungsparametern (Rx, Ry, R2, tx, ty, tz) . Dabei beruht Gl. (2) auf Informationen über ein starres Körperbewegungsmodell und auf Wissen über Parameter der Kamera 12. Darüber hinaus benutzt Gl. (2) noch für jeden Bildpunkt Informatio- nen über die Entfernung z zwischen Kamera und zugehörigem Objektpunkt des synthetisierten Bildes 25, die beispielsweise effizient aus dem z-Puffer der Graphikkarte bestimmt werden können.where I x ( x > y) has an averaged intensity gradient in the x direction, I y (. χ iy) an averaged intensity gradient in the y direction, (I 2 (x, y) - I 1 (x, y)) an intensity difference between the filtered second silhouette image 25 and the filtered first silhouette image 23, and d x , d y describe two-dimensional displacement parameters in the x and y directions. The two-dimensional displacement parameters d x , d y are in accordance with Eq. (2) functionally related to the motion parameters (R x , R y , R 2 , t x , t y , t z ). Eq. (2) information about a rigid body motion model and knowledge about parameters of the camera 12. In addition, Eq. (2) information for each pixel about the distance z between the camera and the associated object point of the synthesized image 25, which can be determined, for example, efficiently from the z-buffer of the graphics card.
Ein Kamera-Modell beschreibt einen Zusammenhang zwischen einer virtuellen 3D-WeIt und den 2D-Videobildern der Kamera 12 und wird sowohl für das Rendern als auch die Ausrichtungsparameterschätzung benötigt. Eine perspektivische Projektion, bei der 3D-Koordinaten eines 3D-Objektpunkts [x, y, z]τ in eine Bildebene 60 projiziert werden, ist exemplarisch in Fig. 6 gezeigt.A camera model describes a relationship between a 3D virtual world and the camera 12 2D video images and is needed for both rendering and alignment parameter estimation. A perspective projection, in which 3D coordinates of a 3D object point [x, y, z] τ are projected into an image plane 60, is shown by way of example in FIG.
Die 3D-Koordinaten [x, y, z]τ werden gemäß
X = X0 - Zx ^The 3D coordinates [x, y, z] τ are calculated according to X = X 0 - Z x ^
in die Bildebene 60 projiziert. Dabei bedeuten fx und fy die Brennweite der Kamera 12 multipliziert mit Skalierungsfaktoren in x- und y-Richtung. Diese Skalierungsfaktoren fx, fy transformieren die 3D-Objektkoordinaten [x, y, z]τ in 2D-Pixel-Koordinaten X und Y. Zusätzlich erlauben sie die Benutzung von nicht-quadratischen Pixelgeometrien. Die zwei Parameter Xo und Y0 beschreiben den Bildmittelpunkt und seine Verschiebung von der optischen Achse der Kamera 12 aufgrund einer unakkuraten Platzierung eines CCD-Sensors (CCD = Charge Coupled Device) der Kamera 12. Die vier Parameter fx, fy, Xo und Yo können beispielsweise aus einer Kamerakalibrierung erhalten werden.projected into the image plane 60. In this case, f x and f y denote the focal length of the camera 12 multiplied by scaling factors in the x and y directions. These scaling factors f x , f y transform the 3D object coordinates [x, y, z] τ into 2D pixel coordinates X and Y. In addition, they allow the use of non-square pixel geometries. The two parameters Xo and Y 0 describe the center of the image and its displacement from the optical axis of the camera 12 due to an unaccurate placement of a CCD (Charge Coupled Device) sensor of the camera 12. The four parameters f x , f y , x o and For example, yo can be obtained from a camera calibration.
Die gemittelten Intensitätsgradienten Ix(x>y) , Iy(.χiy) können beispielsweise durch eine konstruktive Überlagerung gemäßThe averaged intensity gradients I x ( x > y), I y ( ... Iy) can be determined, for example, by a constructive superimposition according to FIG
•~ 2 (i = x'^) ' (4) • ~ 2 (i = x '^ ) ' (4)
erhalten werden, wobei Ix n(x,y) (n=l,2) beispielsweise ge- maß
For example, where I x n (x, y) (n = 1, 2) is measured, for example
und Iy n(x,y) (n=l,2) beispielsweise gemäß r(xj) (/'(χ,y)-/'(χ,y-i))+(/'(χ-i,y)-/-(χ-i,y-i))and I y n (x, y) (n = 1, 2), for example, according to r (xj) (/ '( χ , y) - /' ( χ , yi)) + (/ '( χ -i, y) - / - ( χ -i, yi))
(6)(6)
bestimmt werden kann. Dabei entspricht Ix 1^y) dem Intensitätsgradienten des ersten gefilterten Silhouettenbilds 23 in x-Richtung und Iy 1(x,y) dem Intensitätsgradienten des ersten gefilterten Silhouettenbilds 23 in y-Richtung. Ent-
sprechendes gilt für Ix 2(x,y) und Iy 2(x,y) für das zweite gefilterte Silhouettenbild 25. I1^y) und I2(x,y) entsprechen jeweils Intensitäten des ersten und des zweiten gefilterten Silhouettenbilds an der Stelle (x,y). Andere Vor- Schriften um die partiellen Intensitätsableitungen bzw. Intensitätsgradienten Jx(x,y) , Iy(x>y) zu bestimmen sind natürlich ebenfalls möglich.can be determined. Here, I x 1 ^ y) corresponds to the intensity gradient of the first filtered silhouette image 23 in the x direction and I y 1 (x, y) to the intensity gradient of the first filtered silhouette image 23 in the y direction. decision The same applies to I x 2 (x, y) and I y 2 (x, y) for the second filtered silhouette image 25. I 1 ^ y) and I 2 (x, y) respectively correspond to intensities of the first and second filtered silhouette images at the point (x, y). Of course, other pre-scripts to determine the partial intensity derivatives or intensity gradients J x (x, y), I y ( x > y) are also possible.
Gl. (1) kann für jeden Pixel (x,y) oder jede Zwischenpixel- position der Silhouettenbilder 23, 25 aufgestellt werden. Bei bevorzugten Ausführungsformeln der vorliegenden Erfindung wird sie jedoch nur für diejenigen Punkte aufgestellt, für die der rechte Teil der Gl. (1) verschieden von Null ist.Eq. (1) can be set up for each pixel (x, y) or each inter-pixel position of the silhouette images 23, 25. However, in preferred embodiments of the present invention, it is set up only for those points for which the right-hand part of Eqs. (1) is different from zero.
Eine Kombination aus Gl. (1) und Gl. (2) ähnlich zu P. Ei- sert und B. Girod, „Analyzing facial expressions for Virtual conferencing", IEEE Computer Graphics and Applications, pp. 70-78, Sep. 1998, stellt eine weitere Gleichung für je- den Pixel (x,y), für den der rechte Teil der Gl. (1) verschieden von Null ist, nahe der Silhouettenkanten der Silhouettenbilder 23, 25 bereit. Dadurch wird ein überbestimmtes lineares Gleichungssystem erhalten, welches effizient nach dem Least-Squares-Ansatz gelöst werden kann, um die Ausrichtungsparameter (Rx, Ry, R2, tx, ty, t2) zu erhalten. Verbleibende Fehler in dem Ausrichtungsparametersatz (Rx, Ry, Rz, tx, ty, tz) können beispielsweise behoben werden, indem die Bewegungsnachführung iterativ angewandt wird.A combination of Eq. (1) and Eq. (2) Similar to P. Eissert and B. Girod, "Analyzing facial expressions for Virtual Conferencing", IEEE Computer Graphics and Applications, pp. 70-78, Sep. 1998, presents another equation for each pixel ( x, y) for which the right part of Eqn. (1) is different from zero, near the silhouette edges of the silhouette images 23, 25. Thus, an overdetermined linear system of equations which are efficiently solved by the least squares approach is obtained to obtain the alignment parameters (R x , R y , R 2 , t x , t y , t 2 ). Remaining errors in the alignment parameter set (R x , Ry, R z , t x , t y , t z ) can be obtained For example, the motion tracking is iteratively applied.
Die optische-Fluss-Bedingung der Gl. (1) basiert auf der Annahme eines relativ kleinen Bewegungsversatzes zwischen dem erstem Silhouettenbild 23 und dem zweitem Silhouettenbild 25. Um diese Limitierung zu überwinden, wird, wie im vorhergehenden bereits beschrieben wurde, gemäß Ausfüh- rungsbeispielen ein hierarchischer bzw. Bildpyramidenansatz verfolgt. Dabei wird zuerst eine Grobschätzung der Ausrichtungsparameter (Rx, Ry, Rz, tx, ty, tz) basierend auf herunterskalierten und tiefpassgefilterten Silhouettenbildern
bestimmt, wobei die Annahme der Linearität hier für einen größeren Bildbereich gültig ist. Die AusrichtungsparameterThe optical flow condition of Eq. (1) is based on the assumption of a relatively small movement offset between the first silhouette image 23 and the second silhouette image 25. To overcome this limitation, as already described above, according to embodiments, a hierarchical image pyramid approach is followed. In this case, first, a rough estimate of the orientation parameter (R x, R y, R z, t x, t y, t z) based on scaled-down and low-pass filtered silhouette images where the assumption of linearity is valid for a larger image area. The alignment parameters
(Rx, Ry, R2, tx, ty/ tz) für das 3D-0bjekt werden geschätzt und verbleibende Fehler werden basierend auf Silhouetten- bildern 23, 25 mit höherer Auflösung reduziert.(R x , R y , R 2 , t x , t y / t z ) for the 3D object are estimated and remaining errors are reduced based on higher resolution silhouette images 23, 25.
Wurden die Ausrichtungsparameter (Rx, Ry, Rz, tx, ty, tz) zur Ausrichtung des 3D-Objekts, beispielsweise für jeden einzelnen eines Paars Schuhe, bestimmt, können 3D-Computer- Grafik-Modelle von individualisierten Schuhen an der momentanen Bildposition der realen Schuhe gerendert werden, so dass die realen Schuhe der Person im Gesichtsfeld der Kamera 12 durch die 3D-Computer-Grafik-Modelle ersetzt bzw. ü- berlagert werden.If the alignment parameters (R x , R y , R z , t x , t y , t z ) have been determined to align the 3D object, for example, for each one of a pair of shoes, 3D computer graphics models of individualized shoes may be provided be rendered at the current image position of the real shoes, so that the person's real shoes in the field of view of the camera 12 are replaced or superimposed by the 3D computer graphics models.
Die 3D-Modelle können individuell konfiguriert werden, indem beispielsweise ein Basismodell ausgewählt wird und anschließend zwischen verschiedenen Sohlentypen, Materialien und Farben gewählt wird. Zusätzlich können individuelle Stickereien, wie z.B. Flaggen oder Text hinzugefügt werden. Ausgehend von diesen Konfigurationsdaten wird ein individuelles 3D-Modell zusammengesetzt. Dazu werden Geometrie, Textur und Farben der 3D-Modelle modifiziert, um das ausgewählte Design zu repräsentieren. Jedes 3D-Schuhmodell be- steht aus verschiedenen 3D-Subobjekten, die aus Dreiecks- Gitternetzen zusammengesetzt sind. Diese 3D-Subobjekte können ersetzt werden, um verschiedene Geometrien zu erhalten.The 3D models can be individually configured by, for example, selecting a base model and then choosing between different sole types, materials and colors. In addition, individual embroideries, e.g. Flags or text to be added. Based on these configuration data, an individual 3D model is assembled. To do this, the geometry, texture, and colors of the 3D models are modified to represent the selected design. Each 3D shoe model consists of various 3D subobjects composed of triangular meshes. These 3D subobjects can be replaced to get different geometries.
Zur Modellierung von verschiedenen Oberflächenmaterialien können individualisierte Texturen aus einer Datenbank gewählt werden. Zusätzlich können den Texturen Farben zugeordnet werden, um einzelne Teile der Schuhe zu individualisieren. Auf diese Art und Weise kann eine Person zwischen vielen Modellen wählen und einen Schuh gemäß ihren persön- liehen Vorlieben zusammenstellen.To model different surface materials, individualized textures can be selected from a database. In addition, the textures can be assigned colors to individualize individual parts of the shoes. In this way, a person can choose between many models and assemble a shoe according to their personal preferences.
Das 3D-Objekt bzw. die 3D-Objekte können mit gängigen SD- Software-Tools an der Position der realen Schuhe und mit
der Orientierung, die von der Einrichtung 26 zum Schätzen ermittelt wurden, gerendert werden. In dem Rendering- und computergestützten Realitätswahrnehmungserweiterungsprozess wird zuerst ein Hintergrund gerendert. Dieser kann bei- spielsweise aus realen und/oder synthetischen Videos/Animation oder Einzelbildern bestehen. Danach wird die ursprüngliche Videosequenz gerendert, indem die entsprechende Silhouettenbildsequenz als Alphakanal für die RGBA- Texturkarte benutzt wird. Die Verwendung von Zwischenwerten des Alphakanals an den Objekträndern kann das Einbetten der segmentierten Videosequenz in den Hintergrund verbessern. Der Alphakanal (α-Kanal) ist ein zusätzlicher Farbkanal in digitalen Bildern, der zusätzlich zu den in einem Farbraum kodierten Farbinformationen die Transparenz bzw. Durchsich- tigkeit der einzelnen Bildpunkte speichert. Schließlich werden die 3D-Objekte entsprechend den virtuellen Schuhen, die die Originalschuhe in dem segmentierten Video überdecken, überlagert.The 3D object or 3D objects can be used with common SD software tools at the position of real shoes and with orientation determined by the means 26 for estimation. In the rendering and computerized reality perception enhancement process, a background is first rendered. This can for example consist of real and / or synthetic videos / animation or individual images. Thereafter, the original video sequence is rendered using the corresponding silhouette image sequence as the alpha channel for the RGBA texture map. The use of intermediate values of the alpha channel at the object edges may improve the embedding of the segmented video sequence in the background. The alpha channel (α-channel) is an additional color channel in digital images which, in addition to the color information coded in a color space, stores the transparency or transparency of the individual pixels. Finally, the 3D objects are superimposed corresponding to the virtual shoes that cover the original shoes in the segmented video.
Jedoch sollten die Beine in dem ursprünglichen 2D-Video e- benfalls einige Teile der synthetisierten Schuhe, überdecken. Indem ein transparentes, nicht sichtbares Beinmodell hinzugeführt wird, kann der Z-Puffer einer Grafik-Karte derart manipuliert werden, dass sämtliche Überdeckungen korrekt erkannt werden und das 3D-Modell in das 2D-Video eingesetzt werden kann. Z-Pufferung wird in der Computergrafik angewendet, um verdeckte Flächen in einer 3D- Computergrafik zu ermitteln. Durch Informationen im Z- Puffer stellt das Verfahren pixelweise fest, welche Elemen- te einer Szene gezeichnet werden müssen und welche verdeckt sind. Heutige Grafikkarten unterstützen Z-Buffering als Standardverfahren zur Lösung des Sichtbarkeitsproblems in Hardware. Wenn ein Objekt von einer 3D-Grafikkarte gerendert wird, wird die Tiefeninformation der erzeugten Pixel (die z-Koordinate im so genannten Z-Buffer abgelegt. Dieser Puffer, gewöhnlich als zweidimensionales Array (mit den Indizes X und Y) aufgebaut, enthält für jeden auf dem Bildschirm sichtbaren Punkt des Objekts einen Tiefenwert. Wenn
ein anderes Objekt im selben Pixel dargestellt werden soll, vergleicht der Renderalgorithmus die Tiefenwerte beider Objekte und weist dem Pixel den Farbwert des Objekts zu, das dem Beobachter am nächsten liegt. Die Tiefeninformation des ausgewählten Objekts wird dann im Z-Buffer gespeichert und ersetzt den alten Wert. Durch den Z-Buffer kann die Grafikkarte die natürliche Tiefenwahrnehmung nachbilden: ein nahe gelegenes Objekt verdeckt ein fernes Objekt. Darüber hinaus können die bei der Synthetisierung entstehenden pixelweisen Tiefenwerte des z-Puffers verwendet werden, um effizient die Entfernungsinformation von Objektpunkten, die in Gl. (2) benötigt werden, zu ermitteln.However, the legs in the original 2D video should also cover some parts of the synthesized shoes. By adding a transparent, invisible leg model, the Z-buffer of a graphics card can be manipulated so that all overlaps can be correctly detected and the 3D model inserted into the 2D video. Z-buffering is used in computer graphics to detect hidden areas in a 3D computer graphic. Through information in the Z-buffer, the procedure determines pixel by pixel, which elements of a scene must be drawn and which are hidden. Today's graphics cards support Z-Buffering as the standard technique for solving the visibility problem in hardware. When an object is rendered by a 3D graphics card, the depth information of the generated pixels (the z-coordinate is stored in the so-called Z-buffer.) This buffer, usually constructed as a two-dimensional array (with the indices X and Y), contains for each one on the screen visible point of the object a depth value If another object is to be displayed in the same pixel, the rendering algorithm compares the depth values of both objects and assigns the pixel the color value of the object closest to the observer. The depth information of the selected object is then stored in the Z-buffer and replaces the old value. The Z-Buffer allows the graphics card to simulate natural depth perception: a nearby object hides a distant object. Moreover, the pixel-by-pixel depth values of the z-buffer resulting from the synthesis can be used to efficiently obtain the distance information from object points shown in Eq. (2) needed to be determined.
Dazu zeigen die Fig. 7a und 7b zwei Beispiele eines Schuh- Renderings mit einigen entfernten Schuhteilen, die später von den Beinen überdeckt werden.For this purpose, FIGS. 7a and 7b show two examples of a shoe rendering with some removed shoe parts which are later covered by the legs.
Im Nachfolgenden werden einige Ergebnisse des Schätzens der Ausrichtungsparameter 27 und des Renderings präsentiert. Dazu wurden vier verschiedene Schuhmodelle konfiguriert und das virtuelle Spiegelsystem 10 gestartet.In the following some results of the estimation of the alignment parameters 27 and the rendering are presented. For this purpose, four different shoe models were configured and the virtual mirror system 10 was started.
Eine Kamera 12 zeichnet eine Szene mit einer Auflösung von 1024 x 768 Pixeln auf. Eine Person betritt den grünen bzw. blauen Bereich 18 vor dem System 10.A camera 12 records a scene with a resolution of 1024 x 768 pixels. A person enters the green area 18 in front of the system 10.
In allen Fällen, wurden die Schuhe korrekt detektiert, segmentiert und in ihrer Bewegung verfolgt. Dazu zeigt Fig. 8 verschiedene Beispiele einer Ausgabe des virtuellen Spie- gelsystems. Die obere Bildreihe zeigt einige Bilder aus der ursprünglichen Szene, die mit der Kamera 12 festgehalten wurden. Die zu diesen Bildern korrespondierenden Resultate, die auf dem Monitor 16 ausgegeben wurden, sind in der unteren Bildreihe dargestellt. Es lässt sich erkennen, dass die 3D-Computer-Modelle der 3D-Bewegung der Originalschuhe korrekt folgen - selbst für ziemlich extreme Fußpositionen.
Da das gesamte System sich wie ein realer Spiegel verhalten soll, wird Echtzeit-Signalverarbeitung benötigt. Alle Algorithmen sind deshalb im Hinblick auf Geschwindigkeit optimiert. Bildverarbeitungs-Algorithmen werden in einer BiId- pyramide verwendet und die Bewegungsnachführung wird ebenfalls mit einer niedrigeren Auflösung berechnet.In all cases, the shoes were correctly detected, segmented and tracked in their motion. 8 shows various examples of an output of the virtual mirror system. The upper row of pictures shows some pictures from the original scene, which were captured with the camera 12. The results corresponding to these images, which were output on the monitor 16, are shown in the lower image row. It can be seen that the 3D computer models correctly follow the 3D movement of the original shoes - even for fairly extreme foot positions. Since the entire system should behave like a real mirror, real-time signal processing is needed. All algorithms are therefore optimized in terms of speed. Image processing algorithms are used in a bi-pyramid, and motion tracking is also calculated at a lower resolution.
Zusammenfassend schaffen Ausführungsbeispiele der vorliegenden Erfindung ein Konzept zur Echtzeit-3D- Bewegungsverfolgung von Objekten, insbesondere Schuhen, in einer virtuellen Spiegelumgebung. Von Bildern einer einzelnen Kamera 12 werden Ausrichtungsparameter entsprechend der Bewegung von Körperteilen mittels linearer Optimierungsmethoden niedriger Komplexität geschätzt. Die Bewegungsnach- führung ist dabei nicht auf Schuhmodelle beschränkt, sondern kann ebenfalls auf andere Objekte angewandt werden, wenn eine entsprechende dreidimensionale Geometriebeschreibung verfügbar ist. Die Bewegungsinformation bzw. die Ausrichtungsparameter werden dann benutzt, um individualisier- te Sportschuhe in die reale Szene zu rendern, so dass sich eine Person mit den neuen Schuhen beobachten kann.In summary, embodiments of the present invention provide a concept for real-time 3D motion tracking of objects, particularly shoes, in a virtual mirror environment. From images of a single camera 12, alignment parameters corresponding to the motion of body parts are estimated using low complexity linear optimization methods. Motion tracking is not limited to footwear models but can also be applied to other objects if a corresponding three-dimensional geometry description is available. The motion information or alignment parameters are then used to render customized athletic shoes into the real scene so that a person can observe with the new shoes.
Es ist darauf hinzuweisen, dass die vorliegende Erfindung nicht auf die jeweiligen Bauteile der Vorrichtung oder die erläuterte Vorgehensweise beschränkt ist, da diese Bauteile und Verfahren variieren können. Die hier verwendeten Begriffe sind lediglich dafür bestimmt, besondere Ausführungsformen zu beschreiben und werden nicht einschränkend verwendet. Wenn in der Beschreibung und in den Ansprüchen die Einzahl oder unbestimmte Artikel verwendet werden, beziehen sich diese auch auf die Mehrzahl dieser Elemente, solange nicht der Gesamtzusammenhang eindeutig etwas Anderes deutlich macht. Dasselbe gilt in umgekehrter Richtung.It should be understood that the present invention is not limited to the particular components of the device or the illustrated approach, as these components and methods may vary. The terms used herein are intended only to describe particular embodiments and are not intended to be limiting. When the singular or indefinite articles are used in the specification and claims, these also refer to the majority of these elements unless the overall context clearly makes otherwise clear. The same applies in the opposite direction.
Abhängig von den Gegebenheiten können die erfindungsgemäßen Verfahren in Hardware oder Software implementiert werden. Die Implementierung kann auf einem digitalen Speichermedium, insbesondere einer Diskette, CD oder DVD mit elektro-
nisch auslesbaren Steuersignalen erfolgen, die so mit einem programmierbaren Computersystem zusammenwirken können, dass das entsprechende Verfahren ausgeführt wird. Allgemein besteht die Erfindung somit auch in einem Computerprogramm- Produkt auf einem maschinenlesbaren Medium gespeichertem Programmcode zur Durchführung des erfindungsgemäßen Verfahrens, wenn das Computerprogramm-Produkt auf einem Rechner abläuft. In anderen Worten ausgedrückt ist die vorliegende Erfindung somit auch ein Computerprogramm mit einem Pro- grammcode zur Durchführung des Verfahrens zum Ausrichten, wenn das Computerprogramm auf einem Computer und/oder Mik- rocontroller abläuft.
Depending on the circumstances, the methods according to the invention can be implemented in hardware or software. The implementation may take place on a digital storage medium, in particular a floppy disk, CD or DVD with electronic storage medium. nisch readable control signals that can interact with a programmable computer system so that the appropriate method is executed. In general, the invention thus also consists in a computer program product on a machine-readable medium stored program code for carrying out the method according to the invention, when the computer program product runs on a computer. In other words, the present invention is therefore also a computer program with a program code for carrying out the method for aligning, when the computer program runs on a computer and / or microcontroller.
Claims
1. Vorrichtung (20) zum Ausrichten eines 3D-Objekts in einem einem Gesichtsfeld einer AufnahmevorrichtungA device (20) for aligning a 3D object in a field of view of a recording device
(12) entsprechenden Aufnahmevorrichtungsbild (22), mit folgenden Merkmalen:(12) corresponding cradle image (22), having the following features:
einer Einrichtung (21) zum Segmentieren des Aufnahme- vorrichtungsbilds (22) in einen Vorder- und Hintergrund, um ein erstes Silhouettenbild (23) zu erhalten;means (21) for segmenting said picker image (22) into a foreground and background to obtain a first silhouette image (23);
einer Einrichtung (24) zum Synthetisieren eines zweiten Silhouettenbildes (25) des 3D-Objektes gemäß dem Gesichtsfeld in einer Ausgangslage; undmeans (24) for synthesizing a second silhouette image (25) of the 3D object according to the visual field in an initial position; and
einer Einrichtung (26) zum Schätzen von Ausrichtungsparametern (27) zur Ausrichtung des 3D-Objekts aus der Ausgangslage basierend auf Abweichungen zwischen dem ersten und dem zweiten Silhouettenbild.means (26) for estimating alignment parameters (27) for aligning the 3D object from the starting position based on deviations between the first and second silhouette images.
2. Vorrichtung gemäß Anspruch 1, wobei die Aufnahmevorrichtung (12) eine Kamera umfasst.2. Device according to claim 1, wherein the receiving device (12) comprises a camera.
3. Vorrichtung gemäß einem Anspruch 1 oder 2, wobei das 3D-Objekt ein 3D-Objekt eines Schuhs darstellt.3. Device according to claim 1 or 2, wherein the 3D object represents a 3D object of a shoe.
4. Vorrichtung gemäß einem der vorhergehenden Ansprüche, wobei die Vorrichtung (20) ferner eine Einrichtung zum Bestimmen eines Bereichs in dem ersten Silhouettenbild (23) umfasst, an dem das 3D-Objekt ausgerichtet werden soll.A device according to any one of the preceding claims, wherein the device (20) further comprises means for determining an area in the first silhouette image (23) to which the 3D object is to be aligned.
5. Vorrichtung gemäß Anspruch 4, wobei die Einrichtung zum Bestimmen des Bereichs angepasst ist, um in dem ersten Silhouettenbild Intensitätsverteilungen in horizontaler und vertikaler Dimension zu ermitteln, und daraus Koordinaten für die Ausgangslage des 3D-Objekts zu erhalten.5. The apparatus of claim 4, wherein the means for determining the area is adapted to determine in the first silhouette image intensity distributions in horizontal and vertical dimensions, and to obtain coordinates for the starting position of the 3D object.
6. Vorrichtung gemäß Anspruch 5, wobei die Einrichtung zum Bestimmen des Bereichs angepasst ist, um eine Koordinate für die Ausgangslage des 3D-Objekts in vertikaler Richtung aus einem abrupten Intensitätsanstieg oder Intensitätsabfall in vertikaler Richtung in einem unteren Bereich des ersten Silhouettenbilds (23) zu erhalten.The apparatus according to claim 5, wherein the means for determining the area is adapted to provide a coordinate for the initial position of the 3D object in the vertical direction from an abrupt increase in intensity or decrease in intensity in the vertical direction in a lower area of the first silhouette image (23) receive.
7. Vorrichtung gemäß Anspruch 5, wobei die Einrichtung zum Bestimmen des Bereichs angepasst ist, um eine Koordinate für die Ausgangslage des 3D-Objekts in hori- zontaler Richtung aus einem abrupten Intensitätsanstieg oder Intensitätsabfall in horizontaler Richtung in dem ersten Silhouettenbild (23) zu erhalten.7. The apparatus according to claim 5, wherein the means for determining the area is adapted to obtain a coordinate for the initial position of the 3D object in the horizontal direction from an abrupt intensity increase or intensity decrease in the horizontal direction in the first silhouette image ,
8. Vorrichtung gemäß einem der vorhergehenden Ansprüche, wobei die Einrichtung zum Segmentieren (21) angepasst ist, um den Vorder- und Hintergrund zu trennen, indem der Hintergrund von dem Vordergrund zunächst für ein in der Auflösung gegenüber dem Aufnahmevorrichtungsbild (22) herunterskalierten Bild auf Basis einer Hin- tergrundinformation getrennt wird, um ein Niederauflö- sungssilhouettenbild zu erhalten, und somit Silhouettenränder des ersten Silhouettenbilds (23) in der Auflösung des Aufnahmevorrichtungsbilds (22) auf Basis des Niederauflösungssilhouettenbilds und der Hinter- grundinformation zu erhalten.Apparatus according to any one of the preceding claims, wherein the means for segmenting (21) is adapted to separate the foreground and background by first displaying the background from the foreground for an image scaled down in resolution relative to the cradle image (22) Based on a background information to obtain a low-resolution silhouette image, and thus to obtain silhouette edges of the first silhouette image (23) in the resolution of the capture device image (22) based on the low-resolution silhouette image and the background information.
9. Vorrichtung gemäß einem der vorhergehenden Ansprüche, wobei die Einrichtung (26) zum Schätzen angepasst ist, um das erste und das zweite Silhouettenbild tiefpass- zufiltern, um Silhouettenränder des ersten und des zweiten Silhouettenbilds zu glätten. 9. Apparatus according to any one of the preceding claims, wherein the means (26) is adapted for estimating to low-pass-filter the first and second silhouette images to smooth out silhouette edges of the first and second silhouette images.
10. Vorrichtung gemäß einem der vorhergehenden Ansprüche, wobei die Einrichtung (26) zum Schätzen ausgebildet ist, um ein Gleichungssystem gemäß einer Optischen- Fluss-Gleichung aufzustellen und zu lösen, das von ei- ner aus dem ersten und dem zweiten Silhouettenbild gebildeten Differenz und örtlichen Ableitungen einer aus dem ersten und dem zweiten Silhouettenbild gebildeten konstruktiven Überlagerung und Parametern, die das Gesichtsfeld der Aufnahmevorrichtung definieren, ab- hängt.10. The apparatus according to claim 1, wherein the means for estimating is configured to set up and to solve a system of equations according to an optical-flux equation that is different from a difference formed by the first and second silhouette images depends on local derivations of a constructive overlay and parameters formed from the first and the second silhouette image, which define the field of view of the recording device.
11. Vorrichtung gemäß Anspruch 10, wobei die Einrichtung11. The device according to claim 10, wherein the device
(26) zum Schätzen ausgebildet ist, um die Ausrichtungsparameter (27) basierend auf einer Kombination von(26) is configured to estimate the alignment parameters (27) based on a combination of
ϊx(x,y)-dx+ϊy(χ,y)-dy=i2(χ,y)-iι(χ,y) und ϊ x (x, y) -d x + ϊ y ( χ , y) -d y = i 2 ( χ , y) -i ι ( χ , y) and
zu ermitteln, wobei f(.) eine Funktionsvorschrift, (Rx, Ry, Rz, tx, ty, tz) die Ausrichtungsparameter (27), ΛC*>.y) einen gemittelten Intensitätsgradienten in x- Richtung, I,(χ>y) einen gemittelten Intensitätsgradienten in y-Richtung, (I2(x,y) - I1(x,y)) eine Intensitätsdifferenz zwischen dem gefilterten zweiten Silhouettenbild (25) und dem gefilterten ersten Silhouettenbild (23) und dx, dy zweidimensionale Verschiebungspa- rameter in x- und y-Richtung bedeuten.where f (.) is a function specification, (R x , R y , R z , t x , t y , t z ) the alignment parameters (27), ΛC *>. y) an averaged intensity gradient in the x direction, I, ( χ > y) an averaged intensity gradient in the y-direction, (I 2 (x, y) - I 1 (x, y)) an intensity difference between the filtered second silhouette image (25) and the filtered first silhouette image (23) and d x , d y denote two-dimensional displacement parameters in the x and y directions.
12. Vorrichtung gemäß einem der vorhergehenden Ansprüche, wobei die Einrichtung (26) zum Schätzen der Ausrichtungsparameter (27) zur Ausrichtung des 3D-Objekts zu- sätzlich zu dem ersten und dem zweiten Silhouettenbild Texturinformation aus dem Aufnahmevorrichtungsbild (22) oder daraus abgeleitete Bildinformationen verwendet. 12. An apparatus according to any preceding claim, wherein the means (26) for estimating the alignment parameters (27) for aligning the 3D object in addition to the first and second silhouette images uses texture information from the cradle image (22) or image information derived therefrom ,
13. Verfahren zum Ausrichten eines 3D-0bjekts in einem einem Gesichtsfeld einer Aufnahmevorrichtung (12) entsprechenden Aufnahmevorrichtungsbild (22), mit folgen- den Schritten:13. A method for aligning a 3D object in a recording device image (22) corresponding to a visual field of a recording device (12), comprising the following steps:
Segmentieren des Aufnahmevorrichtungsbilds (22) in einen Vorder- und Hintergrund, um ein erstes Silhouettenbild (23) zu erhalten;Segmenting the cradle image (22) into a foreground and background to obtain a first silhouette image (23);
Synthetisieren eines zweiten Silhouettenbildes (25) des 3D-Objektes in einer Ausgangslage; undSynthesizing a second silhouette image (25) of the 3D object in a starting position; and
Schätzen von Ausrichtungsparametern (27) zur Ausrich- tung des 3D-Objekts aus der Ausgangslage basierend auf Abweichungen zwischen dem ersten und dem zweiten Silhouettenbild.Estimating alignment parameters (27) for aligning the 3D object from the baseline based on deviations between the first and second silhouette images.
14. Computerprogramm zur Durchführung des Verfahrens gemäß Anspruch 13, wenn das Computerprogramm auf einem Computer und/oder Microcontroller und/oder Graphikkarte abläuft . 14. Computer program for carrying out the method according to claim 13, when the computer program runs on a computer and / or microcontroller and / or graphics card.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102007043836.4 | 2007-09-14 | ||
DE102007043836A DE102007043836B3 (en) | 2007-09-14 | 2007-09-14 | Device and method for aligning a 3D object in an image corresponding to a field of view of a recording device |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2009036831A1 true WO2009036831A1 (en) | 2009-03-26 |
Family
ID=39758870
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/EP2008/005782 WO2009036831A1 (en) | 2007-09-14 | 2008-07-15 | Device and method for aligning a 3d object in an image corresponding to a field of view of a recording device |
Country Status (2)
Country | Link |
---|---|
DE (1) | DE102007043836B3 (en) |
WO (1) | WO2009036831A1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9489765B2 (en) | 2013-11-18 | 2016-11-08 | Nant Holdings Ip, Llc | Silhouette-based object and texture alignment, systems and methods |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111754303A (en) * | 2020-06-24 | 2020-10-09 | 北京字节跳动网络技术有限公司 | Method and apparatus for virtual changing of clothing, device and medium |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5719953A (en) * | 1993-09-20 | 1998-02-17 | Fujitsu Limited | Image processing apparatus for determining positions of objects based on a projection histogram |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB0114157D0 (en) * | 2001-06-11 | 2001-08-01 | Canon Kk | 3D Computer modelling apparatus |
US7796839B2 (en) * | 2003-02-19 | 2010-09-14 | Agfa Healthcare, N.V. | Method of detecting the orientation of an object in an image |
-
2007
- 2007-09-14 DE DE102007043836A patent/DE102007043836B3/en active Active
-
2008
- 2008-07-15 WO PCT/EP2008/005782 patent/WO2009036831A1/en active Application Filing
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5719953A (en) * | 1993-09-20 | 1998-02-17 | Fujitsu Limited | Image processing apparatus for determining positions of objects based on a projection histogram |
Non-Patent Citations (6)
Title |
---|
BOULAY ET AL: "Applying 3D human model in a posture recognition system", PATTERN RECOGNITION LETTERS, ELSEVIER, AMSTERDAM, NL, vol. 27, no. 15, 1 November 2006 (2006-11-01), pages 1788 - 1796, XP005651240, ISSN: 0167-8655 * |
BUDI SUGANDI ET AL: "Tracking of Moving Objects by Using a Low Resolution Image", INNOVATIVE COMPUTING, INFORMATION AND CONTROL, 2007. ICICIC '07. SECOND INTERNATIONAL CONFERENCE ON, IEEE, PI, 1 September 2007 (2007-09-01), pages 408 - 408, XP031200461, ISBN: 978-0-7695-2882-3 * |
EISERT P ET AL: "Image-Based Rendering and Tracking of Faces", IMAGE PROCESSING, 2005. ICIP 2005. IEEE INTERNATIONAL CONFERENCE ON GENOVA, ITALY 11-14 SEPT. 2005, PISCATAWAY, NJ, USA,IEEE, vol. 1, 11 September 2005 (2005-09-11), pages 1037 - 1040, XP010850999, ISBN: 978-0-7803-9134-5 * |
EISERT P ET AL: "Virtual mirror. real-time tracking of shoes in augmented reality environments", PROCEEDINGS 2007 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING, ICIP 2007 IEEE PISCATAWAY, NJ, USA, 2007, pages 557 - 560, XP031157985, ISBN: 978-1-4244-1436-9 * |
PETER EISERT: "Virtual Mirror", JAHRESBERICHT DES HEINRICH HERTZ INSTITUTS 2006/2007, March 2007 (2007-03-01), Berlin, pages 102, XP002497606 * |
THEOBALT C ET AL: "Combining 3D flow fields with silhouette-based human motion capture for immersive video", GRAPHICAL MODELS, ELSEVIER, SAN DIEGO, CA, US, vol. 66, no. 6, 1 November 2004 (2004-11-01), pages 333 - 351, XP004626855, ISSN: 1524-0703 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9489765B2 (en) | 2013-11-18 | 2016-11-08 | Nant Holdings Ip, Llc | Silhouette-based object and texture alignment, systems and methods |
US9728012B2 (en) | 2013-11-18 | 2017-08-08 | Nant Holdings Ip, Llc | Silhouette-based object and texture alignment, systems and methods |
US9940756B2 (en) | 2013-11-18 | 2018-04-10 | Nant Holdings Ip, Llc | Silhouette-based object and texture alignment, systems and methods |
Also Published As
Publication number | Publication date |
---|---|
DE102007043836B3 (en) | 2009-01-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE60209365T2 (en) | METHOD FOR MULTILOOKING SYNTHESIS | |
Zhang et al. | Fast haze removal for nighttime image using maximum reflectance prior | |
DE102015213832B4 (en) | Method and device for generating an artificial image | |
US7206449B2 (en) | Detecting silhouette edges in images | |
US7218792B2 (en) | Stylized imaging using variable controlled illumination | |
US7359562B2 (en) | Enhancing low quality videos of illuminated scenes | |
US7102638B2 (en) | Reducing texture details in images | |
US7295720B2 (en) | Non-photorealistic camera | |
US7103227B2 (en) | Enhancing low quality images of naturally illuminated scenes | |
DE69223155T2 (en) | MIXING VIDEO SIGNALS USING A PATTERN KEY | |
DE69635347T2 (en) | METHOD AND SYSTEM FOR REPRODUCING AND COMBINING IMAGES | |
DE19983341B4 (en) | Method and device for acquiring stereoscopic images using image sensors | |
DE69226512T2 (en) | Image processing method | |
Raskar et al. | Non-photorealistic camera: depth edge detection and stylized rendering using multi-flash imaging | |
DE69612666T2 (en) | METHOD AND DEVICE FOR AUTOMATICALLY INSERTING ADVERTISING SIGNS IN A VIDEO IMAGE | |
DE69602515T2 (en) | DEVICE AND METHOD FOR REAL-TIME DISPLAY IN VIDEO IMAGES USING ADAPTIVE OCCLUSION WITH A SYNTHETIC REFERENCE IMAGE | |
KR101625830B1 (en) | Method and device for generating a depth map | |
DE69930530T2 (en) | METHOD FOR IMPROVING AN IMAGE PRESENTATION OF A CURRENT EVENT | |
DE69627138T2 (en) | METHOD FOR ESTIMATING THE SITUATION OF A PICTURE TARGET REGION FROM SEVERAL REGIONS OF TRACKED LANDMARKS | |
DE69735488T2 (en) | METHOD AND DEVICE FOR ALIGNING PICTURES | |
DE112011103221T5 (en) | Extend image data based on related 3D point cloud data | |
Brostow et al. | Motion based decompositing of video | |
DE112017005207B4 (en) | Method for identifying light sources, corresponding system and computer program product | |
DE112006000534T5 (en) | Positioning a subject with respect to a background scene in a digital camera | |
DE102010009291A1 (en) | Method and apparatus for an anatomy-adapted pseudo-holographic display |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 08784790 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 08784790 Country of ref document: EP Kind code of ref document: A1 |