WO2010007094A2 - Verfahren und anordnung zur 3d-erfassung von objekten sowie ein entsprechendes computerprogramm und ein computerlesbares speichermedium - Google Patents

Verfahren und anordnung zur 3d-erfassung von objekten sowie ein entsprechendes computerprogramm und ein computerlesbares speichermedium Download PDF

Info

Publication number
WO2010007094A2
WO2010007094A2 PCT/EP2009/059066 EP2009059066W WO2010007094A2 WO 2010007094 A2 WO2010007094 A2 WO 2010007094A2 EP 2009059066 W EP2009059066 W EP 2009059066W WO 2010007094 A2 WO2010007094 A2 WO 2010007094A2
Authority
WO
WIPO (PCT)
Prior art keywords
pattern
detection
images
objects
data
Prior art date
Application number
PCT/EP2009/059066
Other languages
English (en)
French (fr)
Other versions
WO2010007094A3 (de
Inventor
Gottfried Frankowski
Original Assignee
Gfmesstechnik Gmbh
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gfmesstechnik Gmbh filed Critical Gfmesstechnik Gmbh
Publication of WO2010007094A2 publication Critical patent/WO2010007094A2/de
Publication of WO2010007094A3 publication Critical patent/WO2010007094A3/de

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation

Definitions

  • the invention relates to a method and an arrangement for the 3D detection of objects as well as a corresponding computer program and a computer-readable storage medium which can be used in particular in personal identification systems, primarily for all forms of access control.
  • the most important technology here and central system component is the three-dimensional face recognition in video real time or from the movement.
  • the invention may be used in numerous other fields, such as e.g. Videotelefon ie, for the production of biometric (standard) passport photos, for the creation of 3D face databases, for computer games or the like. be used.
  • a clear and ideally forgery-proof recognition of persons is to be ensured only on the basis of their individual characteristics, e.g. by the measurement of physical parameters called biometry (see Figure 1).
  • biometry physical parameters
  • the classic example of such a feature is the fingerprint, which provides a clear recognition and can be detected quickly with modern sensor technology, but is just as easy to fake. His successor in forensics, the gene analysis, retires for quick measurements in any case.
  • Another method, iris recognition requires considerable user interaction and suffers from disturbing influences (pupil size, eye diseases), is also not very forgery-proof (contact lenses could, for example, introduce false iris patterns).
  • Face recognition is a tried and tested solution, but all devices currently in use use two-dimensional camera shots or fixed unchangeable light patterns that are laser-focused. generated and which are aufproji dispose on the face. These are subject to a large number of errors. Thus, the actual face shape is always strongly distorted by lighting effects and viewing angles. Therefore, 2D face recognition can only be based on a few very distinctive geometrical features whose detection is also disturbed. Consequently, there were always very negative reports about their accuracy of recognition in these now widespread simple systems. They may still be useful for rapid pre-sorting of builds, but they do not provide a meaningful approach to access control.
  • a perception of our own vision using stereo cameras fails because the immense image processing effort that our brains can effortlessly accomplish can not be reproduced by any technical device.
  • Optical methods of dot or line triangulation are far too slow for areal coverage. Interferometric methods are eliminated due to the special lighting requirements and many other disadvantages.
  • 3D imaging has become popular with structured illumination.
  • patterns of parallel light strips are used which are projected onto an object and whose apparent deformation provides the height information due to a different camera viewing angle.
  • a disadvantage of conventional fringe projection is that defects in the recording of the patterns can only be detected after the calculation of the 3D profile of the object. Uncommon problems with moving objects occur particularly frequently.
  • a particular advantage of the inventive method for 3D detection of objects is that for moving objects an expected position of the object for future times can be determined and recordings of projected patterns that were taken at different times, can be brought exactly into line , This is achieved by projecting at least one pattern, for example a striped pattern, onto the object to be measured.
  • the object may be faces that are to be identified.
  • the object is recorded by at least one optical sensor.
  • the at least one optical sensor can be a special camera of a projection system that performs pattern projection, an infrared camera (IR camera) or a conventional video camera or a combination of these devices.
  • a special camera of the projection system and a conventional video camera for grayscale or color images is used as the optical sensor, wherein at least two grayscale images are recorded between two sample images. Value or color images are recorded and the motion estimation is performed at least on the basis of the grayscale or color images. With at least two images, it is possible to calculate motion vectors from displacements of individual image areas, which make it possible to reconstruct further images for future positions of the object.
  • the grayscale or color images can also be used to calculate gray or color values of the object from the sample images. This can increase the precision of 3D detection.
  • the motion of the object can be determined from the pattern images and / or the grayscale or color images, and when calculating motion vectors that only evaluate the pattern images, the influence of the pattern on the pattern image must be eliminated.
  • This can e.g. by frequency filtering (one or two-dimensional), area averaging or compensation of a phase shift between successive stripe patterns.
  • frequency filtering of the measuring strips occurring in a narrow frequency range and having low harmonic frequencies leaves both large-area and small object structures untouched, so that sufficient features for determining motion vectors remain. If the projected measuring strips in the dark area are not completely black, which is guaranteed under real conditions solely due to scattered and ambient light, the said object structures are retained in all parts of the measuring area.
  • a further preferred embodiment of the invention provides for the use of strip patterns with sine waves of different widths.
  • a 3D model of the object is calculated from one or more pattern images, to which the texture obtained from a gray value or color image is mapped (mapped).
  • 3D models of the captured object can be created with the actual surface texture.
  • Dye or brightness distortions can be calculated by specimens from the 3D model, which were taken together with the object.
  • the inventive method could be implemented in a passport photo machine.
  • a pattern would be projected onto the user, preferably unnoticed by him, from which a 3D model of his face is calculated.
  • a normal color image is taken and placed on the 3D model.
  • the 3D model can be positioned and illuminated in virtual space so that a 2D projection of the SD model meets the requirements of a passport photograph, in particular a standard passport image.
  • This (standard) passport photograph will be printed out.
  • the described method is preferably carried out fully automatically. It may, however, by user intervention to change image parameters, such as positioning, lighting, color temperature or the like. be used for the design of individual images.
  • a further preferred embodiment provides for the method according to the invention to be used in a video conference system.
  • the 3D model of the participants eg head, upper body
  • the skin texture can be used to align these models on a video conferencing system's display device, eg a monitor, so that the viewer has the impression that the one on the screen represented participant looks directly at him.
  • the 3D image acquisition is preferably carried out in real time in order to be able to react immediately to movements of the participants. It proves to be advantageous if the viewing direction of the 3D model are directly aligned with a virtual camera whose position corresponds to the position at which the eyes of the image rendered from the SD model appear on the screen of the counterpart.
  • An arrangement according to the invention has at least one chip and / or processor as well as at least one pattern projector and at least one optical sensor and is set up in such a way that a method for 3D detection is executable, wherein at least one pattern projects onto the object, through the object at least one optical sensor is recorded, at least a part of data recorded by the at least one optical sensor is evaluated for determining a movement of the object and the determined movement is used in the SD detection of the object.
  • the at least one pattern projector is designed as a DLP picoprojector.
  • Other preferred embodiments include two different cameras, one of which records the patterns and a second one the greyscale or color image.
  • the first camera is preferably an infrared camera and the second camera is a conventional video camera.
  • a conventional video camera can be used for the first camera.
  • the same camera can be used for both the pattern and the grayscale or color image acquisition.
  • the use of a beam splitter which divides the light on two the different cameras or camera chips.
  • the data processing device comprises a combination of a signal processor and a programmable gate array (FPGA).
  • the signal processor is preferably set up in such a way that it carries out the image evaluation according to the invention for determining the speed and / or for generating the textured 3D models. Alternatively or in parallel thereto, the signal processor can also take over the control of the camera chips.
  • a computer program for the 3D detection of objects allows a data processing device, after it has been loaded into the memory of the data processing device to perform a method for 3D detection, wherein at least one pattern is projected onto the object, the object is recorded by at least one optical sensor, at least a part of data recorded by the at least one optical sensor is evaluated for determining a movement of the object, and the determined movement is used in the 3D detection of the object becomes.
  • the computer program according to the invention is modular in construction, with individual modules being installed on different data processing devices.
  • Advantageous embodiments additionally provide computer programs by which further method steps or method sequences specified in the description can be executed.
  • Such computer programs can be made available for download (for a fee or free of charge, freely accessible or password-protected) in a data or communication network, for example.
  • the computer programs thus provided can then be utilized by a method in which a computer program according to claim 23 is downloaded from an electronic data network, such as the Internet, to a data processing device connected to the data network.
  • a computer-readable storage medium on which a program is stored which, after having been loaded into the memory of the data processing device, allows a data processing device to perform a 3D detection process wherein at least one pattern is projected onto the object, the object is recorded by at least one optical sensor, at least a part of data recorded by the at least one optical sensor is evaluated for determining a movement of the object and the determined movement in the 3D Capturing the object is used.
  • the algorithms used to evaluate the fringe projection are capable of providing perfect results even with very dissected surfaces. This is a very significant advantage, especially with regard to hair, and in the case of facial recognition, as in the entire biometry, this is obviously an important unique selling proposition.
  • the exposure and evaluation of the stripe images preferably takes place very quickly-in the tiny fraction of a second-since the practical application of (albeit slow) moving objects must be assumed in order to avoid problems for the user. It is therefore provided under changing and - depending on the application - harsh operating conditions reliable system.
  • a measuring arrangement with a projector and at least two cameras arranged next to it can advantageously also be used.
  • strip measurement technology in the system according to the invention provides a much more precise 3D image than all comparable products or prototypes.
  • the precision above all the superior robustness of the method, which guarantees a high degree of freedom from image artifacts (see FIG. Only in this way can reliable biometric comparisons be carried out.
  • the measurement technique according to the invention together with a test software based on new algorithms logically showed a hitherto unprecedented hit rate.
  • FIG. 2 illustrates a combination of face recognition with other biometric techniques.
  • FIG. 3 shows a list of requirements for biometric systems
  • Fig. 5 is a result representation of a cosmetic facial recognition.
  • the invention will be explained in detail using the example of the three-dimensional detection of a face shape. It should be noted that the invention is not limited to the embodiment described below, but can be generally used for the detection of three-dimensional objects, in particular for the detection of biometric features.
  • the three-dimensional detection of the face shape has none of the above-mentioned disadvantages of conventional solutions. Thus, it is completely independent of object lighting, angle of incidence and shadowing, because only form parameters, ie 3D coordinates of the face are captured. These data are also invariant with respect to changes in perspective, ie rotation and scale changes due to different recording distances.
  • Another advantage is that a much larger number of individual parameters can be derived from the 3D data than from pure 2D data, e.g. the shape of nose, chin arch and eye sockets. This ensures significantly greater detection reliability.
  • the system is also hard to deceive, just taking a photo is not enough. Even rubber masks would hardly be able to map all parameters correctly.
  • a dummy a wax head, for example
  • saccades which can be detected at any time on living persons. So it takes a very high effort to outsmart a properly designed SD face recognition system.
  • the 3D face recognition technology offers even more benefits:
  • a normal photo can be calculated from any angle and under any (synthetic) lighting at any time from the 3D data.
  • passport photos thus eliminates these so difficult problems in the recording.
  • An important aspect of the present invention is the possibility of comparing optimal standard-pass photos obtained from 3D data with the 2D images or biometry data already provided by default in biometric personal documents (Schengen Agreement). This eliminates a major problem of 2D face recognition, the difficult comparability of data given different perspectives and lighting conditions.
  • the hand recognition offers see Figure 2. Even in this case, a mere photograph is not very helpful.
  • the invention makes it possible to put the hand recognition on a completely new basis. All features could be captured 3-dimensionally and in high resolution with a single, split-second 3D capture of the entire hand.
  • Face detection takes place imperceptibly, by projection and recording of infra-red, ie invisible strip patterns, to a distance of approx. 3 - 0.25 m, but preferably of 0.5 - 1 m, and without significant positioning requirements. Meanwhile, the user can put his hand on a glass plate, under which also a 3D system is installed, which also takes up the hand just as easily on the same principle.
  • a 3D detection of the fingerprint and / or other features can take place.
  • the three-dimensional measurement of all details of the skin profile with a resolution of up to 1/100 mm is possible, which allows reliable detection of simpler counterfeits, such as can be reconstructed on existing fingerprints of a person on suitable materials ,
  • the 3D capture would be tricked only with a perfect 3D reconstruction.
  • additional methods of living detection are available, e.g. the measurement of the blood pulse by means of infrared light (a method known in principle, for example, is used for pulse measurement by means of a clip on the earlobe).
  • a preferred embodiment of the arrangement according to the invention fulfills numerous other boundary conditions (see FIG. 3). These include in particular a simpler operation or usability, easier integration into systems, maintenance-free and robust and not too large dimensions and weight.
  • the arrangement according to the invention is therefore preferably designed as a compact module with integrated computer unit and all common interfaces.
  • a range of software modules for integration into various data processing concepts is also provided.
  • this color image also contains influences of the illumination device used.
  • the light field of this lighting device leaves Determine by introducing and photographing suitable test specimens. If it is constant, then its influence on the object colors can be clearly determined, so that it can be compensated in the recorded color image. The result is a color image of the object (the face) with the original skin tones, as you would see under neutral white, diffused lighting.
  • an image can be calculated according to any simulated lighting. This can be done both under aesthetic as well as under recognition technical aspects.
  • the current (3D) image of the face can thus be adapted to existing 2D images and compared with them.
  • the passport photograph would benefit directly from this, as even under unfavorable conditions easily a standard-compliant photo could be created.
  • a 3D camera would of course be required anyway.
  • a 3D webcam is realized in a preferred embodiment with simplified projection technology.
  • the correct position of the virtual camera can e.g. be determined by an evaluation of the screen image (finding the eye position using image processing method), or advantageously with knowledge of all relevant spatial parameters, in particular with regard to recording cameras and playback screen, by a corresponding coordinate transformation.
  • the method works just as well with multiple call partners displayed on one or more screens. From the same 3D camera image, the virtual camera perspectives for each of the partners can be calculated individually and sent the corresponding images separately, so that on the screen of a common, virtual conference room is displayed, in which all opponents are arranged in perspective. At least the segment of professional conference solutions is thus a highly interesting field of application for 3D strip metrology.
  • DLP digital light processing projector board
  • infrared light is used here. Since extraneous light interferes with the pattern or fringe projection, but on the other hand usually can not be avoided, two methods are used to reduce these disturbances:
  • Spectral filtering A light source whose intensity is concentrated in a narrow frequency range is used, e.g. also LED or laser diodes.
  • the camera receives a narrowband filter, which primarily lets through this spectral range and suppresses others.
  • Laser diodes would have advantages here, since very high pulse power in the infrared range can be achieved and also with extremely narrow spectrum. Eye safety should be considered, but is given due to the optical design.
  • Temporal filtering The light source emits short flashes of high intensity.
  • the camera is sensitive only for this time or receives a shutter that allows light only in this time.
  • Both methods can reduce extraneous light influence by several orders of magnitude in each case, in combination they permit pattern or fringe projection images even in bright ambient light.
  • a light source of sufficient spatial coherence is used (laser or point light source), which allows a large depth of field of the projector without significant loss of brightness.
  • laser or point light source In principle, it is not necessary to focus the fringe pattern over the entire measuring field depth.
  • the color image can be taken with a separate camera, or alternatively with the same camera that captures the infrared pattern / stripe image:
  • Most color camera chips today are very sensitive to infrared radiation, so good that for color recording usually a fixed, infrared absorbent filter is set.
  • a beam splitter can be used, which splits infrared and visible light on two camera chips.
  • a prismatic divider with interference filters could be considered here.
  • Another possibility would be a camera chip, with pixel-wise different color filters in front of the light receiving surfaces, which therefore contains additional halftone dots for infrared instead of the usual red-green-blue filter grid.
  • An exemplary embodiment of the device is based on a special processor board.
  • the technical solution using specialized processors and chips is novel. Et al The control of the projection chips (strip generation) is done by special hardware, which allows very high frame rates.
  • a special processor enables extremely fast image evaluation.
  • An innovative combination of a signal processor and a programmable gate array (FPGA) is planned.
  • the stripe images are assembled.
  • the patterns are either permanently stored in a memory or are currently uploaded by a control computer.
  • a flash memory is used for the pattern storage.
  • the complete strip image is assembled in a RAM memory.
  • control unit in this case the FPGA, transfers the stripe patterns in rapid succession to the projection unit, here the digital micromirror display (DMD).
  • DMD digital micromirror display
  • micromirror displays in pico technology which were developed for use in mobile telephones and are therefore particularly inexpensive, are also suitable.
  • pico projectors which need to be modified significantly for this purpose, represents a significant innovation for the striped projection technology.
  • the light intensity also extends to large measurement fields, eg face recognition, if very bright ambient light can be avoided. This makes the technology economically interesting for wide applications.
  • the detection of highly fragmented scenes is realized conventionally by projection of gray-coded stripe patterns, whereby for a single object point the sequence of black and white values from the successive images results in an individual binary word corresponding only to the projection stripe to be assigned to that point.
  • 10 stripe images with corresponding binary patterns are to be projected, which poses problems with moving objects. Even if a face iW has continuous height gradients, some pre-information about the scene, especially if it consists of several faces / objects in the field of vision, may be in demand.
  • the projection of Graycode patterns is generally dispensed with, since the position of individual faces is not necessarily of interest to one another. Even then, however, the projection of at least three phase-shifted stripe patterns one after the other would be of interest, allowing an accurate evaluation according to the known methods (phase-measuring fringe projection).
  • the use of differently wide gray-modulated fringe patterns is provided which, similar to the Graycode method, emit additional coarse information about the fringe assignment and thus the absolute object distance, in addition to the fine information given by the phase.
  • two or more grayscale or color images can be recorded between the stripe patterns. Even to determine the skin texture would be at least take a separate picture. With at least two images, motion vectors can be calculated from the displacements of individual image areas, which allow to reconstruct further images, as they would have to look close to those of the original images for any time; therefore also for the exact times of the stripe recordings.
  • the stripe images can then be matched exactly on the image side by side.
  • the gray values of the object can then be calculated out of the stripe patterns so that object textures can not affect the stripe image and thus the 3D detection.
  • motion vectors can also be determined from the stripe images alone by calculating out the influence of the stripe patterns by appropriate measures. For this purpose, for example, frequency filtering (particularly efficient as already explained above), or area averaging as well as the compensation of the known phase shift between aufeinender following stripe patterns come into question.
  • point-accurate altitude information can already be obtained by projecting only a single stripe pattern in the case of essentially flat measurement objects, since it is always possible in principle to determine the centerline itself of a very blurred strip precisely. Only the lateral density of the determined height values is then lower, which in the case of small unevenness in the surface is not an absolute disadvantage.
  • motion compensation can be completely dispensed with if color information of interest is also recorded at the same time.
  • a combination of at least two camera chips is preferably coupled to the same lens via an optical beam splitter.
  • the beam splitter is preferably wavelength-selective, for example embodied as a prism splitter with interference filters.
  • the color filter matrix contains in addition to the three primary colors and infrared-sensitive sensor elements. Since silicon camera chips are generally also infrared-sensitive, they would be considered, for example.
  • a processor allows extremely fast image analysis, especially in connection with the new methods mentioned.
  • the processor unit of signal processor and FPGA also takes over the control of the camera chip. In a further embodiment, it also assumes image evaluation functions. This is a very compact, energy-efficient and inexpensive unit for handling the entire 3D object detection available, which is fully integrated into the projector / camera unit.
  • the embedded software implements various special fringe projection and image analysis functions, as described in detail earlier.
  • the special functions result from the respective special requirements.
  • the tip of the nose presumably the highest point, becomes the center of a sighted polar coordinate system.
  • the sections of surfaces of equal radius values are subdivided with the face surface into preferably equidistant steps, so that a pattern of largely uniformly distributed points on the face surface results.
  • These points are now connected to each other according to an algorithm, preferably each concentrically extending the circumference and then each jumping to the next outer circle.
  • the dots preferably form a triangular pattern with as far as possible equidistant side lengths. Thus, this step also results in a polygonization of the surface.
  • the described coding which so far only records coordinate values, can be supplemented by coding color information.
  • compression also takes place using established methods such as two-dimensional discrete cosine transformation (DCT), known from the JPEG method, or e.g. a wavelet transform (e.g., like JPEG2000) in question.
  • DCT discrete cosine transformation
  • the database is advantageously hierarchically structured, for example, so that, starting from certain features, the data records matching it are first selected, then further features in turn select a subset, etc., until the selection of a single matching pattern after a search time corresponding only to the logarithm of the number of stored records.
  • a multi-dimensional structure of the feature hierarchy tree structure to be created from pointers to create can be created before the actual search process and, if data records are added, only extended by the corresponding pointers. This corresponds to a feature-oriented presorting which drastically reduces the number of data records to be viewed in the more complex complete 3D comparison.
  • OEM Original Equipment Manufacturer
  • the camera unit for this purpose has the following special features:
  • Projector and camera are integrated via a computer unit to a sensor module.
  • the measurement software uses algorithms for extremely fast calculation of a precise and artifact-free 3D image of the face.
  • the software has the advantage of being able to compute even difficult surface details confidently and in a very short time.
  • the invention thus enables reliable face recognition based on the latest algorithms, which is superior to all comparable systems of the prior art.
  • the described technology can in principle also be used to realize large measuring distances of up to a few meters and / or substantially larger measuring fields which would enable the detection of several persons in one field of vision.
  • the present invention also makes possible the 3D capture of groups of people "in passing.” High luminous intensity, camera resolution, measuring speed, robustness of the algorithms, central themes of the project applied for here would be indispensable for this.
  • the invention is not limited in its embodiment to the above-mentioned preferred embodiments. Rather, a number of variants is conceivable, which makes use of the inventive arrangement and the method according to the invention even with fundamentally different types of use.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Length Measuring Devices By Optical Means (AREA)

Abstract

Die Erfindung betrifft ein Verfahren und eine Anordnung zur 3D-Erfassung von Objekten sowie ein entsprechendes Computerprogramm und ein computerlesbares Speichermedium, welche insbesondere einsetzbar sind in Personen-Identifikationssystemen, vorrangig für alle Formen der Zugangskontrolle. Wichtigste Technologie hierbei und zentraler Systembestandteil, ist die dreidimensionale Gesichtserkennung in Videoechtzeit bzw. aus der Bewegung. Hierfür wird vorgeschlagen, dass bei einer 3D-Erfassung von Objekten, vorzugsweise von Gesichtern, mindestens ein Muster auf das zu erfassende Objekt projiziert und das Objekt durch mindestens einen optischen Sensor aufgezeichnet wird, wobei eine hohe Aufnahmegeschwindigkeit, Robustheit des Verfahrens gegen Bewegungen des Objekts und gleichzeitige präzise Erfassung von 3D-Daten durch geeignete Maßnahmen sichergestellt wird.

Description

Verfahren und Anordnung zur 3D-Erfassung von Objekten sowie ein entsprechendes Computerprogramm und ein computerlesbares Speichermedium
Die Erfindung betrifft ein Verfahren und eine Anordnung zur 3D-Erfassung von Ob- jekten sowie ein entsprechendes Com puterprog ramm und ein computerlesbares Speichermedium, welche insbesondere einsetzbar sind in Personen- Identifikationssystemen, vorrangig für alle Formen der Zugangskontrolle. Wichtigste Technologie hierbei und zentraler Systembestandteil, ist die dreidimensionale Gesichtserkennung in Videoechtzeit bzw. aus der Bewegung. Darüber hinaus kann die Erfindung in zahlreichen anderen Bereichen, wie z.B. Videotelefon ie, zur Herstellung von biometrischen (Norm-) Passbildern, zum Anlegen von 3D-Gesichtsdatenbanken, für Computerspiele o.dgl. eingesetzt werden.
Einführung
Eine eindeutige und im Idealfall fälschungssichere Erkennung von Personen ist nur anhand ihrer individuellen Merkmale zu gewährleisten, also z.B. durch die Messung physischer Parameter, genannt Biometrie (vgl. Figur 1 ). Das klassische Beispiel eines solchen Merkmals ist der Fingerabdruck, der eine eindeutige Wiedererkennung bietet und sich mit moderner Sensortechnik schnell erfassen lässt, jedoch ebenso leicht zu fälschen ist. Sein Nachfolger in der Forensik, die Genanalyse, scheidet für schnelle Messungen in jedem Falle aus. Ein weiteres Verfahren, die Iriserkennung, bedarf erheblicher Benutzerinteraktion und leidet unter störenden Einflüssen (Pupillengröße, Augenkrankheiten), ist zudem nicht sehr fälschungssicher (Kontaktlinsen könnten z.B. falsche Irismuster einbringen).
Übersicht biometrische Verfahren
Die Erkennung von Gesichtern ist eine bereits vielfältig versuchte Lösung, allerdings verwenden alle momentan im praktischen Einsatz befindlichen Geräte zweidimensionale Kamera-Aufnahmen oder feste unveränderliche Lichtmuster, die mittels Laser- dioden erzeugt und die auf das Gesicht aufprojiziert werden. Diese sind mit einer Vielzahl von Fehlern behaftet. So wird die tatsächliche Gesichtsform durch Beleuchtungseinflüsse und Blickwinkel stets stark verfälscht. Die 2D-Gesichtserkennung kann sich daher nur auf wenige sehr markante geometrische Merkmale stützen, de- ren Erfassung zudem gestört ist. Folglich gab es bei diesen, inzwischen weit verbreiteten da einfachen Systemen, immer wieder sehr negative Berichte über deren Widererkennungsgenauigkeit. Sie mögen für eine schnelle Vorsortierung von Bilden noch nützlich sein, für eine Zugangskontrolle bieten sie keinen sinnvollen Lösungsansatz.
Die möglichen Vorteile der 3D-Gesichtserkennung wurden früh erkannt und haben zu zahlreichen Versuchen und Entwicklungen geführt. Erst seit wenigen Jahren sind tatsächlich funktionsfähige Geräte verfügbar. Zentrale Problematik ist hierbei stets die schnelle und sichere Erfassung der 3D- Daten. Dies ist in allen Anwendungsbereichen nach wie vor nicht trivial.
Eine unserem eigenen Sehen nachempfundene Erfassung mittels Stereokameras scheitert daran, dass der immense Bildverarbeitungsaufwand, den unser Gehirn mühelos zu leisten imstande ist, noch von keinem technischen Gerät nachvollzogen werden kann. Optische Methoden der Punkt- oder Linientriangulation sind für eine flächenhafte Erfassung bei weitem zu langsam. Interferometrische Methoden scheiden aufgrund der speziellen Beleuchtungsanforderungen und zahlreicher anderer Nachteile aus. In vergleichbaren industriellen und medizinischen Anwendungen hat sich die 3D- Aufnahme mittels strukturierter Beleuchtung durchgesetzt. In allen praktisch realisier- ten Anwendungen werden dabei Muster paralleler Lichtstreifen verwendet, die auf ein Objekt projiziert werden und deren scheinbare Deformation aufgrund eines abweichenden Kamerablickwinkels die Höheninformation liefert. Ein Nachteil bei herkömmlicher Streifenprojektion besteht darin, dass Mängel bei der Aufnahme der Muster erst nach der Berechnung des 3D-Prfils des Objektes zu er- kennen sind. Besonders häufig treten Unsauberkeiten bei bewegten Objekten auf.
Es ist daher Aufgabe der vorliegenden Erfindung, ein Verfahren und eine Anordnung zur 3D-Erfassung von Objekten sowie ein entsprechendes Computerprogramm und ein computerlesbares Speichermedium bereitzustellen, welche die genannten Nachteile vermeiden und in Videoechtzeit arbeitet.
Diese Aufgabe wird erfindungsgemäß durch die Merkmale in den Ansprüchen 1 , 20 und 23 bis 25 gelöst. Zweckmäßige Ausgestaltungen der Erfindung sind in den Unteransprüchen enthalten.
Ein besonderer Vorteil des erfindungsgemäßen Verfahrens zur 3D-Erfassung von Objekten besteht darin, dass für bewegte Objekte eine zu erwartende Position des Objekts für zukünftige Zeitpunkte bestimmt werden kann und Aufnahmen von projizierten Mustern, die zu unterschiedlichen Zeitpunkten aufgenommen wurden, genau in Übereinstimmung gebracht werden können. Dies wird dadurch erreicht, dass mindestens ein Muster, beispielsweise ein Streifenmuster, auf das zu vermessende Objekt projiziert wird. Bei dem Objekt kann es sich beispielsweise um Gesichter han- dein, die identifiziert werden sollen. Das Objekt wird durch mindestens einen optischen Sensor aufgezeichnet. Bei dem mindestens einen optischen Sensor kann es sich um eine Spezialkamera eines Projektionssystems handeln, mit dem Musterprojektion durchgeführt wird, um eine Infrarotkamera (IR-Kamera) oder um eine herkömmliche Videokamera oder um eine Kombination dieser Geräte. Durch Auswer- tung zumindest eines Teils der aufgezeichneten Daten wird eine Bewegung des Objekts ermittelt. Das kann beispielsweise geschehen, indem mindestens zwei aufeinanderfolgende Aufnahmen ausgewertet werden, um Bewegungsvektoren zur Bewegungsschätzung zu ermitteln. Basierend auf der ermittelten Bewegung wird dann die 3D-Erfassung des Objekts unterstützt, indem beispielsweise die Musterbilder bildpar- tieweise genau übereinandergepasst werden. Eine weitere Möglichkeit der Nutzung der ermittelten Bewegung besteht darin, beispielsweise eine Aufnahme des Objektes (mit oder ohne projiziertem Muster) zu wiederholen, wenn die Bewegungsschätzung bestimmte vorgegebene Parameter erfüllt. Zum Beispiel kann eine Aufnahme wiederholt werden, wenn sich aus der ermittelten Bewegung ergibt, dass die vorherge- hende Aufnahme misslungen ist, etwa, weil sich das Objekt zu schnell bewegt hat.
Als vorteilhaft erweist es sich, wenn als optischer Sensor eine Spezialkamera des Projektionssystems und eine herkömmliche Videokamera für Grauwert- oder Farbbilder eingesetzt wird, wobei zwischen zwei Musteraufnahmen mindestens zwei Grau- wert- oder Farbbilder aufgenommen werden und die Bewegungsschätzung zumindest anhand der Grauwert- oder Farbbilder durchgeführt wird. Bei mindestens zwei Bildern lassen sich aus Verschiebungen einzelner Bildbereiche Bewegungsvektoren berechnen, die es erlauben, weitere Bilder für zukünftige Positionen des Objektes zu rekonstruieren.
Die Grauwert- oder Farbbilder lassen sich zudem dafür nutzen, um Grau- oder Farbwerte des Objekts aus den Musterbildern herauszurechnen. Dadurch kann die Präzision der 3D-Erfassung erhöht werden.
Die Bewegung des Objektes kann aus den Musterbildern und/oder den Grauwertoder Farbbildern ermittelt werden, wobei bei einer Berechnung von Bewegungsvektoren, die allein die Musterbilder auswertet, der Einfluss des Musters auf das Musterbild eliminiert werden muss. Das kann z.B. durch Frequenzfilterung (ein- oder auch zweidimensional), Flächenmittelung oder Kompensation einer Phasenverschiebung zwischen aufeinanderfolgenden Streifenmustern erfolgen. Insbesondere belässt eine Frequenzfilterung der in einem schmalen Frequenzbereich auftretenden und oberwellenarmen Messstreifen sowohl großflächige als auch kleine Objektstrukturen unberührt, so dass hinreichend Merkmale zur Bestimmung von Bewegungsvektoren verbleiben. Sind die projizierten Messstreifen im dunklen Bereich nicht vollständig schwarz, was unter realen Bedingungen allein schon aufgrund von Streu- und Umfeldlicht gewährleistet ist, so bleiben die besagten Objektstrukturen in allen Teilen der Messfläche erhalten.
Um die Präzision der 3D-Erfassung und damit auch der Bewegungsschätzung weiter zu verbessern, sieht eine weitere bevorzugte Ausführungsform der Erfindung die Verwendung von Streifenmustern mit unterschiedlich breiten Sinuswellen vor. Dadurch kann die Sicherheit der richtigen Zuordnung der Streifen und damit die unzweideutige Höhenbestimmung auch bei unstetigen Objektoberflächen erreicht wer- den.
In einer bevorzugten Ausführungsform ist weiter vorgesehen, dass aus einem oder mehreren Musterbildern ein 3D-Modell des Objektes berechnet wird, auf welches die aus einem Grauwert- oder Farbbild gewonnene Textur abgebildet (gemappt) wird. Somit lassen sich 3D-Modelle des aufgenommenen Objektes mit der tatsächlichen Oberflächentextur erstellen. Färb- oder Helligkeitsverfälschungen lassen sich durch Probekörper aus dem 3D-Modell herausrechnen, die zusammen mit dem Objekt aufgenommen wurden.
Mit einem solchen 3D-Modell, z.B. mit einem 3D-Modell eines Kopfes, können weitere Anwendungen realisiert werden. Zum Beispiel könnte das erfindungsgemäße Verfahren in einem Passbildautomaten implementiert sein. Auf den Nutzer würde, vorzugsweise von diesem unbemerkt, ein Muster projiziert, aus welchem ein 3D-Modell seines Gesichts berechnet wird. Parallel dazu wird ein ganz normales Farbbild aufgenommen und auf das 3D-Modell gelegt. Anschließend kann das 3D-Modell so im virtuellen Raum positioniert und beleuchtet werden, dass eine 2D-Projektion des SD- Modells den Anforderungen an ein Passbild, insbesondere an ein Normpassbild entspricht. Diese (Norm-)Passbild wird dann ausgedruckt. Das beschriebene Verfahren wird vorzugsweise vollautomatisch ausgeführt. Es kann aber durch Nutzereingriff zur Änderung von Bildparametern, wie etwa Positionierung, Beleuchtung, Farbtemperatur o.dgl. zur Gestaltung von individuellen Bildern genutzt werden.
Eine weitere bevorzugte Ausführungsform sieht vor, das erfindungsgemäße Verfah- ren in einem Videokonferenzsystem einzusetzen. In diesem Anwendungsfall kann das mit der Hauttextur versehene 3D-Modell der Teilnehmer (z.B. Kopf, Oberkörper) genutzt werden, um diese Modelle auf einem Wiedergabegerät des Videokonferenzsystems, z.B. einem Monitor so auszurichten, dass der Betrachter den Eindruck hat, dass der auf dem Bildschirm dargestellte Teilnehmer ihn direkt anblickt. Hierbei wird die 3D-Bilderfassung vorzugsweise in Echtzeit ausgeführt, um auf Bewegungen der Teilnehmer unmittelbar reagieren zu können. Als vorteilhaft erweist es sich dabei, wenn die Blickrichtung des 3D-Modells direkt auf eine virtuelle Kamera ausgerichtet werden, deren Position der Position entspricht, an der die Augen des aus dem SD- Modell gerenderten Bildes auf dem Bildschirm des Gegenübers erscheinen. Dies erweckt der Eindruck, als ob der Teilnehmer direkt in die reale Kamera blicken würde, was für den andren Gesprächsteilnehmer so wirkt, als ob der Teilnehmer diesen direkt anblicken würde. Eine Anordnung nach der Erfindung weist mindestens einen Chip und/oder Prozessor sowie mindestens einen Musterprojektor und mindestens einen optischen Sensor auf und ist derart eingerichtet, dass ein Verfahren zur 3D-Erfassung ausführbar ist, wobei mindestens ein Muster auf das Objekt projiziert, das Objekt durch mindestens einen optischen Sensor aufgezeichnet wird, zumindest ein Teil von durch den mindestens einen optischen Sensor aufgezeichneten Daten zur Ermittlung einer Bewegung des Objekts ausgewertet werden und die ermittelte Bewegung bei der SD- Erfassung des Objekts genutzt wird. In einer bevorzugten Ausführungsform ist der mindestens eine Musterprojektor als DLP-Picoprojektor ausgeführt.
Andere bevorzugte Ausführungsformen weisen zwei verschiedene Kameras auf, von denen eine erste die Muster und eine zweite das Grauwert- oder Farbbild aufzeichnet. Bei der ersten Kamera handelt es sich vorzugsweise um eine Infrarotkamera und bei der zweiten Kamera um eine herkömmliche Videokamera. Für die ersten Kamera kann jedoch auch eine herkömmliche Videokamera genutzt werden. Alternativ kann sowohl für die Aufnahme des Musters und des Grauwert- oder Farbbilds dieselbe Kamera verwendet werden. Um die Aufnahme des Musters und des Grauwert- oder Farbbilds auch bei Verwendung von zwei verschiedenen Kameras, z.B. einer IR-Kamera und einer herkömmliche Videokamera, sowohl aus der gleichen Kameraposition als auch zum selben Zeitpunkt aufzunehmen sieht eine bevorzugte Ausführungsform den Einsatz eines Strahlteilers vor, der das Licht auf zwei die verschiedenen Kameras oder Kamerachips aufteilt.
In einer bevorzugten Ausführungsform der erfindungsgemäßen Anordnung ist vorge- sehen, dass die Datenverarbeitungseinrichtung eine Kombination aus einem Signalprozessor und einem programmierbaren Gate-Array (FPGA) umfasst. Vorzugsweise ist der Signalprozessor derart eingerichtet, dass er die erfindungsgemäße Bildauswertung zur Ermittlung der Geschwindigkeit und/oder zur Generierung der mit der Textur versehenen 3D-Modelle ausführt. Alternativ oder parallel dazu kann der Sig- nalprozessor auch die Ansteuerung der Kamerachips übernehmen.
Ein Computerprogramm zur 3D-Erfassung von Objekten ermöglicht es einer Datenverarbeitungseinrichtung, nachdem es in den Speicher der Datenverarbeitungseinrichtung geladen worden ist, ein Verfahren zur 3D-Erfassung durchzuführen, wobei mindestens ein Muster auf das Objekt projiziert, das Objekt durch mindestens einen optischen Sensor aufgezeichnet wird, zumindest ein Teil von durch den mindestens einen optischen Sensor aufgezeichneten Daten zur Ermittlung einer Bewegung des Objekts ausgewertet werden und die ermittelte Bewegung bei der 3D-Erfassung des Objekts genutzt wird.
In einer weiteren bevorzugten Ausführungsform der Erfindung ist vorgesehen, dass das erfindungsgemäße Computerprogramm modular aufgebaut ist, wobei einzelne Module auf verschiedenen Datenverarbeitungseinrichtungen installiert sind.
Vorteilhafte Ausführungsformen sehen zusätzlich Computerprogramme vor, durch welche weitere in der Beschreibung angegebene Verfahrensschritte oder Verfahrensabläufe ausgeführt werden können.
Solche Computerprogramme können beispielsweise (gegen Gebühr oder unentgeltlich, frei zugänglich oder passwortgeschützt) downloadbar in einem Daten- oder Kommunikationsnetz bereitgestellt werden. Die so bereitgestellten Computerprogramme können dann durch ein Verfahren nutzbar gemacht werden, bei dem ein Computerprogramm nach Anspruch 23 aus einem elektronischen Datennetz, wie beispielsweise aus dem Internet, auf eine an das Datennetz angeschlossene Datenverarbeitungseinrichtung heruntergeladen wird.
Um das erfindungsgemäße Verfahren zur 3D-Erfassung von Objekten durchzuführen, ist vorgesehen, ein computerlesbares Speichermedium einzusetzen, auf dem ein Programm gespeichert ist, das es einer Datenverarbeitungseinrichtung ermöglicht, nachdem es in den Speicher der Datenverarbeitungseinrichtung geladen worden ist, ein Verfahren zur 3D-Erfassung durchzuführen, wobei mindestens ein Muster auf das Objekt projiziert, das Objekt durch mindestens einen optischen Sensor aufgezeichnet wird, zumindest ein Teil von durch den mindestens einen optischen Sen- sor aufgezeichneten Daten zur Ermittlung einer Bewegung des Objekts ausgewertet werden und die ermittelte Bewegung bei der 3D-Erfassung des Objekts genutzt wird. Insgesamt wird durch die Erfindung ein Produkt bereitgestellt, wie es bisher in keiner annähernd vergleichbaren Leistungsfähigkeit verfügbar ist und das gegenüber dem Stand der Technik in allen wesentlichen Punkten erhebliche Fortschritte beinhaltet.
Mit der Erfindung wird eine Technologie bereitgestellt, welche hinsichtlich der entscheidenden Parameter Schnelligkeit und Präzision entscheidende Vorteile gegenüber herkömmlichen Lösungen aufweist. Ausgefeilte Kalibrierstrategien resultieren in hervorragender Messgenauigkeit, proprietäre Auswertungsalgorithmen sorgen für eine überlegene Schnelligkeit des gesamten Messvorgangs. Entscheidend ist hier- bei, dass die Entwicklung nicht von einfacher Bildaufnahmetechnik ausgeht, sondern von professioneller Messtechnik. Deren Genauigkeit ist ein entscheidender Faktor bei der Erkennungssicherheit.
Darüber hinaus sind die zur Auswertung der Streifenprojektion eingesetzten Algorithmen in der Lage, selbst bei sehr stark zergliederten Oberflächen noch einwand- freie Ergebnisse zu liefern. Dies ist insbesondere im Hinblick auf Haare von sehr großem Vorteil, bei der Gesichtserkennung wie in der gesamten Biometrie ein ganz offensichtlich wichtiges Alleinstellungsmerkmal.
Die Belichtung und Auswertung der Streifenbilder erfolgt bei dem erfindungsgemä- ßen Gerät vorzugsweise sehr schnell - im winzigen Bruchteil einer Sekunde -, da in der praktischen Anwendung von (wenn auch langsam) bewegten Objekten ausgegangen werden muss, um dem Anwender Probleme zu ersparen. Es wird daher ein unter wechselnden und - je nach Anwendung - rauhen Einsatzbedingungen zuverlässiges System bereitgestellt.
Personen sollen auch ohne spezielle Interaktion (Posieren), im Vorbeigehen, in einem großen Messfeld entsprechend der Breite einer Tür, erfasst und aus dem Gesamtbild extrahiert werden, was sowohl eine starke Lichtquelle wie eine hohe Geschwindigkeit und Auflösung des Meßsystems erfordert. Die Beleuchtungseinrichtung erforderte die Entwicklung eines Infrarot- Streifenprojektors mit hoher Lichtintensität, möglichst kurzer Belichtungszeit und sehr guter Trennung (spektrale und temporale Filterung) von Umgebungslicht-Einflüssen. Gleichzeitig wird eine verschleißfreie Lichtquelle (also Halbleiter, Leuchtdiode) eingesetzt. Dies ist eine komplette Neuentwicklung. Des Weiteren ist bei der Kamerakonstruktion die Aufnahme von Infrarot (Streifen- Blitzaufnahme) und sichtbarem Licht (Flächenbild in Farbe) möglichst mit einem Kamerachip realisiert. Dafür gibt es bisher kein Beispiel.
Zur Sicherstellung der vollständigen Erfassung der Gesichtsform auch bei beliebig positionierten, nicht .posierenden' Personen kann vorteilhaft auch eine Messanordnung mit einem Projektor und mindestens zwei daneben angeordneten Kameras eingesetzt werden.
Um ein kompaktes und energiesparendes, preiswertes und dennoch extrem leistungsfähiges Gerät zu realisieren, wird eine neue Lösung für die notwendige Projek- tionssteuerungs- und Rechnertechnik bereitgestellt.
Im Bereich Software und Auswertung wird ebenfalls Neuland beschritten. Auswertungsstrategien der Streifenmuster und spezifische Verarbeitung der Daten für das jeweilige Anwendungssegment werden bereitgestellt.
Der Einsatz von Streifenmesstechnik in dem erfindungsgemäßen System liefert ein sehr viel präziseres 3D-BiId als alle vergleichbaren Produkte oder Prototypen. Neben der Präzision ist vor allem die überlegene Robustheit des Verfahrens von Bedeutung, die eine weitgehende Freiheit von Bildartefakten garantiert (vgl. Figur 5). Nur so lassen sich zuverlässige biometrische Vergleiche durchführen.
Bei der Wiedererkennung von Personen zeigte die erfindungsgemäße Messtechnik zusammen mit einer, auf neuen Algorithmen basierenden Testsoftware folgerichtig eine bisher nie da gewesene Trefferquote.
Nachstehend wird die Erfindung in Ausführungsbeispielen anhand der beigefügten Zeichnungen näher erläutert. Es zeigen:
Fig. 1 eine Übersicht über biometrische Verfahren,
Fig. 2 Veranschaulichung einer Kombination von Gesichtserkennung mit anderen biometrischen Techniken, Fig. 3 eine Aufstellung von Anforderungen an biometrische Systeme,
Fig. 4 Parameterangaben zu zwei beispielhaften Ausführungsformen der erfin- dungsgemäßen Anordnung und
Fig. 5 eine Ergebnisdarstellung einer kosmetischen Gesichtserkennung.
Im Folgenden soll die Erfindung am Beispiel der dreidimensionalen Erfassung von einer Gesichtsform detailliert erläutert werden. Dabei ist zu berücksichtigen, dass die Erfindung nicht auf das im Folgenden beschriebene Ausführungsbeispiel eingeschränkt ist, sondern sich allgemein für die Erfassung dreidimensionaler Objekte, insbesondere auch für die Erfassung biometrischer Merkmale, einsetzen lässt.
Die dreidimensionale Erfassung der Gesichtsform hat keinen der oben genannten Nachteile herkömmlicher Lösungen. So ist sie völlig unabhängig von Objektbeleuchtung, Lichteinfallswinkel und Schattenbildung, denn es werden ausschließlich Formparameter, also 3D-Koordinaten des Gesichtes erfasst. Diese Daten sind zudem invariant gegenüber Blickwinkeländerungen, also Rotation und Maßstabsänderungen aufgrund unterschiedlicher Aufnahmeabstände.
Ein weiterer Vorteil ist, dass sich aus den 3D-Daten eine viel größere Zahl individueller Parameter ableiten lässt als aus reinen 2D-Daten, so z.B. die Form von Nase, Kinnbogen und Augenhöhlen. Damit ist eine erheblich größere Erkennungssicherheit gewährleistet. Das System ist zudem schwer zu täuschen, das bloße Hinhalten eines Fotos genügt nicht. Selbst Gummimasken wären kaum in der Lage, alle Parameter richtig abzubilden.
Gegen das Einbringen eines Dummys (eines Wachskopfes z.B.) hilft eine Lebenderkennung, wie sie problemlos durch Auswertung der Augenbewegungen möglich ist: Das Auge führt unablässig kleinere und größere, unbewusste Bewegungen aus, sog. Sakkaden, die sich an lebenden Personen jederzeit nachweisen lassen. Es bedarf also eines sehr hohen Aufwandes, ein richtig konzipiertes SD- Gesichtserkennungsystem zu überlisten. Neben der Personenidentifikation bietet die Technik der 3D-Gesichtserkennung noch weitere Vorteile:
• Aus den 3D-Daten kann in Kombination mit einer Farbaufnahme der Oberfläche jederzeit wieder ein normales Foto aus beliebigem Blickwinkel und unter beliebiger (synthetischer) Beleuchtung berechnet werden. Bei Passfotos entfallen somit diese bisher so schwierigen Problempunkte bei der Aufnahme.
• Ein wichtiger Aspekt der vorliegenden Erfindung ist die Möglichkeit, aus 3D-Daten gewonnene optimale Normpassfotos mit den in biometrischen Personaldokumenten bereits jetzt standardmäßig vorgesehenen (Schengener Abkommen) 2D- Bildern bzw. Biometriedaten zu vergleichen. Damit entfällt ein Hauptproblem der 2D-Gesichtserkennung, die schwierige Vergleichbarkeit von Daten angesichts unterschiedlicher Perspektiven und Lichtverhältnisse.
• Darüber hinaus ist auch die Speicherung von 3D-Gesichtsdaten in biometrischen Ausweisen bereits in der Diskussion. Es wäre also ohne weiteres möglich, dass in Zukunft jeder Passbildfotograf ein 3D-Gerät benötigt, um die entsprechenden 3D- Bilder (Datensätze) aufzunehmen. Bei einer Zugangskontrolle könnte dann das Gesicht einer Person (unbemerkt) durch ein 3D-Erfassungssystem erfasst werden. Denkbar sind 3D-Erfassungssysteme, welche mit Infrarotlicht ein Streifenmuster auf das Gesicht projizieren und diese Streifenmusterprojektion auswerten, um die 3D-Daten zu gewinnen. Diese neugewonnenen 3D-Daten werden anschließend mit den im biometrischen Ausweis gespeicherten 3D-Gesichtsdaten und ggf. zusätzlich mit den im biometrischen Ausweis gespeicherten 2D-
Gesichtsdaten verglichen.
Ungeachtet der bereits hohen Fälschungssicherheit, wird es in besonders gefährdeten Bereichen sinnvoll sein, auch dieses System durch weitere Parameter zu ergän- zen bzw. abzusichern.
Hierzu bietet sich insbesondere die Handerkennung an (vgl. Figur 2). Auch in diesem Falle ist eine bloße fotografische Aufnahme wenig hilfreich. Die wirklichen Merkmale einer Hand, eine sehr große Zahl charakteristischer Linien bis hin zum Fingerabdruck sind ihrer Natur nach 3-dimensional.
Klassische Ansätze zu Handerkennung, die auf reiner Fotografie beruhen, in den meisten Fällen nicht einmal die Handlinien, sondern nur die Handform untersuchen, sind daher nicht sinnvoll.
Durch die Erfindung gelingt es, auch die Handerkennung auf eine völlig neue Basis zu stellen. Mit einer einzigen, in Sekunden-Bruchteilen erfassten 3D-Aufnahme der ganzen Hand könnten alle Merkmale 3-dimensional und in hoher Auflösung erfasst werden.
Dies bietet die Möglichkeit, einen Zugangskontrollmechanismus mit sehr geringen Anforderungen an den Benutzer und sehr geringer Hemmschwelle zu verwirklichen. Die Gesichtserfassung erfolgt unmerklich, durch Projektion und Aufnahme von infra- roten, also unsichtbaren Streifenmustern, auf eine Distanz von ca. 3 - 0,25 m, vorzugsweise jedoch von 0,5 - 1 m und ohne wesentliche Positionierungsanforderungen. Währenddessen kann der Benutzer seine Hand auf eine Glasplatte legen, unter der ebenfalls ein 3D-System eingebaut ist, das die Hand ebenso problemlos nach dem gleichen Prinzip aufnimmt.
Alternativ oder zusätzlich kann auch eine 3D-Erfassung des Fingerabdruckes und/oder anderer Merkmale erfolgen. In diesem Falle ist durch Einsatz der Erfindung die dreidimensionale Messung aller Details des Hautprofils mit einer Auflösung von bis zu 1/100 mm möglich, was eine sichere Erkennung von einfacheren Fälschungen erlaubt, wie sie beispielsweise auf vorhandenen Fingerabdrücken einer Person auf geeigneten Materialien rekonstruiert werden können. Die 3D-Erfassung wäre nur mit einer ebenfalls perfekten 3D-Rekonstruktion zu überlisten. Auch hier bieten sich zusätzliche Methoden zur Lebenderkennung an, z.B. die Messung des Blutpulses mittels Infrarotlicht (ein im Prinzip bekanntes Verfahren, wird z.B. zur Pulsmessung mit- tels eines Clips am Ohrläppchen eingesetzt).
Weitere Verfahren wie z.B. die Messung der Venenstruktur auf dem Handrücken mittels Infrarotlicht, lassen sich ebenfalls mit der Gesichtserkennung kombinieren. Die 3D-Gesichtserkennung bleibt jedoch zentrales Modul und bietet für sich gesehen die höchste Fälschungssicherheit und die angenehmste Handhabung, da die erfass- ten Personen sich nur einen kurzen Moment vor dem Gerät bewegen müssen und von dem Aufnahmevorgang nichts bemerken.
Für die kombinierte 3D-Erfassung von Gesichtern, Handflächen, Fingerabdrücken stellt die bereits bewährte Technologie der Streifenprojektion mittels Mikrospiegel- Arrays, die sehr schnelle und präzise Messungen an Objekten unterschiedlichster Größe erlaubt, eine hervorragende Voraussetzung dar.
Eine bevorzugte Ausführungsform der erfindungsgemäßen Anordnung erfüllt zahlreiche weitere Randbedingungen (siehe Figur 3). Dazu gehören insbesondere eine einfachere Bedienung bzw. Einsetzbarkeit, einfachere Integrierbarkeit in Systeme, Wartungsfreiheit und Robustheit sowie nicht zu großen Abmessungen und Gewicht.
Vorzugsweise wird die erfindungsgemäße Anordnung daher vorzugsweise als kompaktes Modul mit integrierter Rechnereinheit und allen gängigen Schnittstellen ausgeführt. Ein Angebot an Softwaremodulen für die Integration in verschiedene Datenverarbei- tungskonzepte wird ebenso bereitgestellt.
Weitere Anwendungsbereiche
2D-Bildsynthese
Die Erfassung von perfekten 3D-Profilen zusammen mit Farbprofilen ermöglicht die Synthese von 2D- und 3D-Bildern aus verschiedenen Perspektiven und mit verschiedenen simulierten Beleuchtungen. Dazu wird zusätzlich zu einem reinen 3D-Profil, das nur Ortsinformation aber keine Helligkeitswerte enthält, ein konventionelles Farbbild von der gleichen Kameraposition der 3D-Kamera aus aufgenommen, dessen Farbwerte sich somit direkt entsprechenden Punkten des 3D-Profils zuordnen lassen.
Dieses Farbbild enthält jedoch neben den Objektfarben auch Einflüsse der verwendeten Beleuchtungseinrichtung. Das Lichtfeld dieser Beleuchtungseinrichtung lässt sich durch Einbringen und Fotografieren geeigneter Prüfkörper bestimmen. Sofern es konstant ist, kann dann dessen Einfluss auf die Objektfarben eindeutig bestimmt werden, so dass dieser im aufgenommenen Farbbild kompensiert werden kann. Resultat ist ein Farbbild des Objekts (des Gesichts) mit den originalen Hauttönen, wie sie unter neutralweißer, diffuser Beleuchtung zu sehen wären.
Anhand dieses Bildes kann nunmehr, unter Verwendung allgemein bekannter Rederingverfahren wie z.B. Ray Tracing oder Lumiosity, beispielsweise ein Bild entsprechend einer beliebigen simulierten Beleuchtung errechnet werden. Dies kann sowohl unter ästhetischen, wie auch unter erkennungstechnischen Aspekten erfol- gen.
Durch Drehen und/oder Verschieben des mit der Farbtextur versehenen 3D-Modells des Gesichts und Projektion auf eine Fläche kann somit die aktuelle (3D-)Aufnahme des Gesichts an vorhandene 2D-Bilder angepasst und mit diesen verglichen werden.
Die Passbildfotografie würde hiervon direkt profitieren, da auch unter ungünstigen Bedingungen leicht ein normgerechtes Foto erstellt werden könnte. Im Falle einer Normung von 3D-Daten für elektronische Ausweise wäre natürlich eine 3D-Kamera ohnehin Pflicht.
Blickkontakt-Synthese
Die Möglichkeit einer Perspektivkorrektur bietet sich auch für die Video-Telefon ie an. Damit könnte der momentan vermisste Augenkontakt ohne jeden Nachteil synthetisch hergestellt werden. Eine 3D-Webcam ist in einer bevorzugten Ausführungsform mit vereinfachter Projektionstechnik realisiert.
Lösungen zur Perspektivkorrektur sind zwar für Telekonferenzanwendungen bereits seit langem versucht worden, jedoch hatten die stets eingesetzten Stereokameras das Problem, dass sich damit nur sehr ungenaue und störungsanfällige SD- Informationen gewinnen lassen, da in großen Teilen der aufgenommenen Bilder auswertbare Details fehlen. Die eingesetzten fotogrammetrischen Verfahren erfordern ja, dass korrelierende Bildpunkte, von Kameras aus unterschiedlichen Winkeln aufgenommen, zueinander in Relation gesetzt werden. Gleichmäßige Flächen bieten keine Merkmale um solche Bildpunkte zu finden. Selbst Kanten werden z. B. je nach Verrundung, aufgrund der Beleuchtungssituation an unterschiedlichen Orten lokali- siert. Die Synthese von Augenkontakt erfordert jedoch hohe Präzision: Wir erkennen selbst aus einigem Abstand noch, ob eine Person uns direkt ansieht oder nur dicht an uns vorbei blickt. Die tatsächlichen Unterschiede in den von uns gesehenen Bildern der Person sind derart minimal, dass sie mit normalen Kameras oder per Stere- ogrammetrie praktisch nicht erfassbar sind. Selbst bei sehr hochwertiger Kamera- Hardware erfordert die Berechnung der Blickrichtung noch ausgefeilte Algorithmen, entsprechend der Sehleistung des menschlichen Vorbildes, wie sie bisher nicht realisiert sind. Erst die Muster- bzw. Streifenprojektion bietet hier effektive Möglichkeiten. Die proji- zierten Muster erlauben eine extrem präzise 3D-Vermessung, ohne Einfluss von fehlenden Oberflächendetails oder Beleuchtung. Aufgrund der exakten 3D-Erfassung ist keine Bildverarbeitungsleistung entsprechend den Fähigkeiten unseres Gehirns nötig, um den Blickkontakt wieder herzustellen. Es genügt zu wissen, aus welcher Position der auf einem Bildschirm abgebildete Gesprächspartner den aufgenommen se- hen würde. Genau in dessen Augenposition wird die virtuelle Position der Aufnahmekamera, durch einfache Koordinatentransformation der 3D-Bilddaten, verlagert. Der simple Effekt: Blickt der Aufgenommene dem Gesprächspartner auf dem Bildschirm in die Augen, so blickt er auch in die virtuelle Kamera. Damit scheint er diesem Gesprächspartner von dessen Bildschirm direkt in die Augen zu sehen, im Falle eines 2D-Bildschirms sogar unabhängig davon wie dieser zu seinem Bildschirm wirklich positioniert ist.
Die richtige Position der virtuellen Kamera kann z.B. durch eine Auswertung des Bildschirmbildes (Auffinden der Augenposition mittels Bildverarbeitungsverfahren) ermittelt werden, oder vorteilhaft bei Kenntnis aller relevanten räumlichen Parameter insbesondere hinsichtlich Aufnahme-Kameras und Wiedergabe-Bildschirm, durch eine entsprechende Koordinatentransformation.
Das Verfahren funktioniert ebenso gut mit mehreren Gesprächspartnern, die auf einem oder mehreren Bildschirmen abgebildet sind. Aus dem selben 3D-Kamerabild können die virtuellen Kameraperspektiven für jeden der Partner individuell berechnet und diesen die entsprechenden Bilder separat gesendet werden, so dass auf dessen Bildschirm ein gemeinsamer, virtueller Konferenzraum abgebildet wird, in dem alle Gegenüber perspektivrichtig angeordnet sind. Zumindest das Segment professioneller Konferenzlösungen ist somit ein hoch interessantes Anwendungsfeld der 3D-Streifenmesstechnik.
Weitere Ausführungsformen im Rahmen der Erfindung
Die Erfindung berücksichtigt in ihren Ausführungsformen Erkenntnisse über geeignete Lichtquellen und deren Anpassung sowie Steuerung, Einbindung eines Digital Light Processing-Projektorboards (Digital Light Processing = DLP), Auswahl und Tests geeigneter IR-fähiger Kameras, Optikauswahl, optisches Design des Gesamtsystems. Dabei wurden spezielle Gegebenheiten der LED-Lichtquellen ebenso berücksichtigt wie Forderungen nach kleinem Bauvolumen, großem Messvolumen (Schärfentiefe). Allgemeine Anforderungen an biometrische Systeme sind in Figur 3, und Parameterangaben zu zwei beispielhaften Ausführungsformen der erfindungs- gemäßen Anordnung sind in Figur 4 angegeben.
Bei der Beleuchtungseinrichtung kommt es darauf an, die erfassten Personen möglichst wenig zu irritieren, bzw. die Erfassung auch ganz unbemerkt durchzuführen. Vorzugsweise wird hier also Infrarotlicht verwendet. Da Fremdlicht bei der Muster- bzw. Streifenprojektion störend wirkt, andererseits meist nicht vermieden werden kann, kommen zwei Methoden zur Verringerung dieser Störungen zum Einsatz:
Spektrale Filterung: Eine Lichtquelle, deren Intensität in einem schmalen Frequenzbereich konzentriert ist, wird verwendet, z.B. auch LED- oder Laserdioden. Die Kamera erhält ein schmalbandiges Filter, das vornehmlich diesen Spektralbereich durchlässt und andere unterdrückt. Laserdioden hätten hier Vorteile, da sehr hohe Impulsleistungen im Infrarotbereich erreichbar sind und zudem mit extrem schmalem Spektrum. Augensicherheit wäre zu beachten, ist aber aufgrund der optischen Konstruktion gegeben.
Temporale Filterung: Die Lichtquelle sendet kurze Blitze hoher Intensität aus. Die Kamera ist nur für diese Zeit empfindlich geschaltet oder erhält einen Verschluss, der nur in dieser Zeit Licht durchlässt.
Beide Methoden können Fremdlichteinfluss jeweils um mehrere Größenordnungen reduzieren, in Kombination erlauben sie Muster- bzw. Streifenprojektionsaufnahmen auch bei hellem Umgebungslicht.
Messfeldtiefe: Es kommt eine Lichtquelle hinreichender räumlicher Kohärenz zum Einsatz (Laseroder Punktlichtquelle), die ohne wesentlichen Helligkeitsverlust eine große Tiefenschärfe des Projektors ermöglicht. Dabei ist es prinzipiell nicht erforderlich, das Streifenmuster über die gesamte Messfeldtiefe scharf abzubilden. Es ist im Gegenteil stets eine unscharfe Abbildung zu fordern, um an Grauwertübergängen messen zu können und ebenso die (schmalen) Pixelgrenzen der Projektionsdisplays zu glätten. Folglich kommt es nur darauf an, an den Messfeldgrenzen noch eine hinreichende Modulationstiefe zu erreichen.
Zur begleitenden Farbaufnahme der Personen bietet sich Umgebungslicht geradezu an. Bei entsprechender Gestaltung ist eine problemlose Aufnahme möglich, ohne dass es Hinweise auf eine gezielte Beleuchtung bzw. den Scan geben muss.
Bei Kenntnis der Beleuchtungssituation kann deren Einfluss hinsichtlich Lichtfarbe und Schattenbildung anschließend herausgerechnet werden, anhand der ja bekannte 3D-Struktur der Szene.
Das Farbbild kann mit einer separaten Kamera aufgenommen werden, alternativ a- ber auch mit derselben Kamera die das infrarote Muster/Streifenbild aufnimmt: Die meisten heutigen Farbkamera-Chips sind sehr gut infrarot-empfindlich, so gut dass zur Farbaufnahme i.d.R. ein fest montiertes, Infrarot absorbierendes Filter vorgesetzt wird. Durch Verwendung eines solchen Bildaufnahmechips und wechselweise Verwendung verschiedener Filter kann dieselbe Kamera nacheinander Infrarot- und Farbbilder aufnehmen, aus der gleichen Position. Um beide Bilder nicht nur aus der gleichen Position sondern auch zeitgleich aufzunehmen, kann alternativ auch ein Strahlteiler verwendet werden, der infrarot und sichtbares Licht auf zwei Kamerachips aufteilt. Hier käme z.B. ein prismatischer Teiler mit Interferenzfiltern in Frage.
Eine weitere Möglichkeit wäre ein Kamerachip, mit Bildpunktweise unterschiedlichen Farbfiltern vor den Lichtaufnahmeflächen, der also an Stelle des üblichen Rot-Grün- Blauen Filterrasters zusätzliche Rasterpunkte für Infrarot enthält.
Informationstechnische und Hardwareentwicklungen
Eine beispielhafte Ausführungsform des Geräts (Anordnung) baut auf einem speziellen Prozessorboard auf. Der technische Lösungsansatz unter Ausnutzung speziali- sierter Prozessoren und Chips ist neuartig. U.a. erfolgt die Steuerung der Projektionschips (Streifengenerierung) durch spezielle Hardware, die sehr hohe Bildfrequenzen ermöglicht. Ein Spezialprozessor ermöglicht extrem schnelle Bildauswertung. Vorgesehen ist eine innovative Kombination aus einem Signalprozessor und einem programmierbaren Gate-Array (FPGA).
Anhand vorab gespeicherter Muster (Bildausschnitte des gesamten Streifenbildes) werden die Streifenbilder zusammengesetzt. Dabei sind die Muster entweder permanent in einem Speicher abgelegt oder werden aktuell von einem Steuerrechner hochgeladen. Für die Musterspeicherung kommt vorzugsweise ein Flash-Speicher zum Einsatz. Durch mehrfaches Kopieren der Muster wird in einem RAM-Speicher das komplette Streifenbild zusammengesetzt.
Anschließend überträgt die Steuereinheit, hier das FPGA, die Streifenmuster in schneller Folge auf die Projektionseinheit, hier das digitale Mikrospiegeldisplay (DMD).
Hinsichtlich der Projektionstechnik eignen sich entgegen der ersten Mutmaßung wie sie ein Fachmann vornehmen würde, auch Mikrospiegel-Displays in Pico- Technologie, die für den Einsatz in Mobiltelefonen entwickelt wurden und daher besonders preiswert sind. Dies resultiert aus der Tatsache, dass die phasenmessende Streifenprojektion an die Bildauflösung projektorseitig nur geringe Ansprüche stellt (wohl aber an die Stabilität der Parameter, die dank DMD-Displays und Beleuchtung mit LED auch bei den Pico-Projektoren gegeben ist). Der Einsatz von Pico- Projektoren, die jedoch im Einzelnen für diesen Zweck deutlich modifiziert werden müssen, stellt eine wesentliche Neuerung für die Streifenprojektionstechnik dar. Die Lichtstärke reicht dabei auch für große Messfelder, also z.B. Gesichtserkennung, sofern sehr helles Umgebungslicht vermieden werden kann. Damit wird die Technologie für Breitenanwendungen ökonomisch interessant.
Die Erfassung stark fragmentierter Szenen wird konventionell mittels Projektion Gray-codierter Streifenmuster realisiert, wobei für einen einzelnen Objektpunkt die Abfolge der Schwarz- und Weißwerte aus den aufeinander folgenden Bilder ein individuelles, nur für den diesem Punkt zuzuordnenden Projektionsstreifen zutreffendes Binärwort ergibt. Um dies bei z.B. 1024 (210) Punkten Lateralauflösung eindeutig zu ermöglichen, sind mithin 10 Streifenbilder mit entsprechenden Binärmustern zu projizieren, was bei bewegten Objekten Probleme aufwirft. Auch wenn ein Gesicht i.W. kontinuierliche Höhenverläufe aufweist, mag doch u.U. eine gewisse Vorinformation zur Szene, insbesondere wenn diese aus mehreren Gesichtern/Objekten im Blickfeld besteht, gefragt sein. Auf die Projektion von Graycode-Mustern wird im Falle der Personenerkennung zwar im Allgemeinen verzichtet, da die Position einzelner Gesichter zueinander nicht unbedingt von Interesse ist. Auch dann wäre jedoch die Projektion von mindestens drei phasenverschobenen Streifenmustern nacheinander von Interesse, die eine genaue Auswertung nach den bekannten Verfahren (phasenmessende Streifenprojektion) erlaubt.
Alternativ ist bei der hier beschriebenen Innovation der Einsatz verschieden breiter graumodulierter Streifenmuster vorgesehen, die ähnlich wie das Graycode-Verfahren eine zusätzliche Grobinformation über die Streifenzuordnung und damit den absoluten Objektabstand auswerfen, zusätzlich zur durch die Phase gegebenen Feininfor- mation.
Ein wesentlicher Punkt für die Aufnahme lebender Objekte bleibt jedoch stets die Robustheit des Verfahrens gegenüber Objektbewegungen. Hierzu werden neuartige Lösungsansätze verfolgt. Zum einen können zwischen den Streifenmustern zwei oder mehrere Grauwert- oder Farbbilder aufgenommen werden. Schon zur Bestimmung der Hauttextur wäre ja mindestens ein separates Bild aufzunehmen. Bei mindestens zwei Bildern lassen sich bereits aus den Verschiebungen einzelner Bildbereiche Bewegungsvektoren errechnen, die es erlauben, weitere Bilder zu rekonstruieren, wie sie für beliebige Zeitpunkte nahe denen der Originalbilder aussehen müssten; mithin also auch für die exakten Zeitpunkte der Streifenaufnahmen. Zum einen lassen sich dann die Streifenbilder bildpartieweise wieder genau überein- ander passen. Zum anderen lassen sich die Grauwerte des Objekts dann aus den Streifenmustern herausrechnen, so dass Objekttexturen nicht das Streifenbild und somit die 3D-Erfassung beeinträchtigen können. Hierzu wäre es natürlich notwendig, die Grauwertbilder mit der gleichen Beleuchtungseinrichtung aufzunehmen wie die Streifenmuster, also z.B. der Infrarot-Blitzeinrichtung. Alle Einzelbilder wären bei Blitzbeleuchtung scharf, auch bei bewegten Objekten. Durch die Anpassung mittels der Bewegungsvektoren gestaltet sich das Ergebnis annähernd so, als wären alle Bilder zum gleichen Zeitpunkt aufgenommen bzw. als hätte das Objekt sich nicht bewegt. Die Ermittlung von Bewegungsvektoren kann auf ähnliche Weise erfolgen, wie dies bereits bei der Kompression von Bewegtbildern z.B. im MPEG-Verfahren seit langem regelmäßig geschieht, dies ist also ein gelöstes Problem.
Werden mehrere Grauwert- oder Farbbilder aufgenommen, steigert sich die Qualität der Bewegungsvektoren, theoretisch ist bei z.B. drei Bildern bereits auch eine Aussage über die Beschleunigung von Objekten möglich. Insgesamt können z.B. bei einer Bildabfolge von 60 Hz, die mit der Hardware problemlos realisierbar ist, bereits in 1/6 Sekunde zehn unterschiedliche Bilder/Muster aufgenommen werden, was bei geeigneter Auswahl hinreichend wäre. Die Hardware ermöglicht zudem sogar noch schnellere Einzelbildfolgen.
Alternativ können Bewegungsvektoren auch aus den Streifenbildern allein bestimmt werden, indem man den Einfluss der Streifenmuster durch geeignete Maßnahmen herausrechnet. Hierzu kommen z.B. Frequenzfilterung (besonders effizient wie oben bereits erklärt), oder Flächenmittelung in Frage ebenso wie die Kompensation der ja bekannten Phasenverschiebung zwischen aufeinender folgenden Streifenmustern. Zum Abschluss sei noch erwähnt, dass auch bereits durch Projektion nur eines einzigen Streifenmusters im Falle im wesentlichen flach verlaufender Messobjekte eine punktuell genaue Höheninformation gewonnen werden kann, da es im Prinzip immer möglich ist, die Mittellinie selbst eines sehr unscharfen Streifens genau zu ermitteln. Lediglich die laterale Dichte der ermittelten Höhenwerte ist dann geringer, was im Falle geringer Flächenunebenheiten kein unbedingter Nachteil ist.
In diesem Falle kann auf eine Bewegungskompensation vollständig verzichtet wer- den, wenn ebenfalls interessierende Farbinformationen zeitgleich aufgenommen werden.
Hierzu wird vorzugsweise eine Kombination von mindestens zwei Kamerachips über einen optischen Strahlteiler an dasselbe Objektiv gekoppelt. Der Strahlteiler ist dabei vorzugsweise wellenlängenselektiv, beispielsweise ausgeführt als Prismenteiler mit Interferenzfiltern.
Alternativ kommt auch ein Kamerachip in Betracht, dessen Farbfiltermatrix neben den drei Grundfarben auch infrarot-empfindliche Sensorelemente enthält. Da Silizium-Kamerachips generell auch infrarotempfindlich sind, kämen diese beispielsweise in Betracht.
Vorzugsweise ermöglicht ein Prozessor extrem schnelle Bildauswertung, insbesondere auch im Zusammenhang mit den genannten neuen Verfahren.
Die Prozessoreinheit aus Signalprozessor und FPGA übernimmt ebenso die Steue- rung des Kamerachips. In einer weiteren Ausführungsform übernimmt sie auch Bildauswertungsfunktionen. Damit steht eine sehr kompakte, stromsparende und preiswerte Einheit zur Abwicklung der gesamten 3D-Objekterfassung zur Verfügung, die komplett in die Projektor/Kamera-Einheit integrierbar ist.
Alternativ käme auch der Einsatz eines modernen Grafikkartenprozessors aus der PC-Technik in Betracht. Hierfür sind Compiler und Entwicklungsumgebungen ebenso verfügbar. Der Stromverbrauch dieser Module, der leicht 100 W erreichen kann, würde jedoch die kompakte Konstruktion der Kameraeinheit in Frage stellen. Signalpro- zessoren bieten für die hier gefragten Aufgaben genügend Rechenleistung und sind energetisch bei weitem sparsamer.
Softwareentwicklungen
Weitere wesentliche Aspekte der Erfindung sind die Bereitstellung der eingebetteten Software für das Hochgeschwindigkeits-Scanning sowie die Einbindung der Gesichtserkennungssoftware inkl. biometrischer Templates und Datenbankfunktion. Außerdem ist die Einbindung des neuartigen Rechnermoduls für das Gerät (d.h. die Anordnung) vorgesehen.
Bei der eingebetteten Software sind verschiedene Spezialfunktionen der Streifenprojektion und Bildauswertung implementiert, wie bereits ausführlich beschrieben. Im Detail ergeben sich die Spezialfunktionen aus den jeweiligen speziellen Anforderungen.
Für die Ablage und Kompression der 3D-Daten wird ebenfalls ein neuartiger Ansatz verfolgt: Anstelle der bisher üblichen 2D-Komprimierung mit zusätzlicher Höheninformation wurde eine bereits im Grundansatz dreidimensionale Methode konzipiert, die eine extrem hohe Kompressionsrate bei sehr guter Qualität ermöglicht. Dabei wird zunächst aus einem zweidimensionalen Histogramm der Flächennormalen unter Ausnutzung der Symmetrieeigenschaften von Gesichtern die ungefähre Räumliche Orientierung des Gesichtes nach Richtung und lateraler Drehung bestimmt.
Anschließend erfolgt die eigentliche Codierung wie folgt:
Die Nasenspitze als vermutlich höchster Punkt wird zum Mittelpunkt eines am Ge- sieht ausgerichteten Polarkoordinaten-Systems gemacht.
Danach werden die Schnitte von Flächen gleicher Radiuswerte (Kugelschalen) mit der Gesichtsfläche in vorzugsweise äquidistante Schritte unterteilt, so dass sich ein Muster weitgehend gleich verteilter Punkte auf der Gesichtsfläche ergibt. Diese Punkte werden jetzt nach einem Algorithmus, vorzugsweise jeweils konzentrisch den Kreisumfang abschreitend und dann jeweils zum nächst äußeren Kreis springend, miteinander verbunden.
Die Punkte bilden dabei vorzugsweise ein Dreiecksmuster mit möglichst äquidistan- ten Seitenlängen. Somit erfolgt gleichermaßen durch diesen Schritt auch eine PoIy- gonisierung der Oberfläche.
Damit ergeben sich aufgrund der relativen Ebenheit und Symmetrie von Gesichtern von Punkt zu Punkt nur geringe Höhenunterschiede, die sich mittels Differenzcodierung bei variabler Wortlänge (Huffmann-Codierung) sehr kompakt darstellen lassen. Der besondere Vorteil der beschriebenen Codierung ist neben ihrer Kompaktheit ihre Lageunabhängigkeit, die eine sehr effiziente Verwendung in Vergleichsalgorithmen zur Gesichtserkennung zulässt.
Die hier ausgeführte exakte und vollständige Codierung und Verwendung der SD- Information zur Gesichtserkennung ist nur mittels einer exakten Messeinrichtung möglich, wie sie in der vorliegenden Erfindung beschrieben ist. Sie ergibt eine neue Qualität der Erkennungssicherheit und unterscheidet sich von allen bekannten Ausführungsformen, die im wesentlichen merkmalsorientiert arbeiten, d.h. sich auf den Vergleich einzelner Gesichtsdetails konzentrieren, erheblich.
Ergänzt werden kann die beschriebene Codierung, die soweit nur Koordinatenwerte erfasst, durch eine Codierung von Farbinformationen. Alternativ oder zusätzlich kommt hierzu auch eine Kompression anhand etablierter Verfahren wie zweidimensionale Diskrete Cosinus Transformation (DCT), bekannt vom JPEG-Verfahren, oder z.B. eine Wavelet-Transformation (z.B. wie JPEG2000) in Frage.
Der sehr schnelle Datenabgleich mit einer beliebig großen Zahl gespeicherter Biometriedaten ist ein weiteres Feld der Entwicklung. Innovative und sehr leistungsfähige Konzepte hierfür wurden ausgearbeitet.
Die Datenbank ist Vorteilhafterweise unter anderem hierarchisch strukturiert, so dass ausgehend von bestimmten Merkmalen zunächst die damit übereinstimmenden, gespeicherten Datensätze selektiert werden, dann weitere Merkmale wiederum eine Untermenge selektieren etc. bis zur Selektion eines einzigen passenden Musters nach einer nur dem Logarithmus der Zahl der gespeicherten Datensätze entsprechenden Suchzeit.
Hierzu ist eine aufgrund der Multidimensionalität der Merkmalshierarchie mehrschichtig anzulegende Baumstruktur aus Zeigern anzulegen. Die Struktur kann vor dem eigentlichen Suchvorgang erstellt und bei Hinzukommen von Datensätzen jeweils nur um die dazu gehörenden Zeiger erweitert werden. Dies entspricht also einer merkmalsorientierten Vorsortierung, die die Anzahl der im aufwendigeren vollständigen 3D-Vergleich anzuschauenden Datensätze drastisch reduziert.
Somit ergibt sich im praktischen Betrieb eine sehr schnelle Suchzeit und auch eine sehr schnelle Speichermöglichkeit für neue Datensätze.
Die Erfindung stellt ein leistungsfähiges und praxistaugliches Gerät für die 3D- Gesichtserkennung und -Wiedererkennung (anhand von Datenbankfunktionen) bereit, das sowohl als Komponente eigener Angebote in Biometriebereich wie auch als OEM-Gerät (OEM = Original Equipment Manufacturer) für Systemintegratoren geeignet ist. Der Stand der Technik wird dabei deutlich übertroffen.
Basierend auf vorhandenem proprietären Know-how wird eine spezielle Streifenprojektionseinheit entwickelt, mit folgenden besonderen Eigenschaften::
• Schnelle Belichtung („Blitzaufnahme")
• Grosse Lichtstärke • Präzise und schnelle Strahl- und Musterformung durch patentierte DLP-
Technologie und Spezial-Hardware
• Verschleißfreiheit durch Einsatz von Halbleiter-Lichtquellen
• Unsichtbar durch Infrarotlicht.
Die Kameraeinheit hierzu weist folgende besondere Merkmale auf:
• Hohe Auflösung
• Sehr schnelle Bildaufnahme durch spezialisierte Hardware
• Infrarot- und Farbfähigkeit • Weitgehende Unempfindlichkeit gegenüber Fremdlicht durch temporale und spektrale Filterung.
Projektor und Kamera werden über eine Rechnereinheit zu einem Sensormodul in- tegriert.
• Entwicklung und Einbettung eines extrem kompakten und energieeffizienten Rechnermoduls. Es wird eine unkonventionelle, neuartige Lösung realisiert.
Die Messsoftware verwendet Algorithmen zur extrem schnellen Berechnung eins präzisen und Artefaktfreien 3D-Abbilds des Gesichtes. Die Software hat dabei den Vorteil, auch schwierige Oberflächendetails souverän berechnen zu können, und dies in sehr kurzer Zeit. Für die Gesichtserkennung werden besonders leistungsfähige Algorithmen eingesetzt. Damit ergeben sich als weitere Vorteile:
• Schnelle Auswertung (<0,1 sek.)
• Störsicherheit
• Hohe geometrische- und Detailgenauigkeit
• Keine Artefakte bei problematischen Objekten (Haare z.B.)
• Keine Irritation durch Brillen oder Barte (Machbarkeit ist nachgewiesen)
Die Erfindung ermöglicht somit eine zuverlässige Gesichtserkennung anhand neuester Algorithmen, welche allen vergleichbaren Systemen des Standes der Technik ü- berlegen ist.
Darüber hinaus wird mit der entwickelten Technologie ein integriertes Sensorkonzept realisiert, das außer der Gesichtserkennung eine Erkennung von Handmustern, Fingerabdrücken und weiterer Merkmale bietet. Es ist zur Zeit einhellige Meinung in allen relevanten Veröffentlichungen, dass die Integration mehrere Merkmale für eine optimale Identifikation der Weg der Zukunft ist. Damit ergeben sich:
• Eindeutige Personen-Identifizierung auch unter schwierigsten Bedingungen
• Extrem hohe Sicherheit gegenüber Betrugsversuchen Abschließend sei angemerkt, dass sich mit der beschriebenen Technologie prinzipiell auch große Messabstände bis zu einigen Metern realisieren lassen und/oder wesentlich größere Messfelder, die die Erfassung von mehreren Personen in einem Blickfeld ermöglichen würden. Auch die 3D-Erfassung von Personengruppen „im Vorbei- gehen" wäre mit der vorliegenden Erfindung möglich. Hohe Lichtstärke, Kameraauflösung, Messgeschwindigkeit, Robustheit der Algorithmen, zentrale Themen auch des hier beantragten Projektes, wären dafür unverzichtbare Voraussetzung.
Spezielle Merkmale, die in einzelne Ausführungsformen der Erfindung integrierbar sind:
• Automatische Polygonisierung und Datenerfassung
• Identifikation und Gesichtserkennung
Die Erfindung beschränkt sich in ihrer Ausführungsform nicht auf die vorstehend angegebenen bevorzugten Ausführungsbeispiele. Vielmehr ist eine Anzahl von Varianten denkbar, die von der erfindungsgemäßen Anordnung und dem erfindungsgemäßen Verfahren auch bei grundsätzlich anders gearteten Ausführungen Gebrauch macht.

Claims

Patentansprüche
1. Verfahren zur 3D-Erfassung von Objekten, vorzugsweise Gesichtern, wo- bei mindestens ein Muster auf das zu erfassende Objekt projiziert und das Objekt durch mindestens einen optischen Sensor aufgezeichnet wird, gekennzeichnet durch
- eine hohe Aufnahmegeschwindigkeit,
- Robustheit des Verfahrens gegen Bewegungen des Objekts und - gleichzeitige präzise Erfassung von 3D-Daten.
2. Verfahren nach Anspruch 1 , dadurch gekennzeichnet, dass zumindest ein Teil von durch den mindestens einen optischen Sensor auf- gezeichneten Daten zur Ermittlung einer Bewegung des Objekts ausgewertet werden und die ermittelte Bewegung bei der 3D-Erfassung des Objekts genutzt wird.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass durch den mindestens einen optischen Sensor das mindestens eine Muster, mindestens ein Grauwert- und/oder mindestens ein Farbbild des Objekts aufgezeichnet wird.
4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass zwischen zwei Aufzeichnungen des mindestens einen Musters mindestens zwei Grauwert- und/oder Farbbilder des Objekts aufgezeichnet werden.
5. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass die ermittelte Bewegung genutzt wird, - um mehrere Musterbilder bildpartieweise zu überlagern und/oder - um die korrekte Phasenbeziehung der Muster für eine korrekte 3D- Abstandsmessung wieder herzustellen.
6. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass die ermittelte Bewegung genutzt wird, um in Abhängigkeit vorgebbarer Parameter die Aufnahme sofort zu wiederholen.
7. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass bei Ermittlung der Bewegung aus Musterbildern der Einfluss der Muster aus den Musterbildern herausgerechnet wird.
8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass der Einfluss der Muster unter Ausnutzung von deren geringer Ortsbandbreite durch ein geeignet dimensioniertes Ortsfrequenzfilter herausgerechnet wird.
9. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass als Muster Streifenmuster, insbesondere Streifenmuster mit unterschiedlich breiten sinusartigen Wellen, verwendet werden.
10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, dass die unterschiedlich breiten sinusartigen Wellen zur eindeutigen Bestimmung des absoluten Objektabstandes verwendet werden.
11. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass das Verfahren weiter eine Lebenderkennung durch Feststellung von Pupillenbewegung, Lidschlag und/oder Mimik umfasst.
12. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass ein 3D-Modell des Objekts erstellt wird, auf welches das mindestens eine Grauwert- oder das mindestens ein Farbbild abgebildet wird.
13. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass bei dem die Objektstruktur in einem 3D-Modell mit einer der Natur des Objektes angepassten Gitternetzstruktur bzw. entsprechendenden Punktwol- kenstruktur codiert wird.
14. Verfahren nach einem der vorangehenden Ansprüche, bei dem dadurch gekennzeichnet, dass vom Gesichtsmittelpunkt bzw. höchsten Punkt, vorzugsweise der Nasen- spitze, ausgehend ein Kugel- oder Zylinder-Koordinatensystem gebildet wird, in dem die zu codierenden Messpunkte positioniert werden.
15. Verfahren nach einem der vorangehenden Ansprüche, bei dem dadurch gekennzeichnet, dass Schnitte von Flächen vorzugsweise gleicher Radiuswerte mit der Gesichtsfläche in vorzugsweise äquidistante Schritte unterteilt werden, so dass sich ein Muster weitgehend gleich verteilter Punkte auf der Gesichtsfläche ergibt und die Punkte vorzugsweise ein Dreiecksmuster mit möglichst äqui- distanten Seitenlängen bilden.
16. Verfahren nach einem der vorangehenden Ansprüche, wobei dadurch gekennzeichnet, dass die Punktkoordinaten mittels Differenzcodierung bei variabler Wortlänge (Huffmann-Codierung) kompakt dargestellt werden.
17. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass ein Vergleich von 3D-Strukturen erfasster Objekte, vorzugsweise erfasster Gesichter, mit anderen 3D-Strukturen durchgeführt wird, wobei vor einem Vergleich der kompletten 3D-Struktur eine Vorselektion anhand eines oder mehrerer Einzelmerkmale erfolgt.
18. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass das Verfahren weiter die Erzeugung eines Passbildes umfasst.
19. Verfahren nach Anspruch 12, dadurch gekennzeichnet, dass das Verfahren in einem Videokonferenzsystem eingesetzt wird, um Bilder der Teilnehmer der Videokonferenz auf Wiedergabegeräten der Videokonferenz auszurichten.
20. Anordnung zur 3D-Erfassung von Objekten, wobei die Anordnung mindestens eine Datenverarbeitungseinrichtung, mindestens einen Musterprojek- tor und mindestens einen optischen Sensor umfasst und derart eingerichtet ist, dass ein Verfahren zur 3D-Erfassung gemäß der Ansprüche 1 bis 19 ausführbar ist.
21. Anordnung nach Anspruch 20, dadurch gekennzeichnet, dass der Musterprojektor als Pico-Projektor ausgebildet ist.
22. Anordnung nach Anspruch 20 oder 21 , dadurch gekennzeichnet, dass die Anordnung mit einem Videokonferenzsystem oder einem Passbildautomaten kombiniert ist.
23. Computerprogramm, das es einer Datenverarbeitungseinrichtung ermöglicht, nachdem es in Speichermittel der Datenverarbeitungseinrichtung ge- laden worden ist, ein Verfahren zur 3D-Erfassung gemäß einem der Ansprüche 1 bis 19 durchzuführen.
24. Computerlesbares Speichermedium, auf dem ein Programm gespeichert ist, das es einer Datenverarbeitungseinrichtung ermöglicht, nachdem es in Speichermittel der Datenverarbeitungseinrichtung geladen worden ist, ein Verfahren zur 3D-Erfassung gemäß einem der Ansprüche 1 bis 19 durchzuführen.
25. Verfahren, bei dem ein Computerprogramm nach Anspruch 23 aus einem elektronischen Datennetz, wie beispielsweise aus dem Internet, auf eine an das Datennetz angeschlossene Datenverarbeitungseinrichtung heruntergeladen wird.
PCT/EP2009/059066 2008-07-15 2009-07-15 Verfahren und anordnung zur 3d-erfassung von objekten sowie ein entsprechendes computerprogramm und ein computerlesbares speichermedium WO2010007094A2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102008040438 2008-07-15
DE102008040438.1 2008-07-15

Publications (2)

Publication Number Publication Date
WO2010007094A2 true WO2010007094A2 (de) 2010-01-21
WO2010007094A3 WO2010007094A3 (de) 2010-03-11

Family

ID=41445681

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2009/059066 WO2010007094A2 (de) 2008-07-15 2009-07-15 Verfahren und anordnung zur 3d-erfassung von objekten sowie ein entsprechendes computerprogramm und ein computerlesbares speichermedium

Country Status (1)

Country Link
WO (1) WO2010007094A2 (de)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102010060448A1 (de) * 2010-11-09 2012-05-10 Eberhard Lange Projektionsvorrichtung zum Projizieren eines zu projizierenden Objekts
DE102011004787A1 (de) * 2011-02-25 2012-08-30 Bundesdruckerei Gmbh Identifikationsvorrichtung und Identifikationsausweis
WO2013017618A1 (de) * 2011-08-01 2013-02-07 Gfmesstechnik Gmbh Optische oberflächenabtastung mit strukturierter beleuchtung
CN108304801A (zh) * 2018-01-30 2018-07-20 亿慧云智能科技(深圳)股份有限公司 一种防欺骗的人脸识别方法、存储介质及人脸识别装置
US10452935B2 (en) 2015-10-30 2019-10-22 Microsoft Technology Licensing, Llc Spoofed face detection
DE102019117237A1 (de) * 2019-06-26 2020-12-31 Ifm Electronic Gmbh Verfahren zur Bedienung einer an ein Bussystem der Automatisierungstechnik angeschlossenen Einheit
DE102019128402A1 (de) * 2019-10-21 2021-04-22 Ifm Electronic Gmbh Verfahren zur Bedienung einer Einheit eines Bussystems der Automatisierungstechnik

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
S. KÖNIG ET AL: "Image-Based motion Compensation for Structured Light Scanning of Dynamic Surfaces" DAGSTUHL SEMINAR PROCEEDINGS: VISUAL COMPUTING - CONVERGENCE OF COMPUTER GRAPHICS AND COMPUTER VISION 2007, 2007, Seiten 1-4, XP002561921 Gefunden im Internet: URL:http://drops.dagstuhl.de/opus/volltexte/2008/1502/> [gefunden am 2010-01-05] *
THIBAUT WEISE ET AL: "Fast 3D Scanning with Automatic Motion Compensation" COMPUTER VISION AND PATTERN RECOGNITION, 2007. CVPR '07. IEEE CONFERENCE ON, IEEE, PISCATAWAY, NJ, USA, 1. Juni 2007 (2007-06-01), Seiten 1-8, XP031114548 ISBN: 978-1-4244-1179-5 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102010060448A1 (de) * 2010-11-09 2012-05-10 Eberhard Lange Projektionsvorrichtung zum Projizieren eines zu projizierenden Objekts
DE102010060448B4 (de) * 2010-11-09 2021-07-01 Eberhard Lange Projektionsvorrichtung zum Projizieren eines zu projizierenden Objekts
DE102011004787A1 (de) * 2011-02-25 2012-08-30 Bundesdruckerei Gmbh Identifikationsvorrichtung und Identifikationsausweis
WO2013017618A1 (de) * 2011-08-01 2013-02-07 Gfmesstechnik Gmbh Optische oberflächenabtastung mit strukturierter beleuchtung
US10452935B2 (en) 2015-10-30 2019-10-22 Microsoft Technology Licensing, Llc Spoofed face detection
CN108304801A (zh) * 2018-01-30 2018-07-20 亿慧云智能科技(深圳)股份有限公司 一种防欺骗的人脸识别方法、存储介质及人脸识别装置
DE102019117237A1 (de) * 2019-06-26 2020-12-31 Ifm Electronic Gmbh Verfahren zur Bedienung einer an ein Bussystem der Automatisierungstechnik angeschlossenen Einheit
DE102019128402A1 (de) * 2019-10-21 2021-04-22 Ifm Electronic Gmbh Verfahren zur Bedienung einer Einheit eines Bussystems der Automatisierungstechnik
DE102019128402A8 (de) * 2019-10-21 2021-06-17 Ifm Electronic Gmbh Verfahren zur Bedienung einer Einheit eines Bussystems der Automatisierungstechnik

Also Published As

Publication number Publication date
WO2010007094A3 (de) 2010-03-11

Similar Documents

Publication Publication Date Title
EP1693781B1 (de) Verfahren und Anordnung zur optischen Aufnahme biometrischer Fingerdaten
EP1073988B1 (de) System zur berührungslosen hand- und fingerlinien-erkennung
EP2101867B1 (de) Sehhilfe mit dreidimensionaler bilderfassung
DE102012112322B4 (de) Verfahren zum optischen Abtasten und Vermessen einer Umgebung
WO2010007094A2 (de) Verfahren und anordnung zur 3d-erfassung von objekten sowie ein entsprechendes computerprogramm und ein computerlesbares speichermedium
DE112005002690B4 (de) Verfahren und System zur optischen Kantenbestimmung
DE19983341B4 (de) Verfahren und Einrichtung zur Erfassung stereoskopischer Bilder unter Verwendung von Bildsensoren
EP1971820B1 (de) Erstellung eines abstandsbildes
DE102016002398B4 (de) Optischer 3D-Sensor zur schnellen und dichten Formerfassung
DE102012112321B4 (de) Vorrichtung zum optischen Abtasten und Vermessen einer Umgebung
Koenderink et al. Shape constancy in pictorial relief
WO2015117907A2 (de) Selektiv-adaptiver datenprozessor
DE102012108567A1 (de) Verfahren und Vorrichtung zum Erlangen von Tiefeninformationen unter Verwendung eines Lichtmusters
DE102008031942A1 (de) Verfahren und Vorrichtung zur 3D-Digitalisierung eines Objekts
DE112010004767T5 (de) Punktwolkedaten-Verarbeitungsvorrichtung, Punktwolkedaten-Verarbeitungsverfahren und Punktwolkedaten-Verarbeitungsprogramm
WO2015040001A2 (de) Vorrichtung, system und verfahren zum identifizieren einer person
DE102008054985A1 (de) Verfahren und Vorrichtung zur optischen Vermessung von dreidimensionalen Objekten mittels einer dentalen 3D-Kamera unter Verwendung eines Triangulationsverfahrens
DE102008002725B4 (de) Verfahren und Vorrichtung zur 3D-Rekonstruktion
CN104661585B (zh) 表征皮肤体积的方法
DE112017007303B4 (de) Gesichtserkennungsvorrichtung
DE102006042311A1 (de) Verfahren und Vorrichtung zur dreidimensionalen Vermessung von Objekten in einem erweiterten Winkelbereich
DE212018000158U1 (de) Augenblickverfolgung
CN114120068A (zh) 图像处理方法、装置、电子设备、存储介质及计算机产品
WO2017085325A1 (de) Vorrichtung und verfahren zur überlagerung zumindest eines teils eines objekts mit einer virtuellen oberfläche
DE10359104B3 (de) Verfahren zur dynamischen, dreidimensionalen Erfassung und Darstellung einer Oberfläche

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09780635

Country of ref document: EP

Kind code of ref document: A2

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 09780635

Country of ref document: EP

Kind code of ref document: A2