WO2009027307A1 - Method for automatically detecting at least the type and/or location of a gesture formed using an appendage, particularly a hand gesture - Google Patents

Method for automatically detecting at least the type and/or location of a gesture formed using an appendage, particularly a hand gesture Download PDF

Info

Publication number
WO2009027307A1
WO2009027307A1 PCT/EP2008/060934 EP2008060934W WO2009027307A1 WO 2009027307 A1 WO2009027307 A1 WO 2009027307A1 EP 2008060934 W EP2008060934 W EP 2008060934W WO 2009027307 A1 WO2009027307 A1 WO 2009027307A1
Authority
WO
WIPO (PCT)
Prior art keywords
gesture
limb
dimensional
predetermined
type
Prior art date
Application number
PCT/EP2008/060934
Other languages
German (de)
French (fr)
Inventor
Markus Schlattmann
Reinhard Klein
Original Assignee
Rheinische Friedrich-Wilhelms-Universität
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rheinische Friedrich-Wilhelms-Universität filed Critical Rheinische Friedrich-Wilhelms-Universität
Publication of WO2009027307A1 publication Critical patent/WO2009027307A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/564Depth or shape recovery from multiple images from contours
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Definitions

  • the invention relates to a method for automatically detecting at least the type and / or position of a gesture formed with a limb, in particular a hand gesture, wherein at the same time a plurality of two-dimensional images of the limb is detected from different directions.
  • gestures in particular to control procedures, is of great interest to various technical fields. In general, it is particularly important to recognize the nature of the gesture on the one hand and its location in space on the other hand.
  • recognizing the nature of the gesture it is meant to recognize which gesture it is, e.g. may be defined by a hand gesture over whether the respective fingers of the hand are closed or opened.
  • the location of the gesture in space may be given by its position and / or orientation and is thus e.g. defines where a predetermined finger points and where it is located.
  • position should be understood to mean, depending on the application, only the orientation in space, only the position in space or together the orientation and the position in space.
  • this object is achieved in that the two-dimensional images are combined into a three-dimensional image and the three-dimensional image is analyzed with regard to at least one gesture feature.
  • two-dimensional image here means any image that has at least two dimensions but is not a three-dimensional image, of course, the conventional two-dimensional images that can be captured with conventional and widely used cameras
  • 2.5-dimensional images are known which provide depth values in addition to the two-dimensional image, ie such images are also considered as two-dimensional images in the present case. but provides the analysis of a gesture feature in three-dimensional.
  • the captured two-dimensional images may be subjected to different processing steps before being combined into the three-dimensional image.
  • the two-dimensional be at least segmented before the combination of the three-dimensional image, ie a separation of the region of the limb from the background takes place.
  • a three-dimensional reconstruction of the limb is performed.
  • This three-dimensional reconstruction of the limb does not have to correspond to a "perfect", ie complete, image of the limb, rather, this three-dimensional reconstruction of the limb should be a three-dimensional representation of the limb that allows an analysis of at least one gesture feature.
  • the analysis regarding at least one gesture feature can be done in different ways. According to a preferred embodiment of the invention, however, it is provided that in the analysis of at least one gesture feature, the three-dimensional reconstruction of the limb is analyzed for protrusions. Outloos are understood to be excellent, external points that represent, as it were, the highest elevations of the analyzed three-dimensional structure. In particular, it is possible in this way to determine the location or orientation of fingertips, which can be an essential prerequisite for determining the type and position of a hand gesture.
  • the analysis of the outputs can also be carried out completely differently. According to a preferred embodiment of the invention, however, it is provided that the protrusions are then analyzed, whether they are based on an approximation of the convex hull the limb lie. This also serves a possible assignment of a projection to a fingertip.
  • the three-dimensional position of the voxels (three-dimensional pixels or pixels) of the protrusions are projected into the two-dimensional images. If they are there on the edge of the picture, it is to be assumed that the corresponding protrusions are probably not formed by fingertips, but by artifacts, namely z. B. by a projecting into the picture, obliquely cut arm. Accordingly, such positions for detecting fingertips can be eliminated.
  • gestures can very much be based on the fact that the spearheads are characterized according to various aspects.
  • the protrusions are characterized at least as a function of their distance to a predetermined point, preferably in dependence on the local center of mass. In this way, one can determine the "furthest" excerpts, in order ultimately to arrive at the determination of fingertips.
  • the protrusions are used to assign the gesture formed by the limb of a predetermined group of gesture types, preferably exactly one gestures gestesten type. This ultimately constitutes the actual recognition of the type of gesture, so that according to a preferred refinement of the invention it can thus also be provided that a predetermined control of a method automatically takes place depending on the predetermined group of gesture types or the predetermined gesture type. to be led. So it is z. B. conceivable, depending on the detected type of gesture to perform a predetermined type of control.
  • a "show” gesture it may be provided, for example, to change the viewing direction in the context of a visual simulation or to control a vehicle, ie to determine its direction of travel. It is also preferably provided as a function of the detected position of the gesture in FIG In the example of the "show” gesture, it can thus be provided, for example, that the direction of the pointing in the context of this control indicates what the viewing direction should be or in which direction the ride should take place.
  • the detection of the gesture and the control of the method take place in real time.
  • the detection and evaluation of at least 25 images per second can be provided. In this way, sophisticated applications are possible, such as the previously mentioned control of a vehicle.
  • the method and possibly also the control by the detected gestures require an initialization.
  • the gesture recognition and in particular also the control are started automatically as soon as a gesture has been detected and assigned to a predetermined group of gestures or a predetermined gesture.
  • a warning is given, preferably as an optical and / or acoustic signal. In this way, the user is informed that currently no gesture control is possible and he resumed the procedure z. B. must bring his hand back into the area in which the majority of two-dimensional images of the limb from different directions can be detected.
  • the limb can be provided with markers. According to a preferred embodiment of the invention, however, it is provided that the gesture is detected without attached to the limb marker. This can be achieved in particular by the fact that no analysis of the acquired two-dimensional images takes place, but before the feature gesture analysis a combination of the two-dimensional images into the three-dimensional one is carried out.
  • the method described above allows the tracking of the spatial position, namely the position and the orientation, for. B, a human hand, in terms of several different gestures, ensuring a natural and efficient human-machine interaction.
  • this method has the following advantages:
  • the initialization can be fully automatic, which means that the tracing of the hand can start immediately as soon as the user moves his hand into the work area. For initialization so no special position or gesture of the hand is required.
  • the calculation can be done in real time so that the method can be used for direct interactions. Even if the user changes, no changes to the settings are required,
  • the acquisition of the two-dimensional images of the limb can be done in different ways. According to a preferred embodiment of the invention, however, three or more cameras are provided which observe the limb from different directions in a special arrangement.
  • a three-dimensional reconstruction of the limb is first determined from the camera images, the two-dimensionally acquired information being brought into a consistent three-dimensional representation. These are z. B. the images of all cameras synchronously read and each divided into a region that corresponds to the limb, and the background, so segmented.
  • the regions of the limb are projected from the point of view of the respective camera through the three-dimensional space, so that a rough three-dimensional reconstruction of the hand results in the intersection of the three projections.
  • all voxels belong to the three-dimensional reconstruction of the hand, for which the projections lie in all two-dimensional camera images within the respective hand region.
  • reconstruction of the visual envelope or "shape-from-silhouettes" technique is also referred to as reconstruction of the visual envelope or "shape-from-silhouettes" technique.
  • z. B are searched only for projections that can be formed by fingertips and lie on a k-DOP (discrete oriented polytope / discrete oriented polytope), an approximation of the convex hull of the limb.
  • a k-DOP is a bounding volume constructed by moving k well-oriented planes from infinity until they touch the three-dimensional reconstruction. The k-DOP is then the convex polytope resulting from the intersection of the half-spaces delimited by these k-planes. For each of these levels there is a voxel belonging to the three-dimensional reconstruction that touches the plane and thus describes its position.
  • a 26-DOP is used so that there are 26 levels and thus 26 voxels are determined. These 26 voxels form the set of possible features for the extraction of fingertip features. These voxels are now classified by analyzing their local environments. For a preferred method, for example, it is envisaged to perform a simple analysis such that only the distance to the local center of mass is used for characterization, as stated above. If the distance is very large, then the voxel or the feature is located on a very prominent part of the three-dimensional reconstruction and thus probably on one of the desired fingertips,
  • Fig. 4 histograms for the determined extent of the protrusions in different
  • FIG. 1 shows the four types of hand gestures that can be detected by means of the presently described method according to the preferred exemplary embodiment of the invention. From left to right are the gestures “palm”, “grasp”, “show A” and “show B”. As can be seen from FIG. 1, each hand gesture can be assigned to "furthest projecting" finger tips, which are each marked with an arrow in FIG.
  • protruding fingertips are of particular interest in accordance with the presently described preferred embodiment, as one can unequivocally conclude one of the four predetermined gesture modes via the detection of the respective fingertip and the additional detection of the direction of the corresponding finger. Furthermore, if the positions of two protruding fingertips relative to the mass of the hand are known, the orientation, ie the position and the orientation of the hand, can be determined.
  • an algorithm is used in the present case with which it is possible to extract all the required information in order to recognize both the gesture and its orientation in space.
  • This information is calculated on the basis of a three-dimensional binary voxel-lattice of the visual envelope, which in turn has been created on the basis of the segmented two-dimensional images of the individual cameras.
  • three cameras are used, which are arranged in one plane.
  • the angle between the shooting directions of adjacent cameras is 60 °, so it is avoided that a camera is detected by another camera as a background. It has been found that this arrangement is sufficient to achieve a sufficiently accurate determination of the visual envelope of the hand.
  • the segmented two-dimensional images (10), as shown schematically in FIG. 2, are combined to form the visual envelope (11) of the hand.
  • Fingertips are defined as the voxels of the visual envelope touching one of the levels of the surrounding DOP.
  • 26-DOP as shown in FIG. 3, on the right, 26-DOP points of the visual envelope in the three-dimensional, which are shown in FIG. 3, as far as they are visible, are indicated by arrows.
  • the corresponding two-dimensional representation (12) is shown on the left.
  • the fingertips may be considered endpoints of protruding areas of the voxel lattice.
  • a measure for the emergence must be found. In the present case, the distance of the respective point from the local center of gravity is used as a measure.
  • the identification of the thumb in the present case is based on the statement that the maximum geodesic distance between the thumb tip and all other possible candidates is less than the correspondingly calculated maximum external distance for the other fingertips. Since the calculation of the exact geodetic distance in real-time applications is currently practically impossible, this is currently estimated. Then it has to be determined whether a finger not grasped as a thumb is the middle finger or the index finger. This is achieved by calculating a covariance matrix locally around the fingertip using a GPU algorithm. The ratio between the largest and the second largest eigenvalue of the covariance matrix makes it possible to determine the identity of the finger. If it is determined that this finger is the index finger, the direction of the finger can be determined at least approximately.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Abstract

The invention relates to a method for automatically detecting at least the type and/or the location (position and orientation) of a gesture made using an appendage, particularly a hand gesture, a plurality of two-dimensional images of the appendage being captured simultaneously from different directions. According to the invention, the two-dimensional images are combined into a three-dimensional image, and the three-dimensional image is analyzed with regard to at least one gesture characteristic. In this manner, a method for automatically recognizing gestures is disclosed, which can be performed in a simple and reliable manner in real time, and thus allows complex process controls, such as the control of a vehicle.

Description

Rheinische Friedrich-Wilhelms-Universität Bonn Düsseldorf, 20. August 2008 Rheinische Friedrich-Wilhelms-University Bonn Dusseldorf, 20 August 2008
Unser Zeichen: UD 40094/SAMOur sign: UD 40094 / SAM
Rheinische Friedrich- Wilhelms-UniversitätRheinische Friedrich-Wilhelms-Universität
Regina-Pacis-Weg 3Regina-Pacis-Weg 3
53113 Bonn53113 Bonn
Verfahren zur automatischen Erkennung wenigstens der Art und/oder der Lage einer mit einer Gliedmaße gebildeten Geste, insbesondere einer HandgesteMethod for automatic recognition of at least the type and / or the position of a gesture formed with a limb, in particular a hand gesture
Die Erfindung betrifft ein Verfahren zur automatischen Erkennung wenigstens der Art und/oder der Lage einer mit einer Gliedmaße gebildeten Geste, insbesondere einer Handgeste, wobei zeitgleich eine Mehrzahl zweidimensionaler Bilder der Gliedmaße aus unterschiedlichen Richtungen erfasst wird.The invention relates to a method for automatically detecting at least the type and / or position of a gesture formed with a limb, in particular a hand gesture, wherein at the same time a plurality of two-dimensional images of the limb is detected from different directions.
Die Erkennung von Handgesten, insbesondere um Verfahrensabläufe zu steuern, ist für ver- schiedene technische Gebiete von großem Interesse. Dabei geht es im Allgemeinen insbesondere darum, einerseits die Art der Geste zu erkennen und andererseits deren Lage im Raum. Mit der Erkennung der Art der Geste ist gemeint, zu erkennen, um welche Geste es sich handelt, was z.B. bei einer Handgeste darüber definiert sein kann, ob die jeweiligen Finger der Hand geschlossen oder geöffnet sind. Die Lage der Geste im Raum kann über deren Position und/oder Orientierung gegeben sein und ist somit z.B. darüber definiert, wohin ein vorbestimmter Finger zeigt und an welcher Position er sich befindet. Das bedeutet insbesondere, dass vorliegend der Begriff Lage so zu verstehen ist, dass er je nach Anwendungsfall nur die Orientierung im Raum, nur die Position im Raum oder gemeinsam die Orientierung und die Position im Raum meint.The detection of hand gestures, in particular to control procedures, is of great interest to various technical fields. In general, it is particularly important to recognize the nature of the gesture on the one hand and its location in space on the other hand. By recognizing the nature of the gesture, it is meant to recognize which gesture it is, e.g. may be defined by a hand gesture over whether the respective fingers of the hand are closed or opened. The location of the gesture in space may be given by its position and / or orientation and is thus e.g. defines where a predetermined finger points and where it is located. This means, in particular, that in the present case the term position should be understood to mean, depending on the application, only the orientation in space, only the position in space or together the orientation and the position in space.
Einigermaßen verlässliche Gestenerkennungssysteme, die sowohl die Erkennung der Art der Geste als auch deren Lage erlauben, existieren bisher entweder nur im zweidimensionalen Raum oder benötigen erheblichen technischen Aufwand und Hilfsmittel, wie an verschiedenen Punkten der Gliedmaße, wie an den Fingerspitzen einer Hand, befestigte Marker. Im Ergebnis sind damit keine Verfahren und Systeme bekannt, mit denen im dreidimensionalen Raum verlässlich die Erkennung von Art und Orientierung einer Geste durchgeführt werden kann.Reasonably reliable gesture recognition systems, which allow both the recognition of the type of gesture and its location, exist so far either only in two-dimensional Space or require considerable technical effort and aids, such as attached to various points of the limb, such as at the fingertips of a hand, attached markers. As a result, no methods and systems are known with which the detection of the type and orientation of a gesture can be reliably performed in three-dimensional space.
Damit ist es die Aufgabe der Erfindung, ein derartiges Verfahren zur automatischen Gestenerkennung anzugeben, das auf einfache und verlässliche Weise in Echtzeit durchführbar ist.Thus, it is the object of the invention to provide such a method for automatic gesture recognition, which can be carried out in a simple and reliable manner in real time.
Ausgehend von dem eingangs beschriebenen Verfahren ist diese Aufgabe dadurch gelöst, dass die zweidimensionalen Bilder zu einem dreidimensionalen Bild kombiniert werden und das dreidimensionale Bild hinsichtlich wenigstens eines Gestenmerkmals analysiert wird.Based on the method described above, this object is achieved in that the two-dimensional images are combined into a three-dimensional image and the three-dimensional image is analyzed with regard to at least one gesture feature.
Es ist damit ein wesentlicher Punkt der Erfindung, vorerst zweidimensionale Bilder zu gene- rieren und die zweidimensionalen Bilder dann zu einem dreidimensionalen Bild zu kombinieren, das dann zur Analyse genutzt wird. Dabei wird vorliegenden mit dem Begriff „zweidimensionales Bild" jedes Bild gemeint, das wenigstens zwei Dimensionen aufweist, jedoch kein dreidimensionales Bild ist. Die sind einerseits natürlich die herkömmlichen zweidimensionalen Bilder, wie sie mit üblichen und weit verbreiteten Kameras aufgenommen werden können. Insbesondere sind darüber hinaus jedoch sogenannte 2,5-dimensionale Bilder bekannt, die neben dem zweidimensionalen Bild Tiefenwerte bereitstellen. Auch solche Bilder werden vorliegend also als zweidimensionale Bilder angesehen. Die Erfindung geht damit einen völlig neuen Weg, indem sie erstmals keine Analyse von Merkmalen im Zweidimensionalen erfordert, sondern die Analyse eines Gestenmerkmals im Dreidimensionalen vorsieht.It is therefore an essential point of the invention to generate two-dimensional images for the time being and then to combine the two-dimensional images into a three-dimensional image, which is then used for analysis. The term "two-dimensional image" here means any image that has at least two dimensions but is not a three-dimensional image, of course, the conventional two-dimensional images that can be captured with conventional and widely used cameras In addition, however, so-called 2.5-dimensional images are known which provide depth values in addition to the two-dimensional image, ie such images are also considered as two-dimensional images in the present case. but provides the analysis of a gesture feature in three-dimensional.
Grundsätzlich können die erfassten zweidimensionalen Bilder vor ihrer Kombination zu dem dreidimensionalen Bild unterschiedlichen Verarbeitungsschritten unterworfen werden. Gemäß einer bevorzugten Weiterbildung der Erfindung ist jedoch vorgesehen, dass die zweidimensi- onalen Bilder vor der Kombination zu dem dreidimensionalen Bild zumindest segmentiert werden, d. h. eine Trennung der Region der Gliedmaße vom Hintergrund erfolgt.In principle, the captured two-dimensional images may be subjected to different processing steps before being combined into the three-dimensional image. According to a preferred development of the invention, however, it is provided that the two-dimensional be at least segmented before the combination of the three-dimensional image, ie a separation of the region of the limb from the background takes place.
Gemäß einer bevorzugten Weiterbildung der Erfindung ist ferner vorgesehen, dass bei der Kombination der zweidimensionalen Bilder zu dem dreidimensionalen Bild eine dreidimensionale Rekonstruktion der Gliedmaße durchgeführt wird. Diese dreidimensionale Rekonstruktion der Gliedmaße muss dabei keinem „perfekten", also vollständigen Bild der Gliedmaße entsprechen. Vielmehr soll es sich bei dieser dreidimensionalen Rekonstruktion der Gliedmaße um eine derartige dreidimensionale Darstellung derselben handeln, die eine Analyse hin- sichtlich wenigstens eines Gestenmerkmals zulässt.According to a preferred embodiment of the invention, it is further provided that in the combination of the two-dimensional images to the three-dimensional image, a three-dimensional reconstruction of the limb is performed. This three-dimensional reconstruction of the limb does not have to correspond to a "perfect", ie complete, image of the limb, rather, this three-dimensional reconstruction of the limb should be a three-dimensional representation of the limb that allows an analysis of at least one gesture feature.
Grundsätzlich sind verschiedene Methoden zur Erlangung einer dreidimensionalen Rekonstruktion der Gliedmaße möglich. Gemäß einer bevorzugten Weiterbildung der Erfindung ist vorgesehen, dass bei der dreidimensionalen Rekonstruktion der Gliedmaße deren visuelle Hülle (visual hüll) ermittelt wird.Basically, various methods for obtaining a three-dimensional limb reconstruction are possible. According to a preferred embodiment of the invention, it is provided that in the three-dimensional reconstruction of the limb whose visual envelope (visual envelope) is determined.
Die Analyse hinsichtlich wenigstens eines Gestenmerkmals kann auf unterschiedliche Weise erfolgen. Gemäß einer bevorzugten Weiterbildung der Erfindung ist jedoch vorgesehen, dass bei der Analyse wenigstens eines Gestenmerkmals die dreidimensionale Rekonstruktion der Gliedmaße auf Herausragungen analysiert wird. Als Herausragungen werden dabei ausgezeichnete, außenliegende Punkte verstanden, die sozusagen höchste Erhebungen der analysierten dreidimensionalen Struktur darstellen. Insbesondere ist es auf diese Weise möglich, den Ort bzw. die Orientierung von Fingerspitzen zu ermitteln, was eine wesentliche Voraussetzung sein kann, um die Art und Lage einer Handgeste zu ermitteln.The analysis regarding at least one gesture feature can be done in different ways. According to a preferred embodiment of the invention, however, it is provided that in the analysis of at least one gesture feature, the three-dimensional reconstruction of the limb is analyzed for protrusions. Outloos are understood to be excellent, external points that represent, as it were, the highest elevations of the analyzed three-dimensional structure. In particular, it is possible in this way to determine the location or orientation of fingertips, which can be an essential prerequisite for determining the type and position of a hand gesture.
Auch die Analyse der Herausragungen kann gänzlich unterschiedlich durchgeführt werden. Gemäß einer bevorzugten Weiterbildung der Erfindung ist jedoch vorgesehen, dass die Herausragungen daraufhin analysiert werden, ob sie auf einer Approximation der konvexen Hülle der Gliedmaße liegen. Auch dies dient einer möglichen Zuordnung einer Herausragung zu einer Fingerspitze.The analysis of the outputs can also be carried out completely differently. According to a preferred embodiment of the invention, however, it is provided that the protrusions are then analyzed, whether they are based on an approximation of the convex hull the limb lie. This also serves a possible assignment of a projection to a fingertip.
Zur Zuordnung einer Herausragung zu z. B. einer Fingerspitze kann es ausreichend sein, dass festgestellt wird, dass diese auf einer Approximation der konvexen Hülle der Gliedmaße liegt. Gemäß einer bevorzugten Weiterbildung der Erfindung ist jedoch vorgesehen, dass die dreidimensionale Position der Voxel (dreidimensionale Pixel bzw. Bildpunkte) der Herausragun- gen in die zweidimensionalen Bilder projeziert werden. Falls sie dort nämlich am Bildrand liegen, so ist davon auszugehen, dass die entsprechenden Herausragungen wahrscheinlich nicht von Fingerspitzen gebildet sind, sondern durch Artefakte, nämlich z. B. durch einen ins Bild ragenden, schräg abgeschnittenen Arm. Dementsprechend können derartige Positionen zur Erfassung von Fingerspitzen eliminiert werden.To assign a projection to z. As a fingertip, it may be sufficient that it is found on an approximation of the convex hull of the limb. According to a preferred embodiment of the invention, however, it is provided that the three-dimensional position of the voxels (three-dimensional pixels or pixels) of the protrusions are projected into the two-dimensional images. If they are there on the edge of the picture, it is to be assumed that the corresponding protrusions are probably not formed by fingertips, but by artifacts, namely z. B. by a projecting into the picture, obliquely cut arm. Accordingly, such positions for detecting fingertips can be eliminated.
Die Gesten erkennung kann ganz wesentlich darauf beruhen, dass die Herausragungen nach verschiedenen Aspekten charakterisiert werden. Gemäß einer bevorzugten Weiterbildung der Erfindung ist in diesem Zusammenhang vorgesehen, dass die Herausragungen wenigstens in Abhängigkeit von ihrem Abstand zu einem vorbestimmten Punkt, vorzugsweise in Abhängigkeit zum lokalen Masseschwerpunkt, charakterisiert werden. Auf diese Weise kann man nämlich die „weitesten" Herausragungen ermitteln, um letztlich zur Bestimmung von Fingerspit- zen zu gelangen.The recognition of gestures can very much be based on the fact that the spearheads are characterized according to various aspects. According to a preferred embodiment of the invention is provided in this context that the protrusions are characterized at least as a function of their distance to a predetermined point, preferably in dependence on the local center of mass. In this way, one can determine the "furthest" excerpts, in order ultimately to arrive at the determination of fingertips.
Im Ergebnis ist es gemäß einer bevorzugten Weiterbildung der Erfindung insbesondere vorgesehen, dass die Herausragungen verwendet werden, um die mittels der Gliedmaße gebildete Geste einer vorbestimmten Gruppe von Gestenarten, vorzugsweise genau einer vorbestimm- ten Gestenart, zuzuordnen. Dies stellt letztlich die eigentliche Erkennung der Art der Geste dar, so dass es damit gemäß einer bevorzugten Weiterbildung der Erfindung auch vorgesehen sein kann, dass in Abhängigkeit von der vorbestimmten Gruppe von Gestenarten bzw. der vorbestimmten Gestenart automatisch eine vorbestimmte Steuerung eines Verfahrens durch- geführt wird. So ist es z. B. denkbar, in Abhängigkeit von der erfassten Art der Geste eine vorbestimmte Art der Steuerung durchzuführen. Wird eine „Zeigen"-Geste erfasst, so kann z.B. vorgesehen sein, die Blickrichtung im Rahmen einer visuellen Simulation zu ändern oder ein Fahrzeug zu steuern, also dessen Fahrtrichtung zu bestimmen, Ferner ist vorzugsweise vorgesehen, in Abhängigkeit von der erfassten Lage der Geste im Raum diese Steuerung tatsächlich durchzuführen. Am Beispiel der „Zeigen"-Geste kann damit z.B. vorgesehen sein, dass die Richtung des Zeigens im Rahmen dieser Steuerung angibt, wie die Blickrichtung sein soll bzw. in welche Richtung die Fahrt erfolgen soll.As a result, it is provided according to a preferred embodiment of the invention in particular that the protrusions are used to assign the gesture formed by the limb of a predetermined group of gesture types, preferably exactly one gestures gestesten type. This ultimately constitutes the actual recognition of the type of gesture, so that according to a preferred refinement of the invention it can thus also be provided that a predetermined control of a method automatically takes place depending on the predetermined group of gesture types or the predetermined gesture type. to be led. So it is z. B. conceivable, depending on the detected type of gesture to perform a predetermined type of control. If a "show" gesture is detected, it may be provided, for example, to change the viewing direction in the context of a visual simulation or to control a vehicle, ie to determine its direction of travel. It is also preferably provided as a function of the detected position of the gesture in FIG In the example of the "show" gesture, it can thus be provided, for example, that the direction of the pointing in the context of this control indicates what the viewing direction should be or in which direction the ride should take place.
Grundsätzlich kann es vorgesehen sein, dass die Erfassung der Geste und die Steuerung des Verfahrens zueinander zeitverzögert durchgerührt werden. Gemäß einer bevorzugten Weiterbildung der Erfindung ist jedoch vorgesehen, dass die Erfassung der Geste und die Steuerung des Verfahrens in Echtzeit erfolgen. Insbesondere kann die Erfassung und Auswertung von wenigstens 25 Bildern pro Sekunde vorgesehen sein. Auf diese Weise sind anspruchsvolle Anwendungen möglich, wie die zuvor schon angesprochene Steuerung eines Fahrzeugs.In principle, provision may be made for the detection of the gesture and the control of the method to be carried out with a time delay. According to a preferred development of the invention, however, it is provided that the detection of the gesture and the control of the method take place in real time. In particular, the detection and evaluation of at least 25 images per second can be provided. In this way, sophisticated applications are possible, such as the previously mentioned control of a vehicle.
Grundsätzlich kann vorgesehen sein, dass das Verfahren und ggf. auch die Steuerung durch die erfassten Gesten einer Initialisierung bedürfen. Gemäß einer bevorzugten Weiterbildung der Erfindung ist jedoch vorgesehen, dass die Gestenerkennung und insbesondere auch die Steuerung automatisch gestartet werden, sobald eine Geste erfasst und einer vorbestimmten Gruppen von Gesten bzw. einer vorbestimmten Geste zugeordnet worden ist. Mit anderen Worten bedeutet dies, dass die eingangs genannten Verfahrensscliritte regelmäßig durchgefühlt werden können und das Verfahren der eigentlichen Gestenerkennung automatisch anläuft, sobald eine Gliedmaße derart erfaßbar wird, dass zeitgleich eine Mehrzahl zweidimen- sionaler Bilder dieser Gliedmaße aus unterschiedlichen Richtungen erkennbar werden.In principle, it can be provided that the method and possibly also the control by the detected gestures require an initialization. According to a preferred embodiment of the invention, however, it is provided that the gesture recognition and in particular also the control are started automatically as soon as a gesture has been detected and assigned to a predetermined group of gestures or a predetermined gesture. In other words, this means that the above-mentioned procedural clauses can be sensed regularly and the process of the actual gesture recognition automatically starts as soon as a limb is detectable such that at the same time a plurality of two-dimensional images of this limb are recognizable from different directions.
Um insbesondere einen unkontrollierten Zustand der mittels der durch Gesten erfolgenden Steuerung vermeiden zu können, ist gemäß einer bevorzugten Weiterbildung der Erfindung ferner vorgesehen, dass in dem Fall, in dem die mittels der Gliedmaße gebildete Geste keiner vorbestimmten Gruppen von Gesten bzw. keiner vorbestimmten Geste zugeordnet werden kann, eine Warnung ausgegeben wird, vorzugsweise als optisches oder/und akustisches Signal. Auf diese Weise wird der Verwender darüber informiert, dass gegenwärtig keine Gesten- Steuerung mehr möglich ist und er zur Wiederaufnahme des Verfahrens z. B. seine Hand wieder in den Bereich bringen muss, in dem die Mehrzahl zweidimensionaler Bilder der Gliedmaße aus verschiedenen Richtungen erfassbar ist.In order to be able to avoid in particular an uncontrolled state of the means of the gestures taking place control, according to a preferred embodiment of the invention further provided that in the case where the gesture formed by the limb can not be assigned to any predetermined groups of gestures or a predetermined gesture, a warning is given, preferably as an optical and / or acoustic signal. In this way, the user is informed that currently no gesture control is possible and he resumed the procedure z. B. must bring his hand back into the area in which the majority of two-dimensional images of the limb from different directions can be detected.
Schließlich kann auch bei dem vorliegend beschriebenen Verfahren die Gliedmaße mit Markern versehen werden. Gemäß einer bevorzugten Weiterbildung der Erfindung ist jedoch vorgesehen, dass die Geste ohne an der Gliedmaße angebrachte Marker erfasst wird. Dies kann insbesondere dadurch erreicht werden, dass keine Analyse der erfassten zweidimensionalen Bilder erfolgt, sondern vor der Merkmalsgestenanalyse eine Kombination der zweidimensionalen Bilder ins Dreidimensionale durchgeführt wird.Finally, even in the method described herein, the limb can be provided with markers. According to a preferred embodiment of the invention, however, it is provided that the gesture is detected without attached to the limb marker. This can be achieved in particular by the fact that no analysis of the acquired two-dimensional images takes place, but before the feature gesture analysis a combination of the two-dimensional images into the three-dimensional one is carried out.
Das zuvor beschriebene Verfahren ermöglicht die Verfolgung der räumlichen Lage, nämlich der Position und der Orientierung, z. B, einer menschlichen Hand, hinsichtlich mehrerer, voneinander verschiedener Gesten, wodurch eine natürliche und effiziente Interaktion zwischen Mensch und Maschine gewährleistet wird. Insbesondere weist dieses Verfahren folgende Vor- teile auf:The method described above allows the tracking of the spatial position, namely the position and the orientation, for. B, a human hand, in terms of several different gestures, ensuring a natural and efficient human-machine interaction. In particular, this method has the following advantages:
Der Verwender benötigt lediglich seine bloße Hand, so dass es nicht erforderlich ist, die Hand mit Markern zu versehen. Die Initialisierung kann vollautomatisch erfolgen, was bedeutet, dass die Verfolgung der Hand unmittelbar starten kann, sobald der Verwender seine Hand in den Arbeitsbereich bewegt. Zur Initialisierung ist also keine spezielle Lage oder Geste der Hand erforderlich. Die Berechnung kann in Echtzeit erfolgen, so dass das Verfahren für direkte Interaktionen einsetzbar ist. Auch bei einem Wechsel des Verwenders sind keine Einstellungsänderungen erforderlich, Die Erfassung der zweidimensionalen Bilder der Gliedmaße kann auf unterschiedliche Weisen erfolgen. Gemäß einer bevorzugten Weiterbildung der Erfindung sind jedoch drei oder mehr Kameras vorgesehen, die in spezieller Anordnung die Gliedmaße aus unterschiedlichen Richtungen beobachten. Um die Lage und Geste der Gliedmaße zu errechnen, wird, wie oben schon ausgeführt, zunächst eine dreidimensionale Rekonstruktion der Gliedmaße aus den Kamerabildern bestimmt, wobei die zweidimensional erfassten Informationen in eine konsistente dreidimensionale Darstellung gebracht werden. Dazu werden z. B. die Bilder aller Kameras synchron ausgelesen und jeweils in eine Region, die der Gliedmaße entspricht, und den Hintergrund unterteilt, also segmentiert.The user only needs his bare hand, so it is not necessary to provide the hand with markers. The initialization can be fully automatic, which means that the tracing of the hand can start immediately as soon as the user moves his hand into the work area. For initialization so no special position or gesture of the hand is required. The calculation can be done in real time so that the method can be used for direct interactions. Even if the user changes, no changes to the settings are required, The acquisition of the two-dimensional images of the limb can be done in different ways. According to a preferred embodiment of the invention, however, three or more cameras are provided which observe the limb from different directions in a special arrangement. To calculate the position and gesture of the limb, as described above, a three-dimensional reconstruction of the limb is first determined from the camera images, the two-dimensionally acquired information being brought into a consistent three-dimensional representation. These are z. B. the images of all cameras synchronously read and each divided into a region that corresponds to the limb, and the background, so segmented.
Wenn alle Bilder segmentiert sind, werden die Regionen der Gliedmaße ausgehend vom Blickpunkt der jeweiligen Kamera durch den dreidimensionalen Raum projeziert, so dass sich im Schnitt der drei Projektionen eine grobe dreidimensionale Rekonstruktion der Hand ergibt. Anders formuliert gehören alle Voxel zur dreidimensionalen Rekonstruktion der Hand, für die die Projektionen in alle zweidimensionale Kamerabilder innerhalb der jeweiligen Handregion liegen. Entsprechendes wird auch als Rekonstruktion der visuellen Hülle oder „Shape-from- Silhouettes"-Technik bezeichnet.When all images are segmented, the regions of the limb are projected from the point of view of the respective camera through the three-dimensional space, so that a rough three-dimensional reconstruction of the hand results in the intersection of the three projections. In other words, all voxels belong to the three-dimensional reconstruction of the hand, for which the projections lie in all two-dimensional camera images within the respective hand region. The same is also referred to as reconstruction of the visual envelope or "shape-from-silhouettes" technique.
In der groben dreidimensionalen Rekonstruktion der Hand kann nun nach besonderen Merk- malen gesucht weiden. Um die Menge potentieller Merkmale einzuschränken, kann z. B, nur nach Heraυsragungen gesucht werden, die von Fingerspitzen gebildet werden können und auf einem k-DOP (diskretes orientiertes Polytop/discrete orientated polytope), einer Approximation der konvexen Hülle der Gliedmaße, liegen. Ein k-DOP ist ein Hüllvolumen (bounding volume), welches konstruiert wird, indem k wohlorientierte Ebenen aus dem Unendlichen bewegt werden, bis sie die dreidimensionale Rekonstruktion berühren. Das k-DOP ist dann dasjenige konvexe Polytop, welches aus dem Schnitt der Halbräume resultiert, die durch diese k-Ebenen begrenzt werden. Für jede dieser Ebenen gibt es also einen zur dreidimensionalen Rekonstruktion gehörenden Voxel, der die Ebene berührt und damit ihre Position beschreibt. In einer bevorzugten Realisierung des Verfahrens wird ein 26-DOP verwendet, so dass es 26 Ebenen bzw. Orientierungen gibt und damit 26 Voxel bestimmt werden, Diese 26 Voxel bilden die Menge der mögli- chen Merkmale für die Extraktion der Fingerspitzenmerkmale. Diese Voxel werden nun klassifiziert, indem ihre lokalen Umgebungen analysiert werden. Für ein bevorzugtes Verfahren ist zum Beispiel vorgesehen, eine seht' einfache Analyse durchzuführen, so dass lediglich der Abstand zum lokalen Massenschwerpunkt, wie oben schon ausgeführt, zur Charakterisierung verwendet wird. Ist der Abstand sehr groß, so befindet sich der Voxel bzw. das Merkmal auf einem sehr hervorstehenden Teil der dreidimensionalen Rekonstruktion und damit wahrscheinlich auf einer der gewünschten Fingerspitzen,In the rough three-dimensional reconstruction of the hand, special features can now be searched for. To limit the amount of potential features, z. B are searched only for projections that can be formed by fingertips and lie on a k-DOP (discrete oriented polytope / discrete oriented polytope), an approximation of the convex hull of the limb. A k-DOP is a bounding volume constructed by moving k well-oriented planes from infinity until they touch the three-dimensional reconstruction. The k-DOP is then the convex polytope resulting from the intersection of the half-spaces delimited by these k-planes. For each of these levels there is a voxel belonging to the three-dimensional reconstruction that touches the plane and thus describes its position. In a preferred implementation of the method, a 26-DOP is used so that there are 26 levels and thus 26 voxels are determined. These 26 voxels form the set of possible features for the extraction of fingertip features. These voxels are now classified by analyzing their local environments. For a preferred method, for example, it is envisaged to perform a simple analysis such that only the distance to the local center of mass is used for characterization, as stated above. If the distance is very large, then the voxel or the feature is located on a very prominent part of the three-dimensional reconstruction and thus probably on one of the desired fingertips,
Im Folgenden wird das erfindungsgemäße Verfahren anhand eines bevorzugten Ausfuhrungsbeispiels unter Bezugnahme auf die Zeichnung weiter im Detail erläutert. In der Zeichnung zeigtIn the following, the method according to the invention will be explained in more detail on the basis of a preferred exemplary embodiment with reference to the drawing. In the drawing shows
Fig. 1 die vier mit dem vorliegend beschriebenen Verfahren gemäß einem bevorzugten Ausführungsbeispiel der Erfindung erkennbaren Arten von Gesten,1 shows the four types of gestures recognizable by the presently described method according to a preferred embodiment of the invention,
Fig. 2 die mittels dreier segmentierter zweidimensionaler Bilder ermittelte visuelle2 shows the visuals determined by means of three segmented two-dimensional images
Hülle einer erfassten Hand,Cover of a grasped hand,
Fig. 3 schematisch die Extraktion von DOP-Punkten im Zweidimensionalen bzw. im3 schematically shows the extraction of DOP points in the two-dimensional or in the
Dreidimensionalen undThree-dimensional and
Fig. 4 Histogramme für das ermittelte Maß der Herausragungen bei verschiedenenFig. 4 histograms for the determined extent of the protrusions in different
Arten von Gesten. Aυs Figur 1 sind die vier mittels des vorliegend beschriebenen Verfahrens gemäß dem bevorzugten Ausführungsbeispiel der Erfindung erfassbaren Arten von Handgesten ersichtlich. Von links nach rechts sind die Gesten „Handfläche", „Greifen", „Zeigen A" und „Zeigen B" dargestellt. Wie aus Figur 1 ersichtlich, sind jeder Handgeste „am weitesten vorstehende" Fin- gerspitzen zuordenbar, die in Figur 1 jeweils mit einem Pfeil gekennzeichnet sind.Types of gestures. FIG. 1 shows the four types of hand gestures that can be detected by means of the presently described method according to the preferred exemplary embodiment of the invention. From left to right are the gestures "palm", "grasp", "show A" and "show B". As can be seen from FIG. 1, each hand gesture can be assigned to "furthest projecting" finger tips, which are each marked with an arrow in FIG.
Diese vorstehenden Fingerspitzen sind gemäß dem vorliegend beschriebenen bevorzugten Ausführungsbeispiel von besonderem Interesse, da über die Erfassung der jeweiligen Fingerspitze und über die zusätzliche Erfassung der Richtung des entsprechenden Fingers eindeutig auf eine der vier vorbestimmten Gestenarten geschlossen werden kann. Sind ferner die Positionen zweier vorstehender Fingerspitzen relativ zum Masseschwerpυnkt der Hand bekannt, so kann die Ausrichtung, also die Position und die Orientierung der Hand bestimmt werden.These protruding fingertips are of particular interest in accordance with the presently described preferred embodiment, as one can unequivocally conclude one of the four predetermined gesture modes via the detection of the respective fingertip and the additional detection of the direction of the corresponding finger. Furthermore, if the positions of two protruding fingertips relative to the mass of the hand are known, the orientation, ie the position and the orientation of the hand, can be determined.
Dazu wird vorliegend ein Algorithmus verwendet, mit dem es möglich ist, alle erforderlichen Informationen zu extrahieren, um sowohl die Geste zu erkennen als auch deren Ausrichtung im Raum. Diese Informationen werden auf der Grundlage eines dreidimensionalen binären Voxel-Gitters der visuellen Hülle berechnet, die ihrerseits auf der Grundlage der segmentierten zweidimensionalen Bilder der einzelnen Kameras erstellt worden ist.For this purpose, an algorithm is used in the present case with which it is possible to extract all the required information in order to recognize both the gesture and its orientation in space. This information is calculated on the basis of a three-dimensional binary voxel-lattice of the visual envelope, which in turn has been created on the basis of the segmented two-dimensional images of the individual cameras.
Gemäß dem vorliegend beschriebenen Verfahren werden drei Kameras verwendet, die in einer Ebene angeordnet sind. Der Winkel zwischen den Aufnahmerichtungen einander benachbarter Kameras beträgt jeweils 60°, Auf diese Weise wird vermieden, dass eine Kamera von einer anderen Kamera als Hintergrund erfasst wird. Es hat sich gezeigt, dass diese Anordnung ausreichend ist, um eine hinreichend genaue Ermittlung der visuellen Hülle der Hand zu er- zielen.According to the method described here, three cameras are used, which are arranged in one plane. The angle between the shooting directions of adjacent cameras is 60 °, so it is avoided that a camera is detected by another camera as a background. It has been found that this arrangement is sufficient to achieve a sufficiently accurate determination of the visual envelope of the hand.
Nach der Segmentierung der Bilder werden die segmentierten zweidimensionalen Bilder (10), wie in Figur 2 schematisch dargestellt, zur visuellen Hülle (1 1) der Hand kombiniert. Mögli- - lo ¬After the segmentation of the images, the segmented two-dimensional images (10), as shown schematically in FIG. 2, are combined to form the visual envelope (11) of the hand. Mögli- - lo ¬
che Fingerspitzen werden als die Voxel der visuellen Hülle definiert, die eine der Ebenen des umschließenden DOP berühren. Im Falle einer 26-DOP ergeben sich, wie in Figur 3, rechts, dargestellt, 26-DOP-Punkte der visuellen Hülle im Dreidimensionalen, die in Figur 3, soweit sichtbar, mit Pfeilen gekennzeichnet sind. Die entsprechende, zweidimensionale Darstellung (12) ist links gezeigt.Fingertips are defined as the voxels of the visual envelope touching one of the levels of the surrounding DOP. In the case of a 26-DOP, as shown in FIG. 3, on the right, 26-DOP points of the visual envelope in the three-dimensional, which are shown in FIG. 3, as far as they are visible, are indicated by arrows. The corresponding two-dimensional representation (12) is shown on the left.
Die Fingerspitzen können als Endpunkte hervorstehender Bereiche des Voxel-Gitters angesehen werden. Um nun die potentiellen Fingerspitzen zu beurteilen, muss ein Maß für das Hervorstehen gefunden werden. Vorliegend wird als Maß der Abstand des jeweiligen Punktes von lokalem Masseschwerpunkt verwendet.The fingertips may be considered endpoints of protruding areas of the voxel lattice. In order to judge the potential fingertips, a measure for the emergence must be found. In the present case, the distance of the respective point from the local center of gravity is used as a measure.
Aus Figur 4 ist nun ersichtlich, wie dieses Maß für das Hervorstehen bzw. die Herausragun- gen analysiert werden kann. Dazu sind in den gezeigten Histogrammen jeweils für 150 Bilder mit der „Zeigen A"-Geste (links), der „Zeigen B"-Geste (Mitte) und einer „Fausf'-Geste (rechts), bei der kein Finger hervorsteht, als Maß für die Herausragung der Abstand des jeweiligen Punktes von lokalem Masseschwerpunkt aufgetragen. Die „Zeigen A"-Geste zeigt deutlich zwei Herausragungen, während bei der „Zeigen B"-Geste noch eine Herausragung besonders betont ist und bei der „Fausf'-Geste keine definierten Herausragungen mehr bestimmbar sind.It can now be seen from FIG. 4 how this measure for the protrusion or the protrusions can be analyzed. For this purpose, in the histograms shown, 150 images each have the "show A" gesture (left), the "show B" gesture (center) and a "fausf" gesture (right), in which no finger protrudes, than Measured for the projection of the distance of the respective point from local center of mass. The "Show A" gesture clearly shows two excerpts, while the "Show B" gesture still emphasizes a singularity, and in the "Fausf" gesture, no defined prominence is more determinable.
Zeigt sich auf diese Weise, dass zwei Fingerspitzen vorhanden sind, so muss festgestellt werden, welche dem Daumen entspricht. Die Identifizierung des Daumens basiert vorliegend auf der Feststellung, dass der maximale geodätische Abstand zwischen der Daumenspitze und allen anderen möglichen Kandidaten geringer ist als der entsprechend berechnete maximale ge- oda'tische Abstand für die anderen Fingerspitzen. Da die Berechnung des exakten geodätischen Abstands bei Echtzeitanwendungen gegenwärtig praktisch nicht möglich ist, wird dieser vorliegend geschätzt. Danach muss erfasst werden, ob ein nicht als Daumen erfasster Finger der Mittelfinger oder der Zeigefinger ist. Dies wird erreicht durch die Berechnung einer Kovarianz-Matrix lokal um die Fingerspitze herum mittels eines GPU-Algorithmus. Das Verhältnis zwischen dem größten und dem zweitgrößten Eigenwert der Kovarianz-Matrix erlaubt es, die Identität des Fin- gers zu ermitteln. Wird nun festgestellt, dass dieser Finger der Zeigefinger ist, kann die Richtung des Fingers zumindest näherungs weise bestimmt werden.If this shows that there are two fingertips, it must be determined which corresponds to the thumb. The identification of the thumb in the present case is based on the statement that the maximum geodesic distance between the thumb tip and all other possible candidates is less than the correspondingly calculated maximum external distance for the other fingertips. Since the calculation of the exact geodetic distance in real-time applications is currently practically impossible, this is currently estimated. Then it has to be determined whether a finger not grasped as a thumb is the middle finger or the index finger. This is achieved by calculating a covariance matrix locally around the fingertip using a GPU algorithm. The ratio between the largest and the second largest eigenvalue of the covariance matrix makes it possible to determine the identity of the finger. If it is determined that this finger is the index finger, the direction of the finger can be determined at least approximately.
Im Ergebnis wird damit derartiges Verfahren zur automatischen Erkennung der Art und derAs a result, such a method of automatically recognizing the kind and the
Lage einer mit einer Gliedmaße gebildeten Geste, insbesondere nämlich einer Handgeste, an- gegeben, das auf einfache und verlässliche Weise in Echtzeit durchführbar ist und auf diesePosition of a gesture formed with a limb, in particular a hand gesture, indicated that in a simple and reliable manner in real time feasible and on this
Weise anspruchsvolle Verfahrenssteuerungen, wie die Steuerung eines Fahrzeugs, ermöglicht. Way sophisticated process controls, such as the control of a vehicle allows.

Claims

Patentansprüche claims
1. Verfahren zur automatischen Erkennung wenigstens der Art und/oder der Lage einer mit einer Gliedmaße gebildeten Geste, insbesondere einer Handgeste, wobei zeitgleich eine Mehrzahl zweidimensionaler Bilder der Gliedmaße aus unterschiedlichen Richtungen erfasst wird, dadurch gekennzeichnet, dass die zweidimensionalen Bilder zu einem dreidimensionalen Bild kombiniert werden und das dreidimensionale Bild hinsichtlich wenigstens eines Gestenmerkmals analysiert wird.A method of automatically detecting at least the nature and / or position of a limb-formed gesture, in particular a hand gesture, simultaneously detecting a plurality of two-dimensional images of the limb from different directions, characterized in that the two-dimensional images become a three-dimensional image combined and the three-dimensional image is analyzed for at least one gesture feature.
2. Verfahren nach Anspruch 1 , dadurch gekennzeichnet, dass die zweidimensionalen Bilder vor der Kombination zu dem dreidimensionalen Bild durch Trennung der Region der Gliedmaße vom Hintergrund segmentiert werden.A method according to claim 1, characterized in that the two-dimensional images are segmented by separating the region of the limb from the background before combining them into the three-dimensional image.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass bei der Kombination der zweidimensionalen Bilder zu dem dreidimensionalen Bild eine dreidimensionale Rekonstruktion der Gliedmaße durchgeführt wird.3. The method according to claim 1 or 2, characterized in that in the combination of the two-dimensional images to the three-dimensional image, a three-dimensional reconstruction of the limb is performed.
4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass bei der dreidimensionalen Rekonstruktion der Gliedmaße deren visuellen Hülle ermittelt wird.4. The method according to claim 3, characterized in that in the three-dimensional reconstruction of the limb whose visual envelope is determined.
5. Verfahren nach Anspruch 3 oder 4, dadurch gekennzeichnet, dass bei der Analyse wenigstens eines Gestenmerkmals die dreidimensionale Rekonstruktion der Gliedmaße auf Her- ausragungen analysiert wird.5. The method according to claim 3 or 4, characterized in that in the analysis of at least one gesture feature, the three-dimensional reconstruction of the limb is analyzed for protrusions.
6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass die Herausragungen darauf hin analysiert werden, ob sie auf einer Approximation der konvexen Hülle der Gliedmaße liegen. 6. The method according to claim 5, characterized in that the protrusions are analyzed to see whether they lie on an approximation of the convex hull of the limb.
7. Verfahren nach Anspruch 5 oder 6, dadurch gekennzeichnet, dass die dreidimensionale Position der Voxel der Herausragungen in die zweidimensionalen Bilder projeziert werden.7. The method according to claim 5 or 6, characterized in that the three-dimensional position of the voxels of the protrusions are projected into the two-dimensional images.
8. Verfahren nach einem der Ansprüche 5 bis 7, dadurch gekennzeichnet, dass die Her- ausragungen wenigstens in Abhängigkeit von ihrem Abstand zu einem vorbestimmten Punkt, vorzugsweise in Abhängigkeit zum lokalen Masseschwerpunkt, charakterisiert werden.8. The method according to any one of claims 5 to 7, characterized in that the projections are characterized at least as a function of their distance to a predetermined point, preferably in dependence on the local center of mass.
9. Verfahren nach einem der Ansprüche 5 bis 8, dadurch gekennzeichnet, dass die Herausragungen verwendet werden, um die mittels der Gliedmaße gebildete Art der Geste einer vorbestimmten Gruppe von Gestenarten, vorzugsweise genau einer vorbestimmten Gestenart, zuzuordnen.9. The method according to any one of claims 5 to 8, characterized in that the protrusions are used to assign the formed by the limb type of gesture of a predetermined group of gesture types, preferably exactly one predetermined Gestestenart.
10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, dass in Abhängigkeit von der vorbestimmten Gruppe von Gesten bzw. der vorbestimmten Geste automatisch eine vorbe- stimmte Art einer Verfahrenssteuerung durchgeführt wird.10. The method according to claim 9, characterized in that in dependence on the predetermined group of gestures or the predetermined gesture automatically a predetermined type of process control is performed.
1 1. Verfahren nach Anspruch 10, dadurch gekennzeichnet, dass die Verfahrenssteuerung in Abhängigkeit von der erfassten Lage der Geste im Raum durchgeführt wird.1 1. A method according to claim 10, characterized in that the process control is performed in dependence on the detected position of the gesture in the room.
12. Verfahren nach Anspruch 10 oder 1 1 , dadurch gekennzeichnet, dass die Erfassung der Art bzw. der Lage der Geste und die Verfahrenssteuerung in Echtzeit erfolgen, vorzugsweise durch Auswertung von wenigstens 25 Bildern pro Sekunde.12. The method of claim 10 or 1 1, characterized in that the detection of the type or the position of the gesture and the process control in real time, preferably by evaluation of at least 25 images per second.
13. Verfahren nach einem der Ansprüche 10 bis 12, dadurch gekennzeichnet, dass die Verfahrenssteuerung automatisch gestartet wird, so bald eine Geste erfasst und einer vorbestimmten Gruppe von Gesten bzw. einer vorbestimmten Geste zugeordnet worden ist. 13. The method according to any one of claims 10 to 12, characterized in that the process control is started automatically as soon as a gesture has been detected and assigned to a predetermined group of gestures or a predetermined gesture.
14. Verfahren nach einem der Ansprüche 9 bis 13, dadurch gekennzeichnet, dass in dem Fall, in dem die mittels der Gliedmaße gebildete Art der Geste keiner vorbestimmten Gruppe von Gestenarten bzw. keiner vorbestimmten Gesteart zugeordnet werden kann, eine Warnung ausgegeben wird, vorzugsweise als optisches oder/und akustisches Signal.14. The method according to any one of claims 9 to 13, characterized in that in the case in which the means of the limb formed type of gesture can not be assigned to a predetermined group of Gestestenarten or no predetermined Gesteart, a warning is issued, preferably as optical and / or acoustic signal.
15. Verfahren nach einem der Ansprüche 1 bis 13, dadurch gekennzeichnet die Geste ohne an der Gliedmaße angebrachte Marker erfasst wird. 15. The method according to any one of claims 1 to 13, characterized in that the gesture is detected without attached to the limb marker.
PCT/EP2008/060934 2007-08-31 2008-08-21 Method for automatically detecting at least the type and/or location of a gesture formed using an appendage, particularly a hand gesture WO2009027307A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102007041482A DE102007041482A1 (en) 2007-08-31 2007-08-31 Method for automatic recognition of at least the type and / or the position of a gesture formed with a limb, in particular a hand gesture
DE102007041482.1 2007-08-31

Publications (1)

Publication Number Publication Date
WO2009027307A1 true WO2009027307A1 (en) 2009-03-05

Family

ID=39863082

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2008/060934 WO2009027307A1 (en) 2007-08-31 2008-08-21 Method for automatically detecting at least the type and/or location of a gesture formed using an appendage, particularly a hand gesture

Country Status (2)

Country Link
DE (1) DE102007041482A1 (en)
WO (1) WO2009027307A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103903011A (en) * 2014-04-02 2014-07-02 重庆邮电大学 Intelligent wheelchair gesture recognition control method based on image depth information
DE102015201730A1 (en) 2015-02-02 2016-08-04 Bayerische Motoren Werke Aktiengesellschaft Method for selecting an operating element of a motor vehicle and operating system for a motor vehicle

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102014017166A1 (en) 2014-11-20 2016-05-25 Audi Ag Method for operating an object evaluation device for a motor vehicle, object evaluation device for a motor vehicle and motor vehicle with an object evaluation device
DE102014224618A1 (en) * 2014-12-02 2016-06-02 Robert Bosch Gmbh Method and device for operating an input device

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6147678A (en) * 1998-12-09 2000-11-14 Lucent Technologies Inc. Video hand image-three-dimensional computer interface with multiple degrees of freedom
US6222465B1 (en) * 1998-12-09 2001-04-24 Lucent Technologies Inc. Gesture-based computer interface
US6204852B1 (en) * 1998-12-09 2001-03-20 Lucent Technologies Inc. Video hand image three-dimensional computer interface
US6788809B1 (en) * 2000-06-30 2004-09-07 Intel Corporation System and method for gesture recognition in three dimensions using stereo imaging and color vision
US7755608B2 (en) * 2004-01-23 2010-07-13 Hewlett-Packard Development Company, L.P. Systems and methods of interfacing with a machine
US8589824B2 (en) * 2006-07-13 2013-11-19 Northrop Grumman Systems Corporation Gesture recognition interface system

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LAURENTINI A: "The visual hull for understanding shapes from contours: a survey", SIGNAL PROCESSING AND ITS APPLICATIONS, 2003. PROCEEDINGS. SEVENTH INT ERNATIONAL SYMPOSIUM ON JULY 1-4, 2003, PISCATAWAY, NJ, USA,IEEE, vol. 1, 1 July 2003 (2003-07-01), pages 25 - 28, XP010653120, ISBN: 978-0-7803-7946-6 *
SHINKO Y CHENG ET AL: "Multimodal Voxelization and Kinematically Constrained Gaussian Mixture Models for Full Hand Pose Estimation: An Integrated Systems Approach", COMPUTER VISION SYSTEMS, 2006 ICVS '06. IEEE INTERNATIONAL CONFERENCE ON NEW YORK, NY, USA 04-07 JAN. 2006, PISCATAWAY, NJ, USA,IEEE, 4 January 2006 (2006-01-04), pages 34 - 34, XP010899387, ISBN: 978-0-7695-2506-8 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103903011A (en) * 2014-04-02 2014-07-02 重庆邮电大学 Intelligent wheelchair gesture recognition control method based on image depth information
DE102015201730A1 (en) 2015-02-02 2016-08-04 Bayerische Motoren Werke Aktiengesellschaft Method for selecting an operating element of a motor vehicle and operating system for a motor vehicle

Also Published As

Publication number Publication date
DE102007041482A1 (en) 2009-03-05

Similar Documents

Publication Publication Date Title
DE112014003563B4 (en) Device and method for gesture determination, gesture control device, program and recording medium
EP3642696B1 (en) Method and device for detecting a user input on the basis of a gesture
EP2269130B1 (en) Display of results of a measurement of work pieces as a function of the detection of the gestures of a user
DE60133386T2 (en) DEVICE AND METHOD FOR DISPLAYING A TARGET BY IMAGE PROCESSING WITHOUT THREE DIMENSIONAL MODELING
DE102007059478B4 (en) Method and system for aligning a virtual model with a real object
DE102012108838A1 (en) Method and device for recording fingerprints based on fingerprint scanners in reliably high quality
WO2012110653A1 (en) Method for detecting target objects in a surveillance region
DE10100615A1 (en) Hand recognition with position determination
WO2009027307A1 (en) Method for automatically detecting at least the type and/or location of a gesture formed using an appendage, particularly a hand gesture
DE102016008406A1 (en) Image measuring device, control program of this device and non-temporary recording medium on which the control program is recorded
WO2016120251A1 (en) Method for operating an input device, input device
EP2787485A1 (en) Method and device for automatic detection of defects in flexible bodies
EP2524592A2 (en) Method for analysing the behaviour of a rodent in an area and method for depicting the rodent
EP3642697B1 (en) Method and device for detecting a user input on the basis of a gesture
AT519722A1 (en) Method for detecting at least one token object
DE102022201279B3 (en) Method for capturing an environment of a vehicle, camera device and vehicle
DE102009031158A1 (en) Apparatus and method for detecting a pointing gesture of a user to interact with an input surface
EP2590139A1 (en) Method and apparatus for extensive optical three-dimensional measurement of surface topographies
DE102012211734A1 (en) Method for determining position of object i.e. workpiece, on desk machine tool, involves matching part of edges at standing area of object with part of transformed edges, and defining position as position of object on support surface
WO2015110331A1 (en) Method for detecting a movement path of at least one moving object within a detection region, method for detecting gestures while using such a detection method, and device for carrying out such a detection method
DE102013211046A1 (en) Method and device for obtaining a control signal from an operating gesture
AT503007B1 (en) METHOD AND ARRANGEMENT FOR SHAPING A SUBJECT
DE102007001273A1 (en) Method for the automatic analysis of object movements
WO2007048674A1 (en) Sytem and method for camera-based tracking
DE102021212673A1 (en) Method and operating system for operating at least one adjustable control element arranged on a vehicle

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 08787378

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 08787378

Country of ref document: EP

Kind code of ref document: A1