Verfahren und Vorrichtung zum Erkennen eines Gesichts sowie ein Gesichtserkennungsmodul
Die Erfindung betrifft ein Verfahren und eine Vorrichtung zum Erkennen eines Gesichts sowie ein Gesichtserkennungsmodul, mit denen ein Gesicht wiedererkannt werden kann.
Im Stand der Technik sind unterschiedliche Verfahren bekannt, mit denen eine Gesichtserkennung nur unbefriedigend möglich ist. Grundsätzlich unterscheidet man Verfahren, die mit zweidimensionalen Daten, beispielsweise mit mittels einer Kamera aufgenommenen Bildern, arbeiten, und solchen Verfahren, die dreidimensionale Daten des Gesichts auswerten. Bei den mit zweidimensionalen Daten arbeitenden Verfahren sind grundlegende Probleme bisher nur unzureichend gelöst. Diese umfassen unterschiedliche Störfaktoren, beispielsweise eine Änderung der Pose des Gesichts sowie eine Variation der Mimik, die eine Wiedererkennung eines Gesichts erschweren. Unter einer Pose versteht man eine Änderung der Kopfhaltung relativ zu der Datenerfassungseinheit. Wird beispielsweise der Kopf um eine vertikale Achse (d.h. um die Wirbelsäulenachse) gedreht, so gehen in diesem Fall Teile der 2D- Gesichtsinformation unwiderruflich verloren. Daher eignen sich Verfahren, die dreidimensionale Daten auswerten, besser, um eine hohe Wiedererkennungszuveriässigkeit zu erzielen.
Als Ausgangspunkt für Verfahren, die dreidimensionale Daten auswerten, dienen Rohdaten, die von einer so genannten 3D-Erfassungseinheit aufgenommen werden. Die 3D-Erfassungseinheiten erfassen Gesichtsinformationen, die Ortsinformationen über Oberflächenkonturen des Gesichts umfassen. Gebräuchliche SD- Erfassungseinheiten verwenden heutzutage entweder Streifenprojektionsverfahren oder nutzen Stereoaufnahmen des Gesichts. Bei einem Streifenprojektionsverfahren, welches auch als aktives Verfahren bezeichnet wird, werden Streifenmuster auf das Gesicht projiziert und eine Verzerrung der Streifen analysiert. Ebenso wie bei Verfahren, die Stereoaufnahmen verwenden, wird die Ortsinformation (d.h. die Koordinate eines Punktes auf einer Oberflächenkontur des Gesichts) mit Hilfe eines Triangulationsverfahrens bestimmt. Ein Gesichtsinformationsdatensatz kann auf
unterschiedliche Weise repräsentiert werden. Entweder kann das Gesicht als so genanntes 3D-Raummodell repräsentiert werden, indem die Daten als dreidimensionale Koordinaten abgelegt sind. Alternativ kann für jeden Konturkoordinatenpunkt, d.h. jeden Punkt auf der Oberfläche des Gesichts, für den Koordinaten mittels der 3D-Erfassungseinheit erfasst wurden, eine Tiefeninformation von einer Projektionsebene gekoppelt mit einem Projektionspunkt in die Ebene dargestellt werden. In einem solchen Fall kann die Tiefeninformation (Abstandsinformation von der Projektionsebene) beispielsweise als Graustufenwert codiert werden. Beide Darstellungsformen sind ineinander überführbar, wenn keine Oberflächenkonturen bestehen, die weiter von der Detektionsebene entfernt liegende Oberflächenstrukturen bei einer Betrachtung des Gesichts von der Projektionsebene aus verdecken. Bei 3D-Erfassungseinheiten, bei denen die Erfassung im Wesentlichen in einer Detektionsebene erfolgt, die als Projektionsebene dient, ist diese Annahme in der Regel erfüllt.
Im Stand der Technik sind unterschiedliche Verfahren bekannt, die zur Erkennung von Gesichtern eingesetzt werden. Ein Verfahren nutzt so genannte Eigenfaces. Dieses ist beispielsweise bei K. Chang et al. "Multi-Modal 2D and 3D Biometrics for Face Recognition", Proceedings of the IEEE International Workshop on Analysis and Modeling of Faces and Gestures (AMFG'03), Nizza, Frankreich, Oktober 2003, Seiten 187 bis 194, beschrieben. Anhand einer Gesamtheit von zur Erkennung vorgesehenen Gesichtern wird eine Anzahl von Eigenfaces berechnet, die charakteristische Merkmale der Gesichter der Gesamtheit der zu erkennenden Gesichter herausstellen. Die Eigenfaces werden als Basis eines Unterraums der Gesichtsdaten betrachtet. Die einzelnen Gesichter werden hinsichtlich dieser Eigenvektoren zerlegt und die hierbei ermittelten Zerlegungskoeffizienten als Merkmalsdatensatz, beispielsweise in Form eines Merkmalsvektors, gespeichert. Während einer so genannten Trainingsphase werden somit sämtliche Bilder der Menge der zu erkennenden Gesichter zur Ermittlung der Eigenfaces und anschließenden Berechnung der Merkmalsvektoren verwendet, die anschließend in einer Datenbank bespeichert werden. Wird ein zu erkennendes Gesicht analysiert, so wird für dieses zunächst der entsprechende Merkmalsvektor ermittelt und anschließend mit den in der Datenbank gespeicherten Merkmalsvektoren der
Gesichter aus der Menge der bekannten und zur Erkennung vorgesehenen Gesichter verglichen. Ein Gesicht wird als ein bekanntes Gesicht erkannt, wenn bestimmte Vergleichskriterien erfüllt sind. Hierbei können unterschiedliche Vergleichsverfahren, beispielsweise ein Maximum-Likelihood-Verfahren, angewendet werden.
Ein weiteres Verfahren im Stand der Technik verwendet so genannte Fisherfaces. Hierbei werden von jedem Gesicht der Menge der zur Erkennung vorgesehenen Gesichter mehrere Gesichtsinformationsdatensätze benötigt. Die Fisherfaces werden anhand aller bekannten Gesichtsdatensätze so ermittelt, dass die Koeffizienten unterschiedlicher Gesichter stark voneinander abweichen, hingegen die Koeffizienten der mehreren Gesichtsinformationsdatensätze desselben Gesichts möglichst eine minimale Abweichung aufweisen.
Die beiden bekannten Verfahren weisen den entscheiden Nachteil auf, dass die Eigenfaces bzw. Fisherfaces jeweils neu bestimmt werden müssen, wenn ein weiteres Gesicht zu der Menge der zu erkennenden Gesichter hinzugefügt wird. Der Rechenaufwand, der hierfür erforderlich ist, nimmt mit einer zunehmenden Anzahl von zur Erkennung vorgesehenen Gesichtern stark zu. Ferner wird hierbei immer auf die vollständigen Gesichtsinformationsdatensätze (3D-Datensätze) der Gesichter zurückgegriffen, die somit alle abgespeichert werden müssen.
Der Erfindung liegt somit die technische Aufgabe zugrunde, ein verbessertes Verfahren, eine verbesserte Vorrichtung und ein auf einem Computer ausführbares Gesichtserkennungsmodul zu schaffen, mit denen eine zuverlässige Gesichtserkennung möglich ist, jedoch ein Rechenaufwand, insbesondere wenn neue Gesichter einer Menge zu erkennender Gesichter zugefügt werden, gegenüber den bekannten Verfahren deutlich reduziert ist.
Die technische Aufgabe wird erfindungsgemäß durch ein Verfahren mit den Merkmalen des Patentanspruchs 1, eine Vorrichtung mit den Merkmalen des Patentanspruchs 11 sowie ein Gesichtserkennungsmodul mit den Merkmalen des Patentanspruchs 21 gelöst. Die Erfindung basiert auf der Erkenntnis, dass
Konturkoordinatenpunkte eines Gesichto jcwiib in dieiUiiiibHibilinalen Auswertegebieten zusammengefasst werden können. Für die einzelnen Auswertegebiete erhält man so Häufigkeiten, die angeben, wie viele Konturkoordinatenpunkte in dem jeweiligen Auswertegebiet liegen. Eine so erhaltene Häufigkeitsverteilung für die Auswertegebiete ist charakteristisch für ein Gesicht.
Insbesondere wird daher ein Verfahren zum Erkennen eines Gesichts vorgeschlagen, umfassend:
- ein Erfassen von dreidimensionalen Gesichtsinformationen eines Gesichts mittels einer 3D-Erfassungseinheit in Form eines Gesichtsinformationsdatensatzes, wobei die erfassten Gesichtsinformationen Ortsinformationen über Oberflächenkonturen des Gesichts umfassen,
- ein Normalisieren der erfassten Gesichtsinformationen, wobei eine Positionsnormierung und Orientierungsnormierung des durch die Gesichtinformationen repräsentierten Gesichts ausgeführt wird und
- Vergleichen eines aus den normalisierten erfassten Gesichtsinformationen abgeleiteten Merkmalsdatensatzes mit mindestens einem vorbekannten Merkmalsdatensatz eines vorbekannten Gesichts, wobei das Gesicht als das vorbekannte Gesicht erkannt wird, wenn ein oder mehrere vorgegebene Vergleichskriterien erfüllt sind, wobei erfindungsgemäß vorgesehen ist, dass die Ortsinformationen Konturkoordinatenpunkte umfassen und für Auswertungsgebiete eine Häufigkeitsverteilung ermittelt wird, die angibt, wie viele Konturkoordinatenpunkte in den einzelnen Auswertungsgebieten liegen, und der Merkmalsdatensatz aus den ermittelten Häufigkeiten abgeleitet wird.
Ein Normalisieren der erfassten Gesichtsinformationen ist notwendig, um unterschiedliche Gesichter miteinander vergleichen zu können. Hierbei wird eine Positionsnormierung durchgeführt. Diese sorgt dafür, dass sich ein in allen Gesichtern vorhandener charakteristischer Punkt, beispielsweise eine Nasenspitze, jeweils an einer vorfestgelegten Position befindet, beispielsweise einen definierten Abstand senkrecht von einem ausgezeichneten Punkt einer Detektionsebene aufweist. Eine Orientierungsnormalisierung sorgt dafür, dass eine Orientierung des Gesichts im dreidimensionalen Raum mit einer vorgegebenen Orientierung möglichst gut übereinstimmt. Hierzu können weitere charakteristische Punkte des Gesichts
ermittelt werden, beispielsweise eine Nasenwurzel oder die Augenpositionen, und eine Korrektur der Gesichtsinformationen in der Art durchgeführt werden, dass eine Verbindungslinie der Nasenspitze und der Nasenwurzel bei einer Projektion senkrecht auf die Detektionsebene mit einer Koordinatenachse eines dreidimensionalen Koordinatensystems zusammenfällt, wobei die Koordinatenachse in der Detektionsebene liegt. Ein dritter charakteristischer Punkt wird verwendet, um die Orientierung des von den normalisierten Gesichtsinformationen repräsentierter! Gesichts einer vorgegebenen Orientierung anzugleichen. Verfahren zur Normalisierung, verringern Einflüsse von Posen und sind dem Fachmann bekannt und werden hier nicht näher erläutert. Das angedeutete Verfahren ist nur beispielhaft erwähnt. Ein beliebiges Verfahren zur Normalisierung kann angewendet werden, sofern die Gesichtinformationen danach so beschaffen sind, dass sie ein mit einer vorgegebenen Orientierung übereinstimmendes Gesicht an einem festgelegten Ort repräsentieren, vorzugsweise ein frontal zu der Detektionsebene ausgerichtetes Gesicht in einem festgelegten Abstand senkrecht über einem ausgezeichneten Punkt auf der Detektionsebene.
Eine erfindungsgemäße Vorrichtung zum Erkennen eines menschlichen Gesichts umfasst eine Erfassungseinheit zum Erfassen von dreidimensionalen Gesichtsinformationen eines Gesichts in Form eines Gesichtsinformationsdatensatzes, wobei die erfassten Gesichtsinformationen Ortsinformationen über Oberflächenkonturen des Gesichts umfassen, eine Normalisierungseinheit zum Normalisieren der erfassten Gesichtsinformationen, wobei das Normalisieren eine Positionsnormalisierung und eine Orientierungsnormalisierung umfasst, und eine Vergleichseinheit zum Vergleichen eines aus den normalisierten erfassten Gesichtsinformationen abgeleiteten Merkmalsdatensatzes mit mindestens einem vorbekannten Merkmalsdatensatz eines vorbekannten Gesichts, wobei das Gesicht als das vorbekannte Gesicht erkannt wird, wenn ein oder mehrere vorgegebene Vergleichskriterien erfüllt sind, wobei die Ortsinformationen Konturkoordinatenpunkte umfassen, und eine Auswerteeinheit zum Ermitteln einer Häufigkeitsverteilung für Auswertegebiete, wobei die Häufigkeitsverteilung angibt, wie viele Konturkoordinatenpunkte in den einzelnen Auswertegebieten liegen, und zum Ableiten des Merkmalsdatensatzes aus den
ermittelten Häufigkeiten vorgesehen ist. Die Normalisierung wird heutzutage häufig bereits in den 3D-Erfassungseinheiten ausgeführt. Ein erfindungsgemäßes computerausführbares Gesichtserkennungsmodul zum Erkennen eines Gesichts umfasst daher eine Schnittstelle zum Empfangen erfasster dreidimensionaler Gesichtsinformationen eines Gesichts in Form eines
Gesichtsinformationsdatensatzes, wobei die erfassten Gesichtsinformationen Ortsinformationen über Oberflächenkonturen des Gesichts umfassen, eine Vergleichseinheit zum Vergleichen eines aus den erfassten Gesichtsinformationen abgeleiteten Merkmalsdatensatzes mit mindestens einem vorbekannten Merkmalsdatensatz eines vorbekannten Gesichts, wobei das Gesicht als vorbekanntes Gesicht erkannt wird, wenn ein oder mehrere vorgegebene Vergleichskriterien erfüllt sind, wobei die Ortsinformationen Konturkoordinatenpunkte umfassen und eine Auswerteeinheit zum Ermitteln einer Häufigkeitsverteilung für Auswertungsgebiete, wobei die Häufigkeitsverteilung angibt, wie viele Konturkoordinatenpunkte in den einzelnen Auswertungsgebieten liegen, und zum Ableiten des Merkmalsdatensatzes aus den ermittelten Häufigkeiten vorgesehen ist. Für das Vergleichen des Merkmalsdatensatzes mit einem vorbekannten Merkmalsdatensatz kann jedes beliebige, im Stand der Technik bekannte Verfahren zur Ermittlung einer Ähnlichkeit von Merkmalsdatensätzen verwendet werden. Merkmalsdatensätze werden vorzugsweise als Merkmalsvektoren dargestellt. Zur Bestimmung der Ähnlichkeit kann beispielsweise ein so genanntes City-Block- Verfahren angewendet werden oder eine euklidische Distanz ausgewertet werden, um nur einige Methoden beispielhaft zu erwähnen.
Der große Vorteil der Erfindung ist es, dass für ein Hinzufügen des Gesichts zu einer Menge zu erkennender Gesichter nur ein Merkmalsdatensatz zu ermitteln ist. Ein Rückgriff auf sämtliche in einer Datenbank gespeicherte Merkmalsdatensätze oder sogar ganze Gesichtsinformationsdatensätze ist nicht erforderlich. Hierdurch wird die insgesamt zu speichernde Datenmenge deutlich reduziert, da für keines der Gesichter langfristig die vollständigen Gesichtsinformationen abgespeichert werden müssen. Ferner ist das Verfahren sehr robust gegenüber als so genannte Ausreißer bezeichneten Messfehlern. Als solche werden solche erfassten Konturkoordinatenpunkte angesehen, für die ein Koordinatenwert sehr stark von den
Koordinatenwerten abweicht, die Konturkoordinatenpunkte aufweisen die bezogen auf die beiden anderen Koordinatenwerte als benachbarte Konturkoordinatenpunkte anzusehen sind. Die bedeutet, dass bei einer Graustufendarstellung der Konturkoordinatenpunkte der Konturkoordinatenpunkt ein Ausreißer ist, dessen Graustufenwert stark von den graustufenwerten der umliegenden Punkte abweicht.
Eine besonders bevorzugte Ausαestaltung der Auswertungsgebiete sieht vor, dass diese mindestens einen Satz von Untergebieten umfassen, die sich nur hinsichtlich eines von ihnen umfassten Tiefenbereichs voneinander unterscheiden. Die Untergebiete können hierbei identisch mit den Auswertungsgebieten sein. Die Tiefeninformation ist jeweils bezogen auf eine Detektionsebene, die als Referenzebene dient. Eine jede beliebige andere Referenzebene parallel zu der Detektionsebene kann ebenfalls verwendet werden. Es hat sich herausgestellt, dass die Klassifizierung der Konturkoordinatenpunkte in Tiefenklassen für ein jedes Gesicht charakteristisch ist. Wird das Gesicht beispielsweise mittels einer Graustufendarstellung repräsentiert, so werden Graustufenbereiche festgelegt. Für die einzelnen Graustufenwertebereiche wird die Anzahl ihres Vorkommens in einer Darstellung eines Gesichts ermittelt. Die Häufigkeiten, mit denen die einzelnen Graustufenbereiche auftreten, sind für ein jeweiliges Gesicht charakteristisch. Um dieses Gesicht mit einem vorbekannten Gesicht zu vergleichen, müssen somit im Prinzip lediglich diese Häufigkeiten miteinander vergleichen werden.
Da die einzelnen Gesichter, die miteinander verglichen werden müssen, um ein Gesicht zu erkennen, nicht alle dieselbe räumliche Ausdehnung aufweisen, ist bei einer bevorzugten Ausführungsform der Erfindung vorgesehen, dass die Auswertungsgebiete in einem Auswertungsraum liegen, der nur einen Teilbereich eines Abbildungsraums umfasst, in dem erfasste Konturkoordinatenpunkte liegen können. Insgesamt werden die Auswertungsgebiete bei dieser Ausführungsform so festgelegt, dass sie alle in einem Auswertungsraum liegen, der ein Teilraum des Abbildungsraums ist, der die Menge aller Koordinatenpunkte umfasst, in denen Konturkoordinatenpunkte eines Gesichts erfasst werden könnten.
Die Häufigkeiten, die für die einzelnen Auswertungsgebiete ermittelt werden, weisen die größten Unterschiede auf, wenn die einzelnen Auswertungsgebiete voneinander disjunkt sind.
Andere Ausführungsformen können hingegen vorsehen, dass die Auswertungsgebiete nicht disjunkt sind. Für eine Graustufendarstellung, bei der die Auswertungsgebiete sich lediglich bezüglich ihrer Tiefeninformation unterscheiden, bedeutet dies, dass einzelne Graustufenwerte mehreren Graustufenbereichen zugeordnet sein könnten. Hierdurch ist es möglich, eine Gesamtanzahl von Konturkoordinatenpunkten in einem bestimmten Tiefenbereich ins Verhältnis zu einem hiervon umfassten Tiefenbereich zu setzen. Hierdurch können einzelne Gesichtsmerkmale, die in einem bestimmten Tiefenbereich liegen, besonders deutlich herausgearbeitet werden.
Um den Auswertungsraum optimal bestimmen zu können, ist bei einer bevorzugten Ausführungsform der Erfindung vorgesehen, dass für eine Menge von Trainingsgesichtern Trainingsgesichtsinformationsdatensätze erfasst werden, die darin enthaltenen Gesichtsinformationen normalisiert werden und der Auswertungsraum anhand der Trainingsgesichtsinformationsdatensätze so festgelegt wird, dass in dem Auswertungsraum für jeden der
Trainingsgesichtsinformationsdatensätze jeweils mindestens ein festgelegter Prozentsatz der dem entsprechenden Trainingsgesicht zuordenbaren Konturkoordinatenpunkte liegt. Dies bedeutet, dass der Auswertungsraum so festgelegt wird, dass für alle Trainingsgesichtsinformationsdatensätze innerhalb des dreidimensionalen Auswertungsraums mindestens ein festgelegter Prozent Konturkoordinatenpunkte vorhanden sind, die die Konturen des Trainingsgesichts repräsentieren, und somit nur ein (über den Prozentsatz definierter) Restanteil von Konturkoordinatenpunkten vorhanden ist, die andere Objekte repräsentieren, die als „Störung" erfasst wurden. Hierbei wird zum einen eine flächige Ausdehnung parallel zu einer Detektionsebene betrachtet und zum andern eine Tiefenausdehnung der Gesichtsinformation relativ zu der Detektionsebene. Anhand dieser Informationen wird der Auswertungsraum festgelegt. Hierdurch wird es möglich, bei dieser
Ausführungsform anhand eines kleinen Satzes von Trainingsgesichtern einen Auswertungsraum optimal festzulegen.
Bei einer bevorzugten Weiterbildung der Erfindung ist vorgesehen, dass die Auswertungsgebiete so festgelegt werden, dass sich die Merkmalsdatensätze der einzelnen Trainingsgesichter maximal voneinander unterscheiden. Diese Ausführungsform bietet den Vorteil, dass erneut anhand einer kleinen Anzahl von Trainingsgesichtern die Auswertungsgebiete optimal festgelegt werden können, um möglichst unterschiedliche Merkmalsdatensätze von den einzelnen Gesichtern zu erhalten. Die Auswertungsgebiete müssen hierbei nicht den gesamten Auswertungsraum vollständig ausfüllen. Vielmehr können einzelne Raumbereiche, die als nicht aussagekräftig angesehen werden, bei einer Auswertung unberücksichtigt bleiben. Ferner können die Auswertungsgebiete aus zwei oder mehr Sätzen von Untergebieten bestehen, die sich innerhalb eines Satzes jeweils nur hinsichtlich eines von ihnen umfassten Tiefenbereichs voneinander unterscheiden.
Bei einer bevorzugten Ausführungsform der Erfindung ist vorgesehen, dass der mindestens eine vorbekannte Merkmalsdatensatz anhand des Verfahrens, wie es oben beschrieben ist, ermittelt wird und in einem Datenspeicher abgelegt wird, wobei der Verfahrensschritt des Vergleichens unterlassen werden kann, d. h. in der Regel nicht ausgeführt wird. Wird ein Vergleich ausgeführt, während ein neues Gesicht erfasst wird, so kann man hierdurch herausfinden, ob das Gesicht eine hohe Ähnlichkeit mit einem bereits erfassten Gesicht aufweist oder ob es sich gar um eine Doppelerfassung des Gesichts handelt.
Um eine Identifizierung eines Gesichts mit einer Person zu ermöglichen, ist bei einer bevorzugten Ausführungsform vorgesehen, dass der mindestens eine vorbekannte Merkmalsdatensatz mit Identifikationsinformationen für das vorbekannte Gesicht in einer Datenbank in dem Datenspeicher abgespeichert wird.
Ein enormer Vorteil des Verfahrens liegt darin, dass eine Menge der Trainingsgesichter als echte Teilmenge der zu erkennenden Gesichter gewählt oder sogar disjunkt zu der Menge der zu erkennenden Gesichter gewählt wird. Hierdurch
ist, wie oben bereits erwähnt, ein Rechenaufwand gegenüber den aus dem Stand der Technik bekannten Verfahren drastisch reduziert.
Die entsprechenden Merkmale der erfindungsgemäßen Vorrichtung und des erfindungsgemäßen Gesichtserkennungsmoduls weisen dieselben Vorteile auf, wie die entsprechenden Merkmale des erfindungsgemäßen Verfahrens.
Nachfolgend wird die Erfindung anhand eines bevorzugten Ausführungsbeispiels unter Bezugnahme auf eine Zeichnung näher erläutert. Hierbei zeigen:
Fig. 1 ein Ablaufdiagramm einer Ausführungsform eines Verfahrens zum
Erkennen eines Gesichts;
Fig. 2a-2c schematische Darstellungen erfasster Gesichtsinformationen zur Veranschaulichung einer Orientierungsnormalisierung;
Fig. 3a-3c schematische Darstellungen eines Abbildungsraums, in dem ein
Auswertungsraum unterschiedlich in Auswertungsgebiete unterteilt ist;
Fig. 4a, 4b zwei Schnittdarstellungen durch schematische Gesichter senkrecht zu einer Detektionsebene zur Veranschaulichung der Zuordnung von Konturkoordinatenpunkten zu einzelnen Auswertungsgebieten zur Ermittlung der Häufigkeitsverteilungen der Konturkoordinatenpunkte bezogen auf die Auswertungsgebiete;
Fig. 5 eine schematische Darstellung einer Vorrichtung für eine
Gesichtserkennung; und
Fig. 6 eine schematische Darstellung eines Gesichtserkennungsmoduls.
Anhand von Fig. 1 soll ein schematischer Ablauf eines Verfahrens 1 zum Erkennen eines Gesichts erläutert werden. Das Verfahren kann in drei unterschiedlichen Modi betrieben werden. Diese drei Modi umfassen einen Trainingsmodus, einen
Erkennungsmodus und einen Zufügemodus. Zunächst wird abgefragt, ob das Verfahren im Trainingsmodus durchgeführt werden soll 2. Ist dies der Fall, so werden Gesichtsinformationen eines Trainingsgesichts mittels einer 3D-Erfassungseinheit erfasst. Die Gesichtsinformationen umfassen Ortsinformationen über Konturen des Gesichts. Die Gesichtsinformationen werden in Form eines
Trainingsgesichtsinformationsdatensatzes erfasst. Gegebenenfalls werden in einem weiteren Schritt Identifikationsinformationen zu dem Trainingsgesicht erfasst 4. Die erfassten Gesichtsinformationen werden anschließend normalisiert 5. Der Trainingsgesichtsinformationsdatensatz kann in Form von Raumkoordinaten, d.h. einem dreidimensionalen Gesichtsmodell, repräsentiert dargestellt sein oder in Form einer über einer Fläche aufgetragenen Graustufendarstellung, bei der die Graustufen Koeffizienten bezüglich einer dritten Koordinatenachse repräsentieren. Eine Normalisierung kann sowohl in dem dreidimensionalen Gesichtsmodell als auch in der Graustufendarstellung vorgenommen werden.
In Fig. 2a ist schematisch ein erfasstes Gesicht 101 dargestellt. Eine Detektionsebene ist parallel zu einer Zeichenebene ausgerichtet. Ein rechtshändiges Koordinatensystem 102 ist unter dem erfassten Gesicht 101 dargestellt. Eine x- Achse 103 und eine y-Achse 104 liegen in der Zeichenebene. Eine z-Achse erstreckt sich senkrecht in die Abbildungsebene, was mittels eines Kreuzes 5 dargestellt ist. Das Gesicht ist bezüglich der Detektionsebene sowohl um die y-Achse gedreht als auch bezüglich der y-Achse geneigt.
Mittels im Stand der Technik bekannter Verfahren werden markante Punkte des Gesichts ermittelt. Dies sind beispielsweise eine Nasenspitze 106 und eine Nasenwurzel 107. Des Weiteren können Augen 108 und ein Mund 109 auf diese Weise erkannt werden. In einem ersten Schritt einer Orientierungsnormalisierung wird mittels der ermittelten markanten Punkte die Drehung um einen Hals rechnerisch kompensiert. Ein Ergebnis ist in Fig. 2b schematisch dargestellt. Zu erkennen ist, dass das bezüglich der Drehung um den Hals normalisierte erfasste Gesicht 101' bezüglich der y-Achse noch immer geneigt ist. In einem zweiten Orientierungsnormalisierungsschritt werden die Gesichtsinformationen so transformiert, dass eine Verbindungslinie der Nasenspitze 106' zur Nasenwurzel 107"
parallel zu der y-Achse 104 ausgerichtet wird. Das Ergebnis dieser Transformation ist in Fig. 2c dargestellt. In einem weiteren Normalisierungsschritt werden die Koordinaten so angepasst, dass ein charakteristischer Punkt des Gesichts mit einem vorgegebenen Punkt zusammenfällt. So kann erreicht werden, dass die Nasenspitze 106 einen vorgegebenen Abstand senkrecht zu einem ausgezeichneten Punkt auf einer Detektionsebene aufweist. Die Detektionsebene ist im Prinzip eine beliebige Referenzebene, wird jedoch in der Regel mit einer Ebene in der SD- Erfassungseinheit zusammenfallen.
Nachdem die Normalisierung 5 mit der Orientierungsnormalisierung 6 und der Positionsnormalisierung 7, wie sie anhand der Fig. 2a bis 2c erläutert ist, ausgeführt ist, wird überprüft, ob weitere Trainingsgesichter eingelesen werden sollen 8. Ist dies der Fall, so werden die Verfahrensschritte 2 bis 7 erneut für ein weiteres Trainingsgesicht ausgeführt. Dieses findet solange statt, bis keine weiteren Trainingsgesichter eingelesen werden sollen. Anschließend wird anhand der Trainingsgesichter ein so genannter Auswertungsraum festgelegt 9.
In Fig. 3a ist schematisch ein Abbildungsraum 120 dargestellt. Der Abbildungsraum ist der Raum, der all jene Raumpunkte umfasst, an denen Konturkoordinatenpunkte eines Gesichts erfasst werden können. Er stellt quasi den Erfassungsbereich der 3D- Erfassungseinheit dar. Anhand der erfassten Gesichtsinformationen der Trainingsgesichter, d.h. der Trainingsgesichtsinformationsdatensätze, wird ein so genannter Auswertungsraum 121 ermittelt, der mittels gestrichelter Linien dargestellt ist. Der Auswertungsraum wird so gewählt, dass darin jeweils die Gesichtsregionen der mittels der 3D-Erfassungseinheit ermittelten Gesichtsinformationen liegen. In dem Auswertungsraum sollen keine Konturkoordinatenpunkte liegen, die beispielsweise andere Körperteile oder Gegenstände repräsentieren, die nicht zum Gesicht gehören. Würde man die einzelnen Gesichter jeweils in die Detektionsebene projizieren, so ist eine Vorderfläche 122 des Auswertungsraums 121 durch eine Schnittmenge der in den Gesichtsflächen enthaltenen Bildpunkte gegeben. Eine Tiefe des Auswertungsraums 121 , welche mittels eines Pfeils 123 angedeutet ist, wird so gewählt, dass möglichst alle z-Koordinatenwerte erfasst werden, d.h., alle Tiefenwerte betrachtet von der Detektionsebene aus, an denen
Konturkoordinatenpunkte aufzufinden sind, die einen Raumpunkt auf einer Kontur eines der Trainingsgesichter darstellen.
In dem in Fig. 3a dargestellten Beispiel ist der Auswertungsraum kubisch gewählt. Die Vorderfläche kann jedoch eine beliebige Form aufweisen. Insgesamt muss der Auswertungsraum kein Extrusionskörper der Vorderfläche sein, sondern kann vielmehr eine beliebige Form aufweisen, sofern in dem Auswertungsraum bei den Trainingsgesichtsdatensätzen keine Konturkoordinatenpunkte oder nur eine begrenzten Anteil von Koordinatenpunkten auftreten, die nicht einen Punkt auf einer Kontur eines der Trainingsgesichter darstellen. Um das Verfahren zur Bestimmung des Auswertungsraumes zu vereinfachen und bei Trainingsgesichtern die eine sehr unterschiedliche Flächige Ausdehnung aufweisen einen Ausreichend großen Auswertungsraum zu erhalten, der tatsächlich aussagekräftige Gesichtsinformationen umfasst, ist bei einigen Ausführungsformen vorgesehen sein, dass das strenge Erfordernis, dass in dem Auswertungsraum keine Konturkoordinatenpunkte eines Trainingsgesichtsinformationsdatensatzes liegen sollen, die keinen Punkt einer Kontur eines der Trainingsgesichter repräsentieren, aufgegeben wird. In einem solchen Fall wird ein Auswertungsraum festgelegt, in dem mit einer hohen Wahrscheinlichkeit Gesichtsinformationen und nicht Informationen anderer Gegenstände erfasst werden. Vorzugweise wird gefordert, dass für jeden Trainingsgesichtsdatensatz mindestens ein vorgegebener Prozentsatz der in dem Auswertungsraum enthaltenen Konturkoordinatenpunkte einer Kontur des jeweiligen Trainingsgesichts zuordenbar ist.
Ist der Auswertungsraum festgelegt, so werden in einem weiteren Verfahrensschritt Auswertungsgebiete in dem Auswertungsraum festgelegt 10. Vorzugsweise umfassen die Auswertungsgebiete einen Satz von Untergebieten oder sind sogar deckungsgleich mit einem Satz von Untergebieten, die sich lediglich hinsichtlich ihrer Tiefenausdehnung bezogen auf die Detektionsebene voneinander unterscheiden.
Bei dem schematisch in Fig. 3a dargestellten Beispiel ist der Auswertungsraum 121 in vier Auswertungsgebiete 124-127 unterteilt, die jeweils gleich große, jedoch unterschiedliche Tiefenbereiche umfassen. Die Auswertungsgebiete sind als ein Satz
von Untergebieten ausgebildet, die sich lediglich hinsichtlich eines von ihnen umfassten Tiefenbereichs bezogen auf eine Detektionsfläche (oder sonstige Referenzfläche) unterscheiden, die beispielsweise mit einer Begrenzungsfläche 128 des Abbildungsraums 120 zusammenfällt. Bezüglich eines Koordinatensystems 102, das eine x-Achse 103 und eine y-Achse 104 sowie eine z-Achse 129 umfasst, ist das Gesicht jeweils wie in Fig. 2c dargestellt, orientiert.
In Fig. 3b und 3c sind jeweils anders ausgebildete Auswertungsgebiete dargestellt. In Fig. 3b sind die Auswertungsgebiete ebenfalls als Untergebiete 131-136 eines Satzes von Untergebieten 131-136 ausgebildet, die sich lediglich hinsichtlich des von ihnen umfassten Tiefenbereichs bezogen auf eine Detektionsebene, die mit einer Begrenzungsfläche 128 des Ausbildungsraums 120 zusammenfällt, unterscheiden. Die Auswertungsgebiete bzw. Untergebiete 131-136 sind in diesem Falle ebenfalls disjunkt, umfassen jedoch unterschiedlich große Tiefenbereiche.
Bei der Ausführungsform nach Fig. 3c sind die Auswertungsgebiete in Form von zwei Sätzen von Untergebieten 141-144 und 145-148 ausgebildet. Bei dieser Ausführungsform umfassen die Auswertungsgebiete nicht den gesamten Auswertungsraum 121. Andere Ausführungsformen können mehr Sätze von Untergebieten, beispielsweise fünf Sätze von Untergebieten aufweisen, die aneinander angrenzen und jeweils 6 disjunkte Untergebiete aufweisen, die entlang der z-Achse 129 jeweils aneinander angenzend ausgebildet sind und jeweils einen gleich großen Tiefenbereich umfassen. Die Untergebiete der einzelnen Sätze von Untergebieten weisen entlang der x-Achse eine größere Ausdehnung als entlang der y-Achse auf. Eine Orientierung des Gesichts bezüglich des Koordinatensystems 102 entspricht hierbei einer Ausrichtung, wie sie in Fig. 2c dargestellt ist. Man erhält bei dieser Ausführungsform eine Häufigkeitsverteilung mit 30 Werten.
Es sind andere Ausführungsformen denkbar, die anders ausgebildete Auswertungsgebiete aufweisen, die jeweils Abbildungsraumregionen umfassen.
Ein Festlegen des Auswertungsraums kann prinzipiell unterbleiben. Dieser Verfahrensschritt bietet jedoch die Möglichkeit, die Auswertungsgebiete auf einfache
Weise festzulegen, indem die Auswertungsgebiete vorzugsweise als Untergebiete, die sich lediglich hinsichtlich des von ihnen umfassten Tiefenbereichs bezogen auf eine Referenzebene oder Detektionsebene unterscheiden, ausgebildet werden. Die Untergebiete weisen somit alle eine Ähnliche geometrische Form auf, die sich lediglich in einer Dimension hinsichtlich ihrer Ausdehnung und/oder Lage im Raum unterscheiden. Die Untergebiete können „hintereinander" (beispielsweise aneinander liegende Quader) oder „ineinander verschachtelt' (Quader verschiedener Tiefe, mit einer gemeinsamen Vorderfläche) sein. Vorzugsweise erfolgt die Festlegung der Auswertungsgebiete so, dass der Auswertungsraum mit den Auswertungsgebieten „ausgefüllt" wird bzw. der gesamte Auswertungsraum in Auswertungsgebiete unterteilt wird. Dieses ist besonders einfach möglich, wenn der Auswertungsraum ein Extrusionsraum ist, der sich mittels der Extrusion einer Extrusionsfläche entlang einer geraden Strecke ausspannen lässt. Als eine solche Extrusionsfläche kann beispielsweise jene Fläche verwendet werden, die eine Schnittmenge der auf die Detektionsebene projizierten Gesichtsflächen repräsentiert, wie oben bereist erläutert ist. Ebenso kann jene Fläche verwendet werden, in der die auf die Detektionsfläche projizierten Gesichtsflächen der einzelnen Trainingsgesichter jeweils einen vorgegeben Flächenanteil überschreiten, wie oben ebenfalls bereits erläutert ist.
Die Auswertungsgebiete werden dazu verwendet, die Konturkoordinatenpunkte eines einzelnen Gesichts zusammenzufassen. Dies bedeutet, dass für die einzelnen Auswertungsgebiete ermittelt wird, wie viele Konturkoordinatenpunkte eines Gesichts jeweils in einem Auswertungsgebiet liegen. Man erhält somit eine Häufigkeitsverteilung für die Konturkoordinatenpunkte bezogen auf die Auswertegebiete. Diese Häufigkeitsverteilungen sind für einzelne Gesichter charakteristisch.
Die Festlegung der Auswertungsgebiete erfolgt somit vorteilhafterweise anhand von Vorgaben, beispielsweise der, dass der gesamte Auswertungsraum in Auswertungsgebiete unterteilt werden soll, die einen Satz von Untergebieten darstellen, die sich jeweils nur hinsichtlich des von ihnen umfassten Tiefenbereichs bezogen auf die Detektionsebene unterscheiden. Die Festlegung wird dann anhand der Vorgaben so vorgenommen, dass sich die Häufigkeitsverteilungen der einzelnen
Trainingsgesichter maximal voneinander unterscheiden. Hierbei können Iterationsverfahren verwendet werden.
In Fig. 4a und 4b sind zwei Schnittlinien 161 , 162 durch unterschiedliche schematische Gesichter dargestellt. In beiden Figuren ist jeweils eine Detektionsebene 163 dargestellt, die sich senkrecht zur Zeichnungsebene erstreckt. Die Schnittlinien 161. 162 geben die Gesichtskonturen von zwei unterschiedlichen Gesichtern wieder. Die Gesichtskonturen sind bezüglich einer Nasenspitze 164, 165 bezogen auf die Detektionsebene 163 jeweils Positionsnormal isiert, was mittels eines Abstandspfeils 166 angedeutet ist. Waagerecht dargestellte Linien 167 deuten Ebenen an, in denen von einer als 3D-Scanner ausgebildeten 3D-Erfassungseinheit Linien zur Erfassung von Ortsinformationen auf die mittels der Schnittlinien 161, 162 dargestellten Gesichter projiziert werden. Schnittpunkte der waagerechten Linien 167 mit den Schnittlinien 161 , 162 der Gesichtskonturen stellen jeweils Konturkoordinatenpunkte 168 in der dargestellten Schnittebene dar. Die senkrecht verlaufenden Linien 169 geben Grenzen von senkrecht zur Schnittebene ausgedehnten Auswertegebieten 170- 175 wieder. Um eine Häufigkeitsverteilung der Konturkoordinatenpunkte 168 bezüglich der Auswertegebiete 170-175 zu ermitteln, müssen lediglich die in dem entsprechenden Auswertegebiet liegenden Konturkoordinatenpunkte 168 gezählt werden. Hierbei ist in dem dargestellten Ausführungsbeispiel angenommen, dass die senkrechten Linien 169, die jeweils Grenzen der Auswertungsgebiete 170-175 darstellen, jeweils zu dem angrenzenden der Auswertungsgebiete 170-175 gehören, dessen Abstand von der Detektionsebene 163 größer ist. Die ermittelten Häufigkeitsverteilungen 176, 177 sind jeweils in einem unteren Bereich der Fig. 4a und 4b als Balkendiagramme dargestellt. Da in beiden Figuren, 4a und 4b, jeweils dieselbe Anzahl von Konturkoordinatenpunkten auftreten, können die Häufigkeitsverteilungen direkt als Merkmalsdatensätze verwendet werden. Stellt man die Häufigkeitsverteilungen als Merkmalsvektoren dar, so erhält man für das in Fig. 4a dargestellte Gesicht einen Merkmalsvektor (2, 1 , 10, 4, 4, 3) und für das in Fig. 4b dargestellte Gesicht ein Merkmalsvektor (0, 4, 4, 8, 5, 3).
In der Regel können die Häufigkeitsverteilungen nicht direkt miteinander verglichen werden, da sich beispielsweise eine Anzahl der Konturkoordinatenpunkte in dem von den Auswertegebieten umfassten Raum in den einzelnen Trainingsgesichtsinformationen unterschiedlich ist. Daher wird aus den Häufigkeitsverteilungen ein Merkmalsdatensatz abgeleitet. Dies geschieht beispielsweise, indem die ermittelten Häufigkeiten auf eine Gesamtanzahl der in den Auswertegebieten liegenden Konturkoordinatenpunkte eines Gesichts normiert werden.
Nach dem Berechnen der Häufigkeitsverteilung und dem Ableiten eines Merkmalsdatensatzes vorzugsweise in Form eins Merkmalsvektors 11 wird in einer Abfrage abgeprüft, ob die Auswertegebiete fertig optimiert sind 12. Ist dies nicht der Fall, so werden die Auswertegebiete verändert 13 und eine Berechnung der Häufigkeitsverteilungen und ein Ableiten der Merkmalsdatensätze für die Trainingsgesichter erneut ausgeführt 11. Sind die Auswertegebiete fertig optimiert, so werden die Auswertungsgebiete beschreibende Informationen abgespeichert 17 und anschließend abgefragt, ob die Trainingsgesichter später wiedererkannt werden sollen 14. Dies ist in der Regel der Fall, so dass anschließend die Merkmalsdatensätze und gegebenenfalls erfasste Identifikationsinformationen in einem Datenspeicher in Form einer Datenbank abgespeichert werden 15. Der Trainingsmodus des Verfahrens 1 ist hiermit abgeschlossen 16.
Hat die Abfrage 2 ergeben, dass das Verfahren nicht im Trainingsmodus betrieben werden soll, so werden Gesichtsinformationen eines Gesichts mittels der SD- Erfassungseinheit erfasst 3'. Die erfassten Gesichtsinformationen werden anschließend normalisiert 5', was eine Orientierungsnormalisierung 6' und eine Positionsnormalisierung T umfasst. Die Verfahrensschritte der Normalisierung 5* bis T gleichen den Normalisierungsschritten 5 bis 7, die oben erläutert wurden. Anschließend wird eine Berechnung der Häufigkeitsverteilung der Konturkoordinatenpunkte bezogen auf die im Trainingsmodus festgelegten Auswertungsgebiete vorgenommen und hieraus ein Merkmalsdatensatz abgeleitet 11'. Hierbei kann auf die abgespeicherten Informationen über die Auswertungsgebiete zurückgegriffen werden.
In einer Abfrage wird festgestellt, ob das Verfahren ein Gesicht erkennen soll oder ob das Gesicht der Menge der zu erkennenden Gesichter zugefügt werden soll 19. Soll das Gesicht hinzugefügt werden, d.h. das Verfahren in einem Zufügemodus betrieben werden, so werden anschließend vorteilhafterweise Identifikationsinformationen zu dem Gesicht erfasst 4'. Anschließend wird der Merkmalsdatensatz gemeinsam mit den gegebenenfalls erfassten Identifikationsinformationen in dem Speicherbereich in der Datenbank abgelegt 15'. Hiermit ist das Ende des Verfahrens im Zufügemodus erreicht 20.
An dieser Stelle wird erneut darauf hingewiesen, dass auf die Daten der Trainingsgesichter nicht zurückgegriffen werden muss, um ein weiteres Gesicht zu der Menge der zu erkennenden Gesichter hinzuzufügen. Ein Zufügen eines weiteren Gesichts oder auch ein Löschen eines Gesichts oder mehrerer Gesichter kann erfolgen, ohne dass hierdurch ein erhöhter Rechenaufwand notwendig ist. Ferner müssen von dem zu erkennenden Gesicht nicht sämtliche erfasste Konturkoordinatenpunkte, d.h. der gesamte Gesichtsinformationsdatensatz, abgelegt werden, sondern lediglich ein deutlich reduzierter Merkmalsdatensatz. Dies führt zu einer erheblichen Reduktion des zur Abspeicherung benötigten Speicherplatzes. Insbesondere bei großen Personengruppen, deren Gesichter erkannt werden sollen, ist dies von enormem Vorteil.
Soll das Verfahren nicht im Zufügemodus, sondern im Erkennungsmodus betrieben werden, so wird nach dem Ermitteln des Merkmalsdatensatzes 11' und der entsprechenden Abfrage 19 ein vorbekannter Merkmalsdatensatz aus der Datenbank eingelesen 21. Anschließend wird der Merkmalsdatensatz mit dem vorbekannten Merkmalsdatensatz verglichen 22. Hierbei wird eine Ähnlichkeit des Merkmalsdatensatzes mit dem vorbekannten Merkmalsdatensatz ermittelt. Der Merkmalsdatensatz und der vorbekannte Merkmalsdatensatz werden in der Regel als Merkmalsvektoren (Feature-Vektoren) ausbildet. Dem Fachmann sind Verfahren bekannt, wie die Ähnlichkeit von Merkmalsdatensätzen bzw. Merkmalsvektoren ermittelt werden können. Hierbei können ein oder mehrere Abfragekriterien berücksichtigt werden, um die Ähnlichkeit eines Merkmalsvektors mit einem
vorbekannten Merkmalsvektor festzustellen. Zur Bestimmung der Ähnlichkeit kann beispielsweise ein so genanntes City-Block-Verfahren angewendet werden oder eine euklidische Distanz oder eine Korrelation ausgewertet werden, um nur einige Methoden beispielhaft zu erwähnen. In einer Abfrage wird abgefragt, ob der Merkmalsdatensatz (Merkmalsvektor) ähnlich zu dem vorbekannten Merkmalsdatensatz (vorbekannten Merkmalsvektor) ist 23. Ist dies nicht der Fall, so wird anschließend überprüft, ob in der Datenbank weitere vorbekannte Merkmalsdatensätze (vorbekannte Merkmalsvektoren) gespeichert sind, die noch nicht mit dem Merkmalsdatensatz verglichen wurden 24. Gibt es solche vorbekannten Merkmalsdatensätze, so werden diese eingelesen 21 und mit dem Merkmalsdatenvektor verglichen 22.
Wird in der Abfrage 23 festgestellt, dass der Merkmalsdatensatz mit einem vorbekannten Merkmalsdatensatz übereinstimmt, so gilt das Gesicht, aus dessen Gesichtsinformationsdatensatz der Merkmalsdatensatz ermittelt wurde, als das vorbekannte Gesicht erkannt, aus dessen Gesichtsinformationsdatensatz ursprünglich der vorbekannte Merkmalsdatensatz, mit dem eine Übereinstimmung festgestellt wurde, ermittelt ist. Dieses Resultat wird, gegebenenfalls mit Identifikationsinformationen des vorbekannten Merkmalsdatensatzes, ausgegeben 25. Ist eine Übereinstimmung nicht festgestellt 23 und ist zusätzlich die Abfrage zu verneinen, ob noch weitere vorbekannte Datensätze in der Datenbank gespeichert sind, die nicht mit dem Merkmalsdatensatz verglichen wurden 24, so konnte das Gesicht nicht als eines der vorbekannten Gesichter erkannt werden, was ebenfalls ausgegeben wird 26. Das Verfahren ist im Erkennungsmodus beendet 27.
In Fig. 5 ist schematisch eine Vorrichtung 180 für ein Erkennen eines Gesichts 181 dargestellt. Das Gesicht 181 ist vor einer 3D-Erfassungseinheit 182 angeordnet. Die 3D-Erfassungseinheit 182 erfasst Gesichtsinformationen des Gesichts 181 in Form eines Gesichtsinformationsdatensatzes. Dieser wird an eine Normalisierungseinheit 183 übermittelt. Die Normalisierungseinheit 183 kann bei einigen Ausführungsformen Bestandteil der 3D-Erfassungseinheit 182 sein. Bei anderen Ausführungsformen, wie der hier dargestellten, ist die Normalisierungseinheit 183 Bestandteil einer Erkennungseinheit 184. Nachdem die Gesichtsinformationen mittels der
Normalisierungseinheit 183 normalisiert worden sind, werden sie von einer Auswerteeinheit 185 ausgewertet. Hierbei wird eine Häufigkeitsverteilung von Konturkoordinatenpunkten des erfassten Gesichts bezüglich von Auswertegebieten ermittelt. Aus der Häufigkeitsverteilung wird ein Merkmalsdatensatz abgeleitet, der mit vorbekannten Merkmalsdatensätzen in einer Vergleichseinheit 186 verglichen wird. Die hierfür benötigten vorbekannten Merkmalsdatensätze können aus einem Datenspeicher 187 eingelesen werden, in dem eine Datenhank 188 die vorbekannten Merkmalsdatensätze verwaltet. Wird eine Übereinstimmung des Merkmalsdatensatzes des erfassten Gesichts 181 mit einem der vorbekannten Merkmalsdatensätze festgestellt, so gilt das Gesicht 181 als das Gesicht erkannt, aus dessen Gesichtsinformationsdatensatz der entsprechende vorbekannte Merkmalsdatensatz einst abgeleitet wurde. Eine Information hierüber und gegebenenfalls Identifikationsinformationen, die zu dem vorbekannten Merkmalsdatensatz in der Datenbank 188 abgelegt sind, werden über eine Ausgabeeinheit 189 ausgegeben.
Die Vorrichtung 180 ist so ausgestaltet, dass mit ihr ein neuer vorbekannter Merkmalsdatensatz ermittelt werden kann. Hierfür verfügt die Vorrichtung 181 über eine Eingabeeinheit 190, über die die Vorrichtung 180 in einen Zufügemodus ersetzt werden kann. Femer können über die Eingabeeinheit Identifikationsinformationen über die Person bzw. das Gesicht eingegeben werden, aus dessen Gesichtsinformationen ein neuer vorbekannter Merkmalsdatensatz abgeleitet wird und anschließend gemeinsam mit diesen Informationen in der Datenbank 188 abgelegt wird. Die Auswerteeinheit 185 kann ferner so ausgestaltet sein, dass ein Auswertebereich und die Auswertegebiete in einem Trainingsmodus festgelegt werden können. Hierzu ist die Vorrichtung 180 in der Lage,
Trainingsgesichtsinformationsdatensätze für mehrere Trainingsgesichter zu erfassen und hieraus, wie oben beschrieben, einen Auswertungsraum und Auswertungsgebiete zu ermitteln und gegebenenfalls für die Trainingsgesichter die ermittelten Merkmalsdatensätze in der Datenbank 188 des Datenspeichers 187 abzulegen. Wie durch eine gestrichelte Linie 191 angedeutet ist, kann die Erkennungseinheit 184 auch ohne den Datenspeicher 187 und die Datenbank 188 ausgebildet sein. In diesem Fall erfolgt die Speicherung auf einem externen
Datenspeicher 187, der nicht notwendigerweise eine Datenbank 188 enthalten muss. Bei dem externen Datenspeicher 187 kann es sich auch eine Smart-Card oder einen ähnlichen tragbaren Datenspeicher handeln, auf dem nur ein vorbekannter Merkmalsdatensatz abgespeichert ist. Hierdurch wird erreicht, dass die personenbezogenen Merkmalsdaten nur auf einem Datenspeicher der Person abgespeichert werden, von dessen Gesicht sie abgeleitet wurden.
Bei wieder einer anderen Ausführungsform umfasst die Erkennungseinheit 184 auch die Vergleichseinheit 186 nicht. Wie mittels einer gepunkteten Linie 192 angedeutet ist, ist die Vergleichseinheit 186 mit dem Datenspeicher 187 in einer tragbaren Einheit ausgebildet, wobei der Datenspeicher 187 ebenfalls keine Datenbank 188 umfassen muss. So kann auch der Vergleichsschritt in der tragbaren Einheit, die von der gepunkteten Linie 192 umrandet ist, ausgeführt werden. Bei dieser Ausführungsform müssen die Merkmalsdaten nicht aus der tragbaren Einheit ausgelesen werden und werden auch der Erkennungseinheit 184 nicht zugänglich gemacht. Solche tragbaren Einheiten werden auch als „on card matcher" bezeichnet.
In Fig. 6 ist ein Gesichtserkennungsmodul schematisch dargestellt. Ein Gesichtserkennungsmodul ist vorzugsweise in Form eines computerausführbaren Codes ausgeführt, der auf einem Computer ausführbar ist. Das Gesichtserkennungsmodul 200 umfasst eine Schnittstelle 201 , mit der Gesichtsinformationsdatensätze empfangen bzw. eingelesen oder erfasst werden können. Die Gesichtsinformationsdatensätze können bereits normalisiert sein. Ebenso ist es möglich, dass das Gesichtserkennungsmodul 200 eine Normalisierungseinheit 202 umfasst. Die normalisierten Gesichtsinformationsdatensätze werden in einer Auswerteeinheit 203 weiterverarbeitet. Hierbei wird für Auswertungsgebiete eine Häufigkeitsverteilung der Konturkoordinatenpunkte ermittelt. Aus der Häufigkeitsverteilung wird ein Merkmalsdatensatz abgeleitet. Wird das Gesichtserkennungsmodul in einem Zufügemodus betrieben, so wird der Merkmalsdatensatz über eine weitere Schnittstelle 204 ausgegeben und kann in einer Datenbank 205 gespeichert werden. Über eine zusätzliche Schnittstelle 207 können aus der Datenbank 205 vorbekannte Merkmalsdatensätze eingelesen werden, die bei einem Betrieb des
Gesichtserkennungsmoduls 200 in einem Erkennungsmodus in einer Vergleichseinheit 208 mit dem Merkmalsdatensatz verglichen werden. Liegt eine Ähnlichkeit des Merkmalsdatensatzes mit einem der vorbekannten Merkmalsdatensätze vor, so gilt das Gesicht als erkannt. Eine Information hierüber kann über die weitere Schnittstelle 204 ausgegeben werden. Die Schnittstelle 201 , die weitere Schnittstelle 204 und die zusätzliche Schnittstelle 207 können paarweise oder gemeinsam in einer einzigen Schnittstβüe ausgeführt sein. Die A'jεvverteeiπheit 203 des Gesichtserkennungsmoduls 200 ist vorzugsweise so ausgestaltet, dass sie in der Lage ist, in einem Trainingsmodus anhand mehrerer Trainingsgesichtsinformationsdatensätze, die über die Schnittstelle 201 empfangen werden, einen Auswertungsraum und Auswertungsgebiete, wie dies oben erläutert ist, zu ermitteln.
Bei den beschriebenen bevorzugten Verfahren und der entsprechenden Vorrichtung bzw. dem entsprechenden Gesichtserkennungsmodul ist jeweils vorgesehen, dass ein Trainingsmodus genutzt werden kann, um die Auswertegebiete festzulegen. Bei einer anderen Ausführungsform kann vorgesehen sein, dass die Auswertungsgebiete vorfestgelegt sind und nicht erst in einem Trainingsmodus ermittelt werden.
Bezugszeichenliste
1 Verfahren zum Erkennen eines Gesichts
2 Trainingsmodusabfrage
3 Erfassen von 3D-Gesichtsinformationen
4 Erfassen von Identifikationsinformationen 5, 5' Normalisierung der Gesir.htsjnformationen 6, 6' Positionsnormalisierung
7, T Orientierungsnormalisierung
8 weitere Trainingsgesichter einlesen?
9 Auswertungsraumfestlegung
10 Bestimmung der Auswertegebiete
11 , 11' Berechnung der Häufigkeitsverteilung und Ableitung eines Merkmalsdatensatzes
12 Optimierung der Auswertungsgebiete fertig?
13 Verändern der Auswertungsgebiete
14 Abfrage: Sollen Trainingsgesichter später wiedererkannt werden? 15, 15' Speichern in einem bestimmten Speicher in Form einer Datenbank
16 Ende Trainingsmodus
17 abspeichern von Informationen über die Auswertungsgebiete
19 Abfrage: Zufügemodus oder Erkennungsmodus?
20 Ende Zufügemodus
21 Einlesen vorbekannter Merkmalsdatensatz 2 Vergleich Merkmalsdatensatz mit vorbekanntem Merkmalsdatensatz 3 Abfrage: Liegt Ähnlichkeit vor (Erkennung)? 4 Abfrage: Gibt es weitere vorbekannte Merkmalsdatensätze? 5 Ausgeben Gesicht erkannt 6 Ausgeben Gesicht nicht erkannt 7 Ende Erkennungsmodus 101 , 101', 101 " erfasstes Gesicht
102 Koordinatensystem
103 x-Achse
104 y-Achse
105 Kreuz als Darstellung der z-Achse
106, 106', 106" Nasenspitze
107, 107', 107" Nasenwurzel
108, 108', 108" Augen 109,109', 109" Mund
120 Abbildungsraum
121 Auswertungsraum
122 Vorderfläche des Auswertungsraums
123 Pfeil
124-127 Auswertegebiete
128 Grundfläche des Abbildungsraums
129 z-Achse 131-136 Untergebiete 141-144 Untergebiete 145-148 Untergebiete
161 , 162 Schnittlinien von Gesichtskonturen
163 Detektionsebene
164, 165 Nasenspitze
166 Abstandspfeil
167 waagerechte Linien
168 Konturkoordinatenpunkte
169 senkrechte Linien 170- 175 Auswertegebiete
176, 177 Häufigkeitsverteilungen in Form von Balkendiagrammen
180 Vorrichtung zur Gesichtserkennung
181 Gesicht
182 3D-Erfassungseinheit
183 Normalisierungseinheit
184 Erkennungseinheit
185 Auswerteeinheit
186 Vergleichseinheit
187 Datenspeicher
188 Datenbank
189 Ausgabeeinheit
190 Eingabeeinheit
191 gestrichelte Linie
192 gepunktete Linie
200 Gesichtserkennungsmodul
201 Schnittstelle
202 Normalisierungseinheit
203 Auswerteeinheit
204 weitere Schnittstelle
205 Datenbank
207 zusätzliche Schnittstelle
208 Vergleichseinheit