Beschreibung
Verfahren und Vorrichtung zum rechnergestützten Annotieren von Multimediadaten
Die Erfindung betrifft ein Verfahren und eine Vorrichtung zum rechnergestützten Annotieren von Multimediadaten.
Bei Multimediadaten, die eine Sequenz digitalisierter Bilder umfassen, besteht das Problem, automatisch zu erkennen, was auf den einzelnen Bildern dargestellt ist, um die Multimedia¬ daten anhand des Inhalts annotieren zu können. Insbesondere sollen die Multimediadaten dahingehend annotiert werden, welche Personen (d.h. deren Identität) in diesen dargestellt sind. Die Annotation kann weiterhin einen Kontext der dargestellten Objekte betreffen, wie z.B. wann wurden die Multimediadaten erstellt, in welchem Zusammenhang wurden diese erstellt, sind Außen- oder Innenaufnahmen dargestellt, usw. In diesem Zusammenhang ist es bekannt, die Multimediadaten zunächst in einzelne Szenen, d.h. logisch oder semantisch zusammengehörige Bilder, zu zerlegen. Personen werden anhand von Gesichtserkennungssoftware automatisch detektiert. Die Unterscheidung von Personen wird auch dadurch ermöglicht, dass die Sprache der Personen analysiert wird, um anhand un¬ terschiedlicher Sprachprofile Personen unterscheiden zu können. Eine Identifikation erkannter Personen erfolgt üblicherweise durch einen Vergleich mit in einer Datenbank gespeicherten Informationen, in welcher Referenzinformationen be- züglich Phonetik und/oder visueller Merkmale für jeweilige Personen hinterlegt sind. Ist eine in den Multimediadaten dargestellte Person in der Datenbank jedoch nicht hinterlegt, so ist eine Identifikation auf diese Weise nicht möglich. Andere Verfahren nutzen zur Annotation der Multimediadaten eine Internet-Suche. Hierbei werden zunächst manuell anno¬ tierte Bilder für zu annotierende Personen gesucht. Anschlie-
ßend werden die für die aufgefundenen Bilder ermittelten Eigenschaften mit denen der in den Multimediadaten dargestellten Personen verglichen. Im Falle einer Übereinstimmung kann durch Übertragung der manuellen Annotation aus dem Bild eine Annotierung der Multimediadaten mit einer bestimmten Person erfolgen .
Die aus dem Stand der Technik bekannten Vorgehensweisen erfordern in praktisch allen Fällen die Vornahme manueller Ein- griffe, so dass die Annotation von Multimediadaten nicht automatisiert erfolgen kann.
Es ist Aufgabe der vorliegenden Erfindung, ein Verfahren anzugeben, mit dem die Annotation von Multimediadaten rechner- gestützt, d.h. automatisch, erfolgen kann. Eine weitere Aufgabe der Erfindung besteht darin, eine Vorrichtung anzugeben, welche die automatisierte, rechnergestützte Annotation von Multimediadaten ermöglicht. Diese Aufgaben werden gelöst durch ein Verfahren gemäß den
Merkmalen des Patentanspruchs 1 sowie eine Vorrichtung gemäß den Merkmalen des Patentanspruchs 13. Vorteilhafte Ausgestal¬ tungen ergeben sich jeweils aus den abhängigen Patentansprüchen .
Die Erfindung schafft ein Verfahren zum rechnergestützten Annotieren von Multimediadaten, die eine Sequenz digitalisierter Bilder umfasst. Das erfindungsgemäße Verfahren umfasst die folgenden Schritte: Durchführen einer Analyse der Multi- mediadaten zur Detektion eines oder mehrerer Objekte in den Multimediadaten. Zuordnung des oder der Objekte zu jeweils einer Rolle, wobei die Rollenzuordnung unter Verarbeitung von Kontextinformationen ermöglicht wird, die ein Modell der Mul¬ timediadaten repräsentieren.
Unter einer Rolle wird in der nachfolgenden Beschreibung insbesondere die Funktion einer Person in den Multimediadaten
verstanden. Die Funktion der Person bemisst sich z.B. nach einem Text, welcher der Person zugeordnet ist.
Unter einem Objekt wird in der vorliegenden Beschreibung ins- besondere eine in den Multimediadaten dargestellte Person verstanden. Ein Objekt kann jedoch auch ein davon unterschiedlicher Gegenstand sein.
Der Vorteil des erfindungsgemäßen Verfahrens besteht darin, dass das Verfahren zum Annotieren der Multimediadaten rechnergestützt und automatisiert erfolgen kann. Zwischen der Analyse der Multimediadaten und der Zuordnung der bei der Analyse ermittelten Objekte zu einer Rolle sind keine manuel¬ len Arbeitsschritte erforderlich, wodurch das erfindungsgemä- ße Verfahren schnell und effizient arbeitet.
Insbesondere werden die Kontextinformationen aus einer, von den Multimediadaten unterschiedlichen, Informationsquelle ermittelt. Mit anderen Worten bedeutet dies, dass die Kontext- Informationen nicht aus den Multimediadaten stammen oder diesen entnommen werden. Die Kontextinformationen umfassen beispielsweise Hintergrundinformationen zu den analysierten Multimediadaten, welche durch einen Dienstbetreiber oder auf andere Weise bereitgestellt werden.
Gemäß einer zweckmäßigen Ausgestaltung erfolgt als weiterer Schritt eine Zuordnung der Objekte zu Objektklassen, wobei eine Objektklasse als ähnlich identifizierte Objekte umfasst, so dass davon ausgegangen werden kann, dass es sich mit hoher Wahrscheinlichkeit um dasselbe Objekt handelt. Eine Objekt¬ klasse umfasst somit eine Gruppierung ähnlicher Objekte.
Durch diesen Zwischenschritt kann die Zuordnung der Objekte zu einer Rolle auf einfachere und schnellere Weise vorgenom¬ men werden.
Zur Kategorisierung zweier Objekte als ähnlich wird insbesondere ein Objekt-spezifisches Ähnlichkeitsmaß für die zwei Ob-
jekte ermittelt, das visuelle und/oder phonetische und/oder geometrische Eigenschaften der Objekte berücksichtigt. Objek¬ te können beispielsweise durch ein Gesichts-Tracking oder eine Ähnlichkeitsprüfung basierend auf visuellen Merkmaelen als ähnlich erfasst werden. Phonetische Ähnlichkeiten der in den Multimediadaten ermittelten Objekte werden beispielsweise durch eine Sprachanalyse ausfindig gemacht.
Gemäß einer weiteren zweckmäßigen Ausgestaltung wird als wei- terer Schritt für eine jeweilige Rolle eine Identität ermit¬ telt. Die Identität eines Objekts, insbesondere einer Person, bezeichnet die das Objekt kennzeichnende und von anderen Ob¬ jekten unterscheidende Eigentümlichkeit seines Wesens. Durch die Mehrstufigkeit des erfindungsgemäßen Verfahrens, der Ob- j ektbeobachtung zur Detektion der Objekte, der Zuordnung der Objekte zu wenigstens einer Objektklasse, der Zuordnung der Objektklasse oder -klassen zu einer Rolle und der Zuordnung einer jeweiligen Rolle zu einer Identität kann der Rechenaufwand des erfindungsgemäßen Verfahrens gering gehalten werden und die Zuverlässigkeit der Zuweisung der Identitäten zu den Objekten gesteigert werden. Insbesondere wird eine Konvergenz in schneller Zeit erreicht.
Gemäß einer weiteren bevorzugten Ausgestaltung erfolgt die Ermittlung der Identität auf Basis der ermittelten Rolle unter Verarbeitung der Kontextinformationen. Es ist ferner zweckmäßig, wenn eine ermittelte Identität dem betreffenden Objekt und/oder der betreffenden Objektklasse zugeordnet wird .
In einer weiteren zweckmäßigen Ausgestaltung umfassen die Kontextinformationen eine Information über in den Multimediadaten involvierte Identitäten. Diese stellen Rollen dar, zu denen die beobachteten, unbekannten Objekte zugeordnet werden sollen. Es ist möglich, dass eine Identität im Verlauf der
Multimediadaten auch mehrere Rollen annehmen kann. Wenn sich die Rolle über die Zeit ändert, so wird die Identifikation
erst über die Kombination aus Rolle und einem Zeitstempel eindeutig .
Die Kontextinformationen umfassen optional weiter statisti- sches oder prozedurales Wissen über einen Kontext der Multi¬ mediadaten. Letzteres kann beispielsweise der übliche Ablauf einer im Fernsehen ausgestrahlten Sendung sein, der z.B. einen Vorspann, ein darauffolgendes Interview mit einem Gast, einen eingespielten Bericht über den Gast oder ein von dem Gast beworbenes Produkt sein, usw., umfasst. Statistisches
Wissen liegt beispielsweise vor, wenn die Häufigkeit des Auf¬ tretens eines Objekts in den Multimediadaten ermittelt wird. Aus dieser Information kann - bei entsprechendem Kontext - auf die Rolle bzw. Identität des Objekts geschlossen werden.
Weiterhin können die Kontextinformationen logische Einschränkungen umfassen. Treten beispielsweise zwei identifizierte Objekte in einer Bildsequenz gleichzeitig auf, so können die¬ se nicht die gleiche Identität besitzen. Durch dieses Aus- schlusskriterium kann die Anzahl möglicher Zuordnungen von Objekten zu Rollen bzw. Identitäten reduziert werden. Auch hierdurch kann die Konvergenz des Verfahrens beschleunigt werden . In einer weiteren Ausgestaltung umfassen die Kontextinformationen Daten anderer Datenquellen, insbesondere von Datenbanken mit Informationen über die Multimediadaten. Diese Datenquellen können beispielsweise elektronische Programmzeit¬ schriften oder Zusammenfassungen über eine Sendung sein, wel- che typischerweise in Datenbanken verfügbar ist.
Die Erfindung schafft weiter eine Vorrichtung zum rechnergestützten Annotieren von Multimediadaten, die eine Sequenz digitalisierter Bilder umfasst. Die Vorrichtung umfasst ein erstes Mittel zur Durchführung einer Analyse der Multimedia¬ daten zur Detektion eines oder mehrerer Objekte in den Multimediadaten. Ferner umfasst die Vorrichtung ein zweites Mittel
zur Zuordnung des oder der Objekte zu jeweils einer Rolle, durch das die Rollenzuordnung unter Verarbeitung von Kontextinformationen ermittelbar ist, wobei die Kontextinformationen ein Modell der Multimediadaten repräsentieren. Das Modell kann mehrere Teilmodelle umfassen.
Die erfindungsgemäße Vorrichtung weist die gleichen Vorteile auf, wie diese in Verbindung mit dem erfindungsgemäßen Verfahren beschrieben wurden.
In einer zweckmäßigen Ausgestaltung weist die erfindungsgemäße Vorrichtung weitere Mittel zur Durchführung des oben beschriebenen Verfahrens auf.
Die Erfindung wird nachfolgend näher anhand eines Ausfüh rungsbeispiels in der Zeichnung erläutert. Es zeigen: den schematischen Ablauf des erfindungsgemäßen Ver fahrens, und eine schematische Darstellung einer erfindungsgemä ßen Vorrichtung zum rechnergestützten Annotieren von Multimediadaten. Fig. 1 zeigt in schematischer Form das grundsätzliche Vorge¬ hen zum rechnergestützten Annotieren von Multimediadaten MD. Die Multimediadaten MD umfassen eine Sequenz digitalisierter Bilder, z.B. einer Fernsehsendung. Eine Anzahl an logisch zusammengehörigen Bildern bildet eine Videosequenz aus, von de- nen in Fig. 1 beispielhaft drei Videosequenzen VS1, VS2, VS3 dargestellt sind. In jeder der Videosequenzen VS1, VS2, VS3 ist eine Anzahl an zunächst unbekannten Objekten Ol, 02, 03 enthalten. Bei den beispielhaft in Videosequenz VS1 dargestellten drei Objekten Ol, 02, 03 handelt es sich z.B. um in einer Sendung auftretende Personen.
Um eine Rollenverteilung der unbekannten Objekte Ol, 02, 03 in einem bekannten semantischen Kontext ausfindig zu machen, wird ein, den Multimediadaten MD zugeordnetes Kontextwissen KW genutzt. Zunächst ist es zweckmäßig, wenn das Kontextwis- sen KW eine Information über die involvierten Identitäten in den Multimediadaten umfasst. Die involvierten Identitäten stellen Rollen dar, zu denen die beobachteten, unbekannten Objekte zugeordnet werden sollen. In einer Interview- Situation gibt es beispielsweise einen Interviewer und einen Interviewten. Die Zuordnung eines Objekts zu einer Rolle identifiziert das Objekt schlussendlich hinsichtlich seiner jeweiligen Identität.
Es ist ferner zweckmäßig, wenn das Kontextwissen KW statisti- sches Wissen des Kontextes umfasst. Dieses statistische Wis¬ sen beschreibt beispielsweise eine generell beobachtbare Häu¬ figkeitsverteilung des Auftretens von Haupt- und Nebenakteu¬ ren in Berichterstattungen. So ist beispielsweise bekannt, dass in Interview-Situationen der Interviewte relativ am Häu- figsten in einer Bildsequenz zu sehen ist. Eine Bildsequenz kann dabei z.B. einer Videosequenz der analysierten Multimediadaten entsprechen.
Das Kontextwissen KW kann ferner Informationen über logische Einschränkungen enthalten. Logische Einschränkungen geben beispielsweise einen ausschließenden Hinweis auf die Rollen¬ zugehörigkeit eines Objekts. Treten zwei Objekte zeitgleich auf, so können diese nicht die gleiche Identität besitzen, sofern in der Videosequenz keine Spiegelung eines Objekts dargestellt ist.
Das Kontextwissen KW umfasst ferner vorzugsweise zusätzliche Informationsquellen hinsichtlich der zu ermittelnden Identitäten der in den Multimediadaten enthaltenen Objekte. Derar- tige Informationsquellen können beispielsweise eine Programmzeitschrift oder eine textuelle Kurzzusammenfassung sein, welche in Datenbanken bereitgestellt werden.
Die beliebige Kombination dieser Arten von Kontextwissen erlaubt die Zuordnung der in den Multimediadaten MD enthaltenen Objekte Ol, 02, 03 zu Identitäten. Bei Personen bezeichnet Identität die ihn kennzeichnende und als Individuum von ande¬ ren Menschen unterscheidende Eigentümlichkeit seines Wesens. Insbesondere soll durch das Verfahren ausfindig gemacht wer¬ den, welche Person oder Personen in den Multimediadaten dargestellt sind.
Die Objektbeobachtung, d.h. die Durchführung einer Analyse der Multimediadaten in ihrer Gesamtheit oder bevorzugt jeweiliger einzelner Videosequenzen VS1, VS2, VS3, lässt alleine keine Ermittlung zu, zu welcher Rolle die in den Multimedia- daten MD bzw. den jeweiligen Videosequenzen VS1, VS2, VS3 ermittelten Objekte Ol, 02, 03 im Kontext gehört. Die Rollenzu¬ ordnung vereinfacht sich jedoch mit zunehmendem Wissen über die Objekte Ol, 02, 03. Eine hierbei relevante Information ist z.B. die Häufigkeit, mit der die einzelnen Objekte Ol, 02, 03 in den Multimediadaten MD bzw. den jeweiligen Videosequenzen VS1, VS2, VS3 auftreten.
Um die Rollenzuordnung zu ermöglichen, ist vorgesehen, einzelne Objekte Ol, 02, 03 durch Beobachtung in einen geeigne- ten Zusammenhang zu bringen. Dies ist beispielsweise bei ei¬ ner visuellen Ähnlichkeit der Objekte Ol, 02, 03 in unterschiedlichen Videosequenzen VS1, VS2, VS3 möglich. Indem Objekte Ol, 02, 03, die aufgrund ihrer visuellen Ähnlichkeiten die gleichen Objekte repräsentieren, in einem Verarbeitungs- schritt TAI zu Objektklassen OK, die unbekannten Identitäten eines Objekts entsprechen, zusammengefasst werden, wird die Zuordnung vorgenommen: Statt vielen einzelnen in einer Videosequenz VS1, VS2, VS3 detektierten Objekten Ol, 02, 03 werden nur noch wenige Objektklassen OK einer Rolle zugeordnet.
Im Verarbeitungsschritt TAI wird ein Clusterverfahren ange¬ wendet, mit dem eine Gruppierung ähnlicher Objekte der in den
Multimediadaten oder jeweiligen Videosequenzen VS1, VS2, VS3 ermittelten Objekte Ol, 02, 03 in Objektklassen erfolgt. Das Maß der Ähnlichkeit zweier Objekte Ol, 02, 03 ist dabei ob¬ jektspezifisch. Neben visuellen Eigenschaften kann das Maß der Ähnlichkeit beispielsweise durch geometrische Faktoren beschrieben sein. Vorzugsweise werden die in den Multimediadaten MD bzw. den Videosequenzen VS1, VS2, VS3 ermittelten Objekte chronologisch verarbeitet, um gewährleisten zu können, dass zwei zeitgleich ermittelte Objekte nicht der glei- chen Objektklasse OK zugeordnet werden.
Ergebnis des Verarbeitungsschritts TAI ist die Zuordnung der Objekte Ol, 02, 03 zu den Objektklassen OK. Es ist in diesem Zusammenhang anzumerken, dass die Objektklassen OK nicht ge- geben sein müssen, sondern während der Analyse der Multimediadaten MD bzw. jeweiliger Videosequenzen VS1, VS2, VS3 erzeugt werden.
In einem weiteren Verarbeitungsschritt TA2 werden den gefun- denen Objektklassen OK zunächst Rollen und dann diesen Identitäten zugewiesen. Statistisches Hintergrundwissen aus dem Kontext der Multimediadaten MD bzw. einer jeweiligen Videosequenz VS1, VS2, VS3 bildet hierbei im Zusammenhang mit der gefundenen Objektklassenzuordnung und den Eigenschaften der Objektklassen eine starke Evidenz.
Dies soll am Beispiel des Szenarios eines Interviews verdeut¬ licht werden. Der Fokus von Interviews in Fernsehberichterstattungen in Talkshows liegt deutlich auf der Seite des Be- fragten (Interviewter oder Gast) . Im Falle eines Interviews hat dies vor allem den Grund, dass der Zuschauer am Befragten interessiert ist, weniger jedoch am Interviewer. Folglich wird der Befragte bei der Einblendung im Videomaterial bevor¬ zugt. Ferner ist die Fragestellung des Interviewers zeitlich gesehen im Schnitt kürzer als die Antwort des Befragten.
Folglich ist der Befragte deutlich öfter und länger im Videomaterial vorhanden. Hieraus erfolgt eine deutlich höhere Prä-
senz des Gastes in den Multimediadaten bzw. einzelner Szenen in den Videosequenzen im Vergleich zu dem Moderator oder dem Interviewer . Im Falle eines Interviews zwischen zwei Personen ist demnach allein die Häufigkeit des jeweiligen Auftretens ausreichend, um die Rollen der beiden Parteien (Objekte) zu identifizie¬ ren. Die Rollenzuordnung kann ohne jegliche Form von Wissen über die Parteien selber vorgenommen werden.
Welche Rollen (Interviewer oder Gast/Gäste) in den Multimediadaten MD vorhanden sind und welche Identitäten welche Rolle ausüben, kann aus den Kontextinformationen KW entnommen werden. Durch die Verarbeitung sämtlicher Informationen kann beispielsweise ausfindig gemacht werden, dass in der Videose¬ quenz VS1 das Objekt Ol der Interviewte, das Objekt 02 der Interviewer und das Objekt 03 ein weiterer Gast der Sendung ist. In Verbindung mit dem Kontextwissen, welches beispielsweise den Moderator einer Sendung sowie die eingeladenen Gäs- te (Interviewte) ausweist, kann diesen Rollen eine Identität zugewiesen werden.
Eine bereits ermittelte Zuordnung einer Identität zu einer Objektklasse und damit allen darin enthaltenen Objekten kann die Zuordnung weiterer, noch nicht identifizierter Identitäten in den Multimediadaten oder jeweiligen Videosequenzen VS1, VS2, VS3 erleichtern. Wurde beispielsweise festgestellt, dass das Objekt Ol der Objektklasse OKI und diese der Identi¬ tät A zugeordnet wurde, so kann ein von Ol unterschiedliches Objekt nicht in der Objektklasse OKI enthalten sein und damit der Identität A entsprechen. Wurde andererseits festgestellt, dass ein zunächst unbekanntes Objekt aufgrund seiner Ähnlich¬ keit ebenfalls in der Objektklasse OKI enthalten ist, so muss dieses auch der Identität A entsprechen. Die Berücksichtigung bereits bekannten Wissens erleichtert hierdurch die weitere Zuordnung von Identitäten zu Objektklassen sowie Objekten.
Durch eine fortlaufende Verarbeitung der Multimediadaten bzw. der einzelnen Videosequenzen VS1, VS2, VS3 können dadurch rechnergestützt Multimediadaten annotiert werden. Es hat sich in Versuchen herausgestellt, dass die Zuordnung unbekannter Objekte zu Objektklassen umso besser realisiert werden kann, wenn kleinere Abschnitte, d.h. einzelne Videose¬ quenzen, der Multimediadaten getrennt untersucht werden. Beispielsweise werden aus einer Videoaufzeichnung des Interviews Szenen ausgesucht, welche anhand der vorhandenen Kontextinformationen verarbeitet werden. Hierbei lässt sich auf ver¬ hältnismäßig einfache Weise eine Zuordnung der Objekte zu den Rollen bzw. Identitäten vornehmen. Eine zusätzliche Erweiterung des Verfahrens kann darin beste¬ hen, dass auf Basis des (zeitlich lokalen) Clusterings in Kombination mit einem statistischen Modell der Häufigkeitsverteilungen in einer Videosequenz eine Klassifikation der Szenen in der Videosequenz (z.B. Interviewsituation) durchge- führt wird.
Fig. 2 zeigt eine erfindungsgemäße Vorrichtung R zur rechnergestützten Annotation von Multimediadaten, die eine Sequenz digitalisierter Bilder umfasst. Die Vorrichtung R umfasst ein erstes Mittel Ml zur Durchführung der Analyse der Multimedia¬ daten zur Identifikation des oder der in den Multimediadaten dargestellten Objekte. Der Rechner R umfasst weiter ein zweites Mittel M2 zur Zuordnung des oder der Objekte Ol, 02, 03 zu jeweils einer Rolle, durch das die Rollenzuordnung unter Verarbeitung von Kontextinformationen ermittelbar ist, wobei Kontextinformationen das Modell der Multimediadaten repräsentieren .
Die Vorrichtung R, das erste Mittel Ml und das zweite Mittel M2 sind in Hardware, Software oder in einer Kombination aus Hard- und Software realisierbar und ausführbar. So kann ein Prozessor mit Speicher in der Vorrichtung vorgesehen sein,
der einzelne Verfahrensschritte des ersten und/oder zweiten Mittels, die beispielweise als Programmcode in dem Speicher abgelegt sind, ausführt und Ergebnisse in dem Speicher orga¬ nisiert ablegt. Daneben können das erste Mittel und das zwei- te Mittel als dedizierte Hardwarekomponenten, beispielsweise als elektrische Schaltung, implementierbar und ausführbar sein. Ferner kann die Vorrichtung über Schnittstellen verfügen, um Parameter zur Steuerung und zur Verarbeitung, z.B. der Multimediadaten, erfassen und an andere Verarbeitungsein- heiten übertragen zu können.