WO1999005681A1

WO1999005681A1 - Verfahren zum abspeichern von suchmerkmalen einer bildsequenz und zugriff auf eine bildfolge in der bildsequenz

Info

Publication number: WO1999005681A1
Application number: PCT/DE1998/001985
Authority: WO
Inventors: Andre Kaup
Original assignee: Siemens Aktiengesellschaft
Priority date: 1997-07-23
Filing date: 1998-07-15
Publication date: 1999-02-04

Abstract

Verfahren zum Abspeichern von Suchmerkmalen einer Bildsequenz, die Toninformation umfaßt, und Zugriff auf eine Bildfolge, die eine echte Teilmenge der Bildsequenz ist. Um in einer Bildsequenz, die Toninformation umfaßt, gezielt suchen zu können, werden Suchmerkmale aus der Toninformation mittels eines Spracherkenners ermittelt. Auch die Eingabe eines zu suchenden Begriffs kann über gesprochene Sprache erfolgen. Suchmerkmale sind alternativ einzelne Worte einer vorgegeben Sprache oder Phoneme/Phonemkombinationen. Mit diesem Verfahren können Bildsequenzen anhand ihrer Toninformation automatisch indiziert werden.

Description

Bftπr-hreibunσ

Verfahren zum Abspeichern von Suchmerkmalen einer Bildsequenz und Zugriff auf eine Bildfolge in der Bildsequenz

Die Erfindung betrifft ein Verfahren zum Abspeichern von Suchmerkmalen einer Bildsequenz, die Toninformation umfaßt, und einen Zugriff auf eine Bildfolge innerhalb der Bildsequenz anhand der Suchmerkmale.

Eine Bildsequenz ist eine Reihe zusammenhängender Bilder mit entsprechender Toninformation. Eine Bildfolge bezeichnet eine echte Teilmenge der Bildsequenz. Vorσebbare Information ist eine in den Suchmerkmalen zu suchende Information.

Vielfältige audiovisuelle Information (Bildsequenzen) wird heute in digitalisierter Form an verschiedenen Orten gespeichert. Um diese audiovisuelle Information zu nutzen, ist es nötig, die interessierenden Daten zunächst einmal aufzufinden.

Ein Spracherkennungssystem ist aus [1] bekannt.

Die MPEG-Standards zur Bildkompression sind dem Fachmann hinlänglich bekannt.

Die Aufgabe der Erfindung besteht darin, aus einer Bildsequenz Suchmerkmale zu bestimmen und abzuspeichern und somit eine Zugriff auf interessierende Daten zu gewährleisten.

Diese Aufgabe wird gemäß den Merkmalen der Patentansprüche 1 und 9 gelöst .

Es wird ein Verfahren zum Abspeichern von Suchmerkmalen einer Bildsequenz, die Toninformation umfaßt, dargestellt, bei dem die Suchmerkmale aus der Toninformation der Bildsequenz ermittelt und abgespeichert werden. Weiterhin gibt eine vorgegebene Information an, welches Suchmerkmal in der Bildsequenz gefunden werden soll. Wird eine Übereinstimmung zwischen der vorgegebenen Information und den Suchmerkmalen der Bildsequenz ermittelt, so wird zu der Bildfolge, die mit dem gefundenen Suchmerkmal verknüpft ist, gesprungen. Ansonsten, wird also keine Übereinstimmung zwischen der vorgegebenen Information und den Suchmerkmalen ermittelt, wird dem Benutzer eine entsprechende Rückmeldung angezeigt.

Befinden sich innerhalb der Bildsequenz mehrere Suchmerkmale, die auf die vorgegebene Information passen, so können die jeweilig verknüpften Bildfolgen einzeln der Reihe nach angesprungen werden oder eine Auswahl mit zusätzlichen zu den jeweiligen Bildfolgen gehörenden Suchmerkmalen in einer Übersicht ausgegeben werden. Hierzu sind verschiedene Möglichkeiten denkbar, die allgemein aus auf Datenbanken anwendbaren Suchtechniken bekannt sind.

Daraus ergibt sich der Vorteil einer automatisch für die jeweilige Bildsequenz resultierenden Menge von Suchmerkmalen, die einfach zu ermitteln sind und mit der Bildsequenz oder getrennt von der Bildsequenz in einer Datenbank abgespeichert werden können.

Eine Weiterbildung der Erfindung besteht darin, die Toninformation mittels eines Spracherkennungssystems auszuwerten im Hinblick auf vorgegebene Wortarten oder vorgegebene Worte. So kann eine vorgegebene Wortart alle Substantive umfassen, die mit der Bildsequenz oder getrennt von der Bildsequenz als Suchmerkmale abgespeichert werden.

Eine andere Weiterbildung besteht darin, die vorgegebene Information mittels gesprochener Sprache einzugeben. Hierzu kann vorteilhaft der Spracherkenner, der für die Erkennung der Suchmerkmale eingesetzt worden ist, verwendet werden. Die Eingabe von natürlich gesprochener Sprache hat u.a. den Vorteil, daß ohne eine zur Verfügung stehende Tastatur oder andere Instrumentierung völlig ohne Benutzung z.B. der Hände die vorgegebene Information eingegeben werden kann. Beispielsweise beim Führen eines Kraftfahrzeugs ist eine Eingabe, bei der der Blick nicht vom Verkehrsgeschehen abgewandt werden muß, von Vorteil.

Auch ist es eine mögliche Weiterbildung, aus den mittels des Spracherkenners erkannten Suchmerkmalen eine Liste anzubieten, die der Benutzer sowohl zur einfachen Auswahl eines Suchmerkmals, das er nicht aktiv kennen muß, benutzen kann. Ferner ist es möglich, eine Liste von beispielsweise Substantiven sortiert nach der Häufigkeit anzubieten, so daß der Benutzer z.B. die aktuellsten Bildfolgen über die Suchmerkmale adressieren kann, wenn die Bildsequenz z.B. Nachrichtensendungen umfaßt .

Eine zusätzliche Weiterbildung besteht darin, als Suchmerkmale Phoneme und/oder Phonemkombination abzuspeichern und somit den letzten Schritt der Spracherkennung, das

Zuordnen zu real existierenden Worten, einzusparen. Dadurch ergibt sich ein flexibler Einsatz, da nicht für jede Sprache ein eigenes Lexikon mit den jeweiligen Umsetzungen in Phoneme und/oder Phonemkombinationen bereitstehen muß.

Ein anderes Verfahren ermöglicht direkt die Suche nach einer vorgegebenen Information innerhalb einer Toninformation umfassenden Bildsequenz, wobei die vorgegebene Information in der Bildsequenz gesucht wird und eine Bildfolge ab dem Bild angezeigt wird, zu dessen Toninformation die vorgegebene Information zugeordnet werden kann. Dadurch können vorteilhaft, ohne Aufwand für Abspeichern und Verwalten von Suchmerkmalen, einzelne, vorzugsweise kurze, Bildsequenzen nach vorgegebener Information abgesucht werden. Eine Weiterbildung besteht darin, mittels eines Spracherkennungssystems vorgebbare Worte aus der Toninformation zu erkennen.

Die Eingabe der vorgegebenen Information kann durch natürlich gesprochene Sprache erfolgen, die von dem Spracherkennungssystem erkannt wird.

Eine andere Weiterbildung ist die Suche nach einer Übereinstimmung zwischen der vorgegebenen Information und der Toninformation auf Basis von Phonemen und/oder Phonemkombinationen. Dabei ist es ein Vorteil, daß der letzte Schritt der Spracherkennung, die Zuordnung einer Phonemkombination zu einem Wort, eingespart wird, wobei damit keine sprachspezifischen Wörterbücher für diese Zuordnung im Spracherkenner vorhanden sein müssen. Es können auf diese Weise Laute und Lautkombinationen innerhalb der zu der Bildsequenz assoziierten Toninformation gefunden werden.

Weiterbildungen der Erfindung ergeben sich aus den abhängigen

Ansprüchen.

Anhand der folgenden Figuren werden Ausführungsbeispiele der

Erfindung näher dargestellt.

Es zeigen

Fig.l ein Blockdiagramm, das Schritte zur Durchführung eines Verfahrens zum Abspeichern einer Bildsequenz und Zugriff auf diese Bildsequenz enthält, Fig.2 eine Skizze, die eine Bildsequenz zeigt, die

Bilddaten und Toninformation umfaßt, Fig.3 eine Skizze, die eine Möglichkeit zum Abspeichern von

Suchmerkmalen zeigt, Fig.4 eine Skizze, die eine Aufteilung einer Liste aus Suchmerkmalen darstellt,

Fig.5 eine Skizze, die das Zusammenspiel zwischen

Toninformation, Spracherkenner, einem Mikrofon für zusätzliche Spracheingabe und den Suchmerkmalen symbolisch veranschaulicht.

In Fiσ.l ist ein Blockdiagramm dargestellt, das Schritte zur Durchführung eines Verfahrens zum Abspeichern einer

Bildsequenz, die Toninformation umfaßt, und einen Zugriff auf diese Bildsequenz enthält .

Dazu werden in einem Schritt 101 Suchmerkmale aus der Toninformation ermittelt. Dies geschieht mittels eines

Spracherkenners, der Worte oder Laute aus der Toninformation erkennt und diese in ihrer Gesamtheit oder nach vorgebbaren Merkmalen gefiltert (siehe unten) als Suchmerkmale abspeichert .

Die Suchmerkmale werden in einem Schritt 102 zusammen mit der Bildsequenz oder in einer getrennten Datenbank abgespeichert. Mit Datenbank ist hier eine allgemeine Ansammlung von Daten gemeint, die optional mit geeigneten Zugriffsmechanismen versehen ist. Solche Datenbanken sind z.B. als funktionales Programmierinterface (z.B. als "application programming interface" API) oder als fertige, eigenständig auf einem Rechner laufende Programme dem Fachmann hinlänglich bekannt .

Über den Zugriff 103 werden die Suchmerkmale mit einer vorgegebenen Information verglichen und, falls eine Übereinstimmung gefunden wird, zu der Bildfolge, die durch das übereinstimmende Suchmerkmal referenziert (mit einem Verweis wird auf die Bildfolge gezeigt) wird, gesprungen werden kann. Wird keine Übereinstimmung zwischen der vorgegebenen Information und den Suchmerkmalen gefunden, so wird vorzugsweise dies dem Benutzer angezeigt.

In Fig.2 ist über den Verlauf einer Zeitachse t eine Bildsequenz BS, die Bilddaten BD und Toninformation TI umfaßt, dargestellt. Innerhalb der Bildsequenz BS ist eine Bildfolge BF als Teil der Bildsequenz BS gezeigt. In Fig.2 wird deutlich, daß die Bilddaten BD und die Toninformation TI eine zeitliche Entsprechung aufweisen, also jedem Tonausschnitt ein eindeutiger Bildausschnitt und umgekehrt zugeordnet werden kann.

Fig.3 zeigt die Bildsequenz BS, die mindestens eine Kombination aus einem Header H und Bilddaten BD (siehe beispielsweise die entsprechende Festlegung im MPEG-Standard: GOP = Group of Pictures) umfaßt, der Suchmerkmale M beispielhaft vorangestellt worden sind. Ebenso können die Suchmerkmale M der Bildsequenz BS angehängt oder innerhalb der Bildsequenz BS abgespeichert werden. Alternativ dazu ist es möglich, die Suchmerkmale M in einer externen Datenbank EDB abzuspeichern und so Suchmerkmale mehrerer Bildsequenzen BS in einer Datenbank zu sammeln. In Fig.3 sind Verweise PTR skizziert, die zeigen, daß zu jedem Suchmerkmal auch ein solcher Verweis gehört, der auf ein Bild innerhalb der Bildsequenz zeigt und somit eine Bildfolge in der Bildsequenz dereferenziert (d.h. die Bildfolge ist durch den Verweis PTR adressierbar) .

Eine Organisation einer Liste von Suchmerkmalen und deren Beziehung zu den Bilddaten BD ist in Fig.4 dargestellt. Es gilt wieder der vertikale Verlauf einer Zeitachse t von oben nach unten. Die Suchmerkmale M sind in Form einer Liste der Bildsequenz BS, die den Header H und die Bilddaten BD enthält, vorangestellt. Die Liste enthält mehrere Suchmerkmale SM1 und SM2. Jedes Suchmerkmal umfaßt jeweils eine beschreibende Komponente INF01 und INF02 und jeweils einen Verweis (Zeiger, engl . : pointer) PTR1 und PTR2 auf ein Bild innerhalb der Bilddaten BD.

Eine zentrale Komponente in Fig.5 ist der Spracherkenner SE . Dort wird die Toninformation TI bearbeitet.

Eine Möglichkeit ist die Erkennung der in der Toninformation enthaltenen Sprache mit den die eine jeweilige Sprache kennzeichnenden Worte. Diese Worte stellen Suchmerkmale SMi (i=l, 2 , 3 , .. ,n) dar, die in die Liste mit Suchmerkmalen LSM eingetragen werden.

Aus der Toninformation erkannte Worte können der Häufigkeit nach sortiert dem Benutzer dargestellt werden, so daß dieser eine Auswahlmöglichkeit für die vorgebbare Information hat.

Auf Wortebene können geeignete Filter nur bestimmte Wortarten, z.B. Substantive, zum Abspeichern oder nur bestimmte vorgegebene Worte, die in einem anwendungsabhängigen Lexikon abgelegt werden, zulassen. Im zweiten Fall kann man gezielt die Toninformation nach Kategorien einstufen. Jede Kategorie umfaßt ein bestimmtes anwendungsabhängiges Lexikon. Ein Beispiel für ein anwendungsabhängiges Lexikon ist ein Sportlexikon mit Worten, die in dieser Themenklasse eine Rolle spielen. Die Toninformation einer Bildsequenz wird auf Übereinstimmungen mit in diesem Sportlexikon vorhandenen Worten untersucht. Jede Übereinstimmung führt zu einem Suchmerkmal, also einer beschreibenden Komponente INFO und einem Verweis PTR auf das Bild, zu dem das jeweilige Wort aufgetreten ist.

Auch ist es möglich, nicht die der Sprache eigenen Worte als Suchmerkmale SMi, sondern Laute, d.h. Phoneme bzw.

Phonemkombinationen, abzuspeichern und somit von einer speziellen Sprache unabhängig zu sein.

Bei der Suche nach einer Bildfolge wird die vorgegebene Information, nach der gesucht werden soll, eingegeben. Diese

Eingabe kann geschehen auf Wortebene, z.B. mittels einer Tastatur oder in Form gesprochener Sprache über ein Mikrofon MIK.

Es kann auch direkt über das Mikrofon MIK oder über eine andere Eingabeeinheit, z.B. eine Tastatur, die vorgegebenen Information eingegeben werden und ohne vorhandene abgespeicherte Suchmerkmale SMi die zu der Bildszene gehörende Toninformation TI nach der vorgegebenen Information abgesucht werden (siehe Verknüpfung 501) . Dabei kann auf Wortebene einer jeweiligen Sprache oder auf Lautebene (Phoneme/Phonemkombinationen) nach der vorgegebenen Information innerhalb der Toninformation TI gesucht werden.

Im Rahmen dieses Dokuments wurde folgende Veröffentlichung zitiert :

[1] Schukat-Talamazzini : Automatische Spracherkennung, Vieweg-Verlag, 1995.

Claims

Patentansprüche

1. Verfahren zum Abspeichern von Suchmerkmalen einer Bildsequenz, die Toninformation umfaßt, und Zugriff auf eine Bildfolge, die eine echte Teilmenge der Bildsequenz ist, a) bei dem die Suchmerkmale aus der Toninformation ermittelt werden, b) bei dem die Suchmerkmale abgespeichert werden, c) bei dem die Suchmerkmale mit einer vorgegebenen

Information verglichen werden und, falls eine übereinstimmendes Suchmerkmal gefunden wird, zu der Bildfolge, die mit dem übereinstimmenden Suchmerkmal verknüpft ist, gesprungen wird, oder eine Ausgabe, daß keine Übereinstimmung zwischen vorgegebener Information mit den Suchmerkmalen gefunden worden ist, dargestellt wird.

2. Verfahren nach Anspruch 1, bei dem durch ein Spracherkennungssystem vorgebbare Worte aus der Toninformation ausgewertet, erkannt und abgespeichert werden.

3. Verfahren nach Anspruch 2, bei dem die vorgebbaren Worte Substantive sind.

4. Verfahren nach einem der Ansprüche 1 bis 3 , bei dem die Suchmerkmale gemeinsam mit der Bildsequenz abgespeichert werden.

5. Verfahren nach einem der Ansprüche 1 bis 4, bei dem die Suchmerkmale in einer von der Bildsequenz separaten Datenbank abgespeichert werden.

6. Verfahren nach einem der Ansprüche 1 bis 5, bei dem die vorgegebene Information mittels gesprochener Sprache eingegeben wird.

Verfahren nach einem der Ansprüche 1 bis 6, bei dem zu der Bildsequenz eine Liste mit den häufigsten aus der Toninformation zu dieser Bildsequenz erkannten Worten angezeigt wird.

Verfahren nach einem der Ansprüche 1 bis 7, bei dem als Suchmerkmale Phoneme und/oder Phonemkombinationen abgespeichert werden.

9. Verfahren zur Suche nach einer Sprache umfassenden vorgegebenen Information in einer Bildsequenz, die Toninformation umfaßt, und Zugriff auf eine Bildfolge, die eine echte Teilmenge der Bildsequenz ist, a) bei dem die vorgegebene Information in der

Toninformation der Bildsequenz gesucht wird, b) bei dem die Bildfolge ab einem Bild, dessen

Toninformation die vorgegebene Information enthält, angezeigt wird.

10. Verfahren nach Anspruch 9, bei dem durch ein Spracherkennungssystem vorgebbare Worte aus der Toninformation erkannt werden.

11. Verfahren nach Anspruch 9 oder 10, bei dem die vorgegebene Information mittels gesprochener Sprache eingegeben wird und durch das Spracherkennungssystem erkannt wird.

12. Verfahren nach einem der Ansprüche 9 bis 11, bei dem Phoneme und/oder Phonemkombinationen der vorgegebenen Information mit Phonemen und/oder Phonemkombinationen aus der Toninformation verglichen werden .