WO1999005681A1 - Verfahren zum abspeichern von suchmerkmalen einer bildsequenz und zugriff auf eine bildfolge in der bildsequenz - Google Patents

Verfahren zum abspeichern von suchmerkmalen einer bildsequenz und zugriff auf eine bildfolge in der bildsequenz Download PDF

Info

Publication number
WO1999005681A1
WO1999005681A1 PCT/DE1998/001985 DE9801985W WO9905681A1 WO 1999005681 A1 WO1999005681 A1 WO 1999005681A1 DE 9801985 W DE9801985 W DE 9801985W WO 9905681 A1 WO9905681 A1 WO 9905681A1
Authority
WO
WIPO (PCT)
Prior art keywords
image sequence
information
image
search
sound information
Prior art date
Application number
PCT/DE1998/001985
Other languages
English (en)
French (fr)
Inventor
Andre Kaup
Original Assignee
Siemens Aktiengesellschaft
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Aktiengesellschaft filed Critical Siemens Aktiengesellschaft
Publication of WO1999005681A1 publication Critical patent/WO1999005681A1/de

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/11Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information not detectable on the record carrier
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording

Definitions

  • the invention relates to a method for storing search features of an image sequence, which comprises sound information, and to access an image sequence within the image sequence on the basis of the search features.
  • a picture sequence is a series of connected pictures with corresponding sound information.
  • An image sequence denotes a real subset of the image sequence.
  • Predictable information is information to be sought in the search features.
  • a wide range of audiovisual information (image sequences) is now stored in digitized form at various locations. In order to use this audiovisual information, it is first necessary to find the data of interest.
  • a speech recognition system is known from [1].
  • the MPEG standards for image compression are well known to the person skilled in the art.
  • the object of the invention is to determine and store search features from an image sequence and thus to ensure access to data of interest.
  • a method for storing search features of an image sequence comprising sound information is presented, in which the search features consist of the sound information of the image sequence can be determined and saved. Furthermore, predetermined information indicates which search feature is to be found in the image sequence. If a match is found between the specified information and the search features of the image sequence, the system jumps to the image sequence that is linked to the search feature found. Otherwise, if no match is found between the specified information and the search features, the user is shown a corresponding feedback.
  • the respectively linked image sequences can be jumped to one after the other or a selection with additional search features belonging to the respective image sequences can be output in an overview.
  • search techniques that can be used on databases.
  • a further development of the invention consists in evaluating the sound information by means of a speech recognition system with regard to predefined word types or predefined words.
  • a given part of speech can include all nouns that are stored as search features with the image sequence or separately from the image sequence.
  • Another further development consists in entering the specified information by means of spoken language.
  • the speech recognizer that has been used for the recognition of the search features can advantageously be used.
  • the input of naturally spoken language has among others the Advantage that without an available keyboard or other instrumentation, the given information can be entered completely without using eg the hands. For example, when driving a motor vehicle, an input in which the view does not have to be turned away from the traffic situation is advantageous.
  • Another method enables the search for a predetermined information within an image sequence comprising sound information, the predetermined information being searched for in the image sequence and an image sequence from the image being displayed, for the sound information of which the predetermined information can be assigned.
  • image sequences can advantageously be searched for predetermined information without any effort for storing and managing search features.
  • a further development consists in recognizing words which can be predetermined by means of a speech recognition system from the sound information.
  • the input of the predetermined information can be done by naturally spoken language, which is recognized by the speech recognition system.
  • Another development is the search for a match between the given information and the sound information based on phonemes and / or phoneme combinations. It is an advantage that the last step of speech recognition, the assignment of a phoneme combination to a word, is saved, so that no language-specific dictionaries have to be present in the speech recognizer for this assignment. In this way, sounds and combinations of sounds can be found within the sound information associated with the image sequence.
  • Fig.l is a block diagram that contains steps for performing a method for storing an image sequence and access to this image sequence
  • Fig.2 is a sketch showing an image sequence
  • Image data and sound information includes, Figure 3 is a sketch showing a way to save
  • Fig.5 is a sketch showing the interaction between
  • Sound information, speech recognizer, a microphone for additional voice input and the search features are symbolically illustrated.
  • Image sequence comprising sound information and containing access to this image sequence.
  • search features are determined from the sound information in a step 101. This is done using a
  • Speech recognizer who recognizes words or sounds from the sound information and saves them in their entirety or according to predefinable characteristics (see below) as search characteristics.
  • the search features are stored in a step 102 together with the image sequence or in a separate database.
  • database is meant a general collection of data, which is optionally provided with suitable access mechanisms.
  • databases are e.g. As a functional programming interface (e.g. as an "application programming interface” API) or as a finished program that runs independently on a computer, is well known to those skilled in the art.
  • the search features are compared with a predetermined information and, if a match is found, the image sequence which is referenced by the matching search feature (with a reference to the image sequence) can be jumped to. If no match is found between the specified information and the search features, this is preferably displayed to the user.
  • FIG. 2 shows an image sequence BS, which includes image data BD and sound information TI, over the course of a time axis t.
  • An image sequence BF is shown within the image sequence BS as part of the image sequence BS.
  • the image data BD and the sound information TI have a temporal correspondence, that is to say each sound section can be assigned a unique picture section and vice versa.
  • the search features M can be attached to the image sequence BS or stored within the image sequence BS.
  • references PTR are sketched, which show that each search feature also includes a reference which points to an image within the image sequence and thus dereferences an image sequence in the image sequence (i.e. the image sequence can be addressed by the reference PTR).
  • FIG. 4 An organization of a list of search features and their relationship to the image data BD is shown in FIG. 4.
  • the search features M are prefixed in the form of a list of the image sequence BS, which contains the header H and the image data BD.
  • the list contains several search features SM1 and SM2.
  • Each search feature comprises a descriptive component INF01 and INF02 and a reference (pointer) PTR1 and PTR2 to an image within the image data BD.
  • a central component in FIG. 5 is the speech recognizer SE.
  • the sound information TI is processed there.
  • search characteristics SMi 1, 2, 3, .., n
  • Words recognized from the sound information can be presented to the user in order of frequency, so that the user has a selection option for the predefinable information.
  • suitable filters can only use certain word types, e.g. Allow nouns to be saved or only certain specified words that are stored in an application-dependent lexicon.
  • the sound information can be classified according to categories. Each category includes a specific application-specific lexicon.
  • An example of an application-dependent lexicon is a sports lexicon with words that play a role in this topic class.
  • the sound information of an image sequence is examined for correspondences with words present in this sports lexicon. Each match leads to a search feature, that is to say a descriptive component INFO and a reference PTR to the image for which the respective word has occurred.
  • Entry can take place at word level, e.g. using a keyboard or in the form of spoken language using a MIK microphone.
  • the specified information can also be entered directly via the microphone MIK or via another input unit, for example a keyboard, and without existing information stored search features SMi, the sound information TI belonging to the image scene are searched for the predetermined information (see link 501). It can be searched for on the word level of a particular language or on the phonetic level (phonemes / phoneme combinations) for the predetermined information within the sound information TI.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Verfahren zum Abspeichern von Suchmerkmalen einer Bildsequenz, die Toninformation umfaßt, und Zugriff auf eine Bildfolge, die eine echte Teilmenge der Bildsequenz ist. Um in einer Bildsequenz, die Toninformation umfaßt, gezielt suchen zu können, werden Suchmerkmale aus der Toninformation mittels eines Spracherkenners ermittelt. Auch die Eingabe eines zu suchenden Begriffs kann über gesprochene Sprache erfolgen. Suchmerkmale sind alternativ einzelne Worte einer vorgegeben Sprache oder Phoneme/Phonemkombinationen. Mit diesem Verfahren können Bildsequenzen anhand ihrer Toninformation automatisch indiziert werden.

Description

Bftπr-hreibunσ
Verfahren zum Abspeichern von Suchmerkmalen einer Bildsequenz und Zugriff auf eine Bildfolge in der Bildsequenz
Die Erfindung betrifft ein Verfahren zum Abspeichern von Suchmerkmalen einer Bildsequenz, die Toninformation umfaßt, und einen Zugriff auf eine Bildfolge innerhalb der Bildsequenz anhand der Suchmerkmale.
Eine Bildsequenz ist eine Reihe zusammenhängender Bilder mit entsprechender Toninformation. Eine Bildfolge bezeichnet eine echte Teilmenge der Bildsequenz. Vorσebbare Information ist eine in den Suchmerkmalen zu suchende Information.
Vielfältige audiovisuelle Information (Bildsequenzen) wird heute in digitalisierter Form an verschiedenen Orten gespeichert. Um diese audiovisuelle Information zu nutzen, ist es nötig, die interessierenden Daten zunächst einmal aufzufinden.
Ein Spracherkennungssystem ist aus [1] bekannt.
Die MPEG-Standards zur Bildkompression sind dem Fachmann hinlänglich bekannt.
Die Aufgabe der Erfindung besteht darin, aus einer Bildsequenz Suchmerkmale zu bestimmen und abzuspeichern und somit eine Zugriff auf interessierende Daten zu gewährleisten.
Diese Aufgabe wird gemäß den Merkmalen der Patentansprüche 1 und 9 gelöst .
Es wird ein Verfahren zum Abspeichern von Suchmerkmalen einer Bildsequenz, die Toninformation umfaßt, dargestellt, bei dem die Suchmerkmale aus der Toninformation der Bildsequenz ermittelt und abgespeichert werden. Weiterhin gibt eine vorgegebene Information an, welches Suchmerkmal in der Bildsequenz gefunden werden soll. Wird eine Übereinstimmung zwischen der vorgegebenen Information und den Suchmerkmalen der Bildsequenz ermittelt, so wird zu der Bildfolge, die mit dem gefundenen Suchmerkmal verknüpft ist, gesprungen. Ansonsten, wird also keine Übereinstimmung zwischen der vorgegebenen Information und den Suchmerkmalen ermittelt, wird dem Benutzer eine entsprechende Rückmeldung angezeigt.
Befinden sich innerhalb der Bildsequenz mehrere Suchmerkmale, die auf die vorgegebene Information passen, so können die jeweilig verknüpften Bildfolgen einzeln der Reihe nach angesprungen werden oder eine Auswahl mit zusätzlichen zu den jeweiligen Bildfolgen gehörenden Suchmerkmalen in einer Übersicht ausgegeben werden. Hierzu sind verschiedene Möglichkeiten denkbar, die allgemein aus auf Datenbanken anwendbaren Suchtechniken bekannt sind.
Daraus ergibt sich der Vorteil einer automatisch für die jeweilige Bildsequenz resultierenden Menge von Suchmerkmalen, die einfach zu ermitteln sind und mit der Bildsequenz oder getrennt von der Bildsequenz in einer Datenbank abgespeichert werden können.
Eine Weiterbildung der Erfindung besteht darin, die Toninformation mittels eines Spracherkennungssystems auszuwerten im Hinblick auf vorgegebene Wortarten oder vorgegebene Worte. So kann eine vorgegebene Wortart alle Substantive umfassen, die mit der Bildsequenz oder getrennt von der Bildsequenz als Suchmerkmale abgespeichert werden.
Eine andere Weiterbildung besteht darin, die vorgegebene Information mittels gesprochener Sprache einzugeben. Hierzu kann vorteilhaft der Spracherkenner, der für die Erkennung der Suchmerkmale eingesetzt worden ist, verwendet werden. Die Eingabe von natürlich gesprochener Sprache hat u.a. den Vorteil, daß ohne eine zur Verfügung stehende Tastatur oder andere Instrumentierung völlig ohne Benutzung z.B. der Hände die vorgegebene Information eingegeben werden kann. Beispielsweise beim Führen eines Kraftfahrzeugs ist eine Eingabe, bei der der Blick nicht vom Verkehrsgeschehen abgewandt werden muß, von Vorteil.
Auch ist es eine mögliche Weiterbildung, aus den mittels des Spracherkenners erkannten Suchmerkmalen eine Liste anzubieten, die der Benutzer sowohl zur einfachen Auswahl eines Suchmerkmals, das er nicht aktiv kennen muß, benutzen kann. Ferner ist es möglich, eine Liste von beispielsweise Substantiven sortiert nach der Häufigkeit anzubieten, so daß der Benutzer z.B. die aktuellsten Bildfolgen über die Suchmerkmale adressieren kann, wenn die Bildsequenz z.B. Nachrichtensendungen umfaßt .
Eine zusätzliche Weiterbildung besteht darin, als Suchmerkmale Phoneme und/oder Phonemkombination abzuspeichern und somit den letzten Schritt der Spracherkennung, das
Zuordnen zu real existierenden Worten, einzusparen. Dadurch ergibt sich ein flexibler Einsatz, da nicht für jede Sprache ein eigenes Lexikon mit den jeweiligen Umsetzungen in Phoneme und/oder Phonemkombinationen bereitstehen muß.
Ein anderes Verfahren ermöglicht direkt die Suche nach einer vorgegebenen Information innerhalb einer Toninformation umfassenden Bildsequenz, wobei die vorgegebene Information in der Bildsequenz gesucht wird und eine Bildfolge ab dem Bild angezeigt wird, zu dessen Toninformation die vorgegebene Information zugeordnet werden kann. Dadurch können vorteilhaft, ohne Aufwand für Abspeichern und Verwalten von Suchmerkmalen, einzelne, vorzugsweise kurze, Bildsequenzen nach vorgegebener Information abgesucht werden. Eine Weiterbildung besteht darin, mittels eines Spracherkennungssystems vorgebbare Worte aus der Toninformation zu erkennen.
Die Eingabe der vorgegebenen Information kann durch natürlich gesprochene Sprache erfolgen, die von dem Spracherkennungssystem erkannt wird.
Eine andere Weiterbildung ist die Suche nach einer Übereinstimmung zwischen der vorgegebenen Information und der Toninformation auf Basis von Phonemen und/oder Phonemkombinationen. Dabei ist es ein Vorteil, daß der letzte Schritt der Spracherkennung, die Zuordnung einer Phonemkombination zu einem Wort, eingespart wird, wobei damit keine sprachspezifischen Wörterbücher für diese Zuordnung im Spracherkenner vorhanden sein müssen. Es können auf diese Weise Laute und Lautkombinationen innerhalb der zu der Bildsequenz assoziierten Toninformation gefunden werden.
Weiterbildungen der Erfindung ergeben sich aus den abhängigen
Ansprüchen.
Anhand der folgenden Figuren werden Ausführungsbeispiele der
Erfindung näher dargestellt.
Es zeigen
Fig.l ein Blockdiagramm, das Schritte zur Durchführung eines Verfahrens zum Abspeichern einer Bildsequenz und Zugriff auf diese Bildsequenz enthält, Fig.2 eine Skizze, die eine Bildsequenz zeigt, die
Bilddaten und Toninformation umfaßt, Fig.3 eine Skizze, die eine Möglichkeit zum Abspeichern von
Suchmerkmalen zeigt, Fig.4 eine Skizze, die eine Aufteilung einer Liste aus Suchmerkmalen darstellt,
Fig.5 eine Skizze, die das Zusammenspiel zwischen
Toninformation, Spracherkenner, einem Mikrofon für zusätzliche Spracheingabe und den Suchmerkmalen symbolisch veranschaulicht.
In Fiσ.l ist ein Blockdiagramm dargestellt, das Schritte zur Durchführung eines Verfahrens zum Abspeichern einer
Bildsequenz, die Toninformation umfaßt, und einen Zugriff auf diese Bildsequenz enthält .
Dazu werden in einem Schritt 101 Suchmerkmale aus der Toninformation ermittelt. Dies geschieht mittels eines
Spracherkenners, der Worte oder Laute aus der Toninformation erkennt und diese in ihrer Gesamtheit oder nach vorgebbaren Merkmalen gefiltert (siehe unten) als Suchmerkmale abspeichert .
Die Suchmerkmale werden in einem Schritt 102 zusammen mit der Bildsequenz oder in einer getrennten Datenbank abgespeichert. Mit Datenbank ist hier eine allgemeine Ansammlung von Daten gemeint, die optional mit geeigneten Zugriffsmechanismen versehen ist. Solche Datenbanken sind z.B. als funktionales Programmierinterface (z.B. als "application programming interface" API) oder als fertige, eigenständig auf einem Rechner laufende Programme dem Fachmann hinlänglich bekannt .
Über den Zugriff 103 werden die Suchmerkmale mit einer vorgegebenen Information verglichen und, falls eine Übereinstimmung gefunden wird, zu der Bildfolge, die durch das übereinstimmende Suchmerkmal referenziert (mit einem Verweis wird auf die Bildfolge gezeigt) wird, gesprungen werden kann. Wird keine Übereinstimmung zwischen der vorgegebenen Information und den Suchmerkmalen gefunden, so wird vorzugsweise dies dem Benutzer angezeigt.
In Fig.2 ist über den Verlauf einer Zeitachse t eine Bildsequenz BS, die Bilddaten BD und Toninformation TI umfaßt, dargestellt. Innerhalb der Bildsequenz BS ist eine Bildfolge BF als Teil der Bildsequenz BS gezeigt. In Fig.2 wird deutlich, daß die Bilddaten BD und die Toninformation TI eine zeitliche Entsprechung aufweisen, also jedem Tonausschnitt ein eindeutiger Bildausschnitt und umgekehrt zugeordnet werden kann.
Fig.3 zeigt die Bildsequenz BS, die mindestens eine Kombination aus einem Header H und Bilddaten BD (siehe beispielsweise die entsprechende Festlegung im MPEG-Standard: GOP = Group of Pictures) umfaßt, der Suchmerkmale M beispielhaft vorangestellt worden sind. Ebenso können die Suchmerkmale M der Bildsequenz BS angehängt oder innerhalb der Bildsequenz BS abgespeichert werden. Alternativ dazu ist es möglich, die Suchmerkmale M in einer externen Datenbank EDB abzuspeichern und so Suchmerkmale mehrerer Bildsequenzen BS in einer Datenbank zu sammeln. In Fig.3 sind Verweise PTR skizziert, die zeigen, daß zu jedem Suchmerkmal auch ein solcher Verweis gehört, der auf ein Bild innerhalb der Bildsequenz zeigt und somit eine Bildfolge in der Bildsequenz dereferenziert (d.h. die Bildfolge ist durch den Verweis PTR adressierbar) .
Eine Organisation einer Liste von Suchmerkmalen und deren Beziehung zu den Bilddaten BD ist in Fig.4 dargestellt. Es gilt wieder der vertikale Verlauf einer Zeitachse t von oben nach unten. Die Suchmerkmale M sind in Form einer Liste der Bildsequenz BS, die den Header H und die Bilddaten BD enthält, vorangestellt. Die Liste enthält mehrere Suchmerkmale SM1 und SM2. Jedes Suchmerkmal umfaßt jeweils eine beschreibende Komponente INF01 und INF02 und jeweils einen Verweis (Zeiger, engl . : pointer) PTR1 und PTR2 auf ein Bild innerhalb der Bilddaten BD.
Eine zentrale Komponente in Fig.5 ist der Spracherkenner SE . Dort wird die Toninformation TI bearbeitet.
Eine Möglichkeit ist die Erkennung der in der Toninformation enthaltenen Sprache mit den die eine jeweilige Sprache kennzeichnenden Worte. Diese Worte stellen Suchmerkmale SMi (i=l, 2 , 3 , .. ,n) dar, die in die Liste mit Suchmerkmalen LSM eingetragen werden.
Aus der Toninformation erkannte Worte können der Häufigkeit nach sortiert dem Benutzer dargestellt werden, so daß dieser eine Auswahlmöglichkeit für die vorgebbare Information hat.
Auf Wortebene können geeignete Filter nur bestimmte Wortarten, z.B. Substantive, zum Abspeichern oder nur bestimmte vorgegebene Worte, die in einem anwendungsabhängigen Lexikon abgelegt werden, zulassen. Im zweiten Fall kann man gezielt die Toninformation nach Kategorien einstufen. Jede Kategorie umfaßt ein bestimmtes anwendungsabhängiges Lexikon. Ein Beispiel für ein anwendungsabhängiges Lexikon ist ein Sportlexikon mit Worten, die in dieser Themenklasse eine Rolle spielen. Die Toninformation einer Bildsequenz wird auf Übereinstimmungen mit in diesem Sportlexikon vorhandenen Worten untersucht. Jede Übereinstimmung führt zu einem Suchmerkmal, also einer beschreibenden Komponente INFO und einem Verweis PTR auf das Bild, zu dem das jeweilige Wort aufgetreten ist.
Auch ist es möglich, nicht die der Sprache eigenen Worte als Suchmerkmale SMi, sondern Laute, d.h. Phoneme bzw.
Phonemkombinationen, abzuspeichern und somit von einer speziellen Sprache unabhängig zu sein.
Bei der Suche nach einer Bildfolge wird die vorgegebene Information, nach der gesucht werden soll, eingegeben. Diese
Eingabe kann geschehen auf Wortebene, z.B. mittels einer Tastatur oder in Form gesprochener Sprache über ein Mikrofon MIK.
Es kann auch direkt über das Mikrofon MIK oder über eine andere Eingabeeinheit, z.B. eine Tastatur, die vorgegebenen Information eingegeben werden und ohne vorhandene abgespeicherte Suchmerkmale SMi die zu der Bildszene gehörende Toninformation TI nach der vorgegebenen Information abgesucht werden (siehe Verknüpfung 501) . Dabei kann auf Wortebene einer jeweiligen Sprache oder auf Lautebene (Phoneme/Phonemkombinationen) nach der vorgegebenen Information innerhalb der Toninformation TI gesucht werden.
Im Rahmen dieses Dokuments wurde folgende Veröffentlichung zitiert :
[1] Schukat-Talamazzini : Automatische Spracherkennung, Vieweg-Verlag, 1995.

Claims

Patentansprüche
1. Verfahren zum Abspeichern von Suchmerkmalen einer Bildsequenz, die Toninformation umfaßt, und Zugriff auf eine Bildfolge, die eine echte Teilmenge der Bildsequenz ist, a) bei dem die Suchmerkmale aus der Toninformation ermittelt werden, b) bei dem die Suchmerkmale abgespeichert werden, c) bei dem die Suchmerkmale mit einer vorgegebenen
Information verglichen werden und, falls eine übereinstimmendes Suchmerkmal gefunden wird, zu der Bildfolge, die mit dem übereinstimmenden Suchmerkmal verknüpft ist, gesprungen wird, oder eine Ausgabe, daß keine Übereinstimmung zwischen vorgegebener Information mit den Suchmerkmalen gefunden worden ist, dargestellt wird.
2. Verfahren nach Anspruch 1, bei dem durch ein Spracherkennungssystem vorgebbare Worte aus der Toninformation ausgewertet, erkannt und abgespeichert werden.
3. Verfahren nach Anspruch 2, bei dem die vorgebbaren Worte Substantive sind.
4. Verfahren nach einem der Ansprüche 1 bis 3 , bei dem die Suchmerkmale gemeinsam mit der Bildsequenz abgespeichert werden.
5. Verfahren nach einem der Ansprüche 1 bis 4, bei dem die Suchmerkmale in einer von der Bildsequenz separaten Datenbank abgespeichert werden.
6. Verfahren nach einem der Ansprüche 1 bis 5, bei dem die vorgegebene Information mittels gesprochener Sprache eingegeben wird.
Verfahren nach einem der Ansprüche 1 bis 6, bei dem zu der Bildsequenz eine Liste mit den häufigsten aus der Toninformation zu dieser Bildsequenz erkannten Worten angezeigt wird.
Verfahren nach einem der Ansprüche 1 bis 7, bei dem als Suchmerkmale Phoneme und/oder Phonemkombinationen abgespeichert werden.
9. Verfahren zur Suche nach einer Sprache umfassenden vorgegebenen Information in einer Bildsequenz, die Toninformation umfaßt, und Zugriff auf eine Bildfolge, die eine echte Teilmenge der Bildsequenz ist, a) bei dem die vorgegebene Information in der
Toninformation der Bildsequenz gesucht wird, b) bei dem die Bildfolge ab einem Bild, dessen
Toninformation die vorgegebene Information enthält, angezeigt wird.
10. Verfahren nach Anspruch 9, bei dem durch ein Spracherkennungssystem vorgebbare Worte aus der Toninformation erkannt werden.
11. Verfahren nach Anspruch 9 oder 10, bei dem die vorgegebene Information mittels gesprochener Sprache eingegeben wird und durch das Spracherkennungssystem erkannt wird.
12. Verfahren nach einem der Ansprüche 9 bis 11, bei dem Phoneme und/oder Phonemkombinationen der vorgegebenen Information mit Phonemen und/oder Phonemkombinationen aus der Toninformation verglichen werden .
PCT/DE1998/001985 1997-07-23 1998-07-15 Verfahren zum abspeichern von suchmerkmalen einer bildsequenz und zugriff auf eine bildfolge in der bildsequenz WO1999005681A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE19731718 1997-07-23
DE19731718.9 1997-07-23

Publications (1)

Publication Number Publication Date
WO1999005681A1 true WO1999005681A1 (de) 1999-02-04

Family

ID=7836684

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/DE1998/001985 WO1999005681A1 (de) 1997-07-23 1998-07-15 Verfahren zum abspeichern von suchmerkmalen einer bildsequenz und zugriff auf eine bildfolge in der bildsequenz

Country Status (1)

Country Link
WO (1) WO1999005681A1 (de)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001031627A2 (en) * 1999-10-28 2001-05-03 Canon Kabushiki Kaisha Pattern matching method and apparatus
US6801891B2 (en) 2000-11-20 2004-10-05 Canon Kabushiki Kaisha Speech processing system
US6873993B2 (en) 2000-06-21 2005-03-29 Canon Kabushiki Kaisha Indexing method and apparatus
US6882970B1 (en) 1999-10-28 2005-04-19 Canon Kabushiki Kaisha Language recognition using sequence frequency
US6990448B2 (en) 1999-03-05 2006-01-24 Canon Kabushiki Kaisha Database annotation and retrieval including phoneme data
US7054812B2 (en) 2000-05-16 2006-05-30 Canon Kabushiki Kaisha Database annotation and retrieval
US7240003B2 (en) 2000-09-29 2007-07-03 Canon Kabushiki Kaisha Database annotation and retrieval
US7310600B1 (en) 1999-10-28 2007-12-18 Canon Kabushiki Kaisha Language recognition using a similarity measure
US7337116B2 (en) 2000-11-07 2008-02-26 Canon Kabushiki Kaisha Speech processing system

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3216871A1 (de) * 1982-05-03 1983-11-03 Heinrich-Hertz-Institut für Nachrichtentechnik Berlin GmbH, 1000 Berlin Verfahren zur referenzselektion fuer ein automatisches sprachverarbeitungssystem
US5136655A (en) * 1990-03-26 1992-08-04 Hewlett-Pacard Company Method and apparatus for indexing and retrieving audio-video data
EP0507743A2 (de) * 1991-04-04 1992-10-07 Stenograph Corporation Informationsspeicherungs- und Wiederauffindungssystemen
EP0780777A1 (de) * 1995-12-21 1997-06-25 Hewlett-Packard Company Indexierung von Aufnahmen
US5649060A (en) * 1993-10-18 1997-07-15 International Business Machines Corporation Automatic indexing and aligning of audio and text using speech recognition

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3216871A1 (de) * 1982-05-03 1983-11-03 Heinrich-Hertz-Institut für Nachrichtentechnik Berlin GmbH, 1000 Berlin Verfahren zur referenzselektion fuer ein automatisches sprachverarbeitungssystem
US5136655A (en) * 1990-03-26 1992-08-04 Hewlett-Pacard Company Method and apparatus for indexing and retrieving audio-video data
EP0507743A2 (de) * 1991-04-04 1992-10-07 Stenograph Corporation Informationsspeicherungs- und Wiederauffindungssystemen
US5649060A (en) * 1993-10-18 1997-07-15 International Business Machines Corporation Automatic indexing and aligning of audio and text using speech recognition
EP0780777A1 (de) * 1995-12-21 1997-06-25 Hewlett-Packard Company Indexierung von Aufnahmen

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
"CORRELATING AUDIO AND MOVING-IMAGE TRACKS", IBM TECHNICAL DISCLOSURE BULLETIN,ISSN 0018-8689, vol. 33, no. 10A, 1 March 1991 (1991-03-01), USA, pages 295/296, XP000110048 *
HAUPTMANN A G: "SPEECH RECOGNITION IN THE INFORMEDIA DIGITAL VIDEO LIBRARY: USES AND LIMINATIONS", PROCEEDINGS OF THE 7TH. INTERNATIONAL CONFERENCE ON TOOLS WITH ARTIFICIAL INTELLIGENCE, HERNDON, VA., NOV. 5 - 8, 1995, no. CONF. 7, 5 November 1995 (1995-11-05), INSTITUTE OF ELECTRICAL AND ELECTRONICS ENGINEERS, pages 288 - 294, XP000598376 *
SHANDLE J: "DIGITAL AUDIO DELIVERS NON-STOP INNOVATIONS SPEECH AND MUSIC KEEP PUSHING THE FRONTIERS OF COMPUTING ACROSS TECHNOLOGIES INCLUDING COMPRESSION, SYNTHESIS, AND SPEECH RECOGNITION", ELECTRONIC DESIGN, vol. 41, no. 22, 1 November 1993 (1993-11-01), CLEVELAND, OH, US, pages 53/54, 56 - 58, 60, 64 - 66, XP000408631 *
WACTLAR H D ET AL: "AUTOMATED VIDEO INDEXING OF VERY LARGE VIDEO LIBRARIES", SMPTE JOURNAL, vol. 106, no. 8, August 1997 (1997-08-01), pages 524 - 528, XP000698604 *
XUEDONG HUANG ET AL: "THE SPHINX-II SPEECH RECOGNITION SYSTEM: AN OVERVIEW", COMPUTER SPEECH AND LANGUAGE, vol. 7, no. 2, 1 April 1993 (1993-04-01), LONDON, GB, pages 137 - 148, XP000382200 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7257533B2 (en) 1999-03-05 2007-08-14 Canon Kabushiki Kaisha Database searching and retrieval using phoneme and word lattice
US6990448B2 (en) 1999-03-05 2006-01-24 Canon Kabushiki Kaisha Database annotation and retrieval including phoneme data
WO2001031627A3 (en) * 1999-10-28 2002-05-23 Canon Kk Pattern matching method and apparatus
US7310600B1 (en) 1999-10-28 2007-12-18 Canon Kabushiki Kaisha Language recognition using a similarity measure
US7295980B2 (en) 1999-10-28 2007-11-13 Canon Kabushiki Kaisha Pattern matching method and apparatus
US6882970B1 (en) 1999-10-28 2005-04-19 Canon Kabushiki Kaisha Language recognition using sequence frequency
WO2001031627A2 (en) * 1999-10-28 2001-05-03 Canon Kabushiki Kaisha Pattern matching method and apparatus
US7212968B1 (en) 1999-10-28 2007-05-01 Canon Kabushiki Kaisha Pattern matching method and apparatus
US7054812B2 (en) 2000-05-16 2006-05-30 Canon Kabushiki Kaisha Database annotation and retrieval
US6873993B2 (en) 2000-06-21 2005-03-29 Canon Kabushiki Kaisha Indexing method and apparatus
US7240003B2 (en) 2000-09-29 2007-07-03 Canon Kabushiki Kaisha Database annotation and retrieval
US7337116B2 (en) 2000-11-07 2008-02-26 Canon Kabushiki Kaisha Speech processing system
US6801891B2 (en) 2000-11-20 2004-10-05 Canon Kabushiki Kaisha Speech processing system

Similar Documents

Publication Publication Date Title
DE60016722T2 (de) Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars
DE69937176T2 (de) Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern
DE69725802T2 (de) Vorfilterung mittels lexikalischer Bäumen für die Spracherkennung
EP0925461B1 (de) Verfahren zur mehrsprachenverwendung eines hidden markov lautmodelles in einem spracherkennungssystem
EP0925579B1 (de) Verfahren zur anpassung eines hidden-markov-lautmodelles in einem spracherkennungssystem
WO2005013261A1 (de) Verfahren zur spracherkennung und kommunikationsgerät
DE60316912T2 (de) Verfahren zur Spracherkennung
DE10054583C2 (de) Verfahren und Vorrichtung zum Aufzeichnen, Suchen und Wiedergeben von Notizen
WO1998010413A1 (de) Sprachverarbeitungssystem und verfahren zur sprachverarbeitung
DE60220763T2 (de) Automatisches dialogsystem mit einem datenbankbasierten sprachmodell
EP0987682B1 (de) Verfahren zur Adaption von linguistischen Sprachmodellen
EP1264301A1 (de) Verfahren zur erkennung von sprachäusserungen nicht-mutter-sprachlicher sprecher in einem sprachverarbeitungssystem
EP1097447A1 (de) Verfahren und vorrichtung zur erkennung vorgegebener schlüsselwörter in gesprochener sprache
WO1999005681A1 (de) Verfahren zum abspeichern von suchmerkmalen einer bildsequenz und zugriff auf eine bildfolge in der bildsequenz
EP1282897B1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
DE60219030T2 (de) Verfahren zur mehrsprachigen Spracherkennung
DE60021666T2 (de) Inkrementales Trainieren eines Spracherkenners für eine neue Sprache
DE19503419A1 (de) Verfahren und Einrichtung zur Ausgabe von digital codierten Verkehrsmeldungen mittels synthetisch erzeugter Sprache
WO2002046956A2 (de) Verfahren und vorrichtung zur automatischen auskunfterleitung mittels einer suchmaschine
EP1184838B1 (de) Phonetische Übersetzung für die Sprachsynthese
EP0814457B1 (de) Verfahren zur automatischen Erkennung eines gesprochenen Textes
DE10229207B3 (de) Verfahren zur natürlichen Spracherkennung auf Basis einer Generativen Transformations-/Phrasenstruktur-Grammatik
EP0834859B1 (de) Verfahren zum Bestimmen eines akustischen Modells für ein Wort
EP1078354B1 (de) Verfahren und anordnung zur bestimmung spektraler sprachcharakteristika in einer gesprochenen äusserung
DE102011112887A1 (de) Verfahren zur kontextbezogenen Informationsabfrage

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): CN JP KR US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
NENP Non-entry into the national phase

Ref country code: KR

122 Ep: pct application non-entry in european phase