WO2015132263A1

WO2015132263A1 - Verfahren und vorrichtung zum umwandeln von sprachsignalen in text

Info

Publication number: WO2015132263A1
Application number: PCT/EP2015/054427
Authority: WO
Inventors: Achim Gleissner
Original assignee: Sennheiser Electronic Gmbh & Co. Kg
Priority date: 2014-03-03
Filing date: 2015-03-03
Publication date: 2015-09-11
Also published as: DE102014203818A1

Abstract

Es wird ein Verfahren zum Umwandeln von Sprache in einem Audiosignal oder Audio-/Videosignal in Text vorgesehen. Ein erfasstes oder gespeichertes Audiosignal oder Audio-/Videosignal wird analysiert. Die Sprache in dem Audiosignal oder Audio-/Videosignal wird in Textinformationen umgewandelt. Die Zeitinformationen des Audio- signals oder des Audio-/Videosignals werden den Textinformationen zugeordnet.

Description

Verfahren und Vorrichtung zum Umwandeln von Sprachsignalen in Text

Die vorliegende Erfindung betrifft ein Verfahren und eine Vorrichtung zum Umwandeln von Sprachsignalen in Text.

Die Umwandlung von Sprachsignalen in Text ist seit längerem bekannt und wird in vielen Bereichen, z. B. bei einer Diktatsoftware, aber auch zwischenzeitlich bei Smartphones verwendet.

AT 066 921 U1 betrifft ein Verfahren zur automatischen Übereinstimmung von Audio- Segmenten mit Textelementen. Insbesondere wird ein Verfahren gezeigt, welches eine automatische Übereinstimmung von in einer Audioaufnahme enthaltenen Audio- Segmenten mit Textelementen in einem manuell aus der Audioaufnahme erzeugten Transkript ermöglicht. Basierend auf der Audioaufnahme erfolgt eine Umwandlung der Sprachsignale in Text. Dies erfolgt durch Erzeugen eines automatischen oder manuellen Transkripts der Audioaufnahme. Hierbei werden die zu Textelementen geformten Audiosegmente zusammen mit einem Zeitbezug, an welcher Stelle in der Audioaufnahme sich das jeweilige automatisch erkannte Textelement befindet, gespeichert. Bei einer großen Ansammlung von Audio- und/oder Videodateien, wie sie beispielsweise bei Nachrichtensendern vorhanden ist, ist es oftmals schwierig, genau denjenigen Ausschnitt bzw. Abschnitt in einer Audio- und/oder Videodatei zu finden, welcher sich mit einem gewünschten Thema befasst.

Es ist eine Aufgabe der vorliegenden Erfindung, ein verbessertes Verfahren und eine verbesserte Vorrichtung zur Analyse von Sprachinformationen, insbesondere Text, in einem Audio- und/oder Videosignal oder einer Datei und zum Wiedergeben eines Abschnitts eines Audio- und/oder Videosignals, welches einer ausgewählten Textstelle entspricht, vorzusehen.

Diese Aufgabe wird durch ein Verfahren zur Analyse von Sprachinformationen, insbe- sondere Text, in einem Audio- und/oder Videosignal oder einer Datei und zum Wiederge- ben eines Abschnitts eines Audio- und/oder Videosignals nach Anspruch 1 und durch eine entsprechende Vorrichtung nach Anspruch 5 gelöst.

Somit wird ein Verfahren zum Umwandeln von Sprache in einem Audiosignal oder einem Audio-/Videosignal in Text vorgesehen. Dies erfolgt durch Analysieren eines erfassten oder gespeicherten Audiosignals oder Audio-/Videosignals. Das Audiosignal oder das Audio-/Videosignal verfügt über Zeitinformationen. Sprache in dem Audiosignal oder in dem Audio-/Videosignal wird in Textinformation umgewandelt. Die Zeitinformationen des Audiosignals oder des Audio-A/ideosignals werden den umgewandelten Textinformationen zugeordnet. Damit wird eine eindeutige Zuordnung von Textinformationen zu dem Zeitpunkt vorgesehen, an welchem die Textinformationen als Sprache in dem Audiosignal oder dem Audio-A ideosignal auftauchen. Damit wird eine einfache Recherchierbarkeit der Sprachinformationen in Audiosignalen oder in Audio-A/ideosignalen ermöglicht.

Gemäß einem Aspekt der Erfindung ist es möglich, einen Teil des transkribierten Textes auszuwählen und dann die entsprechende Passage oder den Ausschnitt (mit entspre- chenden Zeitinformationen) der aufgezeichneten Audio- und/oder Videodatei wiederzugeben. Gemäß der Erfindung erfolgt eine Umwandlung des Audiosignals oder des Audio- A/ideosignals in Textinformationen beispielsweise mittels einer Transkription. Diese Transkription kann manuell oder automatisch erfolgen. Die Transkription beinhaltet nicht nur die Analyse von Text, sondern kann ebenfalls eine Interpunktion innerhalb des Textes enthalten.

Gemäß einem Aspekt der vorliegenden Erfindung kann anhand der Interpunktion in den analysierten Textinformationen, welche den Audio- und/oder Videodaten zu Grunde liegen (da sie durch eine Transkription der Audio- und/oder Videodaten erhalten wurden) eine Bestimmung eines Satzanfanges und/oder Satzendes erfolgen. So kann beispiels- weise, wenn in dem Text ein Punkt gefolgt wird von einem Leerzeichen und einem Großbuchstaben, davon ausgegangen werden, dass dies einen Satzanfang darstellt. Anhand der Interpunktionsinformationen (z.B. Satzanfang) können Markierungen bezüglich eines Satzanfanges und eines Satzendes erzeugt und gespeichert oder abgelegt werden. Diese Markierungen können als Anfang und Endes eines wiederzugebenden Ausschnitts der Audio- und/oder Videosignale dienen.

Gemäß der Erfindung wird eine Textpassage beispielsweise durch Finden eines Suchbegriffes ausgewählt. Der Textpassage sind Zeitinformationen der Audio- und/oder Videodatei zugeordnet. Durch Auswahl der Textpassage erfolgt somit auch eine Auswahl einer Anfangszeit und einer Endzeit eines Ausschnitts in der Audio- und/oder Videodatei. Damit sind alle Informationen vorhanden, um diesen entsprechenden Teil der Audio- und/oder Videodatei wiedergeben zu können.

Die Auswahl der Textpassagen kann durch den Benutzer beispielsweise durch eine Markierung der Textpassagen erreicht werden. Basierend auf den dazugehörigen Zeitinformationen zum Anfang und Ende der Textpassage kann der entsprechende Abschnitt der Audio- und/oder Videodatei wiedergegeben werden.

Alternativ dazu können, wenn beispielsweise ein Suchbegriff gefunden worden ist, in den Textinformationen nicht nur die dazugehörigen Zeitinformationen berücksichtigt werden, um genau diesen Begriff in der Audio- und/oder Videodatei wiederzugeben, sondern gemäß einem Aspekt der vorliegenden Erfindung werden lediglich ganze Sätze erfasst und der dazugehörige Ausschnitt der Audio- und/oder Videodatei wird wiedergebeben. Der Anfang und optional auch das Ende des wiederzugebenden Abschnittes kann durch die Bestimmung eines Satzanfanges und eines Satzendes (".", Leerzeichen, großer Buchstabe als Satzanfang und „.", Leerzeichen, großer Buchstabe als Satzende) verwendet werden. Somit kann sichergestellt werden, dass der Suchbegriff auch in dem entsprechenden Zusammenhang in der Audio- und/oder Videodatei wiedergegeben wird. Die Kombination„." < Leerzeichen > Großbuchstabe" kann als Referenz für einen Satzanfang bzw. ein Satzende dienen. Gemäß einem weiteren Aspekt kann, wenn eine bestimmte Stelle in dem Text gefunden worden ist, welche für den Anwender interessant ist, der Anfang des wiederzugebenden Ausschnitts der Audio- und/oder Videodatei um ein Intervall vor der gefundenen Textpassage und ein Intervall hinter der gefundenen Textpassage wiedergegeben werden, d.h. als x Sekunden vor und y Sekunden hinter der gewünschten Textpassage oder Textstelle Gemäß einem Aspekt der vorliegenden Erfindung werden die Zeitinformationen des Audiosignals oder des Audio-/Videosignals als Metadaten in die Textinformationen eingebettet, d. h. die Zeitinformationen (nämlich die Information, wann ein Text in dem Audiosignal oder in dem Audio-A/ideosignal auftaucht) werden mit den Textinformationen fest verknüpft. Gemäß einem weiteren Aspekt der vorliegenden Erfindung erfolgt ein Analysieren der umgewandelten Textinformationen im Hinblick auf mindestens einen Suchbegriff. Die Zeitinformationen des Suchbegriffes in dem Text werden ausgegeben, welche den Zeitin- formationen des Audiosignals oder des Audio-/Videosignals an der Stelle entsprechen, wo dieser Suchbegriff im Text auftaucht. Wenn z. B. der Suchbegriff „Sennheiser" eingegeben wird, dann werden die umgewandelten Textinformationen nach diesem Suchbegriff durchsucht. Wenn der Begriff „Sennheiser" in den Textinformationen auftaucht, dann wird die dazugehörige Zeitinformation, nämlich die Zeitangabe, wann dieser Begriff in dem Audiosignal oder dem Audio-A/ideosignal auftaucht, ausgegeben.

Die Erfindung betrifft ebenfalls eine Vorrichtung zum Umwandeln von Sprache in einem Audiosignal oder in einem Audio-A ideosignal in Text. Dazu weist die Vorrichtung eine Analyseeinheit zum Analysieren des erfassten oder gespeicherten Audiosignals oder Audio-/Videosignals auf. Das Audiosignal oder das Audio-A/ideosignal verfügt über Zeitinformationen (beispielsweise ein Zeitcode oder Timestamp). Die Vorrichtung weist ferner eine Umwandlungseinheit zum Umwandeln der Sprache in dem Audiosignal oder dem Audio-A/ideosignal in Textinformationen auf. Ferner weist die Vorrichtung eine Zuordnungseinheit zum Zuordnen der Zeitinformationen des Audiosignals oder des Audio-/Videosignals zu den Zeitinformationen auf.

Die vorliegende Erfindung betrifft den Gedanken, bei der Umwandlung von Sprachsignalen in Text die in dem Sprachsignal vorhandenen Zeitinformationen z. B. als Metadaten in die Textdaten einzubetten. Somit weisen die Textdaten auch eine Zeitinformation (z. B. einen Timecode, Timestamp oder eine Stoppuhr) auf, welche der Zeitinformation des Audio-/Videosignals entspricht. Somit kann eine Stelle des umgewandelten Textes ohne Weiteres einer Stelle des Audiosignals oder des Audio-/Videosignals zugeordnet werden. Wenn somit eine Stelle des umgewandelten Textes ausgewählt wird, dann kann anhand der Zeitinformationen die entsprechende Stelle des Audiosignals oder des Audio- Λ/ideosignals ausgewählt und wiedergegeben werden. Somit wird eine effektive Möglichkeit der zeitgenauen Wiedergabe einer gewünschten Stelle des Audio-A/ideosignals ermöglicht.

Somit betrifft die Erfindung ein Verfahren zum Umwandeln von Sprachsignalen in Text. Ein Audio- oder ein Audio-A/ideosignal wird zusammen mit den Zeitinformationen (time code, time stamp, Uhr etc.) erfasst oder das Verfahren greift auf ein gespeichertes Audio- und/oder Videosignal mit Zeitinformationen zu. Die Sprachsignale werden nach Sprache analysiert und unter Berücksichtigung der Zeitinformationen in Text und optional Interpunktion umgewandelt. Die Zeitinformationen des Sprachsignals werden dem umgewandelten Text zugeordnet, so dass der umgewandelte Text Metadaten (nämlich Zeitinformationen) aufweist. Diese Metadaten (Zeitinformationen) ermöglichen eine direkte Zuord- nung einer Textstelle zu der entsprechenden Stelle bzw. Zeit in dem Audio- und/oder Videosignal. Mit dem erfindungsgemäßen Verfahren ist es somit möglich, den umgewandelten Text nach Stichworten zu recherchieren und dann mit Hilfe der Metadaten (Zeitinformationen) genau an diese Stelle in dem Audio- und/oder Videosignal zu springen und das Audio- und/oder Videosignal dann an dieser Stelle wiederzugeben.

Gemäß einem Aspekt der vorliegenden Erfindung wird ein Verfahren zum Analysieren eines Audiosignals oder eines Audio-A/ideosignals nach Sprache vorgesehen. Hierbei wird Sprache in dem Audiosignal oder in dem Audio-A/ideosignal in Text gemäß einem oben beschriebenen Verfahren umgewandelt.

Mit dem erfindungsgemäßen Verfahren kann eine Textdatei erzeugt werden, welche Metadaten z. B. in Form von einem Zeitcode, Timestamp oder Zeitinformationen aufweist. Mit dem erfindungsgemäßen Verfahren wird eine neue Referenzierbarkeit von Audio- und/oder Videosignalen ermöglicht. Durch die Recherchierbarkeit des umgewandelten Textes und der damit assoziierten Zeitinformationen lässt sich der Text recherchieren und wenn die entsprechende Textstelle gefunden ist, dann kann anhand der damit assoziierten Zeitinformation die entsprechende Stelle des Audio-/Videosignals gefunden und wiedergegeben werden.

Dies ist insbesondere vorteilhaft, da damit eine Recherchierbarkeit von Audiosignalen oder Audio-A/ideosignalen gegeben ist. Dies kann insbesondere vorteilhaft sein im Broadcast-Bereich, d. h. bei Rundfunk- und TV-Ausstrahlungen.

Weitere Ausgestaltungen der Erfindung sind Gegenstand der Unteransprüche.

Vorteile und Ausführungsbeispiele der Erfindung werden nachstehend unter Bezugnahme auf die Zeichnung näher erläutert.

Fig. 1 zeigt ein Flussablaufdiagramm eines Verfahrens zum Umwandeln von

Sprache in Text gemäß einem ersten Ausführungsbeispiel,

Fig. 2 zeigt ein Blockschaltbild einer Vorrichtung zum Umwandeln von Sprache in Text, und

Fig. 3A zeigen eine Darstellung zur Veranschaulichung des erfindungsgemä- - 3C ßen Verfahrens. Fig. 1 zeigt ein Flussablaufdiagramm eines Verfahrens zum Umwandeln von Sprache in Text gemäß einem ersten Ausführungsbeispiel. In Schritt S1 wird ein erfasstes oder gespeichertes Audio- und/oder Videosignal insbesondere im Hinblick auf Sprache, z. B. Wörter und/oder Sätze, analysiert. Eine Analyse der in der Sprache enthaltenen Inter- punktion kann ebenfalls erfolgen. Die Sprache in dem Audiosignal oder dem Audio- Λ/ideosignal AS wird in Text T (Textinformationen), optional inklusive der Interpunktion, in Schritt S2 umgewandelt. Das Audiosignal oder das Audio-A/ideosignal weist Zeitinformationen ZI auf, welche beispielsweise eine mitlaufende Uhr, einen Zeitcode oder Timestamp darstellen können. In Schritt S3 wird die Zeitinformation ZI des Audiosignals oder des Audio-A/ideosignals AS dem umgewandelten Text T und/oder der Interpunktion als Text-Zeit-Information TZI zugeordnet. Bei der Umwandlung der Sprache in Text wird der Timestamp bzw. die Zeitinformation mit berücksichtigt und z. B. als Metadaten des Textes mit aufgenommen. Somit ist jeder Stelle des Textes T auch eine Zeitinformation ZTI zugeordnet. Fig. 2 zeigt ein schematisches Blockschaltbild einer Vorrichtung zum Umwandeln von Sprache in Text. Die Vorrichtung weist eine Analyseeinheit AE auf, welche z. B. den Schritt S1 von Fig. 1 durchführt und damit das Audiosignal oder das Audio-A ideosignal AS nach Sprachsignalen analysiert. Die Vorrichtung weist ferner eine Umwandlungseinheit UE auf, welche die Sprache aus dem Audiosignal oder Audio-A/ideosignal AS in Text T und Interpunktion umwandelt. Die Vorrichtung weist ferner eine Zuordnungseinheit ZE auf, welche die Zeitinformation ZI des Audiosignals oder des Audio-A/ideosignals AS dem umgewandelten Text T als Text-Zeit-Information TZI zuordnet.

Fig. 3A - 3C zeigen eine Darstellung zur Veranschaulichung des erfindungsgemäßen Verfahrens. In Fig. 3A ist ein Audiosignal AS mit seinen Zeitinformationen ZI gezeigt. Die Zeitinformationen stellen dabei eine mitlaufende Uhr da. Das Audiosignal AS wird in einen Text T (Lorem ipsum dolor sit amet, consectetur adipisici elit, sed eiusmod tempor incidunt ut labore et dolore) umgewandelt. Damit stellt Fig. 3A den Stand der Technik dar.

In Fig. 3B ist das Audiosignal AS mit seinen Zeitinformationen ZI und der umgewandelte Text T mit den assoziierten Zeitinformationen TZI gezeigt. In Fig. 3B ist somit erfindungs- gemäß dem umgewandelten Text T eine Zeitinformation TZI zugeordnet. Somit ist die mitlaufende Uhr diesem Text zugeordnet bzw. als Metadaten in den Text eingebettet.

Fig. 3C zeigt eine Textsuche. Hierbei wurde beispielsweise das Wort„labore" gesucht. Dieses Wort taucht bei 13 Sekunden auf. Ausgehend von diesen Zeitinformationen kann dann auf das Audiosignal AS genau bei diesem Zeitpunkt, nämlich bei 13 Sekunden, zugegriffen werden. Hierbei kann dann das Audiosignal wiedergegeben werden.

Somit kann gemäß der Erfindung eine leichte Recherchierbarkeit und Zuordbarkeit der Audiosignale oder Audio-A/ideosignale ermöglicht werden.

Gemäß der Erfindung wird ein Zeitsignal in den umgewandelten Text eingebettet. Damit ist eine Verbindung zwischen dem Audiosignal und dem umgewandelten Text im Sinne einer Referenzierungsinformation möglich.

Die Erfindung betrifft den Gedanken, dass ein Audiosignal oder Audio-A/ideosignal nicht ohne Weiteres nach bestimmten Begriffen recherchiert werden kann. Dies ist jedoch sehr wohl möglich, wenn die Sprache in dem Audiosignal oder dem Audio-/Videosignal in Text umgewandelt worden ist. Gemäß der Erfindung weist der umgewandelte Text Metadaten z. B. hinsichtlich der Zeitinformation des Audiosignals oder Audio-/Videosignals auf. Somit wird die Zeitinformation des Audiosignals in die Textinformation bzw. die Textdatei übertragen und eingebettet.

Gemäß der Erfindung kann wie in Fig. 3C gezeigt dann nach bestimmten Begriffen recherchiert werden und wenn ein Begriff in dem Text T gefunden wird, dann kann anhand der dazugehörigen Metadaten auf die Zeitinformation geschlossen werden, wann dieser Begriff in dem Audiosignal vorhanden ist. Anschließend kann das Audio- und/oder Videosignal genau an dieser Stelle wiedergegeben werden.

Gemäß der Erfindung kann ein Dateiformat vorgesehen werden, bei welchem mehrere Audiosignale oder Audio-/Videospuren vorgesehen sind. Zusätzlich dazu kann eine Textspur zeitsynchron angezeigt werden. Dies kann beispielsweise so erfolgen, dass die Wortanfänge entsprechend zugeordnet sind.

Gemäß einem weiteren Ausführungsbeispiel der Erfindung erfolgt eine Analyse der Sprache in dem Audio- und/oder Videosignal hinsichtlich Text- und Interpunktionsinformationen. Die Textinformationen können eine Transkription der Sprache in dem Audio- und/oder Videosignale darstellen. Die Interpunktionsinformationen können zur Bestimmung eines Satzanfangs und/oder eines Satzendes verwendet werden. Ein „." gefolgt von einem„Leerzeichen" und optional einem Wort mit einem Großbuchstaben wird als ein Hinweis auf einen Satzanfang und ein Satzende angesehen. Einem erfassten Satzanfang und einem erfassten Satzende kann jeweils ein Pointer oder eine Markierung in den Zeitinformationen zugeordnet werden. Diese Markierungen können als Start- und Endpunkte für die Wiedergabe der Audio- und/oder Videodatei oder Signal verwendet werden, wenn ein gesuchter Begriff sich in diesem Satz befindet. Mit anderen Worten, wenn ein Anwender einen Ausschnitt in einer Audio- und/oder Videodatei sucht, in welchem ein bestimmter Begriff vorkommt, dann muss er diesen Begriff in dem transkribierten Text suchen und auswählen. Anhand der Zeitinformationen, die dem gesuchten Begriff zugeordnet sind, kann auf die entsprechende Stelle in der Audio- und/oder Videodatei zugegriffen und wiedergegeben werden. Insbesondere kann anhand der Markierungen eines Satzanfangs nicht nur der Ausschnitt aus der Audio- und/oder Videodatei wiedergegeben werden, an welchem der gesuchte Begriff vorkommt, sondern es kann der gesamte Satz, in welchem der gesuchte Begriff vorkommt, ausgewählt und wiedergegeben werden.

Optional können auch basierend auf den Satzanfangsmarkierungen mehrere Sätze vor und hinter dem gesuchten Begriff wiedergegeben werden. Damit kann erreicht werden, dass der Zusammenhang, in welchem der Begriff vorkommt, wiedergegeben werden kann.

Gemäß einem weiteren Ausführungsbeispiel der Erfindung kann der Anwender zunächst wie oben beschrieben einen Begriff in dem transkribierten Text suchen. Die gefundene Textstelle wird angezeigt. Der Anwender kann dann diejenigen Textpassagen auswählen, die sich in der Umgebung des gesuchten Begriffs befinden, um den entsprechenden Ausschnitt in der Audio- und/oder Videodatei wiederzugeben.

Gemäß einem weiteren Ausführungsbeispiel der Erfindung kann ein erstes und zweites Zeitintervall eingestellt werden. Das erste Zeitintervall stellt dabei ein Zeitintervall dar, welches sich vor dem gesuchten Begriff befindet. Das zweite Intervall stellt dabei ein Zeitintervall dar, das sich hinter dem gesuchten Begriff befindet. Damit kann durch Ein- Stellung des ersten und zweiten Intervalls der Ausschnitt der Audio- und/oder Videodatei, der wiederzugeben ist, ausgewählt werden. Diese Einstellung kann als grundlegende Einstellung einmal vorgenommen werden. Die Einstellungen können natürlich nachträglich verändert werden. Das erste und zweite Intervall beträgt jeweils mindestens 1 Sekunde. Die Erfindung betrifft ebenfalls die folgenden Ausführungsformen oder Kombinationen davon: Ausführungsform 1

Verfahren zum Umwandeln von Sprache in einem Audiosignal oder einem Audio- A ideosignal in Text, mit den Schritten:

Analysieren eines erfassten oder gespeicherten Audiosignals oder eines Audio- A/ideosignals, wobei das Audiosignal oder Audio-A/ideosignal über Zeitinformationen verfügt,

Umwandeln von Sprache in dem Audiosignal oder Audio-A/ideosignal in Textinformationen, und

Zuordnen der Zeitinformationen des Audiosignals oder Audio-A/ideosignals zu den umgewandelten Textinformationen.

Ausführungsform 2

Verfahren nach Ausführungsform 1 , wobei

die Zeitinformationen des Audiosignals oder des Audio-A/ideosignals als Metadaten in die Textinformation eingebettet werden.

Ausführungsform 3

Verfahren nach Ausführungsform 1 oder 2, ferner mit den Schritten:

Analysieren der umgewandelten Textinformationen im Hinblick auf mindestens einen Suchbegriff, und

Ausgeben von Zeitinformationen des Suchbegriffes in dem Text, welche den Zeitinformationen des Audiosignals oder des Audio-A/ideosignals an der Stelle entsprechen, wo dieser Suchbegriff im Text auftaucht.

Ausführungsform 4

Verfahren zum Analysieren eines Audiosignals oder eines Audio-A/ideosignals nach in diesem Signal enthaltenen Sprachinformationen, wobei

die Sprache in dem Audiosignal oder in dem Audio-A/ideosignal mittels eines Verfahrens nach einem der Ausführungsformen 1 bis 3 in Text umgewandelt wird.

Ausführungsform 5

Vorrichtung zum Umwandeln von Sprache in einem Audiosignal oder Audio-A/ideosignal in Text, mit

einer Analyseeinheit (AE) zum Analysieren eines erfassten oder gespeicherten Audiosignals oder Audio-A/ideosignals, wobei das Audiosignal oder das Audio- A/ideosignal über Zeitinformationen verfügt, einer Umwandlungseinheit (UE) zum Umwandeln der Sprache in dem Audiosignal oder dem Audio-/Videosignal in Textinformationen, und

einer Zuordnungseinheit (ZE) zum Zuordnen der Zeitinformationen des Audiosignals oder des Audio-A ideosignals zu den Textinformationen.

Claims

Ansprüche

1 . Verfahren zur Analyse von Sprachinformationen in einem Audio- und/oder Videosignal und zum Wiedergeben eines Ausschnitts eines Audio- und/oder Videosignals, mit den Schritten:

Analysieren eines erfassten oder gespeicherten Audiosignals oder eines Audio- Λ/ideosignals, wobei das Audiosignal oder Audio-A ideosignal über Zeitinformationen verfügt,

Umwandeln von Sprache in dem Audiosignal oder Audio-A/ideosignal in Textinformationen und insbesondere Interpunktionsinformationen,

Zuordnen der Zeitinformationen des Audiosignals oder Audio-A/ideosignals zu den umgewandelten Textinformationen und Interpunktionsinformationen,

Ausgeben von Zeitinformationen des Suchbegriffes in dem Text, welche den Zeitinformationen des Audiosignals oder des Audio-A/ideosignals an der Stelle entsprechen, an welcher der Suchbegriff in dem Audiosignal oder Audio-A/ideosignal auftritt, und

Wiedergeben eines Ausschnitts in dem Audio- und/oder Videosignal, der den Zeitinformationen, an welcher der Suchbegriff auftritt, im Wesentlichen entspricht, wobei die Zeitinformationen des Audiosignals oder des Audio-A/ideosignals als Metadaten in die Textinformation und die Interpunktionsinformationen eingebettet werden.

2. Verfahren nach Anspruch 1 , ferner mit den Schritten

Bestimmen mindestens eines Satzanfangs oder Satzendes eines Satzes, in welchem der Suchbegriff auftritt, basierend auf den Interpunktionsinformationen,

Setzen mindestens einer ersten Markierung an einem Satzanfang und einer zweiten Markierung an einem Satzende mindestens eines Satzes, in welchem der Suchbegriff auftritt.

Wiedergeben eines Ausschnitts in dem Audio- und/oder Videosignal, welches durch Zeitinformationen der ersten und zweiten Markierung begrenzt wird.

3. Verfahren nach Anspruch 1 , ferner mit den Schritten:

Setzen einer ersten Markierung zeitlich vor und einer zweiten Markierung zeitlich hinter den Zeitinformationen, die dem Suchbegriff zugeordnet sind, und

4. Verfahren nach Anspruch 1 , 2 oder 3, ferner mit den Schritten:

Setzen einer ersten Markierung in dem Text vor und einer zweiten Markierung hinter der Stelle in dem Text, an welcher der Suchbegriff auftritt, und

5. Vorrichtung zur Analyse von Sprachinformationen in einem Audio- und/oder Videosignal und zum Wiedergeben eines Ausschnitts eines Audio- und/oder Videosignals, mit einer Analyseeinheit (AE) zum Analysieren eines erfassten oder gespeicherten Audiosignals oder Audio-A/ideosignals, wobei das Audiosignal oder das Audio- /Videosignal über Zeitinformationen verfügt und zum Analysieren der umgewandelten Textinformationen im Hinblick auf mindestens einen Suchbegriff,

einer Umwandlungseinheit (UE) zum Umwandeln der Sprache in dem Audiosignal oder dem Audio-/Videosignal in Textinformationen und insbesondere Interpunktionsinformationen und zum Ausgeben von Zeitinformationen des Suchbegriffes in dem Text, welche den Zeitinformationen des Audiosignals oder des Audio-/Videosignals an der Stelle entsprechen, an welcher der Suchbegriff im dem Audiosignal oder Audio- Λ/ideosignal auftritt, und

einer Zuordnungseinheit (ZE) zum Zuordnen der Zeitinformationen des Audiosignals oder des Audio-A ideosignals zu den Textinformationen,

wobei ein Ausschnitt in dem Audio- und/oder Videosignal, der den Zeitinformationen, an welcher der Suchbegriff auftritt, im Wesentlichen entspricht, wiedergegeben wird.