WO2008064742A1

WO2008064742A1 - Verfahren zur wiedergabe von textinformationen durch sprache in einem fahrzeug

Info

Publication number: WO2008064742A1
Application number: PCT/EP2007/009073
Authority: WO
Inventors: Stefan Sellschopp
Original assignee: Audi Ag
Priority date: 2006-11-29
Filing date: 2007-10-19
Publication date: 2008-06-05
Also published as: CN101523483A; DE102006056286B4; DE102006056286A1; CN101523483B

Abstract

Die Erfindung betrifft ein Verfahren zur Wiedergabe von Textinformationen durch Sprache in einem Fahrzeug, bei welchem folgende Schritte durchgeführt werden: a) Bereitstellen von Textelementen in einer fahrzeugexternen Einheit; b) Erzeugen und Bereitstellen von spezifischen Ausspracheinformationen für die jeweiligen Textelemente; c) Übermitteln der Textelemente und der spezifischen Ausspracheinformationen an eine fahrzeuginterne Verarbeitungseinheit; d) Zuordnen der spezifischen Ausspracheinformationen zu den jeweiligen Textelementen; e) Wiedergabe der Textelemente unter Berücksichtigung der spezifischen Ausspracheinformationen durch eine elektronische Spracheinrichtung in dem Fahrzeug.

Description

Verfahren zur Wiedergabe von Textinformationen durch Sprache in einem

Fahrzeug

BESCHREIBUNG:

Die Erfindung betrifft ein Verfahren zur Wiedergabe von Textinformationen durch Sprache in einem Fahrzeug.

In Fahrzeugen sind vorhandene Systeme bekannt, beispielsweise Navigati- onssysteme, welche als Textbausteine abgelegte Informationen durch Sprachsignale akustisch wiedergeben können. Diese Systeme sind auf abgelegte Basis-Textelemente beschränkt und lediglich die zugrunde gelegten Textelemente können durch Sprache wiedergegeben werden. Eine Erweiterung derartiger Systeme ist nicht möglich.

Darüber hinaus sind Systeme bekannt, bei denen extern empfangene Textinformationen durch Sprache im Fahrzeug wiedergegeben werden können. Ein wesentliches Problem dabei ist die eindeutige und verständliche Wiedergabe dieser Textinformationen durch Sprache.

Daher ist es Aufgabe der vorliegenden Erfindung, ein Verfahren zu schaffen, mit dem die Wiedergabe von Textinformationen durch Sprache in einem Fahrzeug verbessert werden kann.

Diese Aufgabe wird durch ein Verfahren, welches die Merkmale nach Patentanspruch 1 aufweist, gelöst.

Bei einem erfindungsgemäßen Verfahren werden Textinformationen durch Sprachsignale in einem Fahrzeug wiedergegeben. Die wiederzugebenden Textinformationen werden als Textelemente in einer fahrzeugexternen Einheit bereitgestellt. Die Textelemente können auch in dieser fahrzeugexternen Einheit prinzipiell erzeugt werden. Des Weiteren werden spezifische Ausspracheinformationen für die jeweiligen Textelemente erzeugt und bereitgestellt. Die Textelemente und die spezifischen Ausspracheinformationen werden an eine fahrzeuginterne Verarbeitungseinheit übertragen bzw. übermittelt. Die spezifischen Ausspracheinfor- mationen werden den jeweiligen Textelementen zugeordnet. Die Textelemente werden unter Berücksichtigung der spezifischen Ausspracheinformationen durch eine elektronische Spracheinrichtung in dem Fahrzeug wiedergegeben. Durch diese Vorgehensweise kann eine Vielzahl unterschiedlicher und individueller Textinformationen durch eine wesentlich verbesserte Sprachwiedergabe in dem Fahrzeug mitgeteilt werden. Insbesondere durch die externe Optimierung der Textinformationen mit den als spezifischen Ausspracheinformationen bereitgestellten Hilfsinformationen kann die Eindeutigkeit und Verständlichkeit der Sprachsignale wesentlich erhöht werden. Dadurch kann auch die Wiedergabe komplexester Texte eindeutiger und ver- ständlicher erfolgen.

Bevorzugt wird das Zuordnen der spezifischen Ausspracheinformationen zu den jeweiligen Textelementen fahrzeugextern durchgeführt. Dadurch kann die Flexibilität der wiederzugebenden Texte erhöht werden. Des Weiteren kann der im Fahrzeug benötigte elektronische Speicherplatz wesentlich reduziert werden.

Das Zuordnen der spezifischen Ausspracheinformationen zu den jeweiligen Textelementen kann jedoch auch fahrzeugintern durchgeführt werden.

Die Ausspracheinformationen werden bevorzugt in einer Datenbank abgelegt, welche bedarfsabhängig nach den jeweils erforderlichen Informationen durchsucht wird.

Die Textelemente und die spezifischen Ausspracheinformationen werden bevorzugterweise im Betrieb des Fahrzeugs in das Fahrzeug übertragen, insbesondere drahtlos übertragen.

Bevorzugt werden die spezifischen Ausspracheinformationen und/oder die Zuordnung zu den Textelementen in einer standardisierten Form erzeugt. Bevorzugt kann dabei vorgesehen sein, dass die spezifischen Ausspracheinformationen und/oder die Zuordnung zu den Textelementen in SSML- (Sprachsynthese Markup Language)-Sprache erzeugt wird. Bevorzugt werden in der fahrzeuginternen Einheit bzw.- Verarbeitungseinheit vor der grundlegenden Inbetriebnahme, und somit vor der Auslieferung an den Endkunden) des Sprachausgabesystems Basis-Textelemente mit zugeordneten Basis-Ausspracheinformationen abgespeichert.

Bevorzugt werden in das Fahrzeug übertragene Textelemente mit Basis- Textelementen verglichen und bei einem Abweichen der spezifischen Ausspracheinformationen der Textelemente für die korrekte Sprachausgabe des Textes berücksichtigt.

Bevorzugt werden die Textelemente und die spezifischen Ausspracheinformationen über digitale Broadcastmedien, insbesondere über ein digitales Rundfunknetz_., übertragen.

Unter Textelemente werden sowohl einzelne Worte als auch Satzteile oder gesamte Sätze umfasst. Es können auch mehr Sätze unter einem Textelement gefasst werden.

Sprachsynthese erzeugt aus Textinformationen Sprachsignale, indem die Textinformationen nach hinterlegten Mustern und Ausspracheschemata vorgelesen werden. Die zugrunde gelegte Software zur Sprachausgabe wird als Sprachsynthese oder Text to Speech (TTS)-Engine bezeichnet. Die TTS- Engine kann durch Ergänzung des Textes um Ausspracheinformationen zu einzelnen Wörtern oder Satzstrukturen, wie Grammatiken, in der Aussprache unterstützt werden. Dies kann beispielsweise bei Navigationssystemen eingesetzt werden. Die TTS-Engine weist den Vorteil auf, dass man ohne natürlichen Sprecher arbeiten kann und auch noch nachträglich neue so genannte Prompts, also Textausgaben, erzeugen kann. Die durch die optimierte TTS- Engine erzeugten Audiofiles werden im Fahrzeug abgelegt und durch Events angesprochen, vergleichbar der heutigen Navigationsausgaben, bei denen beispielsweise abhängig von einem Erreichen eines bestimmten Abstands zu einem nächsten Ziel durch ein Sprachsignal angegeben wird, das ein Abbiegen nach 200 m links erfolgen soll. Die Satzteile werden aus den Bausteinen dynamisch zusammengebaut, welche im Fahrzeug gespeichert sind. Diese Basis-Textelemente sind als grundlegende Informationen in dem System abgelegt, um eine prinzipielle Funktionalität im Hinblick auf eine Sprachausgabe von Textinformationen generell gewährleisten zu können. Dies ist jedoch ein fest vorgegebener und begrenzter Satz von Textelementen , welcher für verschiedenste Textinformationen und Darstellungen nicht ausreicht. Durch das erfindungsgemäße Verfahren bzw. eine vorteilhafte Ausgestaltung davon kann nun eine Optimierung dieser Sprachausgabe von verschiedensten Textinformationen erreicht werden, indem dieses Optimieren im Wesent- liehen außerhalb des Fahrzeugs in einer fahrzeugexternen Einheit erfolgt. Bei der Optimierung werden dann für die TTS-Engine spezifische Transskripts, also Lautsprache, erzeugt. Diese können entweder dynamisch ins Fahrzeug übertragen werden oder nach dem Übertragen im Fahrzeug gespeichert werden. Anschließend erfolgt dann die akustische Audioausgabe im Fahrzeug. Diese auszusprechenden Texte mit Hilfsinhalten bzw. spezifischen Ausspracheinformationen können im Fahrzeug durch eine vergleichbare TTS-Engine analog zu einer so genannten Offboardumsetzung in eine Audioausgabe umgesetzt werden. Ein wesentlicher Vorteil, welcher dadurch erreicht werden kann, ist darin zu sehen, dass man nachträglich neue und vielfältigste unterschiedliche Inhalte von Textinformationen ins Fahrzeug bringen kann und mit verbesserter Sprachausgabe durch das System wiedergeben kann. So können insbesondere über Broadcastmedien drahtlos übertragene Text-Nachrichteninformationen übertragen werden und durch Sprachsignale im Fahrzeug eindeutig ausgegeben werden. Die als spezifi- sehe Ausspracheinformationen extern erzeugten Hilfsinhalte können dann zu einer eindeutigen Aussprache im Fahrzeug beitragen und eine erhebliche Verbesserung der Verständlichkeit gewährleisten. Für die Aussprache optimierte Inhalte können auch über einen Nachrichtendienst ans Fahrzeug ü- bertragen werden.

Die TTS-Engine kann die Optimierung interpretieren und eine zufrieden stellende Ausgabe durchführen. Darüber hinaus wird durch das Verfahren eine erhebliche Reduzierung des erforderlichen Speicherplatzes erreicht, da die Speicherung von Text inklusive Optimierung in Textform etwa 10 bis 100 mal weniger Speicher benötigt, als die Ablage einer Vielzahl von Basis- Textelementen mit zugeordneten Basis-Ausspracheinformationen als grundlegende Wortbasis in einem derartigen System. Bevorzugt wird somit Offboard bzw. fahrzeugextern eine Optimierung der Textinformationen im Hinblick auf die Sprachdarstellung durchgeführt und das Audiofile erzeugt und im Fahrzeug nur das Audiofile ausgegeben.

Bevorzugt ist dann vorgesehen, dass die Beschreibung der Sprachoptimierung in einer standardisierten Form durchgeführt wird, damit unterschiedliche TTS-Engines die Inhalte gleich interpretieren können. Dies ist insbesondere bei dynamisch eingebrachten Nachrichten besonders vorteilhaft, da diese von allen Empfängern verarbeitet werden müssen. Ein möglicher Standard für die Sprachoptimierung ist die SSML-Sprache, aus der zum Beispiel ein Subset definiert werden kann und den dann die entsprechenden Empfänger- Systeme unterstützen und den die Sendeeinheiten liefern.

Besonders vorteilhaft erweist sich eine Vorgehensweise, bei der eine automatische Optimierung der Sprachausgabe von verschiedensten Textinformationen zugrunde gelegt wird. Beispielweise kann hier vorgesehen sein, dass die Textinformationen, die für den Nachrichtendienst ausgesendet werden, laufend aktualisiert werden, so dass eine manuelle Überprüfung der Inhalte auf Aussprechverhalten sehr aufwändig ist. Durch die automatische Optimierung kann dies verbessert werden.

Eine beispielhafte Vorgehensweise im Hinblick auf die automatische Optimierung kann vorsehen, dass zunächst Texte importiert werden und eine Aussprachedatenbank mit spezifischen Ausspracheinformationen geladen wird. Dann wird ein Vergleich der Textelemente der übertragenen Texte mit Basis-Textelementen durchgeführt und die Texte werden durch entspre- chende Lautschriften ergänzt. Da sowohl für die Basis-Textelemente bereits vorab gespeicherte und zugeordnete Ausspracheinformationen vorliegen und auch für die mit den Texten übertragenen Textelemente spezifische Ausspracheinformationen vorhanden sind, kann der gesamte Text mit individuellen Ausspracheinformationen zugrunde gelegt werden und mit bestmöglicher Aussprache ausgeführt werden. Auch dann, wenn Textteile übertragen werden, welche durch die Basis-Textelemente nicht bekannt oder abgedeckt werden, können dann auch diese quasi nicht bekannten Textelemente eindeutig und klar durch Sprachsignale dargestellt werden, da auch denen spezifische Ausspracheinformationen zugeordnet sind, welche individuell Offbo- ard erstellt und zusätzlich als Hilfsinformationen mit übertragen werden.

Die Ausgabe des gesamten Textes kann dann automatisch erfolgen oder zu einem vom Fahrzeugnutzer bestimmten Moment wiedergegeben werden. Somit kann der Fahrzeugnutzer Zeitpunkt und Dauer der Wiedergabe selbst bestimmen.

Darüber hinaus kann vorgesehen sein, dass eine Nachbearbeitung, insbesondere eine manuelle Nachbearbeitung, durch einen Redakteur erfolgen kann. Dadurch kann eine nochmalige Verbesserung erreicht werden und quasi ein Lernmodus initiiert werden.

Claims

PATENTANSPRÜCHE:

1. Verfahren zur Wiedergabe von Textinformationen durch Sprache in einem Fahrzeug, bei welchem folgende Schritte durchgeführt werden: a) Bereitstellen von Textelementen in einer fahrzeugexternen Einheit; b) Erzeugen und Bereitstellen von spezifischen Ausspracheinformationen für die jeweiligen Textelemente; c) Übermitteln der Textelemente und der spezifischen Ausspracheinformationen an eine fahrzeug interne Verarbeitungseinheit; d) Zuordnen der spezifischen Ausspracheinformationen zu den jeweiligen Textelementen; e) Wiedergabe der Textelemente unter Berücksichtigung der spezifischen Ausspracheinformationen durch eine elektronische Spracheinrichtung in dem Fahrzeug.

2. Verfahren nach Anspruch 1 , dadurch gekennzeichnet, dass das Zuordnen der spezifischen Ausspracheinformationen zu den jeweiligen Textelementen fahrzeugextern durchgeführt wird.

3. Verfahren nach Anspruch 1 , dadurch gekennzeichnet, dass das Zuordnen der spezifischen Ausspracheinformationen zu den jeweiligen Textelementen fahrzeugintern durchgeführt wird.

4. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Ausspracheinformationen in einer Datenbank abgelegt werden, welche bedarfsabhängig durchsucht wird.

5. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Textelemente und die spezifischen Ausspracheinformationen im Betrieb des Fahrzeugs in das Fahrzeug übertragen, insbesondere drahtlos übertragen, werden.

6. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die spezifischen Ausspracheinformationen und/oder die Zuordnung zu den Textelementen in einer standardisierten Form erzeugt werden.

7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass die spezifischen Ausspracheinformationen und/oder die Zuordnung zu den Textelementen in SSML-Sprache erzeugt wird.

8. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass in der fahrzeuginternen Einheit vor der grundlegenden Inbetriebnahme des Sprachausgabesystems Basis-Textelemente mit zugeordneten Basis-Ausspracheinformationen abgespeichert werden.

9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass in das Fahrzeug übertragene Textelemente mit Basis-Textelementen verglichen werden und bei einem Abweichen die spezifischen Ausspracheinformationen der Textelemente für die Sprachausgabe des Textes berücksichtigt werden.

10. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Textelemente und die spezifischen Ausspracheinformationen über Broadcastmedien, insbesondere über ein digitales Rundfunknetz, übertragen werden.